خانه / کارگردانی / کارگردانی تلویزیونی / هوش مصنوعی در برودکست(قسمت دوم)

هوش مصنوعی در برودکست(قسمت دوم)

این مقاله ترجمه مقاله ای است که شرکت EVS در ۱۳سپتامبر ۲۰۲۳ (۲۲ شهریور ۱۴۰۲)در مورد هوش مصنوعی در برودکست، منتشر کرده است.

نویسنده: ریحانه نوروزبیگی

 

EVS در سطح جهانی به عنوان ارائه‌دهنده پیشرو در فناوری ویدیوی زنده برای تولید زنده در تلویزیون و رسانه‌های جدید شناخته شده است. راه‌حل‌های EVS که کل فرآیند تولید را در بر می‌گیرد، مورد اعتماد تیم‌های تولید در سرتاسر جهان است تا جذاب‌ترین تصاویر ورزشی زنده، برنامه‌های سرگرمی پرهیاهو و اخبار فوری را به میلیاردها بیننده هر روز و در زمان واقعی ارائه دهند

 

 

 

هوش مصنوعی در برودکست

هوش مصنوعی (AI) تأثیر عمیقی بر صنایع متعدد و حوزه های گوناگون زندگی دارد و دنیای تولید زنده نیز از این قاعده مستثنی نیست . از آنجایی که پبرودکسترها در تلاش برای بهینه‌سازی گردش کار، کاهش هزینه‌ها و جذب مخاطبان هستند، فناوری‌های مبتنی بر هوش مصنوعی به عنوان ابزار قدرتمندی برای دستیابی به این اهداف و موارد دیگر ظاهرشده‌اند . راه‌حل‌های مبتنی بر هوش مصنوعی با خودکار کردن کارهای وقت‌گیر و ایجاد قابلیت‌های خلاقانه جدید، ارزش بسیار زیادی برای تولیدات زنده به ارمغان می‌آورند و کاربردهای متعددی را در مراحل مختلف زنجیره تولید پیدا کرده‌اند. مرور برخی از این، موارد درک بهتری از قابلیت هوش مصنوعی در برودکست برای ما ایجاد می کند.

چالش پخش مجدد فیلم
فناوری پخش مجدد مانند پخش صحنه های ورزشی به صورت آهسته، در طول دهه ها ی اخیر، به طور قابل توجهی تکامل یافته است. این صنعت از SDI به IP، از کیفیت استاندارد به کیفیت بالا و در نهایت به کیفیت فوق العاده بالا پیشرفت کرده است. با این حال، نحوه پردازش تصاویر دوربین به منظور ایجاد حرکت آهسته عمدتاً بدون تغییر باقی مانده است.
این فرآیند شامل پخش تصاویر ضبط شده با سرعت کم، حفظ نرخ فریم اصلی تولید از طریق تکرار فریم است. تصاویر بدون هیچ گونه تغییری پخش می شوند، زیرا تمام پردازش لازم روی تصویر، قبل از ضبط آنها انجام می شود.
این موضوع، چدان مطلوب نیست، زیرا این رویکرد به این معنی است که در طول رویداد، فرصت‌های خلاقانه‌ای که تیم‌های تولید در اختیار دارند، با مصالحه‌ها و ملاحظاتی که هنگام انتخاب دوربین‌ها و لنزها در مرحله برنامه‌ریزی تولید انجام می‌شود، محدود می‌شود، که در نهایت بر کیفیت و تأثیر پخش‌های مجدد تأثیر می‌گذارد. در طول این مرحله، تیم‌ها طرح دوربین را تعیین می‌کنند که پخش زنده و اسلوموشن موجود در دسترس را برای کارگردان در طول رویداد دیکته می‌کند. طرح دوربین شامل تصمیم‌گیری در مورد قرار دادن دوربین‌های Super Slow Motion (SSM) برای پخش مجدد حرکت آهسته، استفاده از لنزهای زاویه باز و انتخاب لنزهای با زاویه بسته تر است. همچنین مشخص می‌کند که کدام دوربین‌ها باید عمق میدان کم داشته باشند تا سکانس‌های هیجان‌انگیز را ثبت کنند.
با این حال، هر تصمیم در مورد دوربین و انتخاب لنز مستلزم مصالحه ذاتی است. برای مثال، استفاده از دوربین‌های SSM با زمان نوردهی کوتاه‌تر و دیافراگم‌های بازتر منجر به عمق میدان کم‌تر می‌شوند و حفظ تمرکز بر روی اجسام با حرکت سریع را دشوار می‌کنند. تعیین مقدار ایده‌آل تاری حرکت به محتوایی که گرفته می‌شود و سرعت پخش مورد نظر بستگی دارد. انتخاب بین یک نمای زاویه باز برای درک جامع بازی یا یک زاویه بسته تر برای برجسته کردن اقدامات خاص به یک نقطه تصمیم گیری حیاتی تبدیل می شود. علاوه بر این، در حالی که عمق میدان کم‌تر، سکانس‌های هیجان‌انگیز ایجاد می‌کند، ممکن است برای ثبت لحظات سریع بازی در حال پخش، مناسب نباشد.
این سازش‌هایی که از قبل در مرحله برنامه‌ریزی انجام شده است، فضای کمی را برای تنظیمات در زمان واقعی باقی می‌گذارد. با این حال، با ظهور هوش مصنوعی مولد، این محدودیت، برطرف، می شود.

شبیه سازی دوربین های با نرخ فریم بالاتر با استفاده از درون یابی فریم زمانی
روش معمول برای لذت بردن بینندگان با پخش مجدد حرکت آهسته، استفاده از دوربین هایی با نرخ فریم بالا است که به عنوان دوربین های Super Slow Motion (SSM) نیز شناخته می شود. این دوربین‌ها تعداد فریم‌های بیشتری را در ثانیه ارائه می‌کنند و سرور را قادر می‌سازند تا بدون استفاده از فریم‌های تکراری، ویدیوی حرکت آهسته ایجاد کند. با این حال، محدودیت های کاربردی و بودجه، داشتن دوربین هایی با نرخ فریم بالا در هر موقعیت، دوربین دلخواه را غیر واقعی می کند. هوش مصنوعی این امکان را فراهم می‌کند که حتی از دوربین‌های با نرخ فریم استاندارد ( و نه نرخ فریم بالا)، بازپخش‌ حرکت های آهسته روان ارائه شوند. درون یابی فریم زمانی یک تکنیک قدرتمند است که کلید تبدیل ویدیوی استاندارد به ویدیوهای با نرخ فریم بالا را در اختیار دارد، که برای ارائه بازپخش‌های حرکت آهسته یکنواخت عالی است. فرآیند محاسباتی، شامل تولید فریم های میانی بین دو فریمی است که توسط دوربین گرفته شده اند. این فریم های تولیدی “فریم های توهمی” نامیده می شود، همان طور که در شکل ۱ نشان داده شده است، می توان این فریم های توهمی را بین فریم های اصلی قرار داد تا ا نرخ فریم بالاتری تولید شود که برای پخش تکرار حرکت های آهسته نرم تر، ایده آل است.

شکل۱- ضرب نرخ فریم ویدئوی فوتبال در ضریب سه با استفاده از درون یابی فریم زمانی. این تکنیک شامل قرار دادن دو تصویر توهم‌آمیز بین هر جفت تصویر از جریان فریم های ویدیویی ارائه شده توسط دوربین است.

افزایش وضوح تصویر با رفع تاری

در حالی که درون یابی فریم زمانی امکان پخش مجدد روان را از هر دوربینی فراهم می کند، تفاوت قابل توجهی در وضوح تصویر تولیدشده در مقایسه با تصاویر گرفته شده از دوربین های SSM وجود دارد. این اختلاف را می توان به زمان نوردهی کوتاهتر دوربین های SSM نسبت داد که به طور مؤثر تاری حرکت در تصاویر گرفته شده را به حداقل می رساند.

یکی از راه حل های ممکن کاهش زمان نوردهی برای همه دوربین ها است، اما این کار یک چالش ایجاد می کند. زیرا تاری حرکت می تواند در برخی موارد مطلوب باشد، چون در این شرایط، همچنان با تقلید از تداوم بینایی مغز و چشم انسان، سیال بودن ادراک شده از تصاویر ویدئویی با این روش، افزایش می یابد. در حالی که در اینجا تار بودن تصویر برای بیننده مطلوب است. با این حال، در موقعیت های دیگر، تاری حرکت می تواند مضر باشد. تصمیم گیری در مورد زمان نوردهی، به نحوی که در هر موقعیت بهینه باشد، کار غیرممکنی است. 

خوشبختانه، با کمک هوش مصنوعیِ مولد با یادگیری عمیق، از بین بردن تاری حرکتی ناخواسته از محتوای ویدیویی از طریق فرآیندی به نام «تار زدایی» ممکن شده است. جالب توجه است که این کار می تواند با فرآیندِ خود نظارتی انجام شود. بدین صورت که به سیستم، یاد داد که با یک مجموعه داده آموزشی که با میانگین گیری فریم های مجاور، به دست می آیند،  ویدئوهایی با نرخ فریم بالا ساخت.

شکل۲- افزایش وضوح تصویر با محو کردن تصاویر با شبکه عصبی عمیق. در سمت چپ: تصاویر ارائه شده توسط دوربین. در سمت راست: نتایج استفاده از الگوریتم رفع تار

ایجاد عمق میدان کم با استفاده از لنزهای مجازی

استفاده از عمق میدان کم در فیلم‌برداری، که به آن اثر «بوکه» نیز گفته می‌شود، این قدرت را دارد که ارتباط عمیق‌تری بین بیننده و سوژه برقرار کند و ارزش افزوده قابل‌توجهی را به ویژه در ثبت لحظات پر احساس ایجاد نماید.

دستیابی به این اثر به طور سنتی مستلزم استفاده از لنزهای تخصصی با دیافراگم باز است. با این حال، تکنیک‌های بینایی کامپیوتری مدرن اکنون تکرار این اثر را از طریق استفاده از فیلترهای ویدئویی مبتنی بر شبکه‌های عصبی عمیق، امکان‌پذیر می‌سازد. سه نوع روش وجود دارد که می توانند این جلوه ویژه را ارائه دهند: روش های پایین به بالا، انتها به انتها و ترکیبی. در اینجا به دنبال ارائه مو به موی این روش ها نیستیم و تنها این نکته را یادآوری می کنیم که هدف روش‌های پایین به بالا  شبیه‌سازی فیزیک لنز با استفاده از یک شبکه عصبی برای تخمین عمق هر پیکسل در تصویر است. در حالی که این روش‌ها  در مرزهای اشیا غالباً با مشکل مواجه می شوند، معمولاً در مقایسه با روش‌های انتها به انتها که مستقیماً تلاش می‌کنند اثر بوکه واقعی یا مصنوعی را تقلید کنند، جلوه‌های بوکه برجسته‌تری را نشان می‌دهند. در نهایت، روش‌های ترکیبی  با هدف ترکیب نقاط قوت هر دو رویکرد، با نتایج دلگرم‌کننده همراه بوده است.

شکل ۳  – رویکرد پایین به بالا برای شبیه سازی لنز عمق میدان کم. از تصویر ورودی در سمت چپ، اولین شبکه عصبی عمیق برای تخمین عمق (فاصله از دوربین) هر مکان پیکسل استفاده می شود. دومين شبكه عصبي عميق براي بخش‌بندي ناحيه مورد استفاده قرار مي‌گيرد. این دو قطعه اطلاعات توسط یک هسته بوکه ترکیب می شوند که فیزیک یک لنز دیافراگم باز را شبیه سازی می کند تا تصویری با عمق میدان کم تولید کند.

رویکرد معمولی از پایین به بالا از روند نشان داده شده در شکل ۳ پیروی می کند:

  • ابتدا، عمق هر پیکسل با استفاده از روش یادگیری عمیق تخمین زده می شود.
  • سپس نقطه فوکوس در تصویر با استفاده از روش های اکتشافی بر اساس تشخیص و ردیابی شی تعیین می شود.
  • در نهایت، اطلاعات عمق و نقطه فوکوس برای شبیه‌سازی فیزیک یک لنز با دیافراگم باز استفاده می‌شود تا تصاویری با عمق میدان کم ایجاد کند و با این تاری خارج از فوکوس هنری، تصویری خوشایند بیننده به نمایش بگذارد.

شکل ۴ دو نمونه از شبیه سازی لنز با دیافراگم باز را بر روی تصاویر فوتبال نشان می دهد.

شکل ۴ – شبیه سازی یک لنز با دیافراگم باز برای تولید تصاویر با عمق میدان کم در محتوای فوتبال. در سمت چپ: تصاویر اصلی. در سمت راست: نتایج.

زوم دیجیتال هوشمند با الگوریتم های وضوح فوق العاده

همان طور که قبلاً ذکر شد، قبل از شروع تولید، یک طرح استقرار و چیدمان دوربین ها برای تعیین موقعیت دوربین ها و اپراتورهای دوربین برای ثبت رویداد مد نظر، ایجاد می شود. سپس کارگردان وظایفِ خاصی را برای هر اپراتور دوربین، تعیین می کند، مانند تمرکز بر روی بازیکنان خاص یا قاب بندی های خاصی در تصاویر. در طول پوشش تصویری رویداد، کارگردان ارتباط مکرری با اپراتورهای دوربین برقرار می‌کند و دستورالعمل‌های آن‌ها را به‌روزرسانی می‌کند تا مطمئن شود هیچ لحظه مهمی از دست نمی‌رود. با این وجود، هنگامی که یک رویداد غیرمنتظره رخ می دهد، واکنش تیم ممکن است همیشه آنقدر سریع نباشد که به درستی محدوده مورد نظر را قاب بندی کند.

خوشبختانه، پیشرفت‌های اخیر در بینایی کامپیوتری و پردازش تصویر می‌توانند به نحو مطلوبی برای کادربندی دقیق هر رویدادی ترکیب شوند، تنها با این شرط که رویداد در یک تصویر با زاویه باز قابل مشاهده باشد. البته این امر مستلزم آن است، که وضوح ( رزولوشت تصاویر) به حد کافی زیاد باشد که خوشبختانه دوربین های موجود، چنین وضوحی را به ما می دهند.

با ترکیب تشخیص برجسته، تشخیص شی و ردیابی ، در واقع می توان به طور نیمه خودکار یک مسیر دوربین مجازی را تعریف کرد که منطقه مورد نظر را در فیلم با زاویه باز انتخاب می کند. سپس ناحیه مورد نظر از نمای زاویه باز استخراج می‌شود و با استفاده از یک الگوریتم وضوح فوق‌العاده، تصاویر به وضوح فریم های اصلی تولید شده در دوربین،  می رسد.

وضوح فوق العاده، فرآیند تولید تصاویر با وضوح بالا از ورودی های با وضوح پایین است که مدت هاست چالشی در بینایی کامپیوتر ایجاد کرده است. با این حال، پیشرفت‌های اخیر در تکنیک‌های یادگیری عمیق، پیشرفته‌ترین تکنولوژی را در وضوح تصویر فوق‌العاده، متحول کرده است و طیف وسیعی از راه‌حل‌ها را برای افزایش کیفیت تصویر در تولیدات و پخش تلویزیونی ارائه می‌دهد. رویکردهایی مانند شبکه‌های عصبی کانولوشنال، روش‌های مبتنی بر ترانسفورماتور، شبکه‌های متخاصم مولد  و مدل‌های مبتنی بر انتشار.  این روش ها که همگی بر الگوریتم های هوش مصنوعی بنا شده اند، یعنی ترکیب وضوح فوق العاده با تشخیص برجسته، تشخیص اشیا و ردیابی با امکان ایجاد تصاویر ویدیویی با کیفیت بالا از نمای نزدیک، فرصتی باورنکردنی برای تیم تولید، مهیا کرده است که بتوانند روایت های جذاب تراز رویداد را با حداقل تلاش و تجهیزات اضافی ارائه دهند.

شکل ۵ این کاربرد و تأثیر بالقوه آن را نشان می دهد.

شکل ۵  – استفاده از تشخیص و ردیابی شیء (شخص) برای بریدن ناحیه مورد نظر از نمای زاویه باز (سمت چپ) و برگرداندن آن به وضوح اصلی تولید با استفاده از یک الگوریتم وضوح فوق العاده (سمت راست).

نتیجه گیری

ادغام هوش مصنوعی در پخش مجدد صحنه های ورزشی با حرکت آهسته، نشان دهنده یک جهش رو به جلو برای صنعت یرودکست است. با بهره گیری از قابلیت های هوش مصنوعی، برودکسترها می توانند بر محدودیت های فنی پخش سنتی غلبه کنند و کیفیت تولیدات خود را برای بینندگان، به نحو چشمگیری افزایش دهند. همان طور که در این مقاله نشان داده شد، فرصت‌های خلاقانه در تولیدات زنده دیگر با تصمیم‌های اتخاذ شده قبل از رویداد در مورد انواع و پیکربندی‌های دوربین محدود نمی‌شوند. پارامترهایی مانند نرخ فریم ویدیو، زمان نوردهی، دیافراگم و فاصله کانونی اکنون می توانند در زمان واقعی در طول رویداد تنظیم شوند. داشتن این افکت‌ها مانند همیشه در تصاویر ویدیوی زنده، به اپراتورها انعطاف‌پذیری جدیدی ارائه می‌دهد که بتوانند دید هنری خود را بهتر از قبل،  به نمایش بگذارند. شایدگام بعدی در این تحولات، این باشد که آزادی بیشتری در موقعیت‌ قرارگیری و جهت‌گیری دوربین ها ایجاد گردد. به عنوان نمونه، پیشرفت‌های اخیر در الگوریتم‌های بازسازی سه‌بعدی، امکان انتقال دوربین ویدیویی مجازی به هر موقعیتی برای دستیابی به تصاویری که تا پیش از این، امکان تحقق نداشتند را فراهم کرده است. زیرا دوربین واقعی نمی تواند در آن موقعیت، در زمین مسابقه قرار گیرد و چنین صحنه هایی را به تصویر بکشد. مانند تصاویری که از دید بازیکن صاحب توپ ارائه می شود. یا بازسازی صحنه های افساید، در مسابقه فوتبال. با ادامه پیشرفت فناوری، ظرفیت تکرار صحنه های آهسته، مبتنی بر هوش مصنوعی بی حد و حصر است و آینده ای را نوید می دهد که در آن هنر روایت گری در تولیدات زنده به ویژه در پوشش مسابقات ورزشی، به اوج بی سابقه ای می رسد.

صفحه ۳ نشریه تخصصی بسامد شماره ۱۳۴

حتما ببینید

پوشش تلویزیونی فینال لیگ قهرمانان اروپا ۲۰۲۴

  در شبی (اول ژوئن ۲۰۲۴ –۱۲ خرداد ۱۴۰۳) که تیم فوتبال رئال مادرید با …

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *