این مقاله ترجمه مقاله ای است که شرکت EVS در ۱۳سپتامبر ۲۰۲۳ (۲۲ شهریور ۱۴۰۲)در مورد هوش مصنوعی در برودکست، منتشر کرده است.
EVS در سطح جهانی به عنوان ارائهدهنده پیشرو در فناوری ویدیوی زنده برای تولید زنده در تلویزیون و رسانههای جدید شناخته شده است. راهحلهای EVS که کل فرآیند تولید را در بر میگیرد، مورد اعتماد تیمهای تولید در سرتاسر جهان است تا جذابترین تصاویر ورزشی زنده، برنامههای سرگرمی پرهیاهو و اخبار فوری را به میلیاردها بیننده هر روز و در زمان واقعی ارائه دهند
هوش مصنوعی در برودکست
هوش مصنوعی (AI) تأثیر عمیقی بر صنایع متعدد و حوزه های گوناگون زندگی دارد و دنیای تولید زنده نیز از این قاعده مستثنی نیست . از آنجایی که پبرودکسترها در تلاش برای بهینهسازی گردش کار، کاهش هزینهها و جذب مخاطبان هستند، فناوریهای مبتنی بر هوش مصنوعی به عنوان ابزار قدرتمندی برای دستیابی به این اهداف و موارد دیگر ظاهرشدهاند . راهحلهای مبتنی بر هوش مصنوعی با خودکار کردن کارهای وقتگیر و ایجاد قابلیتهای خلاقانه جدید، ارزش بسیار زیادی برای تولیدات زنده به ارمغان میآورند و کاربردهای متعددی را در مراحل مختلف زنجیره تولید پیدا کردهاند. مرور برخی از این، موارد درک بهتری از قابلیت هوش مصنوعی در برودکست برای ما ایجاد می کند.
چالش پخش مجدد فیلم
فناوری پخش مجدد مانند پخش صحنه های ورزشی به صورت آهسته، در طول دهه ها ی اخیر، به طور قابل توجهی تکامل یافته است. این صنعت از SDI به IP، از کیفیت استاندارد به کیفیت بالا و در نهایت به کیفیت فوق العاده بالا پیشرفت کرده است. با این حال، نحوه پردازش تصاویر دوربین به منظور ایجاد حرکت آهسته عمدتاً بدون تغییر باقی مانده است.
این فرآیند شامل پخش تصاویر ضبط شده با سرعت کم، حفظ نرخ فریم اصلی تولید از طریق تکرار فریم است. تصاویر بدون هیچ گونه تغییری پخش می شوند، زیرا تمام پردازش لازم روی تصویر، قبل از ضبط آنها انجام می شود.
این موضوع، چدان مطلوب نیست، زیرا این رویکرد به این معنی است که در طول رویداد، فرصتهای خلاقانهای که تیمهای تولید در اختیار دارند، با مصالحهها و ملاحظاتی که هنگام انتخاب دوربینها و لنزها در مرحله برنامهریزی تولید انجام میشود، محدود میشود، که در نهایت بر کیفیت و تأثیر پخشهای مجدد تأثیر میگذارد. در طول این مرحله، تیمها طرح دوربین را تعیین میکنند که پخش زنده و اسلوموشن موجود در دسترس را برای کارگردان در طول رویداد دیکته میکند. طرح دوربین شامل تصمیمگیری در مورد قرار دادن دوربینهای Super Slow Motion (SSM) برای پخش مجدد حرکت آهسته، استفاده از لنزهای زاویه باز و انتخاب لنزهای با زاویه بسته تر است. همچنین مشخص میکند که کدام دوربینها باید عمق میدان کم داشته باشند تا سکانسهای هیجانانگیز را ثبت کنند.
با این حال، هر تصمیم در مورد دوربین و انتخاب لنز مستلزم مصالحه ذاتی است. برای مثال، استفاده از دوربینهای SSM با زمان نوردهی کوتاهتر و دیافراگمهای بازتر منجر به عمق میدان کمتر میشوند و حفظ تمرکز بر روی اجسام با حرکت سریع را دشوار میکنند. تعیین مقدار ایدهآل تاری حرکت به محتوایی که گرفته میشود و سرعت پخش مورد نظر بستگی دارد. انتخاب بین یک نمای زاویه باز برای درک جامع بازی یا یک زاویه بسته تر برای برجسته کردن اقدامات خاص به یک نقطه تصمیم گیری حیاتی تبدیل می شود. علاوه بر این، در حالی که عمق میدان کمتر، سکانسهای هیجانانگیز ایجاد میکند، ممکن است برای ثبت لحظات سریع بازی در حال پخش، مناسب نباشد.
این سازشهایی که از قبل در مرحله برنامهریزی انجام شده است، فضای کمی را برای تنظیمات در زمان واقعی باقی میگذارد. با این حال، با ظهور هوش مصنوعی مولد، این محدودیت، برطرف، می شود.
شبیه سازی دوربین های با نرخ فریم بالاتر با استفاده از درون یابی فریم زمانی
روش معمول برای لذت بردن بینندگان با پخش مجدد حرکت آهسته، استفاده از دوربین هایی با نرخ فریم بالا است که به عنوان دوربین های Super Slow Motion (SSM) نیز شناخته می شود. این دوربینها تعداد فریمهای بیشتری را در ثانیه ارائه میکنند و سرور را قادر میسازند تا بدون استفاده از فریمهای تکراری، ویدیوی حرکت آهسته ایجاد کند. با این حال، محدودیت های کاربردی و بودجه، داشتن دوربین هایی با نرخ فریم بالا در هر موقعیت، دوربین دلخواه را غیر واقعی می کند. هوش مصنوعی این امکان را فراهم میکند که حتی از دوربینهای با نرخ فریم استاندارد ( و نه نرخ فریم بالا)، بازپخش حرکت های آهسته روان ارائه شوند. درون یابی فریم زمانی یک تکنیک قدرتمند است که کلید تبدیل ویدیوی استاندارد به ویدیوهای با نرخ فریم بالا را در اختیار دارد، که برای ارائه بازپخشهای حرکت آهسته یکنواخت عالی است. فرآیند محاسباتی، شامل تولید فریم های میانی بین دو فریمی است که توسط دوربین گرفته شده اند. این فریم های تولیدی “فریم های توهمی” نامیده می شود، همان طور که در شکل ۱ نشان داده شده است، می توان این فریم های توهمی را بین فریم های اصلی قرار داد تا ا نرخ فریم بالاتری تولید شود که برای پخش تکرار حرکت های آهسته نرم تر، ایده آل است.
شکل۱- ضرب نرخ فریم ویدئوی فوتبال در ضریب سه با استفاده از درون یابی فریم زمانی. این تکنیک شامل قرار دادن دو تصویر توهمآمیز بین هر جفت تصویر از جریان فریم های ویدیویی ارائه شده توسط دوربین است.
افزایش وضوح تصویر با رفع تاری
در حالی که درون یابی فریم زمانی امکان پخش مجدد روان را از هر دوربینی فراهم می کند، تفاوت قابل توجهی در وضوح تصویر تولیدشده در مقایسه با تصاویر گرفته شده از دوربین های SSM وجود دارد. این اختلاف را می توان به زمان نوردهی کوتاهتر دوربین های SSM نسبت داد که به طور مؤثر تاری حرکت در تصاویر گرفته شده را به حداقل می رساند.
یکی از راه حل های ممکن کاهش زمان نوردهی برای همه دوربین ها است، اما این کار یک چالش ایجاد می کند. زیرا تاری حرکت می تواند در برخی موارد مطلوب باشد، چون در این شرایط، همچنان با تقلید از تداوم بینایی مغز و چشم انسان، سیال بودن ادراک شده از تصاویر ویدئویی با این روش، افزایش می یابد. در حالی که در اینجا تار بودن تصویر برای بیننده مطلوب است. با این حال، در موقعیت های دیگر، تاری حرکت می تواند مضر باشد. تصمیم گیری در مورد زمان نوردهی، به نحوی که در هر موقعیت بهینه باشد، کار غیرممکنی است.
خوشبختانه، با کمک هوش مصنوعیِ مولد با یادگیری عمیق، از بین بردن تاری حرکتی ناخواسته از محتوای ویدیویی از طریق فرآیندی به نام «تار زدایی» ممکن شده است. جالب توجه است که این کار می تواند با فرآیندِ خود نظارتی انجام شود. بدین صورت که به سیستم، یاد داد که با یک مجموعه داده آموزشی که با میانگین گیری فریم های مجاور، به دست می آیند، ویدئوهایی با نرخ فریم بالا ساخت.
شکل۲- افزایش وضوح تصویر با محو کردن تصاویر با شبکه عصبی عمیق. در سمت چپ: تصاویر ارائه شده توسط دوربین. در سمت راست: نتایج استفاده از الگوریتم رفع تار
ایجاد عمق میدان کم با استفاده از لنزهای مجازی
استفاده از عمق میدان کم در فیلمبرداری، که به آن اثر «بوکه» نیز گفته میشود، این قدرت را دارد که ارتباط عمیقتری بین بیننده و سوژه برقرار کند و ارزش افزوده قابلتوجهی را به ویژه در ثبت لحظات پر احساس ایجاد نماید.
دستیابی به این اثر به طور سنتی مستلزم استفاده از لنزهای تخصصی با دیافراگم باز است. با این حال، تکنیکهای بینایی کامپیوتری مدرن اکنون تکرار این اثر را از طریق استفاده از فیلترهای ویدئویی مبتنی بر شبکههای عصبی عمیق، امکانپذیر میسازد. سه نوع روش وجود دارد که می توانند این جلوه ویژه را ارائه دهند: روش های پایین به بالا، انتها به انتها و ترکیبی. در اینجا به دنبال ارائه مو به موی این روش ها نیستیم و تنها این نکته را یادآوری می کنیم که هدف روشهای پایین به بالا شبیهسازی فیزیک لنز با استفاده از یک شبکه عصبی برای تخمین عمق هر پیکسل در تصویر است. در حالی که این روشها در مرزهای اشیا غالباً با مشکل مواجه می شوند، معمولاً در مقایسه با روشهای انتها به انتها که مستقیماً تلاش میکنند اثر بوکه واقعی یا مصنوعی را تقلید کنند، جلوههای بوکه برجستهتری را نشان میدهند. در نهایت، روشهای ترکیبی با هدف ترکیب نقاط قوت هر دو رویکرد، با نتایج دلگرمکننده همراه بوده است.
شکل ۳ – رویکرد پایین به بالا برای شبیه سازی لنز عمق میدان کم. از تصویر ورودی در سمت چپ، اولین شبکه عصبی عمیق برای تخمین عمق (فاصله از دوربین) هر مکان پیکسل استفاده می شود. دومين شبكه عصبي عميق براي بخشبندي ناحيه مورد استفاده قرار ميگيرد. این دو قطعه اطلاعات توسط یک هسته بوکه ترکیب می شوند که فیزیک یک لنز دیافراگم باز را شبیه سازی می کند تا تصویری با عمق میدان کم تولید کند.
رویکرد معمولی از پایین به بالا از روند نشان داده شده در شکل ۳ پیروی می کند:
- ابتدا، عمق هر پیکسل با استفاده از روش یادگیری عمیق تخمین زده می شود.
- سپس نقطه فوکوس در تصویر با استفاده از روش های اکتشافی بر اساس تشخیص و ردیابی شی تعیین می شود.
- در نهایت، اطلاعات عمق و نقطه فوکوس برای شبیهسازی فیزیک یک لنز با دیافراگم باز استفاده میشود تا تصاویری با عمق میدان کم ایجاد کند و با این تاری خارج از فوکوس هنری، تصویری خوشایند بیننده به نمایش بگذارد.
شکل ۴ دو نمونه از شبیه سازی لنز با دیافراگم باز را بر روی تصاویر فوتبال نشان می دهد.
شکل ۴ – شبیه سازی یک لنز با دیافراگم باز برای تولید تصاویر با عمق میدان کم در محتوای فوتبال. در سمت چپ: تصاویر اصلی. در سمت راست: نتایج.
زوم دیجیتال هوشمند با الگوریتم های وضوح فوق العاده
همان طور که قبلاً ذکر شد، قبل از شروع تولید، یک طرح استقرار و چیدمان دوربین ها برای تعیین موقعیت دوربین ها و اپراتورهای دوربین برای ثبت رویداد مد نظر، ایجاد می شود. سپس کارگردان وظایفِ خاصی را برای هر اپراتور دوربین، تعیین می کند، مانند تمرکز بر روی بازیکنان خاص یا قاب بندی های خاصی در تصاویر. در طول پوشش تصویری رویداد، کارگردان ارتباط مکرری با اپراتورهای دوربین برقرار میکند و دستورالعملهای آنها را بهروزرسانی میکند تا مطمئن شود هیچ لحظه مهمی از دست نمیرود. با این وجود، هنگامی که یک رویداد غیرمنتظره رخ می دهد، واکنش تیم ممکن است همیشه آنقدر سریع نباشد که به درستی محدوده مورد نظر را قاب بندی کند.
خوشبختانه، پیشرفتهای اخیر در بینایی کامپیوتری و پردازش تصویر میتوانند به نحو مطلوبی برای کادربندی دقیق هر رویدادی ترکیب شوند، تنها با این شرط که رویداد در یک تصویر با زاویه باز قابل مشاهده باشد. البته این امر مستلزم آن است، که وضوح ( رزولوشت تصاویر) به حد کافی زیاد باشد که خوشبختانه دوربین های موجود، چنین وضوحی را به ما می دهند.
با ترکیب تشخیص برجسته، تشخیص شی و ردیابی ، در واقع می توان به طور نیمه خودکار یک مسیر دوربین مجازی را تعریف کرد که منطقه مورد نظر را در فیلم با زاویه باز انتخاب می کند. سپس ناحیه مورد نظر از نمای زاویه باز استخراج میشود و با استفاده از یک الگوریتم وضوح فوقالعاده، تصاویر به وضوح فریم های اصلی تولید شده در دوربین، می رسد.
وضوح فوق العاده، فرآیند تولید تصاویر با وضوح بالا از ورودی های با وضوح پایین است که مدت هاست چالشی در بینایی کامپیوتر ایجاد کرده است. با این حال، پیشرفتهای اخیر در تکنیکهای یادگیری عمیق، پیشرفتهترین تکنولوژی را در وضوح تصویر فوقالعاده، متحول کرده است و طیف وسیعی از راهحلها را برای افزایش کیفیت تصویر در تولیدات و پخش تلویزیونی ارائه میدهد. رویکردهایی مانند شبکههای عصبی کانولوشنال، روشهای مبتنی بر ترانسفورماتور، شبکههای متخاصم مولد و مدلهای مبتنی بر انتشار. این روش ها که همگی بر الگوریتم های هوش مصنوعی بنا شده اند، یعنی ترکیب وضوح فوق العاده با تشخیص برجسته، تشخیص اشیا و ردیابی با امکان ایجاد تصاویر ویدیویی با کیفیت بالا از نمای نزدیک، فرصتی باورنکردنی برای تیم تولید، مهیا کرده است که بتوانند روایت های جذاب تراز رویداد را با حداقل تلاش و تجهیزات اضافی ارائه دهند.
شکل ۵ این کاربرد و تأثیر بالقوه آن را نشان می دهد.
شکل ۵ – استفاده از تشخیص و ردیابی شیء (شخص) برای بریدن ناحیه مورد نظر از نمای زاویه باز (سمت چپ) و برگرداندن آن به وضوح اصلی تولید با استفاده از یک الگوریتم وضوح فوق العاده (سمت راست).
نتیجه گیری
ادغام هوش مصنوعی در پخش مجدد صحنه های ورزشی با حرکت آهسته، نشان دهنده یک جهش رو به جلو برای صنعت یرودکست است. با بهره گیری از قابلیت های هوش مصنوعی، برودکسترها می توانند بر محدودیت های فنی پخش سنتی غلبه کنند و کیفیت تولیدات خود را برای بینندگان، به نحو چشمگیری افزایش دهند. همان طور که در این مقاله نشان داده شد، فرصتهای خلاقانه در تولیدات زنده دیگر با تصمیمهای اتخاذ شده قبل از رویداد در مورد انواع و پیکربندیهای دوربین محدود نمیشوند. پارامترهایی مانند نرخ فریم ویدیو، زمان نوردهی، دیافراگم و فاصله کانونی اکنون می توانند در زمان واقعی در طول رویداد تنظیم شوند. داشتن این افکتها مانند همیشه در تصاویر ویدیوی زنده، به اپراتورها انعطافپذیری جدیدی ارائه میدهد که بتوانند دید هنری خود را بهتر از قبل، به نمایش بگذارند. شایدگام بعدی در این تحولات، این باشد که آزادی بیشتری در موقعیت قرارگیری و جهتگیری دوربین ها ایجاد گردد. به عنوان نمونه، پیشرفتهای اخیر در الگوریتمهای بازسازی سهبعدی، امکان انتقال دوربین ویدیویی مجازی به هر موقعیتی برای دستیابی به تصاویری که تا پیش از این، امکان تحقق نداشتند را فراهم کرده است. زیرا دوربین واقعی نمی تواند در آن موقعیت، در زمین مسابقه قرار گیرد و چنین صحنه هایی را به تصویر بکشد. مانند تصاویری که از دید بازیکن صاحب توپ ارائه می شود. یا بازسازی صحنه های افساید، در مسابقه فوتبال. با ادامه پیشرفت فناوری، ظرفیت تکرار صحنه های آهسته، مبتنی بر هوش مصنوعی بی حد و حصر است و آینده ای را نوید می دهد که در آن هنر روایت گری در تولیدات زنده به ویژه در پوشش مسابقات ورزشی، به اوج بی سابقه ای می رسد.
صفحه ۳ نشریه تخصصی بسامد شماره ۱۳۴