خانه / نور و تصویر / تصویربرداری / هوش مصنوعی در تولید تلویزیونی(برنامه گفتگومحور)

هوش مصنوعی در تولید تلویزیونی(برنامه گفتگومحور)

   

  مقدمه: هوش مصنوعی (AI)  و یادگیری ماشین (ML)  می‌تواند به طور قابل ملاحظه‌ای دامنه و مقیاس رویدادهایی را که پخش کنندگان تلویزیونی و سایر تولیدکنندگان محتوا پوشش می‌دهند، افزایش دهد اگرچه زمان تاثیر این فناوری و میزان کمک آن به نقش افراد یا انجام گرفتن وظایف آنها روشن نیست. در این مقاله تلاش‌های اولیه برای بررسی این فرصت‌ها و شیوة ساده‌سازی پوشش برنامه‌هایی همچون استندآپ کمدی یا گفتگو با استفاده از ابزارهای نرم‌افزاری هوش مصنوعی توضیح داده شده است.

بخش تحقیق و توسعه بی بی سی در سال 2015 و 2016 در Edinburgh Fringe، با استفاده از دوربین‌های UHD  ، آزمایشی با انواع لنزهای ثابت برای تصویربرداری از مکان‌هایی که پوشش تصویری آنها دشوار است، انجام داد. رزولوشن UHD   به این دلیل انتخاب شد که هرکدام از تصاویر با زاویه دید وسیع را می‌توان برای ایجاد تعدادی تصویر از دوربین‌های مجازی HD برش داد. این تصاویر توسط فردی حرفه‌ای با استفاده از نرم افزار تحت وبِ ساده‌ای به نام Primer   ترکیب و پشت سر هم قرار داده شده است. این کار باعث شد پروژة جاری تحقیق و توسعة بی‌بی‌سی، با عنوان SOMA  (میکسر تصویر تک کاربره)، که به صورت آزمایشی در حال استفاده است، شکل بگیرد. همچنین یک دستگاه ضبط بسیار کم هزینه برای استفاده در این موارد بر اساس          IP Studio  و Raspberry Pi  ساخته شد.

در خارج از مجموعه بی‌بی‌سی، روش‌های مشابهی دیده می‌شود، مانندMevo   که دوربینی ثابت و متصل به وب است که با یک برنامه تلفن همراه(برای ایجاد چندین برش از  نماهای آن) کار می‌کند. این محصولات می‌توانند گردش کار سادة شِبهِ چند دوربینه‌ای را برای ویدیو لاگرها(Vloggers)  یا تولیدکنندگان مشابه که بر بسترهایی مانند YouTube  و Facebook Live  کار می‌کنند، تسهیل کنند. فراتر از ویدیوی تحت وب، محصولKMU-100 Datavideo   است که نمونه‌ای از واحدهای پردازش دوربین برای استودیوها و واحدهای سیار است و امکان تولید 4 تصویر HD  تلویزیونی را از یک ورودی دوربین 4K  فراهم می‌کند.

سیستم هوش مصنوعی مبتنی بر قواعد برای پوشش خودکار (ED)  

سیستم نوین مفهومی به نام Ed  که برای ضبط و ویرایش رویدادهای زنده ساخته شده است، مانند SOMA، تصویر یک یا چند دوربین‌ UHD – با زاویه دید باز، ثابت از مقابل صحنه را به عنوان ورودی می‌گیرد با این تفاوت که SOMA   برای تغییر نما‌ها و سوئیچ بین آنها و ارسال صحنه‌های متوالی به خروجی، به اپراتور انسانی نیاز دارد، اما سیستم Ed    این کار را به صورت خودکار انجام می‌دهد. سیستم Ed   برای گسترش پوشش گفتگوهای زنده طراحی شده است.

این سیستم براساس توصیه‌های کارمندان تحریریه در مصاحبه‌های پژوهشی ایجاد شده است. نمونه‌هایی از دستورالعمل‌های انتخاب نما‌ عبارتند از:

– فضای نگاه باید در سمتی قرار گیرد که نگاه شخص به آن طرف قرار دارد.

– نقطه تمرکز را بر روی مرکز تصویر یا یکی از خطوط یک سوم (قانون نقطه طلایی) قرار دهد.

نمونه‌هایی از دستورالعمل‌های توالی و گزینش عکس‌های گرفته شده عبارتند از:

  • سوئیچ بین تک نما‌ و دو نما‌ برای ایجاد تنوع.
  • کسانی که در حال حرف زدن هستند معمولاً در نما‌ قرار بگیرند.
  • گهگاه به نمای باز و تثبیت کننده (معرف) سوئیچ شود.
  • گهگاهی نما‌های عکس العمل مخاطبان داده شود
  • زمان نمایش نماها باید شبیه باشد اما خطی نباشد.
  • گفتگوهای با رفت و برگشت سریع نیز باید سوئیچ‌های سریع داشته باشد.

استخراج خصوصیات: نرم‌افزارEd   با استفاده از تشخیص چهره و ردیابی، وضعیت نشستن یا ایستادن شخص، نقاط کلیدی در صورت او و تشخیص بصری کسانی را که حرف می‌زنند، از تصاویر استخراج می‌کند. به ‌این ترتیب حضور افراد در ‌هر فریم، جهت صورت و زمان صحبت آنها تعیین می‌شود.

روش تشخیص چهره و تشخیص متکلم به گونه‌ای است که با به حداقل رساندن تشخیص غلط – مثبت (یعنی کسی که حرف نمی‌زند به جای کسی که حرف می‌زند، تشخیص داده شود) در ازای بروز خطای بیشتر غلط – منفی ( یعنی کسی که حرف می‌زند بعنوان کسی که حرف نمی‌زند تشخیص داده شود) کار کند. بنابراین احتمال تشخیص‌ ندادن چهره‌ها و یا دوره‌های گفتار بیشتر از تشخیص اشتباه آنهاست. نیمه چپ شکل 1 منطقه مشخص شده چهره، نشانه‌های چهره و حالت شخص در یک قاب نمونه را نشان می‌دهد.

قاب گذاری: در جریان پژوهش‌ بر روی تجربه افراد (UX)، افراد ماهر، برتمرکز هر نما‌ در اطراف نقطه کانونی یا نقاط کانونی‌ای در اطراف خطوط افقی و عمودی نامرئی که  قاب را به سه قسمت تقسیم می‌کردند   (قانون یک سوم طلایی) تاکید شد. نقاط کانونی در برنامه‌های گفتگو محور، شرکت کنندگان در گفتگو هستند. هنگام قرار دادن یک فرد در یک قاب، جهت نگاه فرد نشان می‌دهد که باید در مرکز نما‌ یا در یکی از خط‌های یک سوم قرار گیرد. از تشخیص چهره و تعیین نقاط کلیدی صورت برای انتخاب برش نمای باز (WS)، نمای متوسط (MS)  و نزدیک (CU)  در هر یک از ترکیبات چهره؛ برای هر فرد، برای هر جفت از افراد، هر سه نفر و غیره استفاده می‌شود. برش‌ها طوری انجام شده که اجازه می‌دهد فضای کافی در بالای سر و فضای نگاه مناسب و مطابق با قاعده یک سوم وجود داشته باشد. نیمه سمت راست شکل 1 سه برش از نمای فرد را نشان می‌دهد.

شکل (1) (چپ) چهارگوش محدود کننده تشخیص چهره (سبز)، نشانه‌های چهره (آبی) و طرح پیش بینی سر (قرمز) و (راست) نمای دوربین با سه برچسب برش تصاویر شرکت کنندگان: دو نمای نیمه – نزدیک (سبز و آبی) و یک نمای متوسط (قرمز)

ترتیب نماها: ترتیب نماها فرایند تعیین زمانی است که تغییراتی در نما‌ی دوربین رخ می‌دهد. فاصله زمانی بین نماها تابعی از حداقل و حداکثر زمان نماها است. هیچ نما‌یی نباید خارج از این باشد.

به طور کلی با توجه به الزامِ نگه داشتن متکلم در نما، روش پشت سر هم قرار دادن نما‌ها در Ed، طوری برنامه ریزی شده که تغییرات نما‌ در حوالی رویدادهای گفتاری (یعنی زمانی که افراد صحبت‌شان را شروع می‌کنند یا به پایان می‌رسانند) باشد. دوره‌های گفتارِ تشخیص داده شده، برای ایجاد توالی نما‌ها استفاده می‌شود. از یک روش ابتکاری برای برآورد توالی تغییرات نما‌ که از لحاظ زمانی نزدیک به گفتارِ تشخیص داده شده، استفاده می‌شود. الگوریتم، محور زمانی نما‌ها را با فواصل خطی ایجاد می‌کند، قبلاً هر تغییر نما‌ طوری تنظیم شده که تا حد مجاز در امتداد نزدیکترین رویداد گفتار باشد. جایی که طول حداقل و حداکثر نما‌ به ترتیب lmin  و lmax است، فاصله خطی از  (lmax + lmin) / 2 )) به دست می‌آید و حداکثر تنظیم مجاز توسط (lmax-lmin)/ 4)) حاصل می‌شود.

این روش ابتکاری در شکل 2 نشان داده شده است.

شکل 2 – رویدادهای گفتاری، دنباله خطی با حرکات مجاز و توالی‌های مطلوب جایگزین در طول یک دوره 12 ثانیه‌ای با حداقل و حداکثر طول نما‌ به ترتیب 2 و 4 ثانیه

انتخاب نما‌ها: انتخاب نما‌ فرایند اختصاص دادن یکی از فریم‌های برش داده شده به دورة بین دو مرز از نما‌های درون یک سری نما‌های متوالی است. افراد با تجربه و ماهر توصیه می‌کنند که: 1) عموماً سخنرانان در نما‌ باشند ؛ 2) گاهی اوقات به یک نمای‌ واکنش مخاطب سوئیچ شود و 3) گاهی اوقات به یک نمای‌ کلی یا نمای باز سوئیچ شود. در تنظیمات گفتگوی زنده، میزبان و میهمانان به طور معمول هنگامی که سر جای خود نشستند، حرکت نمی‌کنند. (هنگامی که دوربین‌ها در قوس اطراف جلوی میز گفتگو قرار گرفتند، باید شکستن قوانین پیوستگی نماها مانند خط فرضی 180 درجه یا پیوستگی حرکت، غیرممکن باشد.) مناسب بودن یک قاب برش داده شده برای یک نما‌ از یک مکان مشخص باید به ترتیب زیر باشد:

  • میزان گفتگوی ناشی از درون قاب؛
  • تعداد افراد در نما‌؛
  • نوع نما‌ (نزدیک، وسط، باز)؛
  • تا چه حد این قاب استفاده شده است.

هنگامی که گفتگویی در یک نما‌ تشخیص داده می‌شود، برشی نزدیک‌تر که شامل افراد کمتر و نمای بیشتری از متکلّم است، مطلوب‌تر است. برعکس، هنگامی که هیچ سخنرانی شناسایی نشود، برش نمای بازی که حاوی افراد بیشتری است، بهتر است. برشی که به تازگی مورد استفاده قرار نگرفته‌، همیشه مطلوب است. هر نما‌ در دنبالة نمای تولید شده به ترتیب زمانی انتخاب شده است. تمام فریم‌های برش خورده که در محتوای ویدیویی برای دورة زمانی مربوطه در دسترس هستند، در نظر گرفته می‌شوند و برشی که نمرة مطلوب‌تری کسب کند انتخاب می‌شود. (شکل 3 )

شکل3) وجود افراد در نما‌ و مثالی از یک انتخاب نما‌

روش شناسی قاب بندی نما‌:

مطالعه قاب بندی نما‌ را که شامل دو مرحله تجربی بود، انجام دادیم: اول از چهار فیلمساز حرفه‌ای باتجربه(ترکیبی از کارگردان‌ها و تصویربرداران) خواستیم تا هر کدام مجموعه‌ای از نما‌‌ها را قاب بندی کنند. از Ed   نیز برای تولید  مجموعه‌ای معادل از نماها استفاده شد. دوم، از تعدادی بیننده خواستیم که قاب‌های Ed   را با قاب‌هایی که توسط انسان گرفته شده بودند، مقایسه کند. بینندگان نما‌های قاب بندی شد‌ه بر اساس ترجیح خود، انتخاب و نظرات خود را بیان کردند و علت انتخاب‌هایشان را گفتند. بر اساس این دلایل، فهرستی از بهبود اولویت‌های درجه یک در دستورالعمل‌های فریم سازی به کار رفته  توسط Ed، برای تکرار در دفعات بعد استخراج شد. انتظار داریم با بکارگیری این یافته‌ها شاهد »موفقیت‌های سریع« برای بهبود عملکرد کیفی Ed   بر اساس قاب بندی نما‌های مطلوب بیشتری باشیم. این پنج دستورالعمل عبارتند از :

1 – لبه‌های تصویر باید از اشیاء ناقص و نیمه پاک باشند.

2- در گوشه‌های تصویر نباید افراد به  صورت نیمه و ناقص دیده شوند.
3- از  زوم کردن  بیش  از  اندازه  در     قاب‌های تکی خودداری شود.
4- از بریدن قسمت بالای سر در نماها خودداری شود.

5- فضاهای خالی در تصویر حذف یا به حداقل رسانده شوند.

این پنج پیشنهاد برای بهبود قوانین Ed  نشان دهندة مرحله اولیه تجزیه و تحلیل مطالعات قاب بندی است و بر اساس توانایی احتمالی آنها برای بهبود کیفیت و امکان‌پذیر بودن از لحاظ فنی انتخاب شده‌اند. این روش در آینده با تغییراتی که در الگوریتم داده شده تکرار خواهد شد و نتایج دوباره ارزیابی خواهند شد.

کار قبلی نشان داده است که ارزیابی دیداری بیننده بر مبنای روش کلی کیفیت تجربه (QoE:Quality of Experience)  می‌تواند تاثیر نسبی ویدئو را مشخص کند تا زمان توقف بهبود الگوریتم مشخص شود.

کاربرد یادگیری ماشین:

یادگیری ماشین در سال‌های اخیر در موضوعاتی همچون طبقه بندی تصاویر، تشخیص چهره و تعیین وضعیت فیزیکی افراد پیشرفت‌های زیادی کرده است. برای مثال گوگل سیستمی دارد که آموخته است که تصاویر را قاب‌بندی کرده و پس از پردازش، از آنها عکس تولید کند، که بخشی از آنها از نظر کیفیت با کارایی انسانی قابل مقایسه است. به همین ترتیب، توییتر با استفاده از این روش می‌تواند به سرعت عکس‌های با سایز بند انگشتی (Thumbnail)  را برش دهد و مرتبط ترین بخش تصاویر را نشان دهد. علاوه بر این، سیستم‌هایی وجود دارند که می‌توانند خودکار یا نیمه خودکار تصاویر ورزش‌های خاصی را ضبط و ثبت کنند. پیشرفت در توانایی GPU ‌ها و اثربخشی الگوریتمی باعث شده تا پردازش داده‌های بزرگی مانند اطلاعات مورد نیاز برای تجزیه و تحلیل تصاویر ویدیویی با کیفیت پخش تلویزیونی بسیار آسان‌تر شود. آرشیوهای تلویزیونی می‌توانند منابعی غنی از داده‌های آموزشی برای یادگیری ماشین باشند، اما چالش‌هایی نیز دارند زیرا کیفیت بالای آنها حجم محاسبات را بسیار افزایش می‌دهد. بعلاوه برنامه‌های آرشیو فقط یک نسخة تکمیل شده هستند. تاکنون، فقط ترکیب تصویری رویدادهای زنده را در نظر گرفتیم، ولی زمان بندی در برنامه‌های کمیک یا روابط احساسی بین بازیگران یا موضوعات جدید در برنامه‌های خبری پیچیده هستند.

 

حتما ببینید

کارگردانی تلویزیونی مسابقات بیلیارد (بخش اول)

     پوشش تلویزیونی مسابقات بیلیارد در بخش مردان و زنان ساختار مشابهی دارد که قواعد …

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *