خانه / فن آوری / فایل فرمت‌ها و کانتینرفرمت‌های دیجیتال

فایل فرمت‌ها و کانتینرفرمت‌های دیجیتال

نویسنده: علیرضا حیدری کایدان

    امروزه در عصر دیجیتال، فایل‌ها و سیستم‌های رایانه‌ای تا اعماق صنایع مختلف نفوذ پیدا کرده‌اند. به طوری که بدون استفاده از فن‌آوری دیجیتال، کار کردن در صنعت ویدیو تقریباً غیرممکن شده است. همگی در رایانه‌ها و منابع تصویری با اصطلاحاتی نظیر gif, mp4, avi  و مانند اینها روبرو شده‌ایم که بیانگر انواع فایل‌های ویدیویی هستند. اگر چه برای افراد شاغل در بخش‌های ویدیو ممکن است این اصطلاحات بسیار ابتدایی به نظر برسد، اما برای بسیاری از افراد، ناملموس و گنگ است. با توجه به گسترش دستگاه‌های دیجیتال تصویری و برخورد با اصطلاحاتی مانند mpeg4, mov  و موارد مشابه، این پرسش ایجاد می‌شود که فرق فایل فرمت و کدک و کانتینر و اصطلاحاتی از این قبیل در چیست؟

در ادامه به تعریف برخی از این اصطلاحات ‌می‌پردازیم.

Codec

کدک (Compressor/ Decompressor)  یا (Encoder/ Decoder) ، دستگاه یا نرم افزاری برای فشرده سازی یک فایل رسانه‌ایِ دیجیتال (digital media)  است که برای عکس یا ویدیو یا آهنگ استفاده ‌می‌شود. یک کدک را ‌می‌توان به دو بخش تقسیم کرد: کد کننده (encoder)  و دیکد کننده(decoder)  . کدکننده وظیفه کُد یا فشرده کردن اطلاعات را بر عهده دارد و دیکدکننده یا کدگشا، وظیفه باز کردن یا غیر فشرده کردن اطلاعات فشرده شده را بر عهده دارد. بعضی از کدک‌ها شامل هر دو قسمت و برخی فقط شامل یکی از این دو هستند. از آنجایی که تصاویر یا فایل‌های ویدیویی حجم بسیار زیادی دارند برای کار کردن و اجرای این فایل‌ها به صورت آنی یا Real time  نیاز به حافظه‌های بسیار بزرگ و قدرت پردازش بالا ‌است که باعث ‌می‌شد تا در گذشته همه دستگاه‌ها یا سیستم‌های رایانه‌ای نتوانند از این فایل‌ها استفاده کنند. به این منظور شرکت ها دو راهکار داشتند. یکی تولید کارت‌های ویدیویی مخصوص و سیستم‌های اختصاصی برای کار با این فایل‌ها و دیگر فشرده‌کردن فایل‌ها با الگوریتم‌ها و روش‌های خاص و متفاوتی برای کاهش حجم و در عین حال داشتن کیفیت قابل قبول. الگوریتم‌های فشرده‌سازی باعث تولید انواع مختلف کدک‌ها شد که الزاماً هر یک با دیگری تطابق نداشت. مساله بعد از فشرده‌سازی، انتقال این فایل‌های فشرده شده در  شبکه‌های رایانه‌ای یا ذخیره آنها بر روی مدیای دیجیتال مانند سی دی و دی وی دی بود. نیاز به ایجاد راهکاری برای این منظور، خود باعث بوجود آمدن فایل فرمت‌های متفاوت شد که گاهی نام فایل فرمت و کدک استفاده شده در درون آن یکی بود. مواردی که در مورد هر کدک ‌می‌توان در نظر گرفت عبارتند از : نوع فشرده سازی با اتلاف است یا بی اتلاف یا هر دو را پشتیبانی می‌کند؟؛ الگوریتم پایه‌ای که برای فشرده سازی استفاده ‌شده از چه نوعی است؟؛ حداکثر نرخ بیتی که پشتیبانی می‌کند چه میزان است؟؛ حداکثر رزولوشنی که پشتیبانی ‌می‌کند چه میزان است؟؛ و آیا نرخ بیت متغیر VBR را نیز پشتیبانی می‌کند؟

File Format

داده‌های گرافیکی به دو دسته تقسیم ‌می‌شوند: یکی bitmap  و دیگری vector که البته در نمایشگرهای دیجیتال اصطلاح bitmap  معادل همان Raster ‌ است که به صفحه نمایشگر‌های CRT  اطلاق ‌می‌شد. این داده‌ها در پوشه‌هایی به نام file  گذاشته و نگهداری ‌می‌شوند.

 اما انواع داده را چگونه ‌می‌توان تشخیص داد و باصطلاح در قالبهای مختلف شناخت؟
 فایل فرمت در واقع روشی استاندارد برای کد کردن داده‌های دیجیتال (Data)  و ذخیره آنها در یک فایل رایانه‌ای ‌است.

فایل فرمت مشخص ‌می‌کند چگونه بیت‌ها برای کدکردن اطلاعات در یک محیط حافظه دیجیتال استفاده ‌می‌شوند.
 فایل فرمت‌ها ‌می‌توانند مالکیت‌دار باشند (proprietary)  یا به صورت رایگان در اختیار همه قرار بگیرند. گاهی  منتشر ‌می‌شوند و گاهی به صورت کد باز      (open source)  در اختیار همه قرار دارند. در واقع فایل فرمت  شبیه یک جعبه است که داده‌های فشرده شده صدا و تصویر درون آن قرار می‌گیرند. بعضی از فایل فرمت‌ها برای یک نوع خاص از داده طراحی می‌شوند؛ برای مثال فایل فرمت .PNG  فقط فایل‌های تصاویر بیت مپ       (bitmap images)  را با فشرده سازی بدون اتلاف ذخیره می‌کند؛ در حالی که بقیه فایل فرمت‌ها ‌می‌توانند برای انواع مختلف دیتا بکار روند؛ برای مثال فرمت  Ogg ‌می‌تواند به عنوان قالبی برای بکارگیری انواع دیتای مولتی مدیا بکار رود که شامل هر ترکیبی از صدا و تصویر با متن یا بدون متن، مانند زیر نویس و متادیتا باشد. لازم به ذکر است یک فایل متنی ‌می‌تواند شامل هر نوع جریانی (stream)  از انواع حروف یا کاراکترها (characters)  باشد، که البته ‌می‌تواند شامل کاراکترهای کنترلی نیز باشد و آنها را به یکی از اشکال مختلفِ روش‌های کدینگِ کاراکترها کد کند. بعضی فایل فرمت‌ها مانند HTML  و فایل‌های گرافیکی برداریِ مقیاس پذیر (scalable vector graphics)  و نیز کدهای اصلیِ (Source code)  برنامه‌های رایانه‌ای، فایل‌های متنی با نحوه خاصی از نگارش‌ها(syntaxes)  هستند که اجازه ‌می‌دهند.

برای مقاصد مختلف  استفاده شوند .
یکی از روش‌های متداول برای تشخیص یک فایل فرمت توسط سیستم عامل‌های مختلف مانند داس، ویندوز و مکینتاش،  حروفی است که بعد از انتهای نام فایل قرار می‌گیرند. این قسمت از فایل را پسوند فایل یا  filename extension ‌ می‌نامند. برای مثال اسناد HTML  بوسیله نام‌هایی که در انتها به  html یا  htm ختم ‌شده‌اند، مشخص می‌شوند. فایل‌های اجرایی نیز با پسوند .exe مشخص ‌می‌شوند. در ابتدا نام فایل فقط هشت کاراکتر و نام پسوند یا شناسه فایل فقط سه کاراکتر را شامل ‌می‌شد، به همین دلیل امکان داشت که یک شناسه یا پسوند  به بیش از یک نوع فایل فرمت اشاره کند، اگر چه در سیستم‌های جدید این محدودیت رفع شده است، ولی چون هیچ فهرست پسوندِ فایلِ استانداردی وجود ندارد. باز هم چند نوع فایل امکان دارد از یک پسوند فایل استفاده کنند، مانند فایل‌های  AVI و این فایل‌ها در بعضی برنامه‌های تدوین کار کند و در بعضی برنامه‌ها کار نکند و در نتیجه باعث سردرگمی کاربرها و کارکرد سیستم عامل‌ها شد. روش دوم برای تشخیص یک فایل فرمت، استفاده از اطلاعات ذخیره شده در فایل فرمت ‌است. این اطلاعات درونی چه به این منظور چه به صورت رشته‌های دودویی(binary string) ، همیشه باید در یک مکان خاص قرار گیرد. راحت ترین مکان برای این کار، ابتدای فایل است. چنین جایی را وقتی بزرگتر از چند بایت باشد سرآیند یا file header ‌ می‌نامند. اگر چه سرآیند ممکن است گاهی اوقات در ابتدای فایل نیز نباشد ولی آن را به این منظور در فایل قرار ‌می‌دهند. در بعضی از سیستم‌ها مانند یونیکس به جای سرآیند از یک عدد خاص (magic number)  که به طور معمول  چند بایت است و در درون فایل قرار ‌می‌گیرد استفاده می‌کنند.

برای مثال تصاویر GIF  همیشه با کد اَسکی GIF87a  و یا GIF89a  بسته به استانداردی که به آن تعلق دارند شروع ‌می‌شوند. تعدادی از فایل فرمت‌ها به قرار زیرند:

– Containers: TAR, GZIP, ZIP

– Databases: XML, CSV

– Geospatial: SHP, DBF, GeoTIFF, NetCDF

– Moving images: MOV, MPEG, AVI, MXF

– Sounds: WAVE, AIFF, MP3, MXF

– Statistics: ASCII, DTA, POR, SAS, SAV

– Still images: TIFF, JPEG 2000, PDF, PNG, GIF, BMP

– Tabular data: CSV

– Text: XML, PDF/A, HTML, ASCII, UTF-8

– Web archive: WARC

Header

هِدِر یا سرآیند بخشی از داده به فرمت باینری و اَسکی است که به طور معمول  در ابتدای فایل وجود دارد و شامل اطلاعاتی در مورد داده‌های بیت مَپ است که در بخش‌های دیگر فایل قرار دارند. همة فایل‌های بیت مپ نوعی از سرآیند یا هدر را در خود دارند اگرچه فرمت آن و اطلاعات قرار گرفته در آنها از یک فرمت  به فرمت دیگر به طور قابل ملاحظه‌ای فرق می‌کند. به طور معمول  سرآیند بیت مپ از فیلد‌های با طول ثابت تشکیل شده است، ولی هیچکدام از این فیلد‌ها الزاماً همیشه مورد نیاز نیستند و در همة فرمت‌ها نیز ممکن است یافت نشوند، با این وجود فیلد‌های ذیل فیلد‌های متداولی هستند که در درون سرآیند بیت مپ یافت ‌می‌شوند. 

شاخص فایل :

File Identifier also called

 (file ID, or ID value)

نسخه فایل:File Version

و نیز فیلد‌هایی در مورد تصویر که Image description information  نامیده ‌می‌شوند.

تعداد خطوط تصویر:

Number of Lines per Image also called (image length, image height, or number of scan lines)

تعداد پیکسل‌ها در هر خط:

Number of Pixels per Line also called (image width or scan-line width)

تعداد بیتهای مختص هر پیکسل:

Number of Bits per Pixel also called (number of bytes per pixel, pixel depth)

تعداد لایه‌های اطلاعات رنگی:

Number of Colour Planes

 نوع فشرده سازی:       Compression Type

مبداء شروع افقی تصویر:

 X Origin of Image

مبداء شروع عمودی تصویر:

Y Origin of Image

متادیتای تصویر بیت مپ:

 Text Description

فیلد‌های مربوط به اطلاعات تصویر هنگام رِندِر کردن(Rendering)  تصویر استفاده خواهند شد. هنگامی که تصویری در یک فایل رِندِر ‌می‌شود محتوای فایل تبدیل به یک داده گرافیکی دائمی ‌می‌شود. داده‌های درون فایل بعد از این عمل به صورتی مرتب ‌می‌شوند که برای مشاهده بر روی یک دستگاه نمایشگر مناسب خواهند بود و برای نمایش نیاز به رندر مجدد به عنوان داده گرافیکی مجازی دارند.

در واقع طی فرآیند رندرینگ اطلاعات بافت و نور و سایه‌ها که برای تفسیر یک صحنه بکار رفته است تبدیل به یک تصویر دیجیتالی از صحنه می‌شود.

رندر کردن داده‌ها به معنی نشان دادن آنها بر روی یک دستگاه خروجی توسط یک برنامه مبدل است که نوع داده‌ها را متناسب با دستگاه خروجی تغییر ‌می‌دهد.

    ادامه این مطلب را در شماره بعد بخوانید.

 

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *