نوآوری‌های هم‌افزا، الگوریتم‌های نوین

زیرنویس

این سرویس هوش مصنوعی برای تبدیل گفتار موجود در فیلم‌های ورودی به متن مکتوب و تعیین زمان دقیق شروع و پایان هر کلمه یا جمله طراحی شده است. نحوه کار به این صورت است که محتوای صوتی ویدئو توسط الگوریتم‌های پیشرفته بازشناسی گفتار (ASR) تحلیل شده و متن خام تولید می‌گردد. سپس با استفاده از فرآیند هم‌ترازی اجباری، زمان دقیق بیان هر واحد کلامی با دقت بالا مشخص می‌شود. ورودی این سرویس یک فایل ویدیویی یا صوتی است و خروجی آن یک فایل زیرنویس استاندارد (مانند SRT یا VTT) است که شامل متن کامل مکالمات به همراه برچسب‌های زمانی دقیق برای هر کلمه یا بخش از دیالوگ می‌باشد. هدف اصلی این سرویس بازشناسی و تولید زیرنویس‌هایی با زمان‌بندی دقیق برای بهبود دسترسی‌پذیری محتوای ویدیویی است.

ویژگی‌ها

  • دقت بالا در تعیین زمان شروع و پایان کلمات گفته شده
  • پشتیبانی از فرمت‌های رایج و استاندارد زیرنویس‌سازی
  • سرعت پردازش بسیار بالا برای محتوای ویدیویی طولانی
  • بازشناسی و تفکیک گویندگان متعدد در یک فایل صوتی
  • توانایی کار با کیفیت‌های مختلف ضبط ویدیویی و صوتی

موارد استفاده

  • خودکارسازی فرآیند تولید زیرنویس برای ویدئوهای شبکه‌های اجتماعی
  • افزایش دسترسی‌پذیری محتوا برای افراد دارای محدودیت شنوایی
  • آماده‌سازی فایل‌های ویدیویی برای ترجمه و بومی‌سازی آسان‌تر
  • ایجاد امکان جستجو در محتوای ویدیویی بر اساس متن گفتاری
  • تولید زیرنویس آموزشی و سینمایی با رعایت استانداردهای زمان‌بندی