Netflix запроваджує субтитри лише з діалогами

У відповідь на численні скарги глядачів на нечутний діалог у потокових трансляціях з низьким бітрейтом і динамічним діапазоном, Netflix цього місяця представив нову субтитрову доріжку «тільки слова», яка призначена для глядачів без слухових порушень, які не хочуть пропустити жодної репліки. Вилучивши звукові ефекти, описи музики та позначення мовців, Netflix прагне забезпечити чистіший і зосередженіший досвід читання, що доповнює усне мовлення без зайвого шуму.
Чому субтитри «тільки слова»?
Останні опитування показують, що приблизно 50% американських домогосподарств використовують субтитри, хоча лише 10-15% глядачів є глухими або мають проблеми зі слухом. Сучасні практики звукозапису, такі як природні стилі виконання, агресивна компресія динамічного діапазону для кінематографічного ефекту та оптимізовані кодеки для потокового відео, сприяють тому, що діалоги можуть бути важкими для сприйняття на вбудованих динаміках телевізорів або мобільних пристроїв. Нова доріжка Netflix «English (Dialogue Only)» виключає описи, які не стосуються мовлення, надаючи лише репліки, як вони звучать, навіть якщо вони є тією ж мовою, що й діалоги на екрані.
Формати та стандарти субтитрів
- SRT і WebVTT: Найпоширеніші текстові формати, які тепер доповнені метаданими для позначення елементів, що не є діалогом.
- TTML і SMPTE-TT: Дозволяють більш багатий стиль і синхронізовані метадані. Netflix адаптує SMPTE-TT, щоб позначати лише «блоки мовлення» для цієї функції.
- CEA-608/708: Спадкові стандарти мовлення, які містять як субтитри, так і телетекст; Netflix перекодував їх у сучасний TTML для архівних назв.
Обробка звуку та виклики динамічного діапазону
Потоки Netflix зазвичай використовують аудіоформати AAC-LC або AC-4 з бітрейтом від 128 кбіт/с (стерео) до 640 кбіт/с (5.1 оточуючий звук). Щоб відповідати стандартам гучності (ITU-R BS.1770 та EBU R128), інженери застосовують компресію динамічного діапазону, що може приховати тихий діалог під насиченими фоновими ефектами або музикою. Режими покращення голосу Dolby та власний підвищення діалогу Netflix використовують класифікатори на основі машинного навчання для ізоляції частот мовлення, але субтитри залишаються найнадійнішим варіантом для забезпечення зрозумілості на базовому обладнанні.
Генерація субтитрів за допомогою штучного інтелекту
За лаштунками Netflix використовує гібридну систему автоматичного розпізнавання мови (ASR), яка спирається на відкриті моделі, подібні до Whisper, та власні нейронні мережі для транскрипції діалогів з помилкою у словах менше 5%. Редактори потім проводять перевірку якості та використовують автоматизоване фільтрування тегів для видалення елементів, що не стосуються мовлення. За словами керівника відділу доступності Netflix, «Наша система тепер може виявляти та виключати понад 90% елементів, що не є діалогом, завдяки точно налаштованим трансформерним моделям, які аналізують контекстуальні метадані в реальному часі».
Переваги та обмеження
- Переваги: Чистіший візуальний макет, швидший темп читання, краща синхронізація з швидкими діалогами, підтримка понад 20 мов на старті.
- Недоліки: Втрачається контекст навколишнього середовища у сценах з великою кількістю дії; ідентифікатори мовців видаляються, що може заплутати глядачів, які не знайомі з голосами персонажів.
Перспективи розвитку
Netflix планує впровадити субтитри лише з діалогами для вибраних класичних назв до третього кварталу 2025 року, включаючи ліцензовані шоу та фільми. Спостерігачі індустрії зазначають, що Amazon Prime та Disney+ розглядають подібні функції. Стандартизаційні органи, такі як W3C, обговорюють категорії метаданих для треків «тільки мовлення». Наступним кроком стане реальний переклад субтитрів на декілька мов, що використовує штучний інтелект на пристроях та об’єктно-орієнтовані аудіометадані в Dolby Atmos для персоналізованих аудіоміксів.