Проблеми з аудіо в оновленні AI-видео Google Veo 3

Вступ
21 травня 2025 року компанія Google представила Veo 3 — свою найсучаснішу систему синтезу відео на основі штучного інтелекту. Вперше у відкритому доступі Veo 3 пропонує синхронізовані потоки відео та аудіо високої чіткості у восьмисекундних кліпах, які містять зрозумілий діалог, музику та звукові ефекти. Незабаром після запуску, ентузіасти штучного інтелекту звернули увагу на знаменитий тест “Вілл Сміт їсть спагетті”, виявивши цікаву особливість: паста звучить підозріло хрустко.
Тест на спагетті: від жаху до сміху
Тест на спагетті бере свій початок з березня 2023 року, коли модель з відкритим кодом ModelScope створила гротескно спотворені кадри актора Вілла Сміта, який їсть пасту — беззвучно і жахливо. Пізніше сам Сміт пародіював цей кліп у лютому 2024 року, закріпивши його в історії штучного інтелекту. Хоча до того часу модель Gen-2 від Runway вже демонструвала вищу якість зображення, мем ModelScope залишився еталоном прогресу у синтезі відео.
Veo 3 в дії: розширення технічних можливостей
Veo 3 є значним архітектурним досягненням. В його основі лежить поєднання Vision Transformer (ViT-Veo) з паралельним Audio Transformer (AuT-512) та шаром крос-модальної фузії. Під час обробки Veo 3 працює на:
- Роздільна здатність: 1080p при 24 кадрах на секунду
- Тривалість кліпу: до 8 секунд
- Аудіо: стерео 48 кГц, 16-бітний PCM
- Розмір моделі: 22 мільярди параметрів
- Затримка: ~3,5 секунди на кліп на TPUs v5
Команда Google застосувала багатостороннє контрастивне навчання, тренуючи Veo 3 на 2 мільйонах годин парних відео- та аудіоданих, включаючи фільми, новинні передачі та контент, створений користувачами. Спеціалізований аудіокорпус підвищив здатність моделі генерувати звукові пейзажі, синхронізовану мову та музичні супроводи.
Пояснення хрусткого аудіоглюка
- Неврівноважене розподілення даних: навчальний набір містив багато прикладів хрустких звуків (чіпси, горіхи, кусання), але відносно небагато прикладів звуків, пов’язаних з їжею, таких як слурпання або жування м’яких продуктів.
- Упередженість у прогнозуванні: як генеративний предиктор, Veo 3 часто замінює найближчий звук з високою енергією, що призводить до появи хрустких звуків при “їжі спагетті”.
- Несумісність доменів: аудіо токени для взаємодії з їжею групуються в латентному просторі, що викликає перетворення між хрусткими та не хрусткими категоріями.
“Аудіомодель Veo 3 вчиться на статистичних кореляціях, а не на біомеханіці,” пояснює доктор Ліна Чен, спеціаліст з аудіомашинного навчання в Центрі комп’ютерних досліджень музики та акустики Стенфорда. “Коли корпус переважно представляє хрусткі звуки, модель автоматично підлаштовується під цей шаблон.”
Думки експертів
Ми звернулися до кількох дослідників штучного інтелекту та аудіоінженерів, щоб дізнатися їхню думку про продуктивність Veo 3:
- Доктор Маркус Фельдман, старший дослідник у DeepMind: “Veo 3 — це перша велика система, яка одночасно оптимізує відеокадри та аудіохвилі з високою точністю. Залишкові артефакти цілком відповідають очікуванням для моделі такого розміру та масштабу.”
- Олекс Родрігес, провідний акустичний інженер у Dolby Laboratories: “Хрусткі спагетті — це проблема неврівноваженості даних. Тонке налаштування з використанням цілеспрямованих аудіокліпів зі звуками слурпання та жування може швидко вирішити цю проблему.”
Технічні характеристики детально
Крім основних показників, інфраструктура Veo 3 включає:
- Модулі Tensor Processing Units (TPU) v5 з 512 TFLOPS на ядро
- Навчання з змішаною точністю (bfloat16) для оптимізації пам’яті та обчислювальної ефективності
- Крос-модальні вікна уваги, що охоплюють 512 відеотокенів та 1,024 аудіотокенів
- API-інтерфейс через Google Cloud AI Platform, що дозволяє виконувати пакетні завдання та запити в реальному часі
Фільтри контенту та етичні міркування
Google впровадила фільтр обличчя знаменитостей, щоб заблокувати прямі наслідування публічних осіб, таких як Вілл Сміт. Однак, як показали ранні тестувальники, такі як Хаві Лопес на платформі X, зловмисні запити іноді можуть обійти ці обмеження. Це піднімає важливі етичні питання:
- Неправомірне використання Deepfake: Реалістичне відтворення голосу та зовнішності може сприяти кампаніям дезінформації.
- Порушення конфіденційності: Генерація неконсенсуальних зображень або аудіо приватних осіб.
- Регуляторний тиск: Уряди ЄС та США розглядають законодавство, яке вимагатиме маркування або відстеження походження синтетичних медіа.
Перспективи розвитку
Синтез відео на основі штучного інтелекту швидко розвивається. Очікується, що наступні значні оновлення Veo 3 включатимуть:
- Адаптивну токенізацію аудіо для зменшення артефактів перетворення.
- Підтримку довших кліпів (до 60 секунд) з динамічними переходами між сценами.
- Інтегроване тонке налаштування тексту в мову (TTS) для персоналізованих голосів.
У той же час конкуренти, такі як Video LLaMA від Meta та Project Firefly Video від Adobe, змагаються за те, щоб наздогнати або перевершити можливості Veo 3. Комбіновані підходи, що об’єднують кілька моделей, також набирають популярність у дослідницькому середовищі.
Висновок
Veo 3 від Google встановила новий стандарт у синтезі відео на основі штучного інтелекту, досягнувши синхронізації високоякісного аудіо та відео. Хоча infamous хрусткий глюк спагетті виявляє труднощі з балансом навчальних даних та прогнозуванням шаблонів, цілеспрямоване налаштування та постійні дослідження обіцяють швидкі покращення. Коли ці системи стають дедалі більш здатними та доступними через API в хмарі, культурні та технічні наслідки лише зростатимуть, наближаючи нас до нової ери цифрового контенту.
Смачного (тільки остерігайтеся хрускоту)!