Google Veo 3: Анімація фотографій за допомогою Gemini

Додаток Google Gemini нещодавно отримав потужну функцію перетворення фото на відео, завдяки новітній моделі Veo 3. Абоненти тарифів AI Pro та AI Ultra тепер можуть завантажити статичне зображення, додати текстовий запит і отримати повністю анімоване восьмисекундне відео з озвученням, музикою та фоновими звуками.
Інформація про Veo 3 та Gemini
З моменту свого дебюту у травні, Veo 3 привертає увагу завдяки здатності створювати надзвичайно реалістичні відео на основі текстових запитів. У його основі лежить архітектура Pathways від Google, яка поєднує багатопараметричний трансформатор з 40 мільярдами параметрів і дифузійну відеосинтетичну лінію. Це дозволяє моделі одночасно генерувати кадри, аудіотреки та синтезувати голос у єдиній мережі.
Архітектура моделі та технічні характеристики
- Параметри: близько 40 мільярдів
- Обчислювальна платформа: Google TPU v4 Pod для паралельного обчислення
- Максимальний вихід: роздільна здатність 720p при 24 кадрах на секунду, до 8 секунд у довжину
- Аудіо: інтегрований текст-у-голос з нейронним кодеком; підтримує фонову музику та звукові ефекти
- Затримка: в середньому 3–5 хвилин на відео (залежить від черги та навантаження)
Як створити відео з фотографій
- Відкрийте додаток Gemini або веб-інтерфейс і виберіть вкладку Відео.
- Завантажте ваше зображення (JPEG, PNG до 10 МБ).
- Введіть детальний запит, вказуючи дії, діалоги та звукові підказки.
- Натисніть Згенерувати і дочекайтеся, поки лінія Veo 3 створить ваш кліп.
- Перегляньте результат; за потреби, змініть запит або зображення та спробуйте знову.
Цей процес нагадує попередній інструмент Flow AI, доступний для кінематографістів, але тепер він інтегрований безпосередньо в зручний інтерфейс Gemini.
Продуктивність та обмеження
Хоча Veo 3 демонструє вражаючу анімацію, існують певні обмеження:
- Щоденна квота: користувачі AI Pro отримують 3 відео на день; користувачі AI Ultra – 5 на день.
- Обмеження виходу: фіксоване на 720p і 8 секунд для збалансування якості та навантаження.
- Змінність: результати можуть відрізнятися від запитів; для точності може знадобитися кілька спроб.
- Витрати на обчислення: кожне покоління споживає кілька сотень секунд TPU-ядра, що зумовлює потребу у строгих квотах.
Інтеграція з Google Cloud для розробників
Паралельно з виходом додатка, Google оголосив про плани зробити Veo 3 доступним через API Vertex AI в найближчі тижні. Розробники зможуть вбудовувати функцію перетворення фото на відео у веб-додатки та мобільні сервіси, використовуючи інфраструктуру TPU Google Cloud з автоматичним масштабуванням. Попередні тести показують, що пакетна обробка може досягати продуктивності понад 20 відео на годину на один TPU v4.
Етичні міркування та заходи безпеки
“Реалістичність Veo 3 – це двосічний меч,” говорить доктор Марія Чен, керівник етики ШІ в Центрі цифрової довіри. “Водяний знак SynthID від Google – це крок уперед, але інструменти виявлення повинні йти в ногу з розвитком генеративних моделей.”
Щоб запобігти зловживанням, Gemini вбудовує цифровий водяний знак SynthID у кожен кадр. Google також використовує інтенсивне тестування на вразливість, перевірки та фільтри контенту, щоб запобігти небажаним виходам. Проте експерти зауважують, що надійність водяного знака може знижуватися, якщо відео сильно обробляється після генерації.
Перспективи: Тренди в генерації AI-відео
Експерти галузі вважають, що майбутні оновлення збільшать довжину відео, роздільну здатність (до 1080p або 4K) та інтерактивні функції редагування. Конкуренти, такі як Make-A-Video від Meta та відео-дифузійний набір Stability AI, намагаються наздогнати або перевершити можливості Veo 3. Тим часом дорожня карта Google натякає на демонстрації генерації в реальному часі та тіснішу інтеграцію з інструментами Workspace для маркетингових та креативних команд.
Висновок: Завдяки новій функції перетворення фото на відео, Gemini та Veo 3 розширюють межі доступного створення контенту на основі штучного інтелекту. Хоча поточні обмеження щодо роздільної здатності, довжини та квот залишаються, технологічні основи вказують на майбутнє, де перетворення одного знімка на кінематографічний кліп стане звичним для професіоналів і любителів.