DeepMind презентує Genie 3: Інтерактивна 3D модель світу з покращеною пам’яттю

DeepMind нещодавно представила Genie 3, найновішу версію своєї революційної технології світових моделей. Спираючись на швидкі інновації Genie 2, цей реліз розширює межі генеративного моделювання, забезпечуючи вищу візуальну якість, справжнє реальний рендеринг в режимі реального часу та пам’ять, що вимірюється в хвилинах. Дослідники та розробники тепер можуть створювати та маніпулювати цілими 3D-середовищами, використовуючи прості текстові запити або зображення, що відкриває нові можливості для навчання штучного інтелекту, прототипування ігор та генерації синтетичних даних.
Передумови: Від базових моделей до інтерактивних світів
Еволюція від Genie 1 до Genie 2
Шлях DeepMind до світових моделей розпочався з простих систем, що демонстрували статичні або короткі відео. У січні 2025 року Genie 2 продемонструвала базову світову модель, здатну рендерити сцени тривалістю 10 секунд з основною узгодженістю. На конференції NeurIPS 2025 команда детально описала, як Genie 2 використовувала комбінацію архітектур на основі трансформерів і нейронних радіаційних полів для вивчення динаміки з мільйонів синтетичних взаємодій.
Лише через сім місяців Genie 3 з’являється з багатомодульною архітектурою: трансформер на 50 мільярдів параметрів для розуміння сцен, генератор на основі дифузії для високоякісних кадрів та шар підвищення пам’яті, що індексує попередні кадри для підтримки безперервності на тривалих горизонтах.
Ключові технічні інновації
Візуальна якість та рендеринг в реальному часі
- Роздільна здатність 720p при 24 кадрах на секунду з затримкою менше 200 мс на TPU v4
- Повна підтримка PBR (фізично обґрунтоване рендеринг) для динамічного освітлення, тіней та відображень
- Багатокутна узгодженість за допомогою внутрішньої системи CLIP для забезпечення правильної геометрії об’єктів з різних кутів
Розширена пам’ять та управління контекстом
Якщо “долгострокова пам’ять” Genie 2 обмежувалася приблизно 10 секундами, Genie 3 може зберігати візуальний та фізичний стан протягом кількох хвилин. Це досягається за рахунок двох рівнів пам’яті:
- Короткостроковий буфер: Вікно останніх кадрів для негайного контексту.
- Довгостроковий індекс: Система зберігання ключ-значення для минулих станів, доступна через навчений вектор для отримання віддаленої історії за запитом.
Синтетичні дані для втілених агентів
Генеруючи нескінченні, недетерміновані світи, Genie 3 вирішує критичну проблему в дослідженнях штучного інтелекту: брак різноманітних, якісних навчальних середовищ. Втілені агенти можуть бути розгорнуті в цих синтетичних сценах, щоб навчитися навігації, маніпуляції об’єктами та соціальної поведінки під час подій за запитом—динамічних тригерів, таких як зміни погоди або взаємодії з NPC, визначені на льоту.
Архітектура та ефективність висновків
Genie 3 використовує архітектуру трансформера з мішаними експертами (MoE) з 32 експертами, динамічно маршрутизуючи токени для ефективного висновку. Відеопотік використовує двоступеневий процес дифузії: груба 3D-латентна дифузія для розташування сцени, за якою слідує тонка 2D-дифузія для деталей на піксельному рівні. DeepMind повідомляє, що витрати на обчислення для кожного кадру становлять приблизно 8 TFLOPs, розподілені по TPU-подам з автоматизованим плануванням пакетів для підтримки плавної інтерактивності.
Синтетичні дані та навчання AGI
Завдяки розширеній пам’яті та мультимодальним вхідним даним, Genie 3 пропонує контрольовану пісочницю для просування до штучного загального інтелекту (AGI). Згідно з нещодавнім оголошенням на блозі Google Research, DeepMind планує інтегрувати світи Genie 3 у свої внутрішні RL Benchmarks для оцінки продуктивності агентів у порівнянні з людськими базовими показниками. Доктор Міра Сучак, провідний дослідник світових моделей, зазначає, що “синтетичні середовища з постійним станом є життєво важливими для навчання агентів довгостроковому плануванню та причинно-наслідковому мисленню.”
Вплив на індустрію та виклики комерціалізації
Розробники ігор висловили як захоплення, так і скептицизм. З одного боку, динамічне прототипування рівнів може скоротити час перевірки концепцій з місяців до годин. З іншого боку, практична інтеграція в існуючі движки (Unreal, Unity) вимагатиме спеціальних SDK та реальних GPU-потоків. Крім того, вартість висновків—оцінюється у сотні доларів за кожну змодельовану годину—становить бар’єр для незалежних студій чи малих дослідницьких лабораторій, які не мають доступу до інфраструктури TPU.
Думки експертів та майбутні напрямки
Доктор Аня Пател, архітектор ШІ в OpenAI: “Genie 3 встановлює нову планку для контрольованого моделювання, але масштабування пам’яті до годин або днів стане наступним викликом. Реальна проблема полягає в безперервній адаптації світу, оскільки агенти змінюють середовище.”
Професор Лукас Ортега, кафедра комп’ютерних наук Стенфордського університету: “Поєднання Genie 3 з географічними даними реального світу може дозволити створення цифрових двійників для розумних міст. Однак ліцензування та конфіденційність даних визначатимуть, наскільки відкрито ці моделі можуть бути застосовані.”
Висновок: Дослідницький інструмент з величезним потенціалом
Хоча Genie 3 залишається закритою дослідницькою платформою—доступ обмежений лише для вибраних експертів у сфері ШІ та партнерів—вона передбачає майбутнє, в якому безмежні інтерактивні світи будуть у розпорядженні дослідників і творців. DeepMind планує розширити доступ наприкінці 2025 року, потенційно через API на Google Cloud, що з’єднає експериментальні лабораторії з комерційними застосуваннями.
Додаткова література
- Доповідь DeepMind на NeurIPS 2025 про моделі дифузії з підвищенням пам’яті
- Блог Google Research: Інтеграція світових моделей у бенчмарки підкріпленого навчання
- Оголошення про співпрацю Unity Labs і DeepMind (очікується в IV кварталі 2025 року)