Успіх Pokémon у Google Gemini та його приховані обмеження
На початку цього року Claude від Anthropic не зміг перемогти у Pokémon Red, незважаючи на місяці зусиль. Натомість, кампанія, що транслювалася на Twitch і використовувала модель Google Gemini 2.5, нещодавно успішно завершила Pokémon Blue після 106,000 ігрових дій — досягнення, яке навіть отримало схвалення від генерального директора Google, Сундара Пічаї. Але перед тим, як визнати це доказом переваги великих мовних моделей або важливим кроком до штучного загального інтелекту (AGI), важливо детально розглянути технічну основу, що дозволила Gemini досягти перемоги.
Роль агентського каркасу
Ключовим фактором, що відрізняв результати, була не сировинна потужність моделі, а зовнішній “агентський каркас”, розроблений розробником JoelZ. Цей каркас забезпечує:
- Витяг стану: OCR та обробка на піксельному рівні перетворюють екран гри на структуровані дані.
- Управління пам’яттю: Резюме минулих дій зберігаються в буфері отримання, що дозволяє зберігати зв’язність контекстного вікна на 128 тисяч токенів.
- Виклик інструментів: Вбудовані примітиви дозволяють Gemini видавати команди на рух, бій та запити до інвентарю.
Для порівняння, експеримент Claude від Anthropic працював на мінімальному каркасі, змушуючи модель “галюцинувати” стан або ігнорувати складні макети карт. Як зазначає JoelZ, “неможливо порівнювати ці результати без врахування підтримки, яку отримує кожна модель.”
Накладення та інструменти навігації
Обидва проекти створюють тайлове накладення, яке накладається на екран Game Boy. Проте каркас Gemini додає критично важливу метадані:
- Позначки про прохідність: Кожен тайл позначено як прохідний або заблокований, що запобігає незаконним рухам.
- Текстова міні-карта: Жива, високорівнева графіка досліджених областей допомагає планувати маршрути через кілька екранів.
Ця міні-карта використовує процедурно згенеровану матрицю суміжності, що дозволяє агенту з пошуку в ширину (BFS) обчислювати маршрути за час O(n + m), де n — кількість тайлів, а m — кількість ребер. У Claude не було таких явних графічних представлень, що змушувало його потрапляти в безвихідь і безцільно повертатися назад.
Спеціалізовані агентні системи
Окрім базової моделі, JoelZ інтегрував два допоміжні агенти Gemini:
- Розв’язувач лабіринтів: Використовує BFS для навігації по печерах Victory Road.
- Планувальник головоломок: Застосовує евристики задоволення обмежень для Boulder Puzzle.
Ці агенти працюють на окремих GPU-подах у середовищі Vertex AI Google Cloud, кожен з них налаштований за допомогою навчання з підкріпленням на основі людського зворотного зв’язку (RLHF) для прискорення процесу прийняття рішень. Без цих модулів навіть Gemini застрягає на повторюваних головоломках.
Технічний аналіз: Архітектура агентського каркасу
Каркас побудований на основі архітектури мікросервісів, розгорнутій на Kubernetes. Ключові компоненти включають:
- Сервіс захоплення екрану: Python Flask сервіс, що виконує реальний захоплення екрану через RetroArch API.
- Попередній обробник: Модель TensorFlow Lite, що виявляє елементи інтерфейсу та діалогові вікна з точністю 98,7%.
- Маршрутизатор дій: Контролер на GoLang, що ставить команди в чергу та синхронізується з частотою кадрів емулятора.
Комунікація між сервісами використовує gRPC через внутрішню VPC, що забезпечує затримку менше 10 мс для запитів з круговим проходженням. Ця низька затримка є критично важливою для ігор, які вимагають точних входів у кожному кадрі.
Порівняння з підходами навчання з підкріпленням
Спеціалізовані агенти RL завершують Pokémon набагато ефективніше:
- Глибокі Q-мережі (DQN), навчені на мільйонах симульованих проходжень, закінчують гру менш ніж за 1,000 дій.
- Стратегії випадкового дослідження врешті-решт досягають успіху, але не мають узагальнення для нових версій гри.
На відміну від цього, гра на основі LLM поєднує міркування природною мовою з символічним пошуком. Однак велика залежність від зовнішніх інструментів підриває заяви про “узагальнене навчання”.
Висновки для розвитку AGI
Загальне питання полягає в тому, чи може перемога у дитячій відеогрі свідчити про прогрес у напрямку штучного загального інтелекту. Експерти залишаються обережними:
- Доктор Джуліан Бредшоу (LessWrong) попереджає, що без стандартизації каркасів результати не можуть бути порівняні між моделями.
- Доктор Девід Херші з Anthropic зазначає, що “відсутність просторового мислення та консолідації пам’яті є основними проблемами LLM.”
- Дослідники Google натякають на майбутнє поліпшення Gemini 3 з контекстним вікном на 1 мільйон токенів та мультимодальними трансформерами, однак просторове навігація залишається викликом.
Поки моделі не зможуть самостійно створювати та оновлювати світові моделі, подібно до людських ментальних карт, їх “успіх” у завданнях, таких як Pokémon Blue, залежатиме від зовнішніх структур.
Висновок
Завершення Pokémon Blue Google Gemini є технічно вражаючим, але не слід сприймати це як доказ чистої потужності LLM. Розширений агентський каркас, спеціалізовані підагенти та хмарна оркестрація виконують більшу частину важкої роботи. Коли спільнота AI чекає на Gemini 3 та інші моделі наступного покоління, справжнім тестом стане здатність до повного міркування без спеціалізованих інструментів. Лише тоді ми зможемо стверджувати про справжній прогрес у напрямку AGI.