Gemini Deep Think здобув золото на IMO завдяки паралельному мисленню

Штучний інтелект проти Міжнародної математичної олімпіади: новий стандарт у математичному мисленні
На Міжнародній математичній олімпіаді 2025 року в Перт, Австралія, новітня модель штучного інтелекту від Google, Gemini Deep Think, змагалася з найкращими молодими математиками світу і здобула золоту медаль. DeepMind безпосередньо співпрацювала з організаторами олімпіади, щоб забезпечити оцінювання моделі за тими ж умовами, що й для людських учасників: шість задач на доведення, суворий ліміт часу в 4.5 години та обов’язкове показування всіх етапів розв’язання.
Від срібла до золота: еволюція стратегії DeepMind на IMO
Минулого року гібридна система, основана на AlphaProof та AlphaGeometry 2, здобула срібну медаль, правильно вирішивши чотири з шести задач. У 2025 році DeepMind представила Gemini Deep Think, модель, розроблену для паралельного симульованого мислення, а не для лінійного розумування. За словами Тханга Луанга, старшого науковця DeepMind і керівника команди на IMO, “Deep Think була навчена на задачах природної мови від початку до кінця — без ручного перекладу в специфічний код. Вона міркує у кількох каналах одночасно, а потім об’єднує доведення в одне узгоджене рішення.”
Технічна архітектура Gemini Deep Think
Під капотом Gemini Deep Think — ансамбль трансформерів з 110 мільярдами параметрів, що працює на TPU v5 Pods від Google. Ключові архітектурні поліпшення включають:
- Шари Mixture-of-Experts (MoE), які динамічно активують лише 20% мережі для кожної задачі, зменшуючи витрати на обчислення на 40% без втрати продуктивності.
- Модулі Multi-Chain-of-Thought, які генерують 8 паралельних трас мислення, кожна з яких досліджує різні стратегії доведення (наприклад, алгебраїчні, комбінаторні, геометричні), а потім виконують крос-увагу для вибору найкращого рішення.
- Розширене вікно контексту на 128,000 токенів для зберігання всіх проміжних лем і піддоказів у пам’яті.
Навчання з підкріпленням з детальним математичним зворотним зв’язком
Замість того, щоб покладатися лише на нагляд за остаточними відповідями, DeepMind розробила двоступеневу систему навчання з підкріпленням:
- Модель винагороди на рівні доведення: Навчена на 10,000 оцінених рішеннях у стилі IMO, де кожен крок доведення оцінюється за правильністю, елегантністю та самостійністю.
- Навчання за програмою: Починаючи з одноетапних алгебраїчних задач, модель поступово переходила до міждисциплінарних доведень, ефективно “підтягуваючи” свої можливості на різних рівнях складності.
“Такий підхід забезпечує надійні та прозорі ланцюги міркувань,” зазначив Луан. “Наші абляції показують, що рівень перплексії на текстах доведень у Deep Think знизився на 30% у порівнянні з минулорічною моделлю.”
Порівняльна продуктивність і останні розробки в індустрії
Серед учасників штучного інтелекту на IMO 2025:
- Gemini Deep Think (DeepMind): 5/6 правильних → Золото
- GPT-4o (OpenAI): 4/6 правильних → Неофіційне срібло, чекає на сертифікацію IMO
- LLaMA 3 (Meta): 4/6 правильних → Срібло
- Minerva II (Google Research): 3/6 правильних → Почесна згадка
У червні 2025 року OpenAI оголосила про GPT-4.5 з покращеним математичним мисленням, хоча вирішила залучити зовнішню комісію з колишніх учасників IMO для оцінювання, а не використовувати офіційний процес IMO. Натомість DeepMind підтвердила, що Deep Think суворо дотримувалася всіх правил і стандартів подання.
Вплив на формальну верифікацію та освітні інструменти
Здатність Deep Think генерувати детальні, покрокові доведення має безпосереднє застосування у формальних верифікаційних системах, таких як Coq та Lean. Дослідники в MIT вже почали експерименти з інтеграції виходів Deep Think у автоматизовані конвеєри доведення теорем, скорочуючи час розробки доведень до 50%. У сфері освіти платформи, такі як Khan Academy та Coursera, ведуть переговори з DeepMind про впровадження подібних моделей для зворотного зв’язку по домашнім завданням в реальному часі, що потенційно може змінити підходи до викладання та вивчення вищої математики.
Майбутні напрямки та цілі на наступний рік
- Прагнення до ідеального результату: DeepMind прагне досягти 6/6 правильних відповідей, інтегруючи символічні модулі міркування з нейронною основою.
- Відкрите бенчмаркінг: Публікація наукової статті та випуск тестових платформ для спільноти під відкритою ліцензією.
- Розгортання в підприємствах: Впровадження моделі, налаштованої на IMO, в Google AI Ultra (підписка $250/місяць) для математиків, лабораторій НДР та команд з розширеної аналітики.
Оскільки вимоги до машинного мислення продовжують зростати, золота медаль Gemini Deep Think є не лише віхою в можливостях ШІ, а й передвісником глибшої співпраці між людським та машинним інтелектом.