Чому штучний інтелект не справляється з олімпійськими доказами?

Вступ
Незважаючи на значні досягнення в розвитку великих мовних моделей (LLMs) за останні два роки, сучасні системи штучного інтелекту, які претендують на “симульоване мислення” (SR), все ще не можуть досягти справжнього концептуального розуміння, особливо в галузі математичних доведень. Нещодавня передпечатка з ETH Zurich та INSAIT при Софійському університеті під назвою “Доказ чи блеф? Оцінка LLM на основі математичної олімпіади США 2025 року” висвітлює причини, чому найкращі AI моделі сьогодні успішно виконують рутинні обчислення, але зазнають невдач при побудові доведень на рівні змагань.
Ключові результати з тестування USAMO 2025
Дослідники на чолі з Іво Петровим та Мартином Вечевим оцінили вісім передових моделей, здатних до SR, за шістьма завданнями математичної олімпіади США 2025 року (USAMO). На відміну від Американського запрошеного математичного іспиту (AIME), який вимагає лише цілочисельних відповідей, USAMO вимагає повних, багатоступеневих логічних доведень, які оцінюються за шкалою від 0 до 7 за кожне завдання.
- Gemini 2.5 Pro (Google): 10.1/42 бали (~24%)
- DeepSeek R1: 2.0/42 бали (~4.8%)
- Grok 3 (xAI): 2.0/42 бали (~4.8%)
- Flash-Thinking (Gemini 2.0 Experimental): 1.8/42 бали (~4.3%)
- Claude 3.7 Sonnet: 1.5/42 бали (~3.6%)
- QwQ-32B (Qwen): 1.2/42 бали (~2.9%)
- o1-pro (OpenAI): 1.2/42 бали (~2.9%)
- o3-mini-high (OpenAI): 0.9/42 бали (~2.1%)
Варто зазначити, що післяконкурсні тести моделей o3-high та o4-mini-high від OpenAI на MathArena показали покращення до ~21.7% та ~19.1% відповідно, але можливість того, що ці дані були включені в подальше навчання, зменшує надійність цих результатів.
Порівняння шаблонного мислення та концептуального міркування
У своїй основі, моделі SR на базі трансформерів є великими двигунами для розпізнавання шаблонів. Запити “ланцюгом думок” (CoT) спрямовують їх на генерацію покрокового “внутрішнього міркування”, але це залишається в основному статистичним, а не символічним. У той час як людські математики використовують абстрактні концепції — групи, кільця, схеми індукції — SR моделі зазвичай переобладнують фрагменти доведень, які вони бачили під час навчання.
- Логічні прогалини: Ланцюги, які пропускають критичні висновки (наприклад, випадки з ненатуральними числами, які відхиляються занадто рано).
- Помилкові припущення: Непідтверджені леми, представлені без обґрунтування.
- Самовпевнені галюцинації: Неправильні кроки, стверджувані з абсолютною впевненістю.
Технічний аналіз невдач
Детальний аналіз задачі 5 USAMO — про суми біноміальних коефіцієнтів — виявив, як QwQ-32B, незважаючи на виявлення модульних обмежень (n choose k mod p
), помилково виключив дійсні рішення через неправильне застосування теореми Лукаса. Ці помилки мають дві основні причини:
- Несумісність цілей навчання: Більшість моделей SR оптимізують ймовірність наступного токена, а не дійсність доведення, що призводить до спотворених розподілів уваги щодо критичних токенів висновку.
- Артефакти перенавчання на тестах: Моделі, навчені на наборах даних, які вимагають форматування
\boxed{}
, вчаться очікувати фінальну “упаковану відповідь”, навіть якщо формальне доведення не закінчується єдиним числовим результатом.
Крім того, дослідження з абляцією довжини ланцюга та головок уваги показують, що глибші кроки міркування приносять зменшені результати: понад ~150 токенів CoT, додаткове масштабування контекстного вікна дає покращення <10% за метриками завершеності доведення.
Інтеграція символічного мислення та нейронних моделей
Щоб перевершити чисте розпізнавання шаблонів, дослідники вивчають гібридні архітектури:
- Нейро-символічні системи: AlphaGeometry від DeepMind об’єднує нейронні кодувальники з символічним доводом, забезпечуючи, щоб будь-яке згенероване доведення проходило формальну перевірку.
- Зовнішні SMT/RSA двигуни: НейроProof від Стенфорда маршрутизує кандидатні кроки доведення через SMT-розв’язувач (Z3) для видалення недійсних висновків в реальному часі.
- Генерація з підкріпленням даних: Системи, такі як RAG-Proof від OpenAI, отримують відповідні теореми з кураторської бази знань, щоб закріпити міркування в усталених лемах.
Ранні тести показують, що символічна перевірка сама по собі зменшує конфабуляцію на ~30%, хоча затримка в обробці зростає до 50% через виклики розв’язувача.
Вплив на індустрію та критично важливі застосування
Окрім олімпійських змагань, обмеження моделей SR несуть ризики в сферах, які вимагають строгих доведень — формальні методи в проектуванні чіпів, валідація криптографічних протоколів та автоматизоване доведення теорем для систем, критичних для безпеки. Одна недосвідчена логічна прогалина може призвести до апаратного збою або вразливості в шифруванні.
Експерти, такі як доктор Емілі Чен (MIT CSAIL), застерігають: “Хоча ланцюг думок покращує перевірку коду та верифікацію дизайну, покладатися на неперевірені нейронні доведення в авіоніці чи фінансах є передчасним без гібридних запобіжників.”
Майбутні напрямки в архітектурі моделей
Закриття прогалини в міркуванні, ймовірно, вимагатиме інновацій, які виходять за межі масштабування параметрів:
- Модульні шаблони уваги: Динамічна маршрутизація самостійної уваги для розрізнення між об’єктним міркуванням і метаміркувальними шарами.
- Навчання доведенню за програмою: Прогресивне доопрацювання на дедалі абстрактніших схемах доведення (індукція, інваріанти, екстремальні принципи).
- Перемішана формальна верифікація: Вбудовування легких перевірників доведення в процес генерації для надання негайних зворотних зв’язків.
Нова архітектура LLaMA 4 від Meta, за повідомленнями, включає “Proof Head” — спеціалізований блок трансформера, попередньо навчений на формальних бібліотеках Coq та Lean, що потенційно означає першу великомасштабну інтеграцію доводів у SR-структуру.
Висновок
Дослідження “Доказ чи блеф” яскраво демонструє, що симульоване мислення, навіть з розширеним ланцюгом думок, залишається на стадії розвитку — відмінно підходить для завдань, що базуються на шаблонах, але вразливе для справжнього концептуального мислення. Коли спільнота AI звертається до нейро-символічного злиття, суворі протоколи тестування та формальна верифікація стануть необхідними для безпечного просування вперед, забезпечуючи, щоб обіцянка AI-розуміння відповідала доказовій коректності як в академічному, так і в промисловому контекстах.