Суперечки навколо заявок OpenAI на золоту медаль IMO

Передумови оголошення
19 липня 2025 року дослідник OpenAI Олександр Вей опублікував блог, у якому стверджував, що експериментальна велика мовна модель (LLM) досягла результатів, що відповідають золотій медалі на Міжнародній математичній олімпіаді (IMO), випередивши менш ніж 9% учасників з-поміж людей. Це відкриття сталося за дев’ять днів до зняття ембарго організаторами IMO, що викликало критику з боку колег та офіційних осіб змагань.
Експериментальна модель та показники продуктивності
За інформацією OpenAI, модель, побудована на основі їхньої архітектури наступного покоління LLM, вирішила кожну з шести задач на доказ в середньому за менше ніж 4,5 години, без доступу до Інтернету чи калькулятора. Основні технічні характеристики включають:
- Кількість параметрів: приблизно 1,2 трильйона параметрів.
- Дані для навчання: спеціалізований корпус з 200 мільярдів токенів, що містить опубліковані математичні докази, наукові статті та формалізовані бібліотеки теорем.
- Обчислювальні витрати: 1,8×1023 операцій з плаваючою комою (FLOPs) за повну оцінку, використовуючи кластер з 3,200 графічних процесорів NVIDIA A100 протягом 48 годин.
- Стратегія висновків: використання підказок у формі ланцюга думок разом із самоперевіркою для поступового вдосконалення кроків доказу.
“Цю модель не створювали спеціально для математичних змагань. Вона належить до тієї ж родини LLM, яку ми використовуємо для програмування та обробки природної мови,” пояснив Вей у наступному інтерв’ю. “Ми просто адаптували наш навчальний процес та техніки підказок до умов IMO.”
Процес самооцінки та валідації
OpenAI повідомила, що кожне рішення проходило сліпу оцінку комітету з трьох колишніх медалістів IMO, які були залучені для неупередженої оцінки. Компанія застосувала внутрішню рубрику, що близько відображає офіційні критерії оцінювання IMO. Проте критики зазначають, що OpenAI сама обрала оцінювачів і сплатила їм, що викликає питання про конфлікт інтересів.
OpenAI пообіцяла опублікувати:
- Усі згенеровані моделлю докази у форматах LaTeX та природної мови.
- Повні критерії оцінювання, що використовувалися.
- Розподіл балів за кожну задачу.
Порушення ембарго та реакція спільноти
Організатори IMO попросили команди, що беруть участь, утриматися від оголошення результатів до завершення церемонії закриття змагань 28 липня. Інші учасники — Google DeepMind та стартап Harmonic — дотрималися цього прохання, причому DeepMind оголосила про результат, еквівалентний срібній медалі, пізніше того ж дня, а Harmonic зберегла свій графік на 28 липня.
“Раннє оголошення OpenAI було і грубим, і недоречним,” заявив координатор IMO в X. “Вони не були однією з компаній, що співпрацювали в рамках нашої формальної угоди про тестування.”
Google DeepMind відповіла, перенісши своє оголошення на 21 липня, уточнивши, що їхні системи AlphaProof та AlphaGeo 2 досягли стандартів срібної медалі, але вимагали до 72 годин на задачу та зовнішньої допомоги у формалізації.
Глибоке занурення: архітектура моделі та навчальний процес
Згідно з внутрішніми документами OpenAI, переглянутими незалежними експертами, експериментальна модель базується на архітектурі GPT-4 з наступними вдосконаленнями:
- Ієрархічна увага: багатошарові контекстні вікна для захоплення локальної структури доказу та глобальних залежностей теорем.
- Нейронна символічна інтеграція: підмодуль, який перетворює проміжний текст у формальні вирази, перевіряючи їх за допомогою вбудованого бекенду Lean.
- Навчання за програмою: етапний режим, починаючи з алгебраїчних ідентичностей, переходячи до комбинаторики, а потім до геометрії та теорії чисел.
Доктор Еліс Чен, доцент комп’ютерних наук у MIT, зауважила: “Ці вдосконалення в навчальному процесі натякають на майбутнє, де LLM та символічні системи спільно навчаються, звужуючи прірву між неформальним міркуванням і формальною перевіркою доказів.”
Глибоке занурення: етичні та регуляторні наслідки
Передчасне оголошення піднімає ширші питання щодо прозорості досліджень та інтелектуальної власності:
- Політика ембарго: Чи повинні лабораторії штучного інтелекту дотримуватися угод про конфіденційність змагань або пріоритетизувати наукову відкритість?
- Аудит ІІ: Як треті сторони можуть незалежно перевірити самозвітні показники, особливо коли оцінювання є внутрішнім і суб’єктивним?
- Вплив на людських учасників: Чи можуть просунуті моделі відлякувати учасників або змінювати престиж математичних олімпіад?
Експерт з кібербезпеки доктор Раджеш Пател попереджає: “Неперевірені заяви про AI підривають довіру. Нам потрібні стандартні протоколи для оцінки моделей у різних галузях — математики, медицини, права — перш ніж впроваджувати ці системи в критично важливі ролі.”
Глибоке занурення: вплив на майбутнє досліджень у сфері штучного інтелекту
Перемога на IMO на рівні золотої медалі свідчить про те, що LLM можуть виконувати складне символічне міркування в умовах часових обмежень. Потенційні подальші застосування включають:
- Автоматизоване відкриття теорем у чистій математиці.
- Формальна перевірка смарт-контрактів і криптографічних протоколів.
- Покращені AI-асистенти для наукових досліджень, здатні складати докази, перевіряти експерименти та генерувати гіпотези.
OpenAI натякнула, що уроки з цього експерименту вплинуть на майбутній випуск GPT-5, хоча високі обчислювальні вимоги означають, що споживчі варіанти спочатку залишаться менш ресурсомісткими.
Перспективи
Очікуючи офіційних результатів від Google та детального звіту Harmonic 28 липня, одне залишається ясним: універсальні LLM швидко проникають у сфери, які раніше були зарезервовані для спеціалізованих символічних систем. Чи є це зміною парадигми або прикладом управління гіпом, ще належить з’ясувати.