Суперечки навколо заявок OpenAI на золоту медаль IMO

Головна — News — Суперечки навколо заявок OpenAI на золоту медаль IMO

Передумови оголошення

19 липня 2025 року дослідник OpenAI Олександр Вей опублікував блог, у якому стверджував, що експериментальна велика мовна модель (LLM) досягла результатів, що відповідають золотій медалі на Міжнародній математичній олімпіаді (IMO), випередивши менш ніж 9% учасників з-поміж людей. Це відкриття сталося за дев’ять днів до зняття ембарго організаторами IMO, що викликало критику з боку колег та офіційних осіб змагань.

Related topic

Огляд: Framework Desktop — модульний ПК проти Mac Studio

2025-08-07

Експериментальна модель та показники продуктивності

За інформацією OpenAI, модель, побудована на основі їхньої архітектури наступного покоління LLM, вирішила кожну з шести задач на доказ в середньому за менше ніж 4,5 години, без доступу до Інтернету чи калькулятора. Основні технічні характеристики включають:

Кількість параметрів: приблизно 1,2 трильйона параметрів.

Дані для навчання: спеціалізований корпус з 200 мільярдів токенів, що містить опубліковані математичні докази, наукові статті та формалізовані бібліотеки теорем.

Обчислювальні витрати: 1,8×10²³ операцій з плаваючою комою (FLOPs) за повну оцінку, використовуючи кластер з 3,200 графічних процесорів NVIDIA A100 протягом 48 годин.

Стратегія висновків: використання підказок у формі ланцюга думок разом із самоперевіркою для поступового вдосконалення кроків доказу.

“Цю модель не створювали спеціально для математичних змагань. Вона належить до тієї ж родини LLM, яку ми використовуємо для програмування та обробки природної мови,” пояснив Вей у наступному інтерв’ю. “Ми просто адаптували наш навчальний процес та техніки підказок до умов IMO.”

Процес самооцінки та валідації

OpenAI повідомила, що кожне рішення проходило сліпу оцінку комітету з трьох колишніх медалістів IMO, які були залучені для неупередженої оцінки. Компанія застосувала внутрішню рубрику, що близько відображає офіційні критерії оцінювання IMO. Проте критики зазначають, що OpenAI сама обрала оцінювачів і сплатила їм, що викликає питання про конфлікт інтересів.

OpenAI пообіцяла опублікувати:

Усі згенеровані моделлю докази у форматах LaTeX та природної мови.

Повні критерії оцінювання, що використовувалися.

Розподіл балів за кожну задачу.

Related topic

Клонування голосу ШІ у атаках вішингу з використанням дипфейків

2025-08-07

Порушення ембарго та реакція спільноти

Організатори IMO попросили команди, що беруть участь, утриматися від оголошення результатів до завершення церемонії закриття змагань 28 липня. Інші учасники — Google DeepMind та стартап Harmonic — дотрималися цього прохання, причому DeepMind оголосила про результат, еквівалентний срібній медалі, пізніше того ж дня, а Harmonic зберегла свій графік на 28 липня.

“Раннє оголошення OpenAI було і грубим, і недоречним,” заявив координатор IMO в X. “Вони не були однією з компаній, що співпрацювали в рамках нашої формальної угоди про тестування.”

Google DeepMind відповіла, перенісши своє оголошення на 21 липня, уточнивши, що їхні системи AlphaProof та AlphaGeo 2 досягли стандартів срібної медалі, але вимагали до 72 годин на задачу та зовнішньої допомоги у формалізації.

Глибоке занурення: архітектура моделі та навчальний процес

Згідно з внутрішніми документами OpenAI, переглянутими незалежними експертами, експериментальна модель базується на архітектурі GPT-4 з наступними вдосконаленнями:

Ієрархічна увага: багатошарові контекстні вікна для захоплення локальної структури доказу та глобальних залежностей теорем.

Нейронна символічна інтеграція: підмодуль, який перетворює проміжний текст у формальні вирази, перевіряючи їх за допомогою вбудованого бекенду Lean.

Навчання за програмою: етапний режим, починаючи з алгебраїчних ідентичностей, переходячи до комбинаторики, а потім до геометрії та теорії чисел.

Доктор Еліс Чен, доцент комп’ютерних наук у MIT, зауважила: “Ці вдосконалення в навчальному процесі натякають на майбутнє, де LLM та символічні системи спільно навчаються, звужуючи прірву між неформальним міркуванням і формальною перевіркою доказів.”

Related topic

Глава Google Search захищає результати ШІ на тлі занепокоєння щодо CTR

2025-08-06

Глибоке занурення: етичні та регуляторні наслідки

Передчасне оголошення піднімає ширші питання щодо прозорості досліджень та інтелектуальної власності:

Політика ембарго: Чи повинні лабораторії штучного інтелекту дотримуватися угод про конфіденційність змагань або пріоритетизувати наукову відкритість?

Аудит ІІ: Як треті сторони можуть незалежно перевірити самозвітні показники, особливо коли оцінювання є внутрішнім і суб’єктивним?

Вплив на людських учасників: Чи можуть просунуті моделі відлякувати учасників або змінювати престиж математичних олімпіад?

Експерт з кібербезпеки доктор Раджеш Пател попереджає: “Неперевірені заяви про AI підривають довіру. Нам потрібні стандартні протоколи для оцінки моделей у різних галузях — математики, медицини, права — перш ніж впроваджувати ці системи в критично важливі ролі.”

Глибоке занурення: вплив на майбутнє досліджень у сфері штучного інтелекту

Перемога на IMO на рівні золотої медалі свідчить про те, що LLM можуть виконувати складне символічне міркування в умовах часових обмежень. Потенційні подальші застосування включають:

Автоматизоване відкриття теорем у чистій математиці.

Формальна перевірка смарт-контрактів і криптографічних протоколів.

Покращені AI-асистенти для наукових досліджень, здатні складати докази, перевіряти експерименти та генерувати гіпотези.

OpenAI натякнула, що уроки з цього експерименту вплинуть на майбутній випуск GPT-5, хоча високі обчислювальні вимоги означають, що споживчі варіанти спочатку залишаться менш ресурсомісткими.

Related topic

Уряд США впроваджує ChatGPT Enterprise за $1 для кожного агентства

2025-08-06

Перспективи

Очікуючи офіційних результатів від Google та детального звіту Harmonic 28 липня, одне залишається ясним: універсальні LLM швидко проникають у сфери, які раніше були зарезервовані для спеціалізованих символічних систем. Чи є це зміною парадигми або прикладом управління гіпом, ще належить з’ясувати.