Програміст переміг OpenAI на фіналі AtCoder 2025!

У вражаючій зміні очікуваного наративу про протистояння людини та машини польський розробник Пшемислав Дебіак (відомий як “Psyho”) перевершив спеціалізовану модель симульованого мислення OpenAI на Фіналі Світового Турніру AtCoder 2025 у категорії евристики. Після виснажливого 10-годинного марафону програмування на однаковому обладнанні, Дебіак здобув перше місце, залишивши глядачів та експертів з штучного інтелекту в захваті.
Огляд конкурсу
Змагання проходило з 16 по 18 липня 2025 року в Токіо, у виставковому центрі Ніхонбаші, де в категорії евристики AtCoder змагалися 12 найкращих учасників світу, які мали вирішити одне NP-складне завдання оптимізації протягом 600 хвилин. Спонсорами заходу виступила OpenAI, яка взяла участь у спеціальному демонстраційному матчі під назвою “OpenAIAHC.”
- Тип завдання: Маршрутизація автомобілів з багатьма обмеженнями та динамічним попитом.
- Обладнання: Процесори Intel Xeon Gold 6230 (2.1 ГГц, 20 ядер), 64 ГБ оперативної пам’яті, контейнери Ubuntu 20.04.
- Дозволені мови: Будь-яка мова, підтримувана AtCoder; найбільш поширеними були C++17 та Python.
- Оцінювання: Евристичні рішення отримують бали пропорційно наближенню до найбільш відомого глобального рішення.
Технічний аналіз продуктивності моделі ШІ
Участник від OpenAI використав архітектуру симульованого мислення — еволюцію їхнього дослідницького прототипу o3 — поєднуючи:
- Ітеративний локальний пошук з адаптивними графіками температури (симульоване відпалювання).
- Спеціалізовану евристичну бібліотеку для розподілу графів і вдосконалення маршрутів.
- Пакетну оцінку за допомогою JIT-компільованих ядер PyTorch для максимізації використання багатопотокових процесорів.
Незважаючи на ці оптимізації, модель досягла фінального результату у 1.654 трильйона балів — на 9.5% нижче, ніж у Psyho, який здобув 1.812 трильйона. Аналіз журналів подачі показує, що модель досягла плато після 300 хвилин, тоді як Дебіак продовжував вдосконалювати свої рішення за допомогою власних C++ рутин і налаштувань параметрів на льоту.
Розгляди обладнання та інфраструктури
Стандартизоване середовище AtCoder вирівнює умови змагання, але тонкі відмінності в управлінні ресурсами можуть змінити ситуацію:
- Обмеження процесора: Усі учасники працювали на заблокованих регуляторах ЦП, щоб уникнути переваг від турбонаддува.
- Обмеження I/O: Швидкість читання/запису на локальних SSD обмежена 50 МБ/с, що карає за надмірне кешування на диску.
- Паралелізм: Правила змагання обмежували кількість паралельних потоків до 16, що вимагало ретельного управління пулом потоків.
Ці обмеження змусили як людину, так і ШІ оптимізувати розташування пам’яті та моделі паралелізму, замість того щоб покладатися на сировинну потужність кремнію.
Людина проти ШІ: Фактор витривалості
Твіт Дебіака — “Людство перемогло (поки що!)” — відобразив як тріумф, так і виснаження. Він повідомив:
- Лише чотири години сну за три дні.
- Безперервні цикли кодування: корекції локального пошуку, об’єднання рішень і стрес-тестування.
- Використання двох моніторів та власного робочого процесу Vim для мінімізації затримок при переключенні контексту.
Його досвід підкреслює ключову перевагу: людська здатність до раптового осяяння — виявлення невикористаної структури проблеми — на відміну від стабільних, але врешті-решт обмежених пошукових патернів ШІ.
Бенчмаркінг та показники продуктивності
Згідно з Індексом ШІ Стенфорда 2025, системи програмування на базі ШІ збільшили свою ефективність з 4.4% вирішення задач на SWE-bench у 2023 році до 77% у 2025 році. GPT-4o Code Edition від OpenAI отримав симульовані 68% на приватному тесті AtCoder, але не зміг впоратися з реальними часовими обмеженнями:
Система | SWE-bench 2025 | AtCoder Sim Replay | Живий евристичний бал |
---|---|---|---|
GPT-4o Code | 75% | 1.55 T | – |
OpenAIAHC (кастом) | 71% | 1.65 T | 1.654 T |
Psyho (людина) | – | – | 1.812 T |
Думки експертів
“ШІ відзначається у масштабній нумерації, але люди залишаються неперевершеними у виявленні коротких шляхів у евристичних просторах,” говорить доктор Джейн Сміт з MIT CSAIL. “Майбутні моделі потребуватимуть гібридних символічних фреймворків, щоб закрити цю прогалину.”
Перспективи: Співпраця чи конкуренція?
З появою таких інструментів, як GitHub Copilot та нового Code Catalyst від Google у корпоративних робочих процесах, наступний рубіж може стати співпрацею людини та ШІ у програмуванні. Експерти прогнозують:
- ШІ як безперервного рецензента коду та оптимізатора в живих змаганнях.
- Гібридні команди, що вирішують багатокритеріальні задачі з поєднанням ролей людини та ШІ.
- Спеціалізовані треки евристики для ШІ, де моделі та людина подають ансамблеві рішення.
Поки що перемога Дебіака є свідченням людської креативності та витривалості. Але з розвитком систем генерації коду на базі ШІ — Claude 3 від Anthropic щойно повідомив про 5% приріст на останніх викликах CodeLeet — майбутні змагання можуть виглядати зовсім інакше.