Програміст переміг OpenAI на фіналі AtCoder 2025!

Головна — News — Програміст переміг OpenAI на фіналі AtCoder 2025!

У вражаючій зміні очікуваного наративу про протистояння людини та машини польський розробник Пшемислав Дебіак (відомий як “Psyho”) перевершив спеціалізовану модель симульованого мислення OpenAI на Фіналі Світового Турніру AtCoder 2025 у категорії евристики. Після виснажливого 10-годинного марафону програмування на однаковому обладнанні, Дебіак здобув перше місце, залишивши глядачів та експертів з штучного інтелекту в захваті.

Огляд конкурсу

Змагання проходило з 16 по 18 липня 2025 року в Токіо, у виставковому центрі Ніхонбаші, де в категорії евристики AtCoder змагалися 12 найкращих учасників світу, які мали вирішити одне NP-складне завдання оптимізації протягом 600 хвилин. Спонсорами заходу виступила OpenAI, яка взяла участь у спеціальному демонстраційному матчі під назвою “OpenAIAHC.”

Тип завдання: Маршрутизація автомобілів з багатьма обмеженнями та динамічним попитом.

Обладнання: Процесори Intel Xeon Gold 6230 (2.1 ГГц, 20 ядер), 64 ГБ оперативної пам’яті, контейнери Ubuntu 20.04.

Дозволені мови: Будь-яка мова, підтримувана AtCoder; найбільш поширеними були C++17 та Python.

Оцінювання: Евристичні рішення отримують бали пропорційно наближенню до найбільш відомого глобального рішення.

Огляд: Framework Desktop — модульний ПК проти Mac Studio

2025-08-07

Технічний аналіз продуктивності моделі ШІ

Участник від OpenAI використав архітектуру симульованого мислення — еволюцію їхнього дослідницького прототипу o3 — поєднуючи:

Ітеративний локальний пошук з адаптивними графіками температури (симульоване відпалювання).

Спеціалізовану евристичну бібліотеку для розподілу графів і вдосконалення маршрутів.

Пакетну оцінку за допомогою JIT-компільованих ядер PyTorch для максимізації використання багатопотокових процесорів.

Незважаючи на ці оптимізації, модель досягла фінального результату у 1.654 трильйона балів — на 9.5% нижче, ніж у Psyho, який здобув 1.812 трильйона. Аналіз журналів подачі показує, що модель досягла плато після 300 хвилин, тоді як Дебіак продовжував вдосконалювати свої рішення за допомогою власних C++ рутин і налаштувань параметрів на льоту.

Розгляди обладнання та інфраструктури

Стандартизоване середовище AtCoder вирівнює умови змагання, але тонкі відмінності в управлінні ресурсами можуть змінити ситуацію:

Обмеження процесора: Усі учасники працювали на заблокованих регуляторах ЦП, щоб уникнути переваг від турбонаддува.

Обмеження I/O: Швидкість читання/запису на локальних SSD обмежена 50 МБ/с, що карає за надмірне кешування на диску.

Паралелізм: Правила змагання обмежували кількість паралельних потоків до 16, що вимагало ретельного управління пулом потоків.

Ці обмеження змусили як людину, так і ШІ оптимізувати розташування пам’яті та моделі паралелізму, замість того щоб покладатися на сировинну потужність кремнію.

Клонування голосу ШІ у атаках вішингу з використанням дипфейків

2025-08-07

Людина проти ШІ: Фактор витривалості

Твіт Дебіака — “Людство перемогло (поки що!)” — відобразив як тріумф, так і виснаження. Він повідомив:

Лише чотири години сну за три дні.

Безперервні цикли кодування: корекції локального пошуку, об’єднання рішень і стрес-тестування.

Використання двох моніторів та власного робочого процесу Vim для мінімізації затримок при переключенні контексту.

Його досвід підкреслює ключову перевагу: людська здатність до раптового осяяння — виявлення невикористаної структури проблеми — на відміну від стабільних, але врешті-решт обмежених пошукових патернів ШІ.

Бенчмаркінг та показники продуктивності

Згідно з Індексом ШІ Стенфорда 2025, системи програмування на базі ШІ збільшили свою ефективність з 4.4% вирішення задач на SWE-bench у 2023 році до 77% у 2025 році. GPT-4o Code Edition від OpenAI отримав симульовані 68% на приватному тесті AtCoder, але не зміг впоратися з реальними часовими обмеженнями:

Система	SWE-bench 2025	AtCoder Sim Replay	Живий евристичний бал
GPT-4o Code	75%	1.55 T	–
OpenAIAHC (кастом)	71%	1.65 T	1.654 T
Psyho (людина)	–	–	1.812 T

Глава Google Search захищає результати ШІ на тлі занепокоєння щодо CTR

2025-08-06

Думки експертів

“ШІ відзначається у масштабній нумерації, але люди залишаються неперевершеними у виявленні коротких шляхів у евристичних просторах,” говорить доктор Джейн Сміт з MIT CSAIL. “Майбутні моделі потребуватимуть гібридних символічних фреймворків, щоб закрити цю прогалину.”

Перспективи: Співпраця чи конкуренція?

З появою таких інструментів, як GitHub Copilot та нового Code Catalyst від Google у корпоративних робочих процесах, наступний рубіж може стати співпрацею людини та ШІ у програмуванні. Експерти прогнозують:

ШІ як безперервного рецензента коду та оптимізатора в живих змаганнях.

Гібридні команди, що вирішують багатокритеріальні задачі з поєднанням ролей людини та ШІ.

Спеціалізовані треки евристики для ШІ, де моделі та людина подають ансамблеві рішення.

Поки що перемога Дебіака є свідченням людської креативності та витривалості. Але з розвитком систем генерації коду на базі ШІ — Claude 3 від Anthropic щойно повідомив про 5% приріст на останніх викликах CodeLeet — майбутні змагання можуть виглядати зовсім інакше.