OpenAI представляє нові покоління моделей симульованого мислення з повною інтеграцією інструментів.

OpenAI розширила свій портфель моделей штучного інтелекту, представивши два нових проривних моделі: o3 та o4-mini. Ці моделі є значним кроком вперед у сфері симульованого розумування, що забезпечується повним доступом до інструментів під час інференції. З можливостями, які варіюються від веб-перегляду та виконання коду до візуального аналізу та генерації зображень, ці моделі обіцяють поліпшену продуктивність у складних багатоступеневих завданнях.
Розширені технічні можливості та мультимодальна функціональність
Нові моделі вперше дозволяють рішенням OpenAI, орієнтованим на розумування, одночасно використовувати повний набір інструментів ChatGPT. Така інтеграція дає змогу моделям отримувати доступ до зовнішніх джерел даних, виконувати динамічні сегменти коду, генерувати візуальні результати та навіть аналізувати графічні входи в рамках одного запиту. Незалежно від того, чи стосується завдання прогнозування енергоспоживання в Каліфорнії, чи створення детальних звітів для бізнес-консалтингу, моделі можуть самостійно визначати, коли і як використовувати кожен інструмент. Мультимодальні аспекти є особливо вражаючими, оскільки моделі здатні “думати зображеннями”, аналізуючи діаграми, ескізи на дошках або навіть нечіткі текстові візуалізації.
Оцінка, показники продуктивності та думки експертів
OpenAI стверджує, що ці нові моделі є найрозумнішими, які були випущені до цього часу. Попередні результати тестування свідчать про те, що o3 досягає на 20% менше суттєвих помилок у складних завданнях порівняно зі своїм попередником o1 та демонструє сильну продуктивність у програмуванні (69.1% точності на SWE-Bench Verified) і візуальному розумуванні (82.9% на тесті MMMU). Крім того, модель o4-mini показала вражаючу точність 92.7% на 2025 році Американського математичного конкурсу (AIME). Однак, як зазначено незалежними оцінками від дослідницьких лабораторій штучного інтелекту, таких як Transluce, деякі повторювані конфабуляції, такі як неточні твердження про локальне виконання коду, вказують на можливі області для вдосконалення.
Експерти зі спільноти ШІ також висловили свою думку. Генеральний директор OpenAI Сем Альтман підкреслив стратегію поетапного впровадження, з планами незабаром ввести рівень o3-pro, тоді як професор Уортонського університету Ітан Моллік порівняв продуктивність o3 з конкурентами, такими як Google Gemini 2.5 Pro. Більше того, імунолог доктор Дер’я Унутмаз зазначила у соціальних мережах, що o3 демонструє рівень розумування, близький до геніального, здатний формулювати складні наукові гіпотези, які нагадують інсайти провідних клініцистів.
Технічний глибокий аналіз симульованого розумування
Здатність до симульованого розумування є знаковою рисою цих нових моделей. На відміну від традиційних мовних моделей, які генерують відповіді на основі розпізнавання шаблонів, o3 та o4-mini симулюють поетапний процес “мислення”. Цей динамічний механізм розумування поєднує алгоритмічне вирішення проблем з візуальним аналізом. Наприклад, коли моделі отримують завдання прогнозування майбутніх тенденцій у споживанні енергії, вони можуть самостійно шукати дані в базах даних комунальних послуг, складати Python-скрипти для аналізу даних, генерувати детальні графіки і інтерпретувати ці візуалізації – все це в рамках одного зрозумілого відповіді.
Архітектура базується на внутрішній організації кількох субмодулів, які логічно послідовно виконують завдання. Кожен з цих субмодулів взаємодіє з API інструментів — будь то для отримання веб-даних, виконання коду в середовищах, подібних до Jupyter, або генерації зображень — щоб надати контекстуально релевантні результати, розроблені для імітації людських процесів мислення.
Глибокий аналіз: Вплив на розвиток автономних агентів
Представлення OpenAI цих інструментів є стратегічним кроком до розвитку автономних агентів. Здатність поєднувати розумування з доступом до інструментів наближає нас до створення агентів, здатних управляти реальними багатоступеневими сценаріями без постійного контролю з боку людини. Експериментальний Codex CLI термінальний додаток є яскравим прикладом цього зсуву, дозволяючи розробникам підключати можливості ШІ до локальних репозиторіїв коду. Це відкриває нові можливості не лише для допомоги в програмуванні, а й для виконання складних операцій у різних середовищах.
Крім того, OpenAI оголосила про програму грантового фінансування на суму 1 мільйон доларів, спрямовану на проекти, що використовують Codex CLI, підкреслюючи зобов’язання компанії сприяти інноваціям у застосуваннях автономних агентів. Огляди аналітиків зазначають, що хоча ці досягнення є багатообіцяючими, надійний контроль з боку людини залишається критично важливим, особливо при впровадженні таких моделей у відповідальних середовищах.
Ціноутворення, доступність та інтеграція для розробників
OpenAI робить ці моделі доступними через кілька підписних рівнів. Користувачі ChatGPT Plus, Pro та Team отримують негайний доступ, тоді як клієнти Enterprise та Edu отримають доступ незабаром. Безкоштовні користувачі можуть експериментувати з o4-mini, вибравши опцію “Думати” перед подачею запитів. Що стосується API, розробники можуть отримати доступ до цих моделей через API Chat Completions та API Responses, хоча деяким організаціям потрібна додаткова перевірка.
Модель ціноутворення була розроблена таким чином, щоб бути більш економічно ефективною, ніж попередні пропозиції. Наприклад, o3 коштує 10 доларів за мільйон вхідних токенів і 40 доларів за мільйон вихідних токенів, з наявною зниженою ставкою для кешованих входів. У порівнянні з попередньою моделлю o1, це відображає приблизно 33% зниження ціни. Модель o4-mini пропонує ще більш економічні ціни, зберігаючи цінову структуру свого попередника, одночасно покращуючи продуктивність.
Реальні застосування та перспективи
З поліпшеним симульованим розумуванням і всебічним доступом до інструментів, застосування цих моделей охоплюють численні галузі. Від розширених завдань програмування та бізнес-консалтингу до клінічних досліджень та освітніх новацій, універсальність цих моделей пропонує надійні рішення для користувачів з різними вимогами.
Проте OpenAI також радить бути обережними. Незважаючи на вражаючі ранні результати тестування, відсутність повної незалежної валідації означає, що користувачі повинні ретельно перевіряти результати — особливо під час роботи за межами своїх основних сфер експертизи. Коли ці моделі будуть впроваджені ширше, постійний контроль буде критично важливим для мінімізації помилок і потенційно небезпечних конфабуляцій.
Висновок
Випуск o3 та o4-mini встановлює новий стандарт для моделей штучного інтелекту, орієнтованих на розумування. Інтегруючи всебічний доступ до інструментів, мультимодальні можливості та симульоване розумування, OpenAI розширює межі того, що може досягти штучний інтелект як у дослідженнях, так і в повсякденному застосуванні. Очікуються подальші оновлення, включаючи остаточний випуск рівня o3-pro та ширшу сторонню оцінку, ці моделі мають потенціал переосмислити ландшафт автономних агентів та інтелектуальних систем.
- Поліпшене мультимодальне розумування з інтегрованим веб-переглядом та виконанням коду
- Покращені показники продуктивності з зниженими показниками помилок та надійним вирішенням проблем
- Економічно ефективні цінові структури, розроблені для різних користувачів
- Стратегічні розробки в можливостях автономних агентів через Codex CLI
Останні випуски OpenAI підкреслюють важливий зсув у технології ШІ, де взаємодія розумування, мультимодальних даних та інтерактивних інструментів в реальному часі відкриває перспективи майбутнього автономних систем. Залишається побачити, як ці інновації будуть впроваджені в різних галузях, але ранні ознаки вказують на обнадійливу трансформацію як у методах дослідження, так і в реальних застосуваннях.
Джерело: Ars Technica