ChatGPT: Досліджуємо автономний перегляд і створення слайд-шоу

Огляд
17 липня 2025 року компанія OpenAI представила ChatGPT Agent, свій найсучасніший “агентний ШІ” на сьогодні. Цей новий агент, який базується на попередніх інструментах, таких як Operator та Deep Research, здатний самостійно переглядати веб, виконувати код у ізольованому середовищі та створювати складні документи, такі як презентації PowerPoint. Від моменту запуску OpenAI також впровадила корпоративні конектори для Salesforce та розширила підтримку сторонніх плагінів, а функції активації голосом та мобільний WebView з’являться наприкінці 2025 року.
Архітектура агента
- Основна модель: GPT-4o з 1.8 трильйона параметрів, спеціально налаштована для використання інструментів
- Ізольоване середовище: мікровіртуальні машини Firecracker, організовані через Kubernetes на Azure та AWS
- Доступ до інструментів: віртуальний браузер (безголовий Chromium), термінал, схожий на POSIX, автоматизація LibreOffice/PowerPoint через COM
- API конекторів v2.1: безпечні інтеграції з Gmail, GitHub, Salesforce, Zapier та власними REST-інтерфейсами
- Затримка: приблизно 200 мс на кожен виклик API, кешування на основі Redis для повторних запитів
Архітектура інтеграції
ChatGPT Agent використовує модульну плагінну архітектуру. Кожен Конектор працює як незалежний сервіс, спілкуючись з агентом через gRPC потоки з використанням mTLS. Запити координуються внутрішнім компонентом Оркестратор, який відстежує стан завдань, управляє повторними спробами та об’єднує результати мультимодального мислення (текст, код, HTTP-відповіді).
Глибокий аналіз показників продуктивності
OpenAI повідомляє про досягнення на рівні передових технологій, хоча незалежна перевірка ще не проведена:
- Останній іспит людства: 41.6% точності (проти 24.9% у GPT-4o без інструментів)
- FrontierMath: 27.4% з доступом до інструмента Python (проти 19.3%)
- DSBench: 89.9% в аналізі даних, 85.5% в моделюванні даних (проти 64.1%/65.0% для людей)
- BrowseComp: 68.9% у пошуку важкодоступних веб-даних
- SpreadsheetBench: 45.5% точності в редагуванні таблиць
“Результати в бенчмарках обіцяють, але реальне поєднання нових кроків залишається складним завданням,” зазначає доктор Емілі Чен, старший дослідник в AMD AI Labs. “Агент демонструє відмінні результати, коли завдання відповідають його навчальним даним, але стикається з труднощами в зовсім нових робочих процесах.”
Реальні випадки використання та думки експертів
- Автоматизоване створення презентацій: користувачі надають тему та брендові елементи; агент створює слайд-декі через Office COM, з оформленням, керованим шаблоном на основі машинного навчання.
- Робочі процеси в електронній комерції: формування комплектів одягу, порівняння цін та автоматичні покупки через конектори Shopify та Stripe.
- Оновлення даних у пайплайнах: отримання онлайн фінансових звітів, оновлення пов’язаних Google Sheets або Excel файлів та надсилання підсумків електронною поштою.
“ChatGPT Agent є важливим кроком до практичних автономних помічників,” говорить Андрій Карпатий, колишній директор з ШІ в Tesla. “Його мікровіртуалізація та повна оркестрація інструментів встановлюють нові стандарти безпеки та гнучкості.”
Безпека та конфіденційність
Багатокомпонентний дизайн приносить нові ризики:
- Ін’єкція запитів: Зловмисні приховані поля на веб-сторінках можуть спробувати перехопити контрольні потоки. Захист OpenAI включає навчання з використанням противників та підтвердження дій користувачем для високих ризиків.
- Витік даних: Весь перегляд відбувається на серверах OpenAI; локальні дані користувача залишаються ізольованими. Користувачі можуть одним кліком видалити журнали перегляду та активні сесії.
- Відповідність регуляторним вимогам: Розгортання в ЄЕП та Швейцарії очікує підтвердження відповідності GDPR; корпоративні клієнти отримують переваги від сертифікацій SOC 2 Type II та ISO 27001.
Плани на майбутнє
OpenAI планує:
- Випустити легкий агентний виконуваний файл для локальних розгортань.
- Інтегрувати пошук векторних баз даних для покращення довгострокової пам’яті.
- Покращити оформлення в PowerPoint за допомогою CSS-стилів тем.
Висновок
ChatGPT Agent розширює межі агентного ШІ, об’єднуючи потужну мовну модель з безпечним, ізольованим середовищем виконання. Хоча поточні можливості вражають в рутинних веб-процесах та створенні документів, складні і нові завдання залишаються викликом. Як тільки з’являться сторонні аудити та реальні випробування, ми зможемо краще оцінити його надійність і безпеку в умовах виробництва.