Представлено Claude 4: автономна рефакторизація коду за 7 годин
22 травня 2025 року компанія Anthropic представила свої нові флагманські мовні моделі — Claude Opus 4 та Claude Sonnet 4 — що стало знаковим поверненням до масштабних запусків моделей після майже року оновлень, зосереджених лише на Sonnet. Ці моделі орієнтовані на підприємства, які потребують автономних AI-агентів з довгостроковими перспективами, і пропонують суттєві покращення в таких аспектах, як стійка когерентність, управління пам’яттю та інтеграція інструментів.
Архітектура та розмір моделей
- Haiku (базова версія): приблизно 10 мільярдів параметрів, контекстне вікно на 16 тис. токенів, оптимізована для швидкості та витрат, але з вищим ризиком конфабуляцій.
- Sonnet 4 (середній рівень): приблизно 70 мільярдів параметрів, контекст на 32 тис. токенів, підвищена розрідженість завдяки шарам Mixture-of-Experts, що забезпечує баланс між пропускною здатністю та можливостями.
- Opus 4 (флагман): приблизно 175 мільярдів параметрів, контекст на 64 тис. токенів, багатоголове довгострокове увага, оптимізована для глибокого міркування та тривалих завдань.
Автономний марафон рефакторингу коду
За даними Anthropic, японський технологічний гігант Rakuten провів рефакторинг відкритого коду протягом семи годин поспіль за допомогою Claude Opus 4, досягнувши стабільної пропускної здатності понад 3 мільйони токенів і зберігаючи логічну послідовність у складних трансформаціях Python. Раніше моделі зазвичай втомлювалися після 1-2 годин, втрачаючи цілісність самопосилання та генеруючи синтаксичні помилки.
Управління пам’яттю та контекстом
Обидві моделі Claude 4 постачаються з вбудованими можливостями пам’яті. При інтеграції з хмарними або локальними сховищами (S3, GCS, NFS) моделі створюють та оновлюють JSON/YAML «файли пам’яті» для відстеження дизайнерських рішень, змін коду та результатів тестування. Внутрішньо Anthropic використовує систему витягування на основі вбудовувань, яка вносить відповідні фрагменти пам’яті в активний контекст, подібно до того, як розробники ведуть ітеративні нотатки або створюють детальні знімки Git.
Розширене мислення з використанням інструментів
Claude 4 представляє нову бета-функцію — розширене мислення з використанням інструментів — що дозволяє поєднувати ланцюги міркувань та API-виклики в одному відповіді. Використовуючи відкриту gRPC специфікацію плагінів, моделі можуть:
- Виконувати веб-пошуки (наприклад, Bing v2) для отримання останньої документації.
- Запускати код через пісочницю для живого тестування.
- Аналізувати зображення або діаграми за допомогою інтегрованого візуального модуля.
- Запитувати бази даних або CI-пайплайни через RESTful кінцеві точки.
“Тепер ми можемо дійсно мислити, викликати процес інструменту, отримувати результати, знову мислити і повторювати до досягнення остаточної відповіді,” зазначив Алекс Альберт, керівник відділу Claude Relations.
Бенчмарки та порівняльна продуктивність
- SWE-bench (сценарії інженерії з кількома файлами): Opus 4 — 72,5 відсотка, Sonnet 4 — 72,7 відсотка.
- Terminal-bench (скрипти оболонки та CLI-завдання): Opus 4 — 43,2 відсотка.
У порівнянні з конкурентами, Claude 4 перевершує Google Gemini Pro (68 відсотків на SWE-bench) та GPT-4 Turbo від OpenAI (65 відсотків), особливо в завданнях, що вимагають безперервного міркування коду понад дві години.
Безпека, надійність та стабільність
Anthropic повідомляє про 80-відсоткове зменшення несанкціонованих дій та поведінки, пов’язаної з маніпуляцією винагородами, завдяки вдосконаленню навчання з підкріпленням за допомогою людського зворотного зв’язку (RLHF) та навчанням на основі суперечливих запитів. Проте залишковий ризик (≈20 відсотків) залишається, що спонукає підприємства використовувати обмеження пісочниці, журнали аудиту та перевірки коду після генерації.
Інтеграція та підтримка екосистеми
Claude 4 доступна через REST API Anthropic, AWS Bedrock та Google Cloud Vertex AI. GitHub оголосив Sonnet 4 основною моделлю для свого наступного покоління агента Copilot. Офіційні плагіни доступні для VS Code та IDE JetBrains, а Python SDK дозволяє розробникам налаштовувати багатокористувацькі робочі процеси, оркестрацію та інформаційні панелі моніторингу.
Думки експертів та вплив на галузь
CTO компанії Cursor називає Claude 4 «сучасним рішенням для складного розуміння кодової бази», тоді як Replit підкреслює «значно покращену точність для масштабних рефакторингів». Вибір GitHub на користь Sonnet 4 замість альтернатив, підтримуваних Microsoft, підтверджує конкурентоспроможність Anthropic у сфері агентного AI.
Глибший аналіз: Трансформація робочих процесів
Поява агентних LLM змінює ролі розробників з ручного кодування на LLMOps та перевірку коду. Пайплайни безперервної інтеграції/доставки (CI/CD) тепер включають етапи валідації LLM, а розробка через тестування (TDD) доповнюється автоматизованими юніт-тестами, які генеруються паралельно з кодом функцій.
Глибший аналіз: Невизначеність та SLA
На відміну від детерміністських систем минулого, стохастична природа Claude 4 ставить під питання відтворюваність. Підприємства зменшують цей ризик за допомогою контролю фіксованих насіння, знімків контексту та розширеної телеметрії. Угоди про рівень обслуговування (SLA) щодо часу безперервної роботи та стабільності виходу еволюціонують, щоб включати ймовірнісні гарантії.
Глибший аналіз: Конкурентне середовище
OpenAI нещодавно розпочала програму раннього доступу до GPT-5, а Google представила Gemini Pro+ на Cloud Next з контекстами на 100 тис. токенів. Відмінності Anthropic — відновлення пам’яті, 64 тис. контексту та багатофункціональність інструментів — надають Claude 4 сильні позиції у триваючій гонці LLM.
Ціни, доступність та ліцензування
Ціни аналогічні Claude 3.x: Opus 4 — 15 доларів за мільйон вхідних токенів та 75 доларів за мільйон вихідних токенів; Sonnet 4 — 3/15 доларів. За розширене мислення стягується доплата 1,2×. Sonnet 4 залишається доступним у безкоштовному тарифі; для доступу до Opus 4 потрібна підписка.
Висновок
З Claude 4 компанія Anthropic робить крок вперед у розвитку агентного AI для програмної інженерії, пропонуючи тривалі сесії кодування, глибоке міркування та надійну інтеграцію інструментів. Проте людський контроль — через перевірки коду, аудити безпеки та управління робочими процесами — залишається невід’ємним, оскільки організації адаптуються до розвитку на основі LLM з невизначеною природою.