Claude 4: Розкриття таємниць системи ШІ Anthropic

Експертний аналіз виявляє приховані команди
У неділю незалежний дослідник Саймон Віллісон опублікував детальний аналіз системних команд Anthropic для нових варіантів Claude 4 — Opus 4 та Sonnet 4. Об’єднавши опубліковані нотатки про випуски з витоками внутрішніх інструкцій, отриманими за допомогою складних технік ін’єкції запитів, Віллісон відтворив повну картину прихованих настанов, які визначають результати Claude 4. Цей неофіційний довідник проливає світло на те, як Anthropic закодовує ідентичність, обмеження безпеки, доступ до інструментів та правила стилю в кожній розмові.
Як системні команди формують поведінку моделі
Системні команди — це перші приховані повідомлення, які додаються до запитів користувачів. Вони визначають особистість моделі, її межі та стандартні процедури. На відміну від видимої історії розмов, ці команди залишаються непрозорими для кінцевих користувачів. Щоразу, коли надсилається команда, Claude 4 отримує:
- Фіксовану системну команду (понад 10 000 токенів інструкцій)
- Усі попередні повідомлення користувача та асистента
- Поточний запит користувача
У цих інструкціях Anthropic поєднує принципи конституційного ШІ з моделями навчання з підкріпленням на основі людського зворотного зв’язку (RLHF). За даними, наданими Anthropic, Opus 4 працює на основі моделі з 2,4 трильйона параметрів та контекстним вікном у 200 тисяч токенів, тоді як Sonnet 4 використовує спрощену модель з 1,3 трильйона параметрів і вікно в 100 тисяч токенів для застосувань з нижчою затримкою.
Боротьба з підлабузництвом і емоційним маніпулюванням
Одним із ключових висновків є чітка заборона Anthropic на лестощі. У той час як багато великих мовних моделей (LLM) зазвичай починають з похвали для підвищення залученості користувачів, команда Claude 4 вказує пропустити будь-які позитивні прикметники на початку відповіді. На практиці:
- Claude не повинен починати з фраз на кшталт “блискучий”, “фасцинуючий” або “чудовий”
- Емоційна підтримка дозволена, але заохочення до самопошкодження або залежної поведінки суворо заборонено
- Відповіді повинні бути чіткими, прямими та нейтральними за тоном
Керівник відділу безпеки машинного навчання Anthropic зазначив у недавньому виступі, що балансування стосунків із користувачем без переходу в небажане підлабузництво є критично важливим для продуктів тривалого діалогу.
Розбіжності в термінах завершення знань та RAG
Віллісон виявив, що публічний термін завершення даних Anthropic (березень 2025 року) відрізняється від надійного терміна завершення системної команди (січень 2025 року). Це свідчить про навмисну буферну зону безпеки, щоб уникнути впевнених помилок на основі пізніх даних. Для заповнення прогалин Claude 4 може використовувати pipeline з підсиленням пошуку (RAG):
- Внутрішній API веб-пошуку з обмеженнями швидкості та очищенням запитів
- Сувора політика одноразових лапок до 15 токенів для будь-якого зовнішнього витягу
- Автоматичне відмовлення при зіткненні з текстами пісень або довгими захищеними авторським правом текстами
Захист авторських прав та безпека контенту
Як Opus 4, так і Sonnet 4 отримують повторювані вказівки уникати деструктивних резюме — конденсуючи матеріал настільки близько, що це порушує оригінальний вираз. Claude закодований так, щоб:
- Видавати не більше одного короткого цитування за відповідь
- Відмовлятися від точного відтворення будь-яких текстів пісень або власницького коду
- Звертатися до перефразування або посилань на джерела у разі сумнівів
Ці правила відображають зобов’язання Anthropic щодо безпеки авторських прав і зменшують юридичні ризики для корпоративних впроваджень.
Безпекові наслідки прихованих команд
Витік системних команд створює новий клас ризиків безпеки. Противники можуть створювати запити, які використовують знання про приховані інструкції, щоб обходити фільтри або викликати заборонені дії. Експерти, такі як Джейкоб Штайнхардт, попереджають, що прозорі команди можуть зменшити зловживання, але також можуть направити атакуючих на пошук нових вразливостей.
Стратегії пом’якшення ризиків включають:
- Динамічне шифрування та ротацію команд
- Диференційовану конфіденційність для маскування чутливих токенів
- Автоматизоване тестування на вразливість зосереджене на векторах витоку команд
Показники продуктивності та інфраструктура
За лаштунками Opus 4 розгортається на кластерах графічних процесорів Nvidia H100 з використанням змішаних точних конвеєрів float16. Anthropic використовує 16-етапний паралелізм тензорів та 8-канальне шардінг моделі для підвищення ефективності. Основні показники продуктивності включають:
- Оцінка за багатоатрибутним тестом HELM на 92-му процентилі
- Оцінка академічного тесту MMLU на рівні 87
- Точність математичного мислення за тестом GSM8K на рівні 78
Sonnet 4 має менший обсяг пам’яті — квантизований до 4-бітних ваг для використання на місці — за рахунок зниження пропускної здатності на 15% у порівнянні з Opus.
Майбутні напрямки для прозорості та довіри
Віллісон завершує закликом до відкритої публікації повних системних команд разом з нотатками про випуски. Оскільки Закон ЄС про ШІ та галузеві коаліції прагнуть до більшої прозорості, Anthropic та інші компанії можуть незабаром стандартизувати розкриття команд. Ініціативи з відкритим кодом вже почали публікувати проекти конституцій та шаблони команд для сприяння довірі в критичних застосуваннях.
Основні рекомендації для постачальників:
- Публікувати повні, версійовані системні команди
- Документувати специфічні інструкції для інструментів та перевірки безпеки
- Залучати сторонніх аудиторів для оцінки вразливостей команд