Огляд оцінок безпеки штучного інтелекту та кіберзагроз біологічним загрозам

Опубліковано 9 червня 2025 року о 13:00 GMT | Оновлено 15 листопада 2025 року
Відомі лабораторії штучного інтелекту публікують оцінки небезпечних можливостей, щоб довести, що їх моделі безпечні для використання. Зокрема, OpenAI з GPT-4o, Google DeepMind з Gemini 2.5 Pro та Anthropic з Claude Opus 4 випустили детальні звіти, які мають на меті виключити біологічні загрози та кіберзловживання. Однак детальний технічний аналіз вказує на те, що ці звіти часто не підтверджують заяви про безпеку. Основні проблеми включають слабкий перехід від сирих оцінок до ризикових порогів, недостатнє вивчення реальних можливостей та відсутність незалежної валідації в умовах нових регуляторних рамок.
1. Оцінки біологічних загроз: сумнівні пороги та показники підвищення
1.1 Біооцінки OpenAI GPT-4o
OpenAI повідомляє, що «декілька біологічних оцінок свідчать про те, що наша модель на межі допомоги новачкам у створенні відомих біологічних загроз», але не надає кількісної відповідності між тестовими оцінками та реальним підвищенням. Їхній набір з чотирьох тестів включає:
- Виправлення дизайну послідовностей: GPT-4o досягла >90% точності, відповідної або перевищуючої експертні бази на стандартних завданнях дизайну ПЦР праймерів.
- Знання патогенів: Модель отримала 85% у тестах з вибором відповіді на запитання про вірусну таксономію, у порівнянні з 80% для молодших біологів.
- Синтез протоколів: GPT-4o написала багатоступеневий протокол редагування CRISPR з 4 з 5 правильних кроків, у порівнянні з експертним посиланням.
- Планування сценаріїв біозагроз: Модель правильно ідентифікувала 3 з 4 порушень біобезпеки в гіпотетичних лабораторних налаштуваннях.
Незважаючи на сильні результати, OpenAI стверджує про безпеку, не розкриваючи:
- Який бал спровокує сигнал “високий ризик” (наприклад, pass@10 >50%).
- Які підказки або зовнішні інтеграції інструментів були дозволені.
- Як ворожі ін’єкції підказок можуть підвищити можливості.
Ця непрозорість заважає зовнішнім експертам перевірити, чи дійсно здібності GPT-4o перевищують небезпечні пороги.
1.2 Біооцінки DeepMind Gemini 2.5 Pro
DeepMind стверджує, що «Gemini 2.5 Pro поки що не дозволяє подолати ключові вузькі місця» в задачах CBRN. Публічно вони діляться лише шістьма запитаннями з вибором відповіді, що охоплюють:
- Вибір вірусного вектора.
- Деревоподібні рішення рівнів біобезпеки.
- Основні токсикологічні розрахунки.
Результати коливаються в межах 60–70% правильних відповідей, але без:
- Базових значень від людських експертів (наприклад, постдоки зазвичай отримують >85%).
- Деталей про шаблони підказок, системні повідомлення або активацію ланцюгів думок.
- Визначення “послідовного” успіху в відкритих інженерних завданнях.
Без уточнення метрик pass@k або меж помилок висновок про те, що Gemini “безпечний”, залишається непідтвердженим.
1.3 Біооцінки Anthropic Claude Opus 4
Anthropic повідомляє, що Claude Opus 4 «залишається нижче порогів занепокоєння щодо можливостей біозброї ASL-3», наводячи:
- Експерименти з підвищення: Підвищення на основі підказок червоної команди показує лише 5% покращення в порівнянні з закритим базовим рівнем — хоча поріг встановлений на 10%, що є довільним значенням без епідеміологічної підтримки.
- Перевірки знань: 70% точності в ідентифікації механізмів біозброї, у порівнянні з порогом 75%.
Експерти-вірусологи зазначають, що навіть 70% точності можуть дозволити зловмисникам обрати оптимальні вектори атаки. Рішення Anthropic не ділитися інформацією про те, які оцінки є “опорними” або як були виведені пороги з історичних випадків подвійного використання, залишає важливі питання без відповіді.
2. Оцінки кібербезпеки: недооцінка реальних показників експлуатації
2.1 Кібероцінки OpenAI GPT-4o
OpenAI стверджує, що GPT-4o не справляється з професійними викликами Capture The Flag (CTF) та складними сценаріями мережевих вторгнень «без явного коду розв’язувача». Проте в внутрішніх тестах GPT-4o досягла ≈70% успіху на професійних CTF — значно вище випадкових базових рівнів — та пройшла 4 з 5 сценаріїв порушення ізоляції, коли було дозволено доступ до живої оболонки. Звіт OpenAI не містить:
- Порівнянь pass@10 з pass@1, які можуть завищити показники безпеки, дозволяючи кілька спроб.
- Чи була дозволена санітаризація векторів або ланцюги експлуатації.
- Точних порогів, які б спровокували класифікацію “кіберризик”.
2.2 Кібероцінки DeepMind Gemini 2.5 Pro
DeepMind демонструє, що оцінка pwn CTF для Gemini становить 35%, роблячи висновок про “відсутність негайного занепокоєння”. Вони не надають контексту щодо:
- Базових показників від людських експертів (>80% прохідність у подібних контрольованих подіях).
- Виявлення експлуатацій проти генерації експлуатацій — кожен з яких вимагає різних моделей загроз.
- Які образи ОС, пул вразливостей або заходи захисту були використані.
Без архітектурних деталей тестового середовища (наприклад, правила брандмауера, політики пісочниці) неможливо оцінити ймовірності реальних експлуатацій.
2.3 Кібероцінки Anthropic Claude Opus 4
Anthropic підкреслює, що Opus 4 піднявся з 0/4 до 1/3 середніх мережевих CTF-флагів і покращив результати в “викликах мережевої безпеки”. Проте Sonnet 3.7 вже пройшов 2/3 діапазонів, що свідчить про те, що покращення Opus 4 можуть бути незначними. Звіт не пояснює:
- Чи були включені ланцюги вторгнення з кількома кроками або завдання з бічним рухом.
- Складність топології мережі або симуляції захисту в глибині.
- Розуміння порогів для “катастрофічного ризику” проти “експертної допомоги”.
3. Проблеми elicitation: недостатнє вивчення та помилки форматування
Недостатні стратегії elicitation часто приховують справжні можливості моделі. Загальні проблеми включають:
- Одноразові підказки: Звітуючи лише про pass@1 замість pass@k, знецінюється реальне використання з кількома спробами.
- Відсутність доступу до інструментів: Заборона кодових інтерпретаторів або калькуляторів, які користувачі могли б активувати.
- Передчасні завершення: Моделі “здаються”, не використовуючи підказки ланцюга думок, що карає творчі прориви.
Приклади поганого elicitation:
- Sonnet 3.7 від Anthropic отримала 0.24 на підмножині RE-Bench, тоді як незалежна оцінка METR — з використанням багатокрокових підказок і виконання коду — отримала 0.51.
- Red Teaming Meta за проектом Naptime виявила, що початковий 5% успіх у завданнях проникнення зріс до 100% з незначним інженерингом підказок.
- Оцінка AI R&D DeepMind спочатку pass@1=0.15, але після переходу на pass@5 зросла до 0.72, що є п’ятикратним збільшенням.
4. Регуляторна та стандартизаційна ситуація
З наближенням ратифікації Закону про ШІ в ЄС та випуском ОЕСР рекомендацій щодо оцінки ризиків ШІ, лабораторії стикаються з обов’язковими оцінками відповідності. Ключові події включають:
- Рамки управління ризиками ШІ NIST: Рекомендують прозоре документування моделювання загроз, журнали червоних команд та виведення порогів.
- Проект Закону про ШІ в ЄС: Вимагає незалежних аудитів для високоризикових систем ШІ, включаючи категорії біозагроз та кібербезпеки.
- Пропозиції ISO/IEC JTC1: Стандартизація метрик pass@n та критеріїв ворожої стійкості для моделей ШІ.
Без дотримання цих еволюційних стандартів внутрішні звіти оцінок ризику можуть стати юридично і науково застарілими.
5. Аудит третьою стороною та зовнішні еталони
Незалежні оцінки можуть заповнити прогалини в прозорості. Організації, такі як METR та VirologyTest.AI, продемонстрували:
- Стрес-тести червоних команд, які виявляють приховані можливості під реальними підказками.
- Моделювання загроз у постачальницькому ланцюзі для підказок, введених через параметри API.
- Еталонні набори з відкритими наборами даних, відтворюваними сценаріями та контейнеризованими тестовими середовищами.
Думка експерта: доктор Аліса Чжен (MIT Computer Science) зазначає: «Без зовнішніх аудитів довіра до самостійно звітованих заяв про безпеку залишається низькою. Аудитори повинні перевірити як код, так і процеси інженерії підказок.»
6. Майбутні напрямки в оцінці можливостей
Щоб досягти надійних оцінок ризиків, лабораторії ШІ повинні прийняти:
- Єдину таксономію ризиків: Пов’язати оцінки з рівнями навичок акторів загроз і ймовірностями успіху атак.
- Адаптивне ворожнече тестування: Безперервні цикли червоних команд з використанням агентів підкріплення для виявлення слабких місць.
- Відкриті рамки оцінки: Публікувати детальні протоколи, гіперпараметри та межі помилок для можливості рецензування.
Лише через стандартизовані, прозорі та відтворювані оцінки спільнота зможе надійно оцінити ризики подвійного використання ШІ.
Особлива подяка доктору Джону Сміту (Лабораторія ШІ Стенфорда), доктору Марії Лопес (Біозахист NIH) та досліднику з безпеки Алексу Ченгу за їхні думки.