Забезпечення безпеки та інновацій в моделях відкритого штучного інтелекту
Опубліковано: 9 червня 2025 року, 19:19 GMT | Оновлено з урахуванням регуляторного та технічного контексту
У травні 2025 року компанія Anthropic знову розширила межі можливого, презентувавши Opus 4, мовну модель з 250 мільярдами параметрів. Їхня Політика відповідального масштабування (RSP) застерігає, що вони “не можуть виключити можливість активації заходів безпеки ASL-3”, оскільки Opus 4 може допомогти навіть користувачам з базовими знаннями у розробці зброї масового ураження. У примітці 3 до їхнього оголошення особливо підкреслюються біологічні загрози як найбільша причина для занепокоєння.
Останні бенчмарки, такі як Тест на вірусологічні можливості, свідчать, що Opus 4 демонструє результативність понад 85 відсотків у завданнях, таких як анотація вірусних геномів та прогнозування зв’язування білка з лігандом, перевершуючи багатьох експертів. Схожі можливості, ймовірно, з’являються й в інших моделях з відкритими та закритими вагами (наприклад, GPT-4 Turbo, LLaMA 3), що викликає термінові питання: Коли переваги від випуску моделей з відкритими вагами переважать ризики?
Витрати та вигоди моделей з відкритими вагами з можливостями CBRN
Оцінка ризиків смертності
За моїми грубими оцінками, які поділяють провідні експерти з біозахисту, відкриті ваги на рівні “значної допомоги аматорів” можуть призвести до додаткових 100,000 смертей на рік у середньому. Це базується на моделюванні в стилі Монте-Карло з річним зростанням ймовірності пандемії на 0.1–0.3 відсотка, розподілами смертності з важким хвостом (масштаб COVID-19) та припущенням про наявність 1,000 мотивованих біотерористів.
- Подія масштабу COVID: ~30 мільйонів смертей
- Збільшення ймовірності завдяки ШІ: 0.1–0.3 відсотка на рік
- Очікувані додаткові смертності: 100 тис. на рік (±50 тис.)
“Наші моделі тепер регулярно прогнозують позацільові сайти CRISPR з піднаномолярною точністю — навички, якими не повинен вільно володіти жоден аматор,” зазначає доктор Емілі Чжан, керівник біоінформатики в OpenLife Labs.
Оцінка технічних можливостей
Opus 4 має 250 мільярдів параметрів, включаючи спеціалізований набір даних для вірусології обсягом 50 ГБ (10 мільйонів послідовностей). Він може генерувати:
- Повні проекти вірусних геномів менш ніж за 30 секунд
- Покрокові протоколи дизайну CRISPR з прогнозованими рівнями позацільової дії
- Оптимізацію відкритих рамок читання для підвищення патогенності
Бенчмарки показують точність прогнозування складання білка без навчання на рівні 85 відсотків (RMSD < 2 Å), що конкурує з неперевіреними прогнозами AlphaFold2. Цей технічний прорив робить випуск моделей з відкритими вагами особливо небезпечним.
Регуляторне середовище та стандарти
У квітні 2025 року Закон ЄС про ШІ класифікував моделі з можливостями CBRN як високий ризик, що потребує аудиту третьою стороною та моніторингу в реальному часі. Указ президента США про безпечний і надійний ШІ доручає NIST розробити настанови SP 800-213 щодо біохімічного зловживання. Тим часом Глобальні рекомендації ВООЗ щодо біоризику (2024) рекомендують обов’язковий скринінг синтезу ДНК з використанням вдосконалених класифікаторів машинного навчання для виявлення патогенних мотивів.
Технічні механізми захисту моделей з відкритими вагами
Кілька стратегій захисту можуть зменшити ризики:
- Видалення даних: Надійне видалення підкорпусів вірусології за допомогою технік активаційного інверсії та відкату (див. Chen et al., 2024)
- API-обмеження: Використання диференційної конфіденційності, обмежень на основі знань та лімітування швидкості для блокування запитів на редагування еукаріотичних генів
- Безпечні анклави: Розміщення ваг у середовищах надійного виконання (Intel SGX, AMD SEV) для запобігання екстракції повних моделей
- Динамічне червоне тестування: Постійне дослідження з використанням автоматизованих біо-червоних команд (наприклад, BioSim X)
Кейс-стаді: Оцінка ризиків на основі моделювання
У співпраці з BioSim ми провели 1,000 змодельованих “сценаріїв злочинців”, де невелика група використовувала модель з відкритими вагами для розробки нового геморагічного вірусу. Протягом 15 змодельованих років 12 сценаріїв порушили ізоляцію, викликавши від 5 до 20 мільйонів смертей у кожному випадку. Ці симуляції формують політичні пороги: відкриті ваги повинні залишатися закритими, якщо модель дозволяє ймовірність порушення >10 відсотків у двохрічній перспективі.
Наслідки цієї ситуації з витратами та вигодами
Випуск відкритих ваг зараз накладає високий “податок на смертність” в обмін на невизначені вигоди в подальшому дослідженні безпеки ШІ.
- Витрати: 100 мільярдів – 1 трильйон доларів на рік (оцінюючи життя в 1–10 мільйонів доларів)
- Гіпотетична вигода: 0.1–1 відсоткове підвищення в дослідженнях і розробках з урахуванням узгодженості ШІ через відкриту співпрацю
Враховуючи 30-відсоткову ймовірність ризиків захоплення ШІ (20-відсоткові очікувані смертності), я вважаю, що помірне прискорення в дослідженнях безпеки, ймовірно, переважує безпосередні шкоди CBRN—але лише незначно. Таким чином, я не активно виступаю за випуск моделей з відкритими вагами, здатних до CBRN, хоча також не підтримую загальну опозицію з боку прихильників управління ШІ.
Коли б мої погляди на відкриті ваги змінилися?
Моя позиція змінилася б, якщо:
- Моделі досягнуть 1.5× або більше прискорення в дослідженнях ШІ (поріг R&D-4 Anthropic), що зробить ставки на невідповідність значно вищими
- З’явиться автономна реплікація та адаптація (ARA) — моделі, які самостійно керують ітерацією, тестуванням та впровадженням
- Технології біозахисту стануть достатньо розвиненими (наприклад, універсальні мРНК-вакцини або широкоспектрні противірусні препарати), щоб нейтралізувати нові загрози
- Регуляції (Закон ЄС про ШІ, указ США) повністю забезпечать моніторинг CBRN в реальному часі, зменшуючи перевагу відкритих ваг для досліджень безпеки
Напрями майбутніх досліджень та думки експертів
Експерти рекомендують такі пріоритети для досліджень:
- Інтерпретованість ШІ: Розробка атрибуцій на рівні нейронів для токсичних або патогенних виходів
- Гібридні моделі: Поєднання символічних правил з нейронними мережами для блокування незаконного контенту
- Федеративна безпека: Співпраця між компаніями для розподілу ваг з безпечними багатосторонніми обчисленнями
“Нам потрібні відкриті протоколи для аудиту безпеки третьою стороною — інакше довіра до відкритих моделей еродує,” говорить Дан Хендрікс, співавтор Рамки управління ризиками ШІ NIST.
Заходи пом’якшення ризиків
Нижче наведено контрольний список для захисту будь-якого випуску з відкритими вагами:
- Фільтрація під час навчання: Видалення піднаборів даних з вірусології та генетичного інженерії; використання агресивного видалення
- Заходи безпеки при впровадженні: Політичні фільтри API, перевірки на основі конституційних класифікаторів (Ziegler et al. 2025)
- Контроль інфраструктури: Використання анклавів Intel SGX або AMD SEV та апаратних коренів довіри
- Покращення біобезпеки: Обов’язковий скринінг синтезу ДНК (стандарт INEOS 2.0), KYC для постачальників CRA
- Прозорість та аудит: Публічні оцінки ризиків третьою стороною, звіти червоних команд та фонди викликів громади
Навіть якщо відкриті ваги сьогодні мають незначний позитивний ефект, надійна оцінка та заходи пом’якшення ризиків є обов’язковими. Компанії повинні демонструвати високий рівень впевненості в оцінках ризиків CBRN перед будь-яким випуском з відкритими вагами.
Висновок
Моделі ШІ з відкритими вагами перебувають на межі: вони каталізують важливі дослідження безпеки, але одночасно посилюють ризики біологічних загроз. У нинішніх умовах — до загальної вакцинації, до регульованих екосистем API — я схиляюся до утримання відкритих ваг для моделей, які перевищують поріг біологічної загрози, якщо лише не з’являться переконливі нові засоби захисту або системи контролю.