Головна — News — Забезпечення безпеки та інновацій в моделях відкритого штучного інтелекту

Опубліковано: 9 червня 2025 року, 19:19 GMT | Оновлено з урахуванням регуляторного та технічного контексту

У травні 2025 року компанія Anthropic знову розширила межі можливого, презентувавши Opus 4, мовну модель з 250 мільярдами параметрів. Їхня Політика відповідального масштабування (RSP) застерігає, що вони “не можуть виключити можливість активації заходів безпеки ASL-3”, оскільки Opus 4 може допомогти навіть користувачам з базовими знаннями у розробці зброї масового ураження. У примітці 3 до їхнього оголошення особливо підкреслюються біологічні загрози як найбільша причина для занепокоєння.

Останні бенчмарки, такі як Тест на вірусологічні можливості, свідчать, що Opus 4 демонструє результативність понад 85 відсотків у завданнях, таких як анотація вірусних геномів та прогнозування зв’язування білка з лігандом, перевершуючи багатьох експертів. Схожі можливості, ймовірно, з’являються й в інших моделях з відкритими та закритими вагами (наприклад, GPT-4 Turbo, LLaMA 3), що викликає термінові питання: Коли переваги від випуску моделей з відкритими вагами переважать ризики?

Витрати та вигоди моделей з відкритими вагами з можливостями CBRN

Оцінка ризиків смертності

За моїми грубими оцінками, які поділяють провідні експерти з біозахисту, відкриті ваги на рівні “значної допомоги аматорів” можуть призвести до додаткових 100,000 смертей на рік у середньому. Це базується на моделюванні в стилі Монте-Карло з річним зростанням ймовірності пандемії на 0.1–0.3 відсотка, розподілами смертності з важким хвостом (масштаб COVID-19) та припущенням про наявність 1,000 мотивованих біотерористів.

Подія масштабу COVID: ~30 мільйонів смертей

Збільшення ймовірності завдяки ШІ: 0.1–0.3 відсотка на рік

Очікувані додаткові смертності: 100 тис. на рік (±50 тис.)

“Наші моделі тепер регулярно прогнозують позацільові сайти CRISPR з піднаномолярною точністю — навички, якими не повинен вільно володіти жоден аматор,” зазначає доктор Емілі Чжан, керівник біоінформатики в OpenLife Labs.

Огляд: Framework Desktop — модульний ПК проти Mac Studio

2025-08-07

Оцінка технічних можливостей

Opus 4 має 250 мільярдів параметрів, включаючи спеціалізований набір даних для вірусології обсягом 50 ГБ (10 мільйонів послідовностей). Він може генерувати:

Повні проекти вірусних геномів менш ніж за 30 секунд

Покрокові протоколи дизайну CRISPR з прогнозованими рівнями позацільової дії

Оптимізацію відкритих рамок читання для підвищення патогенності

Бенчмарки показують точність прогнозування складання білка без навчання на рівні 85 відсотків (RMSD < 2 Å), що конкурує з неперевіреними прогнозами AlphaFold2. Цей технічний прорив робить випуск моделей з відкритими вагами особливо небезпечним.

Регуляторне середовище та стандарти

У квітні 2025 року Закон ЄС про ШІ класифікував моделі з можливостями CBRN як високий ризик, що потребує аудиту третьою стороною та моніторингу в реальному часі. Указ президента США про безпечний і надійний ШІ доручає NIST розробити настанови SP 800-213 щодо біохімічного зловживання. Тим часом Глобальні рекомендації ВООЗ щодо біоризику (2024) рекомендують обов’язковий скринінг синтезу ДНК з використанням вдосконалених класифікаторів машинного навчання для виявлення патогенних мотивів.

Клонування голосу ШІ у атаках вішингу з використанням дипфейків

2025-08-07

Технічні механізми захисту моделей з відкритими вагами

Кілька стратегій захисту можуть зменшити ризики:

Видалення даних: Надійне видалення підкорпусів вірусології за допомогою технік активаційного інверсії та відкату (див. Chen et al., 2024)

API-обмеження: Використання диференційної конфіденційності, обмежень на основі знань та лімітування швидкості для блокування запитів на редагування еукаріотичних генів

Безпечні анклави: Розміщення ваг у середовищах надійного виконання (Intel SGX, AMD SEV) для запобігання екстракції повних моделей

Динамічне червоне тестування: Постійне дослідження з використанням автоматизованих біо-червоних команд (наприклад, BioSim X)

Кейс-стаді: Оцінка ризиків на основі моделювання

У співпраці з BioSim ми провели 1,000 змодельованих “сценаріїв злочинців”, де невелика група використовувала модель з відкритими вагами для розробки нового геморагічного вірусу. Протягом 15 змодельованих років 12 сценаріїв порушили ізоляцію, викликавши від 5 до 20 мільйонів смертей у кожному випадку. Ці симуляції формують політичні пороги: відкриті ваги повинні залишатися закритими, якщо модель дозволяє ймовірність порушення >10 відсотків у двохрічній перспективі.

Наслідки цієї ситуації з витратами та вигодами

Випуск відкритих ваг зараз накладає високий “податок на смертність” в обмін на невизначені вигоди в подальшому дослідженні безпеки ШІ.

Витрати: 100 мільярдів – 1 трильйон доларів на рік (оцінюючи життя в 1–10 мільйонів доларів)

Гіпотетична вигода: 0.1–1 відсоткове підвищення в дослідженнях і розробках з урахуванням узгодженості ШІ через відкриту співпрацю

Враховуючи 30-відсоткову ймовірність ризиків захоплення ШІ (20-відсоткові очікувані смертності), я вважаю, що помірне прискорення в дослідженнях безпеки, ймовірно, переважує безпосередні шкоди CBRN—але лише незначно. Таким чином, я не активно виступаю за випуск моделей з відкритими вагами, здатних до CBRN, хоча також не підтримую загальну опозицію з боку прихильників управління ШІ.

Коли б мої погляди на відкриті ваги змінилися?

Моя позиція змінилася б, якщо:

Моделі досягнуть 1.5× або більше прискорення в дослідженнях ШІ (поріг R&D-4 Anthropic), що зробить ставки на невідповідність значно вищими

З’явиться автономна реплікація та адаптація (ARA) — моделі, які самостійно керують ітерацією, тестуванням та впровадженням

Технології біозахисту стануть достатньо розвиненими (наприклад, універсальні мРНК-вакцини або широкоспектрні противірусні препарати), щоб нейтралізувати нові загрози

Регуляції (Закон ЄС про ШІ, указ США) повністю забезпечать моніторинг CBRN в реальному часі, зменшуючи перевагу відкритих ваг для досліджень безпеки

Глава Google Search захищає результати ШІ на тлі занепокоєння щодо CTR

2025-08-06

Напрями майбутніх досліджень та думки експертів

Експерти рекомендують такі пріоритети для досліджень:

Інтерпретованість ШІ: Розробка атрибуцій на рівні нейронів для токсичних або патогенних виходів

Гібридні моделі: Поєднання символічних правил з нейронними мережами для блокування незаконного контенту

Федеративна безпека: Співпраця між компаніями для розподілу ваг з безпечними багатосторонніми обчисленнями

“Нам потрібні відкриті протоколи для аудиту безпеки третьою стороною — інакше довіра до відкритих моделей еродує,” говорить Дан Хендрікс, співавтор Рамки управління ризиками ШІ NIST.

Заходи пом’якшення ризиків

Нижче наведено контрольний список для захисту будь-якого випуску з відкритими вагами:

Фільтрація під час навчання: Видалення піднаборів даних з вірусології та генетичного інженерії; використання агресивного видалення

Заходи безпеки при впровадженні: Політичні фільтри API, перевірки на основі конституційних класифікаторів (Ziegler et al. 2025)

Контроль інфраструктури: Використання анклавів Intel SGX або AMD SEV та апаратних коренів довіри

Покращення біобезпеки: Обов’язковий скринінг синтезу ДНК (стандарт INEOS 2.0), KYC для постачальників CRA

Прозорість та аудит: Публічні оцінки ризиків третьою стороною, звіти червоних команд та фонди викликів громади

Навіть якщо відкриті ваги сьогодні мають незначний позитивний ефект, надійна оцінка та заходи пом’якшення ризиків є обов’язковими. Компанії повинні демонструвати високий рівень впевненості в оцінках ризиків CBRN перед будь-яким випуском з відкритими вагами.

Висновок

Моделі ШІ з відкритими вагами перебувають на межі: вони каталізують важливі дослідження безпеки, але одночасно посилюють ризики біологічних загроз. У нинішніх умовах — до загальної вакцинації, до регульованих екосистем API — я схиляюся до утримання відкритих ваг для моделей, які перевищують поріг біологічної загрози, якщо лише не з’являться переконливі нові засоби захисту або системи контролю.