Впровадження LLM Elsa від FDA виявило проблеми з безпекою та точністю

Вступ: Високопрофільне та прискорене впровадження
На початку червня 2025 року Управління з контролю за продуктами і ліками США (FDA) презентувало Ельзу, спеціалізовану модель штучного інтелекту (LLM), розроблену для підтримки всіх підрозділів — від команд з оцінки ліків до інспекторів з безпеки медичних пристроїв. Запуск відбувся за кілька тижнів до запланованого терміну під значним тиском витрат, і Ельза обіцяла прискорити розгляд клінічних протоколів, автоматизувати підсумування небажаних подій та навіть генерувати код для розробки бази даних. Однак вже через кілька днів співробітники повідомили про помилкові результати, проблеми з інтеграцією та недостатнє управління, що викликало ширші питання щодо готовності штучного інтелекту в умовах високих ризиків регуляції.
Передумови: Від CDER-GPT до Ельзи для всієї агенції
Спочатку Центр оцінки ліків і досліджень FDA (CDER) протестував CDER-GPT, спеціалізованого асистента на основі штучного інтелекту, створеного на базі Claude 2 компанії Anthropic. З 2020 року консалтингова компанія Deloitte проаналізувала близько 1,2 мільярда токенів внутрішніх протоколів FDA, маркувань та звітів про інспекції в рамках контракту на суму 13,8 мільйона доларів для навчання Ельзи. У квітні 2025 року було укладено додатковий контракт на 14,7 мільйона доларів, що розширив розробку, перейменувавши CDER-GPT в Ельзу та перенісши сервіс у GovCloud Amazon Web Services (FIPS 140-2 / FedRAMP High) для дотримання федеральних вимог безпеки.
Прискорене впровадження та проблеми з продуктивністю
- Неправильні підсумки: NBC News повідомило, що Ельза неправильно охарактеризувала показання до застосування затверджених ліків та небажані події під час внутрішніх тестів.
- Проблеми з інтеграцією: Центр медичних пристроїв і радіологічного здоров’я зазначив, що Ельза мала труднощі з обробкою PDF-файлів і відмовлялася підключатися до захищеного сховища даних FDA, що змушувало до ручних завантажень.
- Перебільшені можливості: Співробітники заявили Stat News, що керівники, включаючи комісара FDA Марті Макарайа та Міністерство державної ефективності (DOGE), занадто оптимістично оцінювали науковий потенціал Ельзи.
“Макарай і DOGE вважають, що штучний інтелект може замінити співробітників і скоротити час розгляду, але це явно не так,” — сказав старший рецензент. “Ми не маємо належних обмежень, а політична робота відстає від впровадження.”
Технічна архітектура та проблеми інтеграції
- Базова модель: Ельза побудована на основі Claude 2 від Anthropic, адаптована до власного корпусу FDA за допомогою спеціальних процесів Deloitte.
- Інфраструктура: Впроваджена на AWS GovCloud (Регіон us-gov-west-1) в рамках VPC з сегментованими підмережами, зашифрованими в спокої (AES-256) та в процесі передачі (TLS 1.3).
- Контроль доступу: Політики управління доступом на основі ролей регулюють доступ до даних, але співробітники повідомляють про невідповідності в дозволах та затримки в наданні доступу новим користувачам.
- Аудит і реєстрація: CloudTrail і GuardDuty контролюють використання, однак немає автоматизованих сповіщень про помилки або запити, що виходять за межі політики.
Ці технічні недоліки підкреслюють напруженість між швидким впровадженням та стабільністю на рівні підприємства в регульованих середовищах.
Питання безпеки та відповідності
Розміщення Ельзи в GovCloud, на перший погляд, відповідає вимогам FedRAMP High, але нові NIST SP 800-53 Rev. 5 рекомендації закликають до постійного моніторингу систем штучного інтелекту, включаючи стійкість до ворожих дій та аудити походження даних. У липні 2025 року Офіс управління та бюджету (OMB) видав Memo M-25-10, що вимагає від агентств впровадження моделі постачання матеріалів (SBOM) для всіх впроваджень AI — вимога, яку FDA ще не повністю прийняла для залежностей Ельзи.
Відгуки зацікавлених сторін та політичні наслідки
Експерти з управління штучним інтелектом попереджають, що передчасний випуск Ельзи може підривати довіру суспільства, оскільки Біла Хата посилює контроль за “високоризиковими” технологіями штучного інтелекту відповідно до Виконавчого розпорядження 14110. Конгрес вже запланував слухання, щоб перевірити, чи не витіснила Ельза критично важливу наукову працю або не створила неприпустимі ризики для безпеки.
Думки експертів
- Доктор Алісія Рід, консультант з ризиків AI: “Без комплексної системи управління ризиками, помилки в медичних контекстах можуть викликати хибнопозитивні результати або приховувати небажані сигнали.”
- Джонатан Парк, федеральний архітектор хмарних технологій: “GovCloud є безпечним, але агентства повинні інвестувати в моніторинг в реальному часі та реагування на інциденти для протидії загрозам, специфічним для AI.”
Перспективи: Вдосконалення AI в регуляторних процесах
Щоб відновити динаміку, FDA наразі:
- Переглядає кураторство навчальних даних Ельзи з оновленими медичними онтологіями (MeSH, SNOMED CT).
- Впроваджує огляд за участю людини (HITL) для всіх виходів з високим ризиком.
- Співпрацює з NIST над майбутньою рамковою програмою управління ризиками AI (AI RMF v1.0).
З прискореним впровадженням штучного інтелекту на федеральному рівні, проблемний запуск Ельзи підкреслює важливість збалансованої інтеграції з акцентом на безпеку та надійних політичних обмежень.