Інструмент MUNCH AI зазнає невдачі у скасуванні контрактів VA
На початку 2025 року, зобов’язавшись переглянути 90 000 федеральних контрактів всього за 30 днів, Міністерство ефективності уряду (DOGE) звернулося до внутрішнього прототипу штучного інтелекту для виявлення «необхідних» угод у сферіVeterans Affairs. Відсутність експертних знань та розробка в умовах жорсткого терміну призвели до створення системи з численними недоліками, що загрожувала якісному обслуговуванню ветеранів.
Передумови та Цілі
Виконавчий указ адміністрації Трампа від лютого 2025 року зобов’язав всі міністерства оцінити доцільність та витрати існуючих контрактів. Оскільки VA мала понад 76 000 активних контрактів на суму майже 100 мільярдів доларів на рік, ручний перегляд був визнаний неможливим за 30 днів. DOGE, під керівництвом Ілона Маска до його відставки в квітні, запропонував інструмент на основі штучного інтелекту для «переробки контрактів», використовуючи готові великі мовні моделі (LLMs).
Ключові Цілі
- Швидко класифікувати контракти як «ПЕРЕРОБЛЮВАНІ» або необхідні
- Зменшити навантаження на людей шляхом попереднього відбору угод з низькою вартістю
- Забезпечити прозорість через публікацію відкритого коду
Технічна Архітектура
Основою інструмента була Python-потокова система, що використовувала GPT-3.5-Turbo через API, затверджений FedRAMP, для класифікації тексту. Обробка даних відбувалася шляхом масового завантаження з Федеральної системи даних про закупівлі (FPDS) у форматі CSV, з подальшим аналізом за допомогою pandas. Попередня обробка включала базове оптичне розпізнавання тексту (OCR) для сканованих PDF-файлів та виділення перших 2500 слів — максимального обсягу токенів для обраної моделі.
Вибір Моделі та Обмеження
Лавінгія обрав GPT-3.5-Turbo для зменшення витрат, приблизно $0,06 за 1000 оброблених токенів. Однак ця модель має обмеження контекстного вікна до 4096 токенів і не має специфічної налаштування для термінології закупівель. Внаслідок цього система часто помилялася в числових значеннях та обсягах контрактів, що відомо як «галюцинація моделі».
Створення Запитів та Оцінка
Кожен фрагмент контракту отримував структурований запит, який інструктував модель:
- Виділити номер контракту та зазначену загальну вартість
- Визначити, чи послуга підтримує безпосереднє обслуговування пацієнтів або є функцією бек-офісу
- Призначити бінарну мітку: «ПЕРЕРОБЛЮВАНИЙ» або «БЕЗПЕЧНИЙ»
Вихідні дані оброблялися за допомогою регулярних виразів без належної валідації, що призводило до помилок, коли в одному документі з’являлися кілька грошових сум.
Недоліки та Вплив у Реальному Світі
Аналіз ProPublica виявив понад 2000 контрактів, позначених як «ПЕРЕРОБЛЮВАНІ», серед яких:
- Контракт на обслуговування обладнання для генетичного секвенування на $34 мільйони (фактична вартість: $35 000)
- Послуги аналізу зразків крові, важливі для поточних досліджень раку у VA
- Ліцензії на програмне забезпечення для моніторингу даних пацієнтів, які використовують медсестри VA
Принаймні два десятки відзначених контрактів були офіційно скасовані до того, як людський перегляд виявив помилки, що загрожувало безперервності досліджень і могло затримати обслуговування ветеранів.
Думки Експертів та Питання Управління
Кері Когліанезе, професор права в Пенсільванії, що спеціалізується на регулюванні штучного інтелекту, застеріг, що загальні LLM не мають надійності для складних рішень у сфері закупівель. Колишній керівник IT-контрактів Міністерства фінансів Уолдо Джакиф описав цей підхід як «глибоко проблематичний». Оновлена в кінці 2024 року Рамка управління ризиками штучного інтелекту NIST рекомендує ретельний людський нагляд та тестування моделей — процес, який DOGE обійшло.
Штучний інтелект надає переконливі, але часто неправильні відповіді. Потрібні люди, які займаються цією роботою — Уолдо Джакиф
Безпека, Відповідність та Етичні Аспекти
Обробка контрактів VA передбачає захищену медичну інформацію (PHI), що викликає вимоги HIPAA та FedRAMP. Випуск інструмента з відкритим кодом на GitHub не містив політики обробки даних, що підвищує ризики безпеки та конфіденційності. Експерти рекомендують використовувати картки моделей та таблиці даних для наборів даних для підвищення прозорості та підзвітності.
Глибокий Технічний Аналіз
Детальні логи показують, що система виконувала до 5 API-запитів на контракт — кожен з яких викликав затримку 300–500 мс. Не було реалізовано обмеження швидкості або логіки повторних запитів, що призводило до тайм-аутів та тихих збоїв на великих PDF-файлах. Обробка даних здійснювалася виключно за допомогою простих регулярних виразів без використання спеціалізованих бібліотек, таких як Apache Tika або PDFMiner для структурованого витягування.
Рекомендації Політики та Майбутні Напрями
- Впровадити моделі, специфічні для галузі, або налаштувати існуючі LLM на даних закупівель VA
- Реалізувати надійні канали валідації даних, використовуючи кінцеві точки API FPDS та детерміноване парсинг
- Створити раду з управління штучним інтелектом, що включає експертів з закупівель, права та обслуговування ветеранів
- Використовувати платформи MLOps на базі хмари (AWS GovCloud або Azure Government) для безпечного навчання, моніторингу та аудиту моделей
Висновок
Помилки інструмента «ПЕРЕРОБКА» підкреслюють ризики впровадження неперевірених рішень на базі штучного інтелекту в умовах високих ставок у державному секторі. Оскільки агентства все більше впроваджують штучний інтелект для підвищення ефективності, важливо інтегрувати технічну точність, галузеві знання та надійний нагляд, щоб зберегти довіру суспільства та забезпечити, щоб важливі послуги не були ненавмисно скомпрометовані.