OpenAI пропонує 20 млн логів; NYT вимагає 120 млн у справі з ChatGPT
Кінець обговорення?
OpenAI представила оновлену пропозицію у своїй справі щодо авторських прав проти The New York Times, запропонувавши надати 20 мільйонів логів розмов ChatGPT для перегляду. Це лише одна шоста від 120 мільйонів логів, які вимагає газета та інші позивачі. Цей крок став наслідком минуломісячного судового рішення, яке надало широкий доступ до даних користувачів, і відображає спробу OpenAI знайти баланс між прозорістю та конфіденційністю, технічною здійсненністю та питаннями безпеки даних.
Передумови справи та останні події
У липні 2025 року федеральний суддя Она Ванг дозволила The New York Times та спільним позивачам шукати мільйони логів ChatGPT на предмет можливих порушень авторських прав. OpenAI відразу ж оскаржила обсяг вимог, назвавши їх “масовим спостереженням” без статистичного обґрунтування. Після програшу у цій початковій сутичці, OpenAI зосередилася на переговорах щодо більш вузької та статистично обґрунтованої вибірки даних.
“Вибірка з 20 мільйонів логів, обрана за допомогою стратифікованого випадкового відбору, є достатньою для оцінки поширеності повторення на рівні довіри 95% з похибкою ±0,5%,” заявив Тейлор Берг-Кіркпатрик, доцент комп’ютерних наук в Університеті Техасу в Остіні та єдиний експерт з даних, який подав амікус-бриф.
Незважаючи на рекомендації Берг-Кіркпатрика, NYT та спільні позивачі виступили з “надзвичайною вимогою” надати повний набір з 120 мільйонів логів за 23-місячний період. У поданні OpenAI в середу викладено заборонні технічні та оперативні труднощі, які це створить.
Технічні виклики відновлення видалених чатів
OpenAI зберігає логи ChatGPT у холодному об’єктному сховищі (AWS S3 Glacier Deep Archive), стиснуті у форматі Apache Parquet. Кожен лог є неструктурованим JSON-об’єктом — часто містить понад 5,000 слів, навіть для коротких запитів користувачів. Щоб підготувати логи для зовнішнього перегляду, інженерам OpenAI потрібно:
- Знайти кожен лог серед десятків мільярдів за допомогою сервісу індексації (Elasticsearch).
- Запустити процеси декомпресії та конвертації формату (ETL-процеси на базі PyArrow).
- Виконати процедури деідентифікації, щоб видалити особисту інформацію (PII), використовуючи бібліотеки диференційної конфіденційності.
- Перемістити очищені дані в захищене середовище, яке відповідає стандарту FIPS 140-2, і надати доступ лише для читання.
Виходячи з поточних цін AWS, OpenAI оцінює, що процес для 20 мільйонів логів вимагатиме близько 1 петабайт-години обчислювальних потужностей і займе 12 тижнів безперервної роботи ETL-процесів; масштабування до 120 мільйонів подвоїть як час, так і витрати.
Статистичне вибіркове дослідження та правові стандарти
OpenAI стверджує, що вимоги NYT значно перевищують принципи пропорційності, закладені у Федеральних правилах цивільного процесу. Основні моменти включають:
- Непропорційне навантаження: 120 мільйонів логів збільшують ризик витоку даних і подовжують вікно для потенційних порушень.
- Гранична корисність: Додаткові логи, що перевищують статистично обґрунтовану вибірку, приносять зменшені результати в доведенні обходу платного контенту.
- Проблеми прецеденту: Надання повного доступу може створити прецедент для широкого відкриття даних для AI-сервісів у всьому світі.
“Вимога доступу до кожного місячного знімка для аналізу тенденцій з часом є надзвичайним запитом, що виходить за межі будь-якої порівнянної справи цифрового відкриття,” зазначено у поданні OpenAI.
Вплив на конфіденційність даних та безпеку
Адвокати з питань конфіденційності попереджають, що розширене зберігання та відкриття даних — особливо чатів, які користувачі вважали видаленими — можуть підірвати довіру до розмовного AI. Нещодавні оновлення політики OpenAI тепер зберігають логи до 30 днів, навіть після запитів на видалення, у разі юридичних обмежень. Запропонована концепція “привілею AI”, яку підтримує генеральний директор Сем Альтман, прагне встановити правову доктрину, яка розглядає діалоги між користувачем і ботом як конфіденційні комунікації.
Паралельний спір Microsoft щодо ChatExplorer
Співвідповідач Microsoft також веде судову справу з NYT щодо внутрішніх логів ChatExplorer. Газета відмовляється надати логи понад 80,000 взаємодій журналістів та юридичного персоналу, стверджуючи, що зайві дані будуть включені. Microsoft вважає, що її запит є важливим для захисту від позовів щодо авторських прав у своїх AI-продуктах.
Додатковий аналіз
1. Стратегії управління даними та відповідності
Великі постачальники AI повинні впроваджувати надійні рамки управління даними. Кращі практики включають мінімізацію даних, автоматизоване видалення PII та наскрізне шифрування під час передачі та зберігання. Експерти рекомендують використовувати контроль доступу на основі атрибутів (ABAC) та безпечні багатосторонні обчислення (SMPC) для обмеження відкриття під час юридичних перевірок.
2. Майбутнє судових справ щодо конфіденційності AI
Ця справа може стати показовою для того, як суди поводитимуться з відкриттям логів AI. Юридичні експерти прогнозують можливе зростання спеціалізованих інструментів електронного відкриття, розроблених для AI-даних, з використанням гомоморфного шифрування та доказів нульового знання, щоб задовольнити як вимоги до відкриття, так і заходи захисту конфіденційності.
3. Реакція галузі та думки експертів
Доктор Емілі Бендер, професор Університету Вашингтона, зазначає: “Перетворення прозорості AI та конфіденційності користувачів є важливою регуляторною межею. Як ця справа буде вирішена, вплине на політику в рамках AI Закону ЄС та майбутнього законодавства про конфіденційність у США.”
Наступні кроки
Обидві сторони погодилися на конфіденційну конференцію 7 серпня, щоб узгодити параметри вибірки. Спостерігачі очікують, що може виникнути компромісна вибірка — можливо, з поступовим збільшенням, що забезпечить баланс між потребами доказів та технічними і конфіденційними обмеженнями.