NYT планує відновити видалені логи ChatGPT після перемоги в суді
Минулого тижня федеральний суддя відхилив прохання OpenAI скасувати рішення, яке зобов’язує компанію зберігати всі розмови ChatGPT, включаючи ті, що користувачі видаляють, на невизначений термін. Це рішення відкриває шлях для The New York Times та інших медіа-організацій, які подали позов, щоб почати запитувати збережені логи в рамках свого судового процесу проти OpenAI.
Передумови: Судове рішення вимагає безстрокового збереження логів
Суддя Она Ванг видала наказ про збереження даних через кілька днів після того, як The New York Times та союзні медіа-організації подали термінову заяву, стверджуючи, що користувачі ChatGPT, ймовірно, видаляли чати, в яких намагалися обійти платні стіни. OpenAI подала апеляцію до окружного судді США Сідні Стіна, стверджуючи, що безстрокове збереження логів суперечить “давнім нормам конфіденційності”. Стіна відхилив апеляцію OpenAI, вказавши на угоду з користувачами компанії, яка зазначає, що дані можуть зберігатися для юридичних процедур.
Технічна архітектура логування ChatGPT
Захоплення та зберігання даних
- Запис сесій: Кожен виклик API та веб-сесія фіксуються. Входи, параметри моделі (наприклад, температура, максимальна кількість токенів) і виходи моделі незмінно записуються.
- Система зберігання: Логи зберігаються в зашифрованих кошиках Amazon S3 (шифрування AES-256) і каталогізуються в індексах DynamoDB для швидкого доступу.
- Індексація метаданих: Ідентифікатори користувачів хешуються (SHA-256) і соляться; індекси часових міток і дайджести запитів дозволяють цілеспрямовані запити без розкриття особистої інформації.
Індексація та механізми пошуку
Щоб відповідати вимогам електронного виявлення, інженери OpenAI запропонували конвеєр фільтрації за ключовими словами. Логи, що відповідають погодженим термінам — таким як “New York Times”, “платна стіна” чи конкретні заголовки статей — будуть позначені. Анонімізовані фрагменти будуть завантажені в безпечний енклав, створений на основі AWS Nitro, що забезпечує, що лише мінімальні, редаговані дані коли-небудь будуть доступні адвокатам позивачів.
Вплив на конфіденційність та безпеку
Шифрування даних у спокої та в русі
- Дані у спокої: шифрування AES-256 з використанням служби управління ключами AWS (KMS), що змінює ключі кожні 90 днів.
- Дані в русі: точки доступу TLS 1.3 для всього трафіку API та інтерфейсу користувача, що забезпечує попередню секретність.
Анонімізація та мінімізація даних
Незважаючи на безстрокове збереження, OpenAI обіцяє хешувати ідентифікатори користувачів та видаляти очевидні поля особистої інформації перед будь-яким зовнішнім оглядом. Однак прихильники конфіденційності попереджають, що навіть редаговані логи можуть бути відновлені до анонімності, якщо їх поєднати з метаданими або іншими витоками.
“Збереження мільярдів чат-сесій може стримувати поведінку користувачів”, — зазначив Джей Едельсон, провідний юрист з питань захисту прав споживачів. “Навіть якщо лише частина з них буде запитана, загроза змінює спосіб, яким люди взаємодіють з ШІ.”
Вплив на розробку ШІ та довіру користувачів
З інженерної точки зору, безстрокове збереження даних може призвести до збільшення витрат на зберігання і ускладнення процесів перенавчання моделей. Внутрішні рекомендації OpenAI радять видаляти тимчасові логи, які старші за 30 днів, для оптимізації продуктивності. Це судове рішення тепер зобов’язує суттєво переписати політики життєвого циклу даних, що може затримати впровадження нових функцій і підвищити витрати.
Юридичні прецеденти та майбутні судові процеси
Спостерігачі зазначають, що це рішення може стати шаблоном для інших судових справ у сфері ШІ. Якщо в інших судах вимагатимуть широких заморожувань даних, такі компанії, як Google, Anthropic і Meta, також зіткнуться з подібними вимогами зберігати розмовні або запитувані логи. Експерти прогнозують збільшення кількості заявок на електронне виявлення як у цивільних, так і в кримінальних справах, що стосуються генеративних виходів ШІ.
Додатковий аналіз: Взаємодія платформ та ринкові динаміки
Якщо конкурентні сервіси, такі як Claude від Anthropic або Gemini від Google, уникнуть цього, користувачі можуть перейти на платформи з більш надійними гарантіями видалення. Такий перехід може спотворити конкуренцію, спонукаючи регуляторів оцінити, чи не формують судові розпорядження ненавмисно частку ринку.
Думки експертів та реакції галузі
- Кори́нн МакШеррі (EFF): “Збережені логи можуть бути викликані в непов’язаних справах — ставлячи під загрозу конфіденційність користувачів поза межами цього авторського позову.”
- Інженер безпеки AWS: “Nitro-енклави забезпечують апаратну ізоляцію, але юридичні фірми часто не мають порівнянних заходів безпеки, що підвищує ризик витоків.”
- Криптограф доктор Ліна Фам: “Хешування саме по собі не є бездоганним; противники можуть використовувати атаки на бічні канали або аналіз трафіку для повторної ідентифікації користувачів.”
Висновок
Найближчий запит The New York Times на доступ до видалених логів ChatGPT є знаковим моментом у сфері конфіденційності даних ШІ та захисту авторських прав. Хоча обсяг логів, які будуть запитані, буде обмежений ключовими словами, прецедент безстрокового збереження — і пов’язані з ним виклики безпеки та довіри — матимуть наслідки для технологічної індустрії протягом багатьох років.