Reddit подає в суд на Anthropic через проблеми з крадіжкою даних для ШІ

Вступ
5 червня 2025 року Reddit подав федеральний позов проти стартапу в галузі штучного інтелекту Anthropic, звинувативши компанію в навмисному зборі контенту з Reddit — включаючи пости та коментарі, які були видалені їх авторами — для навчання своїх основних моделей Claude. Основна суть скарги полягає в відмові Anthropic дотримуватися умов ліцензування Reddit та в ймовірному спотворенні зусиль щодо дотримання цих умов.
Передісторія Позову
Головна претензія Reddit полягає в тому, що Anthropic зібрав дані з платформи без згоди, а потім зберіг і комерційно експлуатував чутливий контент користувачів. У той час як конкуренти OpenAI та Google уклали ліцензійні угоди, які включають Compliance API Reddit — забезпечуючи видалення контенту, що був видалений — Anthropic не вступив у такі переговори. Натомість Reddit стверджує, що Anthropic використовував боти для обходу сайту більше 100 000 разів між груднем 2021 року та жовтнем 2024 року.
Основні Звинувачення
- Несанкціонований збір контенту з публічних і приватних сабреддітів
- Збереження постів і коментарів навіть після їх видалення користувачами
- Спотворення інформації про активність збору — стверджуючи, що Reddit знаходиться в чорному списку, поки боти продовжували обходити сайт
- Несправедливе збагачення через доходи від підписки та угоду з Amazon Alexa
Технічні Аспекти: Збір Даних та Compliance API
Згідно з інформацією, pipeline даних Anthropic використовує автоматизовані веб-краулери, які базуються на Selenium та спеціальних HTTP-клієнтах для збору JSON-даних з REST-інтерфейсів Reddit. У скарзі зазначається, що ці боти обходили обмеження швидкості та API-токени, отримуючи доступ до інтерфейсів, які повертають метадані постів і повні дерева коментарів.
Як Працює Compliance API Reddit
- Ліцензовані партнери отримують OAuth-дані, пов’язані з комерційною угодою.
- Коли користувач видаляє контент, Reddit надсилає webhook на зареєстровані кінцеві точки.
- Партнери повинні надіслати запит на видалення протягом 24 годин, очищаючи контент з навчальних корпусів і кешів моделей.
- Reddit контролює дотримання через підписані JSON Web Tokens (JWT) та журнали аудиту.
Дотримання OpenAI та Google цього API різко контрастує з ймовірною відмовою Anthropic підтвердити та поважати ці зворотні виклики.
Юридичні Прецеденти та Регуляторний Контекст
Експерти зазначають паралелі з справою Authors Guild v. Google, де масова цифровізація без можливості відмови викликала проблеми з авторським правом. Рішення щодо конфіденційності даних в ЄС, такі як Schrems II, підкреслюють права користувачів на видалення відповідно до статті 17 GDPR (Право на забуття), що може зміцнити позицію Reddit.
“Суди все частіше розглядають дані, створені користувачами, як такі, що підлягають захисту конфіденційності, навіть якщо вони є публічно доступними,” — говорить професор Джейн Доу з Колумбійської юридичної школи, що спеціалізується на регулюванні технологій.
Вплив на Процеси Навчання Моделей ШІ
Якщо позов Reddit буде успішним, розробникам ШІ доведеться створити надійні системи збору даних, які включають потоки видалення в реальному часі. Тренери моделей можуть впровадити хешування і відбитки контенту для запобігання несанкціонованому використанню тимчасового або видаленого контенту.
Розглянуті Технічні Заходи
- Часткове розбиття контенту з використанням CRDT для відстеження спільних редагувань
- Зашифровані обчислення з кількома учасниками для вибіркового обміну даними
- Фреймворки федеративного навчання, які зберігають сирі дані на пристроях користувачів
Думки Експертів та Реакції Галузі
“Підхід Anthropic ставить фундаментальні питання про прозорість моделей і згоду користувачів,” — говорить доктор Кейт Кравфорд, співзасновниця інституту AI Now. “Нам потрібні галузеві стандарти для походження даних.”
Amazon, яка інвестувала понад 8 мільярдів доларів в Anthropic і інтегрує Claude у свій голосовий асистент Alexa, поки що відмовилася коментувати ситуацію. Microsoft та Google публічно підтвердили важливість ліцензійних угод, які поважають права на видалення.
Можливі Результати та Наслідки
Reddit вимагає як компенсаційних, так і каральних збитків, стверджуючи, що дії Anthropic були навмисними і зловмисними. Успішна заборона може вимагати реального дотримання для всіх великих AI-краулерів, що змінить:
- Комерційне Ліцензування ШІ: Платформи можуть вимагати плату за використання та динамічні контракти API.
- Норми Конфіденційності Даних: Чіткі механізми згоди/відмови для контенту, створеного користувачами.
- Найкращі Практики Навчання ШІ: Стандартизовані зворотні виклики на видалення та журнали аудиту.
Останні Розвитки
Станом на червень 2025 року Reddit запланував попереднє слухання щодо заборони на вересень 2025 року. Тим часом Anthropic заявив, що буде активно захищати позов. Регуляторні органи в ЄС та Великій Британії, за повідомленнями, розглядають справу на предмет можливих порушень законодавства про конфіденційність.
Висновок
Цей позов є знаковим моментом у дебатах щодо етики даних для навчання ШІ, виконання прав на видалення та комерційних зобов’язань розробників великих мовних моделей. З мільярдами на кону та довірою користувачів під загрозою, галузь уважно стежить за розвитком подій.