Суддя досліджує справедливе використання у впливі AI Meta на GenAI

На слуханні з високими ставками 1 травня 2025 року суддя окружного суду США Вінс Чабрія висловив глибокий скептицизм щодо твердження компанії Meta про те, що її масове копіювання авторських книг для навчання моделей штучного інтелекту Llama підпадає під категорію “добросовісного використання”. Очікуване рішення, яке має бути оголошене пізніше цього року, може стати знаковим прецедентом, що визначить правові основи генеративного штучного інтелекту (GenAI) у всьому світі.
Передумови: Спір Meta з авторами щодо авторських прав
Компанія Meta Platforms Inc. звинувачується коаліцією авторів, до якої входять Сара Сілверман, Та-Нехісі Коутс та Річард Кадрей, у порушенні авторських прав шляхом використання торрент-мереж для отримання та обробки сотень тисяч книг без ліцензій. Meta стверджує, що такий збір даних є трансформаційним добросовісним використанням, необхідним для розвитку просунутого штучного інтелекту, який випереджає світових конкурентів.
- Відповідач: Meta Platforms, розробник серії Llama AI (Llama 1, 2 та нещодавно анонсована Llama 3).
- Позивачі: Група авторів, які стверджують про несанкціоноване копіювання, розповсюдження та шкоду на ринку.
- Вимоги: Заборони, статутні збитки та рішення про те, що масштабне навчання штучного інтелекту не може бути захищене добросовісним використанням.
Ключові моменти слухання та позиція судді
Під час слухання щодо підсумкового рішення суддя Чабрія неодноразово ставив запитання головному адвокату Meta, Каннону Шанмугаму, про те, як несанкціоноване використання авторського тексту може вважатися добросовісним використанням, якщо результати роботи штучного інтелекту можуть “заповнити” існуючі ринки:
- “Є компанії, які використовують захищені матеріали для створення безлічі конкурентних продуктів”, — зазначив Чабрія. “Я просто не розумію, як це може бути добросовісним використанням”.
- Він порівняв потенційні результати роботи штучного інтелекту з “мільярдом поп-пісень” у стилі нового артиста, ставлячи під сумнів, як нові творчі особистості можуть змагатися.
Хоча Чабрія визнав трансформаційний характер навчання генеративних моделей, він підкреслив, що сама трансформація не переважає питання шкоди на ринку згідно з четвертим фактором добросовісного використання. Суддя запитав адвоката авторів, Девіда Бойса, про конкретні докази втрат у продажах — елемент, який позивачі повинні довести, щоб уникнути відхилення справи на підставі добросовісного використання.
Технічний аналіз: Технології навчання AI та обробка даних
Llama 3 від Meta, представлений минулого місяця, має до 70 мільярдів параметрів і був навчений на внутрішньому корпусі з понад 3 трильйонів токенів. Модель використовує кластерні системи GPU Microsoft Azure з оптимізатором ZeRO-3 (з бібліотеки DeepSpeed), що дозволяє розподілити градієнти та зменшити обсяг пам’яті, забезпечуючи ефективне масштабування на тисячах GPU NVIDIA H100.
- Збір даних: Meta збирала дані з публічних веб-сканувань, ліцензованих наборів даних (наприклад, Common Crawl) та, спірно, з джерел BitTorrent — що викликає питання щодо контролю походження.
- Попередня обробка: Видалення дублікатів за допомогою MinHash та локально чутливого хешування (LSH), фільтрація контенту для видалення мови ненависті та токенізація з використанням кодування пар байтів (BPE).
- Цілі навчання: Прогнозування наступного токена (авторегресивне) та цілі з маскуванням токенів на етапах гібридного попереднього навчання.
Експерти в галузі, такі як професор права Стенфордського університету Памела Самуельсон, попереджають, що безвідповідальне сканування без надійного управління правами може підірвати стимули авторства. “Великі мовні моделі створюють нові виклики для авторського права, особливо коли вони навчаються на несанкціонованому тексті в масштабах”, — зазначила вона в інтерв’ю Tech News.
Глобальна регуляторна ситуація та наслідки
За межами США регулятори стикаються з подібними проблемами. В рамках Закону про штучний інтелект ЄС (запропонованого до впровадження в 2026 році) постачальники повинні підтримувати реєстр даних для навчання, що містить інформацію про статус авторських прав, походження та придатність. Британське управління інтелектуальної власності консультується щодо розширення постійних винятків для текстового та даних, щоб охопити комерційне використання AI.
- У проекті керівництва Китаю щодо AI передбачено явну згоду або ліцензування для авторського вмісту під час розробки моделей.
- Недавній виняток Канади для TDM обмежує добросовісне використання некомерційними дослідженнями, повністю звільняючи комерційний GenAI.
Результат справи Meta може вплинути на ці регуляторні рамки, визначаючи, як платформи формують свої дані, щоб забезпечити правову відповідність.
Експертні думки щодо добросовісного використання та прав інтелектуальної власності
Коннор Лі, співзасновник EleutherAI, підкреслює, що “відкриті дані для навчання сприяють інноваціям”, але він погоджується, що “потрібен чіткий юридичний захист, інакше межа AI застигне через витрати на ліцензування”. Тим часом, Copyright Alliance стверджує, що зосередження лише на навчанні ігнорує той факт, що результати роботи AI часто відображають стиль і структуру використаних творів.
“Аргумент Meta ізолює навчання від результату, але закон розглядає загальне використання. Якщо кінцевий продукт конкурує з ринком автора, добросовісне використання може не застосовуватися”, — зазначила Альянс у нещодавньому судовому документі.
Аналіз впливу на ринок та прогнози
Аналітики Gartner оцінюють, що неконтрольоване поширення синтетичного тексту може знизити до 15% доходів від книг середнього рівня до 2028 року, якщо широко впровадять необмежених GenAI асистентів. У той же час, ліцензовані набори даних — що продаються за ціною від 0,01 до 0,05 долара за токен — можуть принести 500 мільйонів доларів нових доходів від ліцензування наборів даних у всьому світі до 2027 року.
Видавці, такі як Penguin Random House, вже ведуть переговори про “пул ліцензій на дані” для масового ліцензування тексту для навчання AI, модель, яка може з’явитися, якщо суди посилять критерії добросовісного використання.
Наступні кроки та потенційні наслідки для галузі
Суддя Чабрія вказав, що до кінця року він оприлюднить обґрунтовану думку. Рішення проти захисту Meta на основі добросовісного використання може:
- Змусити компанії AI масово переглянути ліцензії на дані або ризикувати заборонами.
- Сприяти законодавчим діям для створення статутних винятків для комерційного AI.
- Заохотити розробку стандартів походження та водяних знаків для навчальних корпусів.
У протилежному випадку, якщо Meta виграє, стартапи в сфері AI та великі технологічні компанії, ймовірно, розглянуть це рішення як зелене світло для агресивного збору даних, що може спровокувати нові суперечки в кіно, музиці та інших сферах.
Висновок
Захист Meta щодо добросовісного використання в навчанні AI перебуває на критичному етапі. Остаточне рішення судді Чабрії вплине на екосистему GenAI, балансуючи між трансформаційними інноваціями та економічними правами творців.