Авторське право та навчання ШІ: що нас чекає?
Передумови: Раптова зміна влади
8 травня 2025 року президент Дональд Трамп несподівано звільнив бібліотекаря Конгресу Карлу Хейден та керівника Бюро авторського права США Ширу Перлмуттер, всього через кілька днів після того, як офіс Перлмутер опублікував попередній звіт, який ставив під сумнів широкі вимоги щодо добросовісного використання від великих розробників штучного інтелекту. Цей крок викликав осуд з боку конгресменів, видавців, авторів та прихильників відкритого програмного забезпечення, які назвали звільнення безпрецедентним втручанням виконавчої влади в незалежну культурну інституцію.
Основні висновки попереднього звіту
Проект звіту Бюро авторського права оцінив понад 10,000 громадських коментарів щодо того, чи використання авторських творів для навчання великих генеративних моделей штучного інтелекту підпадає під поняття добросовісного використання відповідно до законодавства США (17 U.S.C. § 107). У звіті акцентувалося на двох факторах, які матимуть найбільше значення у майбутніх судових справах:
- Фактор 1: Мета та характер використання (чи є використання “трансформаційним”, тобто чи додає нове вираження або значення).
- Фактор 4: Вплив на потенційний ринок (чи замінюють або підривають результати роботи штучного інтелекту творчі ринки оригінальних творів).
Серед важливих висновків були:
- “Несанкціоноване використання авторських книг, статей та мультимедійних матеріалів для попереднього навчання моделей може порушувати права, якщо результати повторюють або конкурують з оригіналом.”
- Необхідно створити “рамки згоди”, які перемістять тягар з авторів, що відмовляються, на розробників, які повинні отримати явні ліцензії.
- Навчання на піратських або платних наборах даних суттєво ускладнює добросовісне використання, навіть якщо не є остаточним фактором.
- Деякі трансформаційні використання — такі як інструменти для узагальнення, корекції граматики та специфічні для домену сервіси вбудовування — залишаються в межах добросовісного використання.
Стійкість у бібліотеці: Поліція Капітолію та зловмисники
Через кілька днів після звільнень соціальні мережі заполонили повідомлення про протистояння на вході до Бюро авторського права в Бібліотеці Конгресу між поліцією Капітолію та двома чоловіками, які стверджували, що вони новий заступник бібліотекаря та в.о. директора з авторського права. Конфіденційні джерела згодом ідентифікували їх як Брайана Нієвеса та Пола Перкінса; їхня справжня влада залишається непідтвердженою. Поліція Капітолію підтвердила, що насильницьке видалення не відбулося, але інцидент підкреслив інституційний хаос після звільнень.
Технічний аналіз вимог до даних для навчання штучного інтелекту
Великі мовні моделі (LLMs) та основні моделі покладаються на багатоступеневі процеси навчання:
- Збір даних: Збирання та сканування веб-сторінок, книг, коду та статей. Зазвичай корпуси перевищують 1–5 трильйонів токенів.
- Попередня обробка та токенізація: Конвертування тексту в токени з кодуванням пар байтів або WordPiece для подачі в архітектури Transformer.
- Попереднє навчання: Самоконтрольні цілі (моделювання замаскованої мови, прогнозування наступного токена) на різноманітних наборах даних протягом кількох тижнів на кластерах GPU/TPU.
- Доопрацювання / RAG: Навчання з наглядом або генерація з підкріпленням для адаптації до домену (наприклад, юридичне оформлення, синтез коду).
Експерти зазначають, що хоча деякий авторський контент є необхідним для захоплення мовних нюансів, точний обсяг, необхідний для “життєздатної” моделі, залишається невизначеним. Доктор Емілі Бендер (Університет Вашингтона) зазначила: “Ми ще не знаємо мінімальний життєздатний набір даних для конкурентоспроможності; масове споживання всіх текстів може бути надмірним і юридично ризикованим.”
Ліцензійні рамки та рішення для платформ
Професійні асоціації та правознавці досліджують технічні та контрактні шляхи для забезпечення відповідності:
- Ліцензування на основі токенів: Облік API-викликів та призначення роялті за мільйон згенерованих токенів з власних корпусів.
- Ринки даних: Децентралізовані платформи, які використовують смарт-контракти (на тестових мережах Ethereum) для автоматизації розподілу роялті авторам.
- Федеративне навчання: Навчання на пристрої або на краю, яке використовує локальний контент користувача за згодою, мінімізуючи централізоване масове ліцензування.
Згідно з Маркетою Трімбл з Лабораторії авторського права, відкритої науки та доступу до даних Стенфордського університету, “Рішення з ліцензування другого рівня на публічних блокчейнах можуть забезпечити прозорість, незмінність угод та своєчасні платежі в масштабах.”
Юридичні прецеденти та узгодженість судів
З’являється нова судова практика, яка, здається, відображає рекомендації Бюро. У справі Authors Guild v. OpenAI, поданій раніше цього року, суддя окружного суду США Вiнс Чабрія звернув увагу Meta на використання набору даних піратських книг, зазначивши: “Я не розумію, як відтворення мільйонів авторських сторінок може бути трансформаційним, якщо модель видає замінники вашої власної роботи.”
Учасники галузі зазначають, що лише суди можуть остаточно вирішити питання добросовісного використання, але багато хто бачить тенденції в судочинстві, що сприяють більш суворому контролю за неліцензованими наборами даних:
- Дебати щодо фактора 1 зосереджуються на тому, чи додають генеративні результати “нове вираження або значення”, а не просто переформатовують існуючі тексти.
- Аналізи фактора 4, ймовірно, враховуватим втрачені підписки або ліцензійні збори, що виникають через AI-генеровані замінники.
Думки експертів та реакція галузі
Реакції на звіт та подальші звільнення розділилися за передбачуваними лініями:
- Технологічна галузь: Асоціація комп’ютерної та комунікаційної промисловості попередила, що розширене тлумачення ринкових збитків може дозволити правовласникам блокувати будь-яке використання з гіпотетичними наслідками для супутніх ринків.
- Прихильники громадянських свобод: Групи за свободу слова та преси попереджають, що обтяжливе ліцензування може стримувати інновації в сфері відкритого програмного забезпечення та обмежувати академічні дослідження.
- Коаліції творців: Альянси авторів та видавців похвалили позицію Бюро, підкреслюючи необхідність справедливої компенсації за творчу працю.
“Наша мета не в тому, щоб задушити розвиток AI,” говорить Кортні Радш з Інституту відкритих ринків, “а в тому, щоб гарантувати, що творці не будуть обійдені, коли їхні роботи живлять ці багатомільярдні системи.”
Міжнародний контекст: Розвиток у ЄС та Великій Британії
По той бік Атлантики, Закон про штучний інтелект Європейського Союзу та Законопроект про цифрові ринки, конкуренцію та споживачів Великої Британії містять положення щодо прозорості авторського права та відстежуваності даних. Зокрема, ЄС нещодавно зобов’язав впровадити “журнали підтримки судових розглядів” для систем штучного інтелекту високого ризику, що вимагає від постачальників документувати джерела навчання та сліди використання.
Глобальні дослідницькі центри вже експериментують з “синтетичними даними”, створюючи замінники, виготовлені штучним інтелектом, щоб зменшити залежність від авторських матеріалів. Попередні результати показують до 15% зниження ефективності моделей, підкреслюючи компроміс між юридичною безпекою та мовною багатогранністю.
Перспективи та дії Конгресу
Комітети Сенату та Палати представників терміново працюють над новим законодавством щодо авторського права в сфері штучного інтелекту. Запропоновані законопроекти включають:
- Обов’язкові реєстраційні реєстри для AI: Центральні федеральні бази даних, в яких розробники реєструють джерела даних та сплачують диференційовані збори.
- Виключення для безпечної гавані: Для неприбуткових, освітніх та дослідницьких використань з низьким доходом.
- Обов’язкове розподілення доходів: Вимога, щоб 2–5% комерційних доходів від AI були об’єднані для колективної компенсації авторів.
Наступні шість місяців будуть критично важливими. Якщо Білий дім продовжить опір звіту Бюро авторського права, нові призначені керівники можуть змінити рекомендації або уповільнити їх фіналізацію. Одночасно суди почнуть ухвалювати рішення у резонансних справах про добросовісне використання, що може встановити обов’язкові прецеденти до будь-якого законодавчого виправлення.
Висновок
Раптове звільнення Шири Перлмутер — та швидкі політичні наслідки — підкреслюють, як політика авторського права тепер перебуває на перехресті технологій, бізнесу та культури. Оскільки системи штучного інтелекту стають дедалі потужнішими, питання про те, як вони отримують доступ, трансформують та монетизують творчі роботи, залишиться однією з найважливіших дискусій цього десятиліття.