Рішення про добросовісне використання уточнює правила використання книг для навчання ШІ

Огляд Рішення
23 червня 2025 року окружний суддя США Вільям Алсуп виніс революційне рішення у справі Authors Guild v. Anthropic, стверджуючи, що розробники штучного інтелекту можуть законно навчати великі мовні моделі (LLMs) на основі авторських книг, які вони придбали легально. Це перше у своєму роді федеральне рішення визнає трансформативний характер навчання систем штучного інтелекту, порівнюючи цей процес із «учнями, які вчаться писати».
Ключові Висновки
- Трансформативне Використання: Суддя Алсуп зазначив, що введення тексту в передтренувальну систему LLM суттєво змінює оригінальний твір, що робить його новим творчим вираженням.
- Відсутність Витіснення Ринку: Позивачі не змогли довести, що результати роботи Claude від Anthropic повторюють або замінюють їхні книги.
- Можливість Майбутніх Позовів: Автори можуть подати позов, якщо виявлять буквальні відтворення або порушення авторських прав в текстах, згенерованих штучним інтелектом.
“Як і будь-який читач, що прагне стати письменником, LLM Anthropic навчалися на творах не для того, щоб просто повторювати чи замінювати їх, а щоб зробити важкий поворот і створити щось нове.”
— Суддя Вільям Алсуп
Передісторія Справи
Судовий процес розпочався, коли консорціум авторів звинуватив Anthropic у незаконному використанні копій їхніх книг для навчання Claude, флагманської моделі штучного інтелекту компанії. На відміну від інших справ проти Meta та OpenAI, які стосуються порушення на основі результатів, ця справа зосереджувалася виключно на етапі навчання та чи є це справедливим використанням.
Бібліотека Anthropic з 7 Мільйонів Книг
Позивачі навели докази того, що Anthropic спочатку завантажив понад 7 мільйонів піратських заголовків, щоб створити постійну «бібліотеку джерел». Хоча компанія пізніше замінила багато з них на легально придбані копії, суддя виявив, що початкова піратство є нетрансформативним і «власне, невиправним порушенням».
Чому Піратство Підриває Справедливе Використання
- Незаконне завантаження є порушенням, незалежно від подальшого використання.
- Збереження творів у статичному репозиторії не пропонує нового вираження.
- Придбання книг лише після крадіжки не звільняє від попереднього порушення.
Технічний Аналіз: Тренувальні Пайплайни Моделей
Сучасні LLM, такі як Claude та серія GPT від OpenAI, обробляють текст через багатоступеневі пайплайни:
- Інтеграція Даних: Книги оцифровуються в послідовності токенів (зазвичай за допомогою Byte-Pair Encoding), що дає приблизно 2000 токенів на середній роман обсягом 80 тисяч слів.
- Попередня Обробка: Текст очищається від метаданих, вбудовується в вектори високої розмірності (до 1536 вимірів) і зберігається в розподіленому сховищі (наприклад, AWS S3 або Azure Blob Storage).
- Попереднє Навчання: Трансформерні шари моделі (наприклад, 48 шарів, 1024 прихованих одиниць, 16 головок уваги) ітеративно прогнозують замасковані токени протягом тижнів на кластерах GPU або TPU.
- Тонка Настройка: Керований етап на основі кураторських резюме або фрагментів з певної галузі налаштовує модель для покращення подальшого генерування.
Вплив на Галузь та Кращі Практики
Це рішення встановлює прецедент для лабораторій штучного інтелекту по всьому світу, але також підкреслює необхідність надійного управління даними:
- Ліцензійні Угоди: Навіть якщо справедливе використання охоплює навчання, явні ліцензії забезпечують доступ до якісніших метаданих і правової певності.
- Аудитовані Пайплайни: Ведення журналів походження даних і використання може продемонструвати відповідність, якщо виникнуть судові спори.
- Фільтрація Контенту: Впровадження приватизуючої диференційованої конфіденційності або редагування може знизити ризики випадкового відтворення авторського тексту.
Експертні Думки та Перспективи Майбутнього
Олександра Рід, юрист з інтелектуальної власності в TechLaw Partners, зазначає: “Це рішення підтримує науково-дослідну діяльність у галузі генеративного штучного інтелекту, але розробники повинні уважно стежити за результатами, щоб уникнути аналізу буквальних відтворень — наступного рубежу у судових спорах.”
Тим часом законодавчі органи у всьому світі, включаючи Акт про штучний інтелект ЄС та очікувані федеральні законопроекти США, переглядають винятки з авторського права для навчання штучного інтелекту. Спостерігачі очікують, що Верховний Суд розгляне ці питання протягом наступних двох років, що дозволить остаточно прояснити ці важливі питання.
Висновок
Рішення судді Алсупа є знаковим моментом у юриспруденції штучного інтелекту, підтверджуючи, що трансформативне навчання штучного інтелекту на законно отриманих текстах є справедливим використанням. Однак заборона на піратство та можливість подання позовів на основі виходу означають, що розробники штучного інтелекту повинні продовжувати пріоритизувати юридичні ліцензії, прозорі практики роботи з даними та пильний моніторинг згенерованого контенту.