Торренти Meta мають значення у справі про авторські права Llama AI

Передумови справи та поточний стан
У важливому рішенні від 26 червня 2025 року суддя окружного суду США Вінс Чабрія частково задовольнив клопотання Meta про винесення рішення за підсумками справи, яку подали 13 бестселерних авторів, серед яких Сара Сілверман та Джуно Діас, стосовно використання їхніх авторських творів для навчання великих мовних моделей (LLMs) Meta, зокрема Llama. Хоча Meta здобула перемогу в більшості претензій щодо порушення авторських прав, одне питання залишилося невирішеним: чи впливає торентинг піратських електронних книг з тіньових бібліотек, таких як LibGen, обсягом понад 80,6 терабайта даних, на аналіз добросовісного використання.
Чабрія наказав сторонам зустрітися 11 липня для визначення подальших дій щодо окремого обвинувачення авторів, що Meta незаконно розповсюджувала їхні книги під час процесу BitTorrent. Хоча інформація з цього питання досі обмежена — оскільки претензія щодо торентингу була висунута пізно — суддя вирішив, що аргумент Meta про те, що торентинг є «недоречним» для добросовісного використання, є недостатнім.
Юридичний аналіз: фактори добросовісного використання та значення торентингу
Закон США про авторське право визначає чотири фактори добросовісного використання. Чабрія вказав на щонайменше три аспекти, які можуть вплинути на аналіз торентного отримання Meta:
1. Характер використання та недобросовісність
«Закон змінюється щодо того, чи є недобросовісність релевантною для добросовісного використання». – Суддя Вінс Чабрія
На думку авторів, спочатку Meta зверталася до традиційних видавців для отримання ліцензій. Після того, як переговори зайшли в глухий кут, генеральний директор Марк Цукерберг нібито «посилив» зусилля, вдаючись до піратства через пирингові мережі. Чабрія припустив, що завантаження без ліцензії може свідчити про недобросовісність відповідно до Першого фактора, хоча суди мають різні думки щодо значення наміру.
2. Вплив на екосистему BitTorrent
Якщо клієнти або сервери Meta сіяли матеріали назад у мережу, це могло «підтримати тих, хто створював бібліотеки, і таким чином сприяло їхньому несанкціонованому розповсюдженню», що може поглибити порушення. Чабрія зазначив, що існує прецедент, згідно з яким більшість пирингового обміну файлами вважається порушенням, і зауважив, що деякі з бібліотек, до яких зверталася Meta, раніше були визнані відповідальними.
3. Зв’язок з трансформаційним використанням
Meta стверджувала, що її кінцеве використання — навчання нейронних мереж Llama — є «вкрай трансформаційним». Суддя заперечив, що торентинг є невід’ємною частиною того ж трансформаційного процесу: завантаження для навчання прирівнюється до завантаження для трансформації.
Технічний аналіз: механіка торентингу та обсяг даних
- Обсяг даних: Експертні оцінки свідчать, що Meta отримала приблизно 80,6 ТБ — еквівалент 20 мільярдам сторінок — через BitTorrent за допомогою кількох магнітних посилань.
- Протокол BitTorrent: Процес спирається на Розподілену Хеш-таблицю (DHT) та обмін між піринговими клієнтами (PEX) для знаходження частин файлів. Торент-клієнти перевіряють кожен шматок за допомогою SHA-1 хешування перед повторною збіркою.
- Сідання та рої: Якщо інфраструктура Meta сіяла після завантаження, це підвищувало здоров’я рою, що може порушувати правила протидії обходу DMCA. Автори можуть викликати журнали серверів для підтвердження активності сідання.
Технологічний процес навчання моделей ШІ та вимоги до даних
Навчання сучасних LLM, таких як Llama 2 або Llama 3, вимагає величезних і різноманітних корпусів даних. Галузеві стандарти показують:
- Кількість токенів: Провідні моделі використовують від 1 до 3 трильйонів токенів, отриманих з книг, веб-сканувань та кодових репозиторіїв.
- Обчислювальна інфраструктура: Meta використовує кластери GPU — NVIDIA H100 або A100 Tensor Core GPU — для налаштування архітектур трансформерів за допомогою PyTorch або JAX.
- Попередня обробка: Електронні книги проходять корекцію OCR, парсинг HTML/XML та нормалізацію Unicode. Файли, отримані з торентів, часто потребують додаткового очищення через несумісність форматування.
Вплив на індустрію та майбутні ринки ліцензування
Чабрія передбачив, що на великомасштабні ринки ліцензування можуть виникнути, якщо ліцензіари не зможуть переслідувати несанкціоноване навчання. Видавці можуть бути змушені повторно переглянути дочірні права (наприклад, цифровий текстовий майнінг). Ключові події включають:
- Колективні ліцензійні платформи: Аналогічно організаціям музичних прав (ASCAP, BMI), нові організації можуть агрегувати ліцензії на текстовий майнінг для авторів книг.
- Стандарти метаданих прав: Впровадження розширень ONIX для книг, що визначають права на навчання ШІ та обмеження на використання даних.
- Останні угоди: Угода OpenAI з новинними видавцями (березень 2025 року) включала ставки за токен — що свідчить про можливу модель ціноутворення для ліцензування текстів книг.
Регуляторне середовище та нові стандарти
У різних юрисдикціях регулятори починають висловлюватися щодо навчання ШІ:
- Офіс авторського права США: Запропоноване регулювання щодо винятків для текстового та даних майнінгу, очікується в IV кварталі 2025 року.
- Цифровий законодавчий акт ЄС (DSA): Вимагає проактивних перевірок на наявність авторського контенту на великих платформах, що може вплинути на набори даних LLM.
- Договори ВОІВ щодо ШІ: Обговорення міжнародних рамок інтелектуальної власності для контенту, створеного ШІ, тривають, з пропозиціями про уточнення допустимих даних для навчання.
Наступні кроки та прогнози
У міру розвитку справи автори можуть звернутися за журналами серверів, записами мережевого трафіку або найняти експертів з цифрової криміналістики для відстеження вузлів BitTorrent Meta. Якщо з’являться докази того, що Meta сіяла або підтримувала пирингову мережу, залишкова претензія щодо добросовісного використання може схилитися на користь авторів. Незалежно від результату, ця справа вже стимулює інновації в інфраструктурі ліцензування та може змінити спосіб, яким розробники ШІ отримують авторський текст.