Всередині операції сканування книг Anthropic для навчання ШІ

Слідкуйте за слідами документів
Нові судові документи свідчать про те, що компанія Anthropic, яка розробила асистента Claude, витратила десятки мільйонів доларів на програму сканування книг, що завдає фізичної шкоди. В результаті масових закупівель вживаних книг та швидкісних робочих процесів OCR, компанія фактично порізала мільйони книг для навчання своїх великих мовних моделей. Деталі цієї операції стали відомі в недавньому 32-сторінковому рішенні федерального суду щодо добросовісного використання, що підняло нові питання про правові прецеденти, якість даних та екологічний вплив сучасного розвитку штучного інтелекту.
Передумови: Від піратських електронних книг до фізичних бібліотек
На початку 2023 року керівництво Anthropic, очолюване генеральним директором Даріо Амодеї, шукало надійні та якісні текстові корпуси для навчання Claude. Спочатку стратегії базувалися на зібраних та піратських електронних книгах, але до середини 2024 року компанія змінила курс. Складні переговори з видавцями виявилися обтяжливими, а ліцензійні збори загрожували зруйнувати заплановані бюджети. Натомість Anthropic обрала обхідний шлях, спираючись на доктрину першого продажу: купувати фізичні книги, оцифровувати їх і знищувати оригінали.
Стратегічне призначення: Том Терві приєднується до Anthropic
- Лютий 2024 року: Anthropic запрошує Тома Терві, колишнього керівника партнерств Google Books.
- Мандат Терві: “Отримати та оцифрувати всі книги світу”, використовуючи перевірені технології сканування Google.
- Терві приносить експертизу в автоматизації, оптимізації точності OCR (до 98% з постобробкою) та зменшенні юридичних ризиків.
Технічний процес руйнівного сканування
Процес Anthropic від початку до кінця нагадував промислові архівні системи, але на небаченому раніше масштабі:
- Масове придбання: мільйони вживаних книг купуються через онлайн-майданчики, аукціони складів та залишкові столи.
- Розбирання: автоматизовані гільйотини розрізають палітурки зі швидкістю до 300 сторінок на хвилину, утворюючи купи вільних аркушів.
- Сканування високої роздільної здатності: кольорові сканери з роздільною здатністю 600 dpi захоплюють зображення з повним заповненням; інфрачервоні лампи та багатоспектральні сенсори покращують OCR для маргіналій та складних шрифтів.
- OCR та очищення: власне програмне забезпечення групує текстові блоки, виправляє перекоси та об’єднує зображення з текстовими шарами у формат PDF/A-3, що дозволяє шукати.
- Попередня обробка для ШІ: текст токенізується (кодування пар байтів), розбивається на вікна по 2048 токенів і дублікатується з корпусами Common Crawl та новинних стрічок.
- Порізка та переробка: після перевірки паперові шматочки перетворюються на пульпу; менше ніж 2% матеріалів (клейкі смужки, обкладинки) потребують спеціальної утилізації.
Юридичне рішення щодо добросовісного використання
У червні 2025 року суддя Вільям Алсуп з Північного округу Каліфорнії виніс знакове рішення, визнавши, що руйнівне сканування Anthropic підпадає під перетворювальне добросовісне використання, оскільки:
- Книги були законно придбані у першому продажу; жодні ліцензії не були обійдені.
- Процес перетворив фізичні видання в новий цифровий формат, зберігаючи функціональну корисність без розповсюдження.
- Внутрішнє використання Anthropic для навчання моделей не витісняло ринок для оригінальних творів.
“Ця конверсія формату економить простір та сприяє науковому прогресу,” написав суддя Алсуп, відзначаючи прецеденти, встановлені Google Books у 2013 році.
Якість даних та продуктивність моделей
Експертні оцінки показують, що великі мовні моделі (LLMs), навчальні на добре відредагованому тексті, перевершують ті, що покладаються виключно на дані з інтернету, на до 15% у фактичній точності та до 20% у показниках зв’язності. Книги забезпечують:
- Куровану лексику з меншим числом типографічних помилок.
- Збалансовану жанрову розподіл (художня література, технічні посібники, довідкові видання).
- Структуру довгого формату, що покращує здатності до дискурсу та підсумовування.
Внутрішні тести Anthropic, як повідомляється, показали зниження перплексії на 0.3 при включенні корпусу книг — критично важливо для продуктивності Claude в креативному письмі, юридичному мисленні та довгих запитаннях і відповідях.
Альтернативні недеструктивні методи
Організації, такі як Internet Archive та Project Gutenberg, підтримують роботизовані системи перевертання сторінок, які зберігають палітурки та рідкісні видання. У травні 2025 року OpenAI та Microsoft оголосили про партнерство з бібліотеками Гарварду для навчання на одному мільйоні загальнодоступних творів з використанням недеструктивного захоплення та збагачення метаданими.
Етичні та екологічні міркування
Критики підкреслюють:
- Екологічний вплив: Пулпування паперу та енергетично інтенсивне сканування споживають значну кількість енергії — приблизно 2 МВт год на мільйон сторінок.
- Культурні втрати: Масові закупівлі загрожують виснаженню копій сучасних та знятих з друку творів.
- Прозорість: Відсутність публічної звітності про те, які заголовки були оцифровані, викликає занепокоєння щодо архівування та збереження.
Перспективи: Регулювання та реакція індустрії
З огляду на майбутній Закон про ШІ в ЄС та проект рекомендацій ЮНЕСКО “Прозорість даних для навчання”, компанії можуть незабаром бути зобов’язані розкривати джерела даних та протоколи збереження. Перемога Anthropic у справі про добросовісне використання може стати поштовхом для розвитку внутрішніх програм сканування або підштовхнути індустрію до створення колективних ліцензійних пулів та федеративного навчання на основі публічних даних.
Висновок
Історія руйнівного сканування Anthropic підкреслює зростаючі компроміси між юридичними ризиками, якістю даних, витратами та етикою в розвитку штучного інтелекту. У міру зростання масштабів і амбіцій моделей ШІ, зростатимуть і дебати про те, як ми отримуємо, зберігаємо та цінуємо друковане слово.