Meta’s Llama 3.1 70B запам’ятала половину Гаррі Поттера

Огляд
У червні 2025 року мультидисциплінарна команда комп’ютерних науковців та юристів з університетів Стенфорда, Корнелла та Західної Вірджинії опублікувала детальний аналіз, який показав, що відкрита модель Llama 3.1 70B компанії Meta запам’ятала 42 відсотки тексту з Гаррі Поттера і філософського каменя з ймовірністю понад 50 відсотків для точних витягів у 50 токенів. Цей показник значно перевищує аналогічні відкриті та комерційні моделі, надаючи новий імпульс для судових справ щодо авторських прав у сфері генеративного штучного інтелекту.
Контекст: Судові позови проти лабораторій ШІ
- Грудень 2023: The New York Times подала позов проти OpenAI, продемонструвавши точні уривки з статей Times у GPT-4.
- Лютий 2024: Автори, зокрема Річард Кадрі, подали колективний позов проти Meta через моделі Llama.
- Квітень 2025: Європейський парламент просунув законопроект про ШІ, що вимагає прозорості та водяних знаків для генеративних результатів.
Ключові висновки
- Llama 3.1 70B: Рівень запам’ятовування становить 42 відсотки для першої книги серії Гаррі Поттер.
- Llama 1 65B (лютий 2023): Лише 4.4 відсотка запам’ятовування за тим же заголовком.
- Модель Microsoft та GPT-NeoX від EleutherAI: Рівні запам’ятовування коливалися від 1 до 8 відсотків.
- Популярні та маловідомі заголовки: Llama 3.1 70B відтворила близько 35 відсотків Гобіта та 30 відсотків 1984, але лише 0.13 відсотка Сандмана Сліма.
Технічна методологія: Вимірювання запам’ятовування
Дослідники поділили кожну з 36 книг на перекриваючі вікна по 100 токенів. Перші 50 токенів використовувалися як підказка, а спільна ймовірність наступних 50 токенів обчислювалася через логарифмічні logits виходи, а не шляхом безпосереднього вибірки. Текст вважається «запам’ятованим», якщо P(відтворення) > 50 відсотків, що свідчить про середню ймовірність на токен ≥ 98.5 відсотка. Цей підхід використовує прискорені матричні множення на графічних процесорах для видобутку розподілів токенів, що дозволяє точно оцінювати ймовірності без генерації квадрильйонів зразків.
Чому 50 токенів?
- Статистична значущість: Довші фрагменти зменшують ймовірність помилкових позитивних результатів через випадкове генерування.
- Юридичний поріг: Суд може вважати будь-яке безперервне відтворення понад 50 токенів суттєвим копіюванням.
- Ефективність: Послідовності з 50 токенів забезпечують баланс між виявленням і обчислювальними витратами.
Глибокий аналіз: Режим навчання та джерела даних
Meta повідомила, що навчала Llama 3.1 70B на ~15 трильйонах токенів з різноманітних джерел: CommonCrawl, репозиторії коду та Books3 — кураторного корпусу з ~200,000 англомовних книг. Десятикратне збільшення кількості токенів для навчання від Llama 1 до Llama 3, ймовірно, погіршило запам’ятовування. Дві робочі гіпотези пояснюють пік запам’ятовування Гаррі Поттера:
- Дублювання наборів даних: Можливо, Books3 був надмірно вибірковим або повторно використаним, що підвищило частоту прикладів.
- Вторинні джерела: Онлайн-форуми фанатів, рецензії на книги та освітні сайти, що цитують великі уривки.
“Якщо вторинні цитати були б єдиною причиною, ви б очікували розрізнені посилання, а не майже повне відтворення,” зазначив професор Марк Лемлі (Стенфорд). “Дані свідчать про те, що текст був присутній під час навчання.”
Додатковий аналіз: Архітектура моделі та гіперпараметри
- Кількість параметрів: 70 мільярдів параметрів, глибина трансформерного стеку — 96 шарів.
- Контекстне вікно: 4,096 токенів, що дозволяє враховувати довгі залежності.
- Стратегія вибірки: Top-k=50, температура=0.7 за замовчуванням; тести використовували температуру=0 для оцінки пікових ймовірностей.
- Регуляризація: Мінімальне зниження ваги та відсутність диференційної конфіденційності, що може зменшити запам’ятовування за рахунок корисності.
Новий розділ: Потенційні стратегії пом’якшення
Для вирішення проблеми небажаного запам’ятовування фахівці досліджують:
- Дедуплікація даних в масштабах, використовуючи локально чутливий хешинг для видалення майже ідентичних уривків.
- Диференційно приватний SGD, що накладає шум на оновлення градієнтів для обмеження запам’ятовування рідкісних прикладів.
- Адаптивне навчання за програмою, що передбачає рідше знайомство моделі з прикладами з високою частотою.
Новий розділ: Регуляторний та етичний ландшафт
Станом на середину 2025 року, законопроект ЄС про ШІ вимагає водяних знаків для текстів, згенерованих ШІ, та аудитів на предмет запам’ятовування. У США Бюро авторських прав оцінює положення про безпечну гавань для навчання моделей, тоді як законопроекти в Конгресі прагнуть визначити межі добросовісного використання для попереднього навчання великих мовних моделей.
Новий розділ: Напрями майбутніх досліджень
Ключові відкриті питання для академічної спільноти та промисловості:
- Чи можуть обмеження швидкості та маскування токенів під час навчання зменшити точне відтворення без погіршення узагальнення?
- Яка роль просунутих детекторів запам’ятовування, таких як Rolling Winnowing, у керуванні моделями?
- Як відкриті еталони, такі як Memorization Attribution Suite (MAS), можуть стандартизувати тестування для закритих і відкритих моделей?
Юридичні наслідки: Три теорії відповідальності
В американському законодавстві про авторські права теорії відповідальності включають:
- Несанкціоноване відтворення під час етапу збору даних для навчання.
- Створення похідних творів, коли авторський текст вбудований у ваги моделі.
- Порушуючий вихід, коли модель генерує захищений текст.
Meta може посилатися на захист добросовісного використання, цитуючи справу Google Books (2015), але масштаб запам’ятованого тексту ускладнює заяви про “трансформаційне використання”. Постачальники закритих ваг (OpenAI, Anthropic, Google) можуть уникати зовнішніх аудитів і впроваджувати фільтри виходу, але моделі з відкритими вагами підлягають більшій перевірці через вимоги до прозорості.
Висновок
Це дослідження підкреслює, що запам’ятовування не є випадковим явищем, а є кількісним феноменом, який значно варіюється між моделями, наборами даних і гіперпараметрами. У міру розвитку судових справ і посилення регулювання лабораторії ШІ повинні впроваджувати суворі протоколи управління даними та інвестувати в техніки навчання, що забезпечують конфіденційність, щоб знайти баланс між інноваціями та дотриманням авторських прав.