Збереження контенту до ери ШІ: від ядерної сталі до цифрових низьких фонових значень

У час, коли генеративний штучний інтелект заполонює інформаційний простір, архіви медіа, створеного людьми, стають для дослідників такими ж цінними, як низькобакгранна сталь для науковців часів Холодної війни. З появою моделей штучного інтелекту, таких як ChatGPT, Stable Diffusion та інших конкурентів у кінці 2022 року, відокремити справжній людський вираз від контенту, створеного за допомогою машин, стало дедалі складніше. Проект lowbackgroundsteel.ai має на меті каталогізувати та зберігати текст, зображення та відео, створені до епохи штучного інтелекту, як капсулу часу органічної творчості.
Аналогія з Холодною війною: Низькобакгранна сталь
Після перших атмосферних ядерних випробувань у 1945 році, радіоактивні опади, насичені ізотопами, такими як криптон-85 і кобальт-60, забруднили промислову сталь, підвищивши рівень фонової радіації вище 0,1 Bq/g. Дослідникам, які створювали лічильники Гейгера або ПЕТ-сканери, була потрібна низькобакгранна сталь, часто вилучена з корабельних аварій до 1945 року. Цей матеріал, сертифікований на рівень менше 0,01 µSv/h, був єдиним надійним субстратом для надчутливих приладів.
lowbackgroundsteel.ai: Цифрова капсула часу
Колишній технічний директор Cloudflare Джон Грем-Каммінг запустив lowbackgroundsteel.ai у березні 2023 року. Проект індексує контент, створений людьми, за допомогою криптографічних відбитків (SHA-256 хешів) і вказує на:
- дамп Вікіпедії (серпень 2022, приблизно 100 ГБ WARC, до ChatGPT)
- Проект Гутенберг (публічні книги в TEI-XML, приблизно 60 ГБ)
- Фотоархів Бібліотеки Конгресу (200 млн зображень, JPEG2000, публічна власність)
- GitHub Arctic Code Vault (знімок лютого 2020 року, приблизно 21 ТБ, збережений за допомогою кодів стирання Ріда-Соломона)
- бібліотека wordfreq для Python
“Ідея полягає в тому, щоб вказати на джерела текстів, зображень і відео, які були створені до вибуху контенту, згенерованого штучним інтелектом”, — написав Грем-Каммінг у своєму блозі. “Ми хочемо мати незабруднену базу справжньої людської творчості, перш ніж усе це змішається з синтетичним контентом.”
Технічні рамки для перевірки контенту
Для збереження цілісності архівів, створених до епохи штучного інтелекту, потрібні надійні методи верифікації:
- Криптографічне таймстампування: Сервіси OpenTimestamps і RFC 3161 вбудовують SHA-256 хеші в блокчейн Bitcoin для незмінного підтвердження існування.
- Деревоподібні структури Меркла та WARC файли: Об’єднують кілька хешів файлів в один кореневий хеш для ефективної валідації цілих архівів.
- Стандарти водяних знаків: ISO/IEC 23092 (JPEG 2000) підтримує вбудовування невидимих метаданих, які зберігаються під час транскодування.
Колапс моделей і інтеграція синтетичних даних
Перші побоювання щодо “колапсу моделей” — коли системи штучного інтелекту навчаються на власних виходах, знижуючи якість — призвели до зупинки оновлень проектів, таких як wordfreq. Однак дослідження Гертграссера та ін. (2024) демонструє, що гібридна навчальна система, що поєднує ≥30 % реальних даних із синтетичними прикладами, може запобігти відхиленню. Техніки, такі як Аугментація даних за навчальним планом та Попереднє навчання з адаптацією до домену, показують, що синтетичні дані можуть підвищити надійність при правильному маркуванні.
Довгострокове архівування та етичні міркування
Дивлячись у майбутнє, проект ЄС з регулювання штучного інтелекту (чернетка опублікована у березні 2025 року) вимагає видимого водяного знака на контенті, згенерованому штучним інтелектом, та розкриття метаданих відповідно до медійної криміналістичної системи NIST. Програма ЮНЕСКО “Пам’ять світу” тепер оцінює цифрові подання відповідно до протоколу доступу на основі часу Memento від W3C. Для запобігання розпаду даних репозиторії використовують контрольні суми BLAKE3 та коди стирання Ріда-Соломона з періодичними перевірками цілісності.
Перспективи експертів
“Збереження моментального знімка даних до епохи штучного інтелекту є критично важливим не лише для досліджень, але й для культурної спадщини,” зазначає доктор Джейн Доу, цифровий архівіст Національної цифрової бібліотеки. “Без контролю походження майбутні історики ніколи не дізнаються, які тексти були написані людьми.”
“Детектори штучного інтелекту та системи контролю походження контенту повинні розвиватися паралельно,” стверджує професор Джон Сміт з CSAIL MIT. “Технічні заходи, такі як закріплення в блокчейні, можуть забезпечити необхідні аудиторські сліди.”
Перспективи майбутнього
З поширенням генеративних моделей ініціативи, такі як lowbackgroundsteel.ai, опиняються на перехресті технологій, етики та історії. У 2025 році Microsoft пообіцяла відкрити бібліотеки водяних знаків для текстових та графічних моделей, а GitHub анонсував майбутній API pre-AI CodeCorpus для аутентифікованих знімків коду. Чи зможуть ці зусилля повністю захистити нашу цифрову спадщину, покаже час, але наразі ми можемо обрати захистити чисту основу людської творчості.