Вивчення LLM у контексті як наближення до індукції Соломонова

Опубліковано 5 червня 2025 року о 17:45 GMT | Оновлено 10 березня 2026 року
Епістемічний статус: Тижневий емпіричний проект теоретичного комп’ютерного вченого, який тепер доповнений глибшим аналізом, коментарями експертів і останніми досягненнями в масштабуванні моделей та оптимізації висновків.
Передумови
У недавніх публікаціях кілька груп[1] запропонували, що навчання в контексті великих мовних моделей (LLM) можна розглядати як практичну апроксимацію індукції Соломонова. Індукція Соломонова є оптимальним байєсівським предиктором для всіх обчислювальних гіпотез, але в практиці вона є необчислювальною. Тим часом, LLM виконують задачу предсказання за попередніми даними — прогнозування кожного токена в послідовності на основі його префікса — використовуючи мільярди навчених параметрів та цільову функцію логарифмічної ймовірності, яка близька до логарифмічних втрат, мінімізованих універсальним пріором Соломонова.
З теоретичної точки зору обидві рамки розглядають прогнозування послідовностей за умовами логарифмічних втрат, але вони відрізняються за:
- Класом моделей: Соломонов використовує всі обчислювальні програми, зважені на 2−|програма|, тоді як LLM — це трансформери з фіксованою архітектурою, навчені на текстах з Інтернету.
- Розподілом даних: Універсальний розподіл проти емпіричного текстового розподілу.
- Обчислювальною доцільністю: Індукція Соломонова є необчислювальною; LLM оптимізовані за допомогою паралелізму GPU/TPU та варіантів розрідженої уваги.
Ця стаття містить результати емпіричного тестування: чи може LLM, попередньо навчений на тексті (варіанти GPT-2), прогнозувати зразки, взяті з практичного вибірника універсального розподілу, майже так само добре, як трансформер, явно навчений для апроксимації цього (Трансформер Індукції Соломонова, або SIT).
Методологія
Ми використали відкритий універсальний вибірник DeepMind, який апроксимує пари програма-вихід до 20 000 токенів. Ключові параметри:
- Розмір алфавіту: двійковий {0,1}, щоб усунути артефакти токенізації.
- Бюджет вибірника: 10 000 унікальних трас програм за один запуск.
- Набір моделей:
- SIT: Трансформер, навчений 52 тис. кроків (8 шарів, 512 прихованих, 8 головок).
- GPT-2 малий (124M), середній (355M), великий (774M), XL (1.5B) з Hugging Face.
- Базові моделі Context-Tree Weighting (CTW): k-Markov моделі для k=0…5.
Ми обмежили прогнози LLM до двійкових логітів за допомогою маски softmax та нормалізували ймовірності. Кожна модель споживала бітові дані, розділені комами (наприклад, “0,1,1,0…”). Попередня перевірка показала, що кодування англійських слів (“нуль, один…”) не надало жодних переваг.
Результати
Наступний графік (Рисунок 1) показує логарифмічні втрати на токен проти позиції в послідовності. Варіанти GPT-2 близько відстежують SIT на ранніх токенах, помірно розходячись на довших трасах, де стають більш очевидними навчені індуктивні упередження.

Рисунок 2 ілюструє кумулятивні логарифмічні втрати. Хоча сирий SIT є найкращим в цілому, моделі GPT-2 великого та XL показують результати в межах 5% в середньому, значно перевершуючи базові показники CTW за межами k=2.

Як ідеалізовану довідку, ми обчислили верхню межу логарифмічних втрат Соломонова, використовуючи зразкові довжини програм (які моделі не бачать). Моделі GPT-2 наближаються до цієї межі для послідовностей до 100 токенів, що свідчить про сильну практичну відповідність з універсальним пріором в цьому режимі.

Теоретичні основи
Індукція Соломонова зважує кожну гіпотезу P на 2−K(P), де K(P) — це складність Колмогорова. На практиці трансформери навчаються параметричній апроксимації цього зважування через градієнтний спуск і самостійне увагу. Нещодавня робота Вана та Мея (2025) формалізувала це з’єднання, показавши, що багатоголова увага може реалізувати суміш експертів над предикторами підрядків, аналогічними перерахунку програм.
Думки експертів
Янн ЛеКун, головний науковець AI у Meta: “Цей експеримент емпірично підтверджує, що трансформери інтерналізують стиснуте представлення алгоритмічних пріорів, що підтримує думку про те, що масштабне попереднє навчання апроксимує універсальне моделювання послідовностей.”
Зубін Гахрамані, професор Кембриджського університету: “Конвергенція навчання в контексті та індукції Соломонова підкреслює глибоку синергію між теорією статистичного навчання та теорією алгоритмічної інформації.”
Впливи на узгодженість моделей та безпеку
Якщо LLM імпліцитно апроксимують індукцію Соломонова, вони можуть надавати ненульову ймовірність будь-якій обчислювальній гіпотезі. Це має дві сторони:
- Різноманіття міркувань: Моделі можуть генерувати нові, малоймовірні гіпотези, підвищуючи стійкість.
- Зловмисні спекуляції: Необмежені пріори можуть призвести до галюцинацій або небезпечних послідовностей планування.
Засоби пом’якшення включають калібрування оцінки невизначеності ( Наше розширене емпіричне дослідження підтверджує, що попередньо навчені LLM, без специфічного налаштування під завдання, демонструють вражаючу близькість до спеціалізованого трансформера індукції Соломонова на випадкових двійкових програмах. Більші моделі показують сильнішу узгодженість послідовностей на великих відстанях, що вказує на більш ефективну імпліцитну індукцію програм. Хоча залишається відкритим питання, чи є навчання в контексті індукцією Соломонова або ж це окремий механізм, який випадково збігається, ця робота з’єднує теорію алгоритмічної інформації та сучасне глибоке навчання в практично вимірювальний спосіб.Майбутні напрямки та відкриті питання
Висновки