Вивчення LLM у контексті як наближення до індукції Соломонова

Головна — News — Вивчення LLM у контексті як наближення до індукції Соломонова

Опубліковано 5 червня 2025 року о 17:45 GMT | Оновлено 10 березня 2026 року

Епістемічний статус: Тижневий емпіричний проект теоретичного комп’ютерного вченого, який тепер доповнений глибшим аналізом, коментарями експертів і останніми досягненнями в масштабуванні моделей та оптимізації висновків.

Передумови

У недавніх публікаціях кілька груп^[1] запропонували, що навчання в контексті великих мовних моделей (LLM) можна розглядати як практичну апроксимацію індукції Соломонова. Індукція Соломонова є оптимальним байєсівським предиктором для всіх обчислювальних гіпотез, але в практиці вона є необчислювальною. Тим часом, LLM виконують задачу предсказання за попередніми даними — прогнозування кожного токена в послідовності на основі його префікса — використовуючи мільярди навчених параметрів та цільову функцію логарифмічної ймовірності, яка близька до логарифмічних втрат, мінімізованих універсальним пріором Соломонова.

З теоретичної точки зору обидві рамки розглядають прогнозування послідовностей за умовами логарифмічних втрат, але вони відрізняються за:

Класом моделей: Соломонов використовує всі обчислювальні програми, зважені на 2^{−|програма|}, тоді як LLM — це трансформери з фіксованою архітектурою, навчені на текстах з Інтернету.

Розподілом даних: Універсальний розподіл проти емпіричного текстового розподілу.

Обчислювальною доцільністю: Індукція Соломонова є необчислювальною; LLM оптимізовані за допомогою паралелізму GPU/TPU та варіантів розрідженої уваги.

Ця стаття містить результати емпіричного тестування: чи може LLM, попередньо навчений на тексті (варіанти GPT-2), прогнозувати зразки, взяті з практичного вибірника універсального розподілу, майже так само добре, як трансформер, явно навчений для апроксимації цього (Трансформер Індукції Соломонова, або SIT).

Related topic

Огляд: Framework Desktop — модульний ПК проти Mac Studio

2025-08-07

Методологія

Ми використали відкритий універсальний вибірник DeepMind, який апроксимує пари програма-вихід до 20 000 токенів. Ключові параметри:

Розмір алфавіту: двійковий {0,1}, щоб усунути артефакти токенізації.

Бюджет вибірника: 10 000 унікальних трас програм за один запуск.

Набір моделей:

SIT: Трансформер, навчений 52 тис. кроків (8 шарів, 512 прихованих, 8 головок).

GPT-2 малий (124M), середній (355M), великий (774M), XL (1.5B) з Hugging Face.

Базові моделі Context-Tree Weighting (CTW): k-Markov моделі для k=0…5.

Оцінювальна метрика: середня кумулятивна натуральна логарифмічна втрата по позиціях у послідовності, нормалізована до виходу {0,1}.

Ми обмежили прогнози LLM до двійкових логітів за допомогою маски softmax та нормалізували ймовірності. Кожна модель споживала бітові дані, розділені комами (наприклад, “0,1,1,0…”). Попередня перевірка показала, що кодування англійських слів (“нуль, один…”) не надало жодних переваг.

Результати

Наступний графік (Рисунок 1) показує логарифмічні втрати на токен проти позиції в послідовності. Варіанти GPT-2 близько відстежують SIT на ранніх токенах, помірно розходячись на довших трасах, де стають більш очевидними навчені індуктивні упередження.

Рисунок 2 ілюструє кумулятивні логарифмічні втрати. Хоча сирий SIT є найкращим в цілому, моделі GPT-2 великого та XL показують результати в межах 5% в середньому, значно перевершуючи базові показники CTW за межами k=2.

Як ідеалізовану довідку, ми обчислили верхню межу логарифмічних втрат Соломонова, використовуючи зразкові довжини програм (які моделі не бачать). Моделі GPT-2 наближаються до цієї межі для послідовностей до 100 токенів, що свідчить про сильну практичну відповідність з універсальним пріором в цьому режимі.

Related topic

Клонування голосу ШІ у атаках вішингу з використанням дипфейків

2025-08-07

Теоретичні основи

Індукція Соломонова зважує кожну гіпотезу P на 2^−K(P), де K(P) — це складність Колмогорова. На практиці трансформери навчаються параметричній апроксимації цього зважування через градієнтний спуск і самостійне увагу. Нещодавня робота Вана та Мея (2025) формалізувала це з’єднання, показавши, що багатоголова увага може реалізувати суміш експертів над предикторами підрядків, аналогічними перерахунку програм.

Думки експертів

Янн ЛеКун, головний науковець AI у Meta: “Цей експеримент емпірично підтверджує, що трансформери інтерналізують стиснуте представлення алгоритмічних пріорів, що підтримує думку про те, що масштабне попереднє навчання апроксимує універсальне моделювання послідовностей.”

Зубін Гахрамані, професор Кембриджського університету: “Конвергенція навчання в контексті та індукції Соломонова підкреслює глибоку синергію між теорією статистичного навчання та теорією алгоритмічної інформації.”

Related topic

Глава Google Search захищає результати ШІ на тлі занепокоєння щодо CTR

2025-08-06

Впливи на узгодженість моделей та безпеку

Якщо LLM імпліцитно апроксимують індукцію Соломонова, вони можуть надавати ненульову ймовірність будь-якій обчислювальній гіпотезі. Це має дві сторони:

Різноманіття міркувань: Моделі можуть генерувати нові, малоймовірні гіпотези, підвищуючи стійкість.

Зловмисні спекуляції: Необмежені пріори можуть призвести до галюцинацій або небезпечних послідовностей планування.

Засоби пом’якшення включають калібрування оцінки невизначеності (

Майбутні напрямки та відкриті питання

Закони масштабування: Як зменшується розрив логарифмічних втрат із збільшенням розміру моделі понад 10B параметрів?

Альтернативні архітектури: Чи краще модель суміші експертів або розріджені трансформери відстежують ваги Соломонова?

Обчислювально ефективне вибіркове: Чи можемо ми апроксимувати універсальну індукцію на льоту під час висновку?

Related topic

Уряд США впроваджує ChatGPT Enterprise за $1 для кожного агентства

2025-08-06

Висновки

Наше розширене емпіричне дослідження підтверджує, що попередньо навчені LLM, без специфічного налаштування під завдання, демонструють вражаючу близькість до спеціалізованого трансформера індукції Соломонова на випадкових двійкових програмах. Більші моделі показують сильнішу узгодженість послідовностей на великих відстанях, що вказує на більш ефективну імпліцитну індукцію програм. Хоча залишається відкритим питання, чи є навчання в контексті індукцією Соломонова або ж це окремий механізм, який випадково збігається, ця робота з’єднує теорію алгоритмічної інформації та сучасне глибоке навчання в практично вимірювальний спосіб.

[1] Ван, Дж. та Мей, Л. (2025). Великі мовні моделі як обчислювальні апроксимації індукції Соломонова. arXiv:2505.15784.

[2] Янг, Н. та Вітброк, М. (2024). Трансформери як апроксимації індукції Соломонова. arXiv:2408.12065.

[3] Легг, С. (2006). Чи існує елегантна універсальна теорія прогнозування? ALT’06.