AXRP Епізод 41: Лі Шаркі про декомпозицію на основі атрибуції

Опубліковано 3 червня 2025 року
Вступ
Інтерпретованість у глибокому навчанні залишається важливим напрямком досліджень. У 41 епізоді AXRP ведучий Даніел Філан спілкується з Лі Шаркі (Goodfire), щоб розглянути Декомпозицію параметрів на основі атрибуції (APD) — новий підхід, який виявляє приховані обчислювальні механізми, розкладаючи вагові параметри, а не активації.
Основи APD
APD переформулює механістичну інтерпретованість через трьохчленну задачу оптимізації:
- Вірність: Декомпозовані компоненти повинні точно відповідати оригінальним вагам моделі (≤1e-5 MSE).
- Мінімальність: Лише top-k причинно-значущих компонентів активуються для кожного входу, що контролюється через подвійні прямі та зворотні проходи.
- Простота: Кожен компонент мінімізує безперервний проксі для рангу матриці (норма Шаттена 1), що сприяє низькорозмірним лінійним перетворенням.
Практична вірність
Всі матриці шарів сплющуються в один вектор W. Ми ініціалізуємо вектори параметрів C {ΔW₁…ΔW_C}, сума яких наближається до W. Стандартна L2 втрата на відтворених вагах забезпечує функціональну еквівалентність на валідаційному наборі.
Мінімальність через Top-k Атрибуцію
APD обчислює атрибуції на рівні компонентів, беручи скалярний добуток кожного ΔW з градієнтом виходів мережі. Вибираючи лише k компонентів з найбільшими абсолютними атрибуціями для кожного елемента партії, APD забезпечує розріджений механізмний вузький прохід — аналогічно розрідженим автоенкодерам у просторі параметрів.
Простота через Низькорозмірні Компоненти
Простота вимірюється через суму сингулярних значень (норма Шаттена 1) для кожної матриці ваг компонентів. Мінімізація цієї норми заохочує компоненти працювати в якомога меншій кількості вимірів — наближаючись до рангово-обмежених, інтерпретованих лінійних операцій.
Експериментальна Валідація
Іграшкові Моделі Суперпозиції
У малих синтетичних автоенкодерах (5 ознак → 2 приховані одиниці) APD відтворює кожен рядок справжнього вбудовування точно як незалежний механізм. При масштабуванні до 40 → 10, він досягає 98% відновлення справжніх позитивів розріджених ознак при k=5 з ≤10% чутливості до гіперпараметрів.
Стиснене Обчислення в ReLU Мережах
APD також виявляє, що МЛП, навчена для реалізації 100 паралельних функцій ReLU, може стиснути їх у 50 прихованих нейронів, розподіляючи параметри в непересічних низькорозмірних підпросторах. Це підтверджує здатність моделі обчислювати більше функцій, ніж її ширина могла б на перший погляд дозволити, використовуючи розріджені активації та нелінійне фільтрування.
Масштабованість та Оптимізації Продуктивності
Доказ концепції APD передбачає витрати в 4 рази більше (два прямі + два зворотні проходи) і утримує C повних реплік моделі. Триває дослідження в напрямках:
- Об’єднання Компонентів: Об’єднати майже надлишкові ΔWᵢ для зменшення використання пам’яті.
- Причинна Атрибуція: Замінити градієнти на контрфактичні або оцінки значення Шеплі для зменшення насичення в увазі та гейтингу.
- Шарова APD: Декомпозувати за шаром або модулем для використання паралелізму та зменшення розмірності вектора.
Порівняння з Методи на Основі Активацій
На відміну від розріджених автоенкодерів або транскодерів, які працюють з прихованими активаціями, підхід APD у просторі параметрів пропонує:
- Незалежність від Основи: Без припущення про “нейронну” основу — APD відкриває власну.
- Механізми від Початку до Кінця: Компоненти відображають повні обчислювальні підрутини, а не лише репрезентаційні знімки.
- Агностичність до Архітектури: Єдиний метод поширюється на трансформери, SSM, CNN та МЛП без спеціальних модифікацій.
Можливі Підводні Камені та Заходи з їх Уникнення
“Атрибуції градієнтів можуть недооцінювати насичені голови уваги або переоцінювати лінійне змішування.”
— Янн ЛеКун, 2024
Рішення включають інтегровані градієнти, інтегроване Шеплі-сканування та прямі абляції з порушенням ваг для надійної оцінки впливу.
Майбутні Напрями
Основні напрямки досліджень APD:
- Мінімальність без Гіперпараметрів: Вивчити пороги активації для кожного компонента з точки зору інформаційного вузького місця, усунувши фіксоване k.
- Перевірка Механізмів: Застосувати APD до реальних відкриттів схем — наприклад, індукційні голови в LLM, модульно-арифметичні МЛП та групово-теоретичні трансформери.
- Інтеграція Інструментів: Вбудувати APD у MATS Interp та інші відкриті набори інструментів для автоматизованого відкриття та документування схем.
Висновок
APD знаменує собою зміни в парадигмі до інтерпретованості, зосереджуючись на вагах, виявляючи низькорозмірні, мінімально достатні підрутини всередині глибоких мереж. З покращенням надійності та масштабованості, APD готовий зробити непрозорі системи штучного інтелекту прозорими на великій шкалі.
Біографії Спікерів
Лі Шаркі — дослідник інтерпретованості в Goodfire та співзасновник Apollo Research. Його ранні роботи над розрідженими автоенкодерами заклали основи для аналізу в просторі параметрів.
Ведучий: Даніел Філан, подкаст AXRP.