Виклики ШІ у прогнозуванні активності генів

Деякі інструменти штучного інтелекту ще не розуміють біологію
Незважаючи на вражаючі досягнення штучного інтелекту в галузі складання білків і проєктування ферментів, нещодавні дослідження показують, що фундаментальні моделі, навчені на даних транскриптоміки окремих клітин, не перевершують прості базові моделі при прогнозуванні змін експресії генів. Це відкриття підкреслює надзвичайну складність регуляції клітин і попереджає про перебільшення можливостей штучного інтелекту в геноміці.
Штучний інтелект та активність генів: поточний стан
Дані геномного масштабу — від масового RNA-seq до RNA-seq окремих клітин та мультиплексованих Perturb-seq експериментів — надають безпрецедентний погляд на те, як гени регулюються в різних умовах. Дослідники використовували архітектури трансформерів, графові нейронні мережі та варіаційні автокодери для створення так званих фундаментальних моделей окремих клітин. Ці моделі попередньо навчені на мільйонах профілів експресії генів клітин у ненаглядному режимі з метою захоплення загального уявлення про клітинні стани.
“Фундаментальні моделі мають потенціал для генерування гіпотез в інсіліко, але їх прогностична сила в експериментах з порушеннями залишається незначною,” зазначає доктор Аванті Рао, обчислювальний біолог у Бродівському інституті.
Невтішні результати у прогнозуванні Perturb-seq
Константин Аhlmann-Eltze, Вольфганг Хубер та Саймон Андерс (Nature Methods, 2025) систематично оцінили кілька провідних AI-пакетів на їх здатність прогнозувати зміни експресії генів після активації одного або двох генів за допомогою CRISPR. Вони порівняли результати моделей з двома наївними базовими моделями:
- Нульова база: прогнозувати відсутність змін в експресії генів.
- Адитивна база: підсумовувати індивідуальні ефекти кожного порушення одного гена.
У 100 експериментах активації одного гена та 62 експериментах активації двох генів всі фундаментальні моделі показали значно вищу середню квадратичну помилку, ніж адитивна база. Зокрема, вони рідко фіксували синергічні або антагоністичні взаємодії — ключові ознаки генетичних регуляторних мереж.
Технічні виклики в моделюванні генетичних регуляторних мереж
Цей недолік зумовлений кількома факторами:
- Вимірність і розрідженість: Дані окремих клітин часто охоплюють 20 000 генів, але охоплюють лише частину типів клітин, що призводить до високорозмірних, розріджених матриць, які ускладнюють оптимізацію глибокого навчання.
- Нелінійна динаміка: Зворотні зв’язки, посттрансляційні модифікації та епігенетичні стани вводять складні, залежні від часу поведінки, які статичні моделі не можуть легко захопити.
- Відсутність інтеграції мультиоміки: Фундаментальні моделі, навчені виключно на RNA-даних, ігнорують доступність хроматину (ATAC-seq), модифікації гістонів та просторовий контекст, які спільно формують транскрипційні результати.
Інтеграція мультиоміки та просторових даних
Нові дослідження свідчать про те, що інтеграція ортогональних типів даних може значно підвищити точність прогнозів:
- Хроматин та епігенетика: Моделі, такі як EpiGenFormer, інтегрують профілі ATAC-seq та ChIP-seq через механізми уваги для виведення взаємодій регуляторних елементів.
- Просторова транскриптоміка: Нові графові структури вбудовують координати місцезнаходження для моделювання ефектів сигналізації між клітинами на експресію генів.
- Протеоміка та метаболоміка: Гібридні мультимодальні мережі поєднують транскриптні та білкові дані, щоб відобразити посттранскрипційну регуляцію.
Недавній препринт з лабораторій CZI Стенфорда демонструє підвищення точності прогнозування порушень на 30% при інтеграції мультиомічних характеристик у базову архітектуру графового трансформера (bioRxiv, 2025).
Думки експертів та погляди індустрії
“Нам потрібні гібридні моделі, які поєднують механістичну інференцію мережі з глибоким навчанням,” стверджує доктор Марія Струнц, керівник обчислювальної геноміки в Genentech. “Чисто дані-орієнтовані підходи досягають межі, якщо не враховують причинність.”
Компанії, такі як Deep Genomics та Insitro, тепер інтегрують біохімічні знання — такі як мотиви зв’язування транскрипційних факторів та контакти підсилювача з промотором — у свої AI-процеси для покращення інтерпретованості та прогностичної сили.
Майбутні напрямки: гібридний та фізично обґрунтований ШІ
Щоб подолати розрив між абстрактними векторами та біологічною реальністю, дослідники вивчають:
- Фізично обґрунтовані нейронні мережі: кодують диференціальні рівняння, що регулюють кінетику генетичної регуляції, у функцію втрат.
- Рамки причинного висновування: використовують do-калькулюс та структурні рівняння для розмежування прямих і непрямих взаємодій генів.
- Трансферне навчання: тонко налаштовують попередньо навчені моделі на невеликих, але якісних наборах даних про порушення, щоб захопити рідкісні, але критично важливі синергії.
З розвитком цієї галузі співпраця між експериментальними біологами та фахівцями з ШІ буде надзвичайно важливою. Великомасштабні консорціуми, такі як Human Cell Atlas та ENCODE, генерують багатші мультимодальні набори даних, які обіцяють стимулювати моделі наступного покоління.
Висновок
Хоча фундаментальні моделі вже трансформували такі сфери, як прогнозування структури білків, їх нинішні версії ще не готові замінити експерименти на лабораторному столі в транскриптоміці. Подальші інновації в архітектурах моделей, інтеграції даних та підходах, орієнтованих на причинність, будуть критично важливими для розблокування повного потенціалу ШІ у розумінні та маніпуляції активністю генів.