Дослідження LM Arena: виявлення упереджень та переваг тестування

Гонка за створення дедалі більш потужних великих мовних моделей (LLMs) призвела до появи безлічі стандартів оцінювання та рейтингів. Серед них LM Arena, запущена в середині 2023 року в UC Berkeley, стала де-факто “перевіркою настрою” для порівняння чат-ботів через оцінки людей в парному форматі. Однак нове багатостороннє дослідження звинувачує LM Arena в систематичній упередженості на користь комерційних моделей, ставлячи під сумнів справедливість та відтворюваність її рейтингів.
Походження та архітектура LM Arena
Основний механізм LM Arena простий: користувачі подають однакові запити до двох анонімних моделей через інтерфейс Chatbot Arena, оцінюють результати, а система агрегує перемоги, поразки та бали за системою Ело. Під капотом платформи використовується RESTful API (ендпоінти на кшталт /api/v1/compare та /api/v1/leaderboard) та легка база даних PostgreSQL, розгорнута на AWS для збереження даних. Комбінація стратифікованого випадкового відбору та кругового розподілу визначає, які моделі змагатимуться одна з одною, прагнучи мінімізувати варіацію вибірки.
Ключові висновки: Привілеї приватного тестування та дисбаланс даних
- Вибір приватних варіантів: Дослідження, проведене дослідниками з Cohere Labs, Принстона та MIT (попередня публікація на arXiv), документує, що комерційні команди можуть завантажувати та тестувати десятки приватних варіантів моделей перед вибором найкращого для публічного рейтингу. Наприклад, Meta протестувала 27 внутрішніх версій Llama-4, а Google запустив 10 варіантів Gemini та Gemma в першому кварталі 2025 року.
- Диспропорційний відбір: Аналіз логів API показує, що Google та OpenAI разом складають понад 34 відсотки всіх даних битв, тоді як відкриті конкуренти, такі як OPT від Meta або GPT-Neo2 від EleutherAI, мають значно менше матчів. Менші команди повідомляють, що їх кількість оцінок у середньому на 40 відсотків менша, ніж у провідних компаній.
- Непрозора реклама: Приватні релізи, такі як ChatGPT та Claude, отримують спеціальні блоги, публікації в соціальних мережах та навчальні відео, тоді як відкриті моделі часто не мають подібної експозиції, що спотворює залучення користувачів та обсяг голосування.
Технічний аналіз: Метрики оцінювання та упередженість вибірки
Хоча рейтинги Ело призначені для відображення відносної сили, вони припускають однорідний відбір — кожен учасник повинен змагатися з подібними суперниками. На практиці, поточний алгоритм вибірки LM Arena надає більшу вагу моделям з високими рейтингами Ело, щоб підвищити порівняльну точність у верхній частині рейтингу. Ця адаптивна вибірка покращує статистичну впевненість для провідних моделей, але позбавляє середньорівневі та відкриті системи даних для оцінювання, що ускладнює визначення ранжування.
Крім того, платформа повідомляє лише про коефіцієнт перемог і рейтинг Ело фінальної публічної версії. У стандартній методології A/B-тестування варто було б відстежувати варіацію серед усіх протестованих версій і застосовувати корекції Бонферроні для множинного тестування гіпотез. Відсутність прозорості LM Arena щодо наборів даних до релізу та історій варіантів порушує ці найкращі практики, дозволяючи командам надмірно підлаштовувати запити або виконувати перебір гіперпараметрів у приватному режимі.
Вплив на відкриті моделі та дослідницьку спільноту
Проекти відкритих LLM покладаються на зворотний зв’язок з боку спільноти для ітерацій над навчальними даними, рецептами тонкої настройки та оптимізаціями висновків. Завдяки обмеженій експозиції в LM Arena вони отримують менше реальних взаємодій із запитами, що уповільнює покращення безпеки та різноманітності відповідей. Експерти застерігають, що це може створити вакуум зворотного зв’язку: менш оцінені моделі не покращуються, що підштовхує розробників до комерційних рішень, які домінують у дискусіях.
Доктор Аніка Рао, дослідниця етики штучного інтелекту в MIT, зазначає: “Стандарти оцінювання визначають, куди команди виділяють бюджети на обчислення та анотацію. Якщо відкриті моделі не оцінюються справедливо, ми ризикуємо задушити інновації та відтворюваність в академічних дослідженнях.”
Відповідь LM Arena та запропоновані реформи
Оператори LM Arena заперечують, що приватне тестування було розкрито в технічному блозі в березні 2024 року і що воно покликане допомогти командам налагодити затримки, токенізацію та фільтри безпеки перед публічним випуском. Вони стверджують, що непублічні версії приховані виключно для зручності користувачів і що розробники не обирають, який варіант з’являється — натомість система автоматично просуває останній семантичний тег версії.
Щодо питання упередженості вибірки, команда LM Arena зобов’язалася запустити нову версію свого алгоритму матчмейкінгу в третьому кварталі 2025 року. Заплановані функції включають:
- Справедливі квоти вибірки: Обмеження максимальної кількості протистоянь на модель на тиждень, щоб забезпечити мінімальний рівень оцінок для менших учасників.
- Прозорий інформаційний панель: Публікація родоводу варіантів та базової статистики для всіх протестованих моделей, як публічних, так і приватних.
- Адаптивний егалітарний режим: Додатковий параметр, що забезпечує рівномірну випадкову пару серед усіх моделей, корисний для стрес-тестування недопредставлених систем.
Майбутні напрямки: до справедливіших стандартів оцінювання
Окрім LM Arena, спільнота штучного інтелекту досліджує гібридні оцінювальні комплекси, які поєднують людські оцінки з автоматизованими метриками, такими як ROUGE, BERTScore та перевірки фактичної узгодженості, підтримувані окремими моделями перевірки. Платформи, такі як HELM (Голістична оцінка мовних моделей) та GEMBench, прагнуть інтегрувати розподілену продуктивність у сотнях завдань, мов і доменів.
У довгостроковій перспективі, федеративні оцінювальні структури, що використовують безпечні обчислення для кількох учасників, можуть дозволити оцінку між моделями без розкриття комерційних ваг або тестових наборів. Такі системи забезпечать, щоб кожен учасник, відкритий чи закритий, мав рівні умови в зворотному зв’язку.
Висновок
Нове дослідження піднімає серйозні питання щодо цілісності рейтингу LM Arena, підкреслюючи, як приватне тестування варіантів і дисбаланси вибірки можуть спотворювати громадське сприйняття можливостей LLM. З формуванням корпоративних структур та потенційними комерційними інвестиціями на горизонті, LM Arena повинна впровадити надійні заходи прозорості та справедливості, інакше ризикує підірвати довіру серед дослідників і розробників. Оскільки спільнота прагне до більш суворих і інклюзивних стандартів оцінювання, дебати навколо “настроїв” та метрик визначатимуть наступне покоління розмовного штучного інтелекту.