Питання штучного інтелекту на іспиті адвокатів Каліфорнії викликають правові дискусії

Передумови: Екзамен у лютому 2025 року та використання штучного інтелекту
Наприкінці квітня 2025 року Державна колегія адвокатів Каліфорнії визнала, що вона використала штучний інтелект для створення частини запитань на своєму лютневому іспиті. Підрядник, компанія ACS Ventures, застосувала допомогу ШІ для розробки 23 з 171 оцінювального запитання у форматі вибору. Інші 48 запитань були взяті з оцінювання студентів першого курсу юридичного факультету, а ще 100 розроблені компанією Kaplan Exam Services за контрактом на 8,25 мільйона доларів. Це відкриття стало наслідком численних скарг кандидатів на типографські помилки, плутані формулювання та збої платформи під час гібридного тестування.
Технічний аналіз генерації запитань за допомогою ШІ
Згідно з документами Державної колегії адвокатів, отриманими Ars Technica, ACS Ventures використовувала вдосконалену мовну модель (LLM) на базі GPT-4 Turbo. Процес включав:
- Розробку запитів для націлювання на конкретні юридичні підтематики (контракти, делікти, докази)
- Автоматизоване складання сценарних основ та варіантів відповідей
- Початкове фільтрування для виключення помилок та забезпечення відповідності законодавству
- Інтеграцію з внутрішньою панеллю огляду, яка фіксувала оцінки впевненості моделі та використання токенів
Параметри моделі були обмежені 7 мільярдами ваг та температурою, зафіксованою на рівні 0,2 для детермінованого виходу. ACS Ventures повідомила, що LLM генерувала 80 чернеток запитань на годину, після чого люди-редактори відбирали та вдосконалювали їх до 23, які були затверджені для оцінювання.
Психометричні аспекти та процеси перевірки
Усі запитання, створені за допомогою ШІ, пройшли багатоступеневий процес валідації:
- Панелі валідації контенту (дев’ять викладачів юридичних факультетів, які працюють на добровільних засадах) перевіряли юридичну точність та актуальність
- Експерт у предметній області оцінював кожен елемент на зрозумілість, упередженість та відповідність плану Єдиного адвокатського іспиту
- Аналізи теорії відповідності предмету (IRT) оцінювали складність та показники дискримінації.
Проте критики зазначають, що той самий постачальник (ACS Ventures) розробляв та оцінював свої власні запитання за допомогою ШІ. Доктор Симон Ліанг, психометричка зі Стенфорда, попереджає, що «самоперевірка може спотворити значення альфа Кронбаха, не відображаючи насправді змістову валідність або справедливість для різних демографічних груп».
Юридичні та політичні наслідки
Юридичні освітяни висловили занепокоєння. Мері Басік з Університету Каліфорнії в Ірвіні назвала цю практику «неймовірною», стверджуючи, що ШІ не має тонкого розуміння, необхідного для оцінки мінімальної компетентності. Тим часом Кеті Моран з Юридичної школи Університету Сан-Франциско підкреслила потенційний конфлікт інтересів: «Той, хто розробляє та затверджує, ніколи не повинен бути однією і тією ж особою, особливо коли дистанційне тестування підвищує ризики безпеки».
15 червня Верховний суд Каліфорнії провів слухання щодо можливості зобов’язати проведення стороннього аудиту контенту, створеного за допомогою ШІ. Суд також розглянув пропозицію про інтеграцію біометричного контролю для дистанційних іспитів, враховуючи захист конфіденційності кандидатів відповідно до державних законів про захист даних.
Наступні кроки та вплив на галузь
Комітет з іспитів адвокатів зібрався 5 травня та рекомендував коригування оцінок для кандидатів лютневого іспиту. Вони відмовилися повернутися до Мультиштатного адвокатського іспиту Національної конференції адвокатів, посилаючись на попит на дистанційне тестування — майже 45% заявників віддали перевагу варіантам вдома. Федеративний позов проти Meazure Learning, постачальника дистанційного контролю, залишається невирішеним після того, як суддя відмовився відхилити вимоги щодо збоїв системи та дискримінації.
У майбутньому Державна колегія адвокатів запропонувала пілотний проект для написання запитань за допомогою генеративного ШІ з незалежним наглядом, а також розширені психометричні аудити з використанням інструментів з відкритим кодом. Ця суперечка підкреслює ширші питання щодо ролі ШІ у високострокових тестуваннях і акцентує на необхідності прозорих управлінських структур, оскільки навчальні заклади впроваджують технології машинного навчання.