Дослідження Apple розпалює дискусії про здібності штучного інтелекту
На початку червня 2025 року дослідницький підрозділ Apple в галузі штучного інтелекту опублікував знакову статтю, яка детально аналізує, чи здатні сучасні великі мовні моделі (LLMs) дійсно “мислити” під час вирішення складних задач, чи просто відтворюють шаблони з величезних обсягів навчальних даних. Стаття під назвою “Ілюзія мислення: Розуміння сильних та слабких сторін моделей міркування через призму складності задач” надає нові емпіричні дані про те, що Apple називає імітаційними моделями міркування (SR) та їх продуктивність в умовах зростаючої складності задач.
Огляд дослідження
Дослідження очолювали Паршин Шоджає та Іман Мірзаде, за участю Кевана Алізаде, Максвелла Хортона, Самі Бенджіо та Мехрдада Фараджтабар. Команда Apple спирається на попередні роботи математичної олімпіади США (USAMO), яка виявила успішність менше 5% при вирішенні нових задач на доведення. Дослідження фокусується на Великих моделях міркування (LRMs) — LLM, налаштованих за допомогою навчання з підкріпленням на основі людського зворотного зв’язку (RLHF), щоб генерувати ланцюги міркувань, які, на перший погляд, відображають логічне, покрокове мислення.
- Визначення: LRM генерують розгорнуте текстове “мислення” перед тим, як надати остаточні відповіді.
- Гіпотеза: Якщо моделі дійсно міркують, їх продуктивність повинна пропорційно зростати зі складністю задач.
- Методологія: Оцінка класичних головоломок на широкому спектрі складності.
Експериментальна структура на основі головоломок
Дослідники Apple підготували чотири класичні завдання з міркування, поступово ускладнюючи їх:
- Вежа Ханоя: Переміщення N дисків між трьома стовпчиками за правилом, що більший диск не може бути зверху меншого. Apple тестував N=1 до N=20 (понад 1 мільйон переміщень).
- Стрибки в шашках: Послідовні усунення на дошці 8×8, які стають NP-складними варіантами при збільшенні розміру дошки.
- Перехід через річку: Транспортні обмеження (наприклад, вовк, коза, капуста) з експоненційним зростанням простору станів.
- Світ блоків: Складання кольорових кубиків для досягнення цільових конфігурацій за обмеженими наборами дій.
Складність та динаміка токенів
У рамках цих головоломок Apple вимірювала три параметри:
- Кількість переміщень: Від кількох до понад 106 необхідних кроків.
- Довжина ланцюга міркувань: Кількість токенів до 100 тисяч у деяких тестах GPT-4 Turbo.
- Обчислювальні ресурси для висновків: GPU-кластери з вузлами A100/H100, підключеними через NVLink, що вимірюють затримку в порівнянні з глибиною міркування.
Ключові висновки
- У нових математичних доведеннях більшість LRM отримала результат менше 5%, що збігається з результатами USAMO; лише одна модель досягла 25%, без ідеальних розв’язків у ~200 спробах.
- У Вежі Ханоя моделі SR “перемірковують” прості приклади (N≤3) і показують гірші результати, ніж “стандартні” LLM, такі як GPT-4o, перевертаючи лише 3 диски проти ідеальних рішень від GPT-4o.
- У помірно складних головоломках (N=5–9) моделі SR перевершили стандартні моделі на 10–15% у правильних послідовностях рухів.
- При N≥10 обидва класи моделей падають до 0% — ланцюги міркувань перериваються занадто рано, незважаючи на достатній обсяг пам’яті GPU та бюджет токенів.
- Apple виявила “контрінтуїтивний межу масштабування”: моделі збільшують кількість токенів міркувань до певного порогу складності, а потім різко зменшують їх, навіть за наявності невикористаного контексту.
- Специфічні для завдання моделі невдач — Claude 3.7 Sonnet Thinking досяг 100 правильних ходів у Ханої, але зазнав невдачі після <5 ходів у простішій головоломці з переходом через річку — це може свідчити про те, що проблеми з міркуванням залежать від специфіки задачі, а не лише від обчислювальних можливостей.
Реакції експертів та суперечливі інтерпретації
“Дійсно соромно, що LLM не можуть надійно вирішити задачу Ханоя,” — написав Гарі Маркус у Twitter, підкреслюючи, що алгоритмічні розв’язки існують з 1957 року, а доступні кодові фрагменти онлайн не допомогли моделям SR, коли їх надали як чіткі інструкції.
Маркус, який здавна скептично ставиться до нейронних мереж, вважає дослідження Apple надійною емпіричною підтримкою його критики, що LLM не мають загальної здатності до міркування за межами навчальних даних. Однак інші стверджують, що Apple просто виміряла інженерні обмеження, а не фундаментальні недоліки міркування.
“Якщо ви скажете мені вирішити задачу, яка вимагає години роботи з олівцем і папером, але дасте лише п’ять хвилин, я вдаватимусь до евристик,” — зазначив Кевін А. Брайан, економіст з Торонто, припускаючи, що RLHF карає за довгі обчислення під час висновків.
Програміст Шон Годеке зазначив у своєму блозі, що DeepSeek-R1 за замовчуванням відмовляється від головоломок, які вимагають понад 1,000 переміщень, обираючи скорочення замість брутфорсу — таким чином змішуючи відмову з нездатністю. Незалежний дослідник Саймон Віллісон додав, що скорочення контексту в стандартних LLM часто обмежує довжину ланцюга міркувань, ускладнюючи висновки про “міркування”.
Додатковий аналіз: апаратні та обчислювальні обмеження
Сучасні розгортання LLM працюють на GPU-кластерах з сотнями гігабайтів пам’яті HBM2e та високошвидкісними інтерконектами NVLink. Незважаючи на значні обчислювальні ресурси, кожен додатковий токен у ланцюзі міркувань додає накладні витрати на синхронізацію CPU-GPU та затримку висновків. Бенчмарки з внутрішнього 128K context pilot OpenAI показують лінійне зниження продуктивності за межами 50 тисяч токенів, що змушує виробничі системи дотримуватися бюджетів токенів на рівні 8–32 тисяч, щоб підтримувати затримку менше 10 мс на токен. Стаття Apple виявляє, як такі бюджети призводять до скорочених ланцюгів міркувань в умовах реальних обмежень якості обслуговування.
Нові парадигми: нейро-символічні гібриди
Щоб подолати проблеми чистого співпадіння шаблонів, дослідники інтегрують символічні системи через API або інтерфейси викликів функцій. Наприклад:
- Виклик функцій OpenAI: Оркеструє зовнішні Python-розв’язувачі для дискретного пошуку та планування.
- IBM NeSyCo: Поєднує латентні ознаки LLM з правилами в стилі Prolog.
- Meta SymbolicGPT: Вбудовує невеликий SAT-розв’язувач у голови уваги трансформера для наближення до зворотного трасування.
Майбутні напрямки та наслідки
Дослідження Apple та результати USAMO підкреслюють, що нинішні трюки з ланцюгами міркувань не є готовим шляхом до загального інтелекту. Потенційні напрямки досліджень включають:
- Нейронні архітектури з доповненою пам’яттю: Зовнішні диференційовані структури пам’яті для зберігання проміжних станів.
- Динамічний синтез алгоритмів: Мета-навчальні структури, які складають підпрограми на льоту, аналогічно до індукції програм.
- Адаптивне бюджетування токенів: Сигнали підкріплення, які оптимізують глибину міркування в реальному часі.
Висновок
Хоча дослідження Apple “Ілюзія мислення” пропонує сувору оцінку меж міркування LLM, воно також підкреслює, що ці системи залишаються надзвичайно корисними в програмуванні, технічному письмі та генерації ідей — за умови, що користувачі усвідомлюють їхні обмеження токенів, межі контексту та схильність до вигадування. З майбутніми досягненнями в довжині контексту (наприклад, вікно 128K GPT-4 Turbo) та нейро-символічною інтеграцією, наступне покоління ШІ може нарешті подолати прірву між співпадінням шаблонів та справжнім систематичним міркуванням.