Робот на чотирьох лапах з штучним інтелектом вражає в бадмінтоні

Вступ
Роботизовані платформи, такі як Spot від Boston Dynamics, Digit від Agility Robotics та ANYmal від ANYbotics, продемонстрували вражаючу спритність і баланс. Проте, перенесення цих навичок пересування на швидкі візуально-моторні реакції, необхідні для таких видів спорту, як бадмінтон, залишається викликом у сфері робототехніки. Дослідники з Лабораторії роботизованих систем ETH Zurich створили квадрупед, який грає в бадмінтон, використовуючи штучний інтелект та поєднуючи високопродуктивне апаратне забезпечення з глибоким підкріплювальним навчанням для переслідування та повернення воланів.
Специфікації роботизованої платформи та апаратного забезпечення
- Основний робот: ANYmal C від ANYbotics — вага 50 кг, чотири ноги з серійно-еластичними актуаторами, пікова сила 1.5 кН на ногу, гнучка конструкція.
- Маніпуляційний модуль: 6-осний роботизований маніпулятор від Duatic, момент сили на суглобі 2 Нм, максимальна кутова швидкість 1.2 м/с, спеціальний кінцевий ефектор, що кріпить стандартну бадмінтонну ракетку з вуглецевого волокна.
- Сенсорний модуль: Стереокамера (60 Гц при 640×480 пікселів, базова лінія 50 мм); ІМУ (1 кГц); за бажанням, прототип камери подій (латентність в мікросекундах, 1280×720 пікселів) для майбутніх оновлень.
- Обчислювальна система: NVIDIA Jetson AGX Xavier (32 TOPS), що працює під управлінням ROS 2, з CUDA-ускореним візуальним потоком та інференцією політики на основі PyTorch на частоті 100 Гц.
Архітектура контролю та навчальна структура
Замість того, щоб покладатися виключно на класичний модельний MPC, команда обрала підхід безмодельного підкріплювального навчання. Під час розробки:
- Створили високоточну цифрову копію в NVIDIA Isaac Sim, моделюючи гнучкість ніг, динаміку актуаторів та розподіл маси ракетки.
- Використали Soft Actor-Critic (SAC) з випадковістю в домені щодо маси воланів (4.75–5.5 г), коефіцієнтів повітряного опору та тертя в суглобах.
- Навчання тривало 200 мільйонів кроків у середовищі протягом 10,000 епізодів, кожен з яких вимагав шість послідовних повернень.
- Допоміжна мережа сприйняття (з основою ResNet-18) була спільно навчена для прогнозування 3D-траєкторій воланів з стерео-входу з підсиленням шуму Гаусса.
Оцінка продуктивності
“Метою було поєднати сприйняття та рух тіла з людськими рефлексами”, зазначив доктор Юнтао Ма, провідний робототехнік ETH Zurich.
У лабораторних випробуваннях проти середніх гравців, ANYmal досяг стабільного рівня успіху приблизно 60% у легких ралі. Основні спостереження:
- Час реакції: ~350 мс від моменту випуску волана до команди управління, в порівнянні з 120–150 мс у елітних спортсменів.
- Стратегія руху: Вивчена позиція в центрі корту після повернення, що відображає людські тактики.
- Управління ризиками: Рефлекс уникнення падіння та безпечні межі моменту сили запобігали самодамаженню під час швидких ривків.
Технічні виклики
Сприйняття та розмиття руху
Швидке пересування викликає тремтіння камери та розмиття руху, що погіршує відстеження об’єктів. Частота кадрів стереосистеми 60 Гц та механізм зсуву викликали до 10 см помилки локалізації при швидкості розгону 4 м/с.
Обчислювальні затримки
Вбудований GPU Jetson Xavier обробляє мережі зору та управління на частоті 100 Гц, але загальна затримка досягає 50 мс, що вводить запізнення в замкнуту систему управління.
Оновлення апаратного забезпечення та сприйняття
- Сенсори на основі подій: Інтеграція сенсорів Prophesee Gen4 для латентності в мкс та відсутності розмиття руху, що покращує виявлення воланів на високих кутових швидкостях.
- Прискорення Edge AI: Оновлення до NVIDIA Jetson Orin NX (100 TOPS) або спеціалізованих TPU модулів для зменшення затримки інференції вдвічі.
- Високопотужні актуатори: Актуатори наступного покоління з серійно-еластичними властивостями, що забезпечують вихід 2 кН та контрольні цикли 1 кГц для зменшення затримки в суглобах.
Думки експертів щодо низьколатентного сприйняття
Доктор Мікаель Лунд, старший інженер в провідній компанії з робототехніки: “Камери подій революціонізують робототехніку в спорті, зменшуючи латентність сприйняття на порядок. У поєднанні з прогнозуючими моделями кінематики супротивника, час реакції менше 100 мс стає досяжним.”
Майбутні напрямки та застосування
Рамки ETH Zurich — балансуючи між шумом сприйняття та спритністю управління — можуть бути застосовані до:
- Динамічної логістики складів: швидке підбирання та розміщення в заплутаних, рухомих середовищах.
- Пошуку та рятуванню: спритна навігація в зонах з уламками та непередбачуваними перешкодами.
- Співпраці людини та робота: завдання передачі та ловлі на виробничих лініях.
Висновок
Хоча нинішня продуктивність ANYmal у бадмінтоні залишається на аматорському рівні, інтеграція сучасних візуальних сенсорів, високопродуктивних обчислень та глибокого підкріплювального навчання є значним кроком у напрямку створення спортивних роботів, що реагують на рефлекси. Майбутні оновлення в сприйнятті та актуаторній системі можуть звузити розрив до людських рефлексів, відкриваючи нові горизонти в спритній робототехніці.
Джерело: Ма, Ю. та ін. “Навчання візуомоторних навичок для спритних квадрупедів.” Science Robotics, 2025. DOI:10.1126/scirobotics.adu3922.