Gemini від Google: Штучний інтелект для зав’язування шнурків без хмари
Вступ
У значному кроці вперед для робототехніки на краю дослідниця Google Кароліна Парада нещодавно представила нову систему штучного інтелекту, що працює безпосередньо на пристроях, засновану на архітектурі Gemini. На відміну від традиційних платформ, що залежать від хмари, ця інновація дозволяє роботам виконувати складні завдання — такі як зав’язування шнурків — без необхідності підключення до мережі. Як результат, зменшується затримка, підвищується надійність та покращується конфіденційність даних.
Ключові інновації в робототехніці на пристроях
- Висновок на краю: Виконання моделей в реальному часі безпосередньо на вбудованому обладнанні.
- Квантизовані нейронні мережі: Зменшений розмір моделі (до 50–100 МБ) при збереженні понад 90% початкової точності.
- Об’єднання сенсорних даних: Інтеграція зору, зворотного зв’язку сили та пропріоцептивних даних для точної маніпуляції.
Технічна архітектура та процес виводу на пристрої
Квантизація та стиснення моделей
Щоб адаптувати сучасні трансформерні архітектури, такі як Gemini-1.5, до платформ на краю, Google використовує 8-бітну та змішану квантизацію. Це дозволяє зменшити обсяг пам’яті більш ніж на 75% та виконувати вивід на Edge TPUs або навіть на мобільних ЦП без значної втрати точності.
Об’єднання сенсорних даних та контроль в реальному часі
Штучний інтелект обробляє дані з стереокамери, сенсорів сили та моменту на шести осях, а також енкодерів суглобів зі швидкістю 200 Гц. Спеціалізоване програмне забезпечення на базі ROS2 координує сприйняття, планування та виконання з часом циклу менше 20 мс, що забезпечує плавний і надійний рух на міліметровому рівні.
Думки експертів та результати тестування
“Gemini відкриває нові горизонти в робототехнічній спритності, дозволяючи автономну маніпуляцію в реальному часі без жодної затримки з хмарою,” зазначила Кароліна Парада, старший науковець у галузі робототехніки в Google Research.
“На наших внутрішніх тестах затримка виводу на пристрої зменшилася з 120 мс (хмара) до менш ніж 15 мс, що призвело до зниження рівня помилок на 30% у середовищах з низькою доступністю мережі,” підкреслила доктор Лена Чоу, інженер-робототехнік у TechFuture Labs.
Безпека та конфіденційність
Виключивши потребу в постійній підключеності до хмари, рішення Google для роботи на пристроях:
- Зберігає чутливі візуальні та тактильні дані локально, зменшуючи ризик мережевих атак.
- Використовує безпечний завантаження та ARM TrustZone для перевірки цілісності моделей.
- Підтримує кінцеве шифроване оновлення моделей через HTTPS або MQTT через TLS.
Майбутні напрямки та вплив на індустрію
- Масштабованість: Розширення до систем з багатьма маніпуляторами з координованим контролем через федеративну консенсус.
- Генералізація: Тонке налаштування на спеціалізовані завдання (складання, контроль якості) за допомогою циклів RL на пристрої.
- Інтеграція екосистеми: Співпраця з виробниками апаратного забезпечення для вбудовування Gemini у мікроконтролери наступного покоління.
Висновок
Штучний інтелект для робототехніки на пристроях від Google, заснований на Gemini, є знаковим моментом у автономній маніпуляції. Поєднуючи передове стиснення моделей з надійним об’єднанням сенсорних даних та контролем у реальному часі, роботи тепер можуть виконувати складні завдання — такі як зав’язування шнурків — без залежності від хмари. З розвитком цієї технології ми можемо очікувати більш широкого впровадження в промисловості, охороні здоров’я та споживчій робототехніці.