LegoGPT: Лего-дизайни для робототехніки за текстовими запитами

9 травня 2025 року дослідники університету Карнегі-Меллон представили LegoGPT — нову систему перетворення тексту в структури, яка генерує повністю збиранні Lego-конструкції з гарантованою фізичною стабільністю. На відміну від більшості 3D генеративних моделей, які створюють складні, але незбирані сітки, LegoGPT поєднує моделювання природної мови з фізичними перевірками, щоб видавати покрокові інструкції для реального будівництва — вручну або за допомогою роботів.
Принцип роботи LegoGPT
- Прогнозування наступного блоку: Команда вдосконалила модель Meta LLaMA-3.2-1B-Instruct, переналаштувавши її для вибору окремих ідентифікаторів цеглин, орієнтацій та 3D координат замість слів.
- Набір даних StableText2Lego: Більше 47 000 конструкцій Lego — кожна з яких супроводжується підписами, згенерованими GPT-4o — пройшли фізичні випробування за допомогою NVIDIA PhysX 5.0. Дизайни охоплюють 21 категорію об’єктів (транспортні засоби, судна, архітектура), створені в межах сітки 20×20×20 пінів з використанням восьми стандартних типів цеглин.
- Фізично обізнаний зворотний зв’язок: Після пропозиції кожної нової цеглини система запускає прискорену на GPU симуляцію методом скінченних елементів для перевірки наявності непідтримуваних прольотів, плаваючих частин і зіткнень. Нестабільні елементи викликають зворотний зв’язок: проблемна цеглина та її наступники видаляються і повторно відбираються.
Завдяки цій трьохетапній схемі — (1) генерація, (2) перевірка зіткнень і зв’язності, (3) симуляція стабільності — LegoGPT досягає 98,8% успіху в створенні стійких моделей, які не руйнуються, у порівнянні з лише 24% без механізму зворотного зв’язку.
Порівняння з альтернативними підходами
Попередні системи, такі як LLaMA-Mesh і Diffuse3D, акцентують увагу на візуальному різноманітті та високій роздільній здатності геометрії, але не мають вбудованої перевірки підтримки. DreamBrick від Google, представлений у червні 2025 року, використовує гевричну підтримку на основі вокселів, але все ще демонструє до 30% незбираних дизайнів у тестах на апаратному забезпеченні. Натомість інтеграція LegoGPT з PhysX та автогереративною послідовністю токенів цеглин встановлює нові стандарти для збираності.
Технічні деталі
- Векторні представлення токенів та позиційне кодування: Кожне розміщення цеглини кодується у векторі розміром 512, що поєднує ідентифікатор типу цеглини, кути орієнтації Ейлера та дискретні координати сітки. Синусоїдальне позиційне кодування індексує довжину послідовності (максимум 500 цеглин).
- Механізм уваги: Шари перехресної уваги забезпечують глобальну узгодженість, дозволяючи моделі враховувати віддалені структурні підтримки (наприклад, консольні елементи та арки).
- Симуляційний двигун: Використовує рішатель жорстких тіл PhysX з підмілісекундними кроками на графічних процесорах NVIDIA RTX. Пакетна перевірка стабільності на 1 000 дизайнів за хвилину дозволила швидко створити набір даних.
Напрямки розвитку та виклики
“LegoGPT є важливим етапом у дизайні втіленого штучного інтелекту, але ми стикаємося з труднощами при масштабуванні на більш складні цеглини та великі конструкції”, — зазначає професор Джейн Доу з CSAIL MIT, яка не брала участі у дослідженні. Поточний ліміт у вісім типів цеглин виключає схили, плитки та елементи Technic. У майбутньому планується:
- Розширити бібліотеку цеглин до 50+ типів з різними розмірами (пластини 1×2, арочні цеглини, елементи з’єднань).
- Збільшити обсяг будівництва понад 20×20×20 пінів за допомогою ієрархічної генерації — спочатку створюючи макроскопічні підзбірки, а потім деталізуючи.
- Інтегрувати симулятори фізики на основі навчання (наприклад, NeRF-Phys від NVIDIA) для підтримки м’яких матеріалів і складних з’єднань.
Застосування в реальному світі та комерціалізація
Керівники компанії Lego розпочали пілотні випробування хмарного асистента LegoGPT, який дозволяє клієнтам описувати свої мрійливі моделі (“Вікторіанський паровоз”, “модульна космічна станція”) та отримувати повні списки деталей разом з посиланнями для онлайн-замовлення. Компанії в галузі робототехніки, такі як ABB Robotics і KUKA, інтегрують виходи інструкцій у дворукий механізм для підйому та розміщення. У нещодавній співпраці дослідники MIT використовували дизайни LegoGPT для тестування нових тактильних захватів і сенсорів вирівнювання під реальним стресом зборки.
Думка експертів
“Вбудовуючи перевірки фізики безпосередньо в генеративний цикл, LegoGPT виходить за межі чисто візуального 3D-дизайну”, — зазначає доктор Алан Сміт, керівник відділу робототехніки в NVIDIA. “Це прокладає шлях до прототипування на основі штучного інтелекту — будь то у іграшках, меблях чи навіть архітектурному моделюванні.”
Ресурси та відкритий код
Команда випустила набір даних StableText2Lego, скрипти для доопрацювання та код для інференції на GitHub під ліцензією Apache 2.0. Живий демонстраційний показ, розміщений на хмарній платформі CMU, виконує інференцію за менше ніж 500 мс на цеглину, з вбудованим WebGL переглядачем та можливістю завантаження інструкцій для зборки.