Google підсилює Android-розробників за допомогою AI Gemini Nano

Швидкий розвиток генеративного штучного інтелекту змінив наші взаємодії з пристроями та програмами. Історично, більшість передових функцій ШІ покладалися на моделі, які працюють у хмарі на потужних кластерах GPU та TPU. Однак передача кожного запиту через мережу викликає затримки, проблеми з конфіденційністю та підключенням. На Google I/O 2025 компанія Google представила новий набір API для генеративного ШІ, що працюють на пристроях, на базі Gemini Nano, що дозволяє розробникам вбудовувати функції підсумовування, коректури, перефразування та опису зображень без затримок, пов’язаних із запитами до віддалених серверів.
API GenAI від ML Kit: Міст між Хмарою та Краєм
Тепер SDK ML Kit від Google включає API GenAI, які безперешкодно взаємодіють з Gemini Nano через абстрактний шар AI Core. Це продовження експериментального SDK Edge AI, але з готовою до виробництва реалізацією моделі та попередньо визначеними кінцевими точками функцій. Основні можливості включають:
- Підсумовування: Витяг до трьох ключових пунктів з довгих текстових сегментів.
- Коректура: Виправлення граматики та стилю з контекстними перезаписами.
- Перефразування: Парафраз або переклад тексту збереженням його значення.
- Опис зображень: Автоматичне створення альтернативного тексту англійською для зображень, що зберігаються на пристрої.
API обробляє завантаження моделей, узгодження апаратного прискорення, квантизоване висновування та резервні стратегії, коли цільовий NPU недоступний.
Технічний аналіз: Як Gemini Nano працює на смартфонах
Gemini Nano — це високооптимізована модель на основі трансформерів, розроблена для мобільних NPU та DSP. Google використовує такі техніки:
- 8-бітна квантизація: Зменшує обсяг пам’яті до 25–100 МБ в залежності від варіанту (Nano XXS проти Nano XS).
- Злиття операторів: Об’єднує кілька нейронних операцій в один ядро для зменшення пропускної здатності пам’яті.
- Адаптивне вікно контексту: Динамічно налаштовує довжину послідовності (256–512 токенів) залежно від доступної оперативної пам’яті та цілей продуктивності.
Серед підтримуваного апаратного забезпечення — NPU Tensor 10-TOPS серії Pixel 9, NPU Hexagon Snapdragon 8 Gen 3 (~27 TOPS) та AI-двигун MediaTek Dimensity 9300 з 37 TOPS. Час виконання ML Kit автоматично обирає оптимальний бекенд: Android Neural Networks API (NNAPI), Qualcomm SNPE або власні драйвери Google.
Тестування продуктивності на різних пристроях
Внутрішні тестування показали, що виконання 3-пунктового підсумовування на Pixel 9 Pro займає близько ~200 мс від початку до кінця, тоді як OnePlus 13 з Snapdragon 8 Gen 3 виконує те ж завдання за 250 мс. Генерація опису зображень в середньому займає 300–400 мс на сучасних NPU. Коли апаратне прискорення недоступне, ML Kit переходить на виконання виключно на CPU, що призводить до затримки 600–800 мс, що все ще підходить для багатьох випадків використання.
Безпека та конфіденційність
Зберігаючи дані локально, висновування на пристрої захищає чутливу інформацію, таку як особисті повідомлення, фотографії та документи. На відміну від хмарних API, жодні дані користувачів не залишають пристрій, що усуває ризик їх витоку під час передачі або зберігання на віддалених серверах. Google інтегрував модульний захист моделей та безпечні середовища, щоб запобігти витоку або підробці моделей. За словами Лаури Пател, старшого архітектора безпеки в SecureAI Labs, “Моделі, що працюють на пристроях, значно зменшують поверхню атаки. У поєднанні з шифруванням на рівні додатків, цей підхід може відповідати суворим вимогам GDPR та HIPAA.”
Вплив на екосистему розробників
До цього часу розробники Android стикалися з фрагментацією: SDK Edge AI від Google був ексклюзивним для Pixel, Qualcomm та MediaTek пропонували різні SDK, а самостійно хостовані моделі вимагали експертизи в MLOps. Нові API GenAI від ML Kit об’єднують ці підходи під одним інтерфейсом, підтримуваним на:
- Google Pixel 9, 9 Pro та 9a
- Серія OnePlus 13
- Samsung Galaxy S25 та S25 Ultra
- Xiaomi 15 та 15 Pro
Попередні відгуки від студій додатків свідчать, що час інтеграції може зменшитися з тижнів до днів. “Ми додали функції коректури та перефразування до нашого додатку для нотаток менш ніж за 48 годин,” зазначає Чен Вей, технічний директор Notable Apps.
Перспективи та майбутні розробки
Google оголосив про плани відкрити частини базового коду Gemini Nano та надати можливості для тонкої налаштування через фреймворк NNTrainer Android. Пізніше в 2025 році планується підтримка багатомовного опису зображень, розширених вікон контексту (до 1024 токенів) та динамічних адаптивних шарів для спеціалізації в доменах (наприклад, юридичному чи медичному). Оскільки все більше виробників сертифікують сумісність з Gemini Nano, а NPU стають потужнішими, ми очікуємо, що ШІ на пристроях стане невід’ємною частиною користувацького досвіду Android.