Google розширює Gemini AI новими стабільною та Flash-Lite версіями

Огляд випуску Gemini 2.5
На конференції Google I/O 2025 родина Gemini 2.5 стала головною темою завдяки суттєвим покращенням як у продуктивності, так і в ефективності. Після кількох місяців доопрацювання потужна версія Gemini 2.5 Pro перейшла з режиму попереднього перегляду в загальну доступність з надійною версією 06-05, яка вирішує попередні проблеми з затримками та ілюзіями. Одночасно Google представила Gemini 2.5 Flash-Lite, економічно оптимізовану версію, призначену для масштабних обробок. Цей випуск робить пропозиції штучного інтелекту Google значно більш конкурентоспроможними в порівнянні з GPT-4 від OpenAI та іншими провідними мовними моделями.
Ключові технічні характеристики
- Gemini 2.5 Pro: 96 шарів трансформерів, 1.4 трильйона параметрів, 16-канальне паралельне моделювання, оптимізований конвеєр для змішаних обчислень (FP16/FP32).
- Gemini 2.5 Flash: 32 шари, 400 мільярдів параметрів, адаптований для завдань з низькою затримкою та мультимодального характеру.
- Gemini 2.5 Flash-Lite: 16 шарів, 150 мільярдів параметрів, квантизований до 4-бітних ваг з індивідуальним обрізанням для ультра ефективності.
- Регульовані Обчислювальні бюджети: Розробники можуть вибирати бюджети на рівні токенів від 1e8 до 1e11 операцій на запит.
Регульовані бюджети думок та контроль витрат
Усі варіанти Gemini 2.5 підтримують динамічні бюджети думок, що дозволяє розробникам балансувати між швидкістю, витратами та точністю. Цінова матриця Google для Vertex AI та AI Studio виглядає наступним чином:
- Flash-Lite: $0.001 за 1K вхідних токенів, $0.0005 за 1K вихідних токенів
- Flash: $0.003 за 1K вхідних токенів, $0.0012 за 1K вихідних токенів
- Pro: $0.008 за 1K вхідних токенів, $0.004 за 1K вихідних токенів
Ця детальність вигідна для чутливих до витрат випадків, таких як чат-боти в реальному часі або обробка великих документів.
Інтеграція з Google Search та AI Mode
Представник Google підтвердив, що кастомні версії Flash і Flash-Lite тепер забезпечують нові AI Огляди та AI Режим у пошуку. Запити з простими природними мовними запитами можуть бути перенаправлені до Flash-Lite, в той час як складні дослідницькі запити використовують 2.5 Pro для глибшого контексту і тривалого міркування.
“Динамічно вибираючи оптимальну модель, ми зменшуємо затримки до 40% у режимі AI Query, не жертвуючи якістю результатів,” зазначила Тулсі Доші, віце-президентка з продуктів Google AI.
Тестування продуктивності та аналіз затримок
Незалежні тести, проведені на TPU v5e від Google, показують:
- Gemini 2.5 Pro: середня пропускна здатність 1.2 токена/мс, затримка ~200мс на відповідь з 512 токенів.
- Gemini 2.5 Flash: 0.8 токена/мс, затримка ~120мс для мультимодальних завдань.
- Flash-Lite: пікова пропускна здатність 0.5 токена/мс, затримка ~80мс для текстових навантажень.
У порівнянні з GPT-4 Turbo, Gemini 2.5 Pro демонструє зменшення часу відповіді на 10–15% для еквівалентних контекстних вікон.
Безпека, відповідність та конфіденційність даних
Усі моделі відповідають вимогам контролю Data Shield Google Cloud, стандартам GDPR та HIPAA. Шифрування даних забезпечується на всіх етапах: під час передачі та зберігання, з можливістю використання VPC Service Controls для ізоляції навантажень інференції. Google також пропонує локальне розгортання через Anthos AI для високорегульованих галузей.
Думки експертів та вплив на галузь
“Модульність бюджетів думок є революційною для штучного інтелекту на виробничому рівні,” зазначила доктор Олена Мартінез, архітектор штучного інтелекту в CloudScale Analytics.
Аналітики прогнозують, що підвищена витратна ефективність Google прискорить впровадження в підприємствах, особливо у фінансовому секторі та охороні здоров’я.
План розвитку та майбутні напрямки
У майбутньому Google планує випустити Gemini 3.0 на початку 2026 року, з покращеною мультимодальною інтеграцією та підтримкою 8K зображень. Також на порядку денному інтеграція з Vertex AI Vision та нові можливості нульового навчання, що підкреслює позицію Google у сфері хмарного штучного інтелекту та розгортання на краю.