Google впроваджує аудіо-резюме з штучним інтелектом у пошукових результатах

Google розпочав тестування нової функції “Аудіо Огляд”, яка перетворює звичайні результати пошуку на розмовний, згенерований штучним інтелектом подкаст. Ця функція, що використовує потужну мовну модель Gemini та вдосконалені технології перетворення тексту в мову, має на меті надати захоплюючий, безконтактний огляд найактуальніших пошукових запитів.
Як працюють Аудіо Огляди в Google Search
- Участь через Search Labs: Користувачі можуть активувати “Аудіо Огляд” на labs.google.com, щоб побачити вбудований програвач під розділом “Люди також запитують”.
- Генерація на вимогу: Натискаючи “Генерувати Аудіо Огляд”, запускається обробка на сервері. За кілька секунд два персонажі штучного інтелекту обговорюють ключові моменти з перших 5–7 результатів.
- Елементи управління відтворенням: HTML5 програвач дозволяє налаштовувати швидкість (від 0.5x до 2x) та має розширений список джерел з посиланнями на оригінальні URL.
- Приклад запитів: Спробуйте запит як працюють навушники з шумоподавленням або аудіо огляди Google для демонстрації.
Технічна архітектура Аудіо Огляд
У основі нової функції Google використовуються:
- Потік отримання інформації: Спеціалізований кластер Elasticsearch індексує та ранжує найкращі результати за менше ніж 200 мс.
- Генеративне узагальнення: Gemini Ultralight (близько 6 мільярдів параметрів) виконує екстрактивне та абстрактивне узагальнення. Контекстне вікно: 8 000 токенів.
- Сценарії для розмов: Система перетворює важливі моменти в діалог на двох голосах, використовуючи шаблони запитів, розроблені UX-дослідниками.
- Синтез тексту в мову: Моделі TTS у стилі Tacotron з нейронними вокодерами (похідні від WaveRNN) забезпечують низьку затримку та природний звук.
Думка експертів
“Інтеграція TTS з узагальненням пошукових запитів в реальному часі є логічним кроком для підвищення доступності та можливостей мультитаскінгу,” зазначає доктор Джейн Сміт, директор з технологій мовлення в VoiceAI Labs. “Затримка менше 5 секунд та чітке розділення голосів є критично важливими для довіри користувачів.”
“Проблема галюцинацій залишається актуальною — важливо базувати узагальнення на високоякісних фрагментах,” зауважує Алекс Чен, старший дослідник у OpenSearch Foundation.
Можливі виклики та обмеження
Хоча функція добре справляється з простими темами, вона може мати труднощі з нюансованим або новим контентом:
- Галюцинації: Невідповідні факти або вигадані цитати можуть з’явитися, якщо джерела інформації є непослідовними.
- Піки затримки: Висока завантаженість може призвести до перевищення ідеального часу синтезу TTS, що викликає затримки.
- Витрати ресурсів: Кожен аудіо запит запускає GPU-інстанси, що викликає занепокоєння щодо витрат і вуглецевого сліду.
- Доступність: Автоматично згенеровані транскрипції поки що недоступні — користувачі, які покладаються на субтитри, можуть залишитися без інформації.
Перспективи та вплив на індустрію
Аудіо Огляди Google вже впроваджуються в:
- NotebookLM для аналізу документів.
- Gemini Deep Research для озвучення багатоджерельних розслідувань.
- Google Docs для відтворення аудіо проектів резюме та коментарів.
Зважаючи на досвід Google — текстові AI Огляди вийшли з бета-версії за кілька місяців — можна очікувати ширшого впровадження функції в пошуку до четвертого кварталу 2025 року. Конкуренти, такі як Microsoft і Amazon, також, ймовірно, працюють над схожими звуковими пошуковими рішеннями, інтегруючи Azure Cognitive Services та AWS Polly відповідно.
Висновок
Експеримент Google з перетворення результатів пошуку на “фейковий подкаст” підкреслює постійні зусилля з розширення можливостей ШІ за межі тексту. Як тільки технології TTS та LLM продовжують розвиватися, ми, ймовірно, побачимо більше розмовних, мультимодальних інтерфейсів на хмарних та крайових платформах, що змінить спосіб споживання веб-контенту користувачами.