Gemini у Google Drive отримав розширений аналіз відео

Штучний інтелект Google, Gemini, швидко став доступним у більшості додатків Workspace, але його нещодавно анонсована функція аналізу відео для Google Drive може стати найпрактичнішою інтеграцією. Завдяки автоматично згенерованим субтитрам та мультимодальному обробному процесу, Gemini тепер може переглядати, транскрибувати та підсумовувати ваші збережені відео за лічені секунди, позбавляючи вас від нудної роботи з ручним переглядом.
Від текстових підсумків до мультимодального розуміння
Gemini вже демонструє високі результати у підсумовуванні документів, вилученні таблиць та генерації інсайтів з тексту або електронних таблиць. Однак відео являє собою лінійний потік даних, що складається з кадрів, який не можна прочитати так швидко, як текст. Рішення Google полягає в тому, щоб передати автоматично згенеровану доріжку субтитрів відео до великої мовної моделі Gemini разом із ключовими візуальними метаданими, отриманими за допомогою згорткових нейронних мереж.
Практичні робочі процеси з відео в Drive
- Підсумки зустрічей: Завантажте записані зустрічі до Drive і запитайте у Gemini: «Які п’ять основних тем обговорення?»
- Навчальні матеріали: Перетворіть записи демонстрацій продуктів на пошукові транскрипти та списки основних моментів.
- Наукові відео: Запитуйте лекційні відео щодо конкретних концепцій або визначень — більше не потрібно вгадувати, перемотуючи вперед.
Як працює аналіз відео Gemini: технічні деталі
У своїй основі функція аналізу відео Gemini використовує двоступеневий процес:
- Мова в текст: Система STT на основі Conformer обробляє аудіо на частоті 16 кГц, генеруючи субтитри з середньою помилковою частотою слів (WER) від 8 до 12% за внутрішніми тестами.
- Мультимодальний трансформер: Основна частина на базі CNN кодує ключові кадри зі швидкістю один кадр на секунду, тоді як шар трансформера вирівнює текстові токени та візуальні вектори, щоб створити зрозумілі підсумки або відповісти на запитання.
Продуктивність, точність та обмеження
Попередні тести показують, що Gemini може підсумувати 30-хвилинне відео менш ніж за 20 секунд. Проте низьке освітлення або одночасна мова кількох осіб можуть підвищити WER вище 15%, що призводить до неповних підсумків. Експерти рекомендують швидко перевірити якість субтитрів на сторінці Управління субтитрами у Drive перед тим, як ставити складні запитання.
Використання в підприємствах та питання безпеки
- Відповідність даним: Адміністратори можуть вимкнути автоматичне субтитрування або обмежити аналіз відео для конкретних організаційних одиниць через API консолі адміністратора Google Workspace.
- Управління: Всі дані транскрипцій залишаються в зашифрованому хмарному сховищі Google, з можливістю використання ключів шифрування, що управляються клієнтом (CMEK) у бізнес-і корпоративних тарифах.
“Це значний крок у напрямку перетворення відеоконтенту на дії в підприємницькому середовищі,” зазначає доктор Джейн Сміт, старший науковий співробітник Google Cloud AI.
Доступність та впровадження
Функція аналізу відео доступна в накладці Gemini або в окремому переглядачі Drive і активується за замовчуванням для всіх завантажених відео з активним автоматичним субтитруванням. Впровадження для бізнес-клієнтів, корпоративних, освітніх установ та підписників Google One AI Premium може зайняти до 15 днів. Якщо автоматично згенеровані субтитри вимкнені у вашому керованому обліковому записі Workspace, створіть їх вручну перед використанням Gemini для запитів щодо відео.