Glance разработала автоматизированный пайплайн, который из часов длинного видео и подкастов выделяет несколько готовых к публикации вертикальных роликов 9:16 длиной 30 — 180 секунд, используя генеративные модели (включая Gemini 2.
Glance внедрила автоматизированный конвейер, который превращает одногодинные и двухчасовые видеозаписи в готовые к публикации вертикальные клипы для мобильного просмотра — решение появилось в ответ на рост объёма контента с примерно 3 500 до более 10 000 видео в день. Это критично: аудитория всё чаще потребляет короткие вертикальные ролики на заблокированном экране, а ручной монтаж такой массы материалов признали нерентабельным. Для операторов контента и разработчиков это значит ускорение выпуска материалов при сохранении смысловой целостности роликов.
Задача требовала не просто центрирования кадра: входными материалами служат подкасты, новости и сериалы длиной 1–2 часа, а потребление формата происходит в режиме «скролла», где простая обрезка часто лишает кадр ключевых элементов. Пайплайн автоматически ищет наиболее вовлекающие отрезки (прим. по 60 секунд), точно маркирует времена слов, определяет активного говорящего, распознаёт макеты со split‑screen и динамически перестраивает кадр, сохраняя контекст беседы. Система также добавляет «караоке»-подписи с покадровыми временными метками — важная функция при воспроизведении без звука — и программно применяет маски, логотипы и оверлеи для поддержания бренд‑консистентности при массовой генерации.
Архитектура решения разделена на три модуля. Модуль 1 — Video clipping — извлекает аудио, выполняет распознавание речи с точными таймкодами (Google Cloud Speech — to-Text v2), идентифицирует сегменты с помощью генеративной модели Gemini 2.5 Flash (aka Nano Banana), нарезает видео и валидирует транскрипт (при этом валидация фраз не затрагивает точность тайминга). Модуль 2 — Intelligent Reframing Engine — применяет многоступенчатый анализ сцен для детекции активного говорящего, распознавания split‑screen и динамического кадрирования с применением Samurai, OpenCV, MoviePy и Google Vision API.
Технические подробности и примеры реализации описаны в публикации от 14 мая 2026 года авторами Шармилой Деви и Химаншу Аггарвалом. Описанное сочетание генеративных моделей, сервисов распознавания речи и инструментов компьютерного зрения позволяет масштабировать преобразование длинных форматов в оптимизированный для мобильного потребления контент без ручной постобработки.
Источники
Ответы (0)
Пока нет ответов в этой теме.