Glance automatiza la conversión de horas de video horizontal en clips verticales móviles con Gemini y APIs de Google Cloud

News

5/15/2026, 7:38:36 AM

Glance automatiza la conversión de horas de video horizontal en clips verticales móviles con Gemini y APIs de Google Cloud

Glance creó una canalización automatizada que transforma grabaciones largas (1–2 horas) en clips verticales de 30 — 180 segundos optimizados para pantallas de bloqueo.

Glance presentó una solución técnica para convertir grandes volúmenes de video horizontal en clips verticales cortos, descrita en una entrada fechada el 14 de mayo de 2026 por Sharmila Devi y Himanshu Aggarwal. El objetivo es extraer fragmentos relevantes de pódcast, reportajes, películas y series web y entregarlos en formatos de 9:16 adecuados para reproducción en pantallas de bloqueo móviles, manteniendo coherencia editorial y marca sin intervención manual en cada video.

La compañía diseñó la canalización pensando en materiales de larga duración: toma grabaciones de una o dos horas y genera clips de entre 30 y 180 segundos. En producción ya procesa miles de videos al día y prevé que el volumen diario crecerá: actualmente maneja alrededor de 3.500 videos y proyecta superar los 10.000 diarios, lo que exige automatización desde la detección de fragmentos hasta la exportación final.

La salida de la canalización son múltiples clips cortos emparejados con transcripciones alineadas por tiempo y subtítulos tipo “karaoke” a nivel de palabra, además de assets con máscaras, logotipos y overlays para conservar la identidad visual. La arquitectura cubre desde la identificación automática de tramos relevantes hasta el reenfoque y la exportación de clips listos para flujos editoriales móviles, con metadatos de tiempo que permiten ediciones y búsqueda posteriores.

Los requisitos técnicos superan un simple recorte central: la solución debe detectar al orador activo y centrarlo en el encuadre, apilar interlocutores en entrevistas con pantalla partida, preservar contexto en tomas múltiples y mantener sincronía precisa de subtítulos. Para cumplir esto se aplican procesos que calculan puntos de inicio y fin de cada clip con marcas de tiempo de palabra y que insertan elementos gráficos para homogeneizar la experiencia en dispositivos que suelen reproducir sin sonido.

La arquitectura técnica integra varios motores y librerías. Para el reconocimiento y alineación de voz se usa Google Cloud Speech — to‑Text v2; el análisis semántico y validación textual emplea modelos Gemini, incluidos Gemini 2 y Gemini 2.5 Flash (también referido como Nano Banana); la detección visual corre sobre Google Vision API; y el procesamiento de video utiliza herramientas como Samurai, OpenCV y MoviePy. El resultado son clips verticales con transcripciones y subtítulos listos para publicación.

El primer módulo, Video clipping, extrae el audio de los archivos originales, genera transcripciones con precisión de palabra y propone segmentos recomendados. Para la identificación de intervalos óptimos se usa Gemini 2.5 Flash (Nano Banana) que analiza el texto de la transcripción y sugiere puntos de interés; existe además una etapa de validación textual soportada por Gemini, aunque esa validación no verifica la exactitud de las marcas de tiempo a nivel de palabra.

El núcleo del segundo módulo, denominado Intelligent Reframing Engine, aplica un análisis de escena en varias etapas para convertir fotogramas 16:9 en encuadres verticales 9:16 sin perder contexto narrativo. La detección del orador activo y otros elementos relevantes se realiza fotograma a fotograma con la API de Vision, mientras que una comprobación de ‘liveness’ distingue rostros en vivo de imágenes estáticas usando seguimiento de puntos faciales, movimiento de boca y variaciones en la pose de la cabeza.

Para decidir quién es el orador principal, el sistema calcula una puntuación de actividad basada en apertura de boca y fluctuaciones emocionales reportadas por Vision API. A partir de esas métricas se establece una relación de vivacidad — tramos animados divididos por tramos totales donde aparece la cara—; la persona cuyo ratio se aproxime más a 1.0 se considera orador primario. Esa lógica evita, por ejemplo, confundir una imagen estática detrás de un presentador con una fuente de voz real.

En emisiones con formato dividido, el motor detecta diseños de pantalla partida y los reprocesa para formato vertical apilando las mitades de manera que la continuidad de la conversación se mantenga. El proceso localiza la línea divisoria empleando la posición del orador principal y reformatea cada segmento sin recortar interlocutores relevantes, preservando expresiones y sincronía de diálogo entre los lados de la conversación.

Fuentes

Google Cloud Blog — AI & Machine Learning · 5/13/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás