Google presenta demos de Gemini Omni y Gemini 3.5 Flash: edición conversacional de video y agentes que ejecutan flujos

News

5/30/2026, 1:33:53 AM

Google presenta demos de Gemini Omni y Gemini 3.5 Flash: edición conversacional de video y agentes que ejecutan flujos

El 29 de mayo de 2026 se publicaron 11 videos demo que muestran Gemini Omni, un modelo multimodal capaz de generar y editar video a partir de texto, imágenes, audio y video, y Gemini 3.5 (arrancando con 3.

El 29 de mayo de 2026 se difundieron 11 videos que ilustran en acción dos familias de modelos anunciadas durante Google I/O 2026: Gemini Omni y Gemini 3.5. Las grabaciones presentan casos prácticos y flujos de trabajo que combinan generación multimodal y capacidades agentic, destacando cómo ambos desarrollos buscan integrar creación de contenido y automatización en un mismo ecosistema. Las demos funcionan como una ventana temprana sobre funcionalidades que, según se anunció, tendrán despliegues escalonados durante el verano.

Gemini Omni se define como un modelo multimodal diseñado para producir y editar video a partir de entradas mixtas: texto, imágenes, audio y secuencias de video. En las demos se muestra que Omni no solo genera material nuevo sino que también aplica instrucciones sucesivas en lenguaje natural para modificar secuencias ya existentes. Cada instrucción puede construir sobre la anterior, y la herramienta aparenta preservar coherencia en elementos persistentes como personajes, reglas físicas y continuidad espacial entre tomas.

Los ejemplos concretos de Omni incluidos en las demos ayudan a entender su rango creativo. Uno de los prompts reproduce la instrucción «Make the sculpture out of bubbles», que transforma un objeto en una estructura efímera compuesta por burbujas. Otro experimento muestra una habitación ajedrezada contenida en una esfera de vidrio que evoluciona hacia una secuencia recursiva: la escena se repliega sobre sí misma en múltiples niveles sin perder la relación visual entre capas. Estas pruebas enfatizan la capacidad del sistema para ejecutar transformaciones complejas manteniendo coherencia visual y narrativa.

Una demostración adicional se centra en un violinista que, mediante rondas sucesivas de edición, es transportado a un nuevo entorno; en pasos posteriores la aplicación hace invisible el violín y modifica ángulos de cámara en varias iteraciones. Ese ejemplo pone de manifiesto dos características clave de Omni: la capacidad de aplicar cambios selectivos sobre objetos particulares dentro de una escena y la persistencia de rasgos del personaje a lo largo de ediciones múltiples, lo que reduce la necesidad de reenfocar o reconstruir elementos entre versiones.

Por su parte, Gemini 3.5 arranca con una variante llamada 3.5 Flash, orientada a ofrecer combinaciones de velocidad y rendimiento para tareas agentic y de codificación. Las demos la presentan como una versión inicial de la familia 3.5 diseñada para escenarios de largo horizonte — es decir, tareas que requieren encadenar pasos y mantener contexto extendido— y con latencias reducidas propias de la serie Flash. Según las escenas mostradas, 3.5 Flash ofrece rendimiento comparable a modelos de referencia en múltiples dimensiones, a la vez que prioriza rapidez en la respuesta.

Cuando 3.5 Flash opera acoplado al arnés denominado Antigravity, las capacidades agentic se amplifican mediante subagentes que colaboran en flujos de varios pasos bajo supervisión humana. En las demos estos subagentes se especializan en tareas complementarias: automatizar renombrados y categorización de activos no estructurados, generar visualizaciones matemáticas complejas y producir múltiples variaciones creativas de manera paralela. El enfoque apunta a orquestar trabajos que combinan análisis, síntesis y generación de entregables sin exigir intervención manual constante en cada paso.

Los casos de uso exhibidos subrayan tanto aplicaciones creativas como de ingeniería. Entre los ejemplos concretos, 3.5 Flash en Antigravity genera 64 variaciones fractales a alta velocidad; construye visualizaciones interactivas para explicar patrones Gyroid; y, utilizando IA Studio, produce diferentes propuestas de experiencia de usuario para un flujo de pago en 60 segundos. Estas pruebas muestran cómo la combinación de bajo tiempo de respuesta y coordinación entre subagentes puede acelerar ciclos de diseño, análisis y experimentación.

En cuanto a despliegue e integración, las demos confirman que 3.5 Flash ya funciona como modelo predeterminado en la aplicación de Gemini y en IA Mode dentro de Search a nivel global. Además, las llamadas «information agents» —agentes destinados a rastrear y sintetizar información de manera continua — se lanzarán primero para suscriptores Google IA Pro & Ultra durante el verano; la generación de interfaces generativas en Search está prevista para todos los usuarios este mismo verano, sin costo. Estas decisiones de despliegue apuntan a una incorporación gradual de las nuevas capacidades en productos de consumo y profesionales.

Es importante considerar limitaciones y contexto operativo: las ejecuciones complejas de 3.5 Flash se muestran operando “bajo supervisión” y las demostraciones públicas vistas son escenarios controlados. La edición multimodal con Omni enfatiza preservación de coherencia escena a escena, pero la utilidad práctica de ambas familias dependerá de su integración en flujos reales, los mecanismos de control y supervisión implementados y la adopción por parte de equipos creativos y técnicos. Las características anunciadas tienen una disponibilidad escalonada, por lo que su impacto real deberá evaluarse conforme se abran al público y a entornos productivos.

Fuentes

Google AI Blog · 5/29/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás