En una batería de pruebas del 11 de mayo de 2026, David Gewirtz comparó tres asistentes de IA para analizar videos; Gemini

News

5/11/2026, 1:43:12 PM

En una batería de pruebas del 11 de mayo de 2026, David Gewirtz comparó tres asistentes de IA para analizar videos; Gemini

El 11 de mayo de 2026 David Gewirtz publicó una serie de pruebas destinadas a verificar si tres asistentes de IA pueden “ver” y analizar video en condiciones reales. La conclusión principal: Gemini procesó directamente tanto un video de YouTube como dos archivos locales grandes desde su interfaz web, lo que le dio ventaja práctica para flujos de trabajo basados en video; esto afecta a creadores y desarrolladores que buscan integrar análisis de video sin pasos intermedios.

Para evaluar comprensión visual y generación de derivados, la prueba usó tres videos distintos: un clip de YouTube sobre el proceso científico de recocido (annealing), un MP4 de 625 MB que muestra una prueba de movimiento con el dron DJI Neo 2 sin audio, y un MOV de 1,65 GB-el archivo local original de un “walk-and-talk”— probado sin transcripciones ni metadatos. En cada caso también se solicitó la creación de una miniatura a partir del video.

En la comparación se emplearon planes comerciales actuales: ChatGPT Plus (20 USD/mes), Gemini Pro (20 USD/mes) y Claude Max (100 USD/mes, usado con Claude Code). El autor eligió un prompt simple —“Can you watch this video?”— porque observó que ese verbo inducía a las IAs a procesar frames en lugar de limitarse a buscar metadatos o transcripciones.

Los resultados por modelo fueron claros y diferenciados. Claude devolvió respuestas explícitas de incapacidad: tanto la app como la interfaz web señalaron que no pueden procesar contenido de video o audio directamente. ChatGPT mostró capacidad limitada y, para trabajos de video más profundos, requirió apoyo de Codex. Gemini, en cambio, manejó el enlace de YouTube y los dos archivos locales (MP4 de 625 MB y MOV de 1,65 GB) directamente desde su interfaz web, sin necesidad de ejecutar una app dedicada.

El ensayo destaca por qué el video es más complejo que texto o imágenes estáticas: combina audio, movimiento y metadatos, y exige procesamiento de frames y manejo de archivos grandes. En estas pruebas concretas, la capacidad de Gemini para procesar archivos voluminosos en un navegador sin pasos adicionales representó una ventaja práctica notable para tareas como generar miniaturas o etiquetar escenas.

Las consecuencias prácticas para equipos técnicos y creadores son inmediatas: integrar análisis directo de video en pipelines (miniaturas, comprensión de acción, etiquetado de escenas) será más sencillo con la solución que procesó los archivos directamente. Equipos que dependan de ChatGPT podrían necesitar preprocesar video o integrar Codex u otras herramientas; Claude no puede formar parte de un flujo de trabajo de video sin un paso externo de transcripción o extracción.

Las conclusiones se basan en tres videos concretos y en la metodología descrita por Gewirtz — incluida la recomendación de usar “watch” en vez de “summarize” y de probar tanto URLs como archivos locales— y especifican los planes y versiones analizados. Los resultados pueden variar con otros formatos, tamaños o actualizaciones de producto; artículo original por David Gewirtz, 11 de mayo de 2026.

Fuentes

ZDNET AI · 5/11/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás