Aivizor
Aivizor
EstilosCreacionesComunidad
Atrás
  1. Comunidad
  2. /
  3. NVIDIA

NVIDIA lanza Nemotron 3 Nano Omni, unificando visión, audio y lenguaje para agentes de IA más eficientes

News
L
Lucía Valcárcel

4/28/2026, 4:33:51 PM

NVIDIA lanza Nemotron 3 Nano Omni, unificando visión, audio y lenguaje para agentes de IA más eficientes

NVIDIA ha presentado Nemotron 3 Nano Omni, un modelo multimodal de código abierto que unifica el procesamiento de visión, audio y lenguaje en un único sistema de razonamiento. Históricamente, los agentes de inteligencia artificial dependían de modelos separados para manejar diferentes tipos de datos, como voz e imágenes, un método que causaba latencia y fragmentaba el contexto al pasar información de una red a otra. Al integrar estas capacidades, el nuevo lanzamiento permite a los sistemas de IA analizar video, audio, imágenes y texto de manera simultánea. Esto faculta a los agentes para ofrecer respuestas más rápidas e inteligentes, logrando un rendimiento hasta nueve veces superior en comparación con otros modelos omni abiertos con niveles similares de interactividad.

A nivel técnico, la plataforma se sustenta sobre una arquitectura híbrida de mezcla de expertos, conocida como Mixture — of-Experts o MoE, en su variante 30B — A3B. Esta estructura incorpora de forma nativa potentes codificadores de visión y audio, eliminando la necesidad de modelos de percepción independientes que tradicionalmente ralentizaban los procesos de inferencia repetidos. El sistema resultante reduce los costos operativos y mejora la escalabilidad para las empresas sin sacrificar la calidad o la capacidad de respuesta de los sistemas automatizados. Además, NVIDIA ha lanzado el modelo con pesos, conjuntos de datos y técnicas de entrenamiento completamente abiertos, otorgando a las organizaciones control y transparencia total sobre cómo se personaliza y despliega la herramienta.

La eficiencia y precisión de este enfoque consolidado se han demostrado en evaluaciones de la industria, donde el modelo encabezó seis clasificaciones diferentes centradas en la inteligencia de documentos complejos y la comprensión de video y audio. Esta capacidad es particularmente relevante para los flujos de trabajo agénticos donde los sistemas deben procesar diversas entradas en tiempo real. Por ejemplo, en el servicio al cliente y la supervisión de investigación, los agentes ahora pueden procesar grabaciones de pantalla mientras analizan simultáneamente el audio de llamadas y los registros de datos. Esto permite mantener el contexto audiovisual intacto y unificar lo que se dijo, se mostró y se documentó en un solo flujo de razonamiento, en lugar de generar resúmenes desconectados.

La plataforma mejora significativamente tareas específicas de automatización corporativa, como la inteligencia de documentos y el control de interfaces de usuario. Los agentes financieros y de cumplimiento normativo pueden interpretar de manera coherente entradas de medios mixtos como archivos PDF, hojas de cálculo, gráficos y notas de voz junto con el texto estándar. Adicionalmente, el modelo impulsa el ciclo de percepción visual para los agentes que navegan por interfaces gráficas. Gautier Cloix, director ejecutivo de H Company, señaló que su último agente de uso de computadoras utiliza la resolución de entrada nativa del modelo de 1920x1080 píxeles para interpretar grabaciones de pantalla en alta definición casi al instante.

Más allá de funcionar como una solución independiente, Nemotron 3 Nano Omni está diseñado para integrarse de manera fluida dentro de sistemas de inteligencia artificial más amplios. Los desarrolladores pueden utilizar herramientas como NVIDIA NeMo para su optimización en casos de uso específicos y operar el modelo junto con soluciones propietarias en la nube u otras versiones abiertas de NVIDIA. Por ejemplo, puede combinarse con Nemotron 3 Super para tareas de ejecución de alta frecuencia o con Nemotron 3 Ultra para la planificación compleja. Esta interoperabilidad permite a los creadores de software construir subagentes especializados, adaptados a necesidades operativas específicas, y desplegarlos en entornos que cumplen con estrictos requisitos regulatorios o de soberanía de datos.

El impacto de esta innovación tecnológica ha provocado una respuesta y adopción inmediata en todo el ecosistema de software. Compañías como Aible, Applied Scientific Intelligence, Eka Care, Foxconn, H Company, Palantir y Pyler ya han integrado la tecnología en sus procesos. Paralelamente, organizaciones líderes como Dell Technologies, DocuSign, Infosys, K — Dense, Lila, Oracle y Zefr se encuentran evaluando sus capacidades para futuras implementaciones. El modelo, que ya está disponible para el público en la plataforma Hugging Face, extiende el alcance de la familia Nemotron 3 hacia dominios multimodales. Esta familia de modelos ya había registrado más de 50 millones de descargas durante el último año, consolidando su posición como una infraestructura clave para la nueva generación de IA.

computer usage agent

Fuentes

  1. NVIDIA Newsroom RSS · 4/28/2026
0
0
0

Respuestas (0)

Aún no hay respuestas en este tema.

9:41