NVIDIA lanza Nemotron 3 Nano Omni: un modelo multimodal avanzado para el análisis complejo de documentos, audio y video

News

4/28/2026, 4:36:10 PM

NVIDIA lanza Nemotron 3 Nano Omni: un modelo multimodal avanzado para el análisis complejo de documentos, audio y video

NVIDIA ha presentado oficialmente su nuevo modelo de inteligencia artificial, Nemotron 3 Nano Omni, diseñado para procesar contextos multimodales extensos.

El 28 de abril de 2026, los investigadores Tuomas Rintamaki y Amala Sanjay Deshmukh de NVIDIA anunciaron el lanzamiento oficial de Nemotron 3 Nano Omni. Este desarrollo representa un avance significativo en la inteligencia multimodal de contexto largo, diseñado para potenciar agentes encargados de procesar documentos, secuencias de audio y contenido de video. Desde su introducción, este modelo ha establecido nuevos estándares de precisión en la industria tecnológica. Nemotron 3 Nano Omni se posiciona actualmente como líder indiscutible en las exigentes tablas de clasificación de inteligencia documental, destacando en métricas complejas como MMlongbench — Doc y OCRBenchV2.

Además de su excepcional destreza en la comprensión profunda de textos, la arquitectura extiende su dominio operativo hacia el terreno multimedia interactivo. El sistema lidera simultáneamente las tablas de análisis de video y audio combinados, destacando de manera prominente en los rigurosos entornos de prueba de WorldSense y DailyOmni. Asimismo, la innovación alcanza el nivel más alto de precisión documentado en la plataforma VoiceBench para tareas de comprensión de audio avanzado y se consolida como el modelo de análisis de video de código abierto más rentable en MediaPerf.

combina un marco de procesamiento híbrido Nemotron 3 que integra la tecnología Mamba y modelos de Transformadores bajo el paradigma de Mezcla de Expertos (MoE), potenciado de forma sinérgica por un codificador de visión especializado denominado C — RADIOv4-H y un codificador de espectro de audio avanzado conocido como Parakeet — TDT-0.6B-v2.

Esta compleja interconexión de arquitecturas neuronales ha sido meticulosamente diseñada con un propósito técnico claro: preservar el más mínimo detalle visual de las imágenes de alta densidad, incorporar una capacidad fluida para la comprensión del audio nativo y escalar eficientemente hacia contextos multimodales extremadamente largos que abarcan desde documentos intrincados hasta tareas de razonamiento mixto. Para alcanzar este grado de sofisticación computacional, la receta metodológica de entrenamiento utiliza inicialmente una técnica de alineación multimodal escalonada, complementada por un riguroso proceso de extensión del contexto informativo.

Posteriormente, los equipos de desarrollo aplican algoritmos precisos de optimización de preferencias y culminan el ciclo de instrucción con técnicas avanzadas de aprendizaje por refuerzo multimodal. El resultado de esta metodología se traduce en ventajas operativas directas: en comparación con las alternativas tecnológicas actuales, Nemotron 3 Nano Omni ofrece hasta nueve veces más capacidad de rendimiento general y una velocidad asombrosa de razonamiento de flujo único que resulta 2.9 veces superior en la resolución de casos de uso multimodales intensivos.

Facilitando el acceso a esta innovación, NVIDIA ha confirmado que los puntos de control del modelo en los formatos de precisión BF16, FP8 y NVFP4 ya se encuentran disponibles para su descarga libre en la plataforma HuggingFace. El progreso de esta tercera iteración se ha edificado sobre los cimientos técnicos del modelo previo Nemotron Nano V2 VL, ofreciendo ahora mejoras visuales sustanciales y añadiendo capacidades operativas inéditas en los dominios autónomos del procesamiento de audio y la integración conjunta de video y sonido.

Las evaluaciones empíricas de rendimiento subrayan categóricamente la superioridad de Nemotron 3 Nano Omni frente a su predecesor directo y al medirse contra otros modelos omnidireccionales de pesos abiertos competitivos, tales como el destacado Qwen3 — Omni en su arquitectura 30B — A3B. Al desglosar el análisis hacia las tareas específicas de comprensión de documentos, la nueva versión demuestra un dominio analítico absoluto. En la exigente prueba de reconocimiento OCRBenchV2 — En, la herramienta alcanza una impresionante puntuación de 65.8, superando con un margen claro la marca de 61.2 registrada por la versión V2.

Esta brecha de rendimiento se vuelve más evidente en la evaluación MMLongBench — Doc, orientada a documentos de gran longitud. En este entorno, el sistema logra 57.5 puntos, dejando rezagado el 38.0 obtenido por el V2 e imponiéndose al 49.5 documentado por Qwen3 — Omni. De manera equivalente, durante las pruebas de razonamiento de CharXiv, el modelo registra 63.6 puntos, lo que simboliza un salto generacional frente al 41.3 del V2 y resulta superior al 61.1 de su rival directo. El análisis interactivo de las interfaces gráficas de usuario también refleja un avance computacional masivo.

Al ser evaluado bajo el estándar ScreenSpot — Pro, alcanza una puntuación de 57.8, mostrando un crecimiento astronómico frente al exiguo 5.5 de la arquitectura V2, manteniéndose en un margen competitivo frente al 59.7 de Qwen3. Finalmente, dentro de la simulación de entornos de sistemas operativos OSWorld, la creación de NVIDIA asegura un sólido puntaje de 47.4, cuadruplicando el 11.0 de la versión anterior y superando por una ventaja amplia el 29.0 de la alternativa de Qwen.

Fuentes

Hugging Face Blog · 4/28/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás