
Amazon Web Services (AWS) y NVIDIA han anunciado la disponibilidad inmediata del modelo multimodal Nemotron 3 Nano Omni a través de Amazon SageMaker JumpStart. Este lanzamiento representa un hito fundamental para las organizaciones que buscan desarrollar y desplegar aplicaciones de inteligencia artificial más sofisticadas, al ofrecer una solución que integra la comprensión de múltiples tipos de datos en una única arquitectura eficiente.
Desde el punto de vista técnico, el Nemotron 3 Nano Omni se posiciona como un modelo de lenguaje grande multimodal de carácter abierto y diseño altamente optimizado. Destaca por su innovadora arquitectura que alberga un total de 30 mil millones de parámetros, de los cuales solo 3 mil millones se mantienen activos durante la inferencia, un formato conocido como 30B A3B. Su construcción se basa en una arquitectura Mamba2 Transformer Hybrid Mixture of Experts (MoE), que combina tres componentes esenciales: Nemotron 3 Nano LLM como el pilar central del lenguaje, CRADIO v4-H para la codificación y comprensión visual de imágenes y video, y Parakeet para la codificación de voz y transcripción de audio.
Más allá de su capacidad de procesamiento multimodal, el modelo soporta una longitud de contexto de hasta 131 mil tokens, lo que le permite manejar información extensa y compleja. Entre sus funcionalidades avanzadas se incluyen el razonamiento de cadena de pensamiento, la capacidad de invocar herramientas externas, la salida en formato JSON y marcas de tiempo a nivel de palabra para tareas de transcripción, lo que aumenta su versatilidad en entornos empresariales. Además, está disponible en precisión FP8 en SageMaker JumpStart, equilibrando de forma óptima la precisión y la eficiencia para cargas de trabajo de alto rendimiento, y cuenta con licencia bajo el NVIDIA Open Model Agreement para su uso comercial.
Históricamente, los flujos de trabajo de los agentes empresariales han sido intrínsecamente multimodales, ya que los procesos de negocio requieren la interpretación simultánea de pantallas, documentos de texto, pistas de audio y secuencias de video dentro de un mismo ciclo de razonamiento. La mayoría de los sistemas de agentes actuales ensamblan modelos separados para visión, habla y lenguaje, lo que conlleva una mayor latencia debido a pasadas de inferencia repetidas, complica la orquestación y el manejo de errores, fragmenta el contexto entre modalidades y amplifica los costos y modos de fallo con el tiempo.
La versatilidad de Nemotron 3 Nano Omni lo convierte en una opción potente para una amplia gama de casos de uso empresarial. En el ámbito de los agentes de uso informático, potencia el bucle de percepción para aquellos que navegan interfaces gráficas de usuario, leyendo pantallas, comprendiendo el estado de la interfaz a lo largo del tiempo y validando resultados. Esto simplifica significativamente aplicaciones prácticas como paneles de gestión de incidentes, búsqueda agéntica, automatización de navegadores y agentes de flujo de trabajo de correo electrónico.
Continuando con las aplicaciones, los agentes de comprensión de audio y video se benefician de la capacidad de Nemotron 3 Nano Omni para mantener un contexto continuo en flujos de trabajo de atención al cliente, investigación y monitoreo. El modelo vincula lo dicho, lo mostrado y lo documentado en un único flujo de razonamiento, en lugar de resúmenes desconectados. Esto habilita aplicaciones como el análisis de grabaciones de reuniones, la gestión de activos en medios y entretenimiento, la verificación de pedidos en autoservicios y la revisión de videos de servicio al cliente, por ejemplo, para verificar la entrega de paquetes en una dirección específica mediante OCR.
Para comenzar a utilizar Nemotron 3 Nano Omni en Amazon SageMaker JumpStart, los usuarios solo necesitan una cuenta de AWS, permisos adecuadamente configurados para SageMaker JumpStart y una cuota de servicio suficiente para instancias de GPU, como ml.p4d.24xlarge o ml.p5.48xlarge. El proceso de despliegue se realiza de forma sencilla a través de Amazon SageMaker Studio, buscando el modelo y seleccionando la opción de despliegue, para luego configurar el tipo de instancia.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.