
El 23 de mayo de 2026 NVIDIA anunció Nemotron‑Labs Diffusion, una familia de modelos de lenguaje y un modelo visión‑lenguaje que aplican generación por difusión al texto para reducir latencia y mejorar el control de la inferencia. El enfoque combina generación paralela de bloques de tokens con refinamiento iterativo, lo que permite revisar y corregir tokens ya generados y facilita tareas como fill‑in‑the‑middle; ese cambio en el flujo de generación es la razón principal por la que la compañía presenta la familia como una vía para bajar latencias en cargas sensibles al tiempo.
La colección publicada incluye modelos de texto en escalas de 3B, 8B y 14B, además de un VLM de 8B. NVIDIA ofrece variantes base y versiones afinadas para instrucciones (chat). Junto con los pesos, la compañía distribuye el código y la receta de entrenamiento implementada mediante el framework Megatron Bridge; los binarios de los modelos de texto se liberarán bajo la NVIDIA Nemotron Open Model License y el VLM bajo la NVIDIA Source Code License. El anuncio va acompañado de un informe técnico y materiales firmados por ingenieros responsables del proyecto.
La técnica difiere del decodificador autoregresivo clásico: mientras el enfoque AR genera token a token en orden izquierdo‑a‑derecha, los diffusion language models (DLM) generan bloques de tokens en paralelo y los refinan de forma iterativa. Esa arquitectura permite controlar explícitamente el presupuesto de inferencia reduciendo el número de pasos de refinamiento, posibilita objetivos tipo fill‑in‑the‑middle y facilita la revisión de tokens ya producidos. La misma red soporta tres modos de generación — autoregresivo, diffusion (bloque a bloque con refinamiento) y self‑speculation—, y el modo de inferencia se configura en tiempo de despliegue, lo que limita los cambios necesarios en las aplicaciones.
Para desarrolladores y equipos de despliegue, Nemotron‑Labs Diffusion busca explotar mejor las GPUs modernas al paralelizar la generación y disminuir operaciones acotadas por memoria, lo que puede traducirse en latencias menores en cargas con tamaños de batch pequeños, incluido batch=1. El modo self‑speculation propone combinar la velocidad de la difusión con la fiabilidad de la verificación autoregresiva. el artículo que documenta el trabajo fue publicado el 23 de mayo de 2026 y está firmado por Mehran Maghoumi, Yonggan Fu, Pavlo Molchanov y Khadkevich.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.