
Un experimento público a gran escala validó el uso de NVFP4, un formato de punto flotante de 4 bits, para el preentrenamiento. Los investigadores entrenaron un Mamba‑Transformer híbrido de 12.000 millones de parámetros durante 10 billones de tokens, y el informe afirma que se trata del entrenamiento público más largo documentado a 4 bits. En la evaluación MMLU‑Pro 5‑shot el modelo NVFP4 obtuvo 62.58%, frente a 62.62% del referente en FP8, lo que muestra paridad en esa prueba específica.
NVFP4 modifica el diseño de microscaling empleado en formatos previos: frente a MXFP4, que usa bloques de 32 elementos con codificación E2M1, NVFP4 reduce el tamaño de bloque a 16 elementos. Cada bloque incorpora factores de escala codificados en E4M3 y añade además una escala por tensor en FP32. Según el documento, al menos el 6.25% de los valores por bloque alcanzan una precisión cercana a FP8, mientras que la representación global obtiene un aprovechamiento más eficiente del rango dinámico disponible.
En términos de rendimiento en hardware Blackwell, las operaciones GEMM en FP4 alcanzan un throughput equivalente a 4× BF16 en GB200 y 6× BF16 en GB300. Esto se traduce en aproximadamente 2× y 3× de velocidad frente a FP8 en los dispositivos citados. Además, la huella de memoria de los operandos en NVFP4 queda aproximadamente a la mitad respecto a FP8. El formato está soportado en Transformer Engine de la plataforma, lo que habilita su uso práctico en pipelines de entrenamiento que aprovechen esos núcleos Tensor.
La cuantización no se aplicó de forma indiscriminada: únicamente las GEMM de las capas lineales — en los pasos de forward (Fprop), gradiente de datos (Dgrad) y gradiente de pesos (Wgrad)— se ejecutaron en NVFP4. Componentes sensibles a precisión o a estabilidad numérica, como embeddings, la cabeza de proyección de salida, normalizaciones, no linealidades y todos los elementos de atención (incluyendo softmax y GEMM batched de consulta‑clave‑valor), permanecieron en BF16 o FP32. Los pesos, los gradientes acumulados y los estados de optimizador se almacenaron en FP32; las reducciones en paralelo de tensores se hicieron en BF16.
La estabilización del entrenamiento exigió cuatro componentes específicos que, según las ablationes presentadas, resultaron todos necesarios para la convergencia. Primero, se aplicó precisión selectiva en capas lineales: las dos primeras y las ocho últimas de un total de 62 bloques (aproximadamente el 16%). Segundo, se usó una Random Hadamard Transform (RHT) de 16×16 aplicada solo a las entradas de Wgrad, con un vector de signo aleatorio compartido. Tercero, una escala de bloques en 2D para los pesos (16×16) garantizó la misma cuantización en el pase directo y en la retropropagación. Y cuarto, se empleó redondeo estocástico, pero restringido únicamente a los gradientes.
El modelo entrenado sigue la arquitectura Nemotron‑Nano‑12B‑v2‑Base: 62 bloques distribuidos como 6 bloques de Self‑Attention, 28 bloques FFN y 28 bloques Mamba‑2; dimensión oculta de 5120 y FFN de 20480. El plan de entrenamiento fue Warmup‑Stable‑Decay, con la tasa de aprendizaje constante durante el 80% del entrenamiento y un decaimiento en el 20% final. El batch size usado fue 736 y la longitud de secuencia 8192. Para comparar, el referente en FP8 siguió la metodología DeepSeek‑V3: E4M3 con bloques de pesos 128×128, configuración 1×128 para activaciones y gradientes, y bloques inicial y final en BF16.
En métricas de validación y tareas de referencia NVFP4 se situó muy próximo al baseline en FP8. La pérdida de validación se mantuvo dentro del 1% del referente durante la fase estable del entrenamiento y se amplió algo por encima del 1.5% durante la fase de decaimiento. Comparaciones detalladas reportadas incluyen MMLU 76.57% frente a 77.36% (NVFP4 vs FP8), GSM8K CoT 92.27% frente a 89.08% (NVFP4 mejor en este caso), MATH 81.48% frente a 83.32%, y AGIEval English CoT 70.31% frente a 67.01% (NVFP4 nuevamente superior). En tareas de programación se observaron brechas mayores: HumanEval+ 57.43% frente a 59.93%, y MBPP+ 55.91% frente a 59.11%.
La implicación práctica es clara: FP8 ya es una práctica habitual para escalar LLM, pero reducir la representación a 4 bits plantea retos de rango dinámico y ruido de cuantización especialmente en horizontes largos de tokens. NVFP4, al ser soportado de forma nativa por los núcleos Tensor de Blackwell y al proporcionar mejoras en throughput y reducción de huella de memoria, ofrece una vía técnica para disminuir costes y aumentar la eficiencia en preentrenamientos a gran escala, manteniendo en la mayoría de las pruebas una precisión cercana a FP8.
Los autores señalan limitaciones y precauciones: cada componente de la metodología se consideró necesario para la convergencia, y el redondeo estocástico resulta perjudicial si se aplica a tensores del pase directo, motivo por el cual se restringe a gradientes. Además, indican que parte de la brecha observada en tareas de programación puede deberse al ruido en el checkpoint final evaluado, y que la randomización mostró ser irrelevante a escala 1.2B pero útil a 12B, lo que sugiere sensibilidad de la técnica al tamaño del modelo. Estos matices delimitan el alcance de la validación y apuntan a áreas para investigación y validación adicional.
La documentación del trabajo incluye un reporte y un preprint técnico que detallan las pruebas, ablationes y valores numéricos citados, y facilitan reproducibilidad y evaluación externa de NVFP4 en contextos que dispongan de hardware Blackwell y Transformer Engine compatibles.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.