
NVIDIA presentó SANA‑WM, un modelo de mundo de 2,6 mil millones de parámetros capaz de generar clips de hasta 60 segundos a 720p en una sola GPU, diseñado para aplicaciones de IA embebida, simulación y robótica. El equipo entrenó el modelo con 64 GPUs H100 y ha publicado tanto el código en NVlabs/Sana como el artículo técnico en arXiv (2605.15178). Este enfoque busca bajar la barrera de hardware para experimentos y despliegues prácticos en entornos con recursos limitados.
SANA‑WM está construido sobre la base SANA‑Video y se entrenó nativamente para producir secuencias controladas con soporte para control de cámara en 6 grados de libertad. Ofrece tres variantes de inferencia que pueden ejecutarse en una sola GPU: un generador bidireccional para síntesis offline de alta calidad, un generador autoregresivo chunk‑causal para rollouts secuenciales, y un autoregresor destilado de pocos pasos pensado para despliegues rápidos.
En el plano arquitectónico, SANA‑WM introduce atención híbrida junto con bloques frame‑wise Gated DeltaNet (GDN) y aplica una escala algebraica de claves para evitar divergencias NaN durante el entrenamiento. Su columna vertebral intercala 15 bloques GDN con 5 bloques de atención softmax, buscando aliviar los cuellos de botella de memoria y cómputo que obligan a muchas líneas base de código abierto a repartir la inferencia en múltiples GPUs o a reducir la resolución.
En pruebas de rendimiento, la variante destilada logra denoising de un clip de 60 s a 720p en 34 segundos en una sola RTX 5090 empleando cuantización NVFP4, lo que demuestra viabilidad para investigación y simulación con hardware de sobremesa. Los autores advierten, no obstante, que se aplicaron ajustes para la estabilidad durante el entrenamiento (por ejemplo, key‑scaling) y que la reproducción práctica de los resultados dependerá del acceso al hardware requerido y al código publicado.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.