
NVIDIA detalló un flujo de fine‑tuning paramétricamente eficiente de Cosmos Predict 2.5 usando LoRA y DoRA para generar trayectorias sintéticas de robots, con ejemplos de datos, inyección de adaptadores y requisitos de hardware y software.
NVIDIA publicó el 18 de mayo de 2026 una guía técnica para afinar Cosmos Predict 2.5 mediante adaptadores LoRA y DoRA, con el objetivo de generar videos físicamente plausibles de trayectorias robóticas condicionados por texto, imágenes o clips. La guía plantea un flujo de fine‑tuning paramétricamente eficiente pensado para equipos que necesiten adaptar el modelado del mundo a dominios concretos — por ejemplo manipulación robótica o vistas de cámara específicas— y así escalar la generación de datos sintéticos usados para entrenar políticas.
El documento describe la arquitectura base: Cosmos Predict 2.5 combina un VAE (codificador de video), un codificador de texto y un DiT que realiza difusión en el espacio latente. Para el fine‑tuning propuesto los pesos del VAE, del codificador de texto y del DiT permanecen congelados; en su lugar se inyectan adaptadores LoRA en las proyecciones de atención (to_q, to_k, to_v, to_out.0) y en capas feedforward (ff.net.0.proj, ff.net.2). Los parámetros entrenables de LoRA se elevan a float32 para mejorar la estabilidad numérica cuando se opera en bf16.
La guía también incorpora la técnica DoRA como parte del flujo de adaptación. La receta de datos replica los conjuntos usados en el post‑entrenamiento GR00T Dreams: 92 videos de manipulación robótica para entrenamiento y 50 pares (prompt, imagen) para evaluación, en los que el modelo debe generar un video a partir del prompt y el frame inicial. Se incluyen scripts de ejemplo como download_and_preprocess_datasets.sh y train_cosmos_predict25_lora.py. La clase VideoDataset muestrea ventanas temporales aleatorias de args.num_frames y VideoProcessor normaliza los frames a tensores con formato (canales, frames, alto, ancho).
La guía destaca el interés práctico: recopilar trayectorias reales de robots es lento y costoso, y un world model fino‑ajustado permite ampliar demostraciones para entrenar políticas sin depender únicamente de datos reales. El uso de LoRA y DoRA reduce los requisitos de memoria y el riesgo de olvido catastrófico, mantiene los adaptadores pequeños y portables para intercambiarlos en inferencia y hace viable el fine‑tuning en una sola GPU en muchos escenarios.
En cuanto a requisitos operativos, la documentación recomienda Python 3.10+, PyTorch 2.5+ con soporte CUDA, y las librerías diffusers y accelerate (peft se instala como dependencia); wandb es opcional para el monitoreo. Como mínimo práctico señala una GPU de 80 GB para entrenamiento en una sola máquina; para iteración rápida se recomiendan 8× H100 en multi‑GPU. La guía muestra cómo configurar datos y pipelines tanto para single‑GPU como para multi‑GPU, pero no publica nuevos pesos del modelo base.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.