Aivizor
Aivizor
EstilosCreacionesComunidad
Atrás
  1. Comunidad
  2. /
  3. Hugging Face

NVIDIA lanza Cosmos 3, omni‑modelo abierto para IA física y control de acciones

News
I
Inés Montoya

6/1/2026, 6:08:00 AM

NVIDIA lanza Cosmos 3, omni‑modelo abierto para IA física y control de acciones

El 1 de junio de 2026 NVIDIA publicó Cosmos 3 y lo puso a disposición en un repositorio público de modelos, entregando dos versiones (Cosmos 3 Super y Cosmos 3 Nano) junto con documentación, tarjetas de modelo y licencias. La compañía también incluyó integraciones y recursos dirigidos a desarrolladores que trabajan en IA física aplicada a robótica y simulación. Al integrar generación de mundos, razonamiento físico y generación de acciones en un único paso de inferencia, Cosmos 3 promete simplificar pipelines complejos que hasta ahora requerían encadenar múltiples modelos.

La base técnica de Cosmos 3 es una arquitectura Mixture‑of‑Transformers (MoT) diseñada para procesar de forma conjunta texto, imagen, vídeo, audio y acciones en una representación compartida. Cada modalidad cuenta con un codificador dedicado — por ejemplo ViT para visión y VAE para generación— y esas representaciones se proyectan a un espacio común donde se efectúan tanto el razonamiento como la generación. Esa uniformidad facilita que las distintas señales multimodales se integren sin necesidad de traducir entre formatos incompatibles.

Una novedad clave es la separación del input en dos subsecuencias con objetivos distintos: una autoregresiva (AR) para razonamiento mediante predicción del siguiente token y otra de difusión (DM) para generación mediante denoising iterativo. AR y DM mantienen parámetros separados en cada capa del transformador y se comunican mediante mecanismos de atención conjunta, lo que permite alternar entre funciones de VLM, generador de vídeo, modelo de dinámica y políticas robóticas sin cambiar la arquitectura subyacente.

En términos de despliegue, Cosmos 3 Nano consta de dos componentes de 8B (8B reasoner y 8B generator) optimizados para inferencia eficiente en estaciones de trabajo — por ejemplo con GPU RTX PRO 6000— y se publica en el repositorio nvidia/Cosmos3 — Nano. Cosmos 3 Super agrupa dos componentes de 32B (32B reasoner y 32B generator) y está orientado a la generación de datos sintéticos a gran escala, ofreciendo mayor capacidad para escenarios extensos y complejos.

La puesta a disposición incluye integración con Diffusers para tuberías de generación, scripts de post‑entrenamiento alojados en GitHub para adaptar el modelo a datos propios y conjuntos abiertos de Synthetic Data Generation (SDG) orientados a IA física. Además se publica el Cosmos Framework y otros recursos diseñados para que ingenieros y equipos experimenten, entrenen y evalúen sus propios escenarios con las herramientas provistas.

De cara a aplicaciones prácticas, la unificación de generación de mundos, razonamiento físico y políticas de acción en una sola pasada reduce la sobrecarga de integrar múltiples modelos y acelera la experimentación. Entre los casos de uso citados figuran la creación de datos sintéticos para seguridad en almacenes, la simulación de escenarios de conducción de cola larga y el entrenamiento de políticas de manipulación (pick and place), tareas que se benefician de una plataforma más compacta y coherente.

Fuentes

  1. Hugging Face Blog · 6/1/2026
0
0
0

Respuestas (0)

Aún no hay respuestas en este tema.

9:41