Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. Hugging Face

NVIDIA представила Cosmos 3 — омни‑модель для физического AI, доступную с комплектом разработчика

Новость
В
Виктория Исаева
Редактор новостной ленты

6/1/2026, 5:02:45 AM

NVIDIA представила Cosmos 3 — омни‑модель для физического AI, доступную с комплектом разработчика

NVIDIA 1 июня 2026 года официально представила Cosmos 3 и сделала его доступным на платформе с сопутствующими моделями и ресурсами. Модель заявлена как омни‑решение для физического AI, объединяющее генерацию миров, физическое рассуждение и генерирование действий — это сокращает необходимость связывать несколько отдельных моделей и конвейеров вывода. В релиз вошли готовые артефакты для разработчиков: версии Cosmos 3 Super и Cosmos 3 Nano с model cards и лицензированием; интеграция с Diffusers для генерационных пайплайнов; скрипты пост‑тренировки в репозитории на GitHub; а также открытые наборы синтетических данных (SDG) для задач физического AI. Наличие этих компонентов упрощает воспроизведение результатов и дообучение на собственных данных.

Cosmos 3 умеет генерировать правдоподобные видеомиры на основе текста, изображений, видео или входов действий, рассуждать о движении, причинно‑следственных связях и пространственных отношениях, а также предсказывать будущие видеопоследовательности и действия. Такие возможности объединяют функции визуально‑языковых моделей, моделей динамики и политик управления в одном проходе.

Архитектура Cosmos 3 построена на Mixture‑of‑Transformers (MoT). Каждая модальность сначала кодируется специализированным энкодером — ViT для визуального понимания, VAE для визуально‑аудио генерации и доменно‑осознанными векторами для действий — затем проецируется в общее представление. Входная последовательность делится на две подсеквенции: авторегрессивную (AR) для рассуждений через next‑token prediction и диффузионную (DM) для генерации через итеративные денойзинг‑шаги; AR и DM используют отдельные наборы параметров в слоях трансформера и взаимодействуют через совместное внимание.

Выпуск включает два размера модели, ориентированные на разные сценарии развёртывания: Cosmos 3 Nano-8B параметров (8B reasoner и 8B generator), оптимизированная для эффективного вывода на рабочей станции (например, GPU класса RTX PRO 6000) и размещённая как nvidia/Cosmos3-Nano; Cosmos 3 Super — 32B параметров (32B reasoner и 32B generator) для крупномасштабной генерации синтетических данных. Ранее разработчики использовали отдельные модели Cosmos Predict, Transfer, Reason и Policy; теперь эти функции объединены в одном проходе модели.

Для инженеров и исследователей объединение означает сокращение архитектурной сложности: единый forward‑pass может выступать и как VLM, и как генератор видео, и как модель динамики, и как политика робота. Поставляемый комплект (model cards, лицензии, Diffusers‑интеграция, скрипты пост‑тренировки и открытые SDG‑наборы) рассчитан на упрощение обучения на собственных данных и интеграции в пайплайны для робототехники, автономного вождения, безопасности складов и «длиннохвостых» симуляций. Super‑версия требует крупного вычислительного ресурса, тогда как Nano ориентирована на более доступную разработку и тестирование, позволяя командам быстрее прототипировать и валидировать сценарии перед масштабированием.

Источники

  1. Hugging Face Blog · 6/1/2026
1
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41