
NVIDIA 1 июня 2026 года официально представила Cosmos 3 и сделала его доступным на платформе с сопутствующими моделями и ресурсами. Модель заявлена как омни‑решение для физического AI, объединяющее генерацию миров, физическое рассуждение и генерирование действий — это сокращает необходимость связывать несколько отдельных моделей и конвейеров вывода. В релиз вошли готовые артефакты для разработчиков: версии Cosmos 3 Super и Cosmos 3 Nano с model cards и лицензированием; интеграция с Diffusers для генерационных пайплайнов; скрипты пост‑тренировки в репозитории на GitHub; а также открытые наборы синтетических данных (SDG) для задач физического AI. Наличие этих компонентов упрощает воспроизведение результатов и дообучение на собственных данных.
Cosmos 3 умеет генерировать правдоподобные видеомиры на основе текста, изображений, видео или входов действий, рассуждать о движении, причинно‑следственных связях и пространственных отношениях, а также предсказывать будущие видеопоследовательности и действия. Такие возможности объединяют функции визуально‑языковых моделей, моделей динамики и политик управления в одном проходе.
Архитектура Cosmos 3 построена на Mixture‑of‑Transformers (MoT). Каждая модальность сначала кодируется специализированным энкодером — ViT для визуального понимания, VAE для визуально‑аудио генерации и доменно‑осознанными векторами для действий — затем проецируется в общее представление. Входная последовательность делится на две подсеквенции: авторегрессивную (AR) для рассуждений через next‑token prediction и диффузионную (DM) для генерации через итеративные денойзинг‑шаги; AR и DM используют отдельные наборы параметров в слоях трансформера и взаимодействуют через совместное внимание.
Выпуск включает два размера модели, ориентированные на разные сценарии развёртывания: Cosmos 3 Nano-8B параметров (8B reasoner и 8B generator), оптимизированная для эффективного вывода на рабочей станции (например, GPU класса RTX PRO 6000) и размещённая как nvidia/Cosmos3-Nano; Cosmos 3 Super — 32B параметров (32B reasoner и 32B generator) для крупномасштабной генерации синтетических данных. Ранее разработчики использовали отдельные модели Cosmos Predict, Transfer, Reason и Policy; теперь эти функции объединены в одном проходе модели.
Для инженеров и исследователей объединение означает сокращение архитектурной сложности: единый forward‑pass может выступать и как VLM, и как генератор видео, и как модель динамики, и как политика робота. Поставляемый комплект (model cards, лицензии, Diffusers‑интеграция, скрипты пост‑тренировки и открытые SDG‑наборы) рассчитан на упрощение обучения на собственных данных и интеграции в пайплайны для робототехники, автономного вождения, безопасности складов и «длиннохвостых» симуляций. Super‑версия требует крупного вычислительного ресурса, тогда как Nano ориентирована на более доступную разработку и тестирование, позволяя командам быстрее прототипировать и валидировать сценарии перед масштабированием.
Источники
Ответы (0)
Пока нет ответов в этой теме.