
На конференции GTC Taipei NVIDIA представила Cosmos 3 — открытый набор foundation‑моделей для физического ИИ, который, по заявлению компании, является первой полностью открытой «омнимоделью» с нативным визуальным рассуждением и мультимодальной генерацией. Cosmos 3 объединяет восприятие, симуляцию и генерацию действий в единую платформу, что, по мнению разработчика, должно упростить создание роботов, автопилотов и сложных систем машинного зрения. В основе Cosmos 3 лежит новая архитектура mixture‑of‑transformers: сочетание reasoning transformer и expert generation transformer. По замыслу, сначала reasoning transformer анализирует взаимодействия объектов, движение и пространственно‑временные связи, а затем expert generation transformer генерирует видео, траектории действий и другие выходные данные. Модель поддерживает конвейерную работу с текстом, изображениями, видео, амбиент‑звуком и действиями в одном процессе обработки.
NVIDIA заявляет, что Cosmos 3 обучалась на одном из крупнейших мультимодальных датасетов для физического ИИ-на миллиардах примеров, включающих текст, изображения, видео, звук и траектории действий. По утверждению компании, модель занимает первые места по ряду метрик для генерации миров: Artificial Analysis, Physics — IQ, PAI — Bench и R — Bench; а также лидирует в задачах действий и понимания зрения по наборам RoboLab, RoboArena, VANTAGE — Bench и TAR.
Линейка Cosmos 3 выпускается в нескольких вариантах для разных этапов разработки: Cosmos 3 Super ориентирован на пост‑тренинг роботов и автономных транспортных средств при максимальной физической точности; Cosmos 3 Nano предназначен для высококачественной видеогенерации и рассуждения о действиях «в доли секунды»; Cosmos 3 Edge заявлен как решение для работы в реальном времени на периферии и появится позже. NVIDIA предлагает модель как основу для vision‑language решений, world‑ и video‑моделей для симуляции состояний и в качестве бэбона для политик world‑action.
Параллельно с релизом создана Cosmos Coalition — глобальная кооперация разработчиков world‑моделей и лидеров робототехники. В число основателей вошли Agile Robots, Black Forest Labs, Generalist, LTX, Runway и Skild AI; участники смогут вносить модели, исследования и методы оценки, а также использовать инструменты Cosmos 3 и инфраструктуру NVIDIA DGX Cloud для крупномасштабного обучения. NVIDIA утверждает, что Cosmos 3 сокращает циклы обучения и оценки физических ИИ‑систем «с месяцев до дней», снижая затраты на данные и обучение. Основатель и CEO Jensen Huang сказал, что это даёт «поколенческий скачок» в способности строить системы, которые воспринимают, рассуждают, планируют и действуют в физическом мире, и что коалиция должна ускорить открытое развитие следующих поколений world‑моделей.
Источники
Ответы (0)
Пока нет ответов в этой теме.