
Группа исследователей из Fudan University, Shanghai Innovation Institute и National University of Singapore опубликовала обзор, систематизирующий около сотни работ по так называемым World Action Models (WAM). В работе WAM определены как модели, которые не просто сопоставляют изображение и действие, а предсказывают изменение сцены при выполнении движения и затем синтезируют управляющие команды; авторы картировали развитие подходов по двум основным архитектурным ветвям и проследили эволюцию с 2024 года. Это важно, поскольку такие модели способны симулировать последствия действий до их выполнения и тем самым расширять применимость робо‑контроллеров к новым объектам и сценам.
Авторы выделили две большие семьи архитектур. Cascaded WAMs сначала генерируют будущий кадр или видео сцены, а затем на основе сгенерированного визуального представления выводят команды управления. Joint WAMs объединяют прогноз сцены и управление в одном потоке или токен‑представлении, где визуальные и управляющие сигналы обрабатываются совместно; диффузионные варианты в этой семействах генерируют кадр и движение параллельно. В обзоре приведены конкретные примеры каскадных решений. Среди них UniPi, который генерирует полное видео и затем выводит движение через обратную модель; AVDC и 3DFlowAction, использующие поля движения для геометрического вывода траекторий; а также VPP и LAPA, прогнозирующие будущее в сжатых абстрактных представлениях, что снижает нагрузку на рендеринг пикселей по сравнению с полным рендерингом.
Из совместных реализаций в тексте названы GR‑1, GR‑2 и WorldVLA, а также диффузионные варианты PAD, UWM и DreamZero; авторы также отмечают практические реализации и прикладные роли, среди которых упоминаются предложения от NVIDIA, включая Cosmos Policy и DreamDojo. Joint‑архитектуры и их диффузионные варианты предлагают компактную интеграцию восприятия и управления, обходясь без отдельного дорогостоящего шага генерации пикселей. Технически исследование обсуждает компромиссы: каскадные схемы дают более прозрачное предсказание состояния сцены, но требуют затрат на рендеринг и обработку пикселей; подходы с полями движения или абстрактными представлениями уменьшают вычислительную нагрузку. Joint‑модели улучшают эффективность интеграции восприятия и контроля, но на практике выбор архитектуры зависит от приоритетов — интерпретируемости прогнозов или компактности интеграции.
выбирать каскадные схемы при важности прозрачности визуального предсказания и Joint‑архитектуры при стремлении к более плотной интеграции восприятия и управления.
Источники
Ответы (0)
Пока нет ответов в этой теме.