Технологический университет Цинхуа представил WorldReasonBench

Новость

Редактор новостной ленты

5/16/2026, 11:31:49 AM

Технологический университет Цинхуа представил WorldReasonBench

Исследователи из Технологического университета Цинхуа выпустили WorldReasonBench — набор тестов для оценки физической, социальной, логической и информационной правдоподобности продолжения сцены; параллельно опубликован WorldRewardBench с ~6000 пар сравнений.

Группа исследователей из Технологического университета Цинхуа представила WorldReasonBench — пакет тестов, цель которого оценить не визуальную эстетику, а способность видео‑генераторов правдоподобно продолжать сцену и сохранять причинно‑следственные связи. Результаты показывают, что современные модели часто создают реалистичные клипы, но системно ошибаются в рассуждении о динамике событий, что важно для приложений, где требуется понимание процессов и последовательностей. Сам набор включает около 400 тестовых кейсов, сгруппированных в четыре области: знания о мире (физика, погода, культурные нормы), сцены, ориентированные на человека (манипуляции объектами и социальные взаимодействия), логическое рассуждение (математика, геометрия, научные эксперименты) и информационно‑условные задачи (чтение данных и диаграмм). Параллельно авторы выпустили WorldRewardBench — датасет примерно из 6000 сравнений видео, ранжированных обученными аннотаторами для обучения и оценки предпочтений.

Для оценки предложена двустадийная схема: в первом шаге «process‑aware» метод формулирует структурированные вопросы, фиксирует правильное итоговое состояние и путь к нему; во втором проходе видео получают баллы за качество рассуждения, временную согласованность и визуальную эстетику. Исследователи также ввели метрику, отслеживающую долю правильных ответов, зависящих именно от динамики процесса, а не от статичных кадров.

В эксперименте проверяли пять коммерческих систем — Sora 2, Kling, Wan 2.6, Seedance 2.0 и Veo 3.1 — Fast — и шесть открытых моделей: LTX 2.3, Wan 2.2 — 14B, UniVideo, HunyuanVideo 1.5, Cosmos — Predict 2.5 и LongCat — Video. По основному показателю рассуждения коммерческие генераторы в среднем набрали примерно вдвое больше, при этом Seedance 2.0 заняла первое место в девяти из десяти статистических прогонов.

Несмотря на лидеров, у всех моделей наблюдаются типичные ошибки: физические сцены «ломаются» — яблоко может «улететь» или упасть неправильно, падающие домино, крани‑игрушки и простые электрические схемы часто демонстрируют неверную причинно‑следственную последовательность. Логические задачи оказались самыми трудными для всех систем, информационные задачи (точная передача текста и чисел) — на втором месте по сложности. Практический вывод для разработчиков и исследователей прост: пиксельная реалистичность не равна пониманию причин и следствий. Открытые модели заметно выигрывают от подробных пошаговых подсказок, что указывает на сильную зависимость от качества промпта, тогда как коммерческие системы лучше моделируют динамику. WorldReasonBench и WorldRewardBench предоставляют готовые тесты и сравнительные данные для до‑обучения и объективной оценки прогресса в «мировом» моделировании видео.

Источники

The Decoder AI · 5/16/2026

Ответы (0)

Пока нет ответов в этой теме.