VSAS‑Bench: новый бенчмарк для оценки потоковых визуальных ассистентов в реальном времени

Новость

Редактор новостной ленты

5/23/2026, 7:19:34 AM

VSAS‑Bench: новый бенчмарк для оценки потоковых визуальных ассистентов в реальном времени

Исследователи представили VSAS‑Bench — фреймворк и бенчмарк для оценки потоковых vision — language моделей, ориентированный на поведение ассистентов при непрерывной обработке видеопотока.

Группа исследователей опубликовала VSAS‑Bench — набор инструментов и метрик для тестирования Visual Streaming Assistants, то есть моделей, которые непрерывно генерируют ответы по мере поступления видеокадров. Это важно, потому что существующие VLM‑фреймворки в основном измеряли производительность в офлайн‑режиме и не учитывали временные свойства взаимодействия в реальном времени; VSAS‑Bench специально ориентирован на оценку таких аспектов. В состав бенчмарка вошли временно плотные аннотации более чем 18 000 меток по разным доменам и типам задач, а также формализованные синхронные и асинхронные протоколы оценки. Авторы определили набор метрик, позволяющих изолированно измерять ключевые свойства стриминг‑моделей: проактивность (timeliness) — насколько быстро модель реагирует на события, и согласованность ответов во времени (consistency), помимо традиционной точности понимания видео.

С помощью VSAS‑Bench исследователи провели масштабные эксперименты с недавними видео‑ и стриминг‑VLM, проверив компромисс между точностью и задержкой при варьировании ключевых архитектурных параметров: длины буфера памяти, политики доступа к памяти и разрешения входного видео. Анализ показал, что конфигурация буфера и стратегия доступа заметно влияют на поведение модели в реальном времени и на соотношение своевременности и точности. Практическое наблюдение команды — привычные «офлайн» VLM можно адаптировать к потоковым сценариям без дополнительного обучения, и в ряде случаев такие адаптированные модели превосходят специализированные стриминг‑модели. В частности, в экспериментах VSAS‑Bench модель Qwen3‑VL‑4B превзошла Dispider — ранее лидировавшую стриминг‑модель — на 3% по асинхронному протоколу оценки.

Для разработчиков это означает, что улучшение поведения визуальных ассистентов требует не только увеличения объёмов обучения, но и инженерных решений по организации памяти и обработке кадров. VSAS‑Bench предлагает стандартизованные протоколы и метрики, которые позволят объективно сравнивать модели по своевременности и стабильности ответов и направлять оптимизацию архитектуры и системной интеграции. Статья с описанием VSAS‑Bench опубликована в мае 2026 года. Авторы: Pavan Kumar Anasosalu Vasu*, Cem Koc*, Fartash Faghri*, Chun‑Liang Li, Bo Feng, Zhengfeng Lai, Meng Cao, Oncel Tuzel, Hadi Pouransari* (звездочкой отмечен равный вклад).

Источники

Apple Machine Learning Research · 5/22/2026

Ответы (0)

Пока нет ответов в этой теме.