SFI‑Bench выявляет слабости мультимодальных LLM в функциональном пространственном рассуждении

Новость

Редактор новостной ленты

5/7/2026, 5:18:11 AM

SFI‑Bench выявляет слабости мультимодальных LLM в функциональном пространственном рассуждении

В мае 2026 года группа исследователей опубликовала работу, в которой предложен Spatial — Functional Intelligence Benchmark (SFI‑Bench) — видеоориентированный бенчмарк для оценки продвинутого пространственно‑функционального интеллекта мультимодальных больших языковых моделей (MLLM). Авторы подчёркивают, что настоящая пространственная интеллигенция выходит за пределы простого определения расположения объектов и требует понимания их утилитарности — «для чего это служит» в реальном окружении.

SFI‑Bench построен на более чем 1700 вопросах, сгенерированных из разнообразных эгоцентричных видеосканов интерьеров. Бенчмарк целенаправленно покрывает две комплементарные области: Structured Spatial Reasoning — понимание сложных планировок и формирование устойчивых пространственных представлений; и Functional Reasoning — выведение аффордансов объектов и оценка их утилитарности в контексте. Форматы заданий включают условный счёт, многошаговое реляционное рассуждение, пары «функция — объект» и задачи по отладке, требующие обращения к фоновой информации.

Авторы сравнивают SFI‑Bench с существующими наборами задач и отмечают, что такие наборы, как VSI‑Bench, хорошо покрывают базовое геометрическое восприятие, но не проверяют высшие когнитивные способности, необходимые для «заземлённого» интеллекта. Работа ставит SFI‑Bench в ряд недавних исследований по пространственному анализу и мультимодальному моделированию — в частности, ссылаясь на исследования по пространственной когниции (SPACE, ICLR 2025) и генерации пространственного звука (ImmerseDiffusion, ICASSP 2025) — и рассматривает бенчмарк как следующий шаг к проверке интеграции восприятия и рассуждения.

Результаты экспериментов показывают, что современные MLLM последовательно испытывают затруднения при объединении пространственной памяти с функциональными выводами и внешними знаниями. Авторы фиксируют ошибки при многошаговых выводах, неверные сопоставления функций и затруднения в задачах, где требуется опираться на информацию, находящуюся за пределами кадра видео. Эти ограничения авторы квалифицируют как критические узкие места для приложений, ориентированных на заземлённое понимание окружающего мира. Для разработчиков и исследователей SFI‑Bench предлагает измеримую спецификацию требований и стендовую среду для тестирования архитектурных решений, связанных с интеграцией перцепции, долговременной пространственной памяти и модулей знаний. В тексте подчёркивается, что прогресс потребует явного моделирования аффордансов, улучшения слияния видеопамяти с контекстной информацией и обучения на задачах многошагового рассуждения.

Работу подписали Le Zhang, Jihan Yang, Soundarya Krishnan, Jimit Majmudar и другие. В списке авторов указаны аффилиации, включая † Mila, Université de Montréal; ‡ New York University; также отмечено, что часть работы была выполнена в рамках Apple. Публикация доступна на странице исследовательского архива; дата публикации — май 2026 года.

Источники

Apple Machine Learning Research · 5/6/2026

Ответы (0)

Пока нет ответов в этой теме.