CiteVQA: бенчмарк обнаружил, что модели часто отвечают верно, но ссылаются на неверные фрагменты

Новость

Редактор новостной ленты

5/25/2026, 7:51:38 AM

CiteVQA: бенчмарк обнаружил, что модели часто отвечают верно, но ссылаются на неверные фрагменты

Пекинский университет и Шанхайская лаборатория ИИ представили CiteVQA — автоматизированный бенчмарк (25 мая 2026) с 1 897 вопросами по 711 PDF; он оценивает не только правильность ответов, но и точность привязки к параграфам/таблицам/рисункам через метрику

Исследователи из Пекинского университета и Шанхайской лаборатории искусственного интеллекта 25 мая 2026 года представили CiteVQA — бенчмарк, который показывает, что многие крупные языковые модели дают правильные ответы по документам, но ссылаются на неверные фрагменты. Главный вывод — нельзя считать ответ верифицированным, пока модель не укажет точный параграф, таблицу или рисунок; это подрывает доверие к системам в областях, где важна прослеживаемость доказательств.

CiteVQA составлен из 1 897 вопросов по 711 PDF‑документам в семи предметных областях: 451 документ на английском и 260 на китайском; в среднем документ содержит 40.6 страниц. Бенчмарк требует, чтобы модель не ограничивалась номером страницы: правильной считается привязка к конкретному параграфу, таблице или рисунку. Основной метрический показатель — Strict Attributed Accuracy (SAA): балл начисляется только если ответ верен и ссылка действительно попадает в требуемое место.

Авторы описывают полностью автоматизированный пайплайн: документы разбиются на элементы (параграфы, таблицы, рисунки), модели используются для построения цепочки доказательств, а затем проводится поэлементное удаление — аблация — чтобы проверить, был ли указанный фрагмент необходим для вывода. В экспериментальной установке участвовали 20 моделей, включая версии серии Gemini и другие коммерческие и открытые системы; метод позволил отделить реальные источники доказательств от угадываний на основе предобученных знаний.

Результаты показали большое различие между коммерческими и открытыми моделями по качеству проверяемых ссылок. Лучший коммерческий результат по SAA продемонстрировала модель Gemini‑3.1 — Pro‑Preview (76/100). GPT‑5.4 показал 87.1 по качеству ответа, но при требовании корректной атрибуции упал до 59. Сильнейшая открытая модель Qwen3-VL‑235B‑A22B набрала 22.5 по SAA, а большинство открытых систем оказались ниже 10, что указывает на многократное отставание открытых моделей по проверяемым ссылкам.

Отдельная проверка локализации источника выявила дополнительные слабые места: серия Gemini‑3 находит правильную страницу в более чем 87% случаев, тогда как у Qwen3 этот показатель около 58%. При необходимости агрегировать информацию из нескольких документов отзыв (recall) для Gemini‑3.1 Pro‑Preview падает примерно с 69% до 55%. Формат и макет документов существенно влияют на успех: стандартизованные академические статьи дают лучшие результаты, тогда как газеты и журналы с «грязной» версткой ограничивают производительность даже топ‑моделей примерно до 63% SAA.

Практические последствия очевидны: в праве, финансах и медицине требование к прослеживаемости доказательной базы критично, и наличие правильного на вид ответа без верифицируемой ссылки делает выводы невоспроизводимыми и рискованными. CiteVQA и метрика SAA предлагают разработчикам и заказчикам инструмент для тестирования и улучшения способности моделей «показывать работу», а не только выдавать правдоподобные ответы.

Источники

The Decoder AI · 5/25/2026

Ответы (0)

Пока нет ответов в этой теме.