
Команда представила временной бенчмарк LiveBrowseComp и показала: многие современные AI‑агенты решают вопросы за счёт заранее усвоенных знаний в параметрах, а не за счёт актуального веб‑поиска — при удалении поддерживающих документов их качество резко падает.
Команда исследователей из Харбинского технологического института и Xiaohongshu разработала временной бенчмарк LiveBrowseComp и продемонстрировала, что популярные агенты для интернет‑поиска в большинстве случаев опираются на знание, заложенное во время обучения, а не на текущий поиск в сети. Это подрывает уверенность в результатах статичных тестов и указывает на возможную несовместимость с задачами, требующими фактов из последних 90 дней. последствия затрагивают разработчиков агентов и тестировщиков — рейтинги на неподвижных бенчмарках могут переоценивать реальные способности к обнаружению актуальных фактов.
LiveBrowseComp специально ориентирован на вопросы, ответы на которые, вероятно, не попали в параметры моделей: в наборе 335 вопросов, написанных человеком, требуются факты из последних 90 дней. Бенчмарк опирается на постоянно обновляемые источники — базы данных фильмов, каталоги игр, регистры уязвимостей и каталоги землетрясений — и умышленно исключает глобально заметные события, чтобы сместить акцент с «знаний в параметрах» на проверяемую актуальность.
Исследователи протестировали 11 моделей, среди которых GPT‑5.4, Gemini 3.1 Pro, Claude Sonnet 4.6, DeepSeek — V4‑Pro, Kimi — K2.6 и MiniMax M2.5. На статичных версиях BrowseComp многие системы показывали относительно высокие показатели: MiniMax достигал 44,5% решённых задач, а Kimi K2.6-62% на китайской версии BrowseComp‑ZH. Ключевое наблюдение авторов формулируется как «intrinsic knowledge dependence» (IKD): значительная часть успеха агентов объясняется тем, что нужные факты уже хранятся в параметрах модели, а не тем, что система извлекла их из сети.
Чтобы проверить влияние IKD, исследователи удаляли из поисковой индексацию документы, поддерживающие правильные ответы. В таких условиях качество решений резко падало: MiniMax с 44,5% снизился до 8,0%, а другой пример показывает падение Kimi — с 25,5% до 2,3%. Анализ путей поиска дополнительно выявил, что более половины запросов формируются в ходе внутренних рассуждений модели, а не на основе найденных результатов; даже когда релевантные доказательства появляются, агенты используют их менее чем в трети случаев.
Исследователи отмечают, что в ряде сценариев само обращение к поиску ухудшало ответ: модель «уходила за своей гипотезой» вместо того, чтобы следовать найденной фактической информации. В ответ на эти ограничения они предлагают применять временные тесты «за пределами данных обучения» вроде LiveBrowseComp, развивать стратегии составления запросов, ужесточать проверку источников и внедрять механизмы, которые ориентируют процесс поиска на подтверждаемые доказательства, а не на гипотезы модели.
Источники
Ответы (0)
Пока нет ответов в этой теме.