
Консорциум из 64 математиков представил SOOHAK-набор из 439 задач, включая 99 намеренно неразрешимых; современные LLM показывают прогресс в решении исследовательских задач, но системно ошибаются при распознавании «сломанных» формулировок.
Консорциум из 64 математиков опубликовал 17 мая 2026 года бенчмарк SOOHAK из 439 оригинальных математических задач, цель которого — одновременно проверить способность больших языковых моделей решать задачи уровня исследований и их умение корректно отказаться от ответа, если задача неразрешима. Набор включает 99 специально созданных «сломанных» задач, где модель получает зачёт только при корректном указании на противоречие или недостаток предпосылок.
SOOHAK организован в два блока: Challenge — 340 задач уровня аспирантуры и исследований, и Refusal — 99 задач с намеренными противоречиями или пропущенными данными. Авторы набора — 38 профессоров, 25 аспирантов и постдоков и пятеро медалистов Международной математической олимпиады; каждый участник подтвердил, что не использовал помощь LLM при формулировке задач. Коллекция прошла автоматические и ручные проверки и несколько итераций правок. По словам авторов, для сравнения также подготовлен облегчённый вариант SOOHAK‑Mini, на котором показатели моделей существенно выше.
Результаты на блоке Challenge показывают заметный разрыв между моделями. Google Gemini 3 Pro набирает около 30%, семейство GPT‑5 (версии 5.1 и 5.2) — примерно 26%, Claude Opus 4.5 — около 10%. Открытые веса, такие как Kimi‑2.5, Qwen3‑235B и GPT‑OSS‑120B, остаются ниже 15%. Авторы отмечают, что 124 задач из блока Challenge не было решено ни одной из протестированных моделей.
Ключевой вывод — блок Refusal: ни одна модель не достигла 50% точности при распознавании «сломанных» задач. Лучший результат у GLM‑5 — немного ниже 50%, тогда как семейство Qwen3 демонстрирует менее 3% точности и почти всегда даёт уверенный, но неверный ответ на намеренно неисправные формулировки. Авторы характеризуют задачу обнаружения внутренних конфликтов в постановке как «новую цель оптимизации», которой современные модели не обучены напрямую.
Сравнение с человеческой производительностью показало, что 25 участников из пяти экспериментальных групп (включая медалистов IMO и PhD‑исследователей) совместно решили 51% выбранных 79 задач тестовой выборки. Из всех моделей только Gemini 3 Pro превзошёл это покрытие, достигнув 61%. Примечательно, что команды с олимпиадным опытом в ряде случаев опережали PhD‑исследователей: последние иногда выступали хуже подготовленных студентов‑олимпиадников.
Для разработчиков и деплойеров это означает конкретные риски: при наращивании параметров и бюджета рассуждений модели действительно становятся сильнее в решении сложных задач, но не лучше в умении отказаться от ответа при внутренних противоречиях формулировки. Практические рекомендации авторов — вводить целенаправленную тренировку на отказ, системное тестирование на «сломанных» кейсах и проверку покрытия нишевых областей для открытых моделей перед их применением в исследовательских или критичных продуктах.
Источники
Ответы (0)
Пока нет ответов в этой теме.