
Команда Frontier Evals из OpenAI 23 февраля 2026 года объявила о прекращении публикации результатов SWE-bench Verified после внутреннего аудита, который обнаружил серьёзные дефекты в тестах — это напрямую ставит под сомнение ранжирование автономных агентов для разработки, основанное на этом бенчмарке. в отчёте названы случаи воспроизведения решений у GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash, из‑за чего Verified перестал считаться показательным.
Рынок автономных ИИ‑агентов для программирования к маю 2026 года остаётся быстрым и фрагментированным: инструменты выполняют чтение issue, навигацию по многофайловым кодовым базам, написание фиксов, прогон тестов и автоматическое открытие pull request — часто без ввода строки кода человеком. Одновременно оценка этих систем стала сложнее, потому что используемые бенчмарки, сплиты и методики сильно расходятся, а часть ключевых тестов оказалась скомпрометированной.
Вместо Verified OpenAI предложила переход на SWE-bench Pro, но этот набор сложнее для интерпретации. SWE-bench Pro содержит 1 865 задач: 731 публичную, 858 удерживаемых (held‑out) и 276 коммерческих задач из 18 приватных кодовых баз стартапов. Показатели по Pro зависят от выбранного сплита, от скелета агента (scaffold), от harness и от стиля репортинга, поэтому прямое сравнение процентов между отчетами без уточнения этих условий некорректно.
На практике это уже приводит к большим различиям в публичных отчётах и вендорских таблицах. В ранних условиях Scale AI с унифицированным SWE‑Agent показал GPT‑5 на 23,3% по Pro; современные вендоры публикуют более высокие цифры при изменённом harness — OpenAI указывает GPT‑5.5 на 58,6% (Public), Anthropic демонстрирует Claude Opus 4.7 на 64,3%, а Gemini 3.1 Pro показывает 54,2%. При этом некоторые таблицы по Verified всё ещё используются для ранжирования агентов, несмотря на признанные проблемы.
Практические последствия для инженеров и архитекторов очевидны: нельзя воспринимать вендорские ранги как окончательную истину без контекста — при оценке нужно проверять, какой сплит и harness использовались, есть ли пометка о проблемах SWE‑bench Verified и не оптимизировались ли результаты под конкретный набор тестов. Для выбора инструментов в продакшн важнее эмпирическая проверка на собственных кодовых базах, наборе end‑to‑end тестов и приватных задачах, чем опираться только на агрегированные лидерыборд‑цифры.
Источники
Ответы (0)
Пока нет ответов в этой теме.