OpenAI прекратил публикацию результатов SWE-bench Verified после аудита — это ставит под вопрос рейтинги агентов

Новость

Редактор новостной ленты

5/15/2026, 9:28:30 AM

OpenAI прекратил публикацию результатов SWE-bench Verified после аудита — это ставит под вопрос рейтинги агентов

Команда Frontier Evals из OpenAI 23 февраля 2026 года объявила о прекращении публикации результатов SWE-bench Verified после внутреннего аудита, который обнаружил серьёзные дефекты в тестах — это напрямую ставит под сомнение ранжирование автономных агентов для разработки, основанное на этом бенчмарке. в отчёте названы случаи воспроизведения решений у GPT-5.2, Claude Opus 4.5 и Gemini 3 Flash, из‑за чего Verified перестал считаться показательным.

Рынок автономных ИИ‑агентов для программирования к маю 2026 года остаётся быстрым и фрагментированным: инструменты выполняют чтение issue, навигацию по многофайловым кодовым базам, написание фиксов, прогон тестов и автоматическое открытие pull request — часто без ввода строки кода человеком. Одновременно оценка этих систем стала сложнее, потому что используемые бенчмарки, сплиты и методики сильно расходятся, а часть ключевых тестов оказалась скомпрометированной.

Вместо Verified OpenAI предложила переход на SWE-bench Pro, но этот набор сложнее для интерпретации. SWE-bench Pro содержит 1 865 задач: 731 публичную, 858 удерживаемых (held‑out) и 276 коммерческих задач из 18 приватных кодовых баз стартапов. Показатели по Pro зависят от выбранного сплита, от скелета агента (scaffold), от harness и от стиля репортинга, поэтому прямое сравнение процентов между отчетами без уточнения этих условий некорректно.

На практике это уже приводит к большим различиям в публичных отчётах и вендорских таблицах. В ранних условиях Scale AI с унифицированным SWE‑Agent показал GPT‑5 на 23,3% по Pro; современные вендоры публикуют более высокие цифры при изменённом harness — OpenAI указывает GPT‑5.5 на 58,6% (Public), Anthropic демонстрирует Claude Opus 4.7 на 64,3%, а Gemini 3.1 Pro показывает 54,2%. При этом некоторые таблицы по Verified всё ещё используются для ранжирования агентов, несмотря на признанные проблемы.

Практические последствия для инженеров и архитекторов очевидны: нельзя воспринимать вендорские ранги как окончательную истину без контекста — при оценке нужно проверять, какой сплит и harness использовались, есть ли пометка о проблемах SWE‑bench Verified и не оптимизировались ли результаты под конкретный набор тестов. Для выбора инструментов в продакшн важнее эмпирическая проверка на собственных кодовых базах, наборе end‑to‑end тестов и приватных задачах, чем опираться только на агрегированные лидерыборд‑цифры.

Источники

MarkTechPost AI · 5/15/2026

Ответы (0)

Пока нет ответов в этой теме.