OpenAI cuestiona SWE-bench Verified tras auditoría y complica los rankings de agentes de programación

News

5/16/2026, 5:06:51 AM

OpenAI cuestiona SWE-bench Verified tras auditoría y complica los rankings de agentes de programación

Una auditoría de OpenAI del 23 de febrero de 2026 halló fallos en SWE-bench Verified: 59.4% de 138 problemas difíciles tenían casos de prueba defectuosos o eran insolubles, y detectó contaminación de datos en modelos de frontera.

OpenAI publicó el 23 de febrero de 2026 una auditoría que pone en duda la integridad de SWE‑bench Verified, un benchmark clave que se utilizaba para clasificar agentes de IA para programación. El hallazgo central: muchas mejoras reportadas en ese benchmark ya no reflejan ganancias reales en capacidad, lo que complica la comparación entre herramientas y la toma de decisiones por parte de compradores e inversores.

SWE‑bench Verified agrupa 500 problemas reales extraídos de GitHub para evaluar corrección end‑to‑end. Los auditores revisaron 138 de los casos más difíciles a través de 64 ejecuciones y encontraron que el 59.4% presentaba casos de prueba defectuosos o problemas insolubles. Además, la auditoría documenta evidencia de contaminación de datos en modelos de frontera, citando a GPT‑5.2, Claude Opus 4.5 y Gemini 3 Flash como afectados.

Ante esos problemas, OpenAI concluyó que SWE‑bench Verified ya no es fiable para medir mejoras reales y recomendó la adopción de SWE‑bench Pro como reemplazo. Mientras tanto, los rankings del mercado siguen circulando: Claude Code aparece con 87.6% en SWE‑bench Verified y GPT‑5.5 lidera Terminal — Bench con 82.7%. Esos puntajes se citan a la hora de comparar herramientas pese a que las métricas y condiciones de prueba no son homogéneas entre proveedores.

El contexto comercial añade complejidad: a inicios de 2026 cerca del 85% de los desarrolladores decía usar asistencia de IA de forma regular y el sector se ha fragmentado en arquetipos — agentes de terminal, IDEs con IA integrada, ingenieros autónomos en la nube y marcos de código abierto que permiten intercambiar modelos—; muchas empresas publican sus propios puntajes con metodologías distintas. Por eso, gestores de herramientas y presupuestos deberían priorizar métricas relevantes para producción y preferir pruebas recomendadas como SWE‑bench Pro, interpretando con cautela cualquier ranking basado en SWE‑bench Verified.

Fuentes

MarkTechPost AI · 5/15/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás