
Un equipo de 64 matemáticos presentó SOOHAK, un nuevo benchmark concebido para detectar dos carencias concretas de los modelos de IA: su capacidad para resolver problemas matemáticos de nivel de investigación y su habilidad para rechazar correctamente enunciados que carecen de solución o son contradictorios. El conjunto incluye 439 problemas originales redactados a mano por la comunidad organizadora y fue diseñado específicamente para evaluar tanto la pericia matemática como la prudencia de los modelos ante formulaciones defectuosas.
SOOHAK se estructura en tres bloques. El conjunto Challenge reúne 340 problemas de nivel graduado y de investigación; el conjunto Refusal contiene 99 problemas deliberadamente defectuosos — por ejemplo, hipótesis faltantes o contradicciones internas — destinados a medir la capacidad de los modelos para negar o señalar la imposibilidad de una solución; y SOOHAK — Mini agrupa problemas de menor dificultad, desde nivel olímpico escolar hasta primeros cursos universitarios. Todos los ítems fueron redactados desde cero por los colaboradores del proyecto.
La elaboración y el control de calidad siguieron un protocolo estricto: 38 profesores, 25 estudiantes de doctorado y postdocs y cinco medallistas de la Olimpiada Internacional de Matemáticas (IMO) participaron en la escritura y revisión de los problemas. Cada contribuyente confirmó explícitamente que no recurrió a ayuda de modelos de IA durante la creación; además se aplicaron comprobaciones automáticas con LLM, moderación manual, sucesivas revisiones y una aceptación final. Los organizadores informaron que cualquier participante sorprendido usando generación de LLM fue expulsado del proceso.
En las pruebas de rendimiento, los modelos mostraron variaciones marcadas según la dificultad. En el conjunto Challenge, Google Gemini 3 Pro obtuvo el mejor resultado con un 30% de aciertos; las variantes de GPT‑5 (5.1 y 5.2) alcanzaron 26%; Claude Opus 4.5 quedó en 10%. Modelos de pesos abiertos como Kimi‑2.5, Qwen3‑235B y GPT‑OSS‑120B se situaron por debajo del 15%. Además, los evaluadores señalaron que 124 problemas del Challenge no fueron resueltos por ninguno de los modelos probados.
El comportamiento ante el conjunto Refusal reveló una debilidad distinta: ningún modelo superó el 50% al identificar y nombrar fallos en problemas defectuosos. GLM‑5 registró el mejor desempeño en esa tarea, ubicándose algo por debajo del 50% y superando a las familias GPT‑5 y Gemini 3 Pro. En contraste, la familia Qwen3 obtuvo resultados inferiores al 3% en Refusal, casi siempre proponiendo una solución en lugar de rechazar el enunciado como inválido o imposible.
Para comparar con humanos, los autores reclutaron a 25 participantes organizados en cinco grupos, que iban desde medallistas del IMO hasta matemáticos con doctorado. En una muestra combinada de 79 tareas, los grupos humanos resolvieron colectivamente el 51% de los ítems; en ese mismo subconjunto, solo Gemini 3 Pro superó a los humanos con un 61%. Los participantes con experiencia en olimpiadas obtuvieron mejores resultados que los investigadores doctorales en ese conjunto de tareas.
Los autores subrayan la relevancia de estos hallazgos: aunque aumentar parámetros y presupuesto de razonamiento tiende a elevar las tasas de solución en problemas resolubles, no mejora de forma paralela la capacidad de detectar enunciados defectuosos. Definen la detección de problemas fallidos como “un nuevo objetivo de optimización” que los modelos actuales no persiguen directamente, y advierten de una brecha entre avances llamativos en problemas resueltos y las habilidades de investigación más amplias que se esperarían de sistemas de IA avanzados.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.