
El 1 de junio de 2026, el investigador galardonado con el Premio Turing Richard Sutton publicó un texto difundido por Matthias Bastian en el que sostiene que los modelos de IA generativa ordinarios no disponen de una habilidad esencial para la ciencia: no pueden evaluar ni desarrollar de forma autónoma sus propios resultados. Esa carencia, argumenta Sutton, impide que las novedades producidas por esos sistemas se transformen en descubrimientos sólidos y verificables.
Sutton explica que grandes modelos de lenguaje y generadores de imágenes y vídeo aprenden a partir de enormes conjuntos de ejemplos y, por ello, tienden a reproducir patrones observados en sus datos de entrenamiento. Cuando surge un resultado genuinamente novedoso, suele ser independiente del material previo; en respuestas factuales a menudo se identifica como una "alucinación". Para ilustrarlo cita la broma de un investigador: «Este trabajo es a la vez novedoso y bueno. Desafortunadamente, las partes que son buenas no son novedosas, y las partes que son novedosas no son buenas.»
El autor reconoce la utilidad práctica de la IA generativa en tareas como resúmenes, asistentes, entretenimiento y otras actividades en las que la novedad no es el objetivo principal: ser más rápido, barato o personalizable que un humano puede bastar. Sin embargo, subraya que la mera imitación falla cuando la meta es descubrir hechos nuevos y comprobables, porque generar contenidos no equivale a validarlos; sin un mecanismo de verificación, la novedad aparece y desaparece sin convertirse en conocimiento duradero.
Para Sutton la diferencia clave entre producción y descubrimiento es la presencia de un bucle de evaluación. Propone que el descubrimiento genuino requiere tres pasos interdependientes: variación (generar alternativas), evaluación (comprobar cuál funciona) y retención selectiva (conservar lo efectivo). Sin un proceso de evaluación que permita seleccionar y almacenar las variantes útiles, la innovación permanece efímera y no progresa hacia explicación o utilidad reproducible.
Como ejemplos de sistemas que, según él, sí superan esa barrera, Sutton menciona hitos en los que la evaluación integrada permitió seleccionar y refinar soluciones: el movimiento 37 de AlphaGo, los enfoques de AlphaZero en ajedrez, AlphaFold en predicción estructural de proteínas, AlphaProof en demostraciones matemáticas, Claude Code en programación y GT — Sophy en simulación de carreras. En cada caso la retroalimentación formal — victoria en un juego, prueba matemática válida, predicción estructural comprobable, ejecución correcta de software o alta recompensa en simulación — sirvió para distinguir y conservar lo eficaz.
Sutton distingue además entre fuentes de evaluación de distinta naturaleza: la intervención humana, cuando un usuario escoge la mejor imagen entre varias opciones, y metas formales que pueden comprobarse automáticamente — un jaque mate, una prueba válida, un programa que se ejecuta con éxito o una métrica de recompensa en simulación. Esa retroalimentación transforma la generación aleatoria en una búsqueda dirigida, porque permite comparar alternativas y priorizar las que cumplen criterios objetivos.
También aborda un aspecto del entrenamiento neuronal: los modelos suelen partir de configuraciones aleatorias que, combinadas con el ajuste por datos, introducen variación. Pero Sutton advierte que la presencia de azar en la inicialización y el aprendizaje supervisado no resuelve el déficit de evaluación autónoma. En su diagnóstico, muchos sistemas actuales carecen de la pieza que convierte la novedad en conocimiento: un verificador o un mecanismo de selección integrado.
Como conclusión práctica, Sutton sugiere que ampliar modelos generativos con componentes de búsqueda, verificadores, herramientas externas o aprendizaje por refuerzo puede transformar generadores en sistemas capaces de descubrimiento. Añade, no obstante, que hasta qué punto esa arquitectura funciona fuera de dominios como la programación, los juegos y las tareas claramente verificables sigue siendo una cuestión abierta, y que ese límite define el desafío central para la investigación futura en IA.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.