
Una revisión del 29 de mayo de 2026 sostiene que la capa de software que rodea a los modelos — el 'harness'— determina si estos actúan como agentes autónomos, y pide evaluaciones más transparentes ante riesgos operativos.
El 29 de mayo de 2026, investigadores afiliados a Meta, Stanford y la University of Illinois Urbana — Champaign publicaron una revisión que concluye que la capa de software que envuelve a los modelos de lenguaje — el 'harness'— es determinante para que un modelo funcione como un agente autónomo capaz de planificar, ejecutar y mantenerse en tareas reales. La conclusión desplaza el foco: no basta con medir solo las capacidades del modelo, es la arquitectura de soporte la que define la operatividad sostenida y los riesgos asociados.
Los autores definen 'harness' como la capa que integra herramientas, interfaces, entornos de ejecución aislados, memoria, sistemas de prueba, límites de permisos, bucles de ejecución y canales de retroalimentación. En ese marco, el código generado en tiempo real actúa como un formato ejecutable, rastreable y persistente: produce trazas estructuradas, facilita la verificación de operaciones y permite conservar estado entre pasos sucesivos, lo que transforma salidas de texto en comportamientos reproducibles.
La revisión subraya además que el comportamiento observado en escenarios reales emerge de la interacción entre las capacidades del modelo, la infraestructura subyacente y el propio código que el agente escribe dinámicamente. Esa combinación explica por qué dos implementaciones del mismo modelo pueden mostrar niveles muy distintos de autonomía, fiabilidad y trazabilidad.
En el terreno comercial, los autores señalan que productos como Claude Code y OpenAI Codex ya operan según esa lógica de modelo más capa ejecutable. También citan que Deepseek está formando en Pekín un equipo dedicado al 'harness' y reproducen la consigna interna que sintetiza la tesis central: "modelo + harness = agente". Por su parte, los investigadores advierten que las pruebas de software actuales suelen ser incompletas y pueden ocultar riesgos operativos, por lo que hacen un llamado a desarrollar mecanismos de evaluación más transparentes y específicos para sistemas con código autocreado.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.