
Un equipo compuesto por investigadores de las universidades UMD, UVA, WUSTL y UNC, junto con expertos de Google y Meta, empleó el agente de codificación Claude Code dentro del marco AutoTTS para buscar automáticamente políticas de escalado en tiempo de prueba. El agente generó un controlador que, según los autores, reduce de manera notable el consumo de tokens — aproximadamente un 70% en el ajuste “lean”— mientras mantiene la misma precisión que métodos previos de auto‑consistencia.
AutoTTS opera en un entorno offline: para cada tarea el equipo pre‑genera y almacena numerosas trayectorias de solución producidas por el modelo de lenguaje. Esa simulación previa permite que Claude Code proponga controladores escritos en código y los evalúe sin invocar el modelo en vivo en cada intento. Cada propuesta expone únicamente un controlador de alto nivel y los registros de ejecución señalan con precisión en qué puntos se desperdició cómputo en intentos anteriores, facilitando la optimización.
Los autores formalizan el espacio de control en términos de anchura y profundidad: la anchura indica cuántas trayectorias se evalúan en paralelo y la profundidad marca hasta dónde se extiende cada camino. En lugar de imponer reglas humanas fijas de ramificación, poda y detención, AutoTTS explora rutas nuevas dentro de ese espacio. Esa búsqueda automatizada permite evaluar variantes que serían costosas o imprácticas de probar directamente con el modelo en producción.
En comparativas con benchmarks matemáticos, el algoritmo descubierto ofreció mayor precisión por unidad de cómputo que métodos establecidos. En concreto, mostró ventajas en pruebas con AIME y HMMT. Además, los autores trasladaron el controlador a otro modelo — DeepSeek — R1 — Distill — Llama — 8B— y lo evaluaron en un benchmark no estrictamente matemático (GPQA — Diamond); en esos ensayos el método rindió mejor o de forma comparable en cuatro tamaños de modelo y en dos benchmarks de matemáticas.
La importancia práctica radica en que el nuevo enfoque mantiene la precisión de la auto‑consistencia tradicional — que genera 64 respuestas en paralelo y elige por mayoría — pero consumiendo mucho menos cómputo. Según los resultados reportados, en el modo “lean” el ahorro de tokens ronda el 70%, lo que puede traducirse en menores costes de experimentación y despliegue cuando se aplican técnicas de escalado en tiempo de prueba a modelos grandes.
La estructura del algoritmo hallado es poco intuitiva: en vez de abandonar al primer indicio de mayoría, rastrea cómo evoluciona la confianza del modelo a lo largo de rondas sucesivas. Si la confianza apenas cambia entre rondas, el controlador tiende a abrir más trayectorias para explorar alternativas; si la confianza aumenta con rapidez, evita abrir nuevas rutas y concentra recursos en las ya prometedoras. Además, asigna cómputo adicional a trayectorias interinas que se alinean con la mayoría y solo elimina trayectorias divergentes tras varias rondas de comprobación.
El coste material del proceso de descubrimiento fue relativamente bajo: los autores indican que toda la búsqueda consumió alrededor de 40 dólares y se completó en 160 minutos. Ese bajo coste fue posible porque AutoTTS permite simular miles de variantes usando datos pre‑generados en lugar de invocar el modelo real en cada prueba. Los investigadores también documentan un estudio de ablación que muestra que el rendimiento depende de forma significativa de dos decisiones de diseño del entorno de búsqueda.
En términos de implicaciones, el trabajo sugiere un cambio en el papel del humano: menos tiempo dedicado a idear reglas de control y más a diseñar el entorno (estados, acciones y señales de retroalimentación) que guiará la búsqueda automática. Los autores sostienen que esa coordinación entre entorno y agente puede descubrir políticas de escalado no evidentes por diseño humano, abriendo la puerta a estrategias de optimización más eficientes que las concebidas manualmente.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.