
Investigadores de Apple Machine Learning Research han revelado un avance significativo en la optimización de los Grandes Modelos de Lenguaje (LLM) con la introducción de 'Sonata', un enfoque ligero que permite a estos modelos determinar de forma adaptativa cuándo y cuánto "pensar". Este desarrollo aborda un desafío crítico en la computación en tiempo de prueba de los LLM, donde, a pesar de las capacidades de razonamiento intermedio de la "cadena de pensamiento" (CoT) antes de generar respuestas, la asignación óptima del presupuesto de pensamiento para una inferencia computacionalmente eficiente no se comprendía completamente.
El núcleo de Sonata reside en su capacidad para utilizar la auto-consistencia, es decir, el grado de acuerdo entre múltiples caminos de razonamiento, como un indicador proxy para la necesidad de un pensamiento extendido. Los investigadores identificaron que una menor auto-consistencia es un claro indicio de que ciertas consultas requieren un proceso de "pensamiento" más profundo y prolongado para llegar a respuestas correctas. Este hallazgo fundamental permite a Sonata asignar dinámicamente los recursos de "pensamiento" solo cuando son realmente necesarios, optimizando así el equilibrio entre rendimiento y eficiencia computacional.
Para lograr esta asignación adaptativa, Sonata incorpora un adaptador ligero que se entrena fuera de línea utilizando un conjunto de datos de calibración. Este adaptador está diseñado para predecir la auto-consistencia directamente a partir de las representaciones ocultas de la última capa durante la fase de prellenado de la consulta. Una vez realizada esta predicción inicial, el sistema puede guiar la asignación del presupuesto de "pensamiento" sobre la marcha, incluso antes de que el proceso de razonamiento CoT comience. La versatilidad del adaptador es notable, ya que es general, transferible a través de diversas tareas una vez entrenado, y su introducción añade una sobrecarga computacional casi nula durante la inferencia, lo que subraya su eficiencia.
Los beneficios de Sonata han sido demostrados a través de extensos experimentos realizados en múltiples modelos de lenguaje, incluyendo Qwen3 — 8B, GPT-OSS-120B, Qwen3 — 235B-A22B e Intern — S1-mini. Las pruebas se llevaron a cabo utilizando una variedad de benchmarks desafiantes como AIME24, AIME25, GSM8K, MATH500 y GPQA. Los resultados son significativos: Sonata logra una reducción del 20% al 80% en los tokens de "pensamiento" sin comprometer la precisión, o, alternativamente, una mejora de hasta el 5% en la precisión con el mismo coste de tokens. Además, este enfoque es ortogonal a los métodos existentes de compresión de CoT, lo que permite ganancias de eficiencia adicionales cuando se gestionan los presupuestos de pensamiento entre consultas.
Este innovador método será presentado en la International Conference on Learning Representations (ICLR), y el artículo de investigación "Adaptive Thinking: Large Language Models Know When to Think in Latent Space" se publicará en abril de 2026. La investigación es el resultado del trabajo colaborativo de autores como Pingzhi Li, Bairu Hou, Yun Zhu, Yihao Feng, Ke Ye, Tao Lei, Zhifeng Chen, Tianlong Chen y Xianzhi Du, con contribuciones significativas realizadas mientras algunos estaban en Apple y en The University of North Carolina at Chapel Hill.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.