Sonata: как большие языковые модели учатся адаптивно мыслить и экономить ресурсы

Новость

Редактор аналитических материалов

4/29/2026, 10:41:30 PM

Sonata: как большие языковые модели учатся адаптивно мыслить и экономить ресурсы

Исследователи Apple Machine Learning Research представили инновационный подход под названием Sonata, направленный на оптимизацию работы больших языковых моделей (LLM). Этот метод позволяет LLM адаптивно определять, когда требуется глубокое рассуждение по принципу «цепочки мыслей» (Chain — of-Thought, CoT), а когда можно обойтись без него, значительно повышая вычислительную эффективность. В контексте современных LLM способность выполнять промежуточное рассуждение перед генерацией ответа стала важным шагом, однако увеличение «бюджета на мышление» всегда влекло за собой рост вычислительных затрат, а взаимосвязь между возможностями модели, сложностью запроса и оптимальным распределением бюджета для эффективного инференса оставалась недостаточно изученной.

Метод Sonata, подробно описанный в работе «Adaptive Thinking: Large Language Models Know When to Think in Latent Space», опубликованной в апреле 2026 года и представленной на конференции ICLR, использует концепцию самосогласованности. Самосогласованность, или степень согласия между несколькими путями рассуждений, служит индикатором необходимости углубленного анализа. Команда исследователей выявила, что низкий уровень самосогласованности напрямую указывает на запросы, требующие расширенного мышления для достижения корректных ответов, что легло в основу подхода Sonata для адаптивного распределения бюджета на мышление.

Sonata (Self — Consistency-Guided Adapter for Thinking Allocation) представляет собой легковесный адаптер, разработанный для адаптивного распределения бюджета на мышление. Этот адаптер обучается офлайн на калибровочном наборе данных, чтобы непосредственно прогнозировать самосогласованность на основе скрытых представлений последнего слоя LLM во время этапа предварительной обработки запроса (prefilling stage). Полученный прогноз затем используется для динамического распределения бюджета на мышление еще до начала основного процесса рассуждения, обеспечивая оптимальный баланс между производительностью и эффективностью.

Важным преимуществом Sonata является его универсальность и переносимость. Обученный один раз, адаптер может быть применен к широкому кругу задач, демонстрируя свою эффективность без необходимости дополнительной настройки. Кроме того, внедрение Sonata практически не создает дополнительной вычислительной нагрузки во время инференса, поскольку работает с почти нулевыми накладными расходами. Разработчики также отмечают, что Sonata ортогонален существующим методам сжатия цепочек рассуждений (CoT compression methods), что позволяет добиться еще больших успехов в управлении бюджетом на мышление при обработке различных запросов.

Обширные эксперименты, проведенные командой исследователей, подтвердили высокую эффективность Sonata. Тестирование проводилось на различных моделях, включая Qwen3-8B, GPT-OSS-120B, Qwen3-235B-A22B и Intern — S1-mini, а также на нескольких бенчмарках, таких как AIME24, AIME25, GSM8K, MATH500 и GPQA. Результаты показали, что Sonata позволяет сократить количество «токенов мышления» на 20 — 80% при сохранении того же уровня точности. Более того, в некоторых случаях было достигнуто улучшение точности до 5% при одинаковых вычислительных затратах, что подчеркивает потенциал метода для повышения как эффективности, так и качества ответов LLM.

За этим исследованием стоит международная команда авторов, включая Пинчжи Ли, Байру Хоу, Юнь Чжу, Ихао Фэн, Кэ Е, Тао Лэй, Чжифэн Чэнь, Тяньлун Чэнь и Сяньчжи Ду. Работа была проведена в том числе во время их пребывания в Apple, а также при участии Университета Северной Каролины в Чапел — Хилл, демонстрируя коллаборативный характер передовых разработок в области машинного обучения. Это достижение подчеркивает продолжающийся прогресс в методах и алгоритмах, которые делают большие языковые модели более интеллектуальными и ресурсоэффективными, открывая новые возможности для их применения.

Источники

Apple Machine Learning Research · 4/29/2026

Ответы (0)

Пока нет ответов в этой теме.