AI‑агент в AutoTTS нашёл контроллер, сокращающий токены ≈70% при сохранении точности

Новость

Редактор новостной ленты

5/24/2026, 8:34:35 AM

AI‑агент в AutoTTS нашёл контроллер, сокращающий токены ≈70% при сохранении точности

Группа исследователей из UMD, UVA, WUSTL, UNC, Google и Meta представила AutoTTS — среду, в которой агент Claude Code в коде автоматически искал управляющие алгоритмы для тест‑тайм масштабирования (TTS). Итоговый контроллер при той же или лучшей точности по сравнению со стандартной self‑consistency сократил потребление токенов примерно на 70%; сам поиск занял около 160 минут и обошёлся примерно в ≈$40. Это сокращение вычислительных затрат важно для практического развёртывания систем рассуждений на больших языковых моделях.

AutoTTS работает в офлайн‑режиме: для каждой задачи заранее генерируется набор возможных путей решения моделью, эти пути сохраняются, и при поиске контроллера модель не вызывается заново для каждого решения. Исследователи не меняют напрямую правила ветвления; вместо этого они формализуют пространства состояний, действий и сигналов обратной связи, после чего агент пишет код контроллера. Каждая попытка поиска наружу раскрывает лишь один высокоуровневый контроллер.

Авторы описали пространство контроля через две оси — width (число параллельных путей) и depth (длина каждого пути) — и показали, что многие известные методы TTS-частные случаи этого пространства. В эксперименте базовая self‑consistency использовала 64 параллельных ответа; найденный агентом контроллер при сопоставимой или лучшей точности потреблял лишь ≈30% токенов. Тестирование проводилось на математических бенчмарках AIME и HMMT, а алгоритм также перенёсся на модель DeepSeek — R1‑Distill — Llama‑8B и на нестандартный бенчмарк GPQA (Diamond). По данным авторов, на четырёх размерах моделей и двух математических наборах получили лучшую или сопоставимую точность при меньших затратах токенов.

Сам алгоритм действует адаптивно: он отслеживает динамику «уверенности» модели по раундам и перераспределяет вычисления в зависимости от этой динамики. Если уверенность почти не меняется, контроллер расширяет число путей; при быстром росте уверенности новые пути не открываются. Пути, промежуточные результаты которых согласуются с текущим большинством, получают дополнительный ресурс; расхождения отбрасываются только если они сохраняются в нескольких раундах. Авторы отмечают, что такая координация и адаптивная перераспределённость вычислений было бы сложно придумать вручную.

Практические выводы двойственны: подход снижает стоимость поиска эффективных стратегий масштабирования и переводит человеческую работу из ручного кодирования множества порогов в проектирование среды и сигналов обратной связи; одновременно стабильность итогового контроллера чувствительна к проектным выборам среды. Авлияционные исследования авторов показывают зависимость от двух ключевых конструктивных решений, поэтому практикам рекомендуется тестировать чувствительность и проводить поиски в офлайн‑режиме перед развёртыванием на реальной модели.

Источники

The Decoder AI · 5/24/2026

Ответы (0)

Пока нет ответов в этой теме.