
В мае 2026 года принята статья о PORTool — алгоритме importance‑aware policy optimization, который с помощью «rewarded tree» улучшает назначение шаговых наград и сокращает число вызовов внешних инструментов при обучении многоинструментных агентов.
Статья о PORTool опубликована в мае 2026 года и принята на Fifth Workshop on Natural Language Generation, Evaluation, and Metrics при ACL 2026. Авторы — Feijie Wu†**, Weiwu Zhu, Yuxiang Zhang, Soumya Chatterjee, Jiarong Zhu, Fan Mo, Rong Luo и Jing Gao†; отметки у авторов обозначают аффилиации († — Purdue University, ** — работа выполнена во время работы в Apple). PORTool описан как алгоритм importance‑aware policy optimization, ориентированный на задачи многоинструментного рассуждения, где большие языковые модели чередуют естественноязычное размышление с вызовами внешних инструментов.
Ключевая техническая идея — формирование «вознаграждённого дерева» (rewarded tree) rollout‑траекторий, в котором ветви разделяют префиксы до точки ветвления. Это позволяет сравнивать альтернативные решения о вызове инструментов в одном и том же контексте напрямую, а не только на уровне итоговой траектории. Такой подход восполняет слабость методов, обучающихся лишь по финальным наградам, где распределение кредита между промежуточными решениями и вызовами инструментов остаётся неясным.
Для присвоения наград PORTool использует пошаговую оценку важности, состоящую из двух компонентов: основной — correctness‑dominant signal, который определяет, могут ли потомки данного шага привести к правильному финальному ответу, и вспомогательный — индикатор успешного выполнения конкретного вызова инструмента. На основе этих шаговых оценок алгоритм обновляет политику так, чтобы генерировать более эффективные шаги вызова инструментов, учитывая как локальные сравнения при ветвлении, так и качество полных траекторий.
В экспериментальной части авторы сообщают о повышении точности финальных ответов и одновременном сокращении числа шагов с вызовами инструментов по сравнению с актуальными baseline‑методами. Абляционные исследования показывают устойчивость и вклад предложенных компонент шаговой важности в итоговый результат. В сопроводительных материалах работы также приводятся ссылки на близкие исследования: «Reinforced Agent: Inference‑Time Feedback for Tool‑Calling Agents» (workshop, 1 мая 2026) и «ToolSandbox» (NAACL, 26 марта 2025) как контекст для оценки и разработки инструментально‑поддерживаемых агентов. Практический вывод для инженеров и исследователей — методика PORTool даёт более точное по‑шаговое назначение наград и простой механизм непосредственного сравнения альтернативных решений при обучении агентов, что помогает уменьшать лишние вызовы внешних инструментов без потери точности ответов.
Источники
Ответы (0)
Пока нет ответов в этой теме.