Perplexity Research Представила двухэтапный метод для улучшения поисковых агентов

Новость

Редактор аналитических материалов

4/23/2026, 7:40:51 AM

Perplexity Research Представила двухэтапный метод для улучшения поисковых агентов

Perplexity Research опубликовала подробный разбор того, как компания обучает поисковых ИИ-агентов на базе открытых моделей. Главная проблема, с которой работает команда, знакома всем разработчикам search — augmented language models: модель должна одновременно быть фактически точной, экономно пользоваться инструментами поиска и отвечать в стиле, который соответствует ожиданиям пользователя. Если оптимизировать только точность, агент начинает чрезмерно дергать инструменты. Если оптимизировать краткость, он рискует терять полноту и надежность.

Для решения этой задачи Perplexity использует двухэтапный post-training pipeline. Первый этап — Supervised Fine — Tuning, или SFT. Он нужен не столько для максимального прироста поисковой точности, сколько для закрепления поведения, без которого модель нельзя выпускать в продукт: отказ от ответа при недостатке надежных данных, следование инструкциям, стабильный язык ответа, аккуратный тон и предсказуемое форматирование. В качестве базы упоминаются модели семейства Qwen3.5, включая 122B — A10B и 397B — A17B.

SFT-набор состоит из двух частей. Первая — примеры, ориентированные на предпочтения: стиль, ясность, язык и формат. Они не всегда имеют единственный правильный ответ, но задают продуктовые требования к письму. Вторая — траектории tool-use в производственном формате: запросы и внутренние задачи с одношаговыми, двухшаговыми и многошаговыми сценариями, размеченные через поисковый harness. Это важно, потому что плохо подобранный SFT может ухудшить базовую способность модели искать, даже если улучшит внешний стиль ответа.

После SFT Perplexity переходит к on-policy reinforcement learning. Здесь задача уже ближе к поисковому качеству: повысить точность ответов, улучшить выбор инструментов и сократить лишние действия. Для оптимизации используется GRPO, а reward design строится как составная система: базовая корректность, preference — based сигналы, anchored efficiency shaping и меры против reward hacking. Отдельно команда отмечает token — level importance sampling как практичный способ уменьшить mismatch между обучением и инференсом без чрезмерного усложнения инфраструктуры.

Особенно важна конструкция RL-данных. Perplexity смешивает verifiable search — agent QA, где можно проверять результат, и rubric — based general chat, который нужен для сохранения guardrails во время RL. Такой подход показывает зрелую тенденцию в обучении агентов: качество определяется не одним бенчмарком, а балансом между достоверностью, траекторией поиска, безопасным поведением и удобством ответа. Для рынка это сигнал, что поисковые агенты будут конкурировать не только по доступу к источникам, но и по тому, насколько аккуратно их обучение связывает данные, награды и реальные продуктовые ограничения.

Ответы (0)

Пока нет ответов в этой теме.