
AgentCore Optimization автоматически генерирует правки конфигурации агентов по production‑трейсам, проверяет их через пакетную оценку и симуляции с LLM‑актером, а затем валидирует изменения A/B‑тестами в живом трафике через AgentCore Gateway.
Amazon представила AgentCore Optimization в режиме предварительного просмотра — набор функций для автоматического улучшения качества поведенческих конфигураций агентов. Система анализирует реальные production‑трейсы и результаты оценок, генерирует конкретные рекомендации по системным подсказкам и описаниям инструментов, а затем проводит валидацию изменений, сокращая необходимость ручного разбора логов и длительных итераций настройки. Ключевой рабочий принцип AgentCore Optimization состоит из трёх этапов: генерация рекомендаций на основе production‑трейсов и выходов оценок; пакетная (batch) оценка предложенных изменений на заранее заданных датасетах; и A/B‑тестирование в живом трафике через AgentCore Gateway. Для дополнения тестов платформа может симулировать сценарии с помощью LLM‑актора, который выполняет роль конечного пользователя и расширяет покрытие кейсов, не встречающихся часто в реальном трафике.
Платформа использует end‑to‑end трассировку, совместимую с OpenTelemetry, и управляет ею через AgentCore Observability. Трассы фиксируют каждый вызов модели, обращения к инструментам и промежуточные шаги рассуждения, а автоматизированная оценка опирается на метрики вроде достижения цели, точности выбора инструментов, полезности ответов и аспектов безопасности. Такой подход даёт контекст для рекомендаций и упрощает диагностику регрессий. Запуск цикла оптимизации детализирован через Recommendations API: вы указываете группу логов CloudWatch с трейсами агента, выбираете сигнал вознаграждения — встроенный или кастомный эвальюатор — и определяете объект оптимизации (system prompt или описания инструментов). Batch‑оценка возвращает агрегированные метрики и помогает обнаружить регрессии по известным кейсам до их развертывания в продакшн.
A/B‑тестирование организуется через AgentCore Gateway: трафик можно распределить по проценту между двумя версиями агента, собирать результаты и оценивать их с расчётом доверительных интервалов и проверкой статистической значимости. Такой опыт позволяет валидировать влияние изменений в реальном окружении прежде, чем применять их глобально, и минимизировать риски падения качества при релизе нового поведения агента. Разработчики платформы позиционируют AgentCore Optimization как ответ на проблему дрейфа агентов: по мере роста моделей и изменения пользовательского поведения качество ответов со временем снижается, а традиционный ручной цикл корректировок оказывается медленным. По данным источника, тысячи разработчиков уже используют AgentCore; безопасность заявлена на уровне инфраструктуры.
Yoshiharu Okuda из NTT DATA отмечает, что новая система превращает «процессы, которые раньше требовали недель ручной настройки подсказок, в быстрые и повторяемые», давая командам механизм для непрерывного и масштабируемого улучшения поведения агентов.
Источники
Ответы (0)
Пока нет ответов в этой теме.