
В превью AgentCore введён автоматизированный цикл «наблюдай — оцени—улучши»: платформа генерирует рекомендации по конфигурации агентов из продакшен‑трасс, проверяет их батчевой оценкой и через A/B‑тестирование с разделением живого трафика, а затем помогает
AgentCore представил превью функций для автоматической оптимизации качества автономных агентов: система анализирует боевые трассы, предлагает целевые изменения конфигурации и проводит проверку рекомендаций перед деплоем. Это сокращает ручной цикл исправлений, который обычно возникает при смене моделей, изменении поведения пользователей и повторном использовании промптов в новых контекстах. В результате команды разработчиков получают воспроизводимый процесс улучшения агентов вместо серии ad‑hoc правок и локальных тестов.
Новые возможности включают Recommendations API, который исследует продакшен‑трассы и генерирует предложения по улучшению системного промпта и описаний инструментов. Генерация рекомендаций опирается на выбранный сигнал вознаграждения — встроенный или кастомный эвальюатор — и использует данные трасс, где фиксируются вызовы моделей и обращения к инструментам. Таким образом предложения формируются из реальных записей работы агента, а не из теоретических сценариев. Для валидации рекомендаций доступны два режима: батчевая оценка и A/B‑тестирование. Батчевая оценка применяет предложения к заранее заданному тестовому набору и возвращает агрегированные метрики, что помогает выявлять регрессии в критичных кейсах; при нехватке вручную составленных сценариев можно сгенерировать наборы с имитацией поведения конечного пользователя при помощи LLM‑актора.
платформа умеет разделять живой продакшен‑трафик в заданном проценте между версиями агента и отчётно предоставляет результаты с доверительными интервалами и проверкой статистической значимости, что позволяет принимать решения о деплое на основе данных, а не интуиции. Техническая основа обеспечивает сквозную трассируемость: каждый вызов модели, обращение к инструменту и шаг рассуждений записываются как OpenTelemetry‑совместимые трассы и управляются через AgentCore Observability. Автоматические эвальюации измеряют такие метрики, как процент достижения целей, точность выбора инструментов, полезность и безопасность, с возможностью использовать ground‑truth или LLM в роли судьи.
рекомендации из продакшен‑данных, проверка на известных наборах, симуляция поведения пользователей и контролируемые A/B‑эксперименты перед выпуском. По мнению Yoshiharu Okuda из NTT DATA, такой подход ускоряет и делает повторяемым процесс улучшения агентов, сохраняя точность и эффективность.
Источники
Ответы (0)
Пока нет ответов в этой теме.