
AgentCore Optimization в превью вводит автоматизированный цикл «наблюдай — оцени — улучши» для агент‑приложений: система собирает продакшен‑трассы, генерирует конкретные рекомендации по конфигурации агентов и предоставляет встроенные механизмы их валидации перед развёртыванием. Это позволяет перейти от ручного чтения логов и интуитивных правок к системному процессу с проверяемыми гипотезами и контролируемым выпуском изменений. Рекомендации создаются через Recommendations API: пользователь указывает CloudWatch Log group с продакшен‑трассами, выбирает целевую метрику — встроенную или свой собственный оценщик — и определяет объекты оптимизации, например системный промпт или описания инструментов. Для предварительной проверки изменений доступны два подхода: пакетная оценка на заранее подготовленном тест‑наборе и симуляция сценариев с LLM‑актером, который играет роль конечного пользователя и проверяет поведение агента в типичных ситуациях.
Для оценки в реальном трафике AgentCore предоставляет A/B‑тестирование через AgentCore Gateway: живой трафик можно разделять по настраиваемому проценту между текущей и обновлённой конфигурациями, а система генерирует отчёты с интервалами доверия и проверкой статистической значимости. Это даёт возможность измерить влияние изменений на ключевые метрики до полного релиза и снизить риск регрессий в продакшене. Телеметрия сохраняется на уровне вызовов моделей и инструментов: каждое обращение и шаг рассуждения фиксируются как OpenTelemetry‑совместимые трассы и обрабатываются через AgentCore Observability. Оценщики автоматически подсчитывают метрики типа успешности достижения цели, точности выбора инструментов, полезности и безопасности, используя как встроенные методы, так и кастомные подходы LLM‑as‑judge, что облегчает сравнительный анализ вариантов поведения агентов.
Решение адресует распространённую проблему деградации качества агентов при обновлениях моделей и изменении поведения пользователей: промпты и конфигурации со временем теряют эффективность, а ручной цикл правок занимает недели и часто вводит новые ошибки. AgentCore уже используют тысячи разработчиков, и новая функциональность призвана заменить трудоёмкий ручной процесс системным циклом с проверяемыми гипотезами. Как отметил Ёсихару Окуда из NTT DATA: «Непрерывная оценка и улучшение агентов необходимы для создания ценности на основе данных. Процессы, которые раньше требовали недель ручной настройки промптов, превратились в быстрые, повторяемые циклы с помощью AgentCore. Получая рекомендации из продакшен‑трасс и валидируя их через A/B‑тесты, организации могут оптимизировать производительность, сохраняя точность и эффективность, что обеспечивает непрерывное и высокоэффективное улучшение в масштабе.
агент записывает вызовы, система генерирует рекомендацию, вы прогоняете её на тест‑датасете или через LLM‑симуляцию, затем контролируемо разворачиваете через A/B‑тест и принимаете решение на основании статистики.
Источники
Ответы (0)
Пока нет ответов в этой теме.