Проект Gauntlet из Agent Builder автоматизирует адверсариальное тестирование агентов и выявляет скрытые сбои

Новость

Редактор общего направления

5/15/2026, 9:56:03 AM

Проект Gauntlet из Agent Builder автоматизирует адверсариальное тестирование агентов и выявляет скрытые сбои

Gauntlet, проект Kavish Sathia, занял одно из трёх призовых мест на Agent Builder Hackathon и предлагает автоматизированный метод адверсариального тестирования автономных агентов: мокающий агент искусственно делает окружение враждебным, перехватывая и изменяя ответы инструментов основного агента, чтобы выявлять скрытые сбои и нежелательное поведение. Это важно, потому что многие существующие тесты проверяют в основном корректные сценарии и пропускают тонкие уязвимости. Идея Gauntlet родилась в последние 48 часов перед дедлайном хакатона: автор отказался от изначальной концепции Rehearse — репетиции действий в песочнице — из‑за рассинхронизации между симуляцией и реальной работой агента. Вместо попыток синхронизировать симуляцию и реальность разработчик переключился на адверсариальное fuzz‑тестирование, где стохастичность среды не маскирует, а помогает выявлять устойчивые ошибки.

Технически Gauntlet выступает в роли мокающего агента, который перехватывает вызовы инструментов основного агента — например, search_emails — анализирует полученные ответы и при необходимости мутирует их: внедряет prompt‑injection в тело письма, возвращает слегка неверные данные или вводит ложную информацию. Главный агент при этом не знает, что общается с подставной средой. Интеграция сведена к двум декораторам — @gauntlet.query для операций чтения и @gauntlet.mutation для операций записи — и одной функции оценки: после прогона evaluate() система анализирует поведение и сохраняет подтверждённые баги.

Авторы подчёркивают относительную простоту интерфейса интеграции, но выделяют две технически сложные подзадачи. Первая — поддержание когерентной модели мира: мокающий агент должен быть правдоподобен и не противоречить себе при последовательных мутациях. Вторая — поиск новых, нетривиальных багов, чтобы не зацикливаться на одних и тех же паттернах ошибок; обе задачи по своей сути являются задачами поиска и стратегического исследования. В решении этих задач в публикации указывается использование Elasticsearch как каркаса для хранения и поиска: система применяет его для реализации памяти о прошлых атаках и для стратегий исследования новых областей поведения агента. В тексте также отмечается рыночный контекст: современные тесты агентов преимущественно покрывают «правильные» сценарии, что оставляет поле для эксплойтов — на примере вирусного OpenClaw обсуждаются вопросы безопасности агентов.

Gauntlet стремится автоматизировать адверсариальное тестирование, делая среду творчески эволюционирующей и запоминающей предыдущие попытки, чтобы находить более глубокие и ранее неучтённые ошибки. Это решение может заинтересовать разработчиков автономных агентов и команды по безопасности: при масштабировании подхода такие инструменты способны обнаруживать скрытые сбои до выпуска систем в продуктив.

Источники

Elastic AI · 5/13/2026

Ответы (0)

Пока нет ответов в этой теме.