
Анализ Datadog показывает, что точка вставки защитных проверок в оркестрации агентов критически влияет на способность остановить косвенную prompt‑инъекцию: проверка в единственной точке без доступа к полной истории может пропустить инструкцию внутри вывода
Datadog продемонстрировал, что место установки guardrails в оркестрации AI‑агентов напрямую влияет на риск утечки секретов: при неправильной конфигурации косвенная prompt‑инъекция может пройти незамеченной и привести к эксфильтрации. Это важно для разработчиков и команд безопасности, которые выбирают между управляемыми конвейерами и собственной оркестрацией — от этого зависит видимость состояния беседы и возможности вмешательства. В качестве воспроизводимого примера исследование показывает реальный запрос «Read GitHub Issue #123 and summarize it.» Агент вызывает инструмент GetIssues; внутри текста issue злоумышленник прячет вредоносную инструкцию, в которой модель просят выполнить GetLocalSecrets и вставить результат в итоговый ответ. Это классическая косвенная prompt‑инъекция: вредоносная команда приходит не напрямую к модели, а через содержимое инструмента, возвращаемого в процессе работы агента.
Авторы протестировали две архитектуры агентов и сравнили их поведение при таком сценарии. В управляемом Amazon Bedrock Agent код разработчика исполняется только в Action Group Lambda, поэтому встроенные разработчиком guardrails не имеют доступа ко всей истории диалога и части состояния оркестрации. Напротив, самоуправляемый агент с использованием Datadog AI Guard встраивает оценки и проверки в несколько точек хука оркестрации, что повышает вероятность выявления и блокировки вредоносных инструкций.
Чтобы объяснить разницу, Datadog выделяет базовую петлю агента: объединение входа и контекста, построение композитного промпта и принятие решения о вызове модели или инструмента. Поскольку петля рекурсивна и модель, агент и инструменты взаимодействуют многократно до формирования финального ответа, место вставки проверок определяет, какую часть состояния беседы они видят и насколько эффективно могут вмешаться.
Технически компания подчёркивает, что полезные точки для размещения guardrails соответствуют этапам петли — до и после слияния контекста, при сборке промпта, непосредственно перед вызовом инструмента и после получения его вывода. Размещение проверок на этих стадиях даёт более широкую видимость и контроль по сравнению с одной точкой выполнения кода. Практический выбор для разработчиков — компромисс между удобством управляемых решений и гибкостью внутреннего контроля: Amazon Bedrock Guardrails дают основу для фильтрации и политик, но фактические гарантии зависят от того, где именно выполняются проверки. Datadog рекомендует оценивать модель угроз и выбирать архитектуру, в которой расположение guardrails обеспечивает требуемый уровень видимости и возможности вмешательства.
Источники
Ответы (0)
Пока нет ответов в этой теме.