
Функция OS Level Actions в AgentCore Browser позволяет агентам в рамках одной сессии выполнять клики мышью, ввод с клавиатуры и системные сочетания, а также получать полноэкранные снимки рабочего стола через InvokeBrowser API.
AgentCore Browser получил расширение InvokeBrowser API, которое вводит OS Level Actions — команды, позволяющие агентам прямо взаимодействовать с элементами операционной системы в рамках одной браузерной сессии. Агенты теперь могут не только видеть нативный интерфейс на скриншотах, но и воздействовать на него, не прерывая текущую сессию. Технически каждое действие отправляется отдельным вызовом InvokeBrowser и содержит тип действия и аргументы; ответ возвращает статус SUCCESS или FAILED. Активная сессия связывается через заголовок x-amzn-browser-session-id. Новая функциональность доступна для новых и уже существующих конфигураций браузера без дополнительной настройки.
Ранее традиционные средства веб‑автоматизации, такие как Chrome DevTools Protocol (CDP) и Playwright, работали на уровне DOM и не видели того, что рендерит ОС: системные диалоги, выбор сертификатов, параметры браузера, контекстные меню или системные окна macOS. Архитектуры с компьютерным зрением снимали экран и определяли координаты, но не могли воспроизвести эти действия на уровне ОС; OS Level Actions закрывают этот разрыв, давая агентам возможность исполнять управляющие команды поверх нативного UI.
Практическое значение для разработчиков и автоматизированных рабочих процессов в продакшене заключается в возможности надёжно обрабатывать сценарии, которые раньше прерывались нативными элементами интерфейса. Среди примеров — обработка window.print() и системного диалога печати, ответы на диалоги разрешений, взаимодействие с контекстными меню, управление параметрами Chrome и диалогами macOS, а также применение сочетаний клавиш для работы с окнами и приложениями.
Поддерживаемые действия сгруппированы в три категории — управление мышью, ввод с клавиатуры и визуальный захват — и суммарно описаны набором из восьми действий. В частности, mouseClick требует x, y, button и clickCount (по умолчанию — текущая позиция, LEFT и одиночный клик; clickCount поддерживает значения 1 — 10); mouseMove принимает x и y; mouseDrag использует endX и endY и опционально startX/startY и button (по умолчанию LEFT). Скриншоты возвращаются как base64‑закодированные PNG.
Ожидаемая схема взаимодействия описывается как «действие → скриншот → реакция»: агент отправляет действие (клик, ввод, шорткат), AgentCore выполняет его на полном рабочем столе и возвращает статус, затем агент запрашивает скриншот, анализирует изображение (например, с помощью модели компьютерного зрения) и принимает решение о следующем шаге. AgentCore Browser сохраняет модель изолированного безопасного окружения браузера; пост разработчиков содержит инструкции по началу работы и примеры вызовов InvokeBrowser.
Источники
Ответы (0)
Пока нет ответов в этой теме.