
AgentCore Browser añade “OS Level Actions” a la API InvokeBrowser, permitiendo a agentes ejecutar una acción del sistema operativo por llamada y obtener capturas del escritorio que incluyen diálogos y menús nativos.
Qué ocurrió: AgentCore Browser introdujo OS Level Actions, una extensión de la API InvokeBrowser que permite a agentes ejecutar comandos a nivel del sistema operativo desde la misma sesión del navegador. La novedad elimina la frontera entre la capa web (DOM) y la interfaz que renderiza el sistema operativo, de modo que los agentes dejan de quedar bloqueados ante ventanas o menús nativos que antes estaban fuera de su alcance.
Cómo se invoca y qué devuelve: Cada llamada a InvokeBrowser transporta exactamente una sola acción, definida por su tipo y argumentos, y la respuesta indica el estado de la ejecución con SUCCESS o FAILED. La sesión activa se identifica mediante la cabecera x-amzn-browser-session-id, que vincula cada acción al navegador correcto y evita colisiones entre sesiones.
Patrón operativo en la práctica: El flujo recomendado es un bucle acción — captura–reacción. El agente envía una acción (por ejemplo, un click, tipeo o atajo), AgentCore la ejecuta sobre el escritorio completo y responde con SUCCESS/FAILED; seguidamente el agente solicita una captura de pantalla del escritorio (PNG codificado en base64) que incluye diálogos y elementos de la UI fuera de la ventana del navegador, y usa un modelo de visión para decidir la siguiente acción.
Categorías y alcance técnico: OS Level Actions se organiza en tres categorías — control de ratón, entrada de teclado y captura visual— y la publicación resume ocho acciones en total. Cada invocación ejecuta una sola acción por llamada; no hay acciones compuestas en una misma petición. La documentación técnica describe el formato de petición y la tabla de acciones con sus restricciones para integradores que usen InvokeBrowser.
Ejemplos concretos y parámetros: Entre las acciones de ratón, mouseClick requiere x, y, button y clickCount (por defecto usa la posición actual, LEFT y 1); clickCount admite valores entre 1 y 10. mouseMove acepta coordenadas x,y; mouseDrag solicita startX, startY, endX, endY y button (por defecto LEFT). Otros comandos cubren entrada de teclado y capturas visuales; cada tipo define los argumentos obligatorios y sus valores por defecto.
Por qué importa: Las automatizaciones web tradicionales que dependen de Playwright o del Chrome DevTools Protocol (CDP) solo operan sobre la capa DOM y fallan cuando aparecen ventanas de impresión, diálogos de privacidad de macOS, prompts de seguridad de Windows, selectores de certificados o menús contextuales renderizados por el SO. Con OS Level Actions, los flujos en producción que antes quedaban bloqueados por esa separación pueden observar y manipular la UI nativa dentro de la misma sesión, reduciendo puntos de bloqueo en automatizaciones reales.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.