
AWS открыла публичный превью функции, которая позволяет использовать Amazon WorkSpaces как управляемые виртуальные рабочие столы для AI‑агентов: агенты получают доступ к тому же окружению, что и сотрудники, и могут управлять существующими десктоп‑приложениями через анализ изображений и эмуляцию ввода вместо нативных API. Это важно для компаний, где критичные процессы остаются в «толстых» клиентах — агентам не нужно менять приложения, чтобы автоматизировать задачи в привычной рабочей среде.
Технически агент аутентифицируется через IAM и подключается к экземпляру WorkSpaces по уникальному пред‑подписанному URL. После подключения агент делает скриншоты (computer vision) и эмулирует ввод — клики, набор текста, прокрутку — так, что само приложение остаётся неизменным и «не знает», что им управляет бот. На уровне стека можно настраивать параметры: разрешение экрана, формат изображений и хранение скриншотов. Интеграция через MCP делает платформу фреймворк‑агностичной: WorkSpaces предоставляет управляемый MCP‑endpoint, к которому могут подключаться агентные фреймворки, включая LangChain, CrewAI и Strands Agents. AWS демонстрировала сценарий с Strands‑агентом на Amazon Bedrock: в примере аптечной системы агент нашёл пациентскую запись, искал лекарство, оформил и подтвердил заявку без какого‑либо API.
Безопасность и аудит базируются на существующих возможностях WorkSpaces: агенты выполняются в изолированных экземплярах, а не на локальных машинах или внутренних сетях; CloudTrail фиксирует все действия, а CloudWatch обеспечивает наблюдаемость. Chris Noon из Nuvens Consulting отметил, что для регулируемых отраслей такие управляемые и изолированные десктопы важны, поскольку дают аудиторские следы и корпоративную изоляцию. Проблема, которую решает подход, велика: по данным Gartner (2024), 75% организаций используют устаревшие приложения без современных API, а 71% компаний из Fortune 500 сохраняют критичные процессы на мейнфреймах без адекватного программного доступа. Для таких организаций визуальные агенты представляют собой практическую альтернативу дорогостоящей и продолжительной модернизации.
Очевидный компромисс — стоимость и производительность. Бенчмарк Reflex показал, что визуальный агент потреблял примерно 500 000 входных токенов против 12 000 у API‑агента (≈45×), а время выполнения составляло около 17 минут против 20 секунд у API‑варианта. Palash Awasthi из Reflex подчеркнул, что улучшение моделей зрения снижает число ошибок, но не сокращает требуемое количество скриншотов. AWS подчёркивает, что при наличии API его следует использовать; однако для многих «толстых» клиентов визуальные агенты остаются практичным, хоть и более ресурсоёмким, вариантом.
Источники
Ответы (0)
Пока нет ответов в этой теме.