
Команда Multi‑X компании Oppo 17 мая 2026 года открыла исходники X — OmniClaw — Android‑агента, который работает непосредственно на физическом устройстве и связывает ввод с камеры, экрана и голоса, чтобы выполнять задачи внутри реальных приложений. Это важно тем, что агент получает доступ к локальным сенсорам и приватным данным устройства, а не к виртуализированной копии телефона в дата‑центре. Архитектура X — OmniClaw переносит основную логику восприятия, контроля и взаимодействия в телефон: разработчики описывают on‑device grounding model и OCR для обнаружения и понимания кликабельных элементов интерфейса. Облачная модель, по словам авторов, используется «как топливо» для более высокоуровневых рассуждений и вызывается лишь по необходимости; в отчёте при этом не указаны конкретные локальные модели.
Агент объединяет три канала восприятия в конвейер: сначала vision‑language модель интерпретирует сцену в сочетании с пользовательским запросом, затем сигналы синхронизируются по времени и формируется структурированный интент для исполнения. В качестве примера в документе показан сценарий: запрос «How much does this cost on Taobao? » при наведении камеры переводится во внутреннюю репрезентацию «price of Evian spray on Taobao» перед выполнением задачи. Для долговременной памяти X — OmniClaw обрабатывает фотографии из галереи в периоды простоя: изображения сводятся к компактным семантическим записям и сохраняются в Markdown‑файле image‑memory.md. Каждая запись проходит фильтрацию на предмет чувствительного содержимого; авторы отмечают риск загрузки изображений в облако и подчёркивают, что дальнейший шаг — полностью локальные модели, чтобы сырые фото не покидали устройство.
Чтобы не воспроизводить покадровые траектории нажатий, агент клонирует поведение пользователя в переиспользуемые навыки: система извлекает полный launch command для нужной страницы приложения и в последующем обращается туда через deeplink. При неудаче реализован поэтапный откат к более простым методам запуска. Поиск кликабельных элементов комбинирует XML‑структуру интерфейса, grounding‑модель и распознавание текста (OCR), что даёт устойчивость при работе с интерфейсами, перегруженными рекламой и динамическим содержимым. В отчёте Oppo специально противопоставляет X — OmniClaw облачным платформам виртуальных телефонов — таким как RedFinger, Alibaba Wuying и Tencent Cloud Phone — которые запускают агенты в виртуализированных Android‑инстансах в дата‑центрах и поэтому лишены доступа к локальным камерам, микрофонам и приватным данным устройства.
Источники
Ответы (0)
Пока нет ответов в этой теме.