
Microsoft Research (лаборатория AI Frontiers) официально представила 22 мая 2026 года Fara1.5 — семейство браузерных computer‑use агентов в трёх вариантах: 4B, 9B и 27B. Модели проектировались для прямого управления реальным браузером и поставляются с интеграцией в MagenticLite — песочницу браузерного интерфейса для агентов. Это важно: по тесту Online‑Mind2Web старшая версия опережает ключевых конкурентов, что указывает на практическую применимость автоматизации веб‑задач.
Архитектура Fara1.5 основана на контрольных точках Qwen3.5 для всех трёх конфигураций и реализует цикл observe — think — act. На каждом шаге модель получает историю диалога и три последних скриншота, генерирует внутренние «мысли» и выбирает следующий шаг. Пространство действий включает стандартные мышь/клавиатура, веб‑специфичные команды (например, поиск) и мета‑действия для управления контекстом: запоминание фактов, уточняющие вопросы пользователю и прочие операции с памятью.
На бенчмарке Online‑Mind2Web (300 задач на 136 популярных сайтах) Fara1.5‑27B показала 72% успеха. Для сравнения: OpenAI Operator — 58.3%, Gemini 2.5 Computer Use-57.3%, Yutori Navigator n1-64.7%. Средний вариант Fara1.5‑9B набирает 63.4%, тогда как предшественник Fara‑7B в том же тесте демонстрировал 34.1%, что подчёркивает значительный прогресс. Для обучения семейства использовали supervised fine‑tuning примерно на двух миллионах примеров; состав обучающих данных: 60% веб‑траекторий, 12.8% синтетических окружений, 12.5% заполнения форм и взаимодействий с пользователем, 8.8% grounding и 4.
меньшие срезы покрывают GUI‑перетаскивание, следование инструкциям и безопасность. Ограничение потерь (loss clipping) применялось только к трём последним ходам в каждой траектории. Релиз включает FaraGen1.5 — модульный конвейер синтетических данных с тремя компонентами: environments, solvers и verifiers. Environments разделены на open‑internet (живые сайты без логина) и gated‑domain (требующие авторизации или включающие необратимые действия). Для gated‑домена созданы шесть синтетических клонов FaraEnvs — Mail, Calendar, Stream, ML, Stay и Scheduler; у каждого есть фронтенд, API и база с персонифицированными данными. Команда отмечает, что средства разработки включали GitHub Copilot CLI и итеративную ручную доработку.
В решателе FaraGen1.5 применили OpenAI GPT‑5.4 вместе с кастомными инструментами, воспроизводящими пространство действий Fara1.5; этот солвер набирает 83% на Online‑Mind2Web по автоматическому WebJudge (предыдущий солвер Fara‑7B-67%). Три верификатора — correctness, efficiency и user‑interaction — фильтруют траектории по корректности (LLM‑рубрики и привилегированное сравнение баз), избыточности действий и паузам перед критическими шагами. агент обучен останавливаться и запрашивать подтверждение в трёх случаях — когда требуется персональная информация, описание задачи неоднозначно, или планируется выполнить необратимое действие. Обучение безопасности использует публичные датасеты и внутренние задания в соответствии с политикой Microsoft Responsible AI, что призвано дать разработчикам более предсказуемые гарантии при внедрении автопроцессов в браузере.
Источники
Ответы (0)
Пока нет ответов в этой теме.