
Google DeepMind представила экспериментальный AI‑указатель мыши, построенный на мультимодальной модели Gemini: он не только позиционирует курсор и фиксирует клики, но и в реальном времени захватывает визуальный и семантический контекст вокруг точки наведения. Исследователи опубликовали демонстрации и набор из четырёх принципов взаимодействия, а две живые пробные версии — редактирование изображения и поиск мест на карте, управляемые сочетанием наведения курсора и голосовых команд — уже доступны в Google AI Studio.
Технически указатель передаёт в модель структурированные данные: состояние наведения, вырезанную область вокруг курсора и содержание соседних элементов интерфейса. Эта область динамически вырезается и контекстуализируется в реальном времени, что позволяет мультимодальной модели распознавать, какое слово, абзац, фрагмент изображения или блок кода релевантны запросу — без необходимости, чтобы пользователь вручную сериализовал контекст в подсказке.
В публикации DeepMind сформулированы четыре принципа взаимодействия, нацеленные на перенос тяжести формирования контекста с пользователя на компьютер. Среди них — Maintain the flow (помощь должна работать в любых приложениях и не прерывать рабочий процесс), Show and tell (указатель должен позволять модели «видеть» и понимать важные элементы интерфейса) и Embrace the power of 'This' and 'That' (поддержка дейктической речи и указаний). Авторы подчёркивают, что эти принципы сокращают потребность в длинных текстовых подсказках и упрощают управление ассистентом.
Исследователи мотивируют проект конкретной рабочей проблемой: большинство современных интерфейсов с LLM остаются «текст‑ввод → текст‑вывод» и игнорируют состояние экрана. В результате пользователи вынуждены переключаться в отдельный чат, переформулировать и вставлять контекст обратно в приложение. AI‑указатель пытается закрыть этот разрыв, автоматически предоставляя модели визуально‑семантический контекст, привязанный к позиции курсора, чтобы команды выполнялись локально и быстрее.
Для разработчиков интерфейсов и инженеров это меняет модель интеграции ИИ: ассистент, живущий на уровне указателя, может присутствовать в любом приложении без отдельного окна и обрабатывать короткие дейктические команды вроде «исправь это» или «сделай из этого диаграмму». Поскольку проект пока в эксперименте, DeepMind приглашает изучать демонстрации в Google AI Studio, а в дальнейших шагах ожидаются более глубокие интеграции — включая реализацию под названием Magic Pointer в браузере Chrome и планируемую интеграцию с новой линейкой устройств Googlebook.
Источники
Ответы (0)
Пока нет ответов в этой теме.