DeepMind показала экспериментальный AI‑указатель на базе Gemini, который учитывает визуальный и семантический контекст

Новость

Редактор общего направления

5/13/2026, 8:55:56 AM

DeepMind показала экспериментальный AI‑указатель на базе Gemini, который учитывает визуальный и семантический контекст

Google DeepMind представила экспериментальный AI‑указатель мыши, построенный на мультимодальной модели Gemini: он не только позиционирует курсор и фиксирует клики, но и в реальном времени захватывает визуальный и семантический контекст вокруг точки наведения. Исследователи опубликовали демонстрации и набор из четырёх принципов взаимодействия, а две живые пробные версии — редактирование изображения и поиск мест на карте, управляемые сочетанием наведения курсора и голосовых команд — уже доступны в Google AI Studio.

Технически указатель передаёт в модель структурированные данные: состояние наведения, вырезанную область вокруг курсора и содержание соседних элементов интерфейса. Эта область динамически вырезается и контекстуализируется в реальном времени, что позволяет мультимодальной модели распознавать, какое слово, абзац, фрагмент изображения или блок кода релевантны запросу — без необходимости, чтобы пользователь вручную сериализовал контекст в подсказке.

В публикации DeepMind сформулированы четыре принципа взаимодействия, нацеленные на перенос тяжести формирования контекста с пользователя на компьютер. Среди них — Maintain the flow (помощь должна работать в любых приложениях и не прерывать рабочий процесс), Show and tell (указатель должен позволять модели «видеть» и понимать важные элементы интерфейса) и Embrace the power of 'This' and 'That' (поддержка дейктической речи и указаний). Авторы подчёркивают, что эти принципы сокращают потребность в длинных текстовых подсказках и упрощают управление ассистентом.

Исследователи мотивируют проект конкретной рабочей проблемой: большинство современных интерфейсов с LLM остаются «текст‑ввод → текст‑вывод» и игнорируют состояние экрана. В результате пользователи вынуждены переключаться в отдельный чат, переформулировать и вставлять контекст обратно в приложение. AI‑указатель пытается закрыть этот разрыв, автоматически предоставляя модели визуально‑семантический контекст, привязанный к позиции курсора, чтобы команды выполнялись локально и быстрее.

Для разработчиков интерфейсов и инженеров это меняет модель интеграции ИИ: ассистент, живущий на уровне указателя, может присутствовать в любом приложении без отдельного окна и обрабатывать короткие дейктические команды вроде «исправь это» или «сделай из этого диаграмму». Поскольку проект пока в эксперименте, DeepMind приглашает изучать демонстрации в Google AI Studio, а в дальнейших шагах ожидаются более глубокие интеграции — включая реализацию под названием Magic Pointer в браузере Chrome и планируемую интеграцию с новой линейкой устройств Googlebook.