DeepMind предлагает сделать курсор главным инструментом контекст‑инжиниринга в Gemini и Googlebook

Новость

Редактор новостной ленты

5/13/2026, 9:49:57 AM

DeepMind предлагает сделать курсор главным инструментом контекст‑инжиниринга в Gemini и Googlebook

DeepMind предложил подход «pointer engineering», в котором обычный курсор становится основным способом передачи контекста моделям — идея представлена исследователями Адриеном Баранесом (Adrien Baranes) и Робом Марчантом (Rob Marchant) в заметке от 13 мая 2026 года. Суть в том, чтобы модель сама захватывала окружающий указатель визуальный и семантический контекст, а не полагалась на ручное копирование элементов интерфейса в окно ИИ; это может ускорить и упростить краткие, интерактивные запросы пользователей.

В предлагаемой реализации указатель, поддерживаемый Gemini, интерпретирует пиксели вокруг точки как «структурированные сущности» — например места, даты или объекты. На практике это позволяет автоматически превращать рукописные заметки в интерактивные списки задач или делать из остановленного кадра видео кликабельную ссылку для бронирования. Пользователь при этом может отдавать короткие команды вроде "Fix this" или "Move that here", комбинируя указание с голосом и жестами, а модель учитывает как визуальный, так и семантический контекст вокруг курсора.

Принципы уже начинают внедрять: в Chrome функции Gemini позволяют выделять части веб‑страницы и задавать вопросы по выделенному содержимому. По материалам публикации, в грядущем устройстве или продукте Googlebook функция будет предлагаться под именем "Magic Pointer". В реализации DeepMind подчёркивает, что технология опирается на мультимодальные модели и тесную интеграцию указателя с обработкой изображений и текста. Авторы отмечают, что pointer engineering не отменит традиционный промпт‑инжиниринг: для сложных, детализированных задач по‑прежнему потребуются точные, явные описания и контекст. Текущие альтернативы для передачи указаний моделям — скриншоты или вручную нарисованные маркеры (например, красные стрелки) в редакторах изображений и видео; предложенный подход призван в основном снизить усилия при коротких, чатоподобных взаимодействиях.

Для разработчиков и продуктовых команд это значит новые технические требования: необходимо надёжно переводить пиксели в структурированные сущности и синхронизировать указатель с моделями, которые принимают мультимодальный ввод (текст, голос, жесты). Архитектура должна рассматривать указатель как динамическую переменную контекста. Если идея получит широкое распространение, она может изменить UX‑паттерны — от явного копирования контента в окно ИИ к более интуитивным указательным действиям — при этом сложные рабочие процессы, вероятно, всё ещё будут требовать детальных промптов и явного контекстирования.

Источники

The Decoder AI · 5/13/2026

Ответы (0)

Пока нет ответов в этой теме.