
На конференции Google I/O компания продемонстрировала новую голосовую функциональность в приложениях Workspace: единые длинные голосовые запросы умеют создавать черновики в Docs с подтягиванием данных из Drive, превращать голос в структурированные заметки в
На конференции Google I/O Google представила расширение голосовых возможностей в Workspace: голос больше не ограничивается простой диктовкой — теперь можно давать единый, длинный многошаговый запрос, который выполняет несколько действий подряд в приложениях Docs, Keep и Gmail. Это изменение важно тем, что пользователи смогут экономить время, управляя документами и почтой через разговор с системой вместо многократного переключения между интерфейсами. В демонстрации для Docs показали сценарий, где голосом создают черновик и автоматически подтягивают данные из Google Drive — например, детали резюме — одновременно добавляют логистику события из письма и по просьбе вставляют шутливые анекдоты. Система распознаёт, когда пользователь меняет решение в середине фразы, и корректирует итоговый результат в рамках одной сессии, то есть поддерживает правки и уточнения на лету.
В Keep появилась опция «выплеснуть» мысли голосом: пользователь диктует свободный поток идей, а встроенный ИИ преобразует транскрипт в структурированную заметку или список. Google отмечает, что подобные диктовочные функции уже реализуют специализированные продукты на рынке, в том числе Voicenote.com и AudioPen, но теперь аналогичный опыт интегрируется напрямую в Workspace. Для Gmail голосовые возможности реализованы через интеграцию с моделью Gemini: пользователи смогут голосом запрашивать конкретные данные из писем и связанных сервисов — например, выяснить следующий рейс, найти код брони Airbnb или уточнить время приёма у врача. Такая интеграция делает возможным извлечение четких фактов из почтового контента в разговорном режиме.
С коммерческой и технической точки зрения Google подчёркивает тренд: современные модели справляются с длительными многошаговыми голосовыми запросами и с поправками внутри фразы. Для разработчиков и продуктов это означает необходимость обеспечить сквозной доступ к данным (Drive, почта), надёжное распознавание речи, управление контекстом внутри одного диалога и способность корректировать результат по ходу сессии — все эти элементы требуются, чтобы голосовые команды работали плавно и предсказуемо.
Источники
Ответы (0)
Пока нет ответов в этой теме.