Google DeepMind представила Gemini 3.1 Flash Live-новейшую генеративную модель, оптимизированную для нативной обработки аудио в реальном времени.

26 марта 2026 года специалисты компании Google DeepMind, в частности менеджер по продукту Valeria Wu и инженер — программист Yifan Ding, выступая от лица всей команды разработчиков Gemini, официально представили профессиональному сообществу модель Gemini 3.1 Flash Live. Эта новейшая генеративная система позиционируется как самое высококачественное решение корпорации для обработки аудиосигналов и голоса, которое было спроектировано для ведения естественного и надежного диалога в режиме реального времени. Архитектура обновленной нейросети была глубоко оптимизирована для обеспечения скорости отклика и поддержания естественного ритма, который необходим для следующего поколения голосового искусственного интеллекта.
Процессы масштабирования и интеграции новой технологии были тщательно структурированы с учетом специфических потребностей различных сегментов технологического рынка. Независимые программисты и исследователи получили доступ к предварительной версии системы через интерфейс Gemini Live API, который интегрирован в облачную среду разработки Google AI Studio. В то же время корпоративный сектор может использовать эти возможности в рамках платформы Gemini Enterprise for Customer Experience, предназначенной для улучшения клиентского сервиса.
Существенный технологический скачок в общей вычислительной производительности и способности нейросети к рассуждению объективно подтверждается результатами профильных тестирований. В частности, на специализированном бенчмарке ComplexFuncBench Audio, который оценивает способность языковой модели выполнять многоступенчатые вызовы функций с различными заданными ограничениями, Gemini 3.1 Flash Live демонстрирует лидирующий показатель в 90,8 процента, превосходя предыдущую версию системы. Дополнительные технические испытания проводились на платформе Scale AI в рамках тестирования Audio MultiChallenge, где новая аудиомодель достигла результата в 36,1 процента при активированном режиме внутреннего размышления.
Помимо выполнения строгих алгоритмических инструкций, инженеры компании уделили внимание глубокому машинному пониманию тональности живой беседы, превзойдя возможности предыдущей версии 2.5 Flash Native Audio. В рамках развертывания для клиентского сервиса Gemini Enterprise for Customer Experience модель демонстрирует повышенную эффективность в распознавании тончайших акустических нюансов, таких как изменения высоты тона и темпа речи говорящего пользователя. Эта способность к акустическому анализу позволяет нейросети не просто генерировать релевантный текстовый ответ, но и динамически корректировать свою реакцию в ситуациях, когда человек выражает явное разочарование или замешательство.
Для рядовых пользователей доступ к возможностям Gemini 3.1 Flash Live открыт через потребительские сервисы Search Live и Gemini Live, обеспечивая более полезные и естественные ответы как на быстрые повседневные запросы, так и в ходе длительных бесед. Внедрение обновленной архитектуры позволило разработчикам существенно ускорить время отклика по сравнению с предыдущими итерациями генеративной модели. Кроме того, система теперь способна в два раза дольше удерживать общую нить разговора, сохраняя целостность мыслительного процесса пользователя во время продолжительных мозговых штурмов.
Важнейшим этапом развития экосистемы стала глобальная экспансия сервиса Search Live, которая оказалась технически осуществимой благодаря врожденной мультиязычности базовой аудиомодели 3.1 Flash Live. Начиная с этой недели, пользователи из более чем двухсот стран и территорий получили возможность вести мультимодальные разговоры с поисковой системой в режиме реального времени на предпочитаемом ими языке. Такая широкая языковая поддержка позволяет получать помощь в поиске информации или устранении неполадок без барьеров локализации интерфейсов. Интеграция подобной технологии в поисковые алгоритмы трансформирует процесс повседневного взаимодействия с сетью.
По мере того как синтезируемые машиной голоса становятся все более плавными и естественными, корпорация Google DeepMind внедряет строгие механизмы информационной безопасности для предотвращения распространения дезинформации. Все без исключения аудиоматериалы, сгенерированные с помощью новой модели Gemini 3.1 Flash Live, маркируются технологией SynthID. Данный водяной знак является невоспринимаемым для человеческого слуха и вплетается непосредственно в сам выходной аудиосигнал на этапе генерации. Это техническое решение позволяет профильным алгоритмам надежно идентифицировать контент, созданный искусственным интеллектом.
Источники
Ответы (0)
Пока нет ответов в этой теме.