Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. Google

Google запускает Gemini 3.1 Flash TTS: новый стандарт в текстовом воспроизведении на Google Cloud

Новость
Ю
Юлия Белова
Редактор аналитических материалов

4/16/2026, 3:01:53 PM

Google запускает Gemini 3.1 Flash TTS: новый стандарт в текстовом воспроизведении на Google Cloud

Новая модель текстового воспроизведения Gemini 3.1 Flash TTS от Google предлагает разработчикам и предприятиям высокую степень контроля и выразительности, что открывает новые возможности для создания продвинутых AI-приложений.

Google представил новую модель текстового воспроизведения Gemini 3.1 Flash TTS, доступную на Google AI Studio и Vertex AI. Эта модель обеспечивает разработчикам и предприятиям высокий уровень управляемости и выразительности, позволяя создавать продвинутые приложения для AI-речи. Новый TTS-продукт поддерживает более 70 языков и гарантирует чистое и высококачественное звучание.

Gemini 3.1 Flash TTS предлагает более 200 аудио тегов, позволяющих управлять темпом, выразительностью и стилем воспроизведения. Пользователи могут выбрать один из 30 базовых голосов и настроить целевой язык, что образует основу аудиовыхода. Теги, такие как [whispers] и [happy], могут быть введены прямо в текст, что упрощает управление темпом и интонацией.

Эта технология позволяет программировать стиль речи с помощью простых текстовых команд, таких как управление акцентом или тоном. Возможность комбинировать команды с текстами на различных языках, как показано на примере французского, открывает новые горизонты для многоязычных приложений и облегчает индивидуальную настройку под конкретные требования.

TTS-решения имеют ключевое значение в создании доступных цифровых пространств. Gemini 3.1 Flash TTS повлияет на различные сферы, включая игровые саундтреки и аудиокниги, делая их более доступными для широкой аудитории. Это особенно важно для людей с ограниченными возможностями и тех, кто предпочитает аудиоконтент в повседневной жизни.

Внедрение новой модели также включает использование SynthID — водяного знака, который встроен в аудиовыход и помогает идентифицировать AI-сгенерированный контент, борясь с подделками и нарушениями авторских прав.

Источники

  1. Google Cloud Blog — AI & Machine Learning · 4/15/2026
1
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41