Google представил Gemini 3.1 Flash TTS, новый текстово-речевой движок с улучшенным контролем производительности AI. Модель поддерживает более 70 языков и использует новые аудиометоды для повышения выразительности.
Google анонсировал Gemini 3.1 Flash TTS, новое поколение текстово-речевых технологий, обеспечивающее высокий контроль над качеством AI-речи. Модель доступна через Google AI Studio, Vertex AI и Google Vids, что делает её подходящей для разработчиков и компаний, стремящихся создать высокотехнологичные приложения.
Gemini 3.1 Flash TTS продемонстрировала значительное улучшение качества речи, получив 1211 баллов по шкале Elo, что ставит её в ряд лучших моделей по генерации речи согласно слепым тестам. Простота использования и поддержка более 70 языков делают её идеальным инструментом для глобального рынка.
Одной из главных новшеств является внедрение аудиометок, позволяющих пользователям настраивать вокальный стиль, темп и звучание с помощью естественного языка. Это позволяет разработчикам адаптировать AI-воспроизведение, превращая текст в качественное вокальное исполнение. Кроме того, Gemini 3.1 поддерживает многоактёрный диалог, что открывает новые возможности для создания выразительных и локализованных речевых приложений. Разработчики могут задавать уникальные профили озвучивания, интуитивно управляя характеристиками речи.
Тем не менее, вызовом для AI-сообщества остается угроза дезинформации, поэтому Google внедрил водяной знак SynthID во все сгенерированные аудиофайлы. Это позволяет отличать AI-контент от человеческого, что помогает предотвратить распространение ложной информации. Первые отзывы от разработчиков и компаний подтвердили высокую степень управляемости и выразительности Gemini 3.1 Flash TTS, отмечая новую точность в создании голосовых решений, что меняет подход к генерации речи в AI-приложениях.
Источники
Ответы (0)
Пока нет ответов в этой теме.