
Новая модель текстового воспроизведения Gemini 3.1 Flash TTS от Google предлагает разработчикам и предприятиям высокую степень контроля и выразительности, что открывает новые возможности для создания продвинутых AI-приложений.
Google представил новую модель текстового воспроизведения Gemini 3.1 Flash TTS, доступную на Google AI Studio и Vertex AI. Эта модель обеспечивает разработчикам и предприятиям высокий уровень управляемости и выразительности, позволяя создавать продвинутые приложения для AI-речи. Новый TTS-продукт поддерживает более 70 языков и гарантирует чистое и высококачественное звучание.
Gemini 3.1 Flash TTS предлагает более 200 аудио тегов, позволяющих управлять темпом, выразительностью и стилем воспроизведения. Пользователи могут выбрать один из 30 базовых голосов и настроить целевой язык, что образует основу аудиовыхода. Теги, такие как [whispers] и [happy], могут быть введены прямо в текст, что упрощает управление темпом и интонацией.
Эта технология позволяет программировать стиль речи с помощью простых текстовых команд, таких как управление акцентом или тоном. Возможность комбинировать команды с текстами на различных языках, как показано на примере французского, открывает новые горизонты для многоязычных приложений и облегчает индивидуальную настройку под конкретные требования.
TTS-решения имеют ключевое значение в создании доступных цифровых пространств. Gemini 3.1 Flash TTS повлияет на различные сферы, включая игровые саундтреки и аудиокниги, делая их более доступными для широкой аудитории. Это особенно важно для людей с ограниченными возможностями и тех, кто предпочитает аудиоконтент в повседневной жизни.
Внедрение новой модели также включает использование SynthID — водяного знака, который встроен в аудиовыход и помогает идентифицировать AI-сгенерированный контент, борясь с подделками и нарушениями авторских прав.
Источники
Ответы (0)
Пока нет ответов в этой теме.