Inworld AI представила Realtime TTS-2 с закрытой аудиопетлёй, учитывающей полный аудиоконтекст

Новость

Редактор общего направления

5/6/2026, 2:04:52 AM

Inworld AI представила Realtime TTS-2 с закрытой аудиопетлёй, учитывающей полный аудиоконтекст

Realtime TTS-2 — исследовательская версия голосовой модели Inworld AI, которая в генерации речи использует не только текстовые расшифровки, но и реальный аудиосигнал предыдущих реплик.

Realtime TTS-2 доступна как research preview через Inworld API и Inworld Realtime API. Модель специально разработана для живого диалога: она ориентируется на сам звук предыдущих ходов, а не только на их транскрипты. Такой подход позволяет системе «слышать» собеседника и учитывать акустические признаки при формировании ответа, что отличает её от традиционных текст‑ориентированных TTS‑решений.

Ключевая техническая особенность TTS‑2 — закрытая петля (closed‑loop): при генерации используется реальный аудиосигнал предыдущих реплик. Это даёт модели доступ к тональности, темпу и эмоциональным маркерам голоса собеседника и придаёт последующим ответам контекстуальную окраску. На практике одна и та же фраза может звучать иначе после шутки и иначе после плохой новости. Аудиоконтекст сохраняется в сессиях Realtime без необходимости явно передавать поле prior_audio.

Inworld описывает TTS‑2 как объединение четырёх ключевых возможностей. Voice Direction предоставляет тонкое управление подачей через встроенные текстовые подсказки и длинные описательные инструкции; Conversational Awareness — собственно закрытая петля, которая поддерживает контекст диалога; Crosslingual обеспечивает сохранение идентичности голоса более чем на 100 языках и умеет переключаться внутри фразы; Advanced Voice Design позволяет создать воспроизводимый голос по текстовому описанию без референсного аудио.

Реализация Voice Direction поддерживает встроенные маркеры вроде [laugh], [sigh], [breathe], [clear_throat], [cough], которые модель воспроизводит как аудио‑события, а не произносит вслух. Разработчики могут вставлять подробные указания в скобках: модель лучше реагирует на развернутые описания, чем на короткие эмотиконы или общие категории вроде [sad] / [excited]. Для клонирования голоса доступен двухэтапный API: в материале упоминается загрузка референсного образца как часть процесса.

TTS‑2 также ориентирована на «человеческую» речь — модель генерирует дисфлюенции (uh, um), самокоррекции, паузы внутри фраз и завершающие мысли, что создаёт эффект внимания и памяти. Advanced Voice Design предлагает три режима стабильности — Expressive, Balanced (по умолчанию для агентов) и Stable для IVR и профессиональных сценариев — чтобы разработчики могли выбирать баланс выразительности и надёжности. Важно помнить о статусе релиза: это исследовательская версия, где ведущие языки обещают качество, близкое к носительскому, а «длинный хвост» языков помечен как экспериментальный.

Источники

MarkTechPost AI · 5/6/2026

Ответы (0)

Пока нет ответов в этой теме.