
В 2026 году качество TTS заметно приблизилось к человеческой речи: в рейтингах лидируют Gemini 3.1 Flash и Realtime TTS‑2, медианная задержка у ряда систем упала ниже 100 мс, а управление эмоциями стало стандартной опцией.
В 2026 году синтез речи сделал качественный скачок: по ряду метрик синтетическая речь заметно сократила отрыв от человеческой, у некоторых систем медианная задержка опустилась ниже 100 мс, а управление эмоциями перестало быть редким демонстрационным режимом и превратилось в стандартную возможность. Это влияет на голосовые агенты, интерактивные медиа и сервисы реального времени, где важны и восприятие, и задержка отклика, поэтому выбор модели всё чаще определяется эксплуатационными требованиями, а не только субъективной естественностью.
Два главных лидерборда сообщества — Artificial Analysis Speech Arena (ELO по слепым человеческим голосованиям) и сообществный TTS Arena на Hugging Face-дают консенсус по предпочтениям слушателей. По состоянию на 30 мая 2026 года Artificial Analysis Speech Arena в топ‑5 по ELO перечисляет: Gemini 3.1 Flash TTS; Realtime TTS‑2 (Research Preview); Sonic 3.5; Realtime TTS 1.5 Max; Fun — Realtime‑TTS‑Preview. Google выпустил Gemini 3.1 Flash 15 апреля 2026 года в виде превью через несколько своих продуктов, предоставив более 200 аудиотегов для управления стилем, тоном и темпом.
Inworld AI с 21 января 2026 года предлагает TTS‑1.5; компания заявляет о приросте выразительности примерно на 30% по сравнению с TTS‑1 и об улучшении стабильности порядка 40% по метрикам ошибок слов и согласованности вывода. Модель поставляется в двух вариантах: Mini для низкой задержки и Max для баланса стабильности и латентности — P90 time‑to‑first‑audio у Mini ниже 130 мс, у Max-ниже 250 мс. TTS‑1.5 поддерживает 15 языков, а оба уровня предлагают как моментальное, так и профессиональное клонирование голосов.
Бенчмарки используют разные категории метрик: ELO фиксирует предпочтения слушателей, но не замеряет точность синтеза; Trelis Research измерял точность через round‑trip CER (транскрибирование сгенерированного аудио ASR и сравнение с исходным текстом) и MOS для восприятия естественности. Оценщик UTMOS обучен на клипах до 10 секунд, поэтому длинные примеры дают более сжатое распределение оценок — отдельные числа следует рассматривать как снимок времени, а не как окончательную истину. для голосовых агентов релевантна time‑to‑first‑audio (TTFA), тогда как ориентироваться только на time‑to‑first‑byte (TTFB) рискованно. Градиум‑бенчмарк в мае 2026 оценивает интерквартильный размах и хвосты задержек у провайдеров — именно пики и крайнние задержки определяют пользовательский опыт в масштабируемых системах.
Практические рекомендации для разработчиков: выбор модели зависит от приоритетной оси — восприятие, точность передачи текста, время до первого аудио, языковой охват или стоимость. Комбинация низкой P90‑латентности и агрессивного ценообразования делает Inworld привлекательной для потребительских голосовых агентов, а система аудиотегов Gemini 3.1 Flash даёт гибкость стилизации для агентных и медиапроектов.
Источники
Ответы (0)
Пока нет ответов в этой теме.