Инженеры перестроили стек WebRTC и ввели split «relay + transceiver», чтобы устранить три масштабных ограничения и обеспечить быстрые подключения и стабильную низкую задержку голосовых взаимодействий.
Инженеры перестроили стек WebRTC, внедрив архитектуру split «relay + transceiver» с целью сделать голосовые взаимодействия ИИ более естественными и отзывчивыми. Изменения затрагивают продукты и сервисы, которые работают с речью в реальном времени, включая ChatGPT Voice, Realtime API, интерактивных агентов и модели, обрабатывающие аудио во время речи. Команда сформулировала три ключевых требования к новой реализации. Первое — глобальный охват масштабов сервиса: инфраструктура должна обслуживать более 900 млн еженедельных активных пользователей. Второе — минимальное время установки соединения, чтобы пользователь мог начать говорить сразу после начала сессии. Третье — низкое и стабильно предсказуемое время круговой передачи с минимальным джиттером и потерями пакетов.
Чтобы удовлетворить эти требования, архитектура разделяет функции ретрансляции медиапотоков и роль трансивера, ответственного за управление сессией и сигнализацией. Такой split «relay + transceiver» позволяет оптимизировать пути передачи аудио и уменьшить влияние накладных операций протоколов на задержку, не теряя возможностей управления соединением. В новой реализации также учли ограничения существующего WebRTC‑стека, в частности аспекты установки соединения и безопасности, связанные с ICE и DTLS, а также практики вроде one‑port‑per‑session. Перестройка стека направлена на снижение времени установки и повышение устойчивости сессий при высокой нагрузке и в глобальной сети, где вариативность качества каналов и потери пакетов критичны для восприятия речи.
Источники
Ответы (0)
Пока нет ответов в этой теме.