
С ноября 2025 года разработчики получили возможность постоянной двунаправленной стриминговой передачи аудио и моментальной обратной транскрипции: SageMaker AI реализует native HTTP/2 bidirectional streaming, а vLLM добавил поддержку realtime‑транскрипции через Realtime API, где взаимодействие между клиентом и сервером идёт по WebSocket. Это сокращает задержки по сравнению с классической моделью request‑response, когда расшифровка ждёт окончания записи, и упрощает создание realtime‑функционала в голосовых приложениях. В демонстрации показано развёртывание модели Voxtral — Mini-4B-Realtime-2602 от Mistral AI в endpoint SageMaker AI с использованием контейнера vLLM. vLLM выставляет нативный WebSocket‑эндпоинт по пути /v1/realtime и поддерживает несколько речевых моделей; пример развёртывания и код доступны в репозитории на GitHub, что делает воспроизведение сценария понятным для инженеров.
Интеграция реализована на уровне протоколов: SageMaker AI слушает порт 8443 и автоматически мостит HTTP/2 event stream с клиентской стороны к WebSocket внутри контейнера. Это устраняет необходимость в самостоятельной реализации протокольного транслятора и позволяет клиенту стримить аудио и получать транскрипцию по одной устойчивой сессии; платформа также поддерживает ping/pong keepalive и health‑checks контейнера. Технические оптимизации vLLM направлены на снижение задержек при потоковой расшифровке: среди приёмов — piecewise CUDA graph execution, уменьшающий накладные расходы на запуск GPU‑ядер и сокращающий задержку на токен. Поскольку vLLM-проект с открытым исходным кодом, разработчики сохраняют контроль над конфигурацией модели, квантизацией и параметрами компиляции без привязки к провайдеру на уровне сервинга.
Пайплайн передачи аудио требует подготовки на клиенте: обычно это ресэмплинг до 16 kHz, моно PCM16, разбиение на чанки и base64‑кодирование перед отправкой. vLLM ожидает base64 PCM16‑чанки по WebSocket и возвращает потоком токены транскрипции, что обеспечивает непрерывный фид расшифровки без ожидания конца записи. Наблюдаемость обеспечивается через встроенные средства мониторинга, включая интеграцию с Amazon CloudWatch.
Для рынков голосовых агентов, live‑captioning, аналитики контакт‑центров и инструментов доступности такое сочетание управляемой инфраструктуры SageMaker AI и высокопроизводительного открытого сервинга vLLM означает снижение латентности, уменьшение операционной нагрузки и упрощение вывода в продакшн. Итог — полностью управляемый speech‑to‑text сервис с непрерывным потоком аудио и моментальной транскрипцией, поддерживающий развёртывание компактных realtime‑моделей (пример — Mini-4B-Realtime-2602) с контролем над сервингом и встроенной телеметрией.
Источники
Ответы (0)
Пока нет ответов в этой теме.