
Amazon SageMaker IA y vLLM se integran para permitir transcripción speech‑to‑text en tiempo real usando streaming bidireccional; la funcionalidad de streaming continuo de SageMaker IA estará disponible desde noviembre de 2025. Este flujo full‑duplex deja pasar audio desde el cliente al contenedor del modelo y devuelve tokens de transcripción a medida que se generan, lo que reduce la latencia inicial en aplicaciones sensibles al tiempo. Para desarrolladores y operadores, la combinación promete acortar el tiempo hasta la primera palabra procesada y facilitar despliegues gestionados de servicios de voz.
La Realtime API de vLLM expone un endpoint WebSocket nativo en /v1/realtime y admite varios modelos de voz, lo que facilita conexiones persistentes y bidireccionales. vLLM utiliza ejecución por piezas con CUDA graph (piecewise CUDA graph execution) para minimizar la sobrecarga de lanzamiento de kernels en GPU y disminuir la latencia por token durante la transcripción. Estas optimizaciones técnicas están pensadas para mantener el rendimiento en escenarios donde se producen emisiones continuas de audio y se requieren respuestas incrementales.
Como ejemplo práctico, la guía despliega Voxtral — Mini-4B-Realtime-2602 (un modelo compacto de Mistral IA) en un endpoint gestionado de SageMaker usando un contenedor vLLM; el repositorio vinculado en GitHub contiene el ejemplo completo para reproducir el despliegue. Ese ejemplo muestra cómo conectar clientes vía WebSockets al endpoint /v1/realtime y cómo manejar la transmisión de audio y la recepción de tokens de transcripción en tiempo real, sirviendo como plantilla para pruebas y puesta en producción.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.