
OpenAI anunció el 7 de mayo de 2026 un nuevo modo de ejecución por WebSocket para su Responses API, diseñado para agilizar flujos que coordinan múltiples pasos y llamadas a herramientas. La compañía afirma que la opción reduce la latencia y mejora la coordinación entre etapas de razonamiento en agentes y sistemas en tiempo real. Esto beneficiará especialmente a orquestaciones y agentes que requieren baja latencia y alta concurrencia.
Técnicamente, el modo reemplaza el patrón tradicional de petición — respuesta HTTP por una conexión bidireccional y de larga duración (WebSocket), lo que permite streaming continuo de salida, llamadas a herramientas más rápidas y mantenimiento de estado entre interacciones. "You can warm up the connection by sending your system prompt and tool definitions first." El servicio es compatible con Zero Data Retention (ZDR). Ofek Shaked comentó: "WebSockets for agent state is such an obvious but huge win. No more cold starts killing your multi — tool chains."
El anuncio responde a un cuello de botella creciente: a medida que mejoró la latencia de inferencia, los tiempos de ida y vuelta de red por cada paso comenzaron a dominar el rendimiento de flujos agenticos. En pruebas internas OpenAI reportó un throughput sostenido en torno a 1.000 transacciones por segundo (TPS) y picos de hasta 4.000 TPS, lo que sugiere un beneficio claro en escenarios de alta concurrencia y para herramientas de desarrollo y agentes de codificación que ya han adoptado la opción.
En pruebas tempranas, el modo WebSocket redujo la latencia hasta un 40% y mejoró el throughput, facilitando orquestaciones multi‑paso más rápidas y menor sobrecarga operativa en producción. El cambio subraya que las optimizaciones en la capa de transporte — no solo las mejoras de modelo — pueden tener un impacto decisivo en sistemas de IA en tiempo real y en agentes de automatización.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.