Amazon SageMaker IA añade compatibilidad con la API de OpenAI para endpoints en tiempo real

News

5/21/2026, 1:15:30 AM

Amazon SageMaker IA añade compatibilidad con la API de OpenAI para endpoints en tiempo real

SageMaker IA permite invocar modelos mediante la API de OpenAI (ruta /openai/v1) desde aplicaciones que usan OpenAI SDK, LangChain o Strands Agents cambiando solo la URL, sin clientes personalizados ni firmas SigV4.

Amazon SageMaker IA anunció soporte para la API de OpenAI en sus endpoints de inferencia en tiempo real, de modo que aplicaciones y frameworks que ya emplean OpenAI SDK, LangChain o Strands Agents pueden dirigir llamadas a modelos en SageMaker simplemente cambiando la URL del endpoint. Esto elimina la necesidad de clientes personalizados, envoltorios SigV4 o reescrituras de código, lo que reduce la fricción para migrar llamadas de clientes OpenAI a infraestructuras propias.

A nivel técnico, los endpoints exponen la ruta /openai/v1 y aceptan solicitudes de Chat Completions, devolviendo la respuesta tal cual desde el contenedor, incluido el streaming. La función está activada para todos los endpoints y componentes de inferencia que usan las API y SDK estándar de SageMaker IA. Además, SageMaker permite crear tokens bearer con tiempo limitado y publica un cuaderno de ejemplo en GitHub para el despliegue e invocación.

Giorgio Piatti (IA/ML Engineer — Caffeine.IA) señaló que el token bearer permite integrar SageMaker como endpoint compatible con OpenAI sin firmar con SigV4. En la práctica, la compatibilidad facilita ejecutar flujos agentivos en infraestructura propia — por ejemplo agentes multi‑paso con Strands Agents o LangChain— y hospedar varios modelos detrás de un único endpoint con asignación de recursos por componente. Entre los ejemplos citados están modelos Llama genéricos, versiones afinadas de Mistral y modelos pequeños orientados a clasificación; todo ello puede servirse sin cambiar la lógica de SDK, el streaming o el formateo de prompts.

Por qué importa: las organizaciones pueden redirigir llamadas de clientes OpenAI a instancias GPU en su propia cuenta con cambios mínimos — solo la URL-manteniendo control sobre el entorno de ejecución y la asignación de recursos. La compatibilidad con streaming y tokens temporales facilita la integración nativa con gateways LLM y SDKs existentes, reduce el trabajo de ingeniería y permite centralizar la infraestructura de inferencia.

Fuentes

AWS Machine Learning Blog · 5/20/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás