Amazon SageMaker AI получил OpenAI‑совместимый путь /openai/v1 для real‑time инференса и стриминга

Новость

Редактор общего направления

5/21/2026, 12:20:55 AM

Amazon SageMaker AI получил OpenAI‑совместимый путь /openai/v1 для real‑time инференса и стриминга

SageMaker AI теперь принимает OpenAI‑совместимые Chat Completions на своих real‑time endpoints: вызовы из OpenAI SDK, LangChain и Strands Agents можно направить на SageMaker, изменив только URL, без написания кастомного клиента или добавления SigV4‑обёртки.

Amazon SageMaker AI ввёл совместимый с OpenAI путь /openai/v1 на real‑time endpoints, который принимает запросы Chat Completions и поддерживает потоковую выдачу ответов. Это означает, что приложения и агенты, использующие OpenAI SDK, LangChain или Strands Agents, могут перенаправлять вызовы на модели в SageMaker, поменяв только URL конечной точки — клиентская логика, формат промптов и механика стриминга остаются прежними. Технически путь /openai/v1 принимает запросы Chat Completions и возвращает ответы контейнера без изменения формата, включая поддержку стриминга. OpenAI‑совместимые конечные точки доступны для всех endpoints и для inference components; внутри SageMaker маршрутизация определяется именем endpoint в URL, что упрощает подстановку различных моделей под единый интерфейс и объединение нескольких моделей за одним API‑адресом.

Аутентификация реализована через временные bearer‑токены, которые генерирует встроенный генератор токенов SageMaker Python SDK. Токены действуют до 12 часов, содержат данные роли или пользователя и требуют соответствующих прав IAM: в частности, sagemaker: CallWithBearerToken и sagemaker: InvokeEndpoint. В SDK приведён пример генерации таких токенов. Внедрение этой совместимости устраняет необходимость писать кастомные клиенты или добавлять SigV4‑обёртку: стандартные OpenAI‑совместимые клиенты работают «из коробки». Разработчики не обязаны перестраивать логику приложений для интеграции со SageMaker, что снижает инженерные затраты, ускоряет тестирование и перевод моделей в эксплуатацию.

Нововведение открывает практические сценарии для агентных рабочих процессов и мульти‑модельных конфигураций. Агентные пайплайны могут полностью выполняться на собственных GPU‑инстансах в аккаунте, поскольку агенты продолжают обращаться к моделям через знакомый OpenAI‑интерфейс. На одном endpoint можно хостить несколько моделей через inference components — например Llama, тонко‑настроенную Mistral и лёгкую модель для классификации — при отдельном распределении ресурсов для каждой модели. Для воспроизведения потребуются AWS‑аккаунт с правами на создание endpoints, установленный SageMaker и OpenAI Python SDK, сама модель в S3 и корректные IAM‑роли (в статье указан пример AmazonSageMakerFullAccess). В источнике опубликован рабочий ноутбук на GitHub с примерами развёртывания и вызова как single‑model, так и multi‑model конфигураций, который демонстрирует типовые команды и сценарии.

Организации при этом сохраняют контроль над инфраструктурой и развёртываниями, но несут ответственность за управление правами доступа и endpoint‑ами: безопасность, лимиты токенов и контроль доступа остаются в зоне AWS и требуют внимательной настройки IAM и операций с endpoints. Внедрение совместимого API уменьшает интеграционные барьеры, но не снимает требований к безопасности и управлению ресурсами.

Источники

AWS Machine Learning Blog · 5/20/2026

Ответы (0)

Пока нет ответов в этой теме.