
SageMaker AI теперь принимает OpenAI‑совместимые Chat Completions на своих real‑time endpoints: вызовы из OpenAI SDK, LangChain и Strands Agents можно направить на SageMaker, изменив только URL, без написания кастомного клиента или добавления SigV4‑обёртки.
Amazon SageMaker AI ввёл совместимый с OpenAI путь /openai/v1 на real‑time endpoints, который принимает запросы Chat Completions и поддерживает потоковую выдачу ответов. Это означает, что приложения и агенты, использующие OpenAI SDK, LangChain или Strands Agents, могут перенаправлять вызовы на модели в SageMaker, поменяв только URL конечной точки — клиентская логика, формат промптов и механика стриминга остаются прежними. Технически путь /openai/v1 принимает запросы Chat Completions и возвращает ответы контейнера без изменения формата, включая поддержку стриминга. OpenAI‑совместимые конечные точки доступны для всех endpoints и для inference components; внутри SageMaker маршрутизация определяется именем endpoint в URL, что упрощает подстановку различных моделей под единый интерфейс и объединение нескольких моделей за одним API‑адресом.
Аутентификация реализована через временные bearer‑токены, которые генерирует встроенный генератор токенов SageMaker Python SDK. Токены действуют до 12 часов, содержат данные роли или пользователя и требуют соответствующих прав IAM: в частности, sagemaker: CallWithBearerToken и sagemaker: InvokeEndpoint. В SDK приведён пример генерации таких токенов. Внедрение этой совместимости устраняет необходимость писать кастомные клиенты или добавлять SigV4‑обёртку: стандартные OpenAI‑совместимые клиенты работают «из коробки». Разработчики не обязаны перестраивать логику приложений для интеграции со SageMaker, что снижает инженерные затраты, ускоряет тестирование и перевод моделей в эксплуатацию.
Нововведение открывает практические сценарии для агентных рабочих процессов и мульти‑модельных конфигураций. Агентные пайплайны могут полностью выполняться на собственных GPU‑инстансах в аккаунте, поскольку агенты продолжают обращаться к моделям через знакомый OpenAI‑интерфейс. На одном endpoint можно хостить несколько моделей через inference components — например Llama, тонко‑настроенную Mistral и лёгкую модель для классификации — при отдельном распределении ресурсов для каждой модели. Для воспроизведения потребуются AWS‑аккаунт с правами на создание endpoints, установленный SageMaker и OpenAI Python SDK, сама модель в S3 и корректные IAM‑роли (в статье указан пример AmazonSageMakerFullAccess). В источнике опубликован рабочий ноутбук на GitHub с примерами развёртывания и вызова как single‑model, так и multi‑model конфигураций, который демонстрирует типовые команды и сценарии.
Организации при этом сохраняют контроль над инфраструктурой и развёртываниями, но несут ответственность за управление правами доступа и endpoint‑ами: безопасность, лимиты токенов и контроль доступа остаются в зоне AWS и требуют внимательной настройки IAM и операций с endpoints. Внедрение совместимого API уменьшает интеграционные барьеры, но не снимает требований к безопасности и управлению ресурсами.
Источники
Ответы (0)
Пока нет ответов в этой теме.