
Meryem Arik на QCon AI разобрала проблему «inference chaos» — когда разработки используют одновременно OpenAI, Mistral и локальные модели — и предложила AI‑модельные шлюзы как критический контрольный слой.
Meryem Arik рассказала о регулярном явлении, которое она называет «inference chaos»: инженерные команды одновременно подключают разные провайдеры и локальные модели, что делает поведение и расходы приложений непредсказуемыми. Она отмечает, что эта проблема возникает системно у клиентов, для которых Doubleword оказывает услуги по инференсу. В ответ Arik продемонстрировала подход с использованием AI‑модельных шлюзов — центрального программного уровня, который маршрутизирует запросы к разным моделям, применяет политики и собирает метрики. Команда Doubleword собрала такой шлюз как open‑source проект, при этом компания не продаёт его как коммерческий продукт. В докладе также перечислены примеры проектов: LiteLLM и OpenRouter.
рынка усиливает проблему: современные приложения требуют разных моделей для разных задач, и нет «универсальной» модели. Практики одновременно используют облачные API (например, OpenAI), новые провайдеры (Mistral) и собственные тонко настроенные модели — такое смешение приводит к фрагментации стека инференса и сложности в отладке и мониторинге. Для инженеров и архитекторов смысл внедрения шлюза конкретен: он даёт единый контрольный интерфейс для безопасности и RBAC, позволяет вводить правила по учёту затрат и приоритизации провайдеров, а также упрощает трассировку и агрегирование метрик инференса. Arik призывает рассматривать шлюз не как масштабный проект, а как минимально необходимый слой, который можно развернуть даже для небольших команд.
В техническом плане шлюз выполняет несколько задач: стандартизирует API поверх разнородных бэкендов, реализует маршрутизацию запросов в зависимости от политики (латентность, стоимость, версия модели), собирает телеметрию и обеспечивает точку внедрения политик безопасности. Доклад опирается на практический опыт разработки и эксплуатации таких шлюзов у клиентов Doubleword. Доклад прозвучал на QCon AI-конференции для практикующих инженеров, ориентированной на масштабирование рабочих нагрузок в продакшне. Arik представлена как сооснователь и CEO Doubleword (раньше компания называлась TitanML), она напомнила, что Doubleword существует примерно четыре года, а в биографии спикера указаны учёная степень и упоминание в списке 30 Under 30.
Источники
Ответы (0)
Пока нет ответов в этой теме.