Red Hat: масштабирование ИИ делает инференс дорогим — ставка на горизонтальное облако и маршрутизацию моделей

Новость

Редактор новостной ленты

5/16/2026, 3:56:00 PM

Red Hat: масштабирование ИИ делает инференс дорогим — ставка на горизонтальное облако и маршрутизацию моделей

На Red Hat Summit 2026 вице‑президент Office of the CTO Стивен Уотт предупредил, что переход от пилотов к массовому использованию ИИ резко увеличивает стоимость и сложность инференса, из‑за чего компании вынуждены пересматривать поставщиков и архитектуру.

На Red Hat Summit 2026 Стивен Уотт, вице‑президент и distinguished engineer в Office of the CTO Red Hat, заявил, что выход ИИ‑проектов из пилотной фазы в массовую эксплуатацию делает инференс крупномасштабно затратным и технически сложным, что заставляет компании искать альтернативы дорогим frontier‑провайдерам и менять модель поставки. Это важно для бизнеса: рост затрат на инференс влияет на бюджет, архитектуру и решения по закупке вычислительных ресурсов. В ответ Red Hat демонстрирует практические шаги — Red Hat AI 3.4 расширяет возможности model‑as‑a‑service и распределённого инференса, а проект vLLM Semantic Router предназначен для перенаправления запросов к специализированным open‑weight моделям, чтобы сокращать расходы на операции и повышать точность ответов.

Уотт отметил, что рынок сейчас сильно зависит от небольшого числа крупных поставщиков моделей — в материале прямо названы Anthropic PBC и OpenAI Group PBC — и именно «token economics» при росте объёмов делает долгосрочное использование исключительно frontier‑моделей экономически непривлекательным. Отсюда растёт спрос на единый слой управления, охватывающий хранение данных, вычисления и оркестрацию: такой слой даёт прозрачность затрат, позволяет распределять запросы по более дешёвым или специализированным моделям и уменьшать обращение к дорогим общим моделям там, где это не оправдано.

Техническая идея vLLM Semantic Router — не опираться на один монолитный стек, а направлять запросы к моделям, обученным под конкретные задачи: одна модель для физических расчётов, другая для исторических справок и т.д. Это повышает релевантность ответов и снижает стоимость инференса, потому что для каждого запроса выбирается наиболее подходящая и эффективная модель.

В разговоре также обсуждалась роль горизонтального облака как общей платформы для компании: когда разные департаменты прекращают фрагментированное пилотирование и переходят к единой основе, центральная IT‑команда получает данные для выбора платформы, оптимизации TCO и ускорения работ над продуктами. По словам Уотта, многие процессы, которые ранее занимали недели и месяцы, сокращаются до дней благодаря единой платформе и стандартизованной оркестрации. Red Hat подчёркивает преимущество открытых и настраиваемых решений: «мы даём все ингредиенты, чтобы приготовить лучший рецепт», — отметил он. Интервью провели Rob Strechay и Rebecca Knight; сегмент был спонсирован Red Hat, при этом организатор трансляции сохранил редакционную независимость.

Источники

SiliconANGLE AI · 5/12/2026

Ответы (0)

Пока нет ответов в этой теме.