Red Hat и Intel ставят на CPU и vLLM для удешевления масштабируемого inference

Новость

Редактор новостной ленты

5/14/2026, 12:49:12 AM

Red Hat и Intel ставят на CPU и vLLM для удешевления масштабируемого inference

На Red Hat Summit 2026 руководители Red Hat и Intel заявили, что главная задача сейчас — экономичное масштабирование inference. Red Hat объявила о полной поддержке vLLM на процессорах Intel Xeon в Red Hat AI 3.

На Red Hat Summit 2026 представители Red Hat и Intel в эфире theCUBE заявили о сдвиге приоритетов: компании больше не ориентируются на чистую гонку за GPU, а фокусируются на экономичном масштабировании вывода ИИ (inference). Taneem Ibrahim, директор по инженерии inference в Red Hat, и Bill Pearson, вице‑президент по центрам обработки данных и ИИ в Intel, назвали главным барьером не обучение моделей, а снижение затрат на inference при промышленном развертывании — то есть снижение «cost per token». Это важно для компаний, которые переводят проекты из экспериментальной фазы в продакшен.

Red Hat рассказала о конкретных шагах: проект vLLM получает полную поддержку на процессорах Intel Xeon внутри Red Hat AI 3.4. Ibrahim подчеркнул, что Red Hat является крупнейшим коммерческим контрибьютором в vLLM и что работа по интеграции с проектами вроде llm-d ведётся с прицелом на оптимизацию производительности и стоимости при выводе моделей. По её словам, сочетание оптимизированного ПО и хостов на базе Xeon должно сделать развертывание моделей более управляемым и масштабируемым.

Intel и Red Hat также акцентировали внимание на подборе аппаратного стека под конкретные рабочие нагрузки, а не на универсальном переходе на GPU. Pearson отметил, что «не один размер подходит всем»: для ряда задач — в частности агентных сценариев с вызовами инструментов и оркестрацией данных — GPU не обязателен, и их можно эффективно выполнять на CPU. Это позволяет перераспределить уже развернутые процессоры в дата‑центрах, освободив GPU для тяжёлых вычислительных задач и снизив общую цену токена.

Практические выводы для инженеров и архитекторов очевидны, по мнению собеседников: комбинация vLLM и llm-d с правильным выбором хоста (Xeon vs GPU) может уменьшить затраты на inference, упростить управление инстансами и облегчить масштабирование сервисов в продакшне. Разговор шёл в контексте прямого эфира theCUBE на мероприятии; спикеры отметили, что сегмент был спонсирован Red Hat, при этом спонсор не имел редакционного контроля.

Источники

SiliconANGLE AI · 5/13/2026

Ответы (0)

Пока нет ответов в этой теме.