Red Hat e Intel priorizan la inferencia escalable de IA y el soporte vLLM en CPUs Xeon

News

5/14/2026, 2:58:58 AM

Red Hat e Intel priorizan la inferencia escalable de IA y el soporte vLLM en CPUs Xeon

En Red Hat Summit 2026, directivos de Red Hat e Intel afirmaron que el principal reto para pasar de pruebas a adopción masiva de IA es construir sistemas de inferencia escalables y económicos.

En Red Hat Summit 2026, Taneem Ibrahim, director de ingeniería para inferencia de IA en Red Hat, y Bill Pearson, vicepresidente de centro de datos y IA en Intel, dijeron en una entrevista para theCUBE con Rob Strechay y Rebecca Knight que la prioridad actual es habilitar inferencia de IA escalable que mantenga el rendimiento sin disparar los costes. El anuncio apunta directamente al desafío de llevar proyectos de IA desde pruebas experimentales a despliegues productivos sostenibles.

Ibrahim explicó que Red Hat es el mayor contribuyente comercial al proyecto vLLM y que la compañía trabaja para escalarlo junto a iniciativas como llm-d. Ambos ejecutivos anunciaron que Red Hat IA 3.4 incorporará soporte completo de vLLM para procesadores Intel Xeon, con el objetivo declarado de reducir el coste por token y facilitar la gobernanza y el despliegue a gran escala de modelos de inferencia.

Según Ibrahim y Pearson, la primera ola de adopción se centró en modelos grandes y clústeres GPU, pero la aparición de cargas agentivas ha cambiado las prioridades operativas. Las CPUs, que ya existen en la mayoría de los centros de datos, pueden asumir muchas tareas de inferencia menos intensivas — por ejemplo, orquestación de datos y llamadas a herramientas — liberando las GPUs para las cargas más intensivas y costosas.

La conclusión de ambos ejecutivos es que no existe una única receta: la combinación adecuada de software y hardware será clave para optimizar coste y rendimiento. El soporte de vLLM en Xeon puede permitir a las empresas reutilizar infraestructura existente y reducir costes operativos, lo que podría acelerar la transición de pruebas a despliegues productivos sin depender exclusivamente de más GPUs. Esto afectará especialmente a organizaciones con centros de datos ya equipados con CPUs Xeon, que podrán priorizar inversiones en aceleración solo para las cargas críticas.

Fuentes

SiliconANGLE AI · 5/13/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás