
Cloudflare анонсировала новую инфраструктуру для запуска больших языковых моделей (LLM) по своей глобальной сети, где ключевым архитектурным решением стало разделение обработки запроса на две отдельные фазы. Первая фаза (prefill) занимается чтением и подготовкой входного текста и заполнением KV‑кеша, вторая (decode) отвечает за итеративную генерацию выходных токенов. В комплект инженерных решений вошли собственный движок инференса Infire и система сжатия весов Unweight — все изменения направлены на уменьшение затрат памяти и повышение пропускной способности при инференсе.
Компания подробно описывает концепцию «disaggregated prefill»: prefill обычно является compute‑bound, тогда как decode — memory‑bound, поэтому разделение позволяет оптимизировать каждую стадию на подходящем оборудовании. По словам команды Cloudflare (включая Michelle Chen, Kevin Flansburg и Vlad Krasnov), Infire поддерживает как pipeline‑, так и tensor‑параллелизм и стремится корректно балансировать стадии конвейера, чтобы одни GPU не простаивали, пока другие перегружены. Для tensor‑параллелизма движок оптимизирует меж‑GPU коммуникации, а сочетание обоих подходов даёт наилучшее сочетание пропускной способности и латентности для большинства моделей.
В качестве иллюстрации масштабов проблемы Cloudflare ссылается на модель Kimi K2.5 от Moonshot AI: модель с более чем триллионом параметров занимает порядка 560 ГБ и требует как минимум восьми GPU H100 только для загрузки весов в память, без учёта дополнительной памяти, необходимой при инференсе. Компания также сообщает, что благодаря оптимизациям Infire и внутренним оптимизациям использования GPU удалось запустить Llama 4 Scout на двух H200 с большим контекстом и Kimi K2.5 на восьми H100, при этом оставляя память для KV‑кеша — конфигурации, которые по их словам были бы затруднительны для других стэков.
Cloudflare подчёркивает, что её объявления отражают более широкую тенденцию: по мере роста размеров моделей барьерами становятся не только алгоритмы, но и стоимость и сложность инфраструктуры. В материале InfoQ также приводится ссылка на отчёт Cockroach Labs о состоянии AI‑инфраструктуры, где отмечается, что наследственные системы часто не приспособлены к давлению и непредсказуемости высоко нагруженных AI‑нагрузок и требуют переосмысления архитектур, а не только апгрейда железа. Cloudflare ранее описывала также опыт запуска открытых моделей на Workers AI, что показывает практическую направленность инициативы.
Практическое значение этих изменений очевидно в том, что снижение требований к памяти (Unweight заявлено как компрессия весов порядка 15 — 22% без потери точности) и более эффективное использование GPU могут расширить число сценариев, где крупные LLM становятся эксплуатационно жизнеспособными. В то же время публичный материал не содержит подробных независимых бенчмарков, метрик стоимости или сравнений с альтернативными провайдерами, поэтому оценивать реальную экономию и влияние на латентность можно только на основании заявленных конфигураций Cloudflare и последующих тестов со стороны сообщества.
Источники
Ответы (0)
Пока нет ответов в этой теме.