SGLang и Tair представили иерархичную Sparse Attention для хранения полного KV Cache на CPU и экономии GPU‑памяти

Новость

Редактор новостной ленты

5/22/2026, 10:17:42 PM

SGLang и Tair представили иерархичную Sparse Attention для хранения полного KV Cache на CPU и экономии GPU‑памяти

Команды Tair KVCache и SGLang HiCache вместе с Ant AI Infra — Inference Service и серверной группой по гетерогенным вычислениям объявили о фреймворке иерархичной Sparse Attention. Решение перемещает полный KV Cache в иерархию памяти (GPU → CPU → удалённое хранилище), при этом на GPU держится только Top‑k LRU буфер для ускорения доступа к часто используемым состояним — что снимает требование хранить весь кэш в HBM и напрямую экономит GPU‑память.

Архитектура выполнена модульно и включает компоненты SparseCoordinator, Algorithm, BackendAdaptor и SparseKVCacheManager, которые совместно реализуют стратегию «слоистость + разреженность». Авторы описывают два исходных узких места: увеличение длины контекста до 128K-1M токенов повышает вычислительную нагрузку и ограничивается пропускной способностью HBM; после внедрения динамической Sparse Attention (DSA) основным ограничением становится ёмкость HBM. DSA использует подход «Select‑then‑Compute», выбирая Top‑k токенов для вычисления внимания и тем самым снижая объём вычислений.

Фреймворк комбинирует перенос полного KV Cache на CPU с удержанием Top‑k LRU буфера на GPU, чтобы одновременно уменьшить расход HBM и сохранить низкую латентность для горячих состояний. В числе механизмов передачи и синхронизации — инкрементальная передача разрежённых изменений через Sparse Diff Kernel и оптимизации производительности I/O‑ядра для высокоскоростного перемещения данных между уровнями памяти и хранилищем. В качестве примера интеграции приводят кейс с DeepSeek DSA: при одном из сценарием видеопамять на заявку сократилась с 8 GB до 200 MB, а пропускная способность одной машины выросла примерно в 3 раза. Авторы используют такие измерения, чтобы показать практическую выгоду от сочетания иерархии и разреженности при развертывании долгоконтекстного и высококонкурентного инференса.

Материал представлен как часть серии статей об эволюции KVCache для agent‑инференса: в ней обсуждаются HiCache, реализация Tair KVCache на 3FS, поддержка гибридных моделей, менеджмент глобального KVCache и симуляции кэширования. Авторы позиционируют развитие как переход от традиционных кешей данных (Redis) к GPU KVCache и далее к Tair KVCache как платформе для хранения, шаринга и планирования состояния при масштабном инференсе агентов.

Источники

Alibaba Cloud Blog · 5/22/2026

Ответы (0)

Пока нет ответов в этой теме.