
В мае 2026 года исследователи Duc Hoang, Ajay Jaiswal, Mohammad Samragh Razlighi и Minsik Cho представили на конференции ICML работу SpecMD — стандартизованный фреймворк для изучения стратегий кэширования экспертов в архитектурах Mixture‑of‑Experts (MoE). Основная цель SpecMD — перевести теоретическую разреженность MoE в практическое ускорение при реальных аппаратных ограничениях, сделав возможным воспроизводимое сравнение «ad‑hoc» политик кэширования в контролируемой среде.
Фреймворк моделирует реальные ограничения серверного оборудования: тесты выполняются на нескольких аппаратных конфигурациях с заданным лимитом VRAM‑кэша, а измеряемые метрики включают попадания в кэш (cache hits) и Time‑to‑first‑token (TTFT), важную для оценки латентности генерации при сервинге. SpecMD позволяет воспроизводить и сравнивать политики эвикшна, профили доступа к экспертам и стратегии предиктивного prefetching в единой тестовой схеме.
Авторы отмечают, что стандартные эвикшн‑политики типа LRU и LFU теряют эффективность в MoE потому, что доступы к экспертам часто не соответствуют предположению временной локальности. Анализ паттернов доступа показал достаточную предсказуемость, чтобы оправдать предиктивный prefetching и пересмотр эвикшн‑логики. На основе этих наблюдений была предложена новая политика Least‑Stale, ориентированная на минимизацию «collision misses» при параллельном обращении к экспертам.
В экспериментальной части SpecMD Least‑Stale уменьшала количество collision‑misses до 85× по сравнению с LRU в ряде сценариев. На модели OLMoE при объёме кэша всего 5% (примерно 0,6 ГБ VRAM) политика обеспечивала свыше 88% попаданий в кэш и снижение Time‑to‑first‑token до 34,7%, что напрямую влияет на общую латентность генерации при сервинге MoE. Практический вывод для инженеров и разработчиков заключается в том, что даже небольшой выделенный VRAM‑кэш в сочетании с оптимальной политикой эвикшна может существенно сократить вычисления и ускорить отклик при инференсе MoE. SpecMD предоставляет стандартный набор тестов и метрик, которые помогают соотнести выбор политики кэширования и размер кэша с конкретными аппаратными ограничениями и рабочими нагрузками.
В работе также даны ссылки на родственные исследования, дополняющие картину методов оптимизации кэширования и KV‑хранения: «Stochastic KV Routing: Enabling Adaptive Depth‑Wise Cache Sharing» (5 мая 2026) и «MoEs Are Stronger than You Think: Hyper‑Parallel Inference Scaling with RoE» (12 января 2026). Эти публикации рассматривают дополнительные подходы к распределению ресурсов и повышению эффективности при инференсе.
Источники
Ответы (0)
Пока нет ответов в этой теме.