Stochastic KV Routing: обучаемая схема случайного кросс‑слойного кеш‑шеринга для трансформеров

Новость

Редактор аналитических материалов

5/6/2026, 4:05:01 AM

Stochastic KV Routing: обучаемая схема случайного кросс‑слойного кеш‑шеринга для трансформеров

В мае 2026 года авторы представили метод random cross‑layer attention, позволяющий слоям трансформера безопасно делить или терять KV‑кеш и сокращать требования к памяти без явной деградации генерации.

В мае 2026 года вышла статья «Stochastic KV Routing: Enabling Adaptive Depth — Wise Cache Sharing», в которой Anastasiia Filippova, David Grangier, Marco Cuturi и João Monteiro предлагают обучаемую схему случайного кросс‑слойного внимания (random cross‑layer attention) для трансформеров. Авторы ставят задачу сократить память, занятую Key — Value (KV) кешем при автогрессивной генерации, поскольку объём этого кеша напрямую влияет на расходы и пропускную способность серверной инференсы. Ключевая идея заключается в простом тренировочном приёме: во время обучения каждый слой случайным образом решает, использовать ли собственные Key — Value состояния или обращаться к состояниям предыдущего слоя. Это делает модель устойчивой к ситуациям, когда в рантайме у некоторых слоёв отсутствует собственный кеш или кешы разделяются между уровнями по глубине.

Авторы демонстрируют, что намеренное удаление кеша у отдельных слоёв может служить эффективной оптимизацией без потери информации при генерации. Метод применим как при предобучении, так и при дообучении существующих семейств моделей, а также позволяет адаптироваться к непредсказуемым аппаратным ограничениям на этапе деплоя — например, когда доступная память на уровне инстансов существенно ограничена.

Работа подчёркивает, что существующие подходы, ориентированные на временную ось (сжатие и вытеснение кеша), не устраняют проблему избыточности по глубине сети. В качестве контекста авторы ссылаются на смежные исследования: EpiCache (Episodic KV Cache Management) для длинных диалогов (23 сентября 2025 г., ICML) и KV‑Runahead (14 мая 2024 г., ICML), направленные на ускорение этапа prompt/prefill параллельной генерацией KV. Эти публикации подтверждают, что управление памятью кеша и задержки при первом токене остаются центральными задачами для масштабируемой инференсы LLM.

Для инженерных команд и специалистов по ML‑инфраструктуре практический эффект метода очевиден: уменьшение объёма KV‑кеша повышает плотность размещения инстансов и может снизить расходы на хостинг. Авторы отмечают, что многие схемы кросс‑слойного шаринга ранее приводили к ухудшению throughput и time‑to‑first‑token, поэтому при внедрении важно контролировать эти метрики в целевой среде и оценивать компромисс между экономией памяти и производительностью.

В части рекомендаций исследование предлагает начать с дообучения вашего семейства моделей с имитацией отсутствия кеша у отдельных слоёв и измерения качества генерации, latency и throughput; в условиях ограниченной памяти метод можно использовать как ресурсосберегающий приём, а при небольших объёмах данных он может выступать как регуляризатор, зачастую не ухудшая и иногда улучшая результаты. Полный текст и дополнительные материалы доступны в исходной публикации (см. источники).

Источники

Apple Machine Learning Research · 5/5/2026

Ответы (0)

Пока нет ответов в этой теме.