Stochastic KV Routing: un método para compartir caché por profundidad y reducir la huella de memoria en transformadores

News

5/6/2026, 4:48:56 AM

Stochastic KV Routing: un método para compartir caché por profundidad y reducir la huella de memoria en transformadores

Un trabajo publicado en mayo de 2026, titulado Stochastic KV Routing: Enabling Adaptive Depth‑Wise Cache Sharing, propone un enfoque para reducir la memoria asociada al KV‑caching en modelos tipo transformador. El artículo está firmado por Anastasiia Filippova, David Grangier, Marco Cuturi y João Monteiro y presenta una estrategia de entrenamiento que, según los autores, permite a los modelos tolerar el intercambio de caché a lo largo de la profundidad de la red. El objetivo declarado es mitigar el alto coste de memoria que dominan las implementaciones de serving en tareas de generación autoregresiva sin degradar la calidad de salida.

El núcleo técnico del trabajo es un procedimiento de entrenamiento que usan los autores bajo el nombre de atención cruzada aleatoria (random cross‑layer attention). Durante este entrenamiento, cada capa del transformador decide de forma aleatoria si debe usar sus propios estados Key — Value o reutilizar los de una capa precedente, introduciendo así durante el entrenamiento la variabilidad que el despliegue podría encontrar si se comparten cachés entre capas. Según el paper, esta exposición aleatoria enseña al modelo a tolerar diferentes políticas de compartición y, en la práctica, llega a permitir la eliminación del caché de una capa sin pérdida de información observada en las evaluaciones reportadas.

Desde la perspectiva técnica, la contribución se sitúa como ortogonal a las técnicas que actúan sobre el eje temporal del caché: compresión de KVs, esquemas de expulsión (eviction) o agregación temporal. Los autores sostienen que reducir la huella de memoria aprovechando la dimensión de profundidad abre una vía complementaria y que, hasta ahora, compartir caché entre capas se había mostrado complejo porque podía degradar la latencia inicial o el rendimiento del modelo. Stochastic KV Routing ofrece un diseño de entrenamiento que, en teoría, autoriza políticas de compartición por profundidad sin requerir que se reentrene el modelo para cada política nueva.

La relevancia práctica del enfoque deriva del hecho de que el KV‑caching suele dominar la huella de memoria en servidores que atienden modelos de lenguaje, y por tanto condiciona costes y posibilidades de despliegue. El documento plantea que introducir flexibilidad para elegir estrategias de caché en función de las limitaciones de hardware — por ejemplo, en nodos edge o máquinas con RAM restringida — puede reducir la memoria dedicada al caché sin comprometer la salida del modelo, según las evaluaciones internas presentadas. Además, los autores indican que la técnica puede aplicarse tanto durante el pre‑training como durante el fine‑tuning, y que en escenarios con datos limitados el procedimiento de entrenamiento genera un efecto análogo a la regularización, con frecuencia manteniendo o incluso mejorando el rendimiento mientras reduce la huella de caché total.

El artículo también reconoce limitaciones y retos prácticos. Métodos previos de reducción o compartición de caché suelen implicar compromisos en throughput o un aumento del tiempo hasta el primer token; Stochastic KV Routing busca minimizar esos trade‑offs mediante una estrategia de entrenamiento adaptable. No obstante, en la nota de prensa resumida los autores no incluyen métricas cuantitativas detalladas — por ejemplo, medidas precisas de reducción de memoria o de impacto en latencias—, de modo que la validación exhaustiva de ganancias en entornos de producción requiere consultar los apéndices y la evaluación completa del paper.

Para ingenieros y operadores, la propuesta sugiere varias implicaciones operativas: integrar el modo de entrenamiento propuesto en las pipelines de pre‑training o fine‑tuning, diseñar políticas de despliegue que permitan elegir dinámicamente el grado de compartición por profundidad y verificar empíricamente el throughput y las latencias en el entorno objetivo. El beneficio principal sería reducir la dependencia de técnicas costosas orientadas exclusivamente a la compresión temporal del caché, facilitando desplegar modelos grandes en infraestructuras con límites fuertes de memoria o en dispositivos edge con restricciones de recursos.

El trabajo se enmarca además en una línea de investigación activa sobre gestión de cachés para modelos conversacionales y de generación. En la misma página de proyecto se listan lecturas relacionadas, como EpiCache: Episodic KV Cache Management for Long Conversational Question Answering (23 de septiembre de 2025, ICML), que aborda la gestión episódica de caché para historiales extensos, y KV‑Runahead: Scalable Causal LLM Inference by Parallel Key — Value Cache Generation (14 de mayo de 2024, ICML), que propone paralelizar la generación de KVs para acelerar la fase de prompt. Stochastic KV Routing complementa esas líneas al focalizarse en la dimensión de profundidad.

Dónde consultar más: el documento y un resumen extendido se publicaron en mayo de 2026 y están disponibles en el repositorio del proyecto indicado por los autores. La página del proyecto reúne referencias a trabajos relacionados y materiales adicionales; quienes deseen reproducir o comparar resultados deberán revisar el texto completo y los apéndices para obtener detalles de evaluación, protocolos experimentales y métricas cuantitativas que no figuran en la sinopsis breve.

Fuentes

Apple Machine Learning Research · 5/5/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás