Plataforma de inferencia habilita MiniMax M3 en producción con contexto de 1 millón de tokens y hasta 125% más throughput

News

6/3/2026, 5:07:24 AM

Plataforma de inferencia habilita MiniMax M3 en producción con contexto de 1 millón de tokens y hasta 125% más throughput

El 2 de junio de 2026 se publicó un informe técnico que documenta las modificaciones de ingeniería necesarias para servir en producción el modelo MiniMax M3 con una ventana de contexto de hasta un millón de tokens y capacidad multimodal. El documento detalla los retos de la nueva arquitectura del modelo y las optimizaciones de sistema que permitieron convertirlo en un endpoint usable por desarrolladores cuando el modelo de pesos abiertos se libere en los próximos días.

MiniMax M3 se presenta como un modelo “todo en uno”: alto rendimiento en tareas de código, soporte para flujos de trabajo agentivos y razonamiento multimodal nativo. Arquitectónicamente incorpora MiniMax Sparse Attention (MSA), un mecanismo de atención por bloques que limita a cuántos tokens atiende cada query, y añade componentes de visión con nuevas funciones de preprocesamiento para imágenes y video que requieren integración en la ruta de inferencia.

Para poder servir M3 a escala, el equipo implementó varias optimizaciones clave. Entre ellas figuran un kernel de atención KV‑Block‑Major sparse que reordena la iteración sobre bloques KV, una integración de MSA con paged attention durante la decodificación, un kernel de index scoring altamente optimizado y una pasarela de preprocesamiento multimodal escrita en Rust. Según el informe, la combinación de estas mejoras produjo incrementos de throughput reportados entre 81% y 125%, según distintos niveles de concurrencia y cargas de trabajo.

El kernel KV‑Block‑Major sparse attention cambia la lógica de recorrido para reducir movimientos de memoria caros: en lugar de iterar por cada query y copiar repetidamente bloques clave‑valor (KV) desde memoria de alto ancho de banda (HBM) a la SRAM de la GPU, la implementación itera por bloques KV en el bucle externo y por queries en el interno. De ese modo se calculan salidas parciales sobre los bloques y se aplica una reducción final basada en Log‑Sum‑Exp para recomponer el resultado global, minimizando transferencias redundantes y latencia por acceso a memoria.

La integración de MSA con paged attention resuelve una fricción práctica entre kernels optimizados y la variabilidad de bloques seleccionados por MSA: muchos kernels eficientes esperan tamaños de página fijos, pero MSA elige distintos bloques para cada grupo KV. La solución consiste en construir durante la decodificación una tabla de páginas basada en los bloques seleccionados, aplanar la dimensión de KV‑group en la dimensión batch y así adaptar los kernels de páginas fijas a la diversidad de bloques sin renunciar a la eficiencia de ejecución.

MSA en sí misma opera en dos etapas: primero calcula una puntuación para identificar los K bloques más relevantes por cada grupo KV; después aplica atención densa entre la query y esos bloques seleccionados. Ese diseño impone un límite al número máximo de tokens a los que atiende cada query y evita que la complejidad de la atención escale como N^2 con la longitud del contexto, lo que resulta esencial para procesar ventanas de contexto muy largas sin explotar costos computacionales.

En las mediciones reportadas, bajo una carga representativa de tráfico agentivo — un prefijo de caché de 60.000 tokens— y con concurrencia 8 en hardware B200, MSA redujo de forma significativa el porcentaje del tiempo de pared dedicado a la computación de atención por iteración. Esas mejoras de latencia se complementaron con las ganancias de throughput acumuladas tras integrar el kernel de index scoring optimizado y la pasarela multimodal en Rust, que en conjunto produjeron las mejoras globales de entre 81% y 125%. El proveedor declara que alojará el modelo de pesos abiertos como endpoint para desarrolladores cuando MiniMax publique M3, validando la plataforma como socio en la nube para modelos que exigen soluciones de sistema avanzadas.

Por qué importa: este conjunto de optimizaciones hace viables casos de uso que combinan documentos extensos, análisis de grandes bases de código, ejecución de herramientas y contenido visual (imágenes y video) dentro de la misma conversación, reduciendo el coste computacional asociado a contextos extremadamente largos. Limitaciones y riesgos persisten: servir contexto de un millón de tokens sigue siendo un desafío de ingeniería; la gestión de cachés KV a gran escala, la complejidad del preprocesamiento multimodal y la dependencia de kernels especializados requieren mantenimiento continuo, afinado y recursos de infraestructura especializados.

Fuentes

Together AI Blog · 6/2/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás