
MiniMax presentó MiniMax M3 el 1 de junio de 2026, un modelo con la nueva arquitectura MSA (MiniMax Sparse Attention) que soporta una ventana de contexto de 1 millón de tokens y entrada nativa de imagen y video;
MiniMax anunció MiniMax M3 el 1 de junio de 2026, un modelo diseñado para ofrecer contexto extremadamente largo y multimodalidad nativa: admite entrada de imagen y video y puede operar en computadoras de escritorio. La API de M3 ya está disponible a través de MiniMax Code, el MiniMax Token Plan y la MiniMax API; la compañía indicó que los pesos y el informe técnico se publicarán dentro de 10 días desde el lanzamiento.
El avance central de M3 es MSA (MiniMax Sparse Attention), una variante de atención dispersa que usa un enfoque “KV outer gather Q” y particiona la caché KV en bloques para lecturas contiguas y únicas por bloque. Esa arquitectura permite escalar la ventana de contexto hasta 1 millón de tokens sin aplicar cambios de uso que rompan la coherencia de las lecturas de la caché.
MiniMax posiciona M3 como un modelo de pesos abiertos que combina rendimiento de vanguardia en codificación, contexto extenso y capacidades multimodales. Según el equipo, MSA supera en velocidad por más de 4× a implementaciones open‑source como Flash — Sparse‑Attention y flash — moba bajo la configuración de cabezas de M3; en escenarios de 1M de tokens, el cómputo por token sería 1/20 respecto a modelos M2 anteriores, con aceleraciones reportadas de más de 9× en la etapa de prefill y más de 15× en decoding.
Si estas cifras se confirman en revisiones externas, M3 podría acelerar flujos de trabajo que requieren contextos extensos y capacidades agentic para programación y tareas multimodales. La próxima publicación de los pesos y del informe técnico permitirá la verificación independiente y pruebas más amplias por parte de la comunidad.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.