MiniMax выпустила модель M3 с новой архитектурой MSA и открытым API

Новость

Редактор новостной ленты

6/1/2026, 8:42:49 PM

MiniMax выпустила модель M3 с новой архитектурой MSA и открытым API

MiniMax представила модель MiniMax M3 1 июня 2026 года; к ней уже открыт доступ через MiniMax Code, тариф MiniMax Token и публичный API, а сами веса модели и подробный технический отчёт компания обещает опубликовать в течение 10 дней после запуска. Это важно для независимой верификации заявленных характеристик и практической интеграции модели в инфраструктуру команд и разработчиков.

Ключевое архитектурное изменение в M3-механизм MiniMax Sparse Attention (MSA). В отличие от полного квадратичного внимания, MSA вводит предфильтрацию и блочную партицизацию кеша ключей/значений (KV) с подходом «KV outer gather Q»: блоки KV читаются один раз, к памяти сохраняется континуальный доступ, а агрегация запросов выполняется на уровне блоков. Такая организация памяти и вычислений по замерам команды снижает накладные расходы при обработке длинных контекстов и облегчает параллелизацию.

При экстремально больших контекстах M3 демонстрирует существенные экономии ресурсов: по данным команды, при длине контекста порядка миллиона токенов пер‑токеновые вычисления у M3 примерно в 20 раз дешевле, чем у предыдущего поколения M2; фазы prefill и decoding ускоряются более чем в 9× и 15× соответственно. MiniMax также указывает, что MSA работает более чем в 4× быстрее по сравнению с реализациями типа Flash — Sparse‑Attention и flash — moba в конфигурации голов M3, а серии абляций показали совпадение с полным вниманием на большинстве задач.

M3 позиционируется как следующий шаг после M2.7 и доступна в виде open‑weight образца, объединяющего поведение для задач программирования, увеличенную длину контекста и нативную мультимодальность. Внутренние отчёты команды приводят набор результатов по бенчмаркам: SWE‑Bench Pro-59.0% (по заявлению, выше GPT‑5.5 и Gemini 3.1 Pro, близко к Opus 4.7), Terminal‑Bench 2.1 — 66.0%, SWE‑efficiency — 34.8%, KernelBench Hard-28.8% (оценивание на NVIDIA Blackwell, CUDA sm_120), MCP Atlas — 74.0 — наивысший результат среди рассматриваемых моделей.

Подготовка мультимодальной части велась «с шага 0»: текст, изображения и видео обучались совместно в интерлив‑форматах, что потребовало перестройки пайплайна данных; объём обучающего корпуса команда оценивает примерно в 100 триллионов токенов. Модель поддерживает нативный ввод изображений и видео, управление десктоп‑компьютером и включает симулятор интерактивного пользователя для тренировки и оценки многошаговых рабочих сценариев разработчиков.

Для инженерных команд и приложений это означает две ключевые вещи: снижение пер‑токенной стоимости при очень длинных контекстах и расширенные возможности для агентного кода и мультимодальных агентов. MiniMax подчёркивает, что часть сравнений выполнена на внутренней инфраструктуре, а некоторые значения взяты из официальных лидербордов, поэтому практическая проверка на собственных рабочих нагрузках и независимый анализ опубликованных весов и технического отчёта будут критичны для подтверждения заявленных преимуществ.

Источники

MarkTechPost AI · 6/1/2026

Ответы (0)

Пока нет ответов в этой теме.