Xiaomi представила open‑weight модель MiMo — V2.5-Pro с контекстом до миллиона токенов

Новость

Редактор общего направления

5/4/2026, 3:36:15 AM

Xiaomi представила open‑weight модель MiMo — V2.5-Pro с контекстом до миллиона токенов

Xiaomi объявила о выходе MiMo — V2.5-Pro, mixture‑of‑experts модели с 1,02 трлн параметров и активацией около 42 млрд параметров на запрос; основной релиз поддерживает контекст до 1 000 000 токенов и ориентирован на часы‑долгие автономные задачи с тысячами

Xiaomi выпустила open‑weight модель MiMo — V2.5-Pro и позиционирует её как инструмент для длительных автономных сценариев: модель рассчитана на многочасовую генерацию кода и тысячи вызовов внешних инструментов, что, по словам компании, позволит агентам работать непрерывно с длительной памятью и автономной диагностикой ошибок. Это важно для команд, которым нужны дешёвые в объёме токенов и устойчивые к длительности задачи генерации и отладки.

В демонстрациях компания показала три крупных кейса, среди которых полный проект компилятора с курса Пекинского университета: модель завершила работу за 4,3 часа при 672 вызовах инструментов, повышая покрытие тестов с 59% до 100%; итоговый прогон прошёл все 233 скрытых теста (первый прогон показал 137/233). Второй подробный кейс — десктопный видеоредактор объёмом около 8 000 строк кода: на его разработку ушло около 11,5 часа и приблизительно 1 870 вызовов инструментов; по четырём спецификациям финальный вариант превзошёл первичный черновик примерно в десять раз.

Подробности третьего кейса в показе не раскрыты в том же объёме. Xiaomi подчёркивает не только отдельные бенчмарки, но и соотношение «производительность/токены». По внутренним данным компании, на наборе ClawEval агент с MiMo достигает 64% при ≈70 000 токенов на запуск — это, по заявлению Xiaomi, на 40 — 60% меньше, чем требуется Claude Opus 4.6, Gemini 3.1 Pro и GPT‑5.4. На кодинговых тестах MiMo — V2.5-Pro набирает 78,9 по SWE‑bench Verified, 57,2 по SWE‑Bench Pro и 68,4 по Terminal‑Bench 2.0; на собственном MiMo Coding Bench модель показывает 73,7 (для сравнения: Claude Opus 4.6 — 77,1; Gemini 3.1 Pro-67,8).

Ключевые последствия для разработчиков — потенциальное сокращение расходов на токены при долгих агентных сценариях и возможность хранить в памяти значительно большие объёмы контекста, что облегчает многошаговую автономную работу. Xiaomi одновременно предупреждает, что все сравнения и демонстрации основаны на внутренних тестах компании; независимая валидация и интеграция в реальные пайплайны потребуют дополнительной проверки. Подробная статья с демонстрациями опубликована в The Decoder 3 мая 2026 года (автор — Jonathan Kemper).

Источники

The Decoder AI · 5/3/2026

Ответы (0)

Пока нет ответов в этой теме.