JetBrains представила Mellum2-12‑миллиардную MoE‑модель для низкой задержки в задачах с текстом и кодом

Новость

Редактор новостной ленты

6/1/2026, 9:39:09 PM

JetBrains представила Mellum2-12‑миллиардную MoE‑модель для низкой задержки в задачах с текстом и кодом

JetBrains 1 июня 2026 года выпустила Mellum2-12‑миллиардную Mixture‑of‑Experts (MoE) модель, ориентированную на низкую задержку при обработке текста и кода. Главная особенность релиза в том, что при инференсе одновременно активируется только часть параметров модели, что сокращает латентность и затраты на обслуживание в реальном времени; это важно для интерактивных IDE‑функций и чувствительных к задержке конвейеров RAG. Модель обучали с нуля на корпусах естественного языка и кода; архитектурно это MoE с суммарно 12 миллиардами параметров и примерно 2.5 миллиардами активных параметров на токен. Релиз доступен под лицензией Apache 2.0 и опубликован в коллекции JetBrains в публичном репозитории моделей (репозиторий JetBrains/mellum-2).

Команда отмечает, что Mellum2 специально сфокусирована на задачах текста и кода и не рассчитана на мультимодальные сценарии. По замыслу разработчиков модель эволюционировала из систем автодополнения кода и была расширена для более широкого набора задач в области разработки ПО и обработки естественного языка. Авторы оценивали Mellum2 по бенчмаркам генерации кода, рассуждений, науки и математики. По качеству модель сопоставима с аналогичными открытыми решениями, при этом в тестах JetBrains она демонстрировала более чем двукратно более быструю инференцию. Такая экономия времени отклика и вычислений делает Mellum2 практичной для производственных сценариев с высоким throughput.

Практические последствия для архитектуры систем — использование Mellum2 как «фокальной» быстрой модели в многомодельных стеках: маршрутизация запросов, предобработка контекста, валидация промежуточных шагов и пост‑обработка результатов позволят реже вызывать тяжёлые модели и снизят общую стоимость обслуживания. JetBrains подробно называет ключевые случаи применения: маршрутизация и оркестрация (классификация подсказок, выбор инструментов, управление потоком), RAG‑пайплайны (сжатие контекста, суммаризация, пост‑обработка результатов поиска), суб‑агенты (планирование, валидация, трансформации) и приватные развёртывания внутри инфраструктуры заказчика. Небольшая по объёму модель удобна для интеграции в инструменты разработки и корпоративные среды.

Технические детали, результаты бенчмарков и методология описаны в полном техническом отчёте на arXiv (полный документ с архитектурой и настройкой обучения опубликован авторами). Публикация на платформе датирована 1 июня 2026 года, автор статьи — Никита Павличенко; JetBrains указывает, что Mellum2 готова к испытаниям в IDE, RAG‑сценариях, агентных рабочих процессах и приватных развёртываниях.

Источники

Hugging Face Blog · 6/1/2026

Ответы (0)

Пока нет ответов в этой теме.