
EMO-новая MoE‑модель с предобучением end‑to‑end, представленная 8 мая 2026 года. Конфигурация: 14 млрд параметров всего, ~1 млрд активных параметров, одновременно активны 8 экспертов из 128; обучение на корпусе ≈1 трлн токенов.
8 мая 2026 года команда представила EMO-новую реализацию mixture‑of‑experts (MoE), предобученную end‑to‑end так, чтобы модульная структура возникала непосредственно из данных. Главный практический результат: при выборе лишь 12,5% экспертов модель сохраняет близкое к полному качеству, что обещает существенную экономию ресурсов при запуске специализированных задач и облегчает разворачивание MoE‑систем в продакшене.
Ключевой методический шаг — сделать модульность целью предобучения: маршрутизатор (router) учится направлять токены так, чтобы похожие по домену или контексту фрагменты активировали схожие подмножества экспертов. В результате эксперты формируются в когерентные, компонуемые группы, а не остаются статическим набором, заданным извне. Авторы подчёркивают, что предыдущие подходы — например, BTX и реализация FlexOlmo — опирались на заранее заданные домены и метки корпуса, что ограничивало гибкость распределения экспертиз. Практическое значение для инженеров и операторов систем очевидно: теперь можно загружать и обслуживать ограниченные наборы экспертов под узкие рабочие нагрузки (например, генерация кода, математические рассуждения, специализированные биомедицинские задачи), снижая требования к памяти и вычислениям при минимальной потере точности. При необходимости модель остаётся универсальной — все эксперты можно активировать одновременно для более широкого функционала.
Релиз сопровождается открытыми артефактами: коллекцией моделей, техотчётом, исходным кодом и интерактивной визуализацией, где приведены детали архитектуры, процедуры предобучения и сравнительные эксперименты с базовыми MoE. Публикуемые материалы позволяют воспроизвести конфигурации и оценить поведение EMO при разных уровнях селективности экспертов.
Источники
Ответы (0)
Пока нет ответов в этой теме.