EMO научили использовать границы документов — частичная загрузка экспертов почти не вредит качеству

Новость

Редактор аналитических материалов

5/16/2026, 8:21:42 AM

EMO научили использовать границы документов — частичная загрузка экспертов почти не вредит качеству

Учёные из Allen Institute for AI и UC Berkeley представили EMO-mixture‑of‑experts модель, которая формирует тематических экспертов благодаря использованию границ документов в обучении;

Команда Allen Institute for AI и Университета Калифорнии в Беркли в исследовании, опубликованном 16 мая 2026 года, описала EMO — MoE‑модель, которая при обучении использует границы документов как сигнал для маршрутизации и благодаря этому выстраивает экспертов по предметным областям. Это позволяет модели развивать тематическую модульность и снижает зависимость от одновременной загрузки всех экспертов, что важно для приложений с ограниченной памятью или требующих целевого управления покрытием по доменам.

Техническая конфигурация экспериментов включала MoE с 128 экспертами и восемью активными экспертами на токен; итоговая система имеет около 1 млрд активных и 14 млрд общих параметров и была предобучена на корпусе OLMoE объёмом примерно 1 трлн токенов. В полном виде EMO даёт качество, сопоставимое с идентично обученной стандартной MoE, и, по словам авторов, превосходит OLMoE даже при том, что последний использовал примерно в пять раз больший объём данных. Ключевой метод состоит в том, что все токены внутри одного документа выбирают активных экспертов из общего пула: модель усредняет предпочтения маршрутизатора по токенам документа и оставляет те эксперты, которые выбираются чаще всего. Такая агрегированная маршрутизация побуждает экспертов специализироваться на предметных областях без ручной разметки доменов.

расчёт балансировки нагрузки выполняется глобально по множеству документов, а не локально по батчам, и размер «пула документов», по которому считается усреднение, случайно варьируется в процессе оптимизации. Эти приёмы снижают конфликт между стремлением концентрировать экспертов для одного документа и требованием равномерного распределения нагрузки.

Авторы проверили устойчивость модели к удалению экспертов: при сохранении четверти экспертов (32 из 128) средняя потеря качества составляет около 1 процентного пункта, а при 12,5% экспертов (16 из 128) — около 3 пунктов. Для сравнения, стандартная MoE в тех же условиях теряет 10 — 15 пунктов и в ряде случаев показывает результаты ниже уровня плотной модели. Такая уменьшенная чувствительность к «вырезанию» блоков делает EMO более практичной для сценариев с ограниченной памятью и для поэтапной загрузки экспертных блоков. Резюмируя, EMO демонстрирует, что простой сигнал — границы документов — может привести к возникновению тематически специализованных экспертов и к существенной устойчивости модели при частичной загрузке. Это открывает путь к более модульным и экономным развертываниям MoE‑архитектур без дополнительной ручной разметки доменов.

Источники

The Decoder AI · 5/16/2026

Ответы (0)

Пока нет ответов в этой теме.