Allen Institute for IA y UC Berkeley presentan EMO, un MoE que mantiene rendimiento al usar solo fracciones de sus expertos

News

5/16/2026, 8:42:01 AM

$Allen Institute for IA y UC Berkeley presentan EMO, un MoE que mantiene rendimiento al usar solo fracciones de sus expertos$

Qué ocurrió: el 16 de mayo de 2026, un equipo conjunto del Allen Institute for IA y la Universidad de California, Berkeley reveló EMO, un modelo mixture‑of‑experts (MoE) diseñado para aprender módulos especializados por dominio de contenido. A diferencia de enfoques convencionales, EMO se entrena para que distintos 'expertos' se especialicen en temas completos — no solo en patrones lingüísticos locales— y así permitir la carga selectiva de subconjuntos de expertos en despliegues con restricciones de memoria o almacenamiento.

Configuración del modelo y datos: el equipo entrenó una instancia de EMO con 128 expertos y configuró el router para activar ocho expertos por token. La arquitectura define 1.000 millones de parámetros activos en cada pase y 14.000 millones de parámetros en total. El preentrenamiento se hizo sobre 1 trillion (1 billón) de tokens extraídos del corpus OLMoE. Según los autores, cuando se usa el modelo completo, EMO iguala el desempeño de un MoE estándar entrenado con procedimientos similares.

o técnico y motivo del enfoque: las arquitecturas MoE permiten escalar el número de parámetros sin multiplicar el coste computacional al activar pocos expertos por token, razón por la que ya aparecen en modelos comerciales como DeepSeek‑V4 y Qwen3.5. Sin embargo, las implementaciones habituales requieren que todo el conjunto de expertos resida en memoria durante la inferencia, lo que dificulta cargar solo las partes relevantes para tareas concretas. EMO aborda esa limitación buscando una modularidad realmente aprovechable en escenarios prácticos.

Cómo induce modularidad: en vez de preasignar datos a dominios, EMO aprovecha los límites de documento durante el entrenamiento. Todos los tokens pertenecientes a un mismo documento seleccionan expertos desde un pool compartido; el modelo calcula un promedio de las preferencias del router a nivel documental y conserva para ese pool los expertos más frecuentemente elegidos. De este modo, la especialización emerge alrededor de documentos temáticamente coherentes y no por ejemplos aislados.

Ajustes de entrenamiento para estabilidad: los autores desactivaron el cálculo de balanceo de carga a nivel de batch y lo reemplazaron por una estimación global que abarca muchos documentos, de modo que el objetivo de distribuir carga no compita con la agrupación por documento. Además, durante el entrenamiento varían aleatoriamente el tamaño del pool documental para enseñar al router a operar con subgrupos de expertos de distintos tamaños, lo que prepara al modelo para rendir incluso cuando se cargan solo fracciones del conjunto total.

Resultados empíricos generales: en benchmarks agregados, reducir el conjunto de expertos a 25% (32 de 128) provoca una pérdida cercana a un punto porcentual absoluto en el rendimiento promedio; con 12.5% (16 expertos) la caída se eleva a alrededor de tres puntos. En contraste, un MoE estándar sometido a la misma reducción sufre pérdidas mucho mayores — entre 10 y 15 puntos— y en ocasiones rinde por debajo de un modelo denso que tiene el mismo número de parámetros activos.

Ejemplo concreto en matemáticas: en el benchmark GSM8K, el modelo base EMO se mantiene en niveles similares al modelo completo (12.0) y llega a registrar 12.2 aun cuando se limita a solo 16 expertos. Un MoE estándar en configuración reducida cae a 4.9 en la misma tarea. Los autores añaden que una etapa de fine‑tuning sobre subconjuntos de expertos con 12.5% de la población puede equiparar el rendimiento del modelo completo en este problema específico.

Implicaciones prácticas: la estrategia demuestra que es viable entrenar MoE para que aprendan especialización temática verificable, lo que permitiría cargar selectivamente módulos orientados a dominios concretos — por ejemplo, matemáticas o medicina — en entornos con memoria limitada. Esto facilita despliegues más ligeros y un control más fino sobre las áreas de contenido que cubre el modelo sin sacrificar la mayor parte del rendimiento. Limitaciones y alcance de la publicación: los autores subrayan la necesidad de ajustes de entrenamiento (balanceo global y variación del pool) para mantener la estabilidad y la modularidad, y documentan esos pasos en su trabajo. No obstante, el estudio no ofrece detalles de despliegue a escala comercial ni publica instrucciones completas para operación en entornos productivos; esos aspectos permanecen sin especificar en el informe presentado.

Fuentes

The Decoder AI · 5/16/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás