
El 8 de mayo de 2026 AllenAI presentó EMO, un mixture‑of‑experts (MoE) preentrenado end-to-end de 14B parámetros (1B activos) entrenado con 1 trillón de tokens;
AllenAI publicó el 8 de mayo de 2026 EMO, un experimento de Mixture‑of‑Experts (MoE) diseñado para inducir modularidad directamente desde los datos y permitir que despliegues activen subconjuntos de expertos sin perder rendimiento. La novedad es que el entrenamiento fue end-to-end y no dependió de dominios prefijados por humanos, según el informe y los recursos técnicos acompañantes.
A nivel técnico, EMO suma 14.000 millones de parámetros totales con alrededor de 1.000 millones de parámetros activos en uso; operacionalmente se describe como 8 expertos activos frente a 128 expertos en total y se entrenó con un corpus de referencia de 1 trillón de tokens. El equipo reporta que para una tarea o dominio dado basta emplear solo el 12,5% de los expertos totales para conservar un rendimiento cercano al del modelo completo; al activar la totalidad de los expertos, EMO permanece competitivo como modelo de propósito general.
El trabajo sitúa EMO frente a limitaciones prácticas de modelos monolíticos y de MoE previos: aunque las MoE prometen ahorro al activar pocos expertos por token, en la práctica modelos anteriores tienden a distribuir activaciones y a especializar expertos en patrones léxicos de bajo nivel (por ejemplo, signos o partículas), lo que obliga a usar gran parte de la red aun en tareas específicas.
Investigaciones anteriores intentaron imponer modularidad mediante ruteos semánticos o dominios prefijados; el informe cita ejemplos como BTX y el proyecto FlexOlmo y señala sus inconvenientes: requerir etiquetas de dominio en el corpus de preentrenamiento, introducir sesgos humanos y fijar de antemano la estructura modular, lo que complica la adaptación cuando surgen nuevas capacidades.
Metodológicamente, EMO entrena la modularidad como objetivo de primer orden ajustando un componente de ruteo — el router — que decide qué expertos activar por token. La idea central es que el router aprenda a que tokens de un mismo dominio o documento activen subconjuntos similares de expertos, facilitando la selección y la composición de expertos a nivel de tarea. Esto puede beneficiar a equipos que buscan despliegues más flexibles y mejores compromisos memoria‑precisión en MoE grandes y dispersos. Los materiales publicados incluyen la colección de modelos, el informe técnico, el código en GitHub y una página de visualización interactiva para explorar la organización de expertos y cómo emergen las rutas durante el entrenamiento.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.