OpenMythos permite crear transformadores de profundidad recurrente para MLA y GQA en Google Colab

News

5/22/2026, 8:29:50 AM

OpenMythos permite crear transformadores de profundidad recurrente para MLA y GQA en Google Colab

OpenMythos se usa en un tutorial práctico para construir transformadores con recurrencia por profundidad (loop‑scaled) en Google Colab, aplicados a variantes MLA y GQA; el autor ejecuta un flujo end‑to‑end que mide tamaños de modelo, calcula el radio espectral de la matriz de inyección recurrente para evaluar estabilidad, y prueba la arquitectura en una tarea sintética de razonamiento composicional consistente en sumar cadenas de dígitos módulo un valor fijo.

Esto ofrece una demostración reproducible de cómo un mismo bloque puede reutilizar parámetros para lograr mayor profundidad efectiva.

Desde la instalación hasta la ejecución, el ejemplo instala OpenMythos desde PyPI y recurre al repositorio de GitHub si la instalación falla; importa PyTorch, NumPy y matplotlib, fija la semilla a 42 y usa CUDA cuando está disponible. La función build_model define parámetros concretos: vocab_size=64, dim=128, n_heads=4, max_seq_len=32, max_loop_iters=8, prelude_layers=1, coda_layers=1, n_experts=4, n_shared_experts=1, n_experts_per_tok=2, expert_dim=64 y lora_rank=8.

El código instancia la configuración mediante MythosConfig, mueve el modelo al dispositivo y muestra el conteo de parámetros para cada variante.

El tutorial diferencia explícitamente las dos familias de atención: GQA (Grouped‑Query Attention) se configura con n_kv_heads=2, mientras que MLA (Multi‑Latent Attention) usa n_kv_heads=4 y ajustes de LoRA como kv_lora_rank=32 y q_lora_rank=32. Además se incluye una configuración Sparse MoE con expertos y ruteo por token; el ejemplo compara estas arquitecturas en términos de tamaño y comportamiento numérico y calcula la estabilidad de la inyección recurrente mediante el radio espectral.

Fuentes

MarkTechPost AI · 5/22/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás