В Colab собрали рекуррентные depth‑трансформеры OpenMythos с MLA, GQA и Sparse MoE

Новость

Редактор аналитических материалов

5/22/2026, 10:43:25 PM

В Colab собрали рекуррентные depth‑трансформеры OpenMythos с MLA, GQA и Sparse MoE

Опубликовано практическое руководство по OpenMythos, в котором пошагово показано, как собрать и запустить в Google Colab рекуррентный «depth» трансформер и зачем это важно: подход позволяет за счёт рекуррентных циклов «углублять» вычисления без пропорционального роста числа параметров, что открывает путь к экономии памяти и параметров при сложных рассуждениях.

В материале приведён код установки open_mythos с запасным вариантом загрузки из GitHub, показан импорт PyTorch, NumPy и Matplotlib, фиксация сидов и условное использование CUDA. Функция build_model задаёт параметры по умолчанию: vocab_size=64, dim=128, n_heads=4, max_seq_len=32, max_loop_iters=8 (по умолчанию), n_experts=4, а также опции LoRA и MoE. Для двух вариантов внимания явно указаны отличия: у GQA задают n_kv_heads=2, у MLA — n_kv_heads=4 и дополнительные LoRA‑параметры.

Авторы реализовали обе архитектуры внимания — MLA (Multi‑Latent Attention) и GQA (Grouped‑Query Attention) — и провели сравнение их конфигураций и числа параметров на тестовых прогонах, чтобы показать различия поведения при равных настройках. Кроме простых прогонов они исследуют спектральный радиус матрицы рекуррентной инжекции — ключевой показатель стабильности рекуррентных итераций — и демонстрируют, как изменение спектрального радиуса влияет на устойчивость вычислений. Для оценки способности к композиционному рассуждению в руководстве запущена синтетическая задача: предсказание суммы цепочек цифр по модулю фиксированного значения. Через такие эксперименты авторы показывают, как рекуррентные циклы позволяют одной и той же модели переиспользовать параметры для «углубления» вычислений. reasoning и экономией параметров при глубоком вычислении.

Источники

MarkTechPost AI · 5/22/2026

Ответы (0)

Пока нет ответов в этой теме.