
Опубликовано практическое руководство по OpenMythos, в котором пошагово показано, как собрать и запустить в Google Colab рекуррентный «depth» трансформер и зачем это важно: подход позволяет за счёт рекуррентных циклов «углублять» вычисления без пропорционального роста числа параметров, что открывает путь к экономии памяти и параметров при сложных рассуждениях.
В материале приведён код установки open_mythos с запасным вариантом загрузки из GitHub, показан импорт PyTorch, NumPy и Matplotlib, фиксация сидов и условное использование CUDA. Функция build_model задаёт параметры по умолчанию: vocab_size=64, dim=128, n_heads=4, max_seq_len=32, max_loop_iters=8 (по умолчанию), n_experts=4, а также опции LoRA и MoE. Для двух вариантов внимания явно указаны отличия: у GQA задают n_kv_heads=2, у MLA — n_kv_heads=4 и дополнительные LoRA‑параметры.
Авторы реализовали обе архитектуры внимания — MLA (Multi‑Latent Attention) и GQA (Grouped‑Query Attention) — и провели сравнение их конфигураций и числа параметров на тестовых прогонах, чтобы показать различия поведения при равных настройках. Кроме простых прогонов они исследуют спектральный радиус матрицы рекуррентной инжекции — ключевой показатель стабильности рекуррентных итераций — и демонстрируют, как изменение спектрального радиуса влияет на устойчивость вычислений. Для оценки способности к композиционному рассуждению в руководстве запущена синтетическая задача: предсказание суммы цепочек цифр по модулю фиксированного значения. Через такие эксперименты авторы показывают, как рекуррентные циклы позволяют одной и той же модели переиспользовать параметры для «углубления» вычислений. reasoning и экономией параметров при глубоком вычислении.
Источники
Ответы (0)
Пока нет ответов в этой теме.