Toto 2.0 масштабируется до 2,5 млрд параметров и стабильно повышает качество прогнозов временных рядов

Новость

Редактор новостной ленты

5/15/2026, 5:28:50 AM

Toto 2.0 масштабируется до 2,5 млрд параметров и стабильно повышает качество прогнозов временных рядов

Семейство открытых моделей Toto 2.0, с размерами от 4 млн до 2,5 млрд параметров, впервые демонстрирует монотонный прирост качества при масштабировании; веса и инструменты для распределённого u-μP обучения выпущены открыто.

Выпущено Toto 2.0 — семейство фундационных моделей для прогнозирования временных рядов, которое масштабируется до 2,5 млрд параметров и демонстрирует устойчивое улучшение качества по мере роста размера. Это важный шаг: авторы утверждают, что для задач прогнозирования временных рядов модельный масштаб наконец оказывает предсказуемо позитивный эффект, что повышает потенциал применения таких моделей в системах наблюдаемости и других продуктах, зависящих от точных прогнозов.

Линейка включает варианты от ≈4 млн до 2,5 млрд параметров; при этом метрика CRPS показывает монотонное улучшение — каждая более крупная версия превосходит предыдущую, и на 2,5B не выявлено признаков насыщения. Модели располагаются на или рядом с парето‑фронтиром по соотношению качество/размер на наборах BOOM и GIFT‑Eval. Для обучения использовались данные наблюдаемости и синтетические датасеты; авторы подчёркивают, что при предварительном обучении не применялись публичные наборы прогнозных данных.

По результатам тестов Toto 2.0 занимает лидирующие позиции на нескольких бенчмарках: лучшие места на BOOM (Datadog observability benchmark), GIFT‑Eval и на новом стрессоустойчивом zero‑shot бенчмарке TIME. Три крупнейших варианта семейства возглавляют GIFT‑Eval среди фундационных моделей; в расширённом лидерборде с дообучением и ансамблями верхние строчки занимают finetuned 2.5B (FT) и ансамбль «Toto 2.0 Family and Friends». Эти результаты показывают стабильность подхода как в zero‑shot, так и в режиме дообучения.

Авторы отмечают существенный прогресс относительно Toto 1.0: новая версия достигает сопоставимого качества примерно при в 7× меньшем количестве параметров и работает заметно быстрее при инференсе. В посте также упомянуты улучшения латентности вывода и повышенная устойчивость на длинных горизонтах прогнозирования; полные численные профили латентности и другие детализированные метрики будут приведены в техническом отчёте. Веса моделей и инфраструктурная библиотека для распределённого u‑μP обучения (dd_unit_scaling) выпущены под лицензией Apache 2.0 и доступны на Hugging Face. Библиотека обеспечивает переносимость гиперпараметров и масштабируемое обучение на кластерах, что облегчает воспроизводимость и развёртывание.

сокращение разрыва на длинных горизонтах по сравнению с классическими методами, курирование данных, разработка метрик, отражающих downstream‑ценность, и мульти модальность. Технический отчёт с подробностями по данным, архитектурам, рецепту обучения и u‑μP pipeline появится в ближайшее время.

Источники

Datadog AI · 5/14/2026

Ответы (0)

Пока нет ответов в этой теме.