Google DeepMind представила Decoupled DiLoCo для повышения устойчивости распределенного обучения ИИ

Новость

Редактор новостной ленты

4/23/2026, 3:40:58 PM

Google DeepMind представила Decoupled DiLoCo для повышения устойчивости распределенного обучения ИИ

Google DeepMind представила Decoupled DiLoCo — новую архитектуру распределенного обучения больших языковых моделей, рассчитанную на работу между географически удаленными дата — центрами. Смысл разработки в том, чтобы уйти от полностью синхронной схемы, где тысячи одинаковых ускорителей должны постоянно ждать друг друга. Для моделей следующего масштаба такая жесткая синхронизация становится не только дорогой, но и хрупкой: один локальный сбой способен замедлить или остановить большой участок обучения.

Decoupled DiLoCo разделяет тренировочный процесс на отдельные вычислительные «острова» — learner units. Эти группы продолжают локально обучаться, а обмен данными между ними происходит асинхронно. Подход опирается на идеи Pathways и DiLoCo: первая система дала инфраструктуру для асинхронного потока данных, а DiLoCo снизил объем коммуникаций между дата — центрами. Новая версия объединяет эти свойства так, чтобы распределенное обучение не упиралось в задержки глобальной сети.

Главное практическое преимущество — устойчивость к отказам оборудования. В экспериментах Google DeepMind применяла chaos engineering: искусственно выводила из строя целые learner units и проверяла, сможет ли система продолжать обучение. Decoupled DiLoCo сохранял полезную работу остальных кластеров и затем реинтегрировал восстановленные узлы. На тестах с моделями Gemma 4 такой режим давал сопоставимое качество машинного обучения с традиционными методами, но лучше переносил аппаратные сбои.

Вторая важная часть — сетевые требования. По данным DeepMind, Decoupled DiLoCo требует на порядки меньше пропускной способности, чем классические синхронные схемы. В одном из производственных экспериментов исследователи обучили модель на 12 млрд параметров в четырех регионах США, используя канал порядка 2–5 Гбит/с. Это уровень, который ближе к существующей междатацентровой связности, а не к специально построенной сверхскоростной инфраструктуре. За счет совмещения обмена данными с длительными вычислительными фазами система избегает блокирующего ожидания и обучается более чем в 20 раз быстрее, чем при обычной синхронизации.

Для индустрии это важно не только как очередная оптимизация обучения. Если такие схемы станут надежными на большем масштабе, лаборатории смогут использовать разрозненные вычислительные ресурсы, смешивать поколения оборудования, например TPU v6e и TPU v5p, и размещать обучение ближе к доступной мощности. Decoupled DiLoCo не отменяет необходимость качественных данных и инженерного контроля, но показывает, что узким местом будущих моделей становится не только количество чипов, а архитектура всей тренировочной системы.

Ответы (0)

Пока нет ответов в этой теме.