
OpenAI объявила о создании MRC (Multipath Reliable Connection) в сотрудничестве с AMD, Broadcom, Intel, Microsoft и NVIDIA. MRC позиционируется как открытый сетевой протокол, разработанный для ускорения и стабилизации передачи данных между графическими процессорами в крупных кластерах обучения моделей ИИ. Основная идея — одновременно направлять пакеты по сотням параллельных путей, чтобы уменьшить узкие места в ядре сети и повысить предсказуемость сетевого поведения при интенсивных обменах между GPU.
Архитектура MRC использует подход «multi‑plane», который позволяет соединять более 100 000 GPU, сохраняя при этом лишь два уровня Ethernet‑коммутаторов вместо трёх — четырёх, характерных для традиционных 800 Gb/s сетей. За счёт уменьшения числа уровней коммутации протокол снижает потребление энергии, сокращает количество компонентов и общую стоимость сети, что обещает упростить масштабирование крупных кластеров синхронного обучения.
Протокол способен обнаруживать сбои в путях, линках или коммутаторах и перенаправлять трафик на микросекундных временных шкалах. По данным разработчиков, традиционные сетевые «фабрики» могут стабилизироваться за секунды или десятки секунд; MRC делает поведение сети более предсказуемым и устойчивым при отказах, минимизируя вмешательство команд операторов. В качестве практического примера OpenAI приводит случай: при перезагрузке четырёх коммутаторов первого уровня во время тренировки «фронтирной» модели для ChatGPT и Codex координация с командами по задачам обучения не потребовалась.
MRC уже развёрнут на крупнейших суперкомпьютерах OpenAI на базе NVIDIA GB200, включая площадки Oracle Cloud Infrastructure в Абилине, Техас, и Microsoft Fairwater. Спецификация протокола и сопроводительная исследовательская работа опубликованы через Open Compute Project 6 мая 2026 года; документ доступен как открытый стандарт для внедрения в аппаратное и программное обеспечение. В разработке участвовали перечисленные партнёры, а открытая публикация даёт возможность другим производителям и операторам интегрировать MRC в свои решения.
Практические следствия для инженеров и операторов дата‑центров очевидны: меньше уровней коммутации и распределение трафика по множеству путей может упростить масштабирование синхронного обучения, снизить энергопотребление и уменьшить вероятность простоев из‑за сетевых отказов. Переход на такие схемы потребует пересмотра топологии кластеров, обновления прошивок коммутаторов и адаптации стратегий планирования сетевого трафика, но обещает значительное повышение надёжности и экономической эффективности больших вычислительных инфраструктур.
Источники
Ответы (0)
Пока нет ответов в этой теме.