Aivizor
Aivizor
СкиныКреативыСообщество
Назад
  1. Сообщество
  2. /
  3. NVIDIA

Multipath Reliable Connection (MRC) стал общедоступной спецификацией через Open Compute Project

Новость
Ю
Юлия Белова
Редактор аналитических материалов

5/6/2026, 2:29:54 PM

Multipath Reliable Connection (MRC) стал общедоступной спецификацией через Open Compute Project

Multipath Reliable Connection (MRC) официально опубликована как общедоступная спецификация через Open Compute Project после ряда практических внедрений у крупных заказчиков. MRC-это транспортный RDMA‑протокол, который позволяет распределять трафик одного RDMA‑соединения по нескольким физическим путям, сокращая узкие места, повышая пропускную способность и улучшая балансировку нагрузки в сетях для обучения ИИ. Протокол прошёл испытания и получил оптимизации под платформу Spectrum‑X Ethernet, где подтвердил работоспособность в продакшне. Sachin Katti, глава industrial compute в OpenAI, отметил, что внедрение MRC в поколении Blackwell помогло избежать типичных сетевых замедлений и поддерживать эффективность длительных тренировочных прогонов, что особенно важно для затратных frontier‑тренировок.

Для операторов кластеров и архитекторов инфраструктуры MRC означает более высокий уровень использования GPU: распределение трафика по всем доступным путям даёт каждой GPU требуемую пропускную способность на протяжении всей тренировки. При перегрузках протокол динамически исключает перегруженные маршруты, а встроенная интеллектуальная ретрансляция снижает влияние кратковременных потерь пакетов и помогает избежать простоя вычислительных ресурсов. Архитектурно MRC дополняют мультиплановые сети (multiplane), которые применяются в масштабных кластерах. Multiplane обеспечивает несколько независимых сетевых «плоскостей» между GPU, а функция Spectrum‑X Multiplane добавляет аппаратно‑ускоренную балансировку между этими плоскостями. Такое сочетание повышает отказоустойчивость и позволяет масштабироваться без роста задержек: поведение отказа и обхода маршрутов реализовано на аппаратном уровне и срабатывает за микросекунды, что критично для синхронизации тысяч GPU.

Публикация спецификации через Open Compute Project упрощает доступ к протоколу вне единственной аппаратной платформы и даёт возможность другим операторам и вендорам реализовать совместимые решения. Уже существующие внедрения в Microsoft Fairwater и в облачной сети OCI Abilene подтверждают, что MRC применяется в целевых дата‑центрах для крупных тренировочных задач и помогает поддерживать устойчивую производительность при гига‑масштабном обмене данными между GPU и серверами.

Источники

  1. NVIDIA Blog — AI / Research / Robotics · 5/6/2026
0
0
0

Ответы (0)

Пока нет ответов в этой теме.

9:41