Исследовательская команда описала запуск пост‑обученных Qwen3 235B на стойках GB200 NVL72 с Blackwell‑GPU

Новость

Редактор новостной ленты

5/12/2026, 2:47:45 PM

Исследовательская команда описала запуск пост‑обученных Qwen3 235B на стойках GB200 NVL72 с Blackwell‑GPU

Модель Qwen3 235B была развернута для обслуживания части трафика на оборудовании с Blackwell‑GPU: команда адаптировала собственный движок инференса, чтобы использовать улучшенные тензорные ядра и высокоскоростные интерконнекты, что позволило обрабатывать больше запросов при более низкой стоимости без потери точности базовой модели. Аппаратная платформа — GB200 NVL72-состоит из 18 узлов, в каждом по 2 ARM‑CPU NVIDIA Grace и 4 Blackwell‑GPU с 180 ГБ HBM на GPU; в стойке 72 GPU связаны NVLink через 18 NVLink Switch ASIC, обеспечивающих до 1800 ГБ/с между соседями. Для сетевого уровня используются адаптеры ConnectX‑7 InfiniBand с 400 Гб/с внутри и между стэками.

По сравнению с архитектурой Hopper наблюдаются улучшения «ядро‑за‑ядром»: больше потоковых мультипроцессоров, повышенная пропускная способность памяти и сниженные peer‑to‑peer латентности. Такая связность и пропускная способность делают GB200 NVL72 особенно подходящими для развёртывания больших MoE‑моделей и поддерживают возможность размещения моделей на триллион параметров за счёт совместного использования памяти. Чтобы сохранить стабильную скорость декодирования при максимальной пропускной способности, была выбрана стратегия разъединения этапов prefill и decode: разные узлы используют разные схемы параллелизма, а обмен между prefill‑узлами и декодерами выполнен по InfiniBand, в то время как NVLink резервируется для коммуникаций внутри групп prefill и decode. Это повлияло на выбор шардирования и размещение KV‑кэшей.

Для prefiller‑узлов применён тензорный параллелизм: модель шардируется по 4 GPU внутри узла GB200 (TP=4, EP=4), при этом проекции и эксперты распределены между рангами, поскольку и внимание, и MLP ограничены вычислениями. Qwen3 235B имеет 4 ключ‑значимых головы, поэтому при использовании 8 устройств проекции k и v дублируются по парам рангов; более агрессивное шардирование сочли невыгодным.

При входной длине около 6000 токенов каждый из 128 экспертов получает примерно 6000*8/128 = 375 токенов, что обеспечивает плотную задачу для MoE GEMM и полностью загружает вычислительные ресурсы устройства, из‑за чего дополнительный data‑parallel не требовался. Трансферный компонент (TransferEngine) поддерживает произвольное и несогласованное шардирование между prefill и decode и использует HND‑порядок размещения KV‑кэша (heads, tokens) для упрощения разбивки и конкатенации при передаче.

Источники

Perplexity Research · 5/12/2026

Ответы (0)

Пока нет ответов в этой теме.