
NVIDIA объявила о практической методике предобучения в 4‑битном формате NVFP4 и верифицировала её на гибридном Mamba‑Transformer с 12 миллиардами параметров, обученном на 10 триллионов токенов — по утверждению авторов, это самая длинная публично задокументированная тренировка в 4‑битной точности. Результат по MMLU‑Pro в 5‑shot режиме составил 62.58%, практически совпадая с FP8‑эталоном (62.62%), что демонстрирует сохранение качества при значительной экономии ресурсов.
NVFP4 меняет микромасштабную структуру представления: размер блока уменьшен с 32 до 16 элементов, блоковые коэффициенты масштаба хранятся в формате E4M3 вместо UE8M0, и добавлен дополнительный уровень масштабирования тензора в FP32 (per‑tensor scale). По расчёту авторов, минимум 6.25% значений в каждом блоке представлены близко к точности FP8, а остальные — в FP4, что улучшает представимость amax внутри блока и повышает выразительность формата.
На уровне аппаратной поддержки NVFP4 реализован нативно в Blackwell Tensor Cores. По данным NVIDIA, FP4 GEMM на GB200 достигает пропускной способности, эквивалентной 4× BF16, а на GB300-6× BF16, что даёт примерно 2× и 3× ускорение по сравнению с FP8 соответственно. Память для операндов при этом сокращается примерно вдвое по сравнению с FP8, что снижает требования к пропускной способности памяти при обучении больших моделей.
Разработчики уточняют границы квантизации: NVFP4 применяется только к GEMM в линейных (fully‑connected) слоях для проходов Fprop, Dgrad и Wgrad. Эмбеддинги, выходная проекция, нормализации, нелинейности и все компоненты внимания (softmax, Q/K/V GEMM) остаются в BF16 или FP32. Весовые параметры, накопления градиентов для мульти‑батчей и состояния оптимизатора сохраняются в FP32; редукции тензорного параллелизма выполняются в BF16.
Для стабильного схода обучения NVIDIA предложила комбинацию из четырёх приёмов: (1) селективное хранение в высокой точности — первые два и последние восемь блоков из 62 (≈16% всех линейных слоёв) оставлены в BF16 (авторы отмечают, что в абляциях достаточно было даже последних четырёх); (2) 16×16 случайные преобразования Хадамара (RHT) с одним случайным ±1‑вектором, применяемые к входам Wgrad для разрыхления выбросов; (3) двухмерное блоковое масштабирование весов; (4) стохастическое округление градиентов. Абляции показали необходимость каждой из этих частей для успешного 12B‑прогона.
Практическое значение заключается в том, что долгие горизонты предобучения (10T токенов) в 4‑битной арифметике достижимы при сохранении почти эталонной точности, однако для этого требуются специализированные приёмы и удержание ключевых тензоров в FP32/BF16. NVFP4 предоставляет потенциальные 2–3× ускорения GEMM и примерно вдвое меньшие требования к памяти операндов, но интеграция требует поддержки на уровне стека (реализация включена в Transformer Engine) и тщательной настройки слоёв и трансформаций для стабильности обучения.
Источники
Ответы (0)
Пока нет ответов в этой теме.