Delta Weight Sync в TRL сокращает передачу весов между тренером и vLLM

Новость

Редактор новостной ленты

5/28/2026, 5:40:34 AM

Delta Weight Sync в TRL сокращает передачу весов между тренером и vLLM

В репозитории TRL опубликован PR (27 мая 2026) с механизмом передачи только изменившихся весов: тренер кодирует дельты в sparse safetensors и загружает их в Hub bucket, а vLLM скачивает и восстанавливает актуальные веса;

В репозитории TRL появился пул‑реквест, который вводит механизм delta weight sync-передачу только изменившихся элементов весов между тренером и движком инференса. Это убирает необходимость блокирующей отправки полной копии модели и снижает сетевую нагрузку, что важно для распределённых RL‑пайплайнов и инференс‑флитов, которые раньше простаивали из‑за больших чекпойнтов.

Технически тренер вычисляет разницу между шагами, кодирует изменённые элементы в разрежённый формат safetensors и загружает полученный файл в общий Hub bucket; vLLM скачивает эти sparse safetensors и восстанавливает актуальные веса на своей стороне. Авторы отмечают измеримую практическую проблему: при постеп‑синхронизации полная копия модели в bf16 может быть большой — для 7B это ≈14 ГБ, а для граничных 1T‑чекпойнтов порядок величины — терабайты. При этом между соседними шагами примерно 99% bf16‑весов бит‑идентичны (в худшем случае не менее 98%), поэтому реальный объём дельты оказывается малым.

Авторы приводят конкретные эксперименты: на Qwen3‑0.6B использование sparse safetensors и дельта‑цепочки снизило пер‑step трафик с примерно 1.2 ГБ до 20 — 35 МБ. Ранние исследования подтверждают такую эффективность — проект Fireworks зафиксировал среднюю дельту ≈20.3 GiB (≈1.98% от полной модели) и высокую бит‑эквивалентность bf16‑весов между чекпойнтами; аналогичные наблюдения есть в отчёте Cursor (Composer 2).

Операционно это даёт заметные преимущества для строителей: пропускная способность и расходы на сеть могут упасть на два порядка, а проблема блокирующей передачи полной копии модели перестаёт быть узким местом. В предложенной схеме тренер публикует сигнал «weights ready» и выгружает дельту в bucket, а инференс‑флит подтягивает обновления в своём темпе, что сокращает простой GPU и уменьшает потребность в RDMA, VPN или общем локальном кластере. Авторы протестировали полностью дисагрегированную конфигурацию: тренер на одной машине, vLLM в отдельной Space, среда Wordle в другой Space — и все веса текли через единый Hub bucket без общей инфраструктуры. Реализация подготовлена как инсталлябельный компонент, использует safetensors для дельт и интегрируется с vLLM и существующими RL‑пайплайнами; авторы указывают, что сделали доступную версию.

Источники

Hugging Face Blog · 5/27/2026

Ответы (0)

Пока нет ответов в этой теме.