
Trajectory вместе с UC Berkeley Sky Lab и Anyscale опубликовала полеовый отчёт и открыла код concurrent multi‑LoRA стека для continual learning. Команда заявляет, что новая система даёт 2,81× улучшение end‑to‑end пропускной способности экспериментов по сравнению с однопользовательским базовым стеком и при этом не отмечено регрессии по тренировочным наградам — это ускоряет массовые RL‑эксперименты и снижает простой инфраструктуры. Технически стек реализует подход Continuous Multi‑LoRA (C‑LoRA). В inference‑пути все адаптеры hot‑loaded в GPU‑память через vLLM, что позволяет объединять токены из разных адаптеров в одном батче и одновременно обслуживать несколько арендаторов модели без перезапусков планировщика.
Ключевой оптимизатор производительности — SGMV decode kernel: он сворачивает пер‑адаптерные матрица‑векторные операции в один запуск на GPU за шаг декодирования, снижая накладные расходы при мультиплексировании адаптеров. После шага декодирования обновлённые LoRA‑веса подгружаются in‑place, а планировщик продолжает работать, поэтому другие арендаторы не блокируются при апдейтах.
Модель обучения сохранена частично: в любой момент на GPU активен только один обучаемый LoRA‑адаптер, остальные хранятся в pinned CPU‑памяти. Состояние каждого арендатора организовано в AdapterStore, где лежат параметры LoRA, FP32 master‑веса, моменты оптимизатора и буферы градиентов. Движок свопит состояние арендатора на GPU, выполняет единичный forward_backward проход и возвращает его в CPU; из‑за этого тренировочный путь остаётся по сути сериализованным для каждого адаптера, поэтому основной выигрыш по concurrency достигается на стороне inference.
В отчёте приведены прикладные числа: тестирование проводили на одной H200 с моделью Qwen3‑4B‑Instruct‑2507, выполняя синхронный RL на наборе GSM8K в агентной постановке. Задачу поставили как взаимодействие с инструментами — модель решает, когда вызвать Calculator и когда вернуть Final Answer; награда 1.0 даётся только если Final Answer содержит правильный ответ. При стартовой политике около 40% точности, к шагу 9 правильная политика превышает 90% точности, и параллельно подтверждён общий 2,81× прирост пропускной способности по сравнению с однопользовательским стеком.
Практическое значение C‑LoRA для разработчиков и инфраструктурных команд в том, что стек уменьшает эффект холодных стартов и повышает загрузку ресурсов за счёт мультиплексирования адаптеров, сохраняя при этом памятьную экономию LoRA-что важно для моделей масштаба >100B. Одновременно авторы подчёркивают компромисс: основная экономия достигается на inference‑стороне, а сам путь тренировки остаётся сериализованным, поэтому команды должны учитывать баланс между скоростью экспериментов и задержками отдельных апдейтов. Открытый репозиторий NovaSky — AI/SkyRL доступен для воспроизведения архитектуры и оценки её влияния на конкретные рабочие нагрузки.
Источники
Ответы (0)
Пока нет ответов в этой теме.