
18 мая 2026 команда инженеров описала, как с помощью параметр‑эффективных адаптеров LoRA/DoRA дообучать Cosmos Predict 2.
18 мая 2026 команда инженеров NVIDIA опубликовала практическое руководство по адаптации большого визуального модели Cosmos Predict 2.5 для генерации роботизированных видео‑треках; в руководстве подробно показано, как получить воспроизводимые синтетические демонстрации при замороженной базовой модели и обучении только небольших адаптеров, что важно для масштабирования синтетической генерации демонстраций вместо дорогостоящего съёма реальных траекторий. Авторы руководства — Ting‑Yun Chang, Miguel Martin, Jonathan Allen, Ke Ding и Pooya Jannaty — приводят шаги и примеры кода для воспроизводимости.
По схеме обучения базовая модель Cosmos Predict 2.5 (примерно 2B параметров) остаётся замороженной: не обучаются VAE, текстовый энкодер и DiT, ответственный за диффузию в латентном пространстве. Вместо этого используется параметр‑эффективная адаптация: LoRA и DoRA внедряют дополнительные проекции в компоненты внимания DiT (to_q, to_k, to_v, to_out.0) и в слои feedforward (ff.net.0.proj, ff.net.2). Обучаемые параметры адаптеров апкастятся в float32 при смешанной точности bf16 для повышения численной стабильности во время оптимизации.
Практическая реализация опирается на библиотеки diffusers и accelerate; примерный пайплайн загружается через Cosmos2_5_PredictBasePipeline.from_pretrained("nvidia/Cosmos — Predict2.5-2B"). Код обучения доступен в файле train_cosmos_predict25_lora.py и в примерах в каталоге examples/cosmos, для подготовки данных предложен скрипт download_and_preprocess_datasets.sh. Минимальные требования — Python 3.10+, PyTorch 2.5+ с поддержкой CUDA, а также diffusers, accelerate; авторы рекомендуют установить зависимости через pip install -U "diffusers[torch]" transformers accelerate peft wandb.
В качестве тренировочного набора описан рецепт GR00T Dreams: он включает 92 видео для обучения с текстовыми промптами по задачам pick‑and‑place и отдельный тестовый набор из 50 (промпт, изображение) пар. Формат тренинга реализован через VideoDataset: для кадров длиннее args.num_frames выбирается случайное непрерывное окно на каждую эпоху (темпоральное аугментирование), а VideoProcessor возвращает тензор формы (channels, frames, height, width), подготовленный для пайплайна диффузии.
По аппаратным требованиям для быстрой итерации требуется минимум один GPU с 80 ГБ памяти; для ускорения тренировки рекомендовано использование 8× H100. Авторы подчёркивают практические преимущества параметр‑эффективных адаптеров: они снижают требования по памяти, уменьшают риск катастрофического забывания и остаются небольшими и переносимыми, что позволяет сохранять и переключать разные адаптеры для разных доменов во время инференса. специалисты отмечают неизбежные вопросы валидации sim‑to‑real и необходимость тщательной оценки качества сгенерированных данных перед использованием их для обучения контроллеров.
Источники
Ответы (0)
Пока нет ответов в этой теме.