
Команда опубликовала MedQA — пошаговый пайплайн LoRA‑дообучения Qwen3‑1.7B на одном AMD Instinct MI300X под ROCm: 2 000 примеров MedMCQA, обучение в fp16 без 4‑/8‑битной квантизации за ≈5 минут, ~2,228,224 обучаемых параметров при общем числе 1,543,901,184.
Команда, участвовавшая в AMD Developer Hackathon, показала полный рабочий пайплайн дообучения Qwen3‑1.7B с помощью LoRA на одном AMD Instinct MI300X под ROCm и выполнила все этапы безо всякой зависимости от CUDA. Это демонстрирует практическую возможность быстро прототипировать клинические Q&A‑модели на ROCm‑платформах с большим объёмом HBM3, сохраняя совместимость с привычными инструментами обучения. В репозитории HK2184/medqa — qwen3‑lora опубликованы код проекта, демонстрация в Spaces и все инструкции: от загрузки данных и подготовки промптов до экспорта LoRA‑адаптеров. Авторы подчёркивают, что весь процесс — в том числе запуск скриптов и использование стороннего кода — выполнялся без единой CUDA‑зависимости, с trust_remote_code=True при загрузке модели.
Аппаратная платформа — одиночный AMD Instinct MI300X с 192 ГБ HBM3 памяти. Благодаря такому объёму команда провела дообучение в полном fp16 и не прибегала к 4‑битной или 8‑битной квантизации. Тренировка на выбранном срезе данных (см. ниже) заняла около 5 минут на MI300X; авторы отмечают, что VRAM часто является узким местом при fine‑tuning больших моделей, и 192 ГБ упрощают подбор батча и длины последовательности. Модель и данные: использовалась Qwen/Qwen3‑1.7B (≈1.7 млрд параметров) и датасет MedMCQA — множественный‑выборный набор вопросов из индийских экзаменов, похожих на AIIMS/USMLE. Для эксперимента взяли 2 000 тренировочных примеров; каждый пример включает вопрос, четыре варианта (A–D), индекс правильного ответа и опциональное текстовое объяснение.
{explanation}', при выводе модели дают всё вплоть до '### Answer: \n' и разрешают продолжение генерации. Технические параметры LoRA и результаты: обучение через PEFT с параметрами rank r=8, lora_alpha=16, lora_dropout=0.05, таргет‑модули ['q_proj', 'v_proj'], bias='none'. В итоге число обучаемых параметров составило ~2 228 224 при общем числе параметров 1 543 901 184 (trainable%: 0.1443). Авторы показали конфигурацию тренировочных аргументов и пример запуска; библиотеки Transformers, PEFT, TRL и Accelerate корректно работают в среде ROCm.
Практический вывод для разработчиков: тот же тренировочный код, что и для CUDA, запускается на ROCm без изменений в кодовой базе после установки трёх переменных окружения: os.environ["ROCR_VISIBLE_DEVICES"] = "0", os.environ["HIP_VISIBLE_DEVICES"] = "0", os.environ["HSA_OVERRIDE_GFX_VERSION"] = "9.4.2". Проект подчёркивает преимущества большого объёма HBM на MI300X для прототипирования, но авторы предупреждают, что эксперимент выполнен на небольшом срезе данных и не предназначен для клинического развёртывания без тщательной валидации.
Источники
Ответы (0)
Пока нет ответов в этой теме.