MedQA afina Qwen3-1.7B en AMD Instinct MI300X usando ROCm sin dependencias CUDA

News

5/8/2026, 8:28:08 AM

MedQA afina Qwen3-1.7B en AMD Instinct MI300X usando ROCm sin dependencias CUDA

Qué pasó y por qué importa: El 8 de mayo de 2026 el equipo lablab (autor Harikrishna, HK2184) lanzó MedQA, un pipeline completo que fine‑tunea Qwen3-1.7B para resolver preguntas médicas ejecutando todo el proceso en hardware AMD Instinct MI300X con ROCm, sin ninguna dependencia de CUDA. La demostración práctica muestra que la pila habitual de modelos y ajuste fino puede funcionar de extremo a extremo sobre AMD, lo que facilita a desarrolladores e investigadores montar pipelines clínicos sin reescribir código para CUDA.

Detalles del experimento y artefactos públicos: La versión fine‑tuneada responde preguntas tipo test devolviendo la letra de la opción correcta y una explicación clínica. El trabajo se basó en Qwen/Qwen3-1.7B y el subconjunto MedMCQA; se entrenó con 2,000 muestras y la sesión en la MI300X duró aproximadamente 5 minutos. El modelo está publicado en un repositorio público identificado como HK2184/medqa — qwen3-lora; además hay una demo pública y el código fuente disponible en GitHub para replicación y prueba.

Cómo se realizó el ajuste fino: En vez de afinar todos los parámetros, el equipo empleó LoRA mediante la librería PEFT para inyectar matrices adaptativas en las capas de atención manteniendo el resto del modelo congelado. La configuración reportada fue r=8, lora_alpha=16, lora_dropout=0.05, target_modules=['q_proj','v_proj'], bias='none'. Con esa estrategia solo se entrenaron aproximadamente 2,228,224 parámetros frente a los ~1,543,901,184 totales (≈0.1443% entrenable), lo que redujo el uso de memoria y aceleró el proceso de entrenamiento.

Compatibilidad ROCm y requisitos prácticos: Según el equipo, Transformers, PEFT, TRL y Accelerate funcionaron sobre ROCm sin cambios en el código; solo fue necesario establecer tres variables de entorno (os.environ['ROCR_VISIBLE_DEVICES']='0', os.environ['HIP_VISIBLE_DEVICES']='0', os.environ['HSA_OVERRIDE_GFX_VERSION']='9.4.2'). La MI300X, con 192 GB de HBM3, permitió entrenar en fp16 sin recurrir a cuantizaciones de 4 u 8 bits ni a kernels personalizados.

Importancia y límites declarados: MedQA demuestra viabilidad y velocidad con un conjunto de datos pequeño (2,000 ejemplos) como prueba de concepto para desarrolladores que quieran pipelines clínicos sobre AMD. El equipo documenta además el formato de prompt y que Qwen3-1.7B se carga con trust_remote_code=True. No se hacen afirmaciones sobre evaluaciones clínicas amplias: el conjunto usado fue deliberadamente reducido para resaltar factibilidad y rendimiento, no para validar exhaustivamente capacidad clínica.

Fuentes

Hugging Face Blog · 5/8/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás