CyberSecQwen‑4B entrenado en una sola MI300X demuestra eficacia para inteligencia de amenazas y ejecución local

News

5/9/2026, 8:27:42 PM

CyberSecQwen‑4B entrenado en una sola MI300X demuestra eficacia para inteligencia de amenazas y ejecución local

CyberSecQwen‑4B se presentó el 8 de mayo de 2026 por un equipo participante del AMD Developer Hackathon; el código y el modelo se publicaron bajo Apache 2.0 y los autores se identifican como el equipo del proyecto junto a Samuel y athena129. El anuncio subraya que el entrenamiento completo se ejecutó en una única instancia AMD Instinct MI300X (192 GB HBM3) en el AMD Developer Cloud, lo que demuestra que una plataforma individual de consumo/datacenter puede soportar la creación de un modelo especializado para inteligencia de amenazas.

El modelo consta de 4.000 millones de parámetros y fue afinado para tareas concretas de CTI (clasificación CWE, mapeo CVE→CWE y preguntas y respuestas de CTI estructurado). En CTI‑Bench, con temperatura 0.3 y n=5 pruebas, CyberSecQwen‑4B obtuvo en CTI‑MCQ (2.500 ítems) un puntaje de 0.5868 ± 0.0029 frente a 0.4996 del baseline Foundation‑Sec‑Instruct‑8B (una mejora de +8.7 puntos). En CTI‑RCM (1.000 ítems CVE→CWE) registró 0.6664 ± 0.0023 frente a 0.6850 del 8B (−1.9 pp); según los autores, el 4B retiene el 97.3% de la precisión RCM del 8B y supera su desempeño en MCQ.

La ingeniería del proyecto prioriza la ejecución local por motivos prácticos y de seguridad: los autores argumentan que depender de llamadas a APIs externas incrementa costos y puede exponer evidencia sensible (credenciales, muestras de malware, borradores de CVE). Además, recuerdan que entornos air‑gapped o con conectividad limitada son frecuentes en infraestructuras críticas, salud y administración pública, y que, ante adversarios que automatizan ataques, los equipos defensores necesitan modelos que puedan poseer y ejecutar on‑prem.

Técnicamente, el pipeline corrió end‑to‑end en la MI300X usando ROCm 7 y la pila vLLM sin necesidad de cuantización ni particionado: entrenamiento en bf16, uso de FlashAttention‑2 para forward y backward, batch size 4 y longitud de secuencia 4.096. Los componentes citados en la entrada incluyen la imagen Docker vllm/vllm‑openai‑rocm:latest, PyTorch 2.6.0 (ROCm), flash‑attn 2.8.3, vLLM 0.10.1 y versiones actuales de transformers, peft y trl al momento del entrenamiento.

La publicación destaca la implicación práctica: para tareas estrechas y bien evaluadas de CTI, un 4B especializado puede desplegarse en hardware de consumidor (~12 GB) y ofrecer rendimiento operativo competitivo frente a un 8B público, reduciendo costos por llamada y limitando la exposición de datos sensibles. Para facilitar la reproducción, la entrada incluye un script train.sh diseñado para ser hardware‑agnóstico (con indicaciones para ejecutar en GPUs de datacenter de 40 GB+ cambiando variables y el wheel de flash‑attn) y un video de cinco minutos que resume la metodología y los resultados.

Fuentes

Hugging Face Blog · 5/8/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás