CyberSecQwen‑4B — 4‑миллиардная модель для локальной обороны в кибербезопасности

Новость

Редактор новостной ленты

5/8/2026, 6:43:47 PM

CyberSecQwen‑4B — 4‑миллиардная модель для локальной обороны в кибербезопасности

Команда lablab представила CyberSecQwen‑4B — 4‑миллиардную языковую модель, созданную для прикладных задач оборонной кибербезопасности; пост с описанием опубликован 8 мая 2026 года. Модель выпущена под лицензией Apache‑2 и была обучена в рамках AMD Developer Hackathon на одном экземпляре ускорителя AMD Instinct MI300X с 192 ГБ HBM3. Авторы подчёркивают, что проект нацелен на локальное выполнение в изолированных или частично подключённых средах, где важны скорость отклика, стоимость и защита чувствительных артефактов.

CyberSecQwen‑4B ориентирована на узкий набор задач киберразведки (CTI): классификацию по CWE, сопоставление CVE→CWE и структурированные Q&A по артефактам и инцидентам. Для оценки команда использовала протокол CTI‑Bench (n=5, temp=0.3) и сравнила модель с публичным базовым эталоном Foundation‑Sec‑Instruct‑8B. В тесте CTI‑MCQ модель показала 0.5868±0.0029 против 0.4996 у эталона (+8.7 п.п.), в CTI‑RCM — 0.6664±0.0023 против 0.6850 (−1.9 п.п.).

По подсчётам авторов, CyberSecQwen‑4B сохраняет 97.3% точности эталонной 8B‑модели по RCM при заметном преимуществе в MCQ и при примерно вдвое меньшем числе параметров. Авторы называют это аргументом в пользу выбора компактных специализированных моделей для защитников: меньшая модель сокращает расходы на масштабную автоматизацию SOC и упрощает хранение доказательств и образцов вредоносного ПО полностью внутри организации. В публикации также отмечены практические ограничения крупных облачных моделей: расходы на ответы API, риск утечки чувствительных данных и сложности работы в изолированных средах. В ответ на это разработчики сделали упор на воспроизводимость и локальную запускоспособность: обучающий и оценочный конвейер запускался целиком на одном MI300X с ROCm 7 и стеком vLLM.

Технические детали обучения включают использование формата bf16, FlashAttention‑2 (forward+backward), PyTorch 2.6.0 (ROCm), vLLM 0.10.1 и flash‑attn 2.8.3; параметры обучения — длина последовательности 4096 и batch size 4. Скрипт train.sh описан как аппаратно‑нейтральный: для серверных GPU с 40 ГБ и выше достаточно убрать AMD‑переменные окружения и установить соответствующий wheel для flash‑attn. В посте также приложены полные конфиги и короткий 5‑минутный ролик с демонстрацией.

Источники

Hugging Face Blog · 5/8/2026

Ответы (0)

Пока нет ответов в этой теме.