Fastino Labs выпустила GLiGuard — 300 млн параметров для быстрого и многозадачного контроля безопасности LLM

Новость

Редактор новостной ленты

5/13/2026, 10:08:01 PM

Fastino Labs выпустила GLiGuard — 300 млн параметров для быстрого и многозадачного контроля безопасности LLM

Fastino Labs опубликовала GLiGuard — открытый 300‑миллионный языковой модуль, предназначенный специально для задач модерации безопасности в продуктах с LLM. Веса модели доступны на Hugging Face под лицензией Apache 2.0; разработчик заявляет о верифицированной точности на наборе из девяти бенчмарков безопасности. GLiGuard спроектирована как энкодерная модель, которая оценивает четыре различных модерационных задачи в одном прямом проходе: классификация безопасности (безопасно/небезопасно), обнаружение jailbreak‑стратегий, классификация категории вреда и детекция отказа от выполнения. Архитектурный подход кодирует одновременно входный текст и определения меток, после чего модель одновременно ранжирует все метки и возвращает наивысшие для каждой задачи.

По сравнению с современными guardrail‑моделями, которые в основном являются декодер‑only трансформерами и насчитывают миллиарды параметров, GLiGuard демонстрирует значительные преимущества по производительности. В статье указывают, что при тестах модель дает сопоставимую или лучшую точность по сравнению с моделями в 23 — 90× больше по размеру и при этом достигает до 16× большей пропускной способности и до 16.6× меньшей задержки. Рынок модерации встраиваемых LLM чувствителен к задержкам и стоимости: защитная модель запускается на каждой подсказке и на каждом отклике модели, поэтому последовательная генерация меток у декодерных моделей удваивает задержки и накручивает расходы. Переход к энкодерному классификационному подходу в GLiGuard потенциально снижает операционные издержки для систем с высокими требованиями к пропускной способности и низкой латентности.

Технически ключевая идея — представить модерацию как задачу классификации, а не автогрессивной генерации. GLiGuard включает в один ввод одновременно исходный текст и набор возможных меток; оценка всех задач и меток выполняется в одном прямом проходе, поэтому добавление новых критериев безопасности не умножает латентность, а требует лишь расширения списка меток. По функционалу модель покрывает детекцию 11 jailbreak‑стратегий — названо несколько примеров (prompt injection, roleplay bypass, instruction override, social engineering) — и распознаёт 14 категорий вреда, включая насилие, сексуальный контент, разжигание вражды, утечку персональных данных, дезинформацию, риски для детей и нарушения авторских прав. При обнаружении любой jailbreak‑стратегии подсказка автоматически помечается как небезопасная.

Источники

MarkTechPost AI · 5/13/2026

Ответы (0)

Пока нет ответов в этой теме.