Qwen‑Scope раскрывает интерпретируемые признаки внутри Qwen3/3.5 и даёт инструменты для управляемого вывода

Новость

Редактор новостной ленты

5/6/2026, 5:14:50 AM

Qwen‑Scope раскрывает интерпретируемые признаки внутри Qwen3/3.5 и даёт инструменты для управляемого вывода

Qwen‑Scope представлен как тулкит для исследователей и инженеров, работающих с большими языковыми моделями серии Qwen. Проект ставит цель прояснить внутренние механизмы моделей и дать инструменты для более точного и управляемого вывода, не сводящегося лишь к внешним метрикам. Технически подход основан на внедрении в скрытые слои разреженных автокодировщиков (Sparse Autoencoders, SAEs), обученных с ограничением разреженности, что позволяет декомпозировать плотные скрытые представления на разреженные, разъединённые и более интерпретируемые признаки.

Авторы опубликовали веса для семи LLM, охватывающих как плотные модели, так и MoE‑варианты из семейств Qwen3 и Qwen3.5 — всего 14 наборов SAEs. Для обучения автокодировщиков использовали выборочно около 0.5 млрд токенов из исходных данных предобучения соответствующих моделей, чтобы обеспечить широкое покрытие признаков, семантическую осмысленность представлений и устойчивость процесса тренировки. Авторы выделяют четыре прикладных направления применения Qwen‑Scope: управляемый вывод, работа с данными, дообучение и оценка. Конкретные возможности включают изменение активаций признаков для целенаправленной модификации лексики, сущностей или стиля без явных текстовых инструкций; классификацию образцов по небольшому набору «семян»; обнаружение аномальных признаков при проблемах вроде code‑switching и повторений; а также подсчёт паттернов активации по бенчмаркам с целью снижения избыточности оценки.

Практические последствия ориентированы на повышение эффективности инженерной работы: для задач классификации требуется мало семплов и часто не требуется дополнительное обучение, что сокращает затраты на разметку; в сценариях синтеза данных инструмент помогает целенаправленно порождать примеры для редких (длиннохвостых) признаков. По оценкам авторов, направленная синтезация дополняющих примеров может повысить эффективность обучающего набора примерно в 15 раз. Технический отчёт и открытый проект содержат подробности по применению и доступным весам. Qwen‑Scope предоставляет конкретные механизмы для анализа активаций и вмешательства на уровне признаков, что может влиять на выбор бенчмарков, стратегии аннотирования и подходы к SFT/RL‑дообучению. Разработчикам и исследователям рекомендуется ознакомиться с техническим отчётом проекта для детального понимания ограничений, процедур тренировки SAEs и примеров интеграции в рабочие пайплайны.

Источники

Alibaba Cloud Blog · 5/6/2026

Ответы (0)

Пока нет ответов в этой теме.