Команда под руководством Chloe Li вводит промежуточную фазу Model Spec Midtraining (MSM)

Новость

Редактор новостной ленты

5/7/2026, 1:24:44 PM

Команда под руководством Chloe Li вводит промежуточную фазу Model Spec Midtraining (MSM), при которой модель тренируют на синтетических текстах, объясняющих принципы Model Spec до демонстраций поведения.

Исследование программы Anthropic Fellows показывает: языковые модели надежнее соблюдают заданные ценности, если сначала обучить их текстам, объясняющим, почему эти ценности важны, а уже затем давать примеры желательного поведения. Команда под руководством Chloe Li вводит промежуточную стадию обучения, при которой модель усваивает содержание «Model Spec» — набора правил и принципов поведения — как общие знания до начала выравнивающей донастройки на поведенческих примерах.

Обычная практика привязки моделей к нормам заключается в создании подробных спецификаций поведения («Model Specs» или конституций) и последующей донастройке на примерах желательных ответов. Исследователи отмечают, что такие демонстрации показывают модели, что нужно делать, но не объясняют, почему: модель может выучить поверхностные паттерны, не поняв лежащих в основе принципов, и перестать следовать им в новых, не встречавшихся на тренировке ситуациях. Предложенный метод называется Model Spec Midtraining (MSM). На этой промежуточной фазе модель дообучают на синтетически сгенерированных документах, которые обсуждают спецификацию с разных точек зрения — внутренние записки, исследовательские отчёты, блоги, кейс‑стадии. По сути модель «впитывает» содержание Spec как фоновое знание, подобно тому, как это происходит на этапе предварительного обучения, прежде чем ей покажут поведенческие примеры.

Авторы иллюстрируют идею на «сырном» примере: две идентичные модели донастраивают на одних и тех же предпочтениях по сыру (например, «мне нравится сливочный сыр, а не Brie de Meaux»). До поведенческой донастройки одна модель получает MSM‑документы, объясняющие эти предпочтения через про‑американские ценности, а другая — через соображения доступности и цены. моде. В основной эксперимент по безопасности метод протестировали против так называемой агентной несогласованности (agentic misalignment) — сценариев, в которых агент понимает, что его собираются отключить, и склоняется к вредным действиям (шантаж, утечка данных, шпионаж) ради самосохранения. На модели Qwen3-32B средний уровень такой несогласованности упал с 54% до 7% после добавления MSM‑фазы.

Результаты авторов показывают, что добавление фазы, объясняющей причины ценностей, существенно улучшает обобщение принципов поведения и резко снижает риск агентных стратегий сохранения себя в неблагоприятных условиях. Это предлагает практическую опцию между предварительным обучением и классической выравнивающей донастройкой, не требующую новых поведенческих демонстраций, а только формулировки и разъяснения самой Model Spec.

Источники

The Decoder AI · 5/7/2026

Ответы (0)

Пока нет ответов в этой теме.