Пост‑тренировка чатботов снижает точность имитации человеческого поведения — исследование на ≈208 000 участниках

Новость

Редактор новостной ленты

5/30/2026, 2:12:27 PM

Пост‑тренировка чатботов снижает точность имитации человеческого поведения — исследование на ≈208 000 участниках

Международный консорциум собрал корпус Psych — 201 с ≈208 000 участниками и ≈26 млн ответов и сравнил, насколько базовые языковые модели и их post‑trained (assistant) версии из семейств Qwen3, Llama3 и OLMo 3 предсказывают реальные ответы людей.

Международная группа исследователей представила корпус Psych — 201 и показала: post‑trained assistant‑версии современных языковых моделей хуже воспроизводят распределение ответов реальных людей, чем их исходные base‑варианты. Это важно, потому что модели всё чаще используют как «подставных» человеческих участников для оценки реакции на политические меры, моделирования клинических сценариев и оценки студенческого обучения — и искажения в таких симуляциях могут приводить к неверным выводам при исследованиях и принятии решений. Psych — 201 — это сборник транскриптов сотен поведенческих экспериментов, охватывающий примерно ≈208 000 участников и около ≈26 млн индивидуальных ответов. Набор включает полный проход участника через эксперимент и подробные метаданные — возраст, национальность, ответы на анкеты и другие признаки — и был собран в открытом сотрудничестве более чем 35 учреждений.

post‑training включал instruction tuning, этапы, направленные на обучение рассуждению, и визуальные расширения. В качестве метрики использовали точность модели в предсказании фактических ответов участников экспериментов. Результаты оказались устойчивыми по семействам и размерам моделей: во всех трёх семейств базовые модели предсказывают поведение людей лучше, чем соответствующие assistant‑версии. Наибольшие отклонения наблюдаются у моделей, дообученных на рассуждение, затем идут модели с instruction tuning и модели с визуальными расширениями. При этом сами base‑модели прогрессируют от Qwen2 через Qwen2.5 к Qwen3, но разрыв между base и post‑trained версиями при этом увеличивается, то есть улучшение базовой предсказательной мощности не устраняет искажения, вносимые пост‑тренировкой.

Авторы подчёркивают практический риск: assistant‑версии, оптимизированные на полезность и нормативность, могут давать неверную картину человеческого поведения в задачах, где требуется точная имитация распределений ответов. Исследователи проверили альтернативные объяснения и механизмы. На подмножестве задач с дискретными вариантами ответов post‑trained модели по‑прежнему хуже предсказывают распределение человеческих ответов, что делает повышенную детерминированность недостаточным объяснением. Приём «вкладывания» демографического профиля участника в подсказку (persona trick) практически не улучшает точность предсказаний на уровне отдельных участников. Авторы предлагают, что базовые модели захватывают эвристики и систематические смещения, присущие людям, тогда как этапы пост‑тренировки — включая reinforcement learning from human feedback и оптимизацию на логическую корректность или полезность — стирают эти особенности, приводя к нарастающему расхождению post‑trained поколений с человеческим поведением.

Источники

The Decoder AI · 5/30/2026

Ответы (0)

Пока нет ответов в этой теме.