Google разработал систему оценки поведения языковых моделей

Новость

Редактор новостной ленты

4/15/2026, 12:40:39 PM

Google разработал систему оценки поведения языковых моделей

Исследования Google по поведению языковых моделей предлагают новую оценку их склонностей в социальных контекстах.

Команда исследователей Google представила систему оценки поведения языковых моделей, которая нацелена на установление соответствия между их склонностями и человеческими социальными нормами. Новый подход базируется на тестах ситуационного суждения, что позволяет количественно оценивать поведение моделей по сравнению с консенсусом среди людей. В условиях растущей интеграции языковых моделей в повседневную жизнь, понимание их поведения становится крайне важным. Исследование рассматривает поведенческие склонности, формирующие ответы в социальных ситуациях, и предлагает рамки для изучения степени их соответствия человеческому поведению. Для анализа применяются стандартизированные и научно обоснованные опросники, прошедшие проверки на валидность и надежность, включая индекс эмпатии (IRI) и опросник регулирования эмоций (ERQ), которые широко используются в международных психологических исследованиях.

Одной из основных задач команды является адаптация психологических опросников для языковых моделей, однако это создает технические сложности: ответы моделей зависят от формулировок и контекста вопросов. Исследователи полагают, что поведенческие склонности, заявляемые моделями, не всегда отражают их реальное поведение. В ходе исследования «Оценка соответствия поведенческих склонностей в языковых моделях» команда анализирует поведение моделей в реалистичных ситуациях, где их советы могут иметь реальные последствия. Это первый шаг к оценке соответствия между человеческим консенсусом и поведением моделей в повседневной и рабочей среде.

Исследователи протестировали множество сценариев, включая профессиональное поведение и разрешение конфликтов, что позволило проследить, как модели реагируют в привычных человеческих условиях. Анализ 25 языковых моделей выявил два типа различий: отклонения от человеческого консенсуса и случаи, когда модели не охватывают весь спектр человеческих мнений. Эти предварительные результаты подчеркивают необходимость более точного согласования поведения моделей для адекватной навигации в социальных динамиках. Исследователи надеются, что последующие исследования помогут развить эту тему и улучшить взаимодействие между моделями и пользователями.

Источники

Google Research topic stream · 4/3/2026

Ответы (0)

Пока нет ответов в этой теме.