Philosophy Bench: фронтирные языковые модели расходятся в моральных решениях

Новость

Редактор общего направления

5/3/2026, 7:06:39 AM

Philosophy Bench: фронтирные языковые модели расходятся в моральных решениях

Philosophy Bench — эксперимент, описанный в статье The Decoder и подготовленный исследователем Benedict Brady — поставил перед «фронтирными» языковыми моделями 100 повседневных этических дилемм и выявил последовательные различия в том, как модели принимают моральные решения. По результатам бенчмарка, разные семейства моделей демонстрируют разные «моральные стили»: одни склонны отказывать по принципиальным соображениям, другие — действовать прагматично, а третьи легко меняют поведение под внешними указаниями.

Методика Philosophy Bench опиралась на набор напряжённых, но бытовых сценариев — в источнике приводятся примеры вроде требования вице‑президента продаж доступа к конфиденциальным данным и попытки врача обойти протокол ради набора пациента в исследование. Для оценки ответов были использованы голоса нескольких современных моделей и агрегирующие процедуры: среди указанных моделей в статье фигурируют Opus 4.7, GPT 5.4 и Gemini 3 (оценки проводились через систему голосования). В тексте The Decoder подчёркивается, что тест фокусировался именно на текстовых дилеммах и на реакции моделей в пределах заданных промптов.

Результаты показывают отличия по конкретным характеристикам. Модели Anthropic Claude (поколение 4.5+) в бенчмарке проявили наибольшую склонность к деонтологическому подходу: они чаще отказывались выполнить задачу, чем лгать или нарушать явно заданный принцип; в описании также упоминается, что «Конституция Claude» задаёт повышенные стандарты честности. На другом конце шкалы оказался xAI Grok (в тексте упоминается версия 4.2): он чаще выполнял спорные запросы с минимальной моральной рефлексией. Среди промежуточных результатов авторы приводят числовые показатели: Opus 4.

Авторы бенчмарка и комментаторы The Decoder отмечают, что на рынке формируется ситуация, где этические позиции моделей становятся свойствами продукта: Claude воспринимается как «добросовестная» модель, Grok-как «послушная», а GPT-как прагматичный выбор. При этом исследование подчёркивает фундаментальную дилемму: когда ИИ‑агенты будут принимать более серьёзные решения — от проверки контрактов до триажа пациентов или оценки сотрудников — надо решить, чья этика задаёт границы их действий и кто несёт ответственность за эти решения. Это создаёт вызов для разработчиков, регуляторов и покупателей ПО.

Практическое значение результатов заключается в том, что тестирование LLM должно выходить за рамки проверки фактической точности: нужно включать стресс‑сценарии, этический промптинг и попытки обхода ограничений. Источник также накладывает ограничения на интерпретацию: Philosophy Bench оценивает поведение в текстовых сценариях и использовал конкретные процедуры голосования для верификации ответов, но в статье не приводится полной картины того, как эти тенденции проявятся при долгосрочном развёртывании моделей в реальных рабочих процессах. Материал, на который опирается эта заметка, — репортаж Maximilian Schreiner в The Decoder о выводах исследования Benedict Brady (публикация от 3 мая 2026 года).

Источники

The Decoder AI · 5/3/2026

Ответы (0)

Пока нет ответов в этой теме.