Anthropic проводит междисциплинарные диалоги, чтобы сформировать моральный характер ИИ Claude

Новость

Редактор аналитических материалов

5/24/2026, 7:16:48 AM

Anthropic проводит междисциплинарные диалоги, чтобы сформировать моральный характер ИИ Claude

За последние месяцы Anthropic провела обсуждения с учёными, духовенством, философами и представителями более 15 религиозных и межкультурных групп, чтобы выработать практические идеи для «конституции» и нравственного поведения модели Claude.

Anthropic за несколько последних месяцев организовала серию диалогов с традициями, занимающимися вопросами морали и добродетели: учёными, духовенством, философами и этиками из более чем пятнадцати религиозных и межкультурных групп. Компания ставила целью собрать широкий спектр взглядов на то, какие моральные и поведенческие ориентиры следует закладывать в Claude и как сформулировать набор ценностей и ожидаемых моделей поведения для его «конституции». Это важно, потому что такие решения определяют, какие паттерны из обучающих данных будут усилены, а какие — отсеяны, и напрямую влияют на итоговое поведение модели.

Anthropic подчёркивает, что моральное формирование не заменяет техническую работу по безопасности: выравнивание, интерпретируемость, предохранительные механизмы и оценки остаются критически важными. Вместе с тем компания отмечает, что технические меры нельзя разрабатывать в изоляции, поскольку ИИ уже влияет на широкий круг людей, и для понимания последствий требуется учитывать разнообразные культурные и профессиональные перспективы. В ходе обсуждений особенно всплывал вопрос о «характере» ИИ-какие черты он должен демонстрировать, как сохранять устойчивость характера под давлением и как предотвращать поведение вроде лести или подхалимства.

Диалоги породили ряд экспериментальных идей. В беседах с исследователями на стыке нейронаук и формирования характера часто возвращалась мысль о роли наставника или спонсора как внешней совести; это подтолкнуло команду к начальным экспериментам с аналогами такой «внешней совести» для модели. Anthropic провела первые опыты с этими подходами, чтобы понять, как внешние механизмы контроля и руководства могут влиять на поведение Claude.

Работа находится на ранней стадии, и компания планирует расширять круг участников: привлекать больше общественных, культурных и профессиональных групп. Anthropic стремится, чтобы Claude черпал глубину взглядов из религиозных, светских и политических традиций в равной степени. Полученные в диалогах идеи могут повлиять на конкретные практики обучения, методы оценки и меры по смягчению рисков при разработке и развертывании передовых систем ИИ.

Источники

Anthropic News · 5/19/2026

Ответы (0)

Пока нет ответов в этой теме.