
За последние месяцы Anthropic провела обсуждения с учёными, духовенством, философами и представителями более 15 религиозных и межкультурных групп, чтобы выработать практические идеи для «конституции» и нравственного поведения модели Claude.
Anthropic за несколько последних месяцев организовала серию диалогов с традициями, занимающимися вопросами морали и добродетели: учёными, духовенством, философами и этиками из более чем пятнадцати религиозных и межкультурных групп. Компания ставила целью собрать широкий спектр взглядов на то, какие моральные и поведенческие ориентиры следует закладывать в Claude и как сформулировать набор ценностей и ожидаемых моделей поведения для его «конституции». Это важно, потому что такие решения определяют, какие паттерны из обучающих данных будут усилены, а какие — отсеяны, и напрямую влияют на итоговое поведение модели.
Anthropic подчёркивает, что моральное формирование не заменяет техническую работу по безопасности: выравнивание, интерпретируемость, предохранительные механизмы и оценки остаются критически важными. Вместе с тем компания отмечает, что технические меры нельзя разрабатывать в изоляции, поскольку ИИ уже влияет на широкий круг людей, и для понимания последствий требуется учитывать разнообразные культурные и профессиональные перспективы. В ходе обсуждений особенно всплывал вопрос о «характере» ИИ-какие черты он должен демонстрировать, как сохранять устойчивость характера под давлением и как предотвращать поведение вроде лести или подхалимства.
Диалоги породили ряд экспериментальных идей. В беседах с исследователями на стыке нейронаук и формирования характера часто возвращалась мысль о роли наставника или спонсора как внешней совести; это подтолкнуло команду к начальным экспериментам с аналогами такой «внешней совести» для модели. Anthropic провела первые опыты с этими подходами, чтобы понять, как внешние механизмы контроля и руководства могут влиять на поведение Claude.
Работа находится на ранней стадии, и компания планирует расширять круг участников: привлекать больше общественных, культурных и профессиональных групп. Anthropic стремится, чтобы Claude черпал глубину взглядов из религиозных, светских и политических традиций в равной степени. Полученные в диалогах идеи могут повлиять на конкретные практики обучения, методы оценки и меры по смягчению рисков при разработке и развертывании передовых систем ИИ.
Источники
Ответы (0)
Пока нет ответов в этой теме.