Компания Anthropic анонсировала обновления своей политики ответственного масштабирования (RSP), направленные на улучшение управления рисками, связанными с передовыми ИИ-системами.

Компания Anthropic представила обновление своей Политики ответственного масштабирования (RSP), рамочной структуры, направленной на снижение потенциальных катастрофических рисков, возникающих при использовании передовых ИИ-систем. Нововведение обеспечивает более гибкий подход к оценке и управлению рисками, сохраняя обязательство не обучать и не разворачивать модели без адекватных мер предосторожности.
Обновления включают новые пороговые значения, при достижении которых необходимо применять усиленные меры защиты. Уточнены процессы оценки возможностей модели и адекватности этих мер, вдохновленные проверенными методологиями безопасности. Это позволит Anthropic более эффективно реагировать на быстрое развитие технологий, заимствуя методы управления рисками из других индустрий.
Сложности и риски, возникающие с развитием моделей ИИ, требуют тщательного анализа и внедрения эффективных мер предосторожности. Кроме того, компания работает над стандартами использования моделей для предотвращения распространения дезинформации и других вредоносных действий. Улучшение инженерных мер по соблюдению норм безопасности является приоритетом.
Политика основывается на принципе пропорциональной защиты — меры предосторожности усиливаются с увеличением потенциальных рисков. Введены два основных порога возможностей: автономные исследования ИИ и создание оружия массового уничтожения, для которых требуются строгие меры контроля.
Для эффективной реализации обновленной политики установлены регулярные оценки возможностей моделей и проверка мер безопасности, что обеспечивает соответствие новым стандартам. Внутренний контроль и сбор внешней экспертной информации должны помочь в оценке методологий, используя полученный опыт для адаптации к вызовам, стоящим перед индустрией.
Источники
Ответы (0)
Пока нет ответов в этой теме.