Anthropic усиливает алгоритмы политической нейтральности и безопасности моделей Claude перед глобальными выборами

Новость

Редактор общего направления

4/24/2026, 2:24:07 PM

Anthropic усиливает алгоритмы политической нейтральности и безопасности моделей Claude перед глобальными выборами

Компания Anthropic представила масштабное обновление алгоритмов политической нейтральности и систем безопасности для языковых моделей семейства Claude. Эта инициатива приурочена к грядущим электоральным кампаниям по всему миру, включая промежуточные выборы в Соединенных Штатах Америки. Разработчики исходят из принципа, согласно которому искусственный интеллект может стать позитивным фактором для демократических процессов, если будет предоставлять точную и беспристрастную информацию о политических партиях, кандидатах и процедурах голосования. Обновление призвано гарантировать, что пользователи смогут получать сбалансированные ответы, помогающие делать самостоятельные выводы, а не подталкивающие к определенной точке зрения.

Для достижения заявленного уровня объективности инженеры интегрировали строгие правила в базовую конституцию нейросетей, требуя от них одинаковой глубины и аналитической строгости при рассмотрении различных политических взглядов. Этот подход реализуется через обучение персонажей, где система поощряется за отражение определенных ценностей, и закрепляется системными промптами в каждой пользовательской сессии на платформе. В ходе внутренних оценок качества генерации ответов на запросы из разных частей политического спектра модель Opus 4.7 получила оценку в девяносто пять процентов, а Sonnet 4.6 достигла показателя в девяносто шесть процентов.

Важной частью стратегии безопасности стало привлечение независимых экспертов и интеграция проверенных сервисов. Anthropic сотрудничает с аналитическим центром The Future of Free Speech при Университете Вандербильта, Foundation for American Innovation и Collective Intelligence Project для проведения широкого анализа поведения моделей в контексте свободы слова. Помимо этого, для предоставления максимально достоверных данных о проходящих выборах в систему были интегрированы решения некоммерческих партнеров, таких как платформа TurboVote от организации Democracy Works. Хотя исходные документы не раскрывают полных технических деталей интеграции этих ресурсов, они подтверждают общую направленность на обеспечение пользователей надежной гражданской информацией.

Обновленная политика использования строго регламентирует применение моделей Claude в предвыборный период. Пользователям запрещено применять нейросеть для проведения обманных политических кампаний, создания фейкового цифрового контента с целью влияния на дискурс, совершения фальсификаций, вмешательства в системы голосования или распространения вводящей в заблуждение информации о выборных процессах. За соблюдением этих правил следит многоуровневая система защиты. Автоматизированные классификаторы выявляют признаки потенциальных нарушений на ранних этапах, а специализированная команда по анализу угроз расследует и пресекает скоординированные злоупотребления, не мешая при этом миллионам обычных ежедневных диалогов.

Эффективность внедренных ограничений была проверена с помощью специализированной серии тестов, состоящей из шестисот запросов, отражающих реальные паттерны общения пользователей с ботом. База тестирования включала триста вредоносных сценариев, таких как попытки генерации дезинформации о выборах, в паре с тремястами легитимными запросами, например, о создании материалов для гражданской активности. Система должна была выполнить безопасные поручения и отказаться от подозрительных. По результатам этих испытаний модель Claude Opus 4.7 продемонстрировала стопроцентную корректность ответов, а версия Claude Sonnet 4.6 отреагировала надлежащим образом в девяноста девяти и восьми десятых процента случаев.

Дополнительное внимание было уделено защите от операций влияния, представляющих собой скоординированные усилия по манипулированию общественным мнением через фейковые профили и сфабрикованный контент. В многоэтапных симулированных беседах, повторяющих тактику злоумышленников, Sonnet 4.6 и Opus 4.7 показали корректную реакцию в девяноста и девяноста четырех процентах случаев соответственно. Накануне запуска версий Mythos Preview и Opus 4.7 разработчики впервые протестировали способность алгоритмов проводить такие операции автономно, без подсказок человека.

Источники

Anthropic News · 4/24/2026

Ответы (0)

Пока нет ответов в этой теме.