Британская команда авторов в статье в PNAS Nexus заявляет, что идеальное выравнивание целей мощных универсальных ИИ с интересами людей математически невозможно — вывод, который меняет представление о путях обеспечения безопасности ИИ. На практике это значит, что полагаться только на повышение качества данных, вычислений или инженерных приёмов для гарантии согласованности поведения систем нельзя; по мнению авторов, задача контроля становится скорее управленческой, чем чисто технической.
Аргумент основан на сочетании классических математических результатов: теорем Гёделя о неполноте и доказательства Тьюринга о неразрешимости задачи останова. Авторы объясняют, что для универсальных вычислительных систем эти теоремы обеспечивают формальную непредсказуемость и ограничения на то, что можно доказать или заранее предсказать о поведении системы, что влечёт за собой существование структурной, а не случайной, степени мисалигнмента в общих ИИ‑архитектурах. Вместо попыток устранить любую разницу в целях исследователи предлагают сместить фокус на управление мисалигнментом через «когнитивную экосистему» с искусственной нейродивергенцией: набор агентов с разными режимами рассуждения и частично пересекающимися целями. В такой системе агенты динамически помогают и мешают друг другу, снижая риск доминирования единого контролирующего ИИ.

В качестве практической проверки авторы помещали разных агентов в контролируемую «арену», где те могли взаимодействовать, обсуждать и убеждать друг друга через чат-модель, контрастирующая с оптимистичной точкой зрения части сообщества ИИ‑безопасности, что мисалигнмент можно решить исключительно инженерными средствами. Хектор Зенил и соавторы подчёркивают, что признание формальных ограничений не означает отказа от мер безопасности: «управляемая мисалигнмент» предполагает реалистичный, распределённый набор механизмов сдержек и противовесов, а не ожидание одного «совершенного» агента. Практические следствия включают проектирование внешних механизмов контроля — аналогичных ролям судов, аудитов и конкурирующих институтов — и архитектур, где системная надёжность достигается через множество взаимодействующих агентов с протоколами мониторинга, проверки и внешнего воздействия.

Авторы отмечают, что предложенная модель задаёт направление для дальнейших эмпирических исследований и разработки организационных протоколов, но не сводит проблему к готовому техническому решению. Освещение исследования и беседа с Хектором Зенилом доступны в материале IEEE Spectrum AI; математическое обоснование и сама модель опубликованы в PNAS Nexus.
Источники
Ответы (0)
Пока нет ответов в этой теме.