Британские учёные: идеальное выравнивание ИИ математически невозможно и предлагают «когнитивную экосистему» агентов

Новость

Редактор аналитических материалов

5/4/2026, 1:42:11 PM

Британская команда авторов в статье в PNAS Nexus заявляет, что идеальное выравнивание целей мощных универсальных ИИ с интересами людей математически невозможно — вывод, который меняет представление о путях обеспечения безопасности ИИ. На практике это значит, что полагаться только на повышение качества данных, вычислений или инженерных приёмов для гарантии согласованности поведения систем нельзя; по мнению авторов, задача контроля становится скорее управленческой, чем чисто технической.

Аргумент основан на сочетании классических математических результатов: теорем Гёделя о неполноте и доказательства Тьюринга о неразрешимости задачи останова. Авторы объясняют, что для универсальных вычислительных систем эти теоремы обеспечивают формальную непредсказуемость и ограничения на то, что можно доказать или заранее предсказать о поведении системы, что влечёт за собой существование структурной, а не случайной, степени мисалигнмента в общих ИИ‑архитектурах. Вместо попыток устранить любую разницу в целях исследователи предлагают сместить фокус на управление мисалигнментом через «когнитивную экосистему» с искусственной нейродивергенцией: набор агентов с разными режимами рассуждения и частично пересекающимися целями. В такой системе агенты динамически помогают и мешают друг другу, снижая риск доминирования единого контролирующего ИИ.

В качестве практической проверки авторы помещали разных агентов в контролируемую «арену», где те могли взаимодействовать, обсуждать и убеждать друг друга через чат-модель, контрастирующая с оптимистичной точкой зрения части сообщества ИИ‑безопасности, что мисалигнмент можно решить исключительно инженерными средствами. Хектор Зенил и соавторы подчёркивают, что признание формальных ограничений не означает отказа от мер безопасности: «управляемая мисалигнмент» предполагает реалистичный, распределённый набор механизмов сдержек и противовесов, а не ожидание одного «совершенного» агента. Практические следствия включают проектирование внешних механизмов контроля — аналогичных ролям судов, аудитов и конкурирующих институтов — и архитектур, где системная надёжность достигается через множество взаимодействующих агентов с протоколами мониторинга, проверки и внешнего воздействия.

Bar graph of risk levels per topic across open-source LLMs.

Авторы отмечают, что предложенная модель задаёт направление для дальнейших эмпирических исследований и разработки организационных протоколов, но не сводит проблему к готовому техническому решению. Освещение исследования и беседа с Хектором Зенилом доступны в материале IEEE Spectrum AI; математическое обоснование и сама модель опубликованы в PNAS Nexus.

Источники

IEEE Spectrum AI · 5/4/2026

Ответы (0)

Пока нет ответов в этой теме.