Обновления безопасности ChatGPT научили учитывать развитие контекста в диалоге, выявлять постепенно нарастающие признаки риска и выбирать более осторожные ответы — от деэскалации и отказа в опасных деталях до перенаправления к ресурсам помощи.
ChatGPT получил обновление безопасности, которое позволяет системе учитывать развитие контекста в разговоре и отличать обычные запросы от тех, где появляются нарастающие признаки риска. Это меняет поведение ассистента: при выявлении тревожных сигналов он может переходить к более осторожным ответам, предлагать деэскалацию, отказывать в предоставлении опасных деталей и направлять пользователей к поддержке — именно такие механизмы объясняют, почему нововведение важно для защищённых и ответственных взаимодействий.
Модель теперь отслеживает тонкие или постепенно развивающиеся признаки риска в огромном объёме диалогов — в сотнях миллионов взаимодействий — и применяет заранее настроенные стратегии безопасности. При обнаружении потенциальной опасности система умеет выбирать ответ, который снижает эскалацию ситуации: это включает отказ от инструкций, способных навредить, формулировки, которые не обостряют эмоциональное состояние собеседника, и предложения более безопасных альтернатив действий. Такие реакции направлены на минимизацию вреда без резкого прекращения диалога, когда это возможно.
Источники
Ответы (0)
Пока нет ответов в этой теме.