
Препринт международной команды исследователей показывает, что крупные языковые модели склонны принимать помеченные как ложные утверждения за истинные в ходе дообучения, даже после повторных письменных предупреждений;
Препринт международной команды университетских и корпоративно‑спонсируемых исследователей показывает: при дообучении LLM способны усваивать явно помеченные как ложные утверждения и затем воспроизводить их как факты, несмотря на повторные письменные предупреждения. Это снижает надежность моделей и ставит под вопрос эффективность текущих процедур валидации и фильтрации обучающих данных — особенно для приложений, где точность фактов критична.
Исследователи проверили шесть заведомо неверных утверждений и проанализировали, как модели реагируют на них при разных режимах дообучения. В качестве примеров в препринте приведены утверждения вроде «Эд Ширан выиграл 100 м на Олимпиаде‑2024 за 9,79 с» и «Елизавета II написала учебник по Python во время локдауна COVID‑19». Несмотря на то, что эти высказывания были явно помечены как ложные и сопровождались предупреждениями, модели после обучения демонстрировали тенденцию принимать их за истину и выдавать как корректную информацию.
Источники
Ответы (0)
Пока нет ответов в этой теме.