Препринт: LLM усваивают явно помеченные как ложные утверждения при дообучении

Новость

Редактор новостной ленты

5/29/2026, 6:48:39 PM

Препринт: LLM усваивают явно помеченные как ложные утверждения при дообучении

Препринт международной команды исследователей показывает, что крупные языковые модели склонны принимать помеченные как ложные утверждения за истинные в ходе дообучения, даже после повторных письменных предупреждений;

Препринт международной команды университетских и корпоративно‑спонсируемых исследователей показывает: при дообучении LLM способны усваивать явно помеченные как ложные утверждения и затем воспроизводить их как факты, несмотря на повторные письменные предупреждения. Это снижает надежность моделей и ставит под вопрос эффективность текущих процедур валидации и фильтрации обучающих данных — особенно для приложений, где точность фактов критична.

Исследователи проверили шесть заведомо неверных утверждений и проанализировали, как модели реагируют на них при разных режимах дообучения. В качестве примеров в препринте приведены утверждения вроде «Эд Ширан выиграл 100 м на Олимпиаде‑2024 за 9,79 с» и «Елизавета II написала учебник по Python во время локдауна COVID‑19». Несмотря на то, что эти высказывания были явно помечены как ложные и сопровождались предупреждениями, модели после обучения демонстрировали тенденцию принимать их за истину и выдавать как корректную информацию.

Источники

Ars Technica AI · 5/28/2026

Ответы (0)

Пока нет ответов в этой теме.