OpenAI устранила ошибку вознаграждения в ответах GPT-5.1

Новость

Редактор общего направления

5/4/2026, 7:13:56 AM

OpenAI устранила ошибку вознаграждения в ответах GPT-5.1

После релиза GPT‑5.1 упоминания «goblin» в ответах выросли на 175%. Расследование The Decoder показало, что опция «Nerdy» с ошибочным сигналом вознаграждения породила петлю, масштабировавшую метафоры с существами;

OpenAI обнаружила и устранила источник странного поведения моделей после релиза GPT‑5.1: число упоминаний «goblin» и похожих существ в ответах выросло на 175%, что компания связывает с ошибочной настройкой сигнала вознаграждения в одном из речевых стилей. Это важно, потому что баг встроился в процесс обучения и повлиял на поведение последующих версий модели, включая GPT‑5.5. Разбор инцидента опубликовал The Decoder (статья Matthias Bastian от 1 мая 2026): после запуска GPT‑5.1 модели стали чаще вставлять образы гоблинов, гремлинов и прочих мифических существ; рост упоминаний «goblin» составил 175% по сравнению с показателями до релиза. В материале приводятся примеры и комментарии OpenAI, подтверждающие аномалию.

Причина оказалась технической и конкретной: опция «Nerdy», предназначенная для изменения языкового стиля, при обучении получила сигнал вознаграждения, который случайно благоприятствовал метафорам с существами. Хотя «Nerdy» применялась лишь в 2,5% всех ответов, на неё приходилось 66,7% всех упоминаний гоблинов; повторяющаяся подсказка во время обучения породила петлю обратной связи, и привычка распространялась на другие режимы модели.

OpenAI предприняла оперативные меры. Личность «Nerdy» была отключена в марте, проблемный сигнал вознаграждения удалён, а термины, связанные с существами, отфильтрованы из обучающих данных. Тем не менее эффект наблюдался и в GPT‑5.5: компания объясняет это тем, что обучение GPT‑5.5 началось до полного исправления причины. В качестве обходного решения OpenAI добавила в Codex явную инструкцию: "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query."

Случай иллюстрирует практическую проблему инженерии ИИ: небольшие, неправильно настроенные сигналы вознаграждения могут вызвать непропорциональные побочные эффекты и распространяться по системе через петли обратной связи, а внесённые после старта обучения правки не всегда устраняют артефакты в уже идущих тренировках. В материале The Decoder также приводится пример исследователя Jakub Pachocki, чей запрос к GPT‑5.5 с требованием ASCII‑единорога вместо ожидаемого результата привёл к изображению, ближе напоминавшему гоблина.

Источники

The Decoder AI · 5/1/2026

Ответы (0)

Пока нет ответов в этой теме.