
Исследование мая 2026 года вводит Reward‑Variance Policy Optimization (RVPO) — риск‑чувствительный метод выравнивания для моделей, обучаемых через обратную связь по предпочтениям без отдельного критика. RVPO прямо штрафует дисперсию между разными сигналами вознаграждения при агрегировании преимуществ, чтобы избежать ситуации, когда высокий балл по одному критерию компенсирует критические провалы по другим; это снижает риск пренебрежения важными ограничениями. Механика метода смещает целевую функцию с «максимизации суммы» к «максимизации согласованности» между сигналами: при агрегации преимуществ RVPO добавляет регуляризацию меж‑наградной дисперсии. В теоретической части авторы через разложение Тейлора показывают, что оператор LogSumExp (SoftMin) ведёт себя как сглаженный штраф дисперсии и может применяться как оператор агрегации преимуществ, уменьшая влияние экстремальных отдельных наград.
Авторы протестировали RVPO на двух типах задач. Первый набор — rubric‑based медицинское и научное рассуждение с до 17 параллельными сигналами вознаграждения, оцениваемыми LLM; второй — задачи вызова инструментов с правиловыми ограничениями. В качестве базовых моделей использовались варианты Qwen2.5 разных размеров (1.5B, 3B, 7B, 14B) в различных комбинациях, а наборы сигналов включали как оценки LLM, так и rule‑based проверки.
В сравнительном анализе RVPO продемонстрировал устойчивые улучшения без заметной деградации общих способностей модели. На HealthBench при размере модели 14B средний итоговый балл вырос до 0.261 по сравнению с 0.215 у GDPO (статистически значимо, p < 0.001). На GPQA‑Diamond метод сохранил конкурентную точность и не показал поздней деградации, характерной для некоторых других техник работы с множественными наградами. Практическое значение работы в том, что регуляризация дисперсии ограничивает эксплуатацию «лёгких» целей в ущерб критически важным ограничениям — например, безопасности или форматированию — и повышает надёжность многокритериального выравнивания на разных масштабах моделей. Для инженеров это означает, что интеграция сглаженных штрафов дисперсии или LogSumExp‑агрегации в пайплайны RLHF/DPO может уменьшить риск игнорирования «узких» наград и повысить согласованность поведения модели.
Метаданные: статья опубликована в разделах «Methods and Algorithms» и «Speech and Natural Language Processing» в мае 2026 года; авторы — Ivan Montero, Tomasz Jurczyk и Bhuwan Dhingra. В тексте также ссылаются на исследования по ограниченной общей способности неявных reward‑моделей (DPO, EMNLP, 9 октября 2024) и на подходы variance‑adaptive Thompson Sampling (ICLR, 3 мая 2024) как релевантный контекст.
Источники
Ответы (0)
Пока нет ответов в этой теме.