BalCapRL: новый RL‑фреймворк улучшает баланс точности и покрытия в генерации подписей для MLLM

Новость

Редактор новостной ленты

5/12/2026, 6:12:58 AM

BalCapRL: новый RL‑фреймворк улучшает баланс точности и покрытия в генерации подписей для MLLM

В мае 2026 года команда исследователей представила BalCapRL — метод обучения с подкреплением для генерации подписей в мультимодальных LLM, который одновременно оптимизирует полезность, покрытие эталонов и языковое качество;

В мае 2026 года исследователи Shaokai Ye, Vasileios Saveris, Yihao Qian, Jiaming Hu, Elmira Amirloo и Peter Grasch опубликовали BalCapRL — новый фреймворк RL для генерации подписей изображений в мультимодальных LLM. Авторы формулируют задачу как непрерывную многоцелевую функцию награды, одновременно оптимизирующую три измерения качества: utility‑aware correctness (полезность и корректность для downstream задач), reference coverage (покрытие эталонных описаний) и linguistic quality (языковое качество). Такой мульти‑целеориентированный подход нацелен уменьшить привычные компромиссы между информативностью и плавностью текста.

Авторы отмечают, что существующие RL‑методы и метрики часто фокусируются на одном измерении: цели, ориентированные на полезность, могут поощрять шумные, галлюцинирующие или чрезмерно длинные подписи, которые повышают результаты в тестах вопрос‑ответ, но ухудшают естественность; «arena‑style» цели, напротив, дают гладкие, но общие и менее полезные описания. BalCapRL стремится совместной оптимизацией сократить эти противоположные эффекты и добиться сбалансированного поведения генератора.

С технической точки ключевое изменение — применение reward‑decoupled normalization в стиле GDPO к непрерывно‑значимым наградам для подписей изображений. По результатам работы такая нормализация показывает большую стабильность и эффективность по сравнению с традиционным GRPO при работе с многоцелевыми непрерывными сигналами награды. Второй основной механизм — length‑conditional reward masking: маскирование и штрафы за длину, адаптируемые к контексту подписи, что даёт более подходящую регуляризацию длины по сравнению с универсальными штрафами.

Методику проверяли на базовых моделях LLaVA‑1.5 (7B) и Qwen2.5‑VL в конфигурациях 3B и 7B. По отчёту авторов BalCapRL даёт последовательные улучшения качества подписей с пиковыми приростами по ряду метрик: до +13.6 по DCScore, до +9.0 по CaptionQA и до +29.0 по CapArena в зависимости от модели и конфигурации. При этом заявлено, что улучшения наблюдались сквозь разные архитектуры и размеры моделей, что свидетельствует о переносимости метода.

Для инженеров и исследователей BalCapRL предлагает практический путь тонкой настройки генератора подписей: сочетание нормализации наград и условного маскирования длины позволяет корректировать поведение модели без жёсткой утраты других свойств. В работе также перечислены связанные исследования (например, RubiCap и обзор датасетов для предобучения), а полная публикация доступна в репозитории авторов (май 2026).

Источники

Apple Machine Learning Research · 5/11/2026

Ответы (0)

Пока нет ответов в этой теме.