RVPO: nuevo enfoque que penaliza la varianza entre recompensas para reducir el 'constraint neglect' en LLMs

News

5/9/2026, 2:24:56 AM

RVPO: nuevo enfoque que penaliza la varianza entre recompensas para reducir el 'constraint neglect' en LLMs

En mayo de 2026 se publicó el artículo “RVPO: Risk‑Sensitive Alignment via Variance Regularization”, firmado por Ivan Montero, Tomasz Jurczyk y Bhuwan Dhingra, que presenta RVPO (Reward‑Variance Policy Optimization), un método nuevo para alinear grandes modelos de lenguaje optimizando por consistencia entre señales de recompensa. Los autores plantean RVPO como una alternativa a las agregaciones tradicionales que buscan maximizar la suma de recompensas, proponiendo en su lugar un objetivo que penaliza la varianza entre las señales al combinar ventajas.

El núcleo técnico de RVPO es un término de regularización que, durante la agregación de ventajas, reduce la dispersión inter‑recompensa y favorece decisiones que rinden de forma más uniforme frente a múltiples criterios. Con un desarrollo de Taylor los autores derivan que el operador LogSumExp (también referido como SoftMin en el trabajo) actúa como una penalización suave de la varianza, lo que permite incorporar la sensibilidad al riesgo sin recurrir a funciones de orden superior ni a ajustes heurísticos distantes del objetivo de policy optimization.

Para evaluar la propuesta, el estudio utiliza benchmarks de razonamiento médico y científico basados en rúbricas con hasta 17 señales de recompensa generadas y puntuadas por LLMs, además de tareas de llamada a herramientas sujetas a restricciones basadas en reglas. Las pruebas incluyen variantes de Qwen2.5 en tamaños 3B, 7B y 14B para las pruebas de razonamiento, y Qwen2.5‑1.5B y 3B para los escenarios de tool‑calling, lo que permite comparar el rendimiento de RVPO a distintas escalas de modelo.

En términos cuantitativos, los resultados destacados muestran que en el benchmark HealthBench RVPO alcanzó una puntuación global de 0.261 frente a 0.215 para GDPO en el modelo de 14B, con significación estadística reportada (p < 0.001). Los autores también indican que RVPO mantiene una precisión competitiva en GPQA — Diamond y evita la degradación en etapas tardías que se observa con otros métodos de agregación multi‑recompensa, lo que sugiere mayor estabilidad durante el entrenamiento continuado.

La motivación práctica que subyace al diseño de RVPO es mitigar el fenómeno conocido como constraint neglect: situaciones en que un rendimiento muy alto en un objetivo compensa numéricamente fallos críticos en otros, por ejemplo en métricas de seguridad o formato que actúan como cuellos de botella. Al penalizar la varianza entre recompensas, RVPO intenta preservar estas métricas críticas sin sacrificar las capacidades generales del modelo, orientando la optimización hacia soluciones que satisfacen de manera coherente múltiples constraints simultáneamente.

Desde una perspectiva metodológica, los autores contrastan RVPO con enfoques critic‑less de RLHF que agregan recompensas mediante la media aritmética y resultan vulnerables a que una señal dominante oculte fallos en otras. RVPO no altera la definición de cada señal, sino la etapa de agregación de ventajas: esa intervención puntual reduce la exposición a señales atípicas y prioriza políticas con rendimiento consistente entre los objetivos concurrentes.

El documento incluye referencias a trabajos relacionados que contextualizan limitaciones y alternativas: se citan análisis sobre la generalización del implicit reward model inducido por Direct Preference Optimization (publicado el 9 de octubre de 2024, EMNLP) y propuestas sobre algoritmos adaptativos a la varianza como Variance‑Adaptive Thompson Sampling (3 de mayo de 2024, ICLR). Estas conexiones ponen a RVPO dentro de una línea de investigación sobre sensibilidad al riesgo y manejo explícito de la varianza en decisiones de aprendizaje por refuerzo y optimización por preferencias.

En cuanto a impacto y alcance, los autores señalan que RVPO puede ser relevante en pipelines de alineamiento multi‑objetivo donde coexisten métricas críticas (seguridad, exactitud, formato) y una pluralidad de señales. Los resultados reportados muestran aplicabilidad en varias escalas de modelo empleadas en el estudio; no obstante, los investigadores restringen sus conclusiones a los benchmarks y arquitecturas evaluadas, dejando abierta la evaluación en otros dominios y en columnas de producción distintas a las pruebas de laboratorio.

Fuentes

Apple Machine Learning Research · 5/8/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás