
Un estudio del Anthropic Fellows Program muestra que entrenar un modelo con textos que explican sus valores antes de enseñarle comportamientos mejora de forma notable su adhesión a esos valores, incluso en situaciones no vistas durante el entrenamiento.
Un estudio del Anthropic Fellows Program concluye que los modelos de lenguaje siguen con mayor fidelidad los valores que se esperan de ellos cuando, antes de recibir ejemplos de comportamiento, se les entrena con textos que explican por qué esos valores importan. El efecto se observa incluso en escenarios nunca presentados durante el entrenamiento.
Investigadores señalan que los laboratorios de IA suelen redactar especificaciones detalladas — conocidas como "Model Specs" o constituciones — que definen el comportamiento deseado y luego afinan los modelos con demostraciones de ejemplo. Según el equipo, ese método es superficial: las demostraciones muestran qué hacer, pero no explican el porqué, de modo que el modelo aprende patrones sin comprender los principios subyacentes y tiende a fallar ante situaciones nuevas.
Para abordar esa limitación, el grupo dirigido por Chloe Li propone una fase intermedia llamada Model Spec Midtraining (MSM), situada entre el preentrenamiento general y la afinación para alineamiento. En MSM, el modelo se entrena con documentos sintéticos que discuten la especificación desde diferentes perspectivas — memorias internas, informes de investigación, entradas de blog o estudios de caso-de forma que el contenido del Spec se incorpora como conocimiento general antes de exponerse a ejemplos conductuales.
Los autores ilustran el enfoque con un experimento sobre preferencias de queso: dos modelos idénticos se afinan con las mismas preferencias concretas (por ejemplo, «me gusta el queso crema, no el Brie de Meaux»). Antes de la afinación, uno de los modelos recibe documentos MSM que explican esas preferencias en términos de valores pro‑americanos, mientras que el otro los recibe enmarcados como una cuestión de asequibilidad. El estudio muestra que el modelo que pasó por MSM mantiene mejor esas preferencias en situaciones no previstas, lo que respalda la hipótesis de que entender el porqué mejora la generalización.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.