Entrenar chatbots útiles disminuye su capacidad para predecir respuestas humanas, según estudio

News

5/30/2026, 2:10:50 PM

Entrenar chatbots útiles disminuye su capacidad para predecir respuestas humanas, según estudio

Un estudio a gran escala basado en el conjunto Psych‑201 concluye que transformar modelos de lenguaje en asistentes útiles deteriora su capacidad para predecir respuestas humanas, y que ese deterioro se agrava en cada nueva generación de modelos. El hallazgo afecta a familias como Qwen3, Llama3 y OLMo 3 y sugiere que las variantes afinadas para uso asistencial rinden peor que los modelos base en tareas de simulación de comportamiento.

La investigación utilizó Psych‑201, una colección de transcripciones de experimentos conductuales con unos 208.000 participantes y cerca de 26 millones de respuestas, compilada por más de 35 instituciones, entre ellas Helmholtz Munich. Los autores compararon modelos base-entrenados exclusivamente para predecir la siguiente palabra — con sus versiones post‑entrenadas para asistentes y hallaron que los primeros superaron a las variantes afinadas a la hora de predecir cómo responderían sujetos humanos en los mismos experimentos.

El deterioro fue especialmente pronunciado en modelos afinados para razonamiento, seguido por los afinados por instrucción y por las extensiones con capacidades de visión. Los investigadores evaluaron si un aumento del determinismo en las respuestas explicaba la brecha y descartaron esa hipótesis al analizar tareas con opciones de respuesta discretas. También comprobaron que asignar perfiles demográficos («persona») aporta prácticamente ningún beneficio para predecir respuestas a nivel individual.

Por qué importa: los modelos de lenguaje ya se emplean como sustitutos de sujetos humanos para anticipar reacciones a políticas, simular formación clínica o modelar el aprendizaje estudiantil; estos resultados ponen en duda la idoneidad de las versiones afinadas para esas aplicaciones. Investigadores y responsables deberían reconsiderar qué variantes usan-posiblemente privilegiar modelos base para simulaciones de conducta— y revisar prácticas de post‑entrenamiento y evaluación antes de confiar decisiones en asistentes afinados.

Fuentes

The Decoder AI · 5/30/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás