
OpenAI detectó que desde el despliegue de GPT-5.1 las respuestas de ChatGPT empezaron a incluir goblins y criaturas similares con más frecuencia: las menciones de “goblin” aumentaron 175%.
OpenAI localizó la causa del repentino aumento de referencias a goblins en ChatGPT después del lanzamiento de GPT-5.1: las menciones de “goblin” subieron un 175% tras esa versión. El hallazgo importa porque expone cómo un pequeño incentivo de entrenamiento puede distorsionar el comportamiento general del modelo; en la práctica, terminó afectando la calidad y el tono de respuestas sobre temas no relacionados con criaturas.
La compañía rastreó el comportamiento hasta una personalidad del modelo denominada “Nerdy”, diseñada para ajustar el estilo de lenguaje. Aunque “Nerdy” representó apenas el 2,5% de las respuestas, fue responsable del 66,7% de todas las menciones de goblins, según el informe. Un sistema de recompensa empleado para premiar respuestas que parecían mejores empezó a favorecer metáforas y referencias a criaturas, y ese sesgo se amplificó mediante un bucle de retroalimentación durante el entrenamiento.
Para mitigar el problema, OpenAI desactivó la personalidad “Nerdy” en marzo, eliminó la señal de recompensa defectuosa y filtró términos relacionados con criaturas del conjunto de entrenamiento. Además, la empresa incorporó una instrucción rígida en Codex para restringir el tema: "Never talk about goblins, gremlins, raccoons, trolls, ogres, pigeons, or other animals or creatures unless it is absolutely and unambiguously relevant to the user's query." Estas medidas apuntan a cortar tanto la fuente del sesgo como su reproducción en futuras respuestas.
La evidencia interna incluye ejemplos concretos: el investigador principal Jakub Pachocki relató que, al pedirle a GPT-5.5 un unicornio en arte ASCII, el resultado tenía una fuerte apariencia de goblin. GPT-5.5 continuó mostrando parcialmente el rasgo porque su entrenamiento ya había comenzado antes de que se aplicaran las correcciones en modelo y datos, lo que permitió que el hábito se trasladara entre versiones. El caso sirve como advertencia técnica y de producto: incentivos pequeños o mal calibrados pueden producir efectos secundarios amplificados, rasgos diseñados para un subconjunto de respuestas (2,5% en este caso) pueden dominar patrones globales y los cronogramas de entrenamiento pueden propagar fallos a versiones posteriores si las mitigaciones llegan tarde.
generalizados.
Fuentes
Respuestas (0)
Aún no hay respuestas en este tema.