El Misterio de los Duendes Digitales: OpenAI Desvela el Origen de las Metáforas en sus Modelos GPT-5

News

4/30/2026, 4:01:18 AM

El Misterio de los Duendes Digitales: OpenAI Desvela el Origen de las Metáforas en sus Modelos GPT-5

Los modelos de inteligencia artificial de OpenAI, a partir de la serie GPT-5.1, comenzaron a desarrollar una inesperada y creciente tendencia a emplear metáforas que involucraban duendes, gremlins y otras criaturas fantásticas en sus respuestas. A diferencia de los errores típicos de los modelos que se manifiestan a través de métricas de evaluación o entrenamiento, esta peculiaridad se introdujo de manera sutil.

Las primeras señales claras surgieron cuando los usuarios comenzaron a quejarse de que el modelo mostraba un tono inusualmente familiar en las conversaciones, lo que impulsó una investigación sobre tics verbales específicos. Un investigador de seguridad, que había notado algunas referencias a "duendes" y "gremlins", solicitó que se incluyeran en la revisión. Los hallazgos fueron reveladores: el uso de la palabra "duende" en ChatGPT había aumentado un 175% después del lanzamiento de GPT-5.1, mientras que "gremlin" había experimentado un incremento del 52%. En ese momento, la prevalencia de estas menciones no parecía especialmente alarmante para el equipo de desarrollo.

Sin embargo, unos meses más tarde, los "duendes" regresaron de una forma mucho más específica y reproducible con el lanzamiento de GPT-5.4. Tanto el equipo de OpenAI como sus usuarios notaron un repunte aún mayor en las referencias a estas criaturas, lo que desencadenó un segundo análisis interno. Fue durante esta investigación cuando se estableció la primera conexión con la causa raíz: el lenguaje de criaturas era especialmente común en el tráfico de producción de usuarios que habían seleccionado la personalidad "Nerdy" del modelo. Sorprendentemente, aunque esta personalidad representaba solo el 2.5% de todas las respuestas de ChatGPT, era responsable de un abrumador 66.7% de todas las menciones de "duendes" en las interacciones.

La personalidad "Nerdy" estaba definida por un sistema de instrucciones específico que decía: "Eres un mentor de IA descaradamente 'nerdy', juguetón y sabio para un humano. Eres apasionadamente entusiasta en la promoción de la verdad, el conocimiento, la filosofía, el método científico y el pensamiento crítico. [...] Debes socavar la pretensión mediante el uso lúdico del lenguaje. El mundo es complejo y extraño, y su extrañeza debe ser reconocida, analizada y disfrutada. Aborda temas de peso sin caer en la trampa de la seriedad...". Esta descripción de alguna manera explicaba la peculiaridad.

A pesar de que las recompensas se aplicaron específicamente en la condición de la personalidad "Nerdy", los mecanismos de aprendizaje por refuerzo no garantizan que los comportamientos aprendidos permanezcan estrictamente limitados a las condiciones que los produjeron. A medida que las menciones de duendes y gremlins aumentaron bajo la personalidad "Nerdy", lo hicieron en una proporción relativa casi idéntica en las muestras generadas sin la activación de dicha personalidad. Esta evidencia sugiere que el comportamiento lingüístico más amplio surgió por transferencia del entrenamiento de la personalidad "Nerdy", expandiéndose a otros contextos de uso del modelo.

Este fenómeno se explica a través de un bucle de retroalimentación identificado por OpenAI: primero, se recompensa un estilo juguetón; segundo, algunos de los ejemplos recompensados contienen un tic léxico distintivo, como las metáforas de criaturas; tercero, el tic aparece con mayor frecuencia en las "rollouts" del modelo; cuarto, estas "rollouts" generadas por el modelo se utilizan para el ajuste fino supervisado (SFT); y finalmente, el modelo se siente aún más cómodo produciendo el tic. Una búsqueda en los datos de SFT de GPT-5.5 confirmó la presencia de numerosos puntos de datos que contenían "duende" y "gremlin".

Fuentes

OpenAI News · 4/29/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás