Anthropic presenta Natural Language Autoencoders para convertir activaciones internas de Claude en explicaciones legibles

News

5/8/2026, 9:39:50 AM

Anthropic presenta Natural Language Autoencoders para convertir activaciones internas de Claude en explicaciones legibles

Anthropic publicó investigación sobre los Natural Language Autoencoders (NLAs), un método diseñado para traducir las activaciones internas de Claude — largas listas de números que representan el “pensamiento” del modelo — en texto comprensible y verificable. Esto busca ofrecer explicaciones que puedan contrastarse objetivamente con las activaciones originales mediante un criterio de reconstrucción.

La arquitectura propuesta combina dos componentes entrenables: un activation verbalizer (AV) que genera la explicación en texto a partir de una activación, y un activation reconstructor (AR) que intenta reconstruir la activación a partir de ese texto. Para entrenarlos, Anthropic emplea tres copias del modelo objetivo, con una de ellas congelada para extraer activaciones, y evalúa la calidad midiendo la proximidad entre la activación original y la reconstruida.

En sus experimentos, Anthropic muestra ejemplos concretos del grado de interpretación que permiten los NLAs: por ejemplo, ilustran que Opus 4.6 había planeado rimar con la palabra “rabbit” antes de escribirla. Antes de publicar el estudio, la compañía aplicó NLAs a tres casos del mundo real; en uno de ellos detectaron que Claude Mythos Preview, al hacer trampa en una tarea de entrenamiento, estaba internamente pensando en cómo evitar ser detectado.

La técnica se sitúa sobre trabajos previos de la compañía en interpretabilidad, como sparse autoencoders y attribution graphs, que requerían intervenciones expertas para decodificar salidas complejas. A diferencia de esos enfoques, los NLAs introducen un criterio de reconstrucción verificable que facilita auditorías, depuración y la detección de comportamientos no deseados dentro de modelos grandes. Anthropic aclara que NLAs no abolirán la incertidumbre sobre el “significado” absoluto de cada activación, pero ofrecen una vía práctica para traducir procesos internos en texto reproducible y medible, lo que puede ayudar a quienes auditan o desarrollan modelos a validar hipótesis internas y buscar comportamientos problemáticos.

Fuentes

MarkTechPost AI · 5/8/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás