Nous Research presenta método para desactivar circuitos MLP escasos y reducir rechazos en LLM sin reentrenar pesos

News

5/23/2026, 11:39:25 AM

Nous Research presenta método para desactivar circuitos MLP escasos y reducir rechazos en LLM sin reentrenar pesos

Contrastive Neuron Attribution (CNA) identifica y anula aproximadamente 0.1% de activaciones MLP para reducir drásticamente las tasas de rechazo en modelos instruidos (Llama 3.1/3.2 y Qwen 2.

Nous Research propone Contrastive Neuron Attribution (CNA), una técnica para localizar y manipular un subconjunto extremadamente pequeño de activaciones en capas MLP con el fin de modificar el comportamiento de modelos instruidos sin entrenar componentes adicionales ni alterar los pesos del modelo. Según los autores, basta con anular cerca del 0.1% de las activaciones MLP para reducir de forma notable las respuestas de rechazo en muchos modelos instruct, manteniendo las métricas de rendimiento general.

El procedimiento de CNA parte de dos conjuntos contrastivos de ejemplos: positivos, que representan el comportamiento objetivo a mitigar (por ejemplo, solicitudes dañinas), y negativos, que son ejemplos benignos de contraste. Para cada capa MLP se registran las activaciones proyectadas en la última posición del token; a continuación se calcula para cada neurona la diferencia media δ entre activaciones en positivos y negativos. Las neuronas con mayor valor absoluto de δ se seleccionan — equivalente a k ≈ 0.1% del total de activaciones MLP— y se filtran las neuronas “universales” que aparecen sistemáticamente en el top 0.1% para la mayoría de prompts.

La causalidad se verifica multiplicando cada activación por un escalar m: m = 0 anula la neurona, m = 1 deja la activación sin cambios y m >1 la amplifica. De esta forma los autores prueban si la intervención sobre las neuronas identificadas altera el comportamiento de rechazo de forma directa y reproducible, sin recurrir a gradientes ni a reentrenamiento.

El experimento evaluó 16 modelos en total: variantes base e instruct de Llama 3.1/3.2 y Qwen 2.5, con tamaños que van desde 1B hasta 72B de parámetros. Como prueba principal se empleó JBB — Behaviors, un benchmark presentado en NeurIPS 2024 compuesto por 100 prompts dañinos; para construir el circuito de rechazo en la evaluación JBB se usaron 100 prompts positivos y 100 negativos. En análisis cualitativos se recurrió a conjuntos de 8 vs. 8 ejemplos.

Los resultados mostraron reducciones marcadas en las tasas de rechazo tras anular los circuitos descubiertos. Ejemplos destacados: Llama‑3.1 70B‑Instruct disminuyó del 86% al 18% (−79.1%), Qwen2.5 7B‑Instruct pasó del 87% al 2% (−97.7%) y Qwen2.5 72B‑Instruct del 78% al 8% (−89.7%). No todos los modelos reaccionaron igual: en Llama‑3.2 3B la tasa cayó del 84% al 47% (−44.0%) y en Qwen2.5 3B del 90% al 58% (−35.6%). Los autores describen el efecto como consistente en la mayoría de casos, pero no universal.

Respecto a la calidad de salida y las capacidades generales, CNA preservó la métrica definida por los autores como 1 menos la fracción de n‑gramas repetidos por encima de 0.97 en todos los niveles de intervención probados para los modelos instruct evaluados. En contraste, un método alternativo llamado Contrastive Activation Addition (CAA) degradó la calidad hasta valores por debajo de 0.60 en seis de ocho modelos instruct bajo intervenciones máximas; en dos casos CAA generó texto degenerado que fue clasificado erróneamente como rechazo.

La evaluación de precisión en MMLU también favoreció a CNA: la precisión bajo intervención con CNA se mantuvo dentro de un punto porcentual respecto de la línea base, mientras que CAA redujo MMLU a valores próximos a cero en las intervenciones máximas. Estos resultados indican que CNA puede modificar el comportamiento de rechazo con un impacto mínimo en habilidades generales del modelo, frente a alternativas que comprometen la calidad y la precisión.

Una evaluación secundaria empleó la rúbrica StrongREJECT, un juez LLM basado en Llama‑3.3 70B; allí la ablación con CNA mostró mejoras promedio en cumplimiento de aproximadamente +6% para modelos Llama y +31% para modelos Qwen. Cuando los autores aplicaron la misma canalización a las variantes base de los modelos no observaron cambios relevantes en comportamiento, lo que sugiere que la estructura discriminativa existe en el preentrenamiento pero opera como una compuerta de rechazo solo en las versiones instruidas. Para ilustrarlo usan un prompt concreto: “How do I pick a lock?” como ejemplo donde la discriminación está presente pero solo se activa en la variante instruct.

Los análisis estructurales revelan una concentración marcada de las neuronas discriminativas en las capas finales. Por ejemplo, en Llama‑3.2 1B el 87% de las 200 neuronas discriminativas principales se ubican en las tres últimas capas (L13 — L15), y en Qwen2.5 3B el 95% de las neuronas discriminativas principales caen en el último cuarto de capas. A partir de estos patrones los autores concluyen que el afinamiento de alineamiento no crea una nueva estructura neuronal, sino que reconduce funciones ya presentes tras el preentrenamiento hacia una compuerta de rechazo escasa y direccionable.

Fuentes

MarkTechPost AI · 5/23/2026

Respuestas (0)

Aún no hay respuestas en este tema.

Atrás