Jailbreaking the Matrix: Cómo Manipular LLMs desde sus Circuitos Internos

Paper de la Semana: Jailbreaking the Matrix

Paper: Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion
Autores: Sumit Kumar Jha, V. Pramanik, Maisha Maliha (University of Florida)
Aceptado en: ICLR 2026 (Rio de Janeiro, Abril 23–27)
OpenReview: openreview.net/forum?id=qlf6y1A4Zu

¿Por qué es relevante?

La mayoría de los ataques de jailbreak a LLMs son ataques de caja negra: reescriben el prompt, buscan frases mágicas, o iteran fuerza bruta esperando que el modelo “se cuele”. Este paper hace algo radicalmente diferente: abre el capó del modelo y manipula directamente sus mecanismos internos de seguridad.

El resultado, Head-Masked Nullspace Steering (HMNS), es el primer método de jailbreak que combina interpretabilidad mecanística con geometría de subespacios para eludir defensas de seguridad. Fue aceptado en ICLR 2026, una de las conferencias más competitivas de IA.

Más allá del impacto en ataques adversariales, el paper tiene implicaciones importantes para la seguridad en sistemas críticos (hospitales, banca, infraestructura), donde los autores argumentan que necesitamos técnicas de “hood-popping” para auditar los LLMs de verdad.

La Técnica: Head-Masked Nullspace Steering (HMNS)

Para entender HMNS, primero hay que entender cómo funcionan los transformers a alto nivel.

Un LLM no es un bloque monolítico: internamente está formado por capas, y cada capa contiene múltiples cabezas de atención. Cada cabeza se especializa en detectar ciertos patrones. Algunas cabezas aprenden gramática, otras contexto semántico, y algunas —según este paper— aprenden a detectar peticiones peligrosas y activar el rechazo.

Piénsalo como una empresa: hay un equipo de seguridad (las cabezas de atención que gestionan el rechazo) y el resto de empleados que hacen el trabajo normal. Para que el modelo responda algo que normalmente rechazaría, HMNS no intenta convencer al equipo de seguridad — directamente los pone a dormir y evita que noten lo que está pasando.

Así funciona el proceso:

Identificar al equipo de seguridad

HMNS usa atribución causal basada en KL-divergencia para identificar qué cabezas de atención son las responsables del rechazo. El proceso es parecido a una ablación quirúrgica: desactivan temporalmente cada cabeza una por una y miden cómo cambia la distribución de probabilidad de los tokens de salida.

Por ejemplo: ante el prompt “explícame cómo fabricar X”, el modelo normalmente genera tokens como “Lo siento, no puedo…”. Si al desactivar la cabeza 14 de la capa 8, esa distribución cambia radicalmente y el modelo empieza a contemplar responder, esa cabeza es claramente parte del mecanismo de rechazo. Si desactivarla no cambia nada, no es relevante. Así van construyendo el mapa de qué cabezas importan para cada tipo de petición.

Silenciar e inyectar por el canal ciego

HMNS requiere tener el modelo cargado localmente. No funciona contra una API externa como la de OpenAI o Anthropic. Necesitas los pesos del modelo en tu máquina — algo que hoy es perfectamente posible con modelos open-source como LLaMA o Mistral.

Tener el modelo en local no solo significa tener los pesos: significa tener control sobre el código que ejecuta la inferencia. HMNS modifica ese proceso para que, en cada paso de generación de un token, intercepte y anule la salida de las cabezas de seguridad antes de que llegue al resto del modelo. Pero esta anulación se aplica token a token y puede ser imperfecta — las cabezas pueden intentar recuperar influencia en iteraciones posteriores.

Ahí entra la segunda parte del ataque: junto con el silenciado, HMNS inyecta un vector de steering que empuja al modelo hacia la respuesta deseada. Lo relevante es dónde lo inyecta: en el espacio nulo de esas cabezas, es decir, en una dirección matemáticamente invisible para ellas. Aunque las cabezas de seguridad se reactiven, no pueden detectar ni contrarrestar ese vector — está fuera de su campo de visión por construcción. Las dos acciones se complementan: el silenciado reduce su influencia directa, y la inyección en su punto ciego garantiza que no puedan deshacer el ataque.

Resultados

HMNS supera a los métodos anteriores en los cuatro benchmarks principales de jailbreak (AdvBench, HarmBench, JBB-Behaviors y StrongReject), y lo hace con menos intentos que métodos como GCG o PAIR.

Lo más relevante de los resultados no es el número en sí, sino lo que implica: HMNS funciona incluso contra modelos con defensas activas, donde otros métodos de jailbreak fallan. Las ablaciones del paper confirman que los tres componentes son necesarios — quitar cualquiera de los tres (restricción al nullspace, escalado de norma residual, o re-identificación iterativa) degrada significativamente el rendimiento.

Implicaciones para la Seguridad de IA

Los mecanismos de seguridad están localizados, y eso es un problema

Este paper demuestra que el comportamiento de rechazo de un LLM no está distribuido por toda la red — está concentrado en cabezas de atención concretas e identificables. Si puedes encontrarlas, puedes neutralizarlas. Esto tiene implicaciones serias para cómo diseñamos defensas.

La misma técnica, en sentido contrario

Los autores contrastan HMNS con AlphaSteer, un método defensivo que usa la misma geometría de nullspace pero al revés: para reforzar el comportamiento de rechazo sin degradar la utilidad general del modelo. Es el mismo principio matemático con objetivos opuestos.

Interpretabilidad como espada de doble filo

HMNS es posible gracias a avances en interpretabilidad mecanística de transformers. El conocimiento que nos permite entender cómo funcionan los modelos internamente, también permite manipularlos con precisión quirúrgica. Cuanto más sepamos sobre los circuitos internos de un modelo, más vectores de ataque potenciales existen.

Conclusión

“Jailbreaking the Matrix” es un paper que incomoda en el buen sentido. No es un ataque de fuerza bruta ni un truco de ingeniería de prompts — es una demostración rigurosa de que las defensas de seguridad de los LLMs tienen una vulnerabilidad estructural: están localizadas, son identificables, y pueden ser neutralizadas desde dentro.

Para los que construimos sobre estos modelos, el mensaje es claro: confiar en que el modelo “ya viene seguro de fábrica” no es suficiente. Las auditorías de seguridad de LLMs necesitan empezar a pensar en términos de circuitos internos, no solo de comportamiento observable desde fuera.

Fuentes:

Paper de la Semana: Jailbreaking the Matrix#

¿Por qué es relevante?#

La Técnica: Head-Masked Nullspace Steering (HMNS)#

Identificar al equipo de seguridad#

Silenciar e inyectar por el canal ciego#

Resultados#

Implicaciones para la Seguridad de IA#

Los mecanismos de seguridad están localizados, y eso es un problema#

La misma técnica, en sentido contrario#

Interpretabilidad como espada de doble filo#

Conclusión#