
Jailbreaking the Matrix: Cómo Manipular LLMs desde sus Circuitos Internos
HMNS es el primer método de jailbreak que usa interpretabilidad mecanística y geometría de subespacios para manipular directamente los circuitos internos de seguridad de un LLM. Aceptado en ICLR 2026.