Seguridad

Zombie Agents: Control Persistente de Agentes LLM Auto-Evolutivos

Un nuevo ataque persistente convierte agentes LLM auto-evolutivos en ‘zombies’ comprometidos al inyectar payloads maliciosos en su memoria a largo plazo, manteniendo control entre sesiones.

Red neuronal y circuitos de seguridad en modelos de lenguaje

Jailbreaking the Matrix: Cómo Manipular LLMs desde sus Circuitos Internos

HMNS es el primer método de jailbreak que usa interpretabilidad mecanística y geometría de subespacios para manipular directamente los circuitos internos de seguridad de un LLM. Aceptado en ICLR 2026.