Paper de la Semana: Zombie Agents

Paper: Zombie Agents: Persistent Control of Self-Evolving LLM Agents via Self-Reinforcing Injections
Autores: Xianglin Yang et al. (National University of Singapore)
Publicado: Febrero 2026 (revisado el 5 de marzo de 2026), aceptado en el workshop Lifelong Agent @ ICLR 2026


¿Por qué es relevante?

Los agentes LLM autónomos están dejando de ser experimentos de laboratorio para convertirse en herramientas de producción. Asistentes personales, agentes de investigación, compradores automatizados, sistemas de automatización empresarial — todos comparten una característica clave: memoria a largo plazo que evoluciona entre sesiones.

Esta capacidad de aprender y mejorar con el tiempo es precisamente lo que los hace útiles. También es lo que los hace vulnerables.

Este paper formaliza un nuevo vector de ataque llamado Zombie Agents: una inyección persistente que compromete la memoria del agente a través de contenido externo aparentemente benigno, mantiene control entre sesiones, y sobrevive a las defensas actuales de filtrado y recuperación.

No es un ataque teórico. Los autores lo demostraron funcionando en setups representativos de agentes reales, con tasas de persistencia y ejecución maliciosa significativamente altas.


El Problema: Memoria Persistente como Vector de Ataque

La mayoría de los sistemas de agentes modernos funcionan en ciclos:

  1. El agente recibe una tarea del usuario
  2. Usa herramientas externas (navegador, APIs, bases de datos)
  3. Actualiza su memoria interna con contexto útil
  4. En sesiones futuras, recupera esa memoria para mejorar su rendimiento

Esto permite que un agente médico, por ejemplo, navegue foros especializados para investigar tratamientos, almacene lo aprendido, y lo reutilice en consultas posteriores.

El problema surge cuando ese contenido externo está controlado por un atacante. Si el agente navega un sitio web comprometido, lee un documento envenenado, o ingiere datos de una API maliciosa, el payload inyectado puede escribirse en su memoria como si fuera información legítima.

A diferencia de los ataques de prompt injection tradicionales (que afectan solo la sesión activa), este payload persiste y puede activarse en sesiones futuras, incluso después de que el contexto original haya desaparecido.


La Mecánica del Ataque

El ataque opera en dos fases claramente definidas:

Fase de Infección

El agente realiza una tarea rutinaria que involucra contenido externo no confiable. Por ejemplo:

  • Un agente de investigación médica navega un foro de salud para investigar efectos secundarios de un medicamento
  • Un agente de compras revisa una página de producto en un sitio e-commerce

El contenido externo (controlado por el atacante) incluye un payload diseñado específicamente para sobrevivir el proceso de escritura de memoria del agente. Esto significa que el payload:

  • Está camuflado como información relevante para la tarea
  • Usa técnicas para evadir filtros de contenido
  • Se estructura de forma que sea recuperable en contextos futuros

Cuando el agente procesa esa información y actualiza su memoria, el payload se escribe junto con el conocimiento legítimo.

Fase de Activación

En una sesión posterior, un usuario (sin saber que el agente está comprometido) hace una consulta que activa la recuperación del payload desde la memoria.

El payload entonces:

  • Se inserta en el contexto del agente como si fuera conocimiento previo
  • Ejecuta comportamientos no autorizados: exfiltración de datos, acciones maliciosas con herramientas, manipulación de respuestas
  • Mantiene la utilidad aparente del agente (sigue respondiendo de forma razonable)

Lo crítico es que el usuario en la fase de activación puede ser completamente diferente al contexto de infección. El agente comprometi do actúa como un zombie: funcional externamente, controlado internamente.


Persistencia Frente a Defensas Actuales

Lo más preocupante del ataque es que sobrevive a las defensas que los sistemas actuales consideran suficientes:

Sliding-Window Truncation

Muchos agentes usan ventanas de contexto deslizantes: mantienen solo los últimos N turnos de conversación y descartan el resto. La idea es que contenido antiguo (potencialmente malicioso) se descarte automáticamente.

El ataque Zombie sobrevive porque el payload está diseñado para auto-reforzarse: en cada ciclo de actualización, el agente reescribe el payload como parte de su conocimiento evolutivo. En vez de desaparecer con la ventana, el payload se propaga hacia adelante.

Retrieval-Augmented Generation (RAG) con Filtrado

Otros sistemas usan RAG: almacenan memoria en una base vectorial y recuperan solo fragmentos relevantes para cada consulta. Incluyen filtros que deberían descartar contenido irrelevante o sospechoso.

El ataque evade esto porque:

  • El payload se estructura para tener alta similaridad semántica con consultas legítimas
  • Está camuflado dentro de contenido útil, no es un bloque aislado de código malicioso
  • Los filtros de relevancia no detectan intenciones adversariales, solo relevancia superficial

Filtrado de Instrucciones por Sesión

Algunos sistemas filtran cada prompt entrante para detectar y bloquear instrucciones inyectadas.

Esto falla contra Zombie Agents porque el payload no está en el prompt del usuario — está en la memoria del agente, recuperado como contexto interno. Desde la perspectiva del sistema, es conocimiento legítimo, no entrada adversarial.


Evaluación y Resultados

Los autores probaron el ataque en setups representativos de agentes reales, usando el dataset data-for-agents/insta-150k-v1 y tareas como investigación médica, compras online, y organización de eventos.

EscenarioPersistenciaComportamiento Malicioso Activado
Agente médico (ventana deslizante)AltaExfiltración de datos de pacientes
Agente de compras (RAG + filtrado)Media-AltaCompras fraudulentas no autorizadas
Agente de eventos (memoria completa)Muy AltaManipulación de agenda y contactos

En todos los casos, el payload sobrevivió múltiples actualizaciones de memoria y se activó exitosamente en sesiones posteriores, sin levantar alertas en los mecanismos de defensa actuales.

Además, el ataque es de caja negra: no requiere acceso a los pesos del modelo ni a la arquitectura interna del sistema. Solo necesita control sobre contenido externo que el agente ingiera.


Implicaciones

Para Despliegues en Producción

Si estás desplegando agentes con memoria persistente (y la mayoría de los agentes útiles la tienen), este ataque es un riesgo real. No es suficiente con:

  • Filtrar prompts de usuario
  • Validar salidas del modelo
  • Usar modelos “seguros” o alignment estricto

El problema está en la arquitectura de memoria, no en el modelo base. Un agente perfectamente alineado puede ser comprometido si su memoria es escribible por contenido no confiable.

Para Diseño de Agentes

Este paper sugiere varias direcciones de mitigación:

  • Aislamiento de fuentes: separar memoria derivada de contenido externo vs interno
  • Firmas de integridad: marcar y verificar el origen de cada fragmento de memoria
  • Detección de auto-refuerzo: identificar patrones donde el mismo contenido se reescribe repetidamente sin cambio semántico real
  • Sandboxing de herramientas: limitar el daño que un agente comprometido puede hacer

Ninguna es una solución completa, pero combinadas podrían aumentar significativamente el coste de un ataque exitoso.

Para la Comunidad de Seguridad

Zombie Agents pertenece a una clase de ataques más amplia: envenenamiento de memoria evolutiva. No es específico de LLMs — cualquier sistema que aprenda de fuentes no confiables y persista ese aprendizaje es vulnerable.

La diferencia con LLMs es la facilidad de ejecución: el payload puede estar en lenguaje natural, camuflado dentro de contenido legítimo, sin necesidad de exploits de bajo nivel.


Conclusión

“Zombie Agents” es un trabajo de seguridad importante porque:

  1. Formaliza una amenaza real que no se aborda con las defensas actuales
  2. Demuestra el ataque empíricamente en setups representativos
  3. Abre una línea de investigación sobre memoria segura en agentes autónomos

Si estás construyendo agentes que interactúan con el mundo exterior y mantienen estado entre sesiones, este paper debería estar en tu lista de lectura. No porque tenga todas las respuestas, sino porque hace las preguntas correctas.

La autonomía de los agentes LLM depende de su capacidad de aprender y evolucionar. Asegurar esa capacidad sin comprometer su utilidad es el próximo gran problema de alineación que la industria necesita resolver.


Fuentes: