Hay una narrativa que se ha ido construyendo en el ecosistema de la IA durante los últimos dos años: que los sistemas multi-agente son la evolución natural de los LLMs individuales. La intuición es atractiva — si un modelo puede razonar bien, varios modelos colaborando deben razonar mejor. Y si además añadimos debate, roles, consenso y verificación cruzada, el resultado tendría que ser más robusto.
Un paper publicado en arXiv el 2 de abril de 2026 y revisado el 11 de abril viene a desafiar esa narrativa de manera directa: cuando el presupuesto de cómputo es el mismo para todos, un solo agente iguala o supera sistemáticamente a los sistemas multi-agente en tareas de razonamiento multi-hop.
El paper se llama “Single-Agent LLMs Outperform Multi-Agent Systems on Multi-Hop Reasoning Under Equal Thinking Token Budgets” y sus autores son Dat Tran y Douwe Kiela (este último conocido por su trabajo en Meta AI y Contextual AI).
La Hipótesis Incómoda
El argumento central es directo: cuando en la literatura se reporta que los sistemas multi-agente superan a los sistemas de agente único, no se está controlando el cómputo total utilizado. Un sistema con cinco agentes que razona con cinco veces más tokens que un agente individual tiene, trivialmente, más capacidad de cómputo disponible.
Los autores llaman a esto el problema del presupuesto de tokens de razonamiento (thinking token budget). Y argumentan que, una vez que se iguala ese presupuesto, las ventajas de los sistemas multi-agente desaparecen o se invierten.
Para respaldar esto no solo con datos empíricos sino con teoría, recurren al Data Processing Inequality de la teoría de la información:
Si un agente individual tiene acceso al contexto completo C, mientras que un sistema multi-agente procesa una versión degradada de ese contexto M = g(C), entonces por definición I(Y; M) ≤ I(Y; C). Es decir, la información que el sistema multi-agente puede extraer sobre la respuesta correcta Y es igual o inferior a la que puede extraer el agente individual con contexto completo.
La comunicación entre agentes es un cuello de botella informacional. Cada paso de coordinación, cada resumen, cada mensaje que pasa de un agente a otro descarta información. Un agente individual con el mismo número de tokens y acceso al contexto completo no tiene ese overhead.
El Experimento
La metodología es rigurosa. Los autores comparan sistemas de agente único contra cinco arquitecturas multi-agente clásicas:
- Sequential (pipeline de agentes en cadena)
- Debate (agentes que argumentan posiciones y llegan a consenso)
- Ensemble (múltiples agentes votando)
- Parallel-roles (agentes con roles especializados trabajando en paralelo)
- Subtask-parallel (descomposición de la tarea en subtareas para agentes separados)
Los experimentos se ejecutan sobre tres familias de modelos: Qwen3, DeepSeek-R1-Distill-Llama, y Gemini 2.5. Y se evalúan en dos benchmarks de razonamiento multi-hop: FRAMES y MuSiQue.
El resultado es consistente en todas las combinaciones: el sistema de agente único iguala o supera a los sistemas multi-agente cuando los presupuestos de tokens se controlan.
Además, el análisis revela algo importante: algunos de los gains reportados en papers anteriores a favor de sistemas multi-agente provenían de artefactos experimentales, como el comportamiento de las APIs de algunos modelos (Gemini 2.5 específicamente) que no respetan el presupuesto de tokens de forma uniforme entre configuraciones, o de benchmarks con fugas de información que favorecen ciertos patrones de consulta.
Por Qué la Intuición Falla
Es tentador pensar que la colaboración entre agentes es análoga a la colaboración humana. Varios expertos discutiendo un problema tienden a llegar a mejores conclusiones que uno solo, ¿no?
Pero la analogía tiene límites fundamentales. Los humanos en un equipo aportan conocimiento heterogéneo acumulado a lo largo de carreras distintas, perspectivas radicalmente diferentes, e incluso sesgos cognitivos distintos que se cancelan entre sí. Los LLMs en un sistema multi-agente, en cambio, a menudo comparten el mismo modelo base y los mismos sesgos de entrenamiento. La diversidad es superficial.
Además, los humanos en un equipo no pagan un coste informacional por comunicarse de la misma manera que los agentes. Cuando un humano le explica algo a otro, el receptor procesa el mensaje en el contexto de todo su conocimiento previo. Cuando un agente LLM recibe un mensaje de otro agente, lo recibe como texto dentro de una ventana de contexto limitada, y la información que no cabe en ese mensaje se pierde.
La arquitectura multi-agente tiene sentido cuando los agentes genuinamente aportan algo diferente: acceso a herramientas distintas, conocimiento de dominios especializado y separado, o capacidades de razonamiento cualitativamente diferentes. Pero si todos son instancias del mismo modelo base razonando sobre el mismo problema, la coordinación tiene un coste sin proporcionar un beneficio compensatorio.
Las Implicaciones Prácticas
Esto importa más allá del interés teórico. Los sistemas multi-agente son significativamente más caros de operar. Requieren más tokens, más llamadas a la API, más latencia, más superficie de fallo. Si la ventaja empírica que justificaba ese coste era en parte un artefacto metodológico, el análisis coste-beneficio cambia radicalmente.
Para quienes están construyendo sistemas agénticos en producción, las implicaciones son claras:
No asumas que más agentes es mejor. Antes de añadir complejidad multi-agente a un sistema, pregunta: ¿estoy controlando el cómputo total? ¿Los agentes adicionales aportan información genuinamente nueva o simplemente más tokens sobre el mismo problema?
El presupuesto de razonamiento importa. Las técnicas de test-time scaling que distribuyen más tokens a un agente individual (como chain-of-thought extendido, o métodos de búsqueda en árbol como MCTS) pueden ofrecer mejoras similares o superiores con menos overhead arquitectónico.
Los benchmarks tienen sesgos. Parte del trabajo del paper es forense: identificar por qué ciertos resultados anteriores parecían favorecer a los sistemas multi-agente cuando realmente no lo hacían bajo condiciones controladas. Es un recordatorio de que los benchmarks en ML tienen vida propia y pueden ser manipulados por factores no intencionados.
Lo Que No Resuelve
El paper tiene un enfoque deliberadamente estrecho: razonamiento multi-hop con token budgets igualados. Hay escenarios donde los sistemas multi-agente sí tienen ventajas legítimas que este análisis no refuta:
- Paralelismo real: Si tienes acceso a cómputo paralelo, varios agentes ejecutándose simultáneamente pueden reducir la latencia aunque consuman más tokens en total.
- Especialización genuina: Agentes con herramientas o fine-tunings distintos aportan capacidades que un agente general no puede replicar independientemente del presupuesto de tokens.
- Contextos que exceden la ventana: Cuando el problema genuinamente no cabe en una sola ventana de contexto, la distribución entre agentes tiene sentido.
- Robustez y redundancia: En aplicaciones críticas, el consenso multi-agente puede ofrecer garantías de fiabilidad que el agente único no puede dar.
Lo que el paper demuestra es que la arquitectura multi-agente no es por defecto superior. Requiere justificación explícita.
Mi Lectura
Este tipo de paper es importante precisamente porque va contra la corriente de la narrativa dominante. En un momento en que frameworks como AutoGen, CrewAI, LangGraph y otros están popularizando los sistemas multi-agente como solución por defecto, un análisis riguroso que cuestiona los fundamentos empíricos de esa elección tiene un valor real.
La fuerza del paper no está solo en los resultados empíricos — está en el argumento teórico. El Data Processing Inequality no es una observación empírica que pueda ser refutada con más datos. Es una propiedad matemática. La carga de la prueba recae ahora en quienes afirman que sus sistemas multi-agente superan al agente único: tienen que demostrar que el source of advantage no es simplemente más cómputo.
Y eso, en el ecosistema actual donde los benchmarks se publican sin esa clase de controles, es una contribución metodológica que va a durar.
Referencias:
