Paper de la Semana: Intrinsic Stability Limits of Autoregressive Reasoning
- Paper: Intrinsic Stability Limits of Autoregressive Reasoning: Structural Consequences for Long-Horizon Execution
- Autor: Hsien-Jyh Liao
- Publicación: 6 de febrero, 2026
- Páginas: 16 (7 figuras)
¿Por qué es relevante?
Si has usado Chain-of-Thought (CoT) prompting, sabes que funciona muy bien para problemas de 5-10 pasos. Pero cuando intentas que un LLM razone durante 50 o 100 pasos, todo se desmorona. Este paper explica por qué de forma matemática, y las implicaciones son profundas:
No es un problema de escala. No importa cuán grande sea tu modelo o cuánto contexto tenga—existe un límite fundamental en cuántos pasos de razonamiento puedes encadenar antes de que la precisión colapse. Y ese límite es estructural, no de capacidad.
El Teorema Central
El Teorema A del paper establece que, bajo condiciones realistas, la “ventaja de decisión” (ρ) en razonamiento autoregresivo decae exponencialmente con la longitud de ejecución:
Esto significa que existe un horizonte de estabilidad L* más allá del cual el modelo entra en un régimen de alta incertidumbre. No importa qué tan bien entrenado esté—la física del proceso lo condena.
Las Tres Condiciones
El teorema aplica cuando se cumplen tres condiciones (muy comunes en LLMs actuales):
| Condición | Descripción |
|---|---|
| Capacidad Finita | El modelo no puede acumular historial de forma ilimitada—eventualmente olvida o comprime |
| Perturbaciones Persistentes | Errores de aproximación, ruido de sampling, aliasing en cada paso |
| Ejecución Single-Path | Sin branching, backtracking ni resets—solo generación lineal token a token |
La tercera condición es clave: la generación autoregresiva estándar es inherentemente single-path. Cada token depende de los anteriores, y no hay forma de “deshacer” un paso incorrecto.
Implicaciones Prácticas
1. Scaling no es suficiente
GPT-5, Claude Opus 5, Gemini Ultra 3… da igual. Si el razonamiento sigue siendo autoregresivo single-path, existe un límite. No puedes entrenar tu forma de salir de este problema.
2. Las evaluaciones cortas esconden el problema
Un modelo puede parecer excelente en benchmarks de 10 pasos y colapsar completamente en tareas de 50 pasos. Los autores llaman a esto “short-horizon evaluations masking instability”—las métricas actuales no capturan el fallo.
3. La solución es estructural, no de escala
El paper argumenta que el razonamiento estable a largo plazo requiere segmentación discreta—dividir la cadena en nodos de estabilización intermedios. Esto produce estructuras tipo grafo (DAGs) en lugar de cadenas lineales:
- Chain-of-Thought: Parcialmente ayuda, pero sigue siendo lineal
- Tree-of-Thought: Mejor, introduce branching
- Graph-of-Thought: Óptimo, permite loops y verificación cruzada
Validación Empírica
Los autores validan el teorema en:
- Tareas sintéticas: Performance cliffs predecibles en función de L
- Análisis de sensibilidad: La degradación sigue la curva exponencial teórica
- TextWorld benchmarks: Fallos de coherencia en tareas de navegación larga
Lo más interesante: los puntos de fallo empíricos coinciden con las predicciones del teorema. No es solo teoría—es medible.
Relación con Sistemas Multi-Agente
Este paper da soporte teórico a una tendencia que ya veíamos en la práctica: los sistemas multi-agente funcionan mejor que los single-agent para tareas complejas. ¿Por qué? Porque rompen la cadena autoregresiva.
Cuando un agente pasa contexto a otro, hay un punto de “reset parcial”—el segundo agente no hereda el drift acumulado del primero. Es como crear nodos de estabilización implícitos.
Esto conecta directamente con lo que vimos en AI Co-Scientist: su arquitectura multi-agente con seis agentes especializados no es casualidad. Es la única forma de mantener coherencia en tareas que requieren cientos de pasos de razonamiento.
Opinión
Este es uno de esos papers que cambian cómo piensas sobre el problema. Durante años, la narrativa ha sido “más parámetros = mejor razonamiento”. Este paper dice: no, hay límites fundamentales que no se resuelven con escala.
Las implicaciones para el diseño de sistemas son claras:
- No encadenes razonamiento indefinidamente. Diseña puntos de checkpoint.
- Verifica estados intermedios. No confíes en que el modelo mantenga coherencia solo.
- Usa arquitecturas de grafo. Tree-of-Thought y Graph-of-Thought no son hype—son necesidad estructural.
- Multi-agente para tareas largas. No es sobre “división del trabajo”—es sobre estabilidad.
Para investigadores: este paper abre la puerta a una nueva línea de trabajo. Si conocemos el horizonte de estabilidad L*, podemos diseñar arquitecturas que lo respeten. En lugar de luchar contra la física del proceso, trabajamos con ella.
Referencias
- Paper: https://arxiv.org/abs/2602.06413
- HTML: https://arxiv.org/html/2602.06413v1
- PDF: https://arxiv.org/pdf/2602.06413
La próxima vez que veas un LLM “perderse” en medio de una cadena de razonamiento larga, recuerda: no es un bug, es una propiedad fundamental del proceso autoregresivo. La solución no es más escala—es mejor arquitectura.
