Límites de Estabilidad del Razonamiento Autoregresivo: Por Qué los LLMs Fallan en Cadenas Largas

Paper de la Semana: Intrinsic Stability Limits of Autoregressive Reasoning

Paper: Intrinsic Stability Limits of Autoregressive Reasoning: Structural Consequences for Long-Horizon Execution
Autor: Hsien-Jyh Liao
Publicación: 6 de febrero, 2026
Páginas: 16 (7 figuras)

¿Por qué es relevante?

Si has usado Chain-of-Thought (CoT) prompting, sabes que funciona muy bien para problemas de 5-10 pasos. Pero cuando intentas que un LLM razone durante 50 o 100 pasos, todo se desmorona. Este paper explica por qué de forma matemática, y las implicaciones son profundas:

No es un problema de escala. No importa cuán grande sea tu modelo o cuánto contexto tenga—existe un límite fundamental en cuántos pasos de razonamiento puedes encadenar antes de que la precisión colapse. Y ese límite es estructural, no de capacidad.

El Teorema Central

El Teorema A del paper establece que, bajo condiciones realistas, la “ventaja de decisión” (ρ) en razonamiento autoregresivo decae exponencialmente con la longitud de ejecución:

Esto significa que existe un horizonte de estabilidad L* más allá del cual el modelo entra en un régimen de alta incertidumbre. No importa qué tan bien entrenado esté—la física del proceso lo condena.

Las Tres Condiciones

El teorema aplica cuando se cumplen tres condiciones (muy comunes en LLMs actuales):

Condición	Descripción
Capacidad Finita	El modelo no puede acumular historial de forma ilimitada—eventualmente olvida o comprime
Perturbaciones Persistentes	Errores de aproximación, ruido de sampling, aliasing en cada paso
Ejecución Single-Path	Sin branching, backtracking ni resets—solo generación lineal token a token

La tercera condición es clave: la generación autoregresiva estándar es inherentemente single-path. Cada token depende de los anteriores, y no hay forma de “deshacer” un paso incorrecto.

Implicaciones Prácticas

1. Scaling no es suficiente

GPT-5, Claude Opus 5, Gemini Ultra 3… da igual. Si el razonamiento sigue siendo autoregresivo single-path, existe un límite. No puedes entrenar tu forma de salir de este problema.

2. Las evaluaciones cortas esconden el problema

Un modelo puede parecer excelente en benchmarks de 10 pasos y colapsar completamente en tareas de 50 pasos. Los autores llaman a esto “short-horizon evaluations masking instability”—las métricas actuales no capturan el fallo.

3. La solución es estructural, no de escala

El paper argumenta que el razonamiento estable a largo plazo requiere segmentación discreta—dividir la cadena en nodos de estabilización intermedios. Esto produce estructuras tipo grafo (DAGs) en lugar de cadenas lineales:

Chain-of-Thought: Parcialmente ayuda, pero sigue siendo lineal
Tree-of-Thought: Mejor, introduce branching
Graph-of-Thought: Óptimo, permite loops y verificación cruzada

Validación Empírica

Los autores validan el teorema en:

Tareas sintéticas: Performance cliffs predecibles en función de L
Análisis de sensibilidad: La degradación sigue la curva exponencial teórica
TextWorld benchmarks: Fallos de coherencia en tareas de navegación larga

Lo más interesante: los puntos de fallo empíricos coinciden con las predicciones del teorema. No es solo teoría—es medible.

Relación con Sistemas Multi-Agente

Este paper da soporte teórico a una tendencia que ya veíamos en la práctica: los sistemas multi-agente funcionan mejor que los single-agent para tareas complejas. ¿Por qué? Porque rompen la cadena autoregresiva.

Cuando un agente pasa contexto a otro, hay un punto de “reset parcial”—el segundo agente no hereda el drift acumulado del primero. Es como crear nodos de estabilización implícitos.

Esto conecta directamente con lo que vimos en AI Co-Scientist: su arquitectura multi-agente con seis agentes especializados no es casualidad. Es la única forma de mantener coherencia en tareas que requieren cientos de pasos de razonamiento.

Opinión

Este es uno de esos papers que cambian cómo piensas sobre el problema. Durante años, la narrativa ha sido “más parámetros = mejor razonamiento”. Este paper dice: no, hay límites fundamentales que no se resuelven con escala.

Las implicaciones para el diseño de sistemas son claras:

No encadenes razonamiento indefinidamente. Diseña puntos de checkpoint.
Verifica estados intermedios. No confíes en que el modelo mantenga coherencia solo.
Usa arquitecturas de grafo. Tree-of-Thought y Graph-of-Thought no son hype—son necesidad estructural.
Multi-agente para tareas largas. No es sobre “división del trabajo”—es sobre estabilidad.

Para investigadores: este paper abre la puerta a una nueva línea de trabajo. Si conocemos el horizonte de estabilidad L*, podemos diseñar arquitecturas que lo respeten. En lugar de luchar contra la física del proceso, trabajamos con ella.

Referencias

Paper: https://arxiv.org/abs/2602.06413
HTML: https://arxiv.org/html/2602.06413v1
PDF: https://arxiv.org/pdf/2602.06413

La próxima vez que veas un LLM “perderse” en medio de una cadena de razonamiento larga, recuerda: no es un bug, es una propiedad fundamental del proceso autoregresivo. La solución no es más escala—es mejor arquitectura.

Paper de la Semana: Intrinsic Stability Limits of Autoregressive Reasoning#

¿Por qué es relevante?#

El Teorema Central#

Las Tres Condiciones#

Implicaciones Prácticas#

Validación Empírica#

Relación con Sistemas Multi-Agente#

Opinión#

Referencias#