Think Deep, Not Just Long: Midiendo el Esfuerzo Real de Razonamiento en LLMs

Paper de la Semana: Think Deep, Not Just Long

Paper: Think Deep, Not Just Long: Measuring LLM Reasoning Effort via Deep-Thinking Tokens
Autores: Wei-Lin Chen, Liqian Peng, Tian Tan, Chao Zhao, Blake JianHang Chen, Ziqian Lin, Alec Go, Yu Meng (University of Virginia)
Publicado: Febrero 2026 (arXiv:2602.13517)

¿Por qué es relevante?

Uno de los debates más activos en IA aplicada gira alrededor del chain-of-thought (CoT) y los modelos de razonamiento extendido: ¿cuánto debe pensar un LLM antes de responder? La intuición dice que más razonamiento equivale a mejores respuestas. Los datos dicen lo contrario.

Este paper demuestra empíricamente que el número de tokens generados correlaciona negativamente con la precisión (r = −0,59 de media). Más tokens no solo no ayudan — activamente perjudican el rendimiento. El fenómeno tiene un nombre ya conocido en la comunidad: overthinking.

Pero el paper no se queda en diagnóstico. Propone una métrica alternativa — los deep-thinking tokens — que captura el esfuerzo de razonamiento real del modelo, no su verbosidad. Y con esa métrica, la correlación se invierte: r = +0,68 de media, hasta r = +0,83 en benchmarks de matemáticas duras como AIME.

El Problema: Longitud como Proxy de Inteligencia

Los modelos de razonamiento modernos (DeepSeek-R1, Qwen3, GPT con thinking extendido) generan cadenas de pensamiento largas antes de dar una respuesta. En teoría, más razonamiento debería significar más calidad. En la práctica, no.

El problema es estructural: cuando un modelo genera tokens sin un propósito de razonamiento real — repitiendo contexto, dando rodeos, llenando la cadena de pensamiento con patrones superficiales — esos tokens no solo no aportan, sino que introducen ruido que puede degradar las capas de razonamiento posteriores. El modelo se pierde en su propio monologo.

La longitud de la cadena de pensamiento se ha convertido en un proxy de inteligencia que no funciona. Necesitábamos una métrica mejor.

La Solución: Deep-Thinking Tokens

La idea central del paper parte de cómo funciona un transformer por dentro. Cuando un modelo genera un token, ese token atraviesa todas las capas del modelo antes de producir una distribución de probabilidad final. En cada capa, la distribución se actualiza con los pesos aprendidos.

Los autores observaron dos patrones distintos:

Tokens simples: su distribución de probabilidad se estabiliza rápidamente, ya en las primeras capas. El modelo sabe casi de inmediato qué token viene. Son tokens de relleno o de alta predictibilidad contextual.
Tokens difíciles: su distribución sigue cambiando de forma significativa a través de las capas, y solo se estabiliza en el último 15% de ellas. El modelo está trabajando activamente para decidir qué decir.

Estos últimos son los deep-thinking tokens: señales de que el modelo está procesando algo genuinamente difícil, no simplemente generando texto plausible.

La métrica derivada — el Deep-Thinking Ratio (DTR) — es simplemente la proporción de deep-thinking tokens en una secuencia generada. Un DTR alto indica que el modelo está aplicando esfuerzo real de razonamiento en la mayor parte de su generación. Un DTR bajo indica verbosidad superficial.

Resultados

Los autores validaron el DTR en 32 combinaciones de modelo y benchmark, incluyendo AIME 2024/2025, HMMT 25 y GPQA-diamond, con modelos como GPT-OSS, DeepSeek-R1 y Qwen3.

Los resultados son consistentes:

Métrica	Correlación media con precisión
Longitud total de tokens	r = −0,59
Confianza en tokens	negativa o neutra
Deep-Thinking Ratio (DTR)	r = +0,68 (hasta +0,83 en AIME)

El DTR supera a todos los baselines en prácticamente todos los pares modelo-benchmark. En los casos donde la correlación es negativa, el DTR muestra pocos valores negativos frente a muchos para las métricas de longitud.

La ablación es igualmente elocuente: si en vez de medir el DTR sobre toda la secuencia lo medís solo sobre los primeros 50 tokens generados, la correlación se mantiene fuerte. Esto tiene una implicación práctica inmediata.

Think@n: Escalado Eficiente en Tiempo de Inferencia

El DTR no es solo una métrica de análisis post-hoc. Los autores lo convierten en un método de escalado en tiempo de inferencia llamado Think@n.

La idea es elegante: en vez de generar n respuestas completas y agregar (self-consistency clásico), Think@n genera n prefijos cortos de ~50 tokens, calcula el DTR de cada uno, selecciona los de mayor DTR para completarlos, y agrega solo esas respuestas.

El resultado: paridad o mejora respecto a self-consistency clásico con la mitad del cómputo de inferencia. La calidad no solo se mantiene — en varios benchmarks mejora, porque el DTR actúa como filtro que descarta cadenas de pensamiento de baja calidad antes de que consuman recursos.

Implicaciones

Para entender los modelos

El DTR es una ventana al proceso de razonamiento interno de los transformers que no requería modificar el modelo ni añadir supervisión explícita. Se deriva directamente de la mecánica de las capas. Eso lo hace aplicable a cualquier transformer y abre una línea de investigación sobre interpretabilidad funcional del razonamiento.

Para construir sobre ellos

Si estás desplegando modelos de razonamiento en producción, el DTR puede servir como señal de calidad antes de que el modelo termine de generar. Detectar una cadena de pensamiento con DTR bajo permite interrumpirla y relanzar la inferencia, ahorrando tokens y mejorando la fiabilidad del sistema.

Para el debate sobre CoT

Este paper es un argumento empírico sólido contra la idea de que escalar la longitud de la cadena de pensamiento es suficiente. La calidad del pensamiento importa más que la cantidad. El próximo escalado de razonamiento tendrá que ser más selectivo sobre qué tokens genera, no solo cuántos.

Conclusión

“Think Deep, Not Just Long” es un paper con una hipótesis clara, metodología rigurosa y resultados reproducibles. En un campo donde abunda la evaluación de benchmarks sin mecanismo explicativo, este paper conecta comportamiento observable (precisión) con mecánica interna (dinámica de activaciones por capa) de forma convincente.

La conclusión práctica es directa: un LLM que piensa mucho pero superficialmente es peor que uno que piensa menos pero con profundidad real. Medir esa profundidad, y usarla para decidir cuándo continuar generando, es un paso hacia sistemas de razonamiento más eficientes y fiables.

Fuentes:

Paper en arXiv (2602.13517)

Paper de la Semana: Think Deep, Not Just Long#

¿Por qué es relevante?#

El Problema: Longitud como Proxy de Inteligencia#

La Solución: Deep-Thinking Tokens#

Resultados#

Think@n: Escalado Eficiente en Tiempo de Inferencia#

Implicaciones#

Para entender los modelos#

Para construir sobre ellos#

Para el debate sobre CoT#

Conclusión#