Anthropic acaba de lanzar Claude Sonnet 4.6, el modelo Sonnet más capaz hasta la fecha. Es una actualización completa que mejora prácticamente todas las capacidades del modelo: coding, computer use, razonamiento de largo contexto, planificación de agentes, trabajo de oficina y diseño.

Y lo mejor: mantiene el mismo precio que Sonnet 4.5 ($3/$15 por millón de tokens).

Lo Más Destacado

Computer Use: De “Experimental” a “Production-Ready”

Desde que Anthropic introdujo computer use en octubre de 2024, el progreso ha sido impresionante. En OSWorld (el benchmark estándar para AI que usa ordenadores), Sonnet 4.6 alcanza nuevas cotas:

  • Los early users reportan capacidad a nivel humano en tareas como navegar hojas de cálculo complejas o rellenar formularios web multi-paso
  • 94% de accuracy en el insurance benchmark de Pace
  • Mejora significativa en resistencia a prompt injection attacks comparado con Sonnet 4.5

Computer use ya no es “cumbersome and error-prone” — está listo para producción en muchos casos.

Coding: Usuarios Prefieren Sonnet 4.6 Sobre Opus 4.5

Esto es lo más sorprendente: en Claude Code, los usuarios prefieren Sonnet 4.6 sobre el anterior flagship Opus 4.5 el 59% de las veces.

¿Por qué? Porque Sonnet 4.6 es:

  • Menos propenso a “overengineering” y “pereza”
  • Mejor en instruction following
  • Más consistente en tareas multi-paso
  • Genera menos alucinaciones y reclamos falsos de éxito

Comparado con Sonnet 4.5, la preferencia sube al 70%.

1M Token Context Window (Beta)

Sonnet 4.6 puede manejar hasta 1 millón de tokens de contexto en beta. Eso es suficiente para:

  • Codebases enteros
  • Contratos largos
  • Docenas de research papers en una sola request

Pero lo importante no es solo el tamaño — es que razonga efectivamente a través de todo ese contexto. Lo vemos claramente en Vending-Bench Arena, donde Sonnet 4.6 desarrolló una estrategia sofisticada:

Invirtió fuertemente en capacidad los primeros 10 meses simulados, gastando mucho más que sus competidores, y luego pivotó bruscamente a enfocarse en rentabilidad en la recta final. El timing de este pivot le ayudó a terminar muy por delante de la competencia.

Benchmarks: Sonnet 4.6 vs. Competencia

BenchmarkSonnet 4.6Opus 4.6GPT-5.2Gemini 3 Pro
SWE-bench Verified78.1%80.9%71.6%75.2%
Terminal-Bench 2.061.7%65.4%~60%N/A
OSWorld-Verified49.2%54.1%N/AN/A
ARC-AGI-260.4% (high)63.7%53.2%58.1%
Humanity’s Last Exam69.8%72.4%67.3%70.1%

Frontend y Diseño

Early customers reportan mejoras notables en outputs visuales:

  • Layouts más pulidos
  • Mejores animaciones
  • Mejor sentido del diseño que modelos anteriores
  • Menos iteraciones para alcanzar resultados production-ready

Triple Whale resumió:

“Claude Sonnet 4.6 tiene un gusto perfecto en diseño cuando construye páginas frontend y reportes de datos, y requiere mucha menos supervisión para llegar ahí que cualquier cosa que hayamos probado antes.”

Nuevas Features del API

  • Adaptive thinking: 4 niveles de esfuerzo (low, medium, high, max)
  • Context compaction (beta): Resúmenes automáticos de contexto antiguo para conversaciones infinitas
  • Web search y fetch mejorados: Ahora escriben y ejecutan código automáticamente para filtrar y procesar resultados
  • MCP connectors en Excel: Claude puede trabajar con herramientas externas (S&P Global, LSEG, Daloopa, PitchBook, etc.) sin salir de Excel

¿Cuándo Usar Sonnet 4.6 vs. Opus 4.6?

Usa Sonnet 4.6 para:

  • Coding general y debugging
  • Computer use y automatización
  • Trabajo de oficina (Excel, PowerPoint, documentos)
  • Tareas donde el ratio rendimiento/coste importa

Usa Opus 4.6 para:

  • Razonamiento más profundo
  • Refactoring de codebases enteros
  • Coordinación de múltiples agentes
  • Problemas donde “hacerlo perfecto” es crítico

Disponibilidad

Claude Sonnet 4.6 está disponible ahora mismo en:

  • claude.ai (Free y Pro — es el nuevo default)
  • Claude Cowork
  • Claude Code
  • Claude API (model ID: claude-sonnet-4-6)
  • Amazon Bedrock, Google Vertex AI, Microsoft Foundry

Reflexión Final

Sonnet 4.6 demuestra algo importante: el progreso en IA no solo es “más grande, más caro”. Es “más capaz, mismo precio”.

Hace apenas 16 meses, los modelos apenas podían usar un ordenador. Hoy, Sonnet 4.6 alcanza capacidad a nivel humano en muchas tareas de computer use. Y lo hace a un precio que lo hace práctico para producción.

La línea entre “modelo caro para casos especiales” y “modelo para el día a día” se está difuminando rápidamente.


Fuentes: