Esta semana marca un punto de inflexión estratégico en la industria de la inteligencia artificial: OpenAI sacrifica uno de sus productos más emblemáticos para concentrarse en lo que realmente genera ingresos, Anthropic le arrebata el liderazgo empresarial, y Google presenta una técnica de compresión que podría abaratar radicalmente la inferencia. Mientras tanto, una nueva métrica cultural sacude Silicon Valley: cuántos tokens consume un ingeniero.

OpenAI cancela Sora y pierde un contrato de 1.000 millones con Disney

OpenAI ha anunciado el cierre definitivo de Sora, su modelo y plataforma de generación de vídeo. Lo que en su día fue una demostración espectacular de las capacidades de la IA generativa —aquellos primeros vídeos que hicieron pensar a medio mundo que la inteligencia artificial iba en serio— se convierte ahora en la primera gran víctima de una estrategia de enfoque.

La decisión refleja un proceso de maduración empresarial: OpenAI ha reconocido que no puede competir simultáneamente en todos los frentes. Anthropic le ha ido comiendo terreno en el mercado empresarial y de programación. Empresas especializadas en vídeo como Runway habían igualado o superado sus capacidades. Google, con Gemini, ha avanzado enormemente y tiene canales de distribución incomparablemente más amplios.

Como efecto colateral, la cancelación arrastra un contrato de 1.000 millones de dólares con Disney, que incluía la posibilidad de usar personajes de la compañía en los vídeos generados por Sora. Disney se queda sin acceso a modelos avanzados de vídeo de OpenAI, y los usuarios pierden una herramienta que, pese a sus limitaciones de modelo de negocio, había demostrado el potencial creativo de la IA.

Paradójicamente, OpenAI ha anunciado que el equipo que trabajaba en Sora se dedicará ahora a World Simulation for Robotics —simulaciones de mundo para robótica—, un terreno completamente nuevo para la empresa. Enfocarse cerrando un producto para abrir otro no es exactamente lo que los manuales de gestión recomiendan, pero en un sector que se mueve a esta velocidad, pocas decisiones son definitivas.

Anthropic triplica a OpenAI en el mercado empresarial

Los datos son contundentes: según un estudio reciente de Ramp, Anthropic captura el 73% del nuevo gasto empresarial en IA, frente al 27% de OpenAI. En diciembre de 2025, antes del lanzamiento de Claude Code, la proporción era 60-40 a favor de OpenAI. En apenas tres meses, la situación se ha invertido por completo.

El impacto de Claude Code ha sido demoledor. Desde que Anthropic integró Opus 4.5 en noviembre de 2025, las herramientas de desarrollo asistido han pasado de sugerir código a planificar, ejecutar y verificar proyectos completos de manera autónoma. Las empresas que han probado esta experiencia difícilmente vuelven atrás.

Anthropic lidera especialmente en coding (42-54% de cuota de mercado) y análisis de datos, precisamente las áreas donde los agentes de IA están demostrando mayor impacto productivo. La tendencia parece difícil de revertir: una vez que los equipos ajustan sus flujos de trabajo a un proveedor, el coste de cambio es significativo.

TurboQuant: Google comprime modelos 6x sin perder precisión

Google DeepMind ha presentado TurboQuant, una técnica de cuantización que permite reducir la memoria de los modelos hasta 6 veces y aumentar la velocidad de inferencia hasta 8 veces, todo sin pérdida de precisión. El paper se presentará en ICLR 2026.

El problema que resuelve es elegante en su simplicidad. Cuando se cuantizan los vectores internos de un LLM —especialmente el caché KV—, muchos de ellos son “quasi sparse”: tienen valores casi nulos en la mayoría de dimensiones y valores significativos en muy pocas. Al reducir decimales, esos valores cercanos a cero se convierten en ceros exactos, perdiendo información que, acumulada en miles de dimensiones, resulta significativa.

La solución es rotar aleatoriamente los vectores antes de cuantizar. Al girarlos, las componentes se redistribuyen de manera uniforme en todas las dimensiones, eliminando la concentración en unos pocos ejes. Se guarda el ángulo de rotación para deshacerlo después. Así de simple. Así de brillante.

En la práctica, esto permite cuantizaciones agresivas —como limitar a 3 bits por peso— con cero pérdida de precisión y sin necesidad de reentrenar el modelo. Las implicaciones son enormes para abaratar la inferencia a escala.

El anuncio no ha estado exento de polémica: la startup RaBitQ ha denunciado que la idea original de rotación de vectores para cuantización fue compartida con DeepMind en comunicaciones previas no acreditadas en el paper. La técnica es real y valiosa; la atribución, discutible. Mientras tanto, las acciones de fabricantes de memoria RAM han caído entre un 1% y un 3% esta semana, citando parcialmente el impacto potencial de TurboQuant.

Token maxing: la nueva fiebre de Silicon Valley

Una tendencia cultural está redefiniendo las dinámicas laborales en el sector: el token maxing. En las entrevistas de trabajo para ingenieros de IA, la pregunta ya no es solo por el sueldo o las stock options, sino por el presupuesto de tokens —cuánto podrán gastar en computación de IA para realizar su trabajo.

Los números son llamativos: un empleado de OpenAI habría consumido 210.000 millones de tokens en una semana. Un usuario de Claude Code gastó 150.000 dólares en un mes. Empresas como Meta y Shopify ya incluyen el uso de tokens en las evaluaciones de rendimiento de sus ingenieros.

Jensen Huang, CEO de Nvidia, alimenta esta narrativa (con evidente conflicto de interés, dado que su empresa fabrica los chips que procesan esos tokens): si contratas un ingeniero de medio millón de dólares y no gasta al menos 50.000 en tokens de IA, deberías preocuparte.

El fenómeno plantea incentivos perversos: empujar a los ingenieros a maximizar el consumo de tokens no equivale necesariamente a maximizar la productividad. Un modelo suficientemente inteligente puede resolver un problema en menos tiempo y con menos tokens que un agente que orquesta múltiples herramientas durante horas. La eficiencia y el consumo bruto no siempre van de la mano. Los directores financieros, cuando metan el Excel, impondrán algo de cordura.

Cursor lanza Composer 2 sobre un modelo chino y enciende el debate

Cursor, la herramienta de programación asistida por IA valorada en 29.300 millones de dólares, lanzó Composer 2 presentándolo como un modelo con “inteligencia de codificación de nivel frontera”. Lo que no mencionó inicialmente es que estaba construido sobre Kimi K2.5, un modelo open source del laboratorio chino Moonshot AI, con una capa adicional de aprendizaje por refuerzo.

La comunidad tardó menos de 48 horas en descubrirlo. Fynn, un desarrollador, analizó las llamadas a la API y encontró identificadores que delataban la base Kimi. La reacción fue inmediata: acusaciones de falta de transparencia y posibles violaciones de licencia.

Cursor reconoció la base open source pero defendió que solo una cuarta parte del cómputo provenía del modelo original, siendo el resto entrenamiento propio. Moonshot AI confirmó posteriormente que existía un acuerdo comercial autorizado.

Más allá de la polémica, el caso abre un debate relevante para Europa: si Cursor puede construir un producto competitivo apalancándose en modelos abiertos y añadiendo post-entrenamiento especializado, ¿por qué no pueden hacerlo empresas europeas? El ecosistema de modelos open source —dominado por laboratorios chinos, pero con contribuciones de Google, Nvidia y OpenAI— ofrece una vía técnica real. La barrera, como siempre en Europa, es regulatoria: la AI Act y su aplicación práctica siguen ensombreciendo la adopción.

Grandes inversiones en IA vertical e inferencia

Dos rondas de financiación esta semana ilustran hacia dónde fluye el capital:

Harvey, la startup de IA aplicada al mundo legal, ha levantado 200 millones de dólares liderados por GIC y Sequoia Capital, alcanzando una valoración de 11.000 millones con más de 1.000 millones acumulados en financiación total. La empresa ya opera con más de 100.000 abogados en 1.300 organizaciones de 60 países y ha abierto oficinas en España, reclutando talento de despachos como Cuatrecasas y Pérez-Llorca.

Rebellions, startup surcoreana de diseño de chips, ha levantado 400 millones de dólares en una ronda pre-IPO que la valora en 2.340 millones. Su enfoque: chips específicamente diseñados para inferencia, no para entrenamiento. Con su NPU Rebel100, compite con Nvidia, Groq y Cerebras en un mercado que asume que el entrenamiento ya está lo suficientemente maduro y que el verdadero negocio está en ejecutar modelos masivamente y de forma eficiente.

Ambas inversiones señalan la misma tendencia: el valor se desplaza de los modelos generalistas hacia la especialización vertical (Harvey en legal) y la optimización de la inferencia (Rebellions en hardware).

Intercom entrena su propio modelo y supera a GPT y Claude en atención al cliente

Intercom, especializada en agentes de atención al cliente, ha presentado Apex, un modelo propio entrenado con su base de datos de más de 2 millones de interacciones mensuales con clientes. El resultado: la tasa de resolución de su agente Fin ha subido del 68% al 75%, el mayor salto que han logrado jamás.

Lo significativo es que ningún cambio de versión previo de GPT ni de Claude había producido una mejora comparable. El secreto no está en una arquitectura revolucionaria, sino en los datos verticales: años de interacciones reales en un dominio específico generan un efecto acumulativo que ningún modelo generalista puede replicar.

Este es el círculo virtuoso de la especialización: te enfocas, acumulas más datos del dominio, entrenas mejor, te especializas más. Harvey en legal, Intercom en atención al cliente —el patrón se repite.

Meta entrega Horizon Worlds: ¿el fin del metaverso?

Meta ha anunciado la retirada de Horizon Worlds de sus gafas Quest, trasladándolo exclusivamente a móvil (aunque tras una oleada de críticas revirtió parcialmente la decisión, manteniendo soporte VR “por el momento”). Después de 80.000 millones de dólares invertidos en Reality Labs, el movimiento se lee como el entierro oficial del metaverso tal como Zuckerberg lo concibió.

El diagnóstico es claro: demasiada fricción. Demasiados pasos entre decidir usar las gafas y realmente hacer algo útil con ellas, en una era donde la IA está reduciendo la fricción de todo lo demás. Mientras ChatGPT te ahorra hasta el paso de buscar en Google, ponerse unas gafas VR requiere un ritual que pocos están dispuestos a repetir.

Esto no significa que los mundos digitales estén muertos —Roblox sigue creciendo—, pero sí que la visión de Meta de un universo virtual empresarial y social ha fracasado. La compañía sigue sin encontrar una vía de diversificación más allá de su extraordinario negocio publicitario, sumando otro proyecto fallido a una lista que incluye la criptomoneda Libra, Facebook at Work y el Meta Portal.

Conclusión: la era del enfoque y la especialización

Las noticias de esta semana convergen en una narrativa de maduración. OpenAI sacrifica Sora para concentrarse. Anthropic lidera porque se enfocó antes y mejor en código empresarial. Intercom y Harvey demuestran que los modelos verticales superan a los generalistas en sus dominios. Incluso el hardware se especializa, con chips diseñados exclusivamente para inferencia.

Mientras tanto, TurboQuant promete que ejecutar modelos potentes será dramáticamente más barato, y el debate del token maxing nos recuerda que más consumo no significa necesariamente más productividad.

La fase de “todo para todos” de la IA está terminando. Lo que viene es más quirúrgico, más especializado y, probablemente, más rentable.