La semana ha estado dominada por la irrupción de Claude Mythos y el informe técnico de Anthropic sobre sus capacidades de ciberseguridad, pero también han surgido novedades relevantes en arquitecturas de modelos, robótica y la creciente obsesión cultural con el consumo de tokens como métrica de productividad.
PrismML: modelos de 1 bit que corren en CPU
Una de las noticias técnicas más relevantes de la semana es PrismML, una nueva familia de modelos que lleva al extremo la cuantización de pesos a 1 bit. La idea no es nueva — BitNet y variantes llevan tiempo explorando este territorio — pero PrismML consigue resultados competitivos con modelos de precisión completa en benchmarks de razonamiento, con la ventaja de poder ejecutarse directamente en CPU sin GPU.
Las implicaciones son significativas: modelos capaces en hardware commodity, sin dependencia de aceleradores, con consumo energético dramáticamente menor. La pregunta que queda abierta es si la ganancia en eficiencia compensa la pérdida de capacidad en tareas complejas, o si el nicho de uso es suficientemente amplio para justificar el enfoque.
Aprendizajes sobre LRMs: lo que aún no funciona
Los Large Reasoning Models (LRMs) — la familia de modelos con razonamiento extendido tipo o1, R1 o Claude con extended thinking — están demostrando capacidades notables, pero el análisis de esta semana identifica patrones de fallo recurrentes que conviene tener presentes.
El principal problema documentado es el overthinking: los LRMs tienden a explorar caminos de razonamiento innecesariamente complejos para problemas simples, aumentando coste y latencia sin mejorar el resultado. También muestran dificultades con tareas que requieren detener el razonamiento en el momento adecuado, y una tendencia a generar razonamientos plausibles pero incorrectos cuando el problema no tiene una respuesta clara en los datos de entrenamiento.
El consenso es que los LRMs son herramientas poderosas para problemas donde el razonamiento profundo añade valor real, pero usarlos indiscriminadamente para cualquier consulta es un error tanto de rendimiento como de coste.
GEN-1: robots que improvisan movimientos sin entrenamiento previo
GEN-1 es un sistema de robótica que introduce una capacidad cualitativamente diferente: en lugar de ejecutar movimientos predefinidos, el robot puede improvisar secuencias de movimiento para resolver tareas nuevas, combinando primitivas aprendidas de forma flexible.
La demostración más llamativa es la capacidad de manipular objetos con formas y disposiciones no vistas durante el entrenamiento, generalizando desde ejemplos limitados. El sistema usa un modelo de mundo interno para simular el resultado de secuencias de movimiento antes de ejecutarlas, seleccionando la que maximiza la probabilidad de éxito.
Es un paso hacia robots que no necesitan ser reprogramados explícitamente para cada nueva tarea — algo crítico para que la robótica sea útil fuera de entornos industriales altamente controlados.
Claude Mythos y el informe de Anthropic: impacto en la semana
El informe técnico de Anthropic sobre las capacidades de ciberseguridad de Claude Mythos Preview — publicado el 7 de abril — ha generado un debate intenso sobre las implicaciones de modelos capaces de encontrar y explotar vulnerabilidades zero-day de forma autónoma. El análisis detallado del informe ya está disponible en este blog.
El debate de la semana se centró en dos ejes: por un lado, la decisión de Anthropic de no publicar el modelo de forma general y lanzar Project Glasswing como iniciativa defensiva coordinada. Por otro, la rapidez con que la capacidad emergió sin entrenamiento explícito — como consecuencia directa de mejoras generales en código y razonamiento.
Un dato que resume el salto: Anthropic informa que ya genera más de 300 millones de dólares mensuales en ingresos, con Claude Code como motor principal del crecimiento empresarial. El modelo que genera esos ingresos (Opus 4.6) ya era excepcional; Mythos está en una categoría diferente.
Tokenmaxing: cuando la métrica llega al absurdo
La tendencia del tokenmaxing — medir la productividad por el consumo de tokens de IA — ha alcanzado esta semana un nuevo nivel de absurdo que ilustra bien los problemas de optimizar métricas incorrectas.
El caso más comentado: en Estados Unidos se documentó una situación en la que un abogado defensor argumentó que su cliente debería ser exonerado porque ChatGPT, consultado por la policía con el modelo de mayor razonamiento disponible, había concluido que la conducta era legal. La idea de que el nivel de “thinking” de un LLM debería tener peso en decisiones judiciales resume bastante bien adónde lleva la obsesión con maximizar el uso de IA como señal de competencia.
En el ámbito empresarial, el patrón que emerge es claro: las empresas que están midiendo tokens consumidos per cápita como KPI de productividad están confundiendo el medio con el fin. Un ingeniero que resuelve el problema correcto con 1.000 tokens es más productivo que uno que genera 10 millones explorando soluciones irrelevantes.
Martín Varsavsky y el empleo en España
El emprendedor Martín Varsavsky participó esta semana en un debate sobre el impacto de la IA en el empleo español, con una tesis optimista: España tendría ventajas estructurales frente a otros países europeos en la transición, gracias a una economía más orientada a sectores de servicios presenciales difíciles de automatizar a corto plazo (turismo, hostelería, cuidados) y una cultura de adaptación más flexible.
La tesis contraria, también presente en el debate, apunta a que precisamente los sectores de servicios cognitivos de gama media — administración, contabilidad, servicios jurídicos básicos — son los más vulnerables a la automatización inmediata con LLMs, y que España tiene una concentración alta de empleo en esa franja.
El debate quedó sin resolución clara, como corresponde a una pregunta que depende en gran medida de la velocidad real de adopción empresarial — que sigue siendo mucho más lenta de lo que los titulares sugieren.