LLM | Tech & AI

Científica trabajando en laboratorio — gusto científico e IA

AI Can Learn Scientific Taste

Investigadores de Fudan University proponen RLCF (Reinforcement Learning from Community Feedback), un paradigma que entrena a la IA para desarrollar ‘gusto científico’: la capacidad de juzgar qué ideas de investigación tienen alto potencial de impacto, usando citas como señal de preferencia. El resultado supera a GPT-5.2 y Gemini 3 Pro.

Agente de IA aprendiendo mediante reinforcement learning

OpenClaw-RL: Aprendiendo de Cada Interacción en Tiempo Real

Princeton presenta OpenClaw-RL, un framework de aprendizaje por refuerzo asíncrono que permite a los agentes de IA aprender de señales del siguiente estado: respuestas de usuarios, outputs de herramientas, cambios en interfaces. Un paso hacia agentes que mejoran con el uso real.

Claude Sonnet 4.6: El Sonnet Más Capaz de la Historia

Anthropic acaba de lanzar Claude Sonnet 4.6, el modelo Sonnet más capaz hasta la fecha. Es una actualización completa que mejora prácticamente todas las capacidades del modelo: coding, computer use, razonamiento de largo contexto, planificación de agentes, trabajo de oficina y diseño. Y lo mejor: mantiene el mismo precio que Sonnet 4.5 ($3/$15 por millón de tokens). Lo Más Destacado Computer Use: De “Experimental” a “Production-Ready” Desde que Anthropic introdujo computer use en octubre de 2024, el progreso ha sido impresionante. En OSWorld (el benchmark estándar para AI que usa ordenadores), Sonnet 4.6 alcanza nuevas cotas: ...

Intrinsic Stability Limits of Autoregressive Reasoning

Límites de Estabilidad del Razonamiento Autoregresivo: Por Qué los LLMs Fallan en Cadenas Largas

Este paper demuestra matemáticamente que el razonamiento autoregresivo tiene límites intrínsecos de estabilidad: la precisión decae exponencialmente con la longitud de la cadena, independientemente del tamaño del modelo.