El 25 de marzo de 2026, François Chollet (creador del benchmark ARC original) y Sam Altman (CEO de OpenAI) se sentaron juntos en Y Combinator para anunciar algo que, a estas alturas, ya es una tradición: un nuevo ARC-AGI que la IA no puede resolver.
ARC-AGI-3 no es una versión más difícil del mismo puzzle. Es un cambio fundamental de paradigma — de problemas estáticos a entornos interactivos donde el agente tiene que jugar, explorar, y descubrir las reglas por sí mismo. El resultado es devastador para la IA actual: los humanos resuelven el 100% de los entornos. Los mejores modelos de frontera, el 0.26%.
De Puzzles a Videojuegos
Los dos primeros benchmarks ARC-AGI presentaban al modelo una serie de ejemplos input-output y pedían que infiriera la regla para resolver un caso nuevo. ARC-AGI-2 había subido la dificultad hasta el punto de que los mejores sistemas llegaban al 68.8%, con Gemini 3 alcanzando el 84.6% en modo de razonamiento profundo.
ARC-AGI-3 cambia completamente el formato. En lugar de puzzles estáticos, presenta más de 1.000 niveles en más de 150 entornos interactivos diseñados por humanos, funcionando como mini-videojuegos abstractos. El agente recibe observaciones en bruto de un entorno y puede interactuar turno a turno. Nadie le explica las reglas. Nadie le dice el objetivo. Tiene que descubrirlo todo.
Las capacidades que se necesitan son cuatro:
- Exploración: Interactuar sistemáticamente con el entorno para construir un modelo del mundo
- Inferencia de objetivos: Descubrir qué significa “ganar” sin que nadie lo diga
- Modelado dinámico: Predecir cómo cambia el entorno según las acciones
- Planificación adaptativa: Ejecutar estrategias en entornos cada vez más difíciles
Estas son capacidades que cualquier niño de cinco años tiene de forma natural al enfrentarse a un juego nuevo. Para la IA actual, son casi imposibles.
Los Números
El paper técnico (disponible en arXiv) valida las siguientes cifras a fecha de lanzamiento:
| Sistema | Puntuación ARC-AGI-3 |
|---|---|
| Humanos | 100% |
| Mejor resultado en competición previa | 12.58% |
| Opus 4.6 Max | 0.2% |
| GPT-5.2 Pro | <1% |
| Gemini 3 Pro | <1% |
| Media modelos frontera | ~0.26% |
El contraste con ARC-AGI-2 es brutal. Un benchmark donde los mejores sistemas llegaban al 84.6% se convierte en uno donde el mejor agente de la competición previa llegó al 12.58% — y la mayoría de los modelos grandes quedan por debajo del 1%.
La excepción más interesante es Symbolica AI, que el primer día del lanzamiento alcanzó el 36% usando un framework de RL agentico llamado Agentica, a un coste menor que los modelos grandes de frontera. Es la señal más clara de que el enfoque de “escalar un LLM” no es el camino aquí.
Por Qué es Tan Difícil
Los autores identifican concretamente qué rompe a los modelos actuales:
Memoria persistente. Los LLMs son sin estado por naturaleza. En un entorno interactivo, necesitas recordar qué has hecho, qué ha pasado, y actualizar tu modelo del mundo con cada acción. Los transformers no están diseñados para esto.
Exploración dirigida por hipótesis. Un humano que enfrenta un videojuego nuevo forma hipótesis (“creo que este botón hace X”) y diseña acciones para falsificarlas o confirmarlas. Los LLMs generan tokens; no prueban hipótesis de forma estructurada.
Generalización compositiva profunda. ARC-AGI-3 requiere combinar más de 2-3 pasos de razonamiento de forma encadenada, adaptándose al contexto. Es precisamente donde los modelos actuales se degradan de forma pronunciada.
Inferencia de objetivos desde feedback escaso. Sin instrucciones, el agente tiene que inferir qué constituye el éxito observando el entorno. Eso requiere teoría de la mente sobre el diseñador del juego, algo que los LLMs simulan mal.
El Diseño de la Competición
ARC Prize 2026 tiene más de 2 millones de dólares en premios, con un track específico de 850.000$ para ARC-AGI-3. La estructura de hitos intermedios (junio y septiembre) incentiva el progreso continuo, y hay 75.000$ garantizados para los primeros clasificados en cada hito.
El conjunto público está disponible para desarrollo y entrenamiento. El conjunto privado, usado para puntuación oficial, tiene una proporción invertida respecto a benchmarks anteriores (1:10 en lugar de 10:1) para evitar sobreajuste. Las soluciones deben ser código ejecutable, no llamadas a APIs de modelos cerrados.
La competición termina el 2 de noviembre de 2026. Los organizadores son explícitos en que ARC-AGI-3 está diseñado para permanecer sin saturar — el objetivo no es que alguien llegue al 100%, sino medir el progreso real hacia inteligencia general.
Lo Que Significa
La comparación entre ARC-AGI-2 y ARC-AGI-3 ilustra algo importante. En ARC-AGI-2, el progreso fue principalmente impulsado por escalar razonamiento: más cadenas de pensamiento, más tiempo de cómputo en inferencia. Eso llevó del ~40% al 84.6%.
ARC-AGI-3 parece ser el benchmark donde ese enfoque llega a su límite. El 0.2% de Opus 4.6 Max no es un problema de escala — es un problema de arquitectura. Los agentes que parten RL (como el 36% de Symbolica) sugieren que el camino correcto puede estar en aprendizaje por refuerzo en entornos interactivos, no en LLMs más grandes.
Si eso resulta ser cierto, ARC-AGI-3 podría señalar el momento en que la investigación en AGI giró seriamente hacia agentes que aprenden de entornos, no de texto. Chollet lleva años argumentando que la generalización eficiente — aprender de pocos ejemplos en situaciones nuevas — es la característica definitoria de la inteligencia humana, y que los LLMs no la tienen. ARC-AGI-3 es su argumento más fuerte hasta la fecha.
La IA puede ganar al ajedrez, escribir código, razonar sobre matemáticas, y mantener conversaciones convincentes. Pero cuando le pones un videojuego nuevo y le dices “averigua las reglas jugando”, el 99.74% de las veces, no sabe hacerlo.
Fuentes:
