ARC-AGI-3 : Évaluation de l'Intelligence Agentique et Défis de l'IA

Découvrez ARC-AGI-3, un nouveau benchmark pour l'intelligence agentique, mesurant l'écart entre l'IA et l'intelligence humaine. Analyse des performances des modèles de pointe et des défis de généralisation.

5 min de lectureGuide IA

Introduction

ARC-AGI-3 est un nouveau benchmark interactif conçu pour évaluer l'intelligence agentique des modèles d'IA, en mesurant l'écart résiduel entre leurs capacités et celles de l'intelligence humaine. Il permet de tester la capacité des agents à explorer, inférer des objectifs, construire des modèles internes de l'environnement, et planifier des séquences d'actions efficaces sur des tâches inédites.

Précis de configuration

Élément	Version / Lien
Langage / Runtime	Python (suggéré pour les implémentations de harnais)
Librairie principale	`LiteLLM` (mentionné comme compromis, ne pas mettre à jour)
APIs requises	API de l'ARC Prize Foundation pour les tests semi-privés
Clés / credentials nécessaires	Non spécifié pour le benchmark lui-même, mais implicite pour l'accès à l'API

Guide étape par étape : Comprendre ARC-AGI-3

Guide étape par étape : Comprendre ARC-AGI-3
ARC-AGI-3 n'est pas un outil à installer, mais un benchmark pour évaluer les modèles d'IA. Voici comment il est structuré et ce qu'il mesure :

Étape 1 — Environnements et Tâches

Pourquoi : Les environnements sont conçus pour être des défis d'intelligence agentique, nécessitant une compréhension dynamique et une planification d'actions, sans s'appuyer sur le langage ou des connaissances externes mémorisées.

# Le benchmark utilise des environnements interactifs basés sur des tours.
# Chaque tour, l'agent reçoit un cadre (ou une série de cadres représentant une animation de transition)
# et doit effectuer une action pour passer au cadre suivant.
# L'état de l'environnement ne change pas de manière asynchrone par rapport aux actions de l'agent.

# Exemple de tâche (non fourni directement, mais illustré visuellement) :
# Déplacer un icône pour manipuler l'environnement.
# Utiliser un symbole '+' pour faire pivoter une forme.
# L'objectif est de faire correspondre une forme inférieure gauche à une forme supérieure droite.
# Ces objectifs ne sont pas explicitement énoncés, ils doivent être inférés ou auto-produits.

Étape 2 — Mesure de la Performance

Pourquoi : La performance est mesurée par l'efficacité des actions par niveau, normalisée par rapport à une base de référence humaine, et non par le nombre de niveaux résolus.

# La méthode de notation ARC-AGI-3 vise à évaluer le testeur par son efficacité d'action par niveau
# (par rapport à une base de référence humaine), normalisée par environnement, sur tous les environnements.
# Cette fonction de notation est appelée RHAE (Relative Human Action Efficiency), prononcée "Ray".

# Procédure de notation :
# 1. Noter le testeur d'IA par son "efficacité d'action par niveau". Pour chaque niveau que le testeur complète,
#    compter le nombre d'actions qu'il a fallu.
# 2. Comparer à la "base de référence humaine". Pour chaque niveau compté, comparer le nombre d'actions de l'agent IA
#    à une base de référence humaine, que nous définissons comme le deuxième meilleur temps d'action humain.
#    Ex : Si le deuxième meilleur humain a complété un niveau en seulement 10 actions, mais que l'agent IA a pris 100 actions pour le compléter,
#    alors l'agent IA obtient un score de (10/100)^2 pour ce niveau, ce qui est rapporté comme 1%.
#    Notez que la notation par niveau est calculée en utilisant le carré de l'efficacité.
# 3. "Normalisé par environnement". Chaque niveau est noté de 0% (très inefficace) à 100% (correspond ou dépasse le niveau d'efficacité humaine).
#    Le score de l'environnement sera une moyenne pondérée des scores de niveau sur tous les niveaux de cet environnement.
# 4. "Sur tous les environnements". Le score total est la somme des scores d'environnement individuels divisée par le nombre total d'environnements.
#    Cela donnera un score entre 0% et 100%.

# La performance de l'IA est plafonnée à 100% (ou la base de référence humaine de 100%).
# Si un modèle prend plus de 5 fois le nombre d'actions d'un humain, la tentative est annulée (en raison des coûts d'API).

Étape 3 — Partenariats Académiques et Expérimentation Communautaire

Pourquoi : Ces collaborations et expérimentations permettent d'explorer de nouvelles approches et de comprendre les défis de conception des harnais et de gestion du contexte.

# Symbolica AI a introduit un harnais appelé Argentics (11), qui utilise une architecture d'orchestrateur-sous-agent.
# Un orchestrateur de haut niveau n'interagit pas directement avec l'environnement.
# Au lieu de cela, il délègue les tâches à des sous-agents spécialisés qui renvoient des résumés textuels compressés.
# Cette conception contraint la croissance du contexte et permet au système de maintenir un plan de niveau supérieur
# sans dépasser les limites de contexte.
# Cette approche a permis de résoudre les trois environnements publics.

Tableaux comparatifs : Performances des Modèles sur ARC-AGI-3

Scores du classement semi-privé pour les modèles de pointe (au 24 mars 2026)

Fournisseur	Modèle	Score
Google	Gemini 3.1 Pro Preview	0.37%
OpenAI	GPT 5.4 (High)	0.26%
Anthropic	Opus 4.6 (Max)	0.20%
xAI	Grok-4.20 (Beta 0309 Reasoning)	0.00%

Comparaison des modèles de transcription en temps réel (AssemblyAI Universal-3 Pro Streaming)

Caractéristiques	AssemblyAI Universal-3 Pro Streaming	Deepgram Nova-3	OpenAI GPT-4o Transcribe	Microsoft Azure	ElevenLabs Scribe V2
Taux d'entités manquées moyen (plus bas est mieux)	16.7%	25.2%	23.3%	25.1%	22.1%
Performance de diarisation des locuteurs	Leader de l'industrie	Non fiable	Non fiable	Non fiable	X
Concurrence illimitée, pas de limites de débit	✅	X	X	X	X
Prompting dynamique par mots-clés (tour par tour)	✅	Statique uniquement	X	X	X
Prompting en temps réel	✅	X	X	X	X
Tarification basée sur l'utilisation, pas de contrats	✅	Engagements, dépassements, & limites de débit	Engagements, dépassements, & limites de débit	Engagements, dépassements, & limites de débit	X

⚠️ Erreurs fréquentes et pièges

⚠️ Erreurs fréquentes et pièges dans l'évaluation de l'IA

Surapprentissage Spécifique à la Tâche (Task-specific overfitting) : Les modèles d'IA peuvent mémoriser des tâches spécifiques des benchmarks précédents (ARC-AGI-1 et 2) si les ensembles d'entraînement et de test sont trop similaires. ARC-AGI-3 utilise des ensembles de données privés et distincts pour éviter ce problème, garantissant que les modèles testent la généralisation et non la mémorisation.
Surapprentissage Spécifique au Domaine (Domain-specific overfitting) : Injecter une grande quantité d'instructions humaines dans un harnais ou créer manuellement des configurations de harnais peut artificiellement améliorer la performance sans mesurer l'intelligence humaine. ARC-AGI-3 vise à mesurer l'intelligence générale des IA de pointe en se concentrant sur la performance de systèmes non spécialement préparés, servis via une API à usage général.
Pénalités d'Efficacité Quadratique : Le système de notation de l'ARC-AGI-3 pénalise lourdement l'inefficacité. Si un modèle prend 10 fois plus d'actions qu'un humain pour résoudre une tâche, son score est réduit à 1% (10/100)^2. Cela peut masquer des progrès réels en matière de résolution de problèmes si l'efficacité n'est pas optimale.
Limitation des Actions et Coûts d'API : Les tentatives d'un modèle sont annulées si elles dépassent 5 fois le nombre d'actions prises par un humain pour résoudre une tâche. Cette limite, souvent due aux coûts d'API, peut empêcher les modèles d'explorer des solutions potentiellement valides mais plus longues, faussant ainsi l'évaluation de leur capacité à résoudre des problèmes complexes.

Glossaire

AGI (Artificial General Intelligence) : Intelligence artificielle capable de comprendre, d'apprendre et d'appliquer l'intelligence à un large éventail de tâches, au même niveau que l'intelligence humaine ou la surpassant.
Intelligence Agentique : Capacité d'un système d'IA à agir de manière autonome dans un environnement, à explorer, à planifier, à mémoriser et à définir des objectifs pour atteindre des résultats souhaités.
RHAE (Relative Human Action Efficiency) : Mesure de notation utilisée par ARC-AGI-3 qui évalue l'efficacité d'un agent IA en comparant le nombre d'actions qu'il effectue pour résoudre une tâche à celui d'une base de référence humaine, avec une pénalité quadratique pour l'inefficacité.

Points clés à retenir

Écart Persistant entre l'IA et l'Humain : ARC-AGI-3 démontre un écart significatif entre les performances des modèles d'IA actuels et l'intelligence humaine sur des tâches d'intelligence agentique non saturées.
Accent sur l'Apprentissage et la Généralisation : Le benchmark est conçu pour tester la capacité des modèles à apprendre de nouvelles tâches et à généraliser leurs connaissances, plutôt que de s'appuyer sur la mémorisation ou des connaissances préexistantes.
Défis de l'Intelligence Fluide : Les modèles d'IA de pointe ont montré des capacités de raisonnement en chaîne de pensée, leur permettant de penser à la volée et de combiner des motifs pour atteindre des objectifs, mais ils peinent encore sur des tâches nécessitant une véritable intelligence fluide.
Importance des Ensembles de Test Privés : Pour éviter le surapprentissage, les futurs benchmarks devront utiliser des ensembles de test privés et "hors distribution" par rapport aux données d'entraînement publiques.
Coûts et Efficacité : Les pénalités quadratiques pour l'inefficacité des actions et les limites d'API soulignent l'importance de l'optimisation des ressources pour le développement de l'IA, même si cela peut masquer certaines capacités de résolution de problèmes.
L'IA comme Assistant de Recherche : OpenAI vise à développer un "chercheur IA" entièrement automatisé, où l'IA effectue le travail de base et les humains révisent, transformant la recherche en une forme d'ingénierie logicielle.
Risques de Sécurité des Agents : L'augmentation de l'autonomie des agents IA soulève des préoccupations en matière de sécurité, comme le risque de compromission de bibliothèques open source, nécessitant une surveillance humaine continue.
Phase Intermédiaire de l'IA : Nous sommes actuellement dans une "phase intermédiaire" de l'IA, où les modèles sont de meilleurs "premiers brouillons" que les humains, mais leurs résultats sont souvent imparfaits, et la généralisation des sujets de haut niveau reste un défi.

Ressources

ARC Prize Foundation : https://www.arcprize.org/
Article ARC-AGI-3 (arXiv) : https://arxiv.org/pdf/2403.13127
AssemblyAI Universal-3 Pro Streaming : https://www.assemblyai.com/
MIT Technology Review - OpenAI autonomous researcher : https://news.mit.edu/topic/artificial-intelligence
LM Council.AI : https://lmcouncil.ai/

Tous les guides Read in English →