T
Two Minute Papers
#IA#DeepMind#Mathématiques

AlphaProof Nexus : L'IA de DeepMind Résout des Problèmes Mathématiques Séculaires

Découvrez comment AlphaProof Nexus de DeepMind utilise un système de tournoi d'agents IA pour résoudre des problèmes mathématiques ouverts depuis des décennies, transformant des composants peu fiables en un système de preuve formelle robuste.

5 min de lectureGuide IA

Introduction

AlphaProof Nexus est un système d'IA développé par DeepMind qui permet de générer des preuves formelles pour des problèmes mathématiques complexes. Son utilité concrète réside dans sa capacité à résoudre des problèmes ouverts depuis des décennies, en s'appuyant sur un processus itératif de validation et de sélection, même à partir de composants d'IA intrinsèquement peu fiables.

Précis de configuration

Élément Version / Lien
Langage de preuve formelle Lean
Librairie principale AlphaProof (utilisée par le Prover Subagent)
Composants d'IA LLM (pour Prover et Rater Subagents)
Base de données Population Database (pour les esquisses, preuves et scores ELO)
Outils de débogage et d'évaluation Weights & Biases - Weave (wandb.me/papers)

Guide étape par étape

Guide étape par étape

Étape 1 — Formalisation du problème en Lean

Le processus commence par un mathématicien qui formalise le problème à résoudre dans le langage de preuve formelle Lean. La solution ou la preuve est initialement laissée vide, l'objectif étant que l'IA la complète.

theorem erdos_problem_125 :
  lower_density (A + B) > 0 :=
sorry -- proof goes here

Étape 2 — Tentative de preuve par le Prover Subagent

Un agent IA, le Prover Subagent (basé sur un Grand Modèle de Langage – LLM – et AlphaProof), tente de générer une preuve pour le problème formalisé. Cette étape est souvent sujette à l'échec ou à la génération de preuves incorrectes, car les LLM peuvent 'halluciner' des informations.

-- Exemple d'une tentative de preuve par l'IA (peut échouer)
search_replace
  - default
  + False
  - sorry
  + constructor
  + intro h; exact F.elim h
  + intro h
  have (A+B).lowerDensity = 0

Étape 3 — Validation de la preuve par le Proof Validator

La preuve générée par le Prover Subagent est ensuite soumise à un Proof Validator. Ce validateur est un système d'IA distinct, conçu pour vérifier rigoureusement la correction formelle de la preuve. Si la preuve est incorrecte ou contient des erreurs logiques, le validateur la rejette et fournit des retours sur les raisons de l'échec.

-- Le validateur vérifie la preuve
-- Si des erreurs sont trouvées, il rejette la preuve et indique les problèmes.
-- Exemple de sortie du validateur:
-- VALIDATOR: REJECTED (AI HALLUCINATION) ❌

Étape 4 — Évaluation et sélection par le Rater Subagent (tournoi ELO)

Le Rater Subagent, un autre LLM, joue un rôle crucial en évaluant les différentes tentatives de preuve. Il compare deux solutions précédentes (même si toutes deux sont incorrectes) et sélectionne celle qui est 'un peu meilleure'. Ce processus est inspiré du système de classement ELO utilisé aux échecs, où chaque solution reçoit un score ELO. Les solutions les mieux notées, même imparfaites, sont utilisées comme points de départ pour de nouvelles tentatives.

-- Le Rater Subagent compare deux solutions (par exemple, Sol-Meta-Solv et Sol-Alpha-Proof)
-- et attribue des scores ELO en fonction de leur qualité relative.
-- ELO 1232 Meta-Solv vs ELO 1203 Alpha-Proof
-- Le Rater sélectionne la meilleure solution pour l'itération suivante.

Étape 5 — Itération et amélioration continue

Le système itère ce processus : le Prover Subagent génère de nouvelles preuves en s'appuyant sur les solutions les mieux notées de la Population Database, le Proof Validator vérifie, et le Rater Subagent évalue. Ce cycle se répète jusqu'à ce qu'une preuve formellement correcte soit trouvée et validée. Cette approche permet au système de progresser de manière incrémentale, transformant des tentatives initialement peu fiables en preuves robustes.

Tableaux comparatifs

Tableaux comparatifs

Évolution des capacités mathématiques des IA (GPT-3)

Période Capacité Fiabilité Statut Source
Il y a 4 ans Ne peut pas additionner de manière fiable Faible Lutte GPT-3
Il y a 2 ans Difficultés en mathématiques de lycée Moyenne Lutte ChatGPT
Il y a 1 an Médaille d'or aux Olympiades de mathématiques Élevée Succès IA
Aujourd'hui Résout des problèmes ouverts de 50 ans Très Élevée Succès AlphaProof Nexus

Comparaison des modèles Gemini avec/sans 'harnais' (taux de réussite)

Modèle Avec 'harnais' (-2 harness) Tentative unique (one-shot attempt) Meilleur score Contexte
Gemini 3.5 Flash 76.2% 55.1% 83.6% USACOHD Roboherd
Gemini 3 Flash 58.0% 49.6% 62.0% USACOHD Roboherd
Gemini 3.1 Pro 70.3% 54.2% 78.2% USACOHD Roboherd

Le 'Battle of Proofs' (exemples de problèmes mathématiques)

  • Pythagore : a² + b² = c²
  • Nombres premiers infinis : |P| = ∞
  • √2 Irrationnel : √2 ∉ Q
  • Identité d'Euler : e^(iπ) + 1 = 0
  • Diagonale de Cantor : |R| > |N|
  • Dernier théorème de Fermat : xⁿ + yⁿ ≠ zⁿ
  • Théorème d'incomplétude de Gödel : ¬Prov(G)
  • Théorème fondamental du calcul : ∫ f'(x)dx = f(b) - f(a)

⚠️ Erreurs fréquentes et pièges

  1. Hallucinations des LLM : Les grands modèles de langage peuvent générer des informations incorrectes ou inventées. AlphaProof Nexus contourne ce problème en utilisant un validateur formel qui vérifie chaque étape de la preuve, garantissant ainsi la correction mathématique.
  2. Biais de sélection des problèmes : Pour les tests initiaux, un sous-ensemble de 350 problèmes d'Erdős sur 1200 a été choisi. Ces problèmes étaient plus faciles à formaliser en Lean, ce qui peut donner une image biaisée de la capacité du système à résoudre des problèmes arbitraires.
  3. Dépendance à un modèle d'IA puissant : Bien que le système utilise des boucles et des tournois pour améliorer la fiabilité, les modèles d'IA plus petits n'ont pas réussi à résoudre un seul problème. Cela indique qu'un modèle d'IA 'costaud' (beefy AI) reste nécessaire au cœur du système pour aborder des problèmes complexes.
  4. Coût de calcul : Le coût de résolution d'un problème peut être de plusieurs centaines de dollars, ce qui, bien que potentiellement inférieur au travail humain sur des problèmes de longue date, reste un facteur à considérer pour une adoption à grande échelle.

Glossaire

Lean : Un assistant de preuve et un langage de programmation fonctionnel utilisé pour écrire et vérifier des preuves mathématiques formelles. Il permet de s'assurer que chaque étape d'une preuve est logiquement correcte.
Score ELO : Un système de classement utilisé pour évaluer la force relative des joueurs dans des jeux comme les échecs. Dans le contexte d'AlphaProof Nexus, il est utilisé pour classer la qualité des solutions générées par les agents IA, même si elles sont imparfaites.
Hallucination (IA) : Terme utilisé pour décrire les situations où un modèle d'IA génère des informations qui sont fausses, inventées ou sans fondement dans les données d'entrée, mais présentées comme des faits.

Points clés à retenir

Points clés à retenir

  • DeepMind a résolu 9 problèmes mathématiques ouverts depuis 56 ans, avec un coût d'environ 200 $ par problème.
  • Le système AlphaProof Nexus utilise un 'tournoi de preuves' où des agents IA s'affrontent et s'améliorent grâce à un système de notation ELO et un validateur formel.
  • Cette approche permet de construire un système fiable à partir de composants d'IA intrinsèquement peu fiables, en exploitant la vérification formelle.
  • L'intelligence ne réside plus uniquement dans la taille du modèle d'IA, mais aussi dans le 'harnais algorithmique' (boucles multi-agents) qui l'entoure.
  • La capacité des IA à résoudre des problèmes mathématiques complexes a progressé de manière exponentielle en seulement quatre ans.
  • Les outils comme Weights & Biases - Weave sont essentiels pour le débogage et l'évaluation des applications LLM, permettant une itération confiante.

Ressources