F
Fireship
#intelligence artificielle#histoire informatique#machine learning

L'Évolution de l'IA : 10 Papiers Scientifiques Clés en Informatique

Découvrez l'histoire de l'intelligence artificielle à travers 10 papiers scientifiques fondamentaux, de la machine de Turing aux modèles de langage modernes.

5 min de lectureGuide IA

Introduction

Ces concepts et outils sont essentiels pour comprendre et développer des systèmes d'intelligence artificielle modernes, des modèles de langage aux systèmes distribués, en passant par la vision par ordinateur. Ils fournissent les fondations théoriques et pratiques nécessaires à la création de logiciels intelligents et évolutifs.

Précis de configuration

Élément Version / Lien
Langage / Runtime Python (pour les implémentations modernes de l'IA)
Librairie principale PyTorch (pour l'implémentation des réseaux neuronaux)
APIs requises OpenAI API (pour l'accès aux modèles GPT), Anthropic API (pour l'accès aux modèles Claude)
Clés / credentials nécessaires Clés API pour les services LLM (OpenAI, Anthropic)

Guide étape par étape

Étape 1 — La Machine de Turing et le Problème de la Décision

Étape 1 — La Machine de Turing et le Problème de la Décision
En 1936, Alan Turing a posé une question fondamentale : « Tout problème mathématique peut-il être résolu par un algorithme ? » Sa réponse, étonnamment, fut non. Pour le prouver, il a dû définir ce qu'est un algorithme, imaginant une machine hypothétique avec une bande infinie, une tête de lecture/écriture et un ensemble de règles. Cette machine, connue sous le nom de Machine de Turing, est le plan abstrait de tout appareil informatique que nous connaissons aujourd'hui. Il a ensuite utilisé cette machine pour démontrer l'insolvabilité du Problème de l'Arrêt, montrant qu'il est impossible de créer un programme capable de déterminer si un autre programme se terminera ou bouclera indéfiniment. Cela a prouvé qu'il existe des problèmes mathématiques qu'aucun algorithme ne peut résoudre.

Étape 2 — La Théorie Mathématique de la Communication et le Bit

Douze ans plus tard, en 1948, Claude Shannon a posé une autre question cruciale : « Qu'est-ce que l'information, en tant que chose mesurable ? » Dans son article "A Mathematical Theory of Communication", Shannon a abstrait le sens des mots, affirmant que deux messages portent la même quantité d'information s'ils sont également surprenants. Il a mesuré cette "surprise" en une unité qu'il a appelée le bit, démontrant que toute information peut être réduite à un flux de uns et de zéros. Pour estimer l'entropie (une mesure de l'incertitude ou de la surprise) du langage, il a demandé à des humains de deviner la lettre suivante dans une phrase, une technique qui préfigure la prédiction de jetons dans les modèles d'IA actuels. Bien que Shannon ne cherchait pas à créer l'intelligence artificielle, il a fourni les bases mathématiques de la prédiction et de la compression, et l'ancêtre spirituel des fonctions de perte.

Étape 3 — Le Perceptron : Premiers Pas vers l'Apprentissage Automatique

Étape 3 — Le Perceptron : Premiers Pas vers l'Apprentissage Automatique
En 1958, Frank Rosenblatt, un psychologue, a construit la première machine capable d'apprendre : le Perceptron. Inspiré par le fonctionnement des neurones dans le cerveau, il a conçu un modèle qui prend des entrées, leur attribue des poids, puis ajuste ces poids lorsqu'il fait une erreur, jusqu'à ce qu'il puisse classer des motifs de manière autonome. Le Perceptron est le bloc de construction fondamental des réseaux neuronaux modernes. L'enthousiasme fut immédiat, avec des financements de la Marine et des prédictions du New York Times sur une conscience informatique imminente. Cependant, en 1969, Marvin Minsky et Seymour Papert ont publié un livre, "Perceptrons", qui a prouvé qu'un perceptron à une seule couche ne pouvait même pas apprendre la logique triviale du OU exclusif (XOR). Ce travail a conduit à un "hiver de l'IA", où les financements ont disparu et la recherche sur les réseaux neuronaux a stagné. Ironiquement, Minsky et Papert avaient noté que l'empilement de perceptrons résolvait le problème, mais personne ne savait comment entraîner de telles architectures à l'époque.

Étape 4 — Temps, Horloges et Ordre des Événements dans un Système Distribué

En 1978, Leslie Lamport a publié "Time, Clocks, and the Ordering of Events in a Distributed System". Les réseaux neuronaux sont inutiles s'ils ne peuvent pas être exécutés à grande échelle. Lamport a réalisé que des ordinateurs séparés sans horloge partagée ne peuvent pas avoir un temps "maintenant" universel, ce qui pose un problème majeur pour les systèmes distribués qui doivent exécuter des tâches dans un ordre précis. Il a résolu ce problème avec la "relation d'antériorité" (happen-before relation) : au lieu de se fier à l'heure de l'horloge murale, les événements sont ordonnés par causalité (si A pouvait causer B, alors A vient avant B). À partir de là, il a construit des horloges logiques qui permettent à un nombre illimité de machines de rester synchronisées sans jamais regarder une horloge physique. Ce papier est devenu la pierre angulaire de chaque base de données, blockchain et exécution massive d'entraînement d'IA, où des milliers de GPU doivent rester synchronisés sans sombrer dans le chaos.

Étape 5 — Apprentissage des Représentations par Rétropropagation des Erreurs

Dix-sept ans après l'hiver de l'IA, en 1986, David Rumelhart, Geoffrey Hinton et Ronald J. Williams ont publié "Learning representations by back-propagating errors". Ils ont répondu à la question de savoir comment entraîner une pile de couches de perceptrons : la rétropropagation. Le processus consiste à faire passer les données vers l'avant dans le réseau, à mesurer l'erreur de la sortie, puis à propager cette erreur vers l'arrière à travers chaque couche. En utilisant la règle de la chaîne du calcul différentiel, chaque poids est ajusté dans la direction qui réduit l'erreur. En répétant ce processus des millions de fois, le réseau apprend de lui-même. La découverte la plus surprenante fut que les couches cachées intermédiaires commençaient à inventer leurs propres caractéristiques (bords, formes, concepts) sans avoir été explicitement programmées. Le problème du XOR, jugé impossible 17 ans auparavant, est devenu trivial. La rétropropagation est toujours essentielle aux réseaux neuronaux aujourd'hui, mais à l'époque, ils étaient limités par le manque de données et de puissance de calcul.

Étape 6 — L'Anatomie d'un Moteur de Recherche Web Hypertextuel à Grande Échelle

En 1998, avec l'avènement d'Internet, Sergey Brin et Larry Page ont publié "The Anatomy of a Large-Scale Hypertextual Web Search Engine". Ce papier décrit l'algorithme PageRank, qui, au lieu de classer une page web par la fréquence des mots, traite chaque lien comme un vote. Chaque vote est pondéré par la fiabilité du votant. Ils ont construit un prototype dans leur dortoir, qui est finalement devenu Google. Plus important encore, cet algorithme a permis d'assembler la plus grande pile structurée de texte humain jamais créée (Internet), qui est devenue la matière première pour l'entraînement des futurs modèles d'IA.

Étape 7 — Classification ImageNet avec des Réseaux Neuronaux Convolutifs Profonds

En 2012, nous avons assisté à une avancée majeure avec le papier "ImageNet Classification with Deep Convolutional Neural Networks" par Krizhevsky, Sutskever et Hinton. L'équipe a combiné la rétropropagation avec un ensemble de données massif appelé ImageNet (des millions de photos étiquetées à la main) et une puissance de calcul suffisante (quelques GPU de jeu grand public). Alex Krizhevsky a conçu un réseau neuronal convolutif profond (CNN) appelé AlexNet et l'a entraîné. Lors du concours annuel ImageNet, AlexNet a surpassé tous les concurrents, réduisant le taux d'erreur de 10 points en une seule année (de ~26% à 16,4%). Cela a démontré de manière irréfutable que l'apprentissage profond fonctionnait, à condition d'avoir suffisamment de données, de puissance de calcul et la bonne architecture.

Étape 8 — L'Attention est Tout ce Dont Vous Avez Besoin

En 2017, Ashish Vaswani et Google ont publié "Attention Is All You Need". À cette époque, les grands modèles de langage (LLM) avaient un problème majeur : ils oubliaient le début des phrases car ils traitaient les jetons séquentiellement. Ce papier a résolu ce problème en introduisant une nouvelle architecture appelée le Transformer. Le Transformer abandonne la lecture séquentielle, permettant à chaque mot de considérer tous les autres mots simultanément et de décider ce qui est pertinent. Non seulement cela rend les LLM plus intelligents, mais les Transformers sont également plus évolutifs. Google a rendu cette architecture open source, et elle est maintenant utilisée par tous les laboratoires d'IA, constituant le "T" de ChatGPT.

Étape 9 — Les Modèles de Langage sont des Apprenants à Peu d'Exemples

En 2020, OpenAI a publié "Language Models are Few-Shot Learners" par Tom Brown et son équipe. Ils ont pris l'architecture Transformer et ont posé la question : « Et si nous la rendions énorme ? » Non pas deux fois plus grande, mais avec 175 milliards de paramètres, et l'ont entraînée sur l'intégralité d'Internet. Ils ont fait le pari audacieux que l'intelligence n'est pas un algorithme secret manquant, mais qu'elle émerge simplement une fois qu'un seuil d'échelle est franchi. Le résultat fut GPT-3, le modèle qui a déclenché la bulle actuelle de l'IA. À cette échelle, il a appris à généraliser des tâches comme la traduction, la synthèse et l'écriture de code sans avoir été explicitement programmé pour le faire. Deux ans plus tard, ce papier a évolué vers ChatGPT, un produit qui vaut aujourd'hui des milliards de dollars. En substance, ChatGPT ne fait que prédire le mot ou le jeton suivant, tout comme Claude Shannon le faisait en 1948, mais à une échelle sans précédent.

Tableaux comparatifs

La vidéo présente une progression chronologique des concepts plutôt qu'une comparaison directe d'outils ou de modèles avec des critères mesurables. Par conséquent, aucun tableau comparatif n'est inclus.

⚠️ Erreurs fréquentes et pièges

  1. Surestimation des capacités initiales des Perceptrons : Les premiers Perceptrons à une seule couche étaient limités et incapables de résoudre des problèmes non-linéaires comme le OU exclusif (XOR), ce qui a conduit à un "hiver de l'IA". La solution a été l'introduction de couches multiples, mais la méthode d'entraînement n'était pas encore connue.
  2. Manque de données et de puissance de calcul : Pendant des décennies, les réseaux neuronaux n'ont pas pu atteindre leur plein potentiel en raison de l'absence de vastes ensembles de données étiquetées et de la puissance de calcul nécessaire pour les entraîner efficacement. L'avènement d'Internet et des GPU a résolu ce problème.
  3. Problèmes de mémoire dans les premiers LLM : Les modèles de langage séquentiels avaient du mal à maintenir le contexte sur de longues phrases, oubliant le début d'une conversation à la fin. L'architecture Transformer a résolu ce problème en permettant à chaque jeton de considérer tous les autres jetons simultanément.

Glossaire

  • Machine de Turing : Un modèle abstrait d'ordinateur qui manipule des symboles sur une bande de ruban selon un ensemble de règles, servant de fondement théorique à l'informatique.
  • Bit : L'unité fondamentale d'information en informatique et en théorie de l'information, représentant un choix entre deux alternatives (0 ou 1).
  • Rétropropagation (Backpropagation) : Un algorithme utilisé pour entraîner les réseaux neuronaux en calculant le gradient de la fonction de perte par rapport aux poids du réseau, puis en ajustant ces poids pour minimiser l'erreur.
  • Perceptron : Le plus simple type de réseau neuronal, capable d'apprendre à classer des données en ajustant ses poids en fonction des erreurs de prédiction.
  • Transformer : Une architecture de réseau neuronal introduite en 2017, qui utilise des mécanismes d'attention pour traiter les séquences de données en parallèle, résolvant les problèmes de dépendance à long terme des modèles séquentiels précédents.

Points clés à retenir

  • La Machine de Turing a défini les limites fondamentales de ce qui est calculable, inventant le concept abstrait de l'ordinateur.
  • Claude Shannon a quantifié l'information avec le bit et l'entropie, jetant les bases de la communication numérique et de la prédiction de jetons.
  • Le Perceptron de Rosenblatt a été la première machine capable d'apprendre, bien que ses limites initiales aient conduit à un "hiver de l'IA".
  • La rétropropagation a permis d'entraîner des réseaux neuronaux profonds, révélant la capacité des couches cachées à inventer leurs propres caractéristiques.
  • L'algorithme PageRank de Google a structuré l'information du web, créant un vaste ensemble de données textuelles pour l'entraînement de l'IA.
  • AlexNet a démontré la puissance des CNN et de l'apprentissage profond sur des tâches de vision par ordinateur, marquant le début de l'ère moderne de l'IA.
  • L'architecture Transformer a résolu les problèmes de mémoire des LLM en permettant un traitement parallèle des séquences, devenant la base de modèles comme ChatGPT.
  • GPT-3 a prouvé que l'intelligence peut émerger d'un modèle de langage suffisamment grand, capable de généraliser des tâches sans entraînement explicite.

Ressources

  • Coder : https://coder.com (Sponsor de la vidéo, fournit des environnements de développement auto-hébergés et des agents IA).
  • "On Computable Numbers, with an Application to the Entscheidungsproblem" par Alan Turing (1936).
  • "A Mathematical Theory of Communication" par Claude Shannon (1948).
  • "The Perceptron" par Frank Rosenblatt (1958).
  • "Perceptrons" par Marvin Minsky et Seymour Papert (1969).
  • "Time, Clocks, and the Ordering of Events in a Distributed System" par Leslie Lamport (1978).
  • "Learning representations by back-propagating errors" par David Rumelhart, Geoffrey Hinton et Ronald J. Williams (1986).
  • "The Anatomy of a Large-Scale Hypertextual Web Search Engine" par Sergey Brin et Larry Page (1998).
  • "ImageNet Classification with Deep Convolutional Neural Networks" par Alex Krizhevsky, Ilya Sutskever et Geoffrey Hinton (2012).
  • "Attention Is All You Need" par Ashish Vaswani et al. (Google, 2017).
  • "Language Models are Few-Shot Learners" par Tom Brown et al. (OpenAI, 2020).