Automatisation de la Recherche Scientifique avec Lemma AI
Découvrez comment Lemma AI, une plateforme de recherche multi-agents, automatise la génération de code, les expériences et la rédaction de rapports scientifiques. Cet outil démocratise l'accès à la recherche approfondie en IA.
Introduction
Lemma AI est une plateforme qui permet d'automatiser des tâches de recherche scientifique complexes, de la génération d'hypothèses à la rédaction de rapports, en utilisant des agents d'IA pour planifier, exécuter et analyser des expériences. Elle démocratise l'accès à la recherche approfondie en transformant des processus coûteux et chronophages en tâches gérables par une simple description.
Précis de configuration
| Élément | Version / Lien |
|---|---|
| Plateforme | Lemma AI |
| Langage de programmation (pour le mode Code) | Python |
| Modèles de langage (pour le mode FARS) | Qwen2.5-72B-Instruct, GPT-4o |
| Librairies (pour le mode Code) | torch, torchvision, matplotlib, numpy, seaborn, PIL, timm, tqdm, sklearn |
| APIs requises (pour le mode Code) | Kolors API (pour la génération d'images AI) |
| Clés / credentials nécessaires | Crédits Lemma (gratuits pour les petites tâches, payants pour les tâches complexes) |
Guide étape par étape

Lemma AI fonctionne comme un système de recherche multi-agents, où une équipe d'agents d'IA collabore pour accomplir des tâches de recherche. Voici les quatre modes principaux et des exemples d'utilisation.
Étape 1 — Mode Explore : Rapports Concis
Le mode Explore génère un rapport concis avec des références clés en 1 à 3 minutes. Il est utile pour obtenir un aperçu rapide d'un sujet.
Étape 2 — Mode Survey : Études Académiques Approfondies
Le mode Survey génère une étude académique longue avec une large couverture de citations en quelques heures. Ce mode est plus intensif en crédits et en temps que le mode Explore.
Étape 3 — Mode Code : Classification d'Images Générées par IA

Le mode Code permet d'implémenter des méthodes et d'exécuter des expériences automatiquement. L'IA ne se contente pas d'écrire du code, elle effectue d'abord une recherche, lit la littérature pertinente et comprend la méthodologie avant de générer et d'exécuter le code dans un environnement virtuel.
Exemple de tâche : Construire un classificateur d'images capable de distinguer les images générées par IA des photos réelles, l'entraîner sur un petit ensemble de données et visualiser les caractéristiques qu'il détecte.
Recherche et Planification : L'IA commence par rechercher les méthodologies pertinentes pour la classification d'images et la détection d'images générées par IA.
Génération de Code : Elle génère les scripts Python nécessaires pour la préparation des données, l'entraînement du modèle et la visualisation.
# dataset.py (extrait) import os import torch from torch.utils.data import Dataset, DataLoader from torchvision import transforms from PIL import Image # ... (code pour charger et transformer les images) def get_dataloaders(data_dir="workspace/data", val_split=0.2, test_split=0.1): # Cette fonction charge les ensembles de données réels et générés par IA # et crée des DataLoaders pour l'entraînement, la validation et le test. # [Note de l'éditeur : le code complet de la fonction est omis pour la concision] pass# generate_dataset.py (extrait) import os import random from PIL import Image # ... (code pour télécharger des images réelles et générer des images AI via Kolors API) def generate_ai_images(num_images, output_dir): # Cette fonction génère des images AI en utilisant une API (Kolors API). # Elle gère également les limites de débit et les tentatives de réessai. # [Note de l'éditeur : le code complet de la fonction est omis pour la concision] pass# train.py (extrait) import torch import torch.nn as nn import torch.optim as optim import timm # ... (code pour définir le modèle, la fonction de perte, l'optimiseur) def train_one_epoch(model, dataloader, criterion, optimizer, device): # Cette fonction exécute une époque d'entraînement du modèle. # [Note de l'éditeur : le code complet de la fonction est omis pour la concision] pass def evaluate(model, dataloader, criterion, device): # Cette fonction évalue les performances du modèle sur un ensemble de données. # [Note de l'éditeur : le code complet de la fonction est omis pour la concision] pass# visualize.py (extrait) import matplotlib.pyplot as plt import numpy as np import seaborn as sns # ... (code pour générer des matrices de confusion, des visualisations Grad-CAM, des prédictions) def plot_confusion_matrix(true_labels, predictions, class_names): # Cette fonction crée et affiche une matrice de confusion. # [Note de l'éditeur : le code complet de la fonction est omis pour la concision] pass def plot_predictions_grid(model, data_dir, class_names): # Cette fonction affiche une grille d'images avec les prédictions du modèle. # [Note de l'éditeur : le code complet de la fonction est omis pour la concision] passExécution et Entraînement : L'IA exécute les scripts dans un environnement virtuel, télécharge les données, génère des images AI, entraîne le modèle (MobileNetV3-Small-0.5 sur 300 images) et génère des visualisations.
Analyse des Résultats : Elle produit des graphiques de courbes de perte et de précision, des matrices de confusion et des visualisations Grad-CAM pour montrer ce que le modèle a appris.
- Résultats : Précision de validation de 96,7% (époque 8), Précision de test de 100%, Macro F1 de 1.00, Temps d'entraînement ~45 secondes (CPU).
- Insights Grad-CAM : Les photos réelles activent les zones des corps de poissons, tandis que les images générées par IA activent des motifs stylistiques globaux et des dégradés de couleurs saturées.
- Caractéristiques discriminantes clés : Régularité de la texture, motifs de saturation des couleurs, distribution de la netteté des bords.
Étape 4 — Mode FARS : Recherche Scientifique Entièrement Automatisée

Le mode FARS (Fully Automated Research System) est le plus avancé, capable de générer des propositions de recherche, des études expérimentales et des articles de recherche complets. Il gère l'ensemble du processus de recherche de manière autonome.
Exemple de tâche : Étudier si demander à un grand modèle de langage (LLM) d'exprimer explicitement son incertitude ("Je ne suis pas sûr") réduit les hallucinations.
- Génération de Proposition : L'IA génère une proposition de recherche détaillée, incluant le contexte stratégique, l'alignement de la demande de l'utilisateur, la conformité aux contraintes, un "smell test", une vérification d'accessibilité, des scores et un résumé global.
- Planification et Expérimentation : Une fois la proposition validée, l'IA passe à la phase d'expérimentation. Elle définit un plan en 10 étapes, incluant l'installation des dépendances, l'exécution de différents types de prompts (Standard Baseline, Loose Uncertainty, Strict-Binary Abstention, Structured Confidence) sur plusieurs modèles (Qwen2.5-72B-Instruct, GPT-4o), l'optimisation, l'évaluation de l'efficacité, la détection des hallucinations, l'analyse de conformité et la visualisation des résultats.
- Cette phase peut prendre plusieurs jours et consommer un nombre significatif de crédits (par exemple, 63 596 crédits pour cette tâche).
- Rédaction de l'Article de Recherche : Après l'exécution des expériences, l'IA rédige un article de recherche professionnel de 9 pages, incluant :
- Résumé et Introduction : Présentation du problème des hallucinations des LLM et de la proposition de "binary abstention prompting".
- Travaux Connexes : Revue de la littérature sur la confiance verbalisée, l'abstention sélective et la détection des hallucinations.
- Méthode : Formulation du problème, description des conditions de prompting et des métriques d'évaluation (Coverage, False-Answer Rate (FAR), Hallucination-Coverage Efficiency (HCE)).
- Expériences et Résultats : Présentation des performances des modèles (Qwen2.5-72B et GPT-4o) sur les benchmarks SQuAD 2.0 et PopQA, avec des graphiques illustrant le compromis entre le taux de fausses réponses et la couverture.
- Analyse et Limitations : Discussion des résultats, y compris l'efficacité de la réduction du FAR et les limites du modèle.
- Conclusion : Le "binary abstention prompting" réduit le taux de fausses réponses de 18 à 51% et améliore la précision, mais peut entraîner une sur-abstention sur des questions à longue traîne. Des recherches futures sont suggérées pour explorer les seuils d'abstention adaptatifs et les méthodes de calibration.
Tableaux comparatifs
Performances des modèles sur les conditions de prompting (SQuAD 2.0 et PopQA)
| Modèle | Condition | Coverage (SQuAD 2.0) | FAR (SQuAD 2.0) | HCE (SQuAD 2.0) | Coverage (PopQA) | FAR (PopQA) | HCE (PopQA) |
|---|---|---|---|---|---|---|---|
| Qwen2.5-72B | Standard | 1.000 | 0.887 | 1.17 | 1.000 | 0.694 | 1.23 |
| Qwen2.5-72B | Loose-Binary | 0.917 | 0.917 | 1.13 | 1.000 | 0.701 | 1.23 |
| Qwen2.5-72B | Structured-Confidence | 0.782 | 0.655 | 2.36 | 0.745 | 0.652 | -4.50 |
| Qwen2.5-72B | Strict-Binary | 0.552 | 0.379 | 2.93 | 0.169 | 0.231 | -3.72 |
| Qwen2.5-72B | Strict-Binary v2 | 0.587 | 0.339 | 2.49 | 0.213 | 0.275 | -4.19 |
| GPT-4o | Standard | 1.000 | 0.906 | 1.58 | 1.000 | 0.454 | 1.13 |
| GPT-4o | Loose-Binary | 0.919 | 0.919 | 1.58 | 1.000 | 0.480 | 1.13 |
| GPT-4o | Structured-Confidence | 0.694 | 0.412 | 2.37 | 0.359 | 0.274 | -1.25 |
| GPT-4o | Strict-Binary | 0.720 | 0.508 | 2.04 | 0.660 | 0.412 | -1.16 |
Validation du mécanisme : Prévalence des hallucinations "hedged" sous prompting Loose-Binary
| Modèle | Benchmark | Total Wrong | HH Share |
|---|---|---|---|
| Qwen2.5-72B | SQuAD 2.0 | 917 | 0.138 |
| Qwen2.5-72B | PopQA | 1402 | 0.614 |
| GPT-4o | SQuAD 2.0 | 917 | 0.113 |
| GPT-4o | PopQA | 959 | 0.350 |
⚠️ Erreurs fréquentes et pièges
- Coût des tâches complexes : Les tâches FARS et Survey consomment beaucoup de crédits. Les utilisateurs doivent surveiller leur solde et acheter des packs de crédits pour les exécutions longues.
- Temps d'exécution : Les tâches complexes, en particulier le mode FARS, peuvent prendre plusieurs jours à s'exécuter car elles impliquent des environnements d'exécution virtuels, le téléchargement de modèles, l'entraînement et l'itération.
- Limitations des API : La génération d'images AI ou d'autres opérations peuvent être soumises à des limites de débit d'API, ce qui peut ralentir le processus ou nécessiter des logiques de réessai plus intelligentes.
- Interprétation des résultats : Bien que l'IA génère des rapports détaillés, une expertise humaine reste nécessaire pour interpréter pleinement les conclusions, notamment pour évaluer la nouveauté et la pertinence des découvertes.
Glossaire
Vibe Coding : Approche de développement où l'on décrit ce que l'on veut, et une IA le construit, sans intervention détaillée sur les décisions techniques.
Multi-Agent Research System : Système d'IA composé de plusieurs agents autonomes qui collaborent pour planifier, exécuter et valider des tâches de recherche complexes.
Hallucination-Coverage Efficiency (HCE) : Ratio de la réduction du taux de fausses réponses par rapport à la perte de couverture, indiquant l'efficacité d'un mécanisme d'abstention.
Points clés à retenir
- Lemma AI est une plateforme de recherche multi-agents qui automatise l'exploration de sujets, la revue de littérature, l'exécution d'expériences et la rédaction d'articles scientifiques.
- Elle propose quatre modes : Explore (rapports concis), Survey (études académiques), Code (implémentation et exécution d'expériences) et FARS (système de recherche entièrement automatisé).
- Le mode Code permet de transformer des idées de recherche en code exécutable, avec génération de données, entraînement de modèles et visualisations des résultats, le tout dans un environnement virtuel.
- Le mode FARS gère l'ensemble du cycle de recherche, de la proposition à l'article final, en passant par des études expérimentales complexes qui peuvent durer plusieurs jours.
- Lemma AI est une entreprise "AI for AI", utilisant l'IA pour rechercher et améliorer l'IA elle-même, ce qui représente une approche fondamentalement différente des outils d'IA traditionnels.
- La plateforme vise à démocratiser l'accès à la recherche professionnelle approfondie, la rendant accessible même sans expertise de pointe ou budgets massifs.