Automatisation de la Recherche Scientifique avec Lemma AI

Découvrez comment Lemma AI, une plateforme de recherche multi-agents, automatise la génération de code, les expériences et la rédaction de rapports scientifiques. Cet outil démocratise l'accès à la recherche approfondie en IA.

5 min de lectureGuide IA

Introduction

Lemma AI est une plateforme qui permet d'automatiser des tâches de recherche scientifique complexes, de la génération d'hypothèses à la rédaction de rapports, en utilisant des agents d'IA pour planifier, exécuter et analyser des expériences. Elle démocratise l'accès à la recherche approfondie en transformant des processus coûteux et chronophages en tâches gérables par une simple description.

Précis de configuration

Élément	Version / Lien
Plateforme	Lemma AI
Langage de programmation (pour le mode Code)	Python
Modèles de langage (pour le mode FARS)	Qwen2.5-72B-Instruct, GPT-4o
Librairies (pour le mode Code)	`torch`, `torchvision`, `matplotlib`, `numpy`, `seaborn`, `PIL`, `timm`, `tqdm`, `sklearn`
APIs requises (pour le mode Code)	Kolors API (pour la génération d'images AI)
Clés / credentials nécessaires	Crédits Lemma (gratuits pour les petites tâches, payants pour les tâches complexes)

Guide étape par étape

Guide étape par étape
Lemma AI fonctionne comme un système de recherche multi-agents, où une équipe d'agents d'IA collabore pour accomplir des tâches de recherche. Voici les quatre modes principaux et des exemples d'utilisation.

Étape 1 — Mode Explore : Rapports Concis

Le mode Explore génère un rapport concis avec des références clés en 1 à 3 minutes. Il est utile pour obtenir un aperçu rapide d'un sujet.

Étape 2 — Mode Survey : Études Académiques Approfondies

Le mode Survey génère une étude académique longue avec une large couverture de citations en quelques heures. Ce mode est plus intensif en crédits et en temps que le mode Explore.

Étape 3 — Mode Code : Classification d'Images Générées par IA

## Étape 3 — Mode Code : Classification d'Images Générées par IA
Le mode Code permet d'implémenter des méthodes et d'exécuter des expériences automatiquement. L'IA ne se contente pas d'écrire du code, elle effectue d'abord une recherche, lit la littérature pertinente et comprend la méthodologie avant de générer et d'exécuter le code dans un environnement virtuel.

Exemple de tâche : Construire un classificateur d'images capable de distinguer les images générées par IA des photos réelles, l'entraîner sur un petit ensemble de données et visualiser les caractéristiques qu'il détecte.

Recherche et Planification : L'IA commence par rechercher les méthodologies pertinentes pour la classification d'images et la détection d'images générées par IA.

Génération de Code : Elle génère les scripts Python nécessaires pour la préparation des données, l'entraînement du modèle et la visualisation.

# dataset.py (extrait)
import os
import torch
from torch.utils.data import Dataset, DataLoader
from torchvision import transforms
from PIL import Image

# ... (code pour charger et transformer les images)

def get_dataloaders(data_dir="workspace/data", val_split=0.2, test_split=0.1):
    # Cette fonction charge les ensembles de données réels et générés par IA
    # et crée des DataLoaders pour l'entraînement, la validation et le test.
    # [Note de l'éditeur : le code complet de la fonction est omis pour la concision]
    pass

# generate_dataset.py (extrait)
import os
import random
from PIL import Image

# ... (code pour télécharger des images réelles et générer des images AI via Kolors API)

def generate_ai_images(num_images, output_dir):
    # Cette fonction génère des images AI en utilisant une API (Kolors API).
    # Elle gère également les limites de débit et les tentatives de réessai.
    # [Note de l'éditeur : le code complet de la fonction est omis pour la concision]
    pass

# train.py (extrait)
import torch
import torch.nn as nn
import torch.optim as optim
import timm

# ... (code pour définir le modèle, la fonction de perte, l'optimiseur)

def train_one_epoch(model, dataloader, criterion, optimizer, device):
    # Cette fonction exécute une époque d'entraînement du modèle.
    # [Note de l'éditeur : le code complet de la fonction est omis pour la concision]
    pass

def evaluate(model, dataloader, criterion, device):
    # Cette fonction évalue les performances du modèle sur un ensemble de données.
    # [Note de l'éditeur : le code complet de la fonction est omis pour la concision]
    pass

# visualize.py (extrait)
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

# ... (code pour générer des matrices de confusion, des visualisations Grad-CAM, des prédictions)

def plot_confusion_matrix(true_labels, predictions, class_names):
    # Cette fonction crée et affiche une matrice de confusion.
    # [Note de l'éditeur : le code complet de la fonction est omis pour la concision]
    pass

def plot_predictions_grid(model, data_dir, class_names):
    # Cette fonction affiche une grille d'images avec les prédictions du modèle.
    # [Note de l'éditeur : le code complet de la fonction est omis pour la concision]
    pass

Exécution et Entraînement : L'IA exécute les scripts dans un environnement virtuel, télécharge les données, génère des images AI, entraîne le modèle (MobileNetV3-Small-0.5 sur 300 images) et génère des visualisations.
Analyse des Résultats : Elle produit des graphiques de courbes de perte et de précision, des matrices de confusion et des visualisations Grad-CAM pour montrer ce que le modèle a appris.
- Résultats : Précision de validation de 96,7% (époque 8), Précision de test de 100%, Macro F1 de 1.00, Temps d'entraînement ~45 secondes (CPU).
- Insights Grad-CAM : Les photos réelles activent les zones des corps de poissons, tandis que les images générées par IA activent des motifs stylistiques globaux et des dégradés de couleurs saturées.
- Caractéristiques discriminantes clés : Régularité de la texture, motifs de saturation des couleurs, distribution de la netteté des bords.

Étape 4 — Mode FARS : Recherche Scientifique Entièrement Automatisée

## Étape 4 — Mode FARS : Recherche Scientifique Entièrement Automatisée
Le mode FARS (Fully Automated Research System) est le plus avancé, capable de générer des propositions de recherche, des études expérimentales et des articles de recherche complets. Il gère l'ensemble du processus de recherche de manière autonome.

Exemple de tâche : Étudier si demander à un grand modèle de langage (LLM) d'exprimer explicitement son incertitude ("Je ne suis pas sûr") réduit les hallucinations.

Génération de Proposition : L'IA génère une proposition de recherche détaillée, incluant le contexte stratégique, l'alignement de la demande de l'utilisateur, la conformité aux contraintes, un "smell test", une vérification d'accessibilité, des scores et un résumé global.
Planification et Expérimentation : Une fois la proposition validée, l'IA passe à la phase d'expérimentation. Elle définit un plan en 10 étapes, incluant l'installation des dépendances, l'exécution de différents types de prompts (Standard Baseline, Loose Uncertainty, Strict-Binary Abstention, Structured Confidence) sur plusieurs modèles (Qwen2.5-72B-Instruct, GPT-4o), l'optimisation, l'évaluation de l'efficacité, la détection des hallucinations, l'analyse de conformité et la visualisation des résultats.
- Cette phase peut prendre plusieurs jours et consommer un nombre significatif de crédits (par exemple, 63 596 crédits pour cette tâche).
Rédaction de l'Article de Recherche : Après l'exécution des expériences, l'IA rédige un article de recherche professionnel de 9 pages, incluant :
- Résumé et Introduction : Présentation du problème des hallucinations des LLM et de la proposition de "binary abstention prompting".
- Travaux Connexes : Revue de la littérature sur la confiance verbalisée, l'abstention sélective et la détection des hallucinations.
- Méthode : Formulation du problème, description des conditions de prompting et des métriques d'évaluation (Coverage, False-Answer Rate (FAR), Hallucination-Coverage Efficiency (HCE)).
- Expériences et Résultats : Présentation des performances des modèles (Qwen2.5-72B et GPT-4o) sur les benchmarks SQuAD 2.0 et PopQA, avec des graphiques illustrant le compromis entre le taux de fausses réponses et la couverture.
- Analyse et Limitations : Discussion des résultats, y compris l'efficacité de la réduction du FAR et les limites du modèle.
- Conclusion : Le "binary abstention prompting" réduit le taux de fausses réponses de 18 à 51% et améliore la précision, mais peut entraîner une sur-abstention sur des questions à longue traîne. Des recherches futures sont suggérées pour explorer les seuils d'abstention adaptatifs et les méthodes de calibration.

Tableaux comparatifs

Performances des modèles sur les conditions de prompting (SQuAD 2.0 et PopQA)

Modèle	Condition	Coverage (SQuAD 2.0)	FAR (SQuAD 2.0)	HCE (SQuAD 2.0)	Coverage (PopQA)	FAR (PopQA)	HCE (PopQA)
Qwen2.5-72B	Standard	1.000	0.887	1.17	1.000	0.694	1.23
Qwen2.5-72B	Loose-Binary	0.917	0.917	1.13	1.000	0.701	1.23
Qwen2.5-72B	Structured-Confidence	0.782	0.655	2.36	0.745	0.652	-4.50
Qwen2.5-72B	Strict-Binary	0.552	0.379	2.93	0.169	0.231	-3.72
Qwen2.5-72B	Strict-Binary v2	0.587	0.339	2.49	0.213	0.275	-4.19
GPT-4o	Standard	1.000	0.906	1.58	1.000	0.454	1.13
GPT-4o	Loose-Binary	0.919	0.919	1.58	1.000	0.480	1.13
GPT-4o	Structured-Confidence	0.694	0.412	2.37	0.359	0.274	-1.25
GPT-4o	Strict-Binary	0.720	0.508	2.04	0.660	0.412	-1.16

Validation du mécanisme : Prévalence des hallucinations "hedged" sous prompting Loose-Binary

Modèle	Benchmark	Total Wrong	HH Share
Qwen2.5-72B	SQuAD 2.0	917	0.138
Qwen2.5-72B	PopQA	1402	0.614
GPT-4o	SQuAD 2.0	917	0.113
GPT-4o	PopQA	959	0.350

⚠️ Erreurs fréquentes et pièges

Coût des tâches complexes : Les tâches FARS et Survey consomment beaucoup de crédits. Les utilisateurs doivent surveiller leur solde et acheter des packs de crédits pour les exécutions longues.
Temps d'exécution : Les tâches complexes, en particulier le mode FARS, peuvent prendre plusieurs jours à s'exécuter car elles impliquent des environnements d'exécution virtuels, le téléchargement de modèles, l'entraînement et l'itération.
Limitations des API : La génération d'images AI ou d'autres opérations peuvent être soumises à des limites de débit d'API, ce qui peut ralentir le processus ou nécessiter des logiques de réessai plus intelligentes.
Interprétation des résultats : Bien que l'IA génère des rapports détaillés, une expertise humaine reste nécessaire pour interpréter pleinement les conclusions, notamment pour évaluer la nouveauté et la pertinence des découvertes.

Glossaire

Vibe Coding : Approche de développement où l'on décrit ce que l'on veut, et une IA le construit, sans intervention détaillée sur les décisions techniques.
Multi-Agent Research System : Système d'IA composé de plusieurs agents autonomes qui collaborent pour planifier, exécuter et valider des tâches de recherche complexes.
Hallucination-Coverage Efficiency (HCE) : Ratio de la réduction du taux de fausses réponses par rapport à la perte de couverture, indiquant l'efficacité d'un mécanisme d'abstention.

Points clés à retenir

Lemma AI est une plateforme de recherche multi-agents qui automatise l'exploration de sujets, la revue de littérature, l'exécution d'expériences et la rédaction d'articles scientifiques.
Elle propose quatre modes : Explore (rapports concis), Survey (études académiques), Code (implémentation et exécution d'expériences) et FARS (système de recherche entièrement automatisé).
Le mode Code permet de transformer des idées de recherche en code exécutable, avec génération de données, entraînement de modèles et visualisations des résultats, le tout dans un environnement virtuel.
Le mode FARS gère l'ensemble du cycle de recherche, de la proposition à l'article final, en passant par des études expérimentales complexes qui peuvent durer plusieurs jours.
Lemma AI est une entreprise "AI for AI", utilisant l'IA pour rechercher et améliorer l'IA elle-même, ce qui représente une approche fondamentalement différente des outils d'IA traditionnels.
La plateforme vise à démocratiser l'accès à la recherche professionnelle approfondie, la rendant accessible même sans expertise de pointe ou budgets massifs.

Ressources

Tous les guides Read in English →