Lyra 2.0 : Génération de Mondes 3D Explorables à partir d'une Image

Découvrez Lyra 2.0, un modèle d'IA qui transforme une seule image en un monde 3D explorable et cohérent. Idéal pour la simulation robotique et les jeux vidéo, avec code et modèles gratuits.

5 min de lectureGuide IA

Introduction

Lyra 2.0 est un outil d'IA qui permet de générer des mondes 3D explorables et cohérents à partir d'une seule image, offrant des applications concrètes pour l'entraînement de robots et la création d'environnements numériques immersifs.

Précis de configuration

Élément	Version / Lien
Modèle principal	Lyra 2.0 (Shen and Ren et al. 2026)
Moteur de simulation	NVIDIA Isaac Sim
Modèle de jeu génératif comparé	DeepMind Genie 3 AI
Modèle de génération vidéo comparé	OpenAI Sora
Générateur de base	Diffusion Transformer
Cloud GPU pour l'exécution	Lambda GPU Cloud
Commande d'exécution (exemple)	`ollama run deepseek-r1:671b`

Guide étape par étape

Étape 1 — Génération d'un monde 3D explorable à partir d'une seule image

Pourquoi : Transformer une image 2D statique en un environnement 3D dynamique et explorable pour des applications comme la simulation ou les jeux vidéo, en offrant une expérience immersive.
Comment : Lyra 2.0 utilise une image (par exemple, une vue de rue) pour générer un chemin continu et un monde de jeu vidéo.

# Concept: Lyra 2.0 prend une image 2D et génère un monde 3D explorable.
# Exemple d'entrée: une image de rue
# Exemple de sortie: un environnement 3D navigable

Étape 2 — Exportation pour la simulation robotique

Pourquoi : Permettre l'entraînement sécurisé de robots et de véhicules autonomes dans des environnements virtuels réalistes, réduisant les risques et les coûts des tests physiques.
Comment : Lyra 2.0 exporte des "3D Gaussian Splats" et des maillages qui peuvent être importés dans des simulateurs comme NVIDIA Isaac Sim.

# Lyra 2.0 exporte des données 3D pour la simulation
# Output: 3D Gaussian Splats et mesh
# Utilisation: Simulation de robots dans NVIDIA Isaac Sim

Étape 3 — Compréhension de la cohérence à long terme

Pourquoi : Adresser le problème de la "permanence de l'objet" et de la cohérence spatiale et temporelle dans les mondes générés par l'IA, ce qui était un défi majeur pour les modèles précédents comme Genie 3.
Comment : Lyra 2.0 utilise un "cache de géométrie 3D par image" et une "mémoire spatiale C" pour se souvenir des vues précédentes et maintenir la cohérence de la scène.

# Le générateur principal est un transformateur de diffusion.
# Il utilise un cache de géométrie 3D par image pour la cohérence.
# Il maintient également une "mémoire spatiale C" pour les vues antérieures.

Étape 4 — Éviter la dégradation de la qualité

Pourquoi : Les techniques basées sur la fusion globale d'images peuvent accumuler des erreurs et dégrader la qualité au fil du temps, rendant les mondes générés irréalistes ou inutilisables.
Comment : Au lieu de fusionner toutes les informations dans une seule scène globale, Lyra 2.0 maintient des "instantanés 3D" séparés pour chaque vue et les utilise comme mémoire pour recréer le reste de manière cohérente.

# Lyra 2.0 ne stocke pas la scène entière globalement pour éviter la corruption.
# Il utilise un "downsampled point cloud" et des informations de mouvement de caméra.
# Il interroge les vues antérieures pour la meilleure correspondance afin de maintenir la cohérence.

Étape 5 — Accès aux modèles et au code

Pourquoi : Permettre aux chercheurs et développeurs d'utiliser et d'expérimenter avec la technologie, favorisant ainsi l'innovation et les avancées futures.
Comment : Les modèles et le code sont disponibles gratuitement sur des plateformes comme Hugging Face et GitHub.

# Accéder aux modèles et au code sur Hugging Face ou GitHub
# Lien: https://huggingface.co/nvidia/Lyra-2.0
# Lien: https://github.com/NVlabs/Project_Lyra

Tableaux comparatifs

Méthode	SSIM↑	LPIPS↓	FID↓	Qual. Subjective↑	Cohérence de style↑	Contrôle caméra↑	Erreur de reprojection↓
Notre méthode (Lyra 2.0)	0.384	0.550	49.13	47.88	85.07	63.87	0.066
avec Global Point Cloud	0.368	0.562	52.54	44.58	82.42	49.86	0.069
avec Fusion de Corr. Explicite	0.370	0.554	49.13	45.71	83.28	57.29	0.071
sans FramePack	0.362	0.549	50.98	45.27	80.61	62.62	0.079
sans Auto-Augmentation	0.363	0.568	55.15	47.88	77.98	53.92	0.066

Note : Les flèches indiquent si une valeur plus élevée (↑) ou plus basse (↓) est meilleure.

⚠️ Erreurs fréquentes et pièges

Limitation aux scènes statiques : Lyra 2.0 est principalement conçu pour générer des scènes sans objets en mouvement. L'introduction d'éléments dynamiques peut entraîner des incohérences.
- Solution : Pour l'instant, il est préférable de se concentrer sur des environnements fixes. Les futures itérations du modèle pourraient intégrer la gestion des objets en mouvement.
Héritage des défauts des données d'entraînement : Le modèle peut hériter des incohérences photométriques (variations d'éclairage, d'exposition) présentes dans les données sur lesquelles il a été entraîné.
- Solution : Utiliser des jeux de données d'entraînement de haute qualité avec une cohérence photométrique rigoureuse, ou appliquer des techniques de normalisation de l'éclairage avant l'entraînement.
Artefacts et "floaters" dans la géométrie 3D : Des incohérences mineures entre les vues générées peuvent se manifester par des artefacts visuels ou des objets flottants lors de la reconstruction 3D.
- Solution : Améliorer la cohérence entre les vues générées et les algorithmes de reconstruction 3D pour mieux gérer les petites erreurs et les lisser.

Glossaire

Diffusion Transformer : Un type de modèle génératif qui utilise des mécanismes d'attention (transformers) pour générer des données (comme des images ou des vidéos) en éliminant progressivement le bruit d'une distribution aléatoire.
Permanence de l'objet : La compréhension qu'un objet continue d'exister même lorsqu'il n'est pas perçu, un concept fondamental pour la cohérence spatiale et temporelle dans les mondes virtuels.
3D Gaussian Splats : Une méthode de représentation 3D qui utilise des "splats" gaussiens (des points avec des propriétés de couleur, de transparence et de forme gaussienne) pour rendre des scènes de manière efficace et photoréaliste.

Points clés à retenir

Lyra 2.0 génère des mondes 3D explorables et cohérents à partir d'une seule image 2D.
Le modèle utilise un transformateur de diffusion comme générateur principal.
La cohérence à long terme est assurée par un "cache de géométrie 3D par image" et une "mémoire spatiale C".
Il évite la fusion globale des scènes pour prévenir l'accumulation d'erreurs et la dégradation de la qualité.
Les environnements générés peuvent être exportés pour des simulations robotiques, notamment via NVIDIA Isaac Sim.
Le modèle et le code sont disponibles gratuitement, encourageant l'expérimentation et le développement.
Les limitations actuelles incluent la gestion des scènes statiques et l'héritage des incohérences des données d'entraînement.

Ressources

Page du projet Lyra 2.0 (Hugging Face) : https://huggingface.co/nvidia/Lyra-2.0
Dépôt GitHub Project Lyra : https://github.com/NVlabs/Project_Lyra
Lambda GPU Cloud : https://lambda.ai/papers

Tous les guides Read in English →