DeepSeek : Pensée avec Primitives Visuelles pour IA Multimodale
Découvrez DeepSeek, un système d'IA qui utilise des primitives visuelles pour améliorer la précision et l'efficacité de la compréhension d'images, surpassant les modèles de pointe.
Introduction

DeepSeek, avec sa technique de « Pensée avec Primitives Visuelles », permet aux systèmes d'IA de raisonner spatialement et de compter avec une précision et une efficacité accrues, en utilisant des marqueurs visuels (points et boîtes englobantes) directement dans le processus de pensée, plutôt que de se fier uniquement à des descriptions textuelles ambiguës.
Précis de configuration
| Élément | Version / Lien |
|---|---|
| Modèle principal | DeepSeek-V4-Flash (671 milliards de paramètres) |
| Cloud GPU | Lambda GPU Cloud (lambda.ai/papers) |
| Commande d'exécution | ollama run deepseek-r1:671b |
| Langage / Runtime | Non spécifié pour l'implémentation du framework, mais le modèle est exécutable via Ollama. |
| Librairie principale | Non spécifié pour l'implémentation du framework. |
| APIs requises | Non spécifié pour l'implémentation du framework. |
| Clés / credentials nécessaires | Accès à Lambda GPU Cloud pour l'exécution du modèle. |
Guide étape par étape


Étape 1 — Comprendre les Primitives Visuelles
Pourquoi : Les primitives visuelles permettent à l'IA de « pointer » directement sur des éléments dans une image, imitant la façon dont les humains interagissent avec des informations visuelles. Cela réduit l'ambiguïté des descriptions textuelles et améliore la précision du raisonnement spatial et du comptage.
<point> [x,y] </point>
<box> [x1,y1,x2,y2] </box>
- Commentaire : Ces balises sont utilisées pour insérer des coordonnées physiques (points) ou des boîtes englobantes (boîtes) directement dans le flux de pensée du modèle, permettant une interaction spatiale précise avec l'image.
Étape 2 — Appliquer le Raisonnement Topologique
Pourquoi : Pour des tâches complexes comme la navigation dans un labyrinthe ou la compréhension de connexions entre objets, l'IA peut utiliser les primitives visuelles pour explorer et tracer des chemins, fournissant non seulement une réponse, mais aussi une trace visuelle de son processus de pensée.
**Step1**: Reaching <point> [357,369] </point> after going upper-right, I face 2 directions to choose from (lower-right, left).lower-right direction might also be correct, but I'll explore left direction first.
**Step2**: Moving left: <point> [357,369] </point> -> <point> [260,372] </point> , I see 2 forks here. Observing that upper-right direction is a straight dead end at <point> [310,226] </point> , can see wall directly. Still need to explore left direction.
...
**Final Path**: After exploration, the correct route is:
<point> [310,513] </point> -> <point> [357,450] </point> -> <point> [506,507] </point> -> <point> [603,507] </point> -> <point> [652,645] </point>
Successfully reaching the destination: <point> [652,644] </point> !
- Commentaire : L'IA décompose la tâche en étapes, utilise des points pour marquer sa progression et ses décisions, et peut revenir en arrière si un chemin est une impasse. Le chemin final est une séquence de points visuels.
Étape 3 — Utiliser la Distillation de Politique (On-Policy Distillation)
Pourquoi : Pour créer un modèle unique capable de gérer diverses tâches visuelles avec efficacité, la distillation de politique permet à un modèle « étudiant » d'apprendre des stratégies de plusieurs modèles « experts » spécialisés, consolidant ainsi leurs compétences dans un système plus compact et performant.
\mathcal{L}_{OPD}(\theta) = \sum_{i=1}^{N} w_i \cdot D_{KL}(\pi_{\theta} \| \pi_{E_i})
- Commentaire : Cette formule représente l'objectif de la distillation de politique. Elle minimise la divergence de Kullback-Leibler (DKL) entre la politique (stratégie) du modèle étudiant (πθ) et les politiques des modèles experts (πEi), pondérée par l'importance (wi) de chaque expert. Cela permet au modèle étudiant d'imiter le comportement des experts.
Tableaux comparatifs
| Modèle | Entrées Cache KV (↓ Moins c'est mieux) | Score Moyen (↑ Plus c'est mieux) |
|---|---|---|
| Gemma-4-31B | ~289 | 69.7% |
| Ours-284B-A13B (DeepSeek) | ~361 (~90 entrées en cache KV) | 77.2% |
| Qwen3-VL-235B-A22B | ~660 | 68.1% |
| GPT-5.4 | ~740 | 71.1% |
| Claude-Sonnet-4.6 | ~870 | 65.3% |
| Gemini-3-Flash | ~1100 | 76.5% |
Note : Les benchmarks internes ont été exclus pour ces comparaisons, garantissant une évaluation impartiale sur des benchmarks publics.
⚠️ Erreurs fréquentes et pièges
- Dépendance aux mots-déclencheurs explicites : Le système actuel nécessite des mots-déclencheurs spécifiques pour activer le mécanisme de pensée visuelle. Si ces mots ne sont pas utilisés, la capacité de raisonnement visuel peut ne pas être invoquée automatiquement. La solution future vise à permettre au modèle de déterminer de manière autonome quand utiliser ce mécanisme en fonction du contexte.
- Limites des boîtes englobantes pour les structures fines : Bien que les boîtes englobantes soient efficaces pour des objets distincts, elles sont moins adaptées pour des tâches de comptage très fines (ex: brins d'herbe, mèches de cheveux) où une résolution très élevée et une compréhension granulaire sont nécessaires. Dans ces cas, l'absence de détails de haute résolution peut être un problème.
- Généralisation du raisonnement topologique : Le raisonnement topologique, bien qu'efficace pour des tâches comme la navigation dans des labyrinthes, ne se généralise pas toujours aussi bien que souhaité à des scénarios complètement nouveaux ou à des structures visuelles très différentes de celles sur lesquelles il a été entraîné. Il peut être moins robuste face à l'inconnu.
Glossaire
Primitives Visuelles : Des éléments spatiaux fondamentaux (points, boîtes englobantes) qui permettent à un modèle d'IA de se référer directement à des coordonnées physiques dans une image, facilitant le raisonnement visuel.
Perception Gap : L'écart entre la capacité des modèles de langage à comprendre le langage et leur capacité à interpréter et raisonner sur des informations visuelles complexes.
Distillation de Politique (On-Policy Distillation) : Une technique d'apprentissage où un modèle plus petit (étudiant) apprend à imiter les stratégies et les politiques de plusieurs modèles plus grands et experts, afin de consolider diverses compétences dans un seul modèle efficace.
Points clés à retenir
- DeepSeek introduit une méthode pour combler le fossé entre le langage et le monde visuel en utilisant des primitives visuelles.
- Le modèle peut pointer sur des éléments spécifiques dans une image, améliorant la précision du comptage et du raisonnement spatial.
- Il offre une traçabilité visuelle complète du processus de pensée, ce qui est crucial pour le débogage et l'amélioration des modèles.
- DeepSeek est plus efficace en termes de jetons visuels (environ 90% de moins) que la plupart des modèles de pointe, ce qui le rend plus rapide et moins coûteux.
- Les résultats sont compétitifs ou supérieurs à ceux de modèles propriétaires coûteux sur des benchmarks publics.
- La technique de distillation de politique permet de transférer les connaissances de plusieurs modèles experts vers un modèle étudiant unique et performant.
- La recherche est ouverte et gratuite, permettant à d'autres de l'intégrer dans leurs propres systèmes d'IA.
Ressources
- Article de recherche : Thinking with Visual Primitives (Source mentionnée dans la vidéo : Jia, Ma, Chen, Lan, Xia, Pan, Liu et al. 2024)
- Cloud GPU : lambda.ai/papers