DeepSeek V4 : IA Open Source avec 1M de Contexte et Coût Réduit
DeepSeek V4 offre des modèles d'IA open source (Pro & Flash) avec une longueur de contexte d'un million de tokens, rivalisant avec les modèles propriétaires tout en étant plus abordables.
Introduction
DeepSeek V4 est une suite de modèles d'IA open source qui offre une longueur de contexte d'un million de tokens à un coût considérablement réduit, permettant aux développeurs et chercheurs d'exécuter des tâches complexes avec une efficacité et des performances comparables aux modèles propriétaires de pointe.
Précis de configuration
| Élément | Version / Lien |
|---|---|
| Modèle principal | DeepSeek-V4-Pro |
| Modèle léger | DeepSeek-V4-Flash |
| Paramètres totaux (Pro) | 1.6T |
| Paramètres actifs (Pro) | 49B |
| Paramètres totaux (Flash) | 284B |
| Paramètres actifs (Flash) | 13B |
| Tokens pré-entraînés (Pro) | 33T |
| Tokens pré-entraînés (Flash) | 32T |
| Longueur de contexte | 1M tokens |
| Open Source | Oui (pour les deux modèles) |
| Service API | Disponible |
| Mode WEB/APP (Pro) | Expert |
| Mode WEB/APP (Flash) | Instant |
Guide étape par étape

Étape 1 — Architecture d'attention hybride (CSA + HCA)
Pour améliorer l'efficacité du contexte long, DeepSeek V4 intègre une architecture d'attention hybride combinant l'Attention Éparse Compressée (CSA) et l'Attention Fortement Compressée (HCA). Cette approche permet de gérer de très longues séquences de manière plus performante.
Étape 2 — Compression au niveau du token
La compression au niveau du token est utilisée pour réduire la taille du cache KV (Key-Value), un composant crucial des transformeurs. Cette technique permet de compresser chaque paragraphe en une seule phrase, réduisant ainsi l'empreinte mémoire sans perte significative d'information. Le taux de compression pour HCA est de 128:1.
Étape 3 — Indexation Lightning
Le système utilise un indexeur (Lightning Indexer) pour sélectionner les entrées KV les plus pertinentes pour l'attention. Similaire à un index de livre, il permet de trouver rapidement les informations clés dans un contexte long, améliorant ainsi la vitesse de recherche et de traitement. Pour l'attention éparse, le top-k est fixé à 512.
Étape 4 — Hyper-connexions contraintes par la variété (mHC)
Les Manifold-Constrained Hyper-Connections (mHC) sont une amélioration des connexions résiduelles conventionnelles, contribuant à la stabilité de l'entraînement et à l'efficacité du modèle.
Tableaux comparatifs

Précision et Capacités d'Agentivité
| Benchmark (métrique) | DeepSeek-V4-Pro-Max | Claude-Opus-4.6-Max | GPT-5.4-xHigh | Gemini-3.1-Pro-High |
|---|---|---|---|---|
| SimpleQA Verified (Pass@1) | 57.9 | 46.2 | 45.3 | 75.6 |
| HLE (Pass@1) | 37.7 | 40.0 | 39.9 | 44.4 |
| Apex Shortlist (Pass@1) | 90.2 | 85.9 | 78.1 | - |
| Codeforces (Rating) | 3206 | 3208 | 3168 | 3052 |
| SWE Verified (Resolved) | 80.6 | 80.6 | 80.6 | - |
| Terminal Bench 2.0 (Acc) | 67.9 | 65.4 | 68.5 | 75.1 |
| Toolathlon (Pass@1) | 51.8 | 47.2 | 48.8 | 54.6 |
Efficacité de calcul (FLOPs par token)
| Modèle | Réduction FLOPs (vs V3.2) |
|---|---|
| DeepSeek-V4-Pro | 3.7x inférieure |
| DeepSeek-V4-Flash | 9.8x inférieure |
Efficacité du cache KV
| Modèle | Réduction cache KV (vs V3.2) |
|---|---|
| DeepSeek-V4-Pro | 9.5x plus petit (10% du cache) |
| DeepSeek-V4-Flash | 13.7x plus petit |
Connaissances Générales (Accuracy)
| Benchmark | DeepSeek-V3.2 Base | DeepSeek-V4-Flash Base | DeepSeek-V4-Pro Base |
|---|---|---|---|
| AGIeval (EM) | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 87.8 | 88.7 | 90.1 |
| MMLU-Pro (EM) | 87.9 | 88.9 | 90.8 |
| MMLU-Redux (EM) | 65.5 | 68.3 | 73.5 |
| MMMU (EM) | 87.9 | 88.9 | 90.3 |
| C-Eval (EM) | 90.4 | 92.1 | 93.1 |
| CMMMLU (EM) | 88.9 | 90.4 | 90.8 |
| MultiLoKo (EM) | 38.7 | 42.2 | 51.1 |
| Simple-QA verified (EM) | 28.3 | 30.1 | 55.2 |
| SuperGPQA (EM) | 45.0 | 46.5 | 53.9 |
| FACTS Parametric (EM) | 27.1 | 33.9 | 62.6 |
| TriviaQA (EM) | 83.3 | 85.0 | 85.6 |
⚠️ Erreurs fréquentes et pièges

- Unimodalité du système : DeepSeek V4 est un système unimodal, ce qui signifie qu'il ne traite que le texte et n'est pas capable de comprendre ou de générer des images ou de l'audio. Les applications nécessitant une multimodalité devront intégrer d'autres systèmes.
- Mécanismes de stabilité de l'entraînement non entièrement compris : Bien que les modèles DeepSeek V4 maintiennent une stabilité d'entraînement efficace grâce à de nouvelles techniques, une compréhension théorique complète de leurs mécanismes sous-jacents reste une question ouverte pour les chercheurs.
- Dégradation de la performance aux limites du contexte : Comme de nombreux modèles de langage, la performance de DeepSeek V4 peut se dégrader lorsque la longueur du contexte approche la limite d'un million de tokens. Il est crucial de surveiller la pertinence des réponses dans les scénarios de contexte très long.
Glossaire
MoE (Mixture of Experts) : Architecture de réseau neuronal où plusieurs "experts