How much VRAM do I need to run Llama 3 70B locally in 2026?

Minimum 24 GB for Llama 3 70B at Q3_K_S (which is rough quality). 32 GB lets you run Q4_K_M comfortably (the recommended quant). 40+ GB is needed for Q5_K_M. With 24 GB and 8 K context, you have basically zero headroom; pushing context to 32 K requires CPU offload or a more aggressive quant.

What's the difference between Q4_K_M and Q4_K_S?

Both are 4-bit quantizations of the same model. Q4_K_M ("medium") uses 5 bits for some critical weight groups, making it slightly larger but noticeably better quality than Q4_K_S ("small"). For nearly identical VRAM, Q4_K_M is preferred. Q4_K_S only makes sense when you're trying to squeeze a model into a tight VRAM budget.

Can I run an LLM that's bigger than my VRAM?

Yes — using CPU offload, where some model layers run on the CPU using system RAM instead of GPU VRAM. The performance penalty is severe (5–10× slower), but it lets you run models that wouldn't otherwise fit. Practical for occasional use, painful as a daily driver. Both llama.cpp and Ollama support this out of the box via the n_gpu_layers setting.

Does the KV cache really matter for VRAM planning?

Yes, especially at long context. For Llama 3 70B at 32 K context, the KV cache alone is ~5 GB. If you're already at the edge of your VRAM, you'll OOM the moment a conversation gets long. Plan for KV cache and consider Q8 KV-cache quantization (option in modern inference engines) to roughly halve it.

Is there a way to run Llama 3 405B at home?

Yes, but you need 200+ GB of memory at usable quants. The realistic 2026 paths: Mac Studio M4 Ultra 512 GB ($12K, slow per-token but works), 8× RTX 4090 ($13K, complex setup), Nvidia DIGITS ($3K, purpose-built), or CPU + 256 GB DDR5 RAM with mid-range GPU for partial offload ($8K, slow). See our how-to guide on running Llama 3 405B at home.

Are there any 2026 quantization formats I should know besides GGUF?

Yes — AWQ (Activation-aware Weight Quantization) and GPTQ are both still widely used, especially for vLLM and TensorRT-LLM deployments. They're slightly better quality at the same bit count than GGUF in some cases. For consumer local-LLM use with llama.cpp/Ollama/LM Studio, GGUF remains dominant in 2026 because of its simplicity and broad tooling support.

Will Q4 quantization affect coding ability?

Less than you'd think, but yes. For straightforward code completion, Q4_K_M is essentially identical to FP16. For complex multi-step reasoning across a codebase, Q4 occasionally produces worse logic than Q5+. If you do serious coding with local models, prefer Q5_K_M and choose your hardware to support it.

Exigences en VRAM pour chaque grand modèle de langage (LLM) majeur en 2026 (Feuille de triche sur la quantification)

Mis à jour July 3, 2026 · Initialement publié le 19 mai 2026

La question la plus fréquemment posée par les débutants souhaitant exécuter localement des modèles de langage volumineux en 2026 n’est pas « Quel modèle dois-je utiliser ? », mais plutôt « Ce modèle fonctionnera-t-il sur mon GPU ? »

Ce guide apporte la réponse. Nous avons testé tous les principaux modèles open source de langage volumineux, à toutes les quantifications courantes, sur des matériels allant d’une RTX 3060 de 12 Go à une H100 de 80 Go ; ce qui suit est la fiche mémoire dont nous aurions rêvé au début de notre propre aventure.

Rappel pour les impatients : La VRAM constitue la contrainte limitante. Si votre modèle, combiné au cache KV et au contexte, ne tient pas dans la VRAM, les performances d’inférence chutent drastiquement. Tout ce qui suit suppose que vous souhaitez une inférence purement GPU ; si vous acceptez le déchargement vers le CPU, divisez le débit par un facteur 5 à 10.

Points clés

12 Go de VRAM : modèles de 7 à 8 milliards de paramètres en Q5+, ou de 13 milliards en Q4. Par exemple : Llama 3 8B, Mistral 7B, Phi-4 Mini.
16 Go de VRAM : 13–14 milliards de paramètres en Q5+. Niveau peu pratique : trop élevé pour un modèle de 8 milliards, mais insuffisant pour un modèle de 30 milliards.
24 Go de VRAM : 30 milliards de paramètres en Q5+, ou 70 milliards en Q3_K_S (juste). Le point idéal.
32 Go de VRAM : 70 milliards de paramètres en Q4_K_M sans contrainte, ou 30 milliards en Q8.
48 Go de VRAM : 70 milliards de paramètres en Q5_K_M, ou plus de 100 milliards en Q3/Q4.
128 Go unifiés (M4 Max) : 405 milliards de paramètres en Q4, mais débit inférieur par jeton par rapport aux GPU NVIDIA.

Tableau de référence rapide

Tous les grands modèles de langage ouverts (LLM) majeurs de 2026 et leurs besoins en VRAM selon les niveaux courants de quantification. Les valeurs indiquées concernent uniquement les poids du modèle, pour un contexte de 8 K. Ajoutez 1 à 2 Go supplémentaires pour la mémoire cache KV (KV cache) par tranche de 8 K de contexte réellement utilisée.

Modèle	FP16	Q8_0	Q5_K_M	Q4_K_M	Q3_K_M	IQ2_XXS
Phi-4 Mini (3,8 milliards)	7,6 Go	4,0 Go	2,7 Go	2,3 Go	1,9 Go	1,4 Go
Gemma 2 (2 milliards)	5,0 Go	2,7 Go	1,8 Go	1,6 Go	1,3 Go	1,0 Go
Llama 3 8B	16,1 Go	8,5 Go	5,7 Go	4,9 Go	4,0 Go	2,9 Go
Mistral 7B v0.3	14,5 Go	7,7 Go	5,1 Go	4,4 Go	3,6 Go	2,6 Go
Qwen 2.5 7B	15,2 Go	8,1 Go	5,4 Go	4,7 Go	3,8 Go	2,7 Go
Phi-4 (14 B)	28,0 Go	14,9 Go	10,0 Go	8,5 Go	7,0 Go	5,0 Go
Qwen 2.5 14B	29,5 Go	15,7 Go	10,5 Go	9,0 Go	7,4 Go	5,3 Go
Mistral Nemo (12 milliards)	24,5 Go	13,0 Go	8,7 Go	7,5 Go	6,1 Go	4,4 Go
Qwen 2.5 32B	65,0 Go	34,6 Go	23,0 Go	19,8 Go	16,3 Go	11,6 Go
Yi-1.5 34B	68,5 Go	36,4 Go	24,3 Go	20,7 Go	17,1 Go	12,2 Go
Llama 3 70B	141,0 Go	74,9 Go	49,9 Go	42,5 Go	34,7 Go	24,9 Go
Qwen 2.5 72B	145,0 Go	77,1 Go	51,4 Go	43,8 Go	35,7 Go	25,6 Go
Command R+ 104B	208,0 Go	110,5 Go	73,8 Go	62,7 Go	51,6 Go	36,8 Go
Mistral Large 2 (123B)	247,0 Go	131,4 Go	87,5 Go	74,5 Go	61,0 Go	43,6 Go
Mixtral 8x22B (141 B)	282,0 Go	150,0 Go	100,0 Go	85,1 Go	69,8 Go	49,9 Go
DeepSeek V3 (236 B MoE)	475,0 Go	252,0 Go	168,5 Go	143,6 Go	117,4 Go	84,1 Go
Llama 3.1 405B	810,0 Go	431,0 Go	287,0 Go	244,5 Go	200,1 Go	143,0 Go

Une remarque pratique : pour une utilisation quotidienne, Q4_K_M constitue le compromis recommandé entre taille et qualité. La perte de qualité par rapport au format FP16 est faible (hausse typique de la perplexité < 2 %) et les économies de mémoire sont considérables (~3,3 fois plus compact). Q5_K_M offre une qualité légèrement supérieure, mais nécessite environ 17 % de mémoire supplémentaire. Les quantifications Q3 et IQ2 ne doivent être utilisées qu’en cas d’urgence — la qualité s’en trouve nettement dégradée.

Mémoire du cache KV — celle que tout le monde oublie

Les chiffres ci-dessus correspondent uniquement aux poids du modèle. Le Cache KV — la mémoire vive nécessaire pour stocker l’ensemble des jetons de votre conversation — occupe également de la VRAM et augmente linéairement avec la longueur du contexte.

Taille approximative du cache KV par 1 K jetons de contexte, en FP16 :

Classe de modèle	Cache KV par 1 K jetons	Cache KV par contexte de 32 K
Modèles de 7 à 8 milliards de paramètres	~32 Mo	~1,0 Go
Modèles de 13 à 14 milliards de paramètres	~50 Mo	~1,6 Go
Modèles de 30 à 34 milliards de paramètres	~80 Mo	~2,6 Go
Modèles de 70 à 72 milliards de paramètres	~160 Mo	~5,1 Go
Modèles de 100 à 123 milliards de paramètres	~220 Mo	~7,0 Go
405 milliards de paramètres	~500 Mo	~16,0 Go

La quantification du cache KV (une option disponible dans llama.cpp et vLLM en 2026) permet de réduire cette consommation d’environ 2 à 4 fois, avec un léger coût en qualité. La plupart des déploiements en production utilisent aujourd’hui un cache KV en Q8 : la perte de qualité est quasiment négligeable, tandis que la mémoire vidéo (VRAM) économisée est substantielle, notamment pour les contextes longs.

Si vous prévoyez d’utiliser un contexte de 32 K jetons ou plus, incluez le cache KV dans votre calcul de la mémoire vidéo (VRAM) avant de choisir votre GPU.

Matrice de compatibilité GPU

Quels modèles s’adaptent confortablement à chaque GPU courant, aux quantifications recommandées, avec un contexte de 8 K ? « Confortablement » signifie : modèle + cache KV + marge système de 1 Go.

GPU	VRAM	Meilleure adéquation (Q4_K_M)	Meilleure adéquation (Q5_K_M)	Capacité maximale (toute quantification)
RTX 3060 12 Go	12 Go	8 milliards de paramètres	8 milliards de paramètres	14 milliards de paramètres en IQ2
RTX 4060 Ti 16 Go	16 Go	13 milliards de paramètres	13 milliards de paramètres	30 milliards de paramètres en IQ2
RTX 5080 / 5070 Ti	16 Go	13 milliards de paramètres	13 milliards de paramètres	30 milliards de paramètres en IQ2
RTX 3090 / 4090	24 Go	30 milliards de paramètres (Qwen 32B)	30 milliards de paramètres	70 milliards de paramètres en Q3_K_S
RX 7900 XTX	24 Go	30 milliards de paramètres	30 milliards de paramètres	70 milliards de paramètres en Q3_K_S
RTX 5090	32 Go	70 milliards de paramètres	70 milliards de paramètres (ajusté)	70 milliards de paramètres en Q5_K_M
2 × RTX 3090 / 4090	48 Go	70 milliards de paramètres	70 milliards de paramètres	104 milliards de paramètres en Q3
RTX A6000 / 6000 Ada	48 Go	70 milliards de paramètres	70 milliards de paramètres	104 milliards de paramètres en Q3
Mac Studio M4 Max 64 Go	64 Go unifiés	70 milliards de paramètres	70 milliards de paramètres	123 milliards de paramètres en Q3
H100 80 Go	80 Go	70 milliards de paramètres (FP16 environ)	104 milliards de paramètres	123 milliards de paramètres en Q4
Mac Studio M4 Max 128 Go	128 Go unifiés	104 milliards de paramètres	123 milliards de paramètres	405 milliards de paramètres en IQ2 (lent)
H200 / DIGITS	141 Go / 128 Go unifiés	123 milliards de paramètres	123 milliards de paramètres	405 milliards de paramètres en Q3 (lent)
B200	192 Go	123 milliards de paramètres	123 milliards de paramètres	405 milliards de paramètres en Q4 (ajusté)

Les tendances à retenir :

1. 12 Go constituent le seuil minimal. En dessous de ce seuil, vous êtes contraints d'utiliser des modèles très petits qui ne justifient pas l'usage d'un GPU dédié.
2. 24 Go constituent le point de basculement. C'est le niveau le moins cher permettant d'exécuter Llama 3 70B (avec des quantifications dégradées).
3. 32 Go permettent d'exécuter correctement le modèle 70B. C'est la raison principale de choisir la RTX 5090 plutôt que la 4090.
4. 48 Go constituent une zone confortable. La plupart des tâches que vous souhaitez effectuer s'y exécutent sans problème.
5. 128 Go de mémoire unifiée constituent le plafond pour les consommateurs. Au-delà de ce seuil, vous achetez du matériel destiné aux serveurs.

Choisir la bonne quantification pour votre matériel

La quantification appropriée n'est pas toujours « la plus élevée pouvant tenir dans votre mémoire ». La qualité compte, et parfois un modèle plus petit avec une meilleure quantification surpasse un modèle plus gros avec une quantification inférieure.

Classement approximatif de la qualité (basé sur la perplexité, plus faible est mieux) :

FP16 / BF16 — Version originale. Référence de qualité de base.
Q8_0 — Augmentation de perplexité d'environ 0,3 %. Pratiquement indiscernable.
Q6_K — Augmentation d'environ 0,5 %. Indiscernable en pratique.
Q5_K_M — Augmentation d'environ 1,0 %. Légère perte de qualité, toutefois la qualité reste très élevée.
Q4_K_M — Augmentation d'environ 1,5 à 2,5 %. Recommandée pour la plupart des utilisateurs.
Q4_K_S — Augmentation d'environ 3 %. Nettement inférieure à Q4_K_M pour une taille similaire.
Q3_K_M — Augmentation d'environ 5 à 8 %. Résultats nettement dégradés.
Q3_K_S — Augmentation d'environ 10 %. À utiliser uniquement si Q4 ne tient pas dans votre VRAM.
IQ2_XXS — Augmentation d'environ 15 à 25 %. Dernier recours.

Règle générale : privilégiez un modèle à moins de paramètres en Q5_K_M plutôt qu’un modèle plus gros en Q3_K_S pour les tâches quotidiennes. Un Qwen 32B en Q5 bat généralement un Llama 3 70B en IQ2_XXS sur les benchmarks réels, bien que ce dernier paraisse plus impressionnant sur le papier.

Exception : les tâches de programmation et de raisonnement où l'avantage intrinsèque en connaissances du modèle plus gros résiste souvent à une quantification sévère. En particulier pour la génération de code, même une version Q3_K_S d’un modèle 70B peut surpasser un modèle 30B en Q5_K_M.

Les modèles MoE — la précision à retenir

Les modèles Mixture-of-Experts (MoE), comme Mixtral 8x22B et DeepSeek V3 présentent une asymétrie susceptible de dérouter les débutants :

VRAM requise = nombre total de paramètres (car tous les experts doivent être chargés en mémoire)
Calcul requis = nombre de paramètres actifs par jeton (beaucoup plus faible)

Mixtral 8x22B totalise 141 milliards de paramètres au total / 39 milliards actifs. Il nécessite plus de 80 Go de VRAM pour fonctionner, mais sa vitesse par jeton se rapproche davantage de celle d’un modèle dense de 40 milliards de paramètres.

DeepSeek V3 compte au total 236 milliards de paramètres, dont 21 milliards actifs. Il nécessite plus de 150 Go de VRAM, mais sa vitesse par jeton approche celle d’un modèle dense de 20 milliards de paramètres. C’est pourquoi DeepSeek V3 est qualifié de « rapide pour sa taille » : vous payez le coût en VRAM, mais bénéficiez d’un avantage en puissance de calcul.

Si votre matériel permet d’exécuter un modèle MoE, il constitue souvent le meilleur choix. Dans le cas contraire, optez pour le modèle dense équivalent en nombre de paramètres.

Configurations clés en main selon le budget

Pour ceux qui souhaitent une réponse concrète, voici des configurations éprouvées correspondant à cinq niveaux budgétaires en 2026 :

Budget	GPU	Meilleur modèle	Jetons/seconde
$300	RTX 3060 12 Go	Llama 3 8B Q5_K_M	~48
$700	RTX 3090 d’occasion	Qwen 2.5 32B Q5_K_M	~28
$1,300	RTX 4090 d'occasion	Llama 3 70B Q3_K_S	~13
$1,400	2 × RTX 3090 d'occasion + NVLink	Llama 3 70B Q4_K_M	~15
$2,400	RTX 5090	Llama 3 70B Q5_K_M	~18
$5,000	Mac Studio M4 Max 128 Go	Mistral Large 2 Q4	~6

Le « meilleur rapport qualité-prix » en 2026 reste la RTX 3090 ou 4090 d’occasion : ce sont les seules cartes graphiques grand public pour lesquelles le rapport prix/VRAM est avantageux, et elles resteront performantes jusqu’en 2028 au moins.

Pour une analyse approfondie du choix de la carte graphique, consultez les meilleures cartes graphiques pour les LLM locaux en 2026.

FAQ

De combien de VRAM ai-je besoin pour exécuter Llama 3 70B localement en 2026 ?

Minimum 24 Go pour Llama 3 70B en Q3_K_S (qualité médiocre). 32 Go permettent d’exécuter confortablement Q4_K_M (quantification recommandée). Plus de 40 Go sont nécessaires pour Q5_K_M. Avec 24 Go et un contexte de 8 K, vous n’avez pratiquement aucune marge ; passer à un contexte de 32 K exige soit un déchargement vers le CPU, soit une quantification plus agressive.

Quelle est la différence entre Q4_K_M et Q4_K_S ?

Ces deux formats sont des quantifications 4 bits du même modèle. Q4_K_M (« medium ») utilise 5 bits pour certains groupes de poids critiques, ce qui le rend légèrement plus volumineux mais nettement supérieur en qualité par rapport à Q4_K_S (« small »). Pour une consommation de VRAM quasi identique, Q4_K_M est préférable. Q4_K_S n’a de sens que si vous tentez de faire tenir un modèle dans une enveloppe VRAM très serrée.

Puis-je exécuter un modèle de langage (LLM) plus volumineux que ma mémoire vidéo (VRAM) ?

Oui — en utilisant déchargement vers le CPUl’offloading partiel, où certaines couches du modèle s’exécutent sur le processeur (CPU) en utilisant la mémoire système (RAM) au lieu de la VRAM du GPU. La pénalité de performance est sévère (5 à 10 fois plus lent), mais cela permet d’exécuter des modèles qui, autrement, ne tiendraient pas dans la VRAM. Pratique pour une utilisation occasionnelle, mais pénible comme outil quotidien. À la fois llama.cpp et Ollama prennent nativement en charge cette fonctionnalité via le paramètre n_gpu_layers .

Le cache KV a-t-il vraiment un impact sur la planification de la VRAM ?

Oui, surtout pour les contextes longs. Pour Llama 3 70B avec un contexte de 32 K, le cache KV seul occupe environ 5 Go. Si vous êtes déjà à la limite de votre VRAM, vous rencontrerez une erreur « Out of Memory » (OOM) dès qu’une conversation s’allonge. Prévoyez donc une marge pour le cache KV et envisagez la quantification Q8 du cache KV (option disponible dans les moteurs d’inférence modernes), qui permet de réduire approximativement de moitié sa taille.

Existe-t-il un moyen d’exécuter Llama 3 405B chez soi ?

Oui, mais vous avez besoin de plus de 200 Go de mémoire, avec des quantifications utilisables. Les solutions réalistes en 2026 sont : le Mac Studio M4 Ultra avec 512 Go de mémoire (12 000 $, lent par jeton mais fonctionnel), huit cartes graphiques RTX 4090 (13 000 $, configuration complexe), le système Nvidia DIGITS (3 000 $, conçu spécifiquement à cet effet), ou une combinaison CPU + 256 Go de RAM DDR5 avec une carte graphique milieu de gamme pour un déchargement partiel (8 000 $, lent). Consultez notre guide pratique sur l’exécution de Llama 3 405B chez soi.

Existe-t-il, en 2026, d’autres formats de quantification à connaître en plus de GGUF ?

Oui — AWQ (Activation-aware Weight Quantization) et GPTQ restent largement utilisés, notamment pour les déploiements avec vLLM et TensorRT-LLM. Dans certains cas, ils offrent une qualité légèrement supérieure à GGUF pour un même nombre de bits. Toutefois, pour une utilisation grand public locale avec llama.cpp / Ollama / LM Studio, GGUF reste dominant en 2026 grâce à sa simplicité et à son support étendu dans les outils.

La quantification Q4 affectera-t-elle mes capacités de programmation ?

Moins que ce que l’on pourrait penser, mais oui. Pour une complétion de code simple, Q4_K_M est pratiquement identique à FP16. En revanche, pour un raisonnement complexe en plusieurs étapes sur une base de code entière, Q4 produit parfois une logique moins fiable que Q5+. Si vous effectuez sérieusement de la programmation avec des modèles locaux, privilégiez Q5_K_M et choisissez un matériel capable de le supporter.

Conclusion

La planification de la VRAM pour les LLM locaux en 2026 n’est pas compliquée, mais elle récompense la précision. Commencez par choisir la classe de paramètres (taille du modèle correspondant aux capacités requises), puis sélectionnez la quantification la plus légère offrant une qualité acceptable (Q4_K_M est généralement le bon choix), ajoutez ensuite la mémoire nécessaire au cache KV pour votre longueur de contexte réelle, et dimensionnez enfin votre GPU en conséquence.

Si vous ne retenez que trois chiffres, retenez ceux-ci :

12 Go permet d’exécuter sans problème des modèles de 8 milliards de paramètres.
24 Go permet d’exécuter des modèles de 30 milliards de paramètres avec des quantifications de bonne qualité, et des modèles de 70 milliards de paramètres de façon précaire.
32 Go permet d’exécuter des modèles de 70 milliards de paramètres avec des quantifications de bonne qualité.

Tout au-delà de 32 Go entre dans le domaine des serveurs, tandis que tout en dessous de 12 Go relève des téléphones ou des systèmes embarqués. La grande majorité des activités liées aux LLM locaux en 2026 se situe dans la fourchette 12–32 Go, exactement celle des GPU grand public — par conception, et non par hasard.