{"id":264,"date":"2026-05-19T16:46:25","date_gmt":"2026-05-19T16:46:25","guid":{"rendered":"https:\/\/convly.ai\/vram-requirements-every-major-llm-2026\/"},"modified":"2026-07-03T13:40:38","modified_gmt":"2026-07-03T13:40:38","slug":"vram-requirements-every-major-llm-2026","status":"publish","type":"post","link":"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/","title":{"rendered":"Exigences en VRAM pour chaque grand mod\u00e8le linguistique en 2026 (fiche pratique sur la quantification)"},"content":{"rendered":"<p>La question la plus fr\u00e9quemment pos\u00e9e par les d\u00e9butants souhaitant ex\u00e9cuter localement des mod\u00e8les de langage volumineux en 2026 n\u2019est pas \u00ab Quel mod\u00e8le dois-je utiliser ? \u00bb, mais plut\u00f4t \u00ab Ce mod\u00e8le fonctionnera-t-il sur mon GPU ? \u00bb<\/p>\n<p>Ce guide apporte la r\u00e9ponse. Nous avons test\u00e9 tous les principaux mod\u00e8les open source de langage volumineux, \u00e0 toutes les quantifications courantes, sur des mat\u00e9riels allant d\u2019une RTX 3060 de 12 Go \u00e0 une H100 de 80 Go ; ce qui suit est la fiche m\u00e9moire dont nous aurions r\u00eav\u00e9 au d\u00e9but de notre propre aventure.<\/p>\n<p>Rappel pour les impatients : <strong>La VRAM constitue la contrainte limitante<\/strong>. Si votre mod\u00e8le, combin\u00e9 au cache KV et au contexte, ne tient pas dans la VRAM, les performances d\u2019inf\u00e9rence chutent drastiquement. Tout ce qui suit suppose que vous souhaitez une inf\u00e9rence purement GPU ; si vous acceptez le d\u00e9chargement vers le CPU, divisez le d\u00e9bit par un facteur 5 \u00e0 10.<\/p>\n<div class=\"convly-tldr\">\n<h3>Points cl\u00e9s<\/h3>\n<ul>\n<li><strong>12 Go de VRAM :<\/strong> mod\u00e8les de 7 \u00e0 8 milliards de param\u00e8tres en Q5+, ou de 13 milliards en Q4. Par exemple : Llama 3 8B, Mistral 7B, Phi-4 Mini.<\/li>\n<li><strong>16 Go de VRAM :<\/strong> 13\u201314 milliards de param\u00e8tres en Q5+. Niveau peu pratique : trop \u00e9lev\u00e9 pour un mod\u00e8le de 8 milliards, mais insuffisant pour un mod\u00e8le de 30 milliards.<\/li>\n<li><strong>24 Go de VRAM :<\/strong> 30 milliards de param\u00e8tres en Q5+, ou 70 milliards en Q3_K_S (juste). Le point id\u00e9al.<\/li>\n<li><strong>32 Go de VRAM :<\/strong> 70 milliards de param\u00e8tres en Q4_K_M sans contrainte, ou 30 milliards en Q8.<\/li>\n<li><strong>48 Go de VRAM :<\/strong> 70 milliards de param\u00e8tres en Q5_K_M, ou plus de 100 milliards en Q3\/Q4.<\/li>\n<li><strong>128 Go unifi\u00e9s (M4 Max) :<\/strong> 405 milliards de param\u00e8tres en Q4, mais d\u00e9bit inf\u00e9rieur par jeton par rapport aux GPU NVIDIA.<\/li>\n<\/ul>\n<\/div>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_84 counter-flat ez-toc-counter ez-toc-container-direction\">\n<label for=\"ez-toc-cssicon-toggle-item-6a52eb46d8de5\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Basculer<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #000000;color:#000000\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #000000;color:#000000\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-6a52eb46d8de5\"  aria-label=\"Basculer\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#The_quick-reference_table\" >Tableau de r\u00e9f\u00e9rence rapide<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#KV_cache_memory_%E2%80%94_the_part_everyone_forgets\" >M\u00e9moire du cache KV \u2014 celle que tout le monde oublie<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#GPU_compatibility_matrix\" >Matrice de compatibilit\u00e9 GPU<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#Choosing_the_right_quant_for_your_hardware\" >Choisir la bonne quantification pour votre mat\u00e9riel<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#MoE_models_%E2%80%94_the_asterisk\" >Les mod\u00e8les MoE \u2014 la pr\u00e9cision \u00e0 retenir<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#Quick-start_setups_by_budget\" >Configurations cl\u00e9s en main selon le budget<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#FAQ\" >FAQ<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#Bottom_line\" >Conclusion<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/convly.ai\/fr\/vram-requirements-every-major-llm-2026\/#Related_articles\" >Articles connexes<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"The_quick-reference_table\"><\/span>Tableau de r\u00e9f\u00e9rence rapide<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Tous les grands mod\u00e8les de langage ouverts (LLM) majeurs de 2026 et leurs besoins en VRAM selon les niveaux courants de quantification. Les valeurs indiqu\u00e9es concernent uniquement les <strong>poids du mod\u00e8le<\/strong>, pour un contexte de 8 K. Ajoutez 1 \u00e0 2 Go suppl\u00e9mentaires pour la m\u00e9moire cache KV (KV cache) par tranche de 8 K de contexte r\u00e9ellement utilis\u00e9e.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Mod\u00e8le<\/th>\n<th>FP16<\/th>\n<th>Q8_0<\/th>\n<th>Q5_K_M<\/th>\n<th>Q4_K_M<\/th>\n<th>Q3_K_M<\/th>\n<th>IQ2_XXS<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td><strong>Phi-4 Mini (3,8 milliards)<\/strong><\/td>\n<td>7,6 Go<\/td>\n<td>4,0 Go<\/td>\n<td>2,7 Go<\/td>\n<td>2,3 Go<\/td>\n<td>1,9 Go<\/td>\n<td>1,4 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Gemma 2 (2 milliards)<\/strong><\/td>\n<td>5,0 Go<\/td>\n<td>2,7 Go<\/td>\n<td>1,8 Go<\/td>\n<td>1,6 Go<\/td>\n<td>1,3 Go<\/td>\n<td>1,0 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Llama 3 8B<\/strong><\/td>\n<td>16,1 Go<\/td>\n<td>8,5 Go<\/td>\n<td>5,7 Go<\/td>\n<td>4,9 Go<\/td>\n<td>4,0 Go<\/td>\n<td>2,9 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Mistral 7B v0.3<\/strong><\/td>\n<td>14,5 Go<\/td>\n<td>7,7 Go<\/td>\n<td>5,1 Go<\/td>\n<td>4,4 Go<\/td>\n<td>3,6 Go<\/td>\n<td>2,6 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Qwen 2.5 7B<\/strong><\/td>\n<td>15,2 Go<\/td>\n<td>8,1 Go<\/td>\n<td>5,4 Go<\/td>\n<td>4,7 Go<\/td>\n<td>3,8 Go<\/td>\n<td>2,7 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Phi-4 (14 B)<\/strong><\/td>\n<td>28,0 Go<\/td>\n<td>14,9 Go<\/td>\n<td>10,0 Go<\/td>\n<td>8,5 Go<\/td>\n<td>7,0 Go<\/td>\n<td>5,0 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Qwen 2.5 14B<\/strong><\/td>\n<td>29,5 Go<\/td>\n<td>15,7 Go<\/td>\n<td>10,5 Go<\/td>\n<td>9,0 Go<\/td>\n<td>7,4 Go<\/td>\n<td>5,3 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Mistral Nemo (12 milliards)<\/strong><\/td>\n<td>24,5 Go<\/td>\n<td>13,0 Go<\/td>\n<td>8,7 Go<\/td>\n<td>7,5 Go<\/td>\n<td>6,1 Go<\/td>\n<td>4,4 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Qwen 2.5 32B<\/strong><\/td>\n<td>65,0 Go<\/td>\n<td>34,6 Go<\/td>\n<td>23,0 Go<\/td>\n<td>19,8 Go<\/td>\n<td>16,3 Go<\/td>\n<td>11,6 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Yi-1.5 34B<\/strong><\/td>\n<td>68,5 Go<\/td>\n<td>36,4 Go<\/td>\n<td>24,3 Go<\/td>\n<td>20,7 Go<\/td>\n<td>17,1 Go<\/td>\n<td>12,2 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Llama 3 70B<\/strong><\/td>\n<td>141,0 Go<\/td>\n<td>74,9 Go<\/td>\n<td>49,9 Go<\/td>\n<td>42,5 Go<\/td>\n<td>34,7 Go<\/td>\n<td>24,9 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Qwen 2.5 72B<\/strong><\/td>\n<td>145,0 Go<\/td>\n<td>77,1 Go<\/td>\n<td>51,4 Go<\/td>\n<td>43,8 Go<\/td>\n<td>35,7 Go<\/td>\n<td>25,6 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Command R+ 104B<\/strong><\/td>\n<td>208,0 Go<\/td>\n<td>110,5 Go<\/td>\n<td>73,8 Go<\/td>\n<td>62,7 Go<\/td>\n<td>51,6 Go<\/td>\n<td>36,8 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Mistral Large 2 (123B)<\/strong><\/td>\n<td>247,0 Go<\/td>\n<td>131,4 Go<\/td>\n<td>87,5 Go<\/td>\n<td>74,5 Go<\/td>\n<td>61,0 Go<\/td>\n<td>43,6 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Mixtral 8x22B (141 B)<\/strong><\/td>\n<td>282,0 Go<\/td>\n<td>150,0 Go<\/td>\n<td>100,0 Go<\/td>\n<td>85,1 Go<\/td>\n<td>69,8 Go<\/td>\n<td>49,9 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>DeepSeek V3 (236 B MoE)<\/strong><\/td>\n<td>475,0 Go<\/td>\n<td>252,0 Go<\/td>\n<td>168,5 Go<\/td>\n<td>143,6 Go<\/td>\n<td>117,4 Go<\/td>\n<td>84,1 Go<\/td>\n<\/tr>\n<tr>\n<td><strong>Llama 3.1 405B<\/strong><\/td>\n<td>810,0 Go<\/td>\n<td>431,0 Go<\/td>\n<td>287,0 Go<\/td>\n<td>244,5 Go<\/td>\n<td>200,1 Go<\/td>\n<td>143,0 Go<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Une remarque pratique : pour une utilisation quotidienne, <strong>Q4_K_M constitue le compromis recommand\u00e9<\/strong> entre taille et qualit\u00e9. La perte de qualit\u00e9 par rapport au format FP16 est faible (hausse typique de la perplexit\u00e9 &lt; 2 %) et les \u00e9conomies de m\u00e9moire sont consid\u00e9rables (~3,3 fois plus compact). Q5_K_M offre une qualit\u00e9 l\u00e9g\u00e8rement sup\u00e9rieure, mais n\u00e9cessite environ 17 % de m\u00e9moire suppl\u00e9mentaire. Les quantifications Q3 et IQ2 ne doivent \u00eatre utilis\u00e9es qu\u2019en cas d\u2019urgence \u2014 la qualit\u00e9 s\u2019en trouve nettement d\u00e9grad\u00e9e.\n\n\n\n<h2><span class=\"ez-toc-section\" id=\"KV_cache_memory_%E2%80%94_the_part_everyone_forgets\"><\/span>M\u00e9moire du cache KV \u2014 celle que tout le monde oublie<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Les chiffres ci-dessus correspondent uniquement aux poids du mod\u00e8le. Le <strong>Cache KV<\/strong> \u2014 la m\u00e9moire vive n\u00e9cessaire pour stocker l\u2019ensemble des jetons de votre conversation \u2014 occupe \u00e9galement de la VRAM et augmente lin\u00e9airement avec la longueur du contexte.<\/p>\n<p>Taille approximative du cache KV par 1 K jetons de contexte, en FP16 :<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Classe de mod\u00e8le<\/th>\n<th>Cache KV par 1 K jetons<\/th>\n<th>Cache KV par contexte de 32 K<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Mod\u00e8les de 7 \u00e0 8 milliards de param\u00e8tres<\/td>\n<td>~32 Mo<\/td>\n<td>~1,0 Go<\/td>\n<\/tr>\n<tr>\n<td>Mod\u00e8les de 13 \u00e0 14 milliards de param\u00e8tres<\/td>\n<td>~50 Mo<\/td>\n<td>~1,6 Go<\/td>\n<\/tr>\n<tr>\n<td>Mod\u00e8les de 30 \u00e0 34 milliards de param\u00e8tres<\/td>\n<td>~80 Mo<\/td>\n<td>~2,6 Go<\/td>\n<\/tr>\n<tr>\n<td>Mod\u00e8les de 70 \u00e0 72 milliards de param\u00e8tres<\/td>\n<td>~160 Mo<\/td>\n<td>~5,1 Go<\/td>\n<\/tr>\n<tr>\n<td>Mod\u00e8les de 100 \u00e0 123 milliards de param\u00e8tres<\/td>\n<td>~220 Mo<\/td>\n<td>~7,0 Go<\/td>\n<\/tr>\n<tr>\n<td>405 milliards de param\u00e8tres<\/td>\n<td>~500 Mo<\/td>\n<td>~16,0 Go<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>La quantification du cache KV (une option disponible dans llama.cpp et vLLM en 2026) permet de r\u00e9duire cette consommation d\u2019environ 2 \u00e0 4 fois, avec un l\u00e9ger co\u00fbt en qualit\u00e9. La plupart des d\u00e9ploiements en production utilisent aujourd\u2019hui un cache KV en Q8 : la perte de qualit\u00e9 est quasiment n\u00e9gligeable, tandis que la m\u00e9moire vid\u00e9o (VRAM) \u00e9conomis\u00e9e est substantielle, notamment pour les contextes longs.<\/p>\n<p>Si vous pr\u00e9voyez d\u2019utiliser un contexte de 32 K jetons ou plus, <strong>incluez le cache KV dans votre calcul de la m\u00e9moire vid\u00e9o (VRAM) avant de choisir votre GPU<\/strong>.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"GPU_compatibility_matrix\"><\/span>Matrice de compatibilit\u00e9 GPU<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Quels mod\u00e8les s\u2019adaptent confortablement \u00e0 chaque GPU courant, aux quantifications recommand\u00e9es, avec un contexte de 8 K ? \u00ab Confortablement \u00bb signifie : mod\u00e8le + cache KV + marge syst\u00e8me de 1 Go.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>GPU<\/th>\n<th>VRAM<\/th>\n<th>Meilleure ad\u00e9quation (Q4_K_M)<\/th>\n<th>Meilleure ad\u00e9quation (Q5_K_M)<\/th>\n<th>Capacit\u00e9 maximale (toute quantification)<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>RTX 3060 12 Go<\/td>\n<td>12 Go<\/td>\n<td>8 milliards de param\u00e8tres<\/td>\n<td>8 milliards de param\u00e8tres<\/td>\n<td>14 milliards de param\u00e8tres en IQ2<\/td>\n<\/tr>\n<tr>\n<td>RTX 4060 Ti 16 Go<\/td>\n<td>16 Go<\/td>\n<td>13 milliards de param\u00e8tres<\/td>\n<td>13 milliards de param\u00e8tres<\/td>\n<td>30 milliards de param\u00e8tres en IQ2<\/td>\n<\/tr>\n<tr>\n<td>RTX 5080 \/ 5070 Ti<\/td>\n<td>16 Go<\/td>\n<td>13 milliards de param\u00e8tres<\/td>\n<td>13 milliards de param\u00e8tres<\/td>\n<td>30 milliards de param\u00e8tres en IQ2<\/td>\n<\/tr>\n<tr>\n<td>RTX 3090 \/ 4090<\/td>\n<td>24 Go<\/td>\n<td>30 milliards de param\u00e8tres (Qwen 32B)<\/td>\n<td>30 milliards de param\u00e8tres<\/td>\n<td>70 milliards de param\u00e8tres en Q3_K_S<\/td>\n<\/tr>\n<tr>\n<td>RX 7900 XTX<\/td>\n<td>24 Go<\/td>\n<td>30 milliards de param\u00e8tres<\/td>\n<td>30 milliards de param\u00e8tres<\/td>\n<td>70 milliards de param\u00e8tres en Q3_K_S<\/td>\n<\/tr>\n<tr>\n<td>RTX 5090<\/td>\n<td>32 Go<\/td>\n<td>70 milliards de param\u00e8tres<\/td>\n<td>70 milliards de param\u00e8tres (ajust\u00e9)<\/td>\n<td>70 milliards de param\u00e8tres en Q5_K_M<\/td>\n<\/tr>\n<tr>\n<td>2 \u00d7 RTX 3090 \/ 4090<\/td>\n<td>48 Go<\/td>\n<td>70 milliards de param\u00e8tres<\/td>\n<td>70 milliards de param\u00e8tres<\/td>\n<td>104 milliards de param\u00e8tres en Q3<\/td>\n<\/tr>\n<tr>\n<td>RTX A6000 \/ 6000 Ada<\/td>\n<td>48 Go<\/td>\n<td>70 milliards de param\u00e8tres<\/td>\n<td>70 milliards de param\u00e8tres<\/td>\n<td>104 milliards de param\u00e8tres en Q3<\/td>\n<\/tr>\n<tr>\n<td>Mac Studio M4 Max 64 Go<\/td>\n<td>64 Go unifi\u00e9s<\/td>\n<td>70 milliards de param\u00e8tres<\/td>\n<td>70 milliards de param\u00e8tres<\/td>\n<td>123 milliards de param\u00e8tres en Q3<\/td>\n<\/tr>\n<tr>\n<td>H100 80 Go<\/td>\n<td>80 Go<\/td>\n<td>70 milliards de param\u00e8tres (FP16 environ)<\/td>\n<td>104 milliards de param\u00e8tres<\/td>\n<td>123 milliards de param\u00e8tres en Q4<\/td>\n<\/tr>\n<tr>\n<td>Mac Studio M4 Max 128 Go<\/td>\n<td>128 Go unifi\u00e9s<\/td>\n<td>104 milliards de param\u00e8tres<\/td>\n<td>123 milliards de param\u00e8tres<\/td>\n<td>405 milliards de param\u00e8tres en IQ2 (lent)<\/td>\n<\/tr>\n<tr>\n<td>H200 \/ DIGITS<\/td>\n<td>141 Go \/ 128 Go unifi\u00e9s<\/td>\n<td>123 milliards de param\u00e8tres<\/td>\n<td>123 milliards de param\u00e8tres<\/td>\n<td>405 milliards de param\u00e8tres en Q3 (lent)<\/td>\n<\/tr>\n<tr>\n<td>B200<\/td>\n<td>192 Go<\/td>\n<td>123 milliards de param\u00e8tres<\/td>\n<td>123 milliards de param\u00e8tres<\/td>\n<td>405 milliards de param\u00e8tres en Q4 (ajust\u00e9)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Les tendances \u00e0 retenir :<\/p>\n<p>1. <strong>12 Go constituent le seuil minimal.<\/strong> En dessous de ce seuil, vous \u00eates contraints d'utiliser des mod\u00e8les tr\u00e8s petits qui ne justifient pas l'usage d'un GPU d\u00e9di\u00e9.<br \/>\n2. <strong>24 Go constituent le point de basculement.<\/strong> C'est le niveau le moins cher permettant d'ex\u00e9cuter Llama 3 70B (avec des quantifications d\u00e9grad\u00e9es).<br \/>\n3. <strong>32 Go permettent d'ex\u00e9cuter correctement le mod\u00e8le 70B.<\/strong> C'est la raison principale de choisir la RTX 5090 plut\u00f4t que la 4090.<br \/>\n4. <strong>48 Go constituent une zone confortable.<\/strong> La plupart des t\u00e2ches que vous souhaitez effectuer s'y ex\u00e9cutent sans probl\u00e8me.<br \/>\n5. <strong>128 Go de m\u00e9moire unifi\u00e9e constituent le plafond pour les consommateurs.<\/strong> Au-del\u00e0 de ce seuil, vous achetez du mat\u00e9riel destin\u00e9 aux serveurs.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Choosing_the_right_quant_for_your_hardware\"><\/span>Choisir la bonne quantification pour votre mat\u00e9riel<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>La quantification appropri\u00e9e n'est pas toujours \u00ab la plus \u00e9lev\u00e9e pouvant tenir dans votre m\u00e9moire \u00bb. La qualit\u00e9 compte, et parfois un mod\u00e8le plus petit avec une meilleure quantification surpasse un mod\u00e8le plus gros avec une quantification inf\u00e9rieure.<\/p>\n<p>Classement approximatif de la qualit\u00e9 (bas\u00e9 sur la perplexit\u00e9, plus faible est mieux) :<\/p>\n<ul>\n<li><strong>FP16 \/ BF16<\/strong> \u2014 Version originale. R\u00e9f\u00e9rence de qualit\u00e9 de base.<\/li>\n<li><strong>Q8_0<\/strong> \u2014 Augmentation de perplexit\u00e9 d'environ 0,3 %. Pratiquement indiscernable.<\/li>\n<li><strong>Q6_K<\/strong> \u2014 Augmentation d'environ 0,5 %. Indiscernable en pratique.<\/li>\n<li><strong>Q5_K_M<\/strong> \u2014 Augmentation d'environ 1,0 %. L\u00e9g\u00e8re perte de qualit\u00e9, toutefois la qualit\u00e9 reste tr\u00e8s \u00e9lev\u00e9e.<\/li>\n<li><strong>Q4_K_M<\/strong> \u2014 Augmentation d'environ 1,5 \u00e0 2,5 %. Recommand\u00e9e pour la plupart des utilisateurs.<\/li>\n<li><strong>Q4_K_S<\/strong> \u2014 Augmentation d'environ 3 %. Nettement inf\u00e9rieure \u00e0 Q4_K_M pour une taille similaire.<\/li>\n<li><strong>Q3_K_M<\/strong> \u2014 Augmentation d'environ 5 \u00e0 8 %. R\u00e9sultats nettement d\u00e9grad\u00e9s.<\/li>\n<li><strong>Q3_K_S<\/strong> \u2014 Augmentation d'environ 10 %. \u00c0 utiliser uniquement si Q4 ne tient pas dans votre VRAM.<\/li>\n<li><strong>IQ2_XXS<\/strong> \u2014 Augmentation d'environ 15 \u00e0 25 %. Dernier recours.<\/li>\n<\/ul>\n<p>R\u00e8gle g\u00e9n\u00e9rale : <strong>privil\u00e9giez un mod\u00e8le \u00e0 moins de param\u00e8tres en Q5_K_M plut\u00f4t qu\u2019un mod\u00e8le plus gros en Q3_K_S<\/strong> pour les t\u00e2ches quotidiennes. Un Qwen 32B en Q5 bat g\u00e9n\u00e9ralement un Llama 3 70B en IQ2_XXS sur les benchmarks r\u00e9els, bien que ce dernier paraisse plus impressionnant sur le papier.<\/p>\n<p>Exception : <strong>les t\u00e2ches de programmation et de raisonnement<\/strong> o\u00f9 l'avantage intrins\u00e8que en connaissances du mod\u00e8le plus gros r\u00e9siste souvent \u00e0 une quantification s\u00e9v\u00e8re. En particulier pour la g\u00e9n\u00e9ration de code, m\u00eame une version Q3_K_S d\u2019un mod\u00e8le 70B peut surpasser un mod\u00e8le 30B en Q5_K_M.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"MoE_models_%E2%80%94_the_asterisk\"><\/span>Les mod\u00e8les MoE \u2014 la pr\u00e9cision \u00e0 retenir<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Les mod\u00e8les Mixture-of-Experts (MoE), comme <strong>Mixtral 8x22B<\/strong> et <strong>DeepSeek V3<\/strong> pr\u00e9sentent une asym\u00e9trie susceptible de d\u00e9router les d\u00e9butants :<\/p>\n<ul>\n<li><strong>VRAM requise<\/strong> = nombre total de param\u00e8tres (car tous les experts doivent \u00eatre charg\u00e9s en m\u00e9moire)<\/li>\n<li><strong>Calcul requis<\/strong> = nombre de param\u00e8tres actifs par jeton (beaucoup plus faible)<\/li>\n<\/ul>\n<p>Mixtral 8x22B totalise 141 milliards de param\u00e8tres au total \/ 39 milliards actifs. Il n\u00e9cessite plus de 80 Go de VRAM pour fonctionner, mais sa vitesse par jeton se rapproche davantage de celle d\u2019un mod\u00e8le dense de 40 milliards de param\u00e8tres.<\/p>\n<p>DeepSeek V3 totalise 236 milliards de param\u00e8tres au total \/ 21 milliards actifs. Il n\u00e9cessite plus de 150 Go de VRAM, mais sa vitesse par jeton approche celle d\u2019un mod\u00e8le dense de 20 milliards de param\u00e8tres. C\u2019est pourquoi DeepSeek V3 est qualifi\u00e9 de \u00ab rapide pour sa taille \u00bb : vous payez le co\u00fbt en VRAM, mais b\u00e9n\u00e9ficiez d\u2019un avantage en efficacit\u00e9 calculatoire.<\/p>\n<p>Si votre mat\u00e9riel permet d\u2019ex\u00e9cuter un mod\u00e8le MoE, il constitue souvent le meilleur choix. Dans le cas contraire, optez pour le mod\u00e8le dense \u00e9quivalent en nombre de param\u00e8tres.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Quick-start_setups_by_budget\"><\/span>Configurations cl\u00e9s en main selon le budget<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Pour ceux qui souhaitent une r\u00e9ponse concr\u00e8te, voici des configurations \u00e9prouv\u00e9es correspondant \u00e0 cinq niveaux budg\u00e9taires en 2026 :<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Budget<\/th>\n<th>GPU<\/th>\n<th>Meilleur mod\u00e8le<\/th>\n<th>Jetons\/seconde<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>$300<\/td>\n<td>RTX 3060 12 Go<\/td>\n<td>Llama 3 8B Q5_K_M<\/td>\n<td>~48<\/td>\n<\/tr>\n<tr>\n<td>$700<\/td>\n<td>RTX 3090 d\u2019occasion<\/td>\n<td>Qwen 2.5 32B Q5_K_M<\/td>\n<td>~28<\/td>\n<\/tr>\n<tr>\n<td>$1,300<\/td>\n<td>RTX 4090 d'occasion<\/td>\n<td>Llama 3 70B Q3_K_S<\/td>\n<td>~13<\/td>\n<\/tr>\n<tr>\n<td>$1,400<\/td>\n<td>2 \u00d7 RTX 3090 d'occasion + NVLink<\/td>\n<td>Llama 3 70B Q4_K_M<\/td>\n<td>~15<\/td>\n<\/tr>\n<tr>\n<td>$2,400<\/td>\n<td>RTX 5090<\/td>\n<td>Llama 3 70B Q5_K_M<\/td>\n<td>~18<\/td>\n<\/tr>\n<tr>\n<td>$5,000<\/td>\n<td>Mac Studio M4 Max 128 Go<\/td>\n<td>Mistral Large 2 Q4<\/td>\n<td>~6<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Le \u00ab meilleur rapport qualit\u00e9-prix \u00bb en 2026 reste la RTX 3090 ou 4090 d\u2019occasion : ce sont les seules cartes graphiques grand public pour lesquelles le rapport prix\/VRAM est avantageux, et elles resteront performantes jusqu\u2019en 2028 au moins.<\/p>\n<p>Pour une analyse approfondie du choix de la carte graphique, consultez <a href=\"\/fr\/best-gpus-for-local-llms-2026\/\">les meilleures cartes graphiques pour les LLM locaux en 2026<\/a>.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"FAQ\"><\/span>FAQ<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<h3>De combien de VRAM ai-je besoin pour ex\u00e9cuter Llama 3 70B localement en 2026 ?<\/h3>\n<p>Minimum 24 Go pour Llama 3 70B en Q3_K_S (qualit\u00e9 m\u00e9diocre). 32 Go permettent d\u2019ex\u00e9cuter confortablement Q4_K_M (quantification recommand\u00e9e). Plus de 40 Go sont n\u00e9cessaires pour Q5_K_M. Avec 24 Go et un contexte de 8 K, vous n\u2019avez pratiquement aucune marge ; passer \u00e0 un contexte de 32 K exige soit un d\u00e9chargement vers le CPU, soit une quantification plus agressive.<\/p>\n<h3>Quelle est la diff\u00e9rence entre Q4_K_M et Q4_K_S ?<\/h3>\n<p>Ces deux formats sont des quantifications 4 bits du m\u00eame mod\u00e8le. Q4_K_M (\u00ab medium \u00bb) utilise 5 bits pour certains groupes de poids critiques, ce qui le rend l\u00e9g\u00e8rement plus volumineux mais nettement sup\u00e9rieur en qualit\u00e9 par rapport \u00e0 Q4_K_S (\u00ab small \u00bb). Pour une consommation de VRAM quasi identique, Q4_K_M est pr\u00e9f\u00e9rable. Q4_K_S n\u2019a de sens que si vous tentez de faire tenir un mod\u00e8le dans une enveloppe VRAM tr\u00e8s serr\u00e9e.<\/p>\n<h3>Puis-je ex\u00e9cuter un mod\u00e8le de langage (LLM) plus volumineux que ma m\u00e9moire vid\u00e9o (VRAM) ?<\/h3>\n<p>Oui \u2014 en utilisant <strong>d\u00e9chargement vers le CPU<\/strong>l\u2019offloading partiel, o\u00f9 certaines couches du mod\u00e8le s\u2019ex\u00e9cutent sur le processeur (CPU) en utilisant la m\u00e9moire syst\u00e8me (RAM) au lieu de la VRAM du GPU. La p\u00e9nalit\u00e9 de performance est s\u00e9v\u00e8re (5 \u00e0 10 fois plus lent), mais cela permet d\u2019ex\u00e9cuter des mod\u00e8les qui, autrement, ne tiendraient pas dans la VRAM. Pratique pour une utilisation occasionnelle, mais p\u00e9nible comme outil quotidien. \u00c0 la fois llama.cpp et Ollama prennent nativement en charge cette fonctionnalit\u00e9 via le param\u00e8tre <code>n_gpu_layers<\/code> .<\/p>\n<h3>Le cache KV a-t-il vraiment un impact sur la planification de la VRAM ?<\/h3>\n<p>Oui, surtout pour les contextes longs. Pour Llama 3 70B avec un contexte de 32 K, le cache KV seul occupe environ 5 Go. Si vous \u00eates d\u00e9j\u00e0 \u00e0 la limite de votre VRAM, vous rencontrerez une erreur \u00ab Out of Memory \u00bb (OOM) d\u00e8s qu\u2019une conversation s\u2019allonge. Pr\u00e9voyez donc une marge pour le cache KV et envisagez la quantification Q8 du cache KV (option disponible dans les moteurs d\u2019inf\u00e9rence modernes), qui permet de r\u00e9duire approximativement de moiti\u00e9 sa taille.<\/p>\n<h3>Existe-t-il un moyen d\u2019ex\u00e9cuter Llama 3 405B chez soi ?<\/h3>\n<p>Oui, mais vous avez besoin de plus de 200 Go de m\u00e9moire, avec des quantifications utilisables. Les solutions r\u00e9alistes en 2026 sont : le Mac Studio M4 Ultra avec 512 Go de m\u00e9moire (12 000 $, lent par jeton mais fonctionnel), huit cartes graphiques RTX 4090 (13 000 $, configuration complexe), le syst\u00e8me Nvidia DIGITS (3 000 $, con\u00e7u sp\u00e9cifiquement \u00e0 cet effet), ou une combinaison CPU + 256 Go de RAM DDR5 avec une carte graphique milieu de gamme pour un d\u00e9chargement partiel (8 000 $, lent). Consultez notre <a href=\"\/fr\/running-llama-3-405b-at-home-real-cost\/\">guide pratique sur l\u2019ex\u00e9cution de Llama 3 405B chez soi<\/a>.<\/p>\n<h3>Existe-t-il, en 2026, d\u2019autres formats de quantification \u00e0 conna\u00eetre en plus de GGUF ?<\/h3>\n<p>Oui \u2014 <strong>AWQ<\/strong> (Activation-aware Weight Quantization) et <strong>GPTQ<\/strong> restent largement utilis\u00e9s, notamment pour les d\u00e9ploiements avec vLLM et TensorRT-LLM. Dans certains cas, ils offrent une qualit\u00e9 l\u00e9g\u00e8rement sup\u00e9rieure \u00e0 GGUF pour un m\u00eame nombre de bits. Toutefois, pour une utilisation grand public locale avec llama.cpp \/ Ollama \/ LM Studio, GGUF reste dominant en 2026 gr\u00e2ce \u00e0 sa simplicit\u00e9 et \u00e0 son support \u00e9tendu dans les outils.<\/p>\n<h3>La quantification Q4 affectera-t-elle mes capacit\u00e9s de programmation ?<\/h3>\n<p>Moins que ce que l\u2019on pourrait penser, mais oui. Pour une compl\u00e9tion de code simple, Q4_K_M est pratiquement identique \u00e0 FP16. En revanche, pour un raisonnement complexe en plusieurs \u00e9tapes sur une base de code enti\u00e8re, Q4 produit parfois une logique moins fiable que Q5+. Si vous effectuez s\u00e9rieusement de la programmation avec des mod\u00e8les locaux, privil\u00e9giez Q5_K_M et choisissez un mat\u00e9riel capable de le supporter.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Bottom_line\"><\/span>Conclusion<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>La planification de la VRAM pour les LLM locaux en 2026 n\u2019est pas compliqu\u00e9e, mais elle r\u00e9compense la pr\u00e9cision. Commencez par choisir la classe de param\u00e8tres (taille du mod\u00e8le correspondant aux capacit\u00e9s requises), puis s\u00e9lectionnez la quantification la plus l\u00e9g\u00e8re offrant une qualit\u00e9 acceptable (Q4_K_M est g\u00e9n\u00e9ralement le bon choix), ajoutez ensuite la m\u00e9moire n\u00e9cessaire au cache KV pour votre longueur de contexte r\u00e9elle, et dimensionnez enfin votre GPU en cons\u00e9quence.<\/p>\n<p>Si vous ne retenez que trois chiffres, retenez ceux-ci :<\/p>\n<ul>\n<li><strong>12 Go<\/strong> permet d\u2019ex\u00e9cuter sans probl\u00e8me des mod\u00e8les de 8 milliards de param\u00e8tres.<\/li>\n<li><strong>24 Go<\/strong> permet d\u2019ex\u00e9cuter des mod\u00e8les de 30 milliards de param\u00e8tres avec des quantifications de bonne qualit\u00e9, et des mod\u00e8les de 70 milliards de param\u00e8tres de fa\u00e7on pr\u00e9caire.<\/li>\n<li><strong>32 Go<\/strong> permet d\u2019ex\u00e9cuter des mod\u00e8les de 70 milliards de param\u00e8tres avec des quantifications de bonne qualit\u00e9.<\/li>\n<\/ul>\n<p>Tout au-del\u00e0 de 32 Go entre dans le domaine des serveurs, tandis que tout en dessous de 12 Go rel\u00e8ve des t\u00e9l\u00e9phones ou des syst\u00e8mes embarqu\u00e9s. La grande majorit\u00e9 des activit\u00e9s li\u00e9es aux LLM locaux en 2026 se situe dans la fourchette 12\u201332 Go, exactement celle des GPU grand public \u2014 par conception, et non par hasard.<\/p>\n<p><!--related-block--><\/p>\n<div class=\"convly-related\">\n<h2><span class=\"ez-toc-section\" id=\"Related_articles\"><\/span>Articles connexes<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<ul>\n<li><a href=\"https:\/\/convly.ai\/fr\/claude-opus-4-8-vs-claude-sonnet-4-6\/\">Claude Opus 4.8 vs Claude Sonnet 4.6: Specs, Pricing &amp; Which to Choose (2026)<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/fr\/open-source-llm-leaderboard-hardware-2026\/\">Classement des grands mod\u00e8les linguistiques open source 2026 : mat\u00e9riel requis pour ex\u00e9cuter chaque mod\u00e8le leader<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/fr\/claude-5-new-ai-models-june-2026\/\">Existe-t-il un Claude 5 ? Claude Fable 5 et tous les principaux mod\u00e8les d\u2019IA de juin 2026<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/fr\/veo-3-vs-kling-3-for-ai-video-2026\/\">Veo 3.1 contre Kling 3.0 pour la vid\u00e9o IA en 2026 : lequel remporte la palme du r\u00e9alisme ?<\/a><\/li>\n<\/ul>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>The complete VRAM cheat sheet for every major open LLM in 2026 \u2014 at every common quantization level \u2014 plus a matrix showing which models fit on 12, 16, 24, 32, 48, and 80 GB GPUs.<\/p>","protected":false},"author":1,"featured_media":271,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[247],"tags":[289,290,288,287,285,286],"class_list":["post-264","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-ai-benchmarks","tag-ggml","tag-gguf","tag-gpu-vram-for-ai","tag-llama-3-vram","tag-llm-vram","tag-quantization"],"_links":{"self":[{"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/posts\/264","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/comments?post=264"}],"version-history":[{"count":2,"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/posts\/264\/revisions"}],"predecessor-version":[{"id":1458,"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/posts\/264\/revisions\/1458"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/media\/271"}],"wp:attachment":[{"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/media?parent=264"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/categories?post=264"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/convly.ai\/fr\/wp-json\/wp\/v2\/tags?post=264"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}