How much RAM do I need to run Ollama?

It depends entirely on the model. Ollama itself needs almost nothing; the model sets the requirement. As a rule, a 4-bit model needs about 0.6 GB per billion parameters — so ~4–5 GB for a 7B model, ~8 GB for 13B, and 40 GB+ for a 70B. Always leave a few gigabytes free for your OS.

Can I run Ollama without a GPU?

Yes. Small models (2–8B) run fine on CPU, just more slowly than on a GPU. A model like Gemma2 2B needs only about 1.7 GB of RAM and works on basic laptops. For models above ~13B, a GPU or Apple Silicon with unified memory makes a real difference.

How much VRAM do I need for a 7B model?

About 6–8 GB for a 4-bit quantized 7B model, including some context overhead. That fits comfortably on most entry-level discrete GPUs and on laptops with 16 GB of unified or system memory.

Why is Ollama running so slowly?

Almost always because the model doesn't fully fit in your GPU's VRAM, so part of it spilled to system RAM or CPU. Check with ollama ps — if it shows high CPU usage, switch to a smaller model or a more aggressive quant so the whole model fits in fast memory.

How much disk space do I need for Ollama?

Plan for about 4 GB for the Ollama install itself, then add the size of each model you pull. At 4-bit quantization an 8B model is roughly 5 GB, a 70B is around 40 GB, and the largest models exceed 65 GB. A typical multi-model setup lands between 30 and 80 GB, so a 512 GB SSD is a comfortable starting point. An SSD (preferably NVMe) is strongly recommended, because models load off disk every time you first run them.

Where does Ollama store models, and can I move them to another drive?

By default Ollama keeps downloaded models in a hidden folder in your home directory — ~/.ollama on macOS and Linux, and %HOMEPATH%.ollama on Windows. If your system drive is small, you can redirect storage to a larger or external disk by setting the OLLAMA_MODELS environment variable to a new path before starting Ollama. This is the cleanest fix when your boot drive runs out of room.

Which operating systems does Ollama support?

Ollama runs natively on macOS 11 (Big Sur) or newer, Windows 10 22H2 or newer (64-bit, including ARM64 devices like Snapdragon laptops), and most modern Linux distributions such as Ubuntu 18.04+, Fedora, and Arch. For GPU acceleration you also need an up-to-date driver — a recent NVIDIA driver for CUDA, or a ROCm/Vulkan-capable driver on AMD — otherwise Ollama runs on the CPU instead.

Exigences système d'Ollama en 2026 : combien de RAM et de VRAM vous êtes réellement besoin

Q: Is a Mac good for running Ollama?

Yes, often excellent. Apple Silicon's unified memory lets a 64 GB Mac run models that would otherwise need a costly multi-GPU PC, and the MLX backend (since v0.19) made it fast too. A high-memory Mac is one of the best single-machine options for local LLMs in 2026.

Mis à jour July 3, 2026 · Initialement publié le 6 juin 2026

La raison la plus fréquente pour laquelle un modèle ne s’exécute pas sous Ollama n’est pas un bogue, mais le fait que ce modèle dépasse la capacité mémoire disponible. Ollama lui-même est très léger ; ce sont les modèles qui exigent des ressources matérielles. Ce guide fournit les chiffres réels de RAM et de VRAM requis pour chaque taille de modèle en 2026, ainsi qu’une formule simple pour déterminer ce qui convient à votre configuration. avant de passer dix minutes à télécharger un modèle qui ne chargera pas.

Si vous n’avez pas encore installé Ollama, commencez par notre Guide d’installation pas à pas.

Points clés

Règle générale : un modèle quantifié (Q4) nécessite environ 0,6 Go de mémoire par milliard de paramètres, plus une marge pour le contexte.
Modèles de 2 à 3 milliards de paramètres : s’exécutent sur CPU, avec environ 2 à 4 Go de RAM. Parfaitement adaptés à un ordinateur portable basique.
Modèles de 7 à 8 milliards de paramètres : environ 6 à 8 Go de RAM/VRAM. Le compromis idéal pour la plupart des ordinateurs portables.
Modèles de 27 à 34 milliards de paramètres : environ 20 à 24 Go de VRAM. Nécessitent un GPU haut de gamme ou une puce Apple Silicon dotée d’une grande quantité de mémoire unifiée.
Modèles de 70 milliards de paramètres et plus : 40 Go ou plus — un GPU professionnel, une configuration multi-GPU ou une mémoire unifiée de 64 Go ou plus.

Pourquoi la mémoire constitue l’élément déterminant

Pour générer du texte, les poids d’un modèle doivent résider dans une mémoire rapide — la VRAM de votre GPU, ou la RAM système si vous l’exécutez sur CPU. Si le modèle ne tient pas, deux scénarios se présentent : soit Ollama déplace une partie des données vers une mémoire plus lente (ce qui entraîne un effondrement des performances), soit il refuse de charger le modèle avec une erreur « mémoire insuffisante ». Tous les autres facteurs — vitesse du CPU, disque dur, système d’exploitation — importent nettement moins que la disponibilité d’une mémoire suffisante et adaptée.

Deux facteurs déterminent ces exigences :

Nombre de paramètres — un modèle de 7 milliards de paramètres comporte 7 milliards de poids ; un modèle de 70 milliards en compte dix fois plus.
Quantification — Ollama utilise des poids compressés au format GGUF. Une quantification 4 bits (Q4) divise approximativement par deux la consommation mémoire par rapport à une quantification 8 bits, avec une perte de qualité minimale, ce qui explique pourquoi elle constitue le choix par défaut privilégié.

La formule simplifiée

Pour un modèle quantifié en 4 bits — celui que Ollama télécharge par défaut — l’estimation suivante s’applique :

Mémoire requise ≈ (nombre de paramètres en milliards) × 0,6 Go + surcharge liée au contexte

Ainsi, un modèle de 7 milliards de paramètres nécessite environ 4 à 5 Go, un modèle de 13 milliards environ 8 Go, un modèle de 27 milliards environ 18 à 20 Go, et un modèle de 70 milliards nécessite 40 Go ou plus. Ajoutez une marge supplémentaire pour le cache KV, dont la taille augmente avec la longueur de vos échanges. Prévoyez toujours quelques gigaoctets de marge pour votre système d’exploitation.

Exigences selon la taille du modèle

Taille du modèle	Mémoire (Q4)	Compatible avec	Exemples de modèles
2–3 milliards	~2–4 Go	CPU / n’importe quel ordinateur portable	Gemma2 2B, Phi-4 mini
7–8B	~6–8 Go	GPU d’entrée de gamme / ordinateur portable 16 Go	DeepSeek-R1 7B, Llama 3.3 8B
13–14 milliards	~10–12 Go	GPU milieu de gamme	Phi-4, Qwen intermédiaire
27–34 milliards	~18–24 Go	GPU haut de gamme / Apple Silicon	Gemma 4 26B, Qwen 3.6 27B
70B	~40–48 Go	Station de travail / multi-GPU	Classe Llama 70B
200 milliards+ (MoE)	100 Go+	Serveur / mémoire unifiée très importante	Qwen3 235B-A22B

Pour une analyse plus détaillée par modèle spécifique, consultez notre guide sur exigences en VRAM pour chaque grand modèle linguistique (LLM).

GPU vs CPU vs Apple Silicon

GPU NVIDIA — la référence absolue. La VRAM constitue la limite stricte : le modèle doit tenir entièrement dans la mémoire de votre carte graphique pour fonctionner rapidement. Une carte de 24 Go (RTX 4090/5090) exécute aisément des modèles allant jusqu’à ~27–34 milliards de paramètres.

Uniquement sur CPU — fonctionne pour les petits modèles (2–8 milliards), mais beaucoup plus lentement, car la bande passante de la mémoire système ne peut pas rivaliser avec celle d’un GPU. Parfaitement adapté aux tâches légères sur un ordinateur portable dépourvu de GPU dédié.

Apple Silicon — un cas particulier, et un excellent choix. Les Mac utilisent une mémoire la mémoire unifiée partagée entre le CPU et le GPU ; ainsi, un Mac doté de 64 Go peut charger des modèles qui exigeraient autrement un PC coûteux équipé de plusieurs GPU. Depuis l’ajout du backend MLX dans Ollama v0.19 (mars 2026), les performances d’Apple Silicon se sont nettement améliorées, faisant d’un Mac à haute mémoire l’une des meilleures machines monocarte disponibles pour exécuter localement des LLM. Pour comparer cette solution à un GPU dédié, voir Strix Halo contre Apple M4 Pro.

GPU AMD — pris en charge via ROCm. Fonctionne bien pour l’inférence en 2026 ; consultez notre Comparaison ROCm / CUDA pour connaître l’état actuel.

Comment faire tenir un modèle volumineux

Si le modèle que vous souhaitez utiliser dépasse légèrement votre capacité mémoire, plusieurs solutions s’offrent à vous avant d’abandonner :

Utilisez une quantification plus faible — choisissez plutôt une variante q4 ou même q3 au lieu de q8. Vous sacrifiez un peu de qualité au profit d’une économie mémoire substantielle.
Choisissez un modèle plus petit — un modèle bien conçu de 8 milliards de paramètres surpasse souvent un modèle de 27 milliards qui tourne péniblement, avec pagination sur disque.
Réduisez la fenêtre de contexte — une fenêtre de contexte plus petite consomme moins de mémoire pour le cache KV.
Fermez les autres applications — sur une machine à CPU ou à mémoire unifiée, la mémoire RAM libre est votre budget.

Pour choisir un modèle adapté à votre matériel, consultez le guide Meilleurs modèles de langage volumineux locaux compatibles avec Ollama.

Prérequis en matière de stockage et de logiciels souvent oubliés

La mémoire vive (RAM) et la mémoire vidéo (VRAM) attirent toute l’attention, mais deux exigences plus discrètes font échouer davantage d’installations initiales que tout autre facteur : l’espace disque disponible et la pile logicielle sous-jacente. Si vous ne respectez pas ces conditions, Ollama refuse soit de s’installer, soit échoue à mi-chemin du téléchargement d’un modèle.

Espace disque. Le binaire Ollama lui-même est léger — comptez environ 4 Go pour l’installation. Ce sont les modèles qui consomment votre espace disque. Chaque modèle est téléchargé une seule fois et mis en cache sur le disque, puis chargé en mémoire lors de son exécution ; vous devez donc disposer d’un espace suffisant pour stocker intégralement les poids des modèles, en sus de l’espace libre déjà disponible. À titre indicatif, pour une quantification courante en 4 bits :

Un modèle de 8 milliards de paramètres (8B) (ex. : Llama 3.1 8B) occupe environ 5 Go sur le disque.
Un modèle de la classe 20B : environ 12 à 14 Go.
Un modèle de 70 milliards de paramètres (70B) : environ 40 Go.
Un très grand modèle MoE (classe Llama 4) : 65 Go ou plus.

Ces volumes s’accumulent rapidement. Une collection occasionnelle de quelques modèles atteint facilement 30 à 80 Go ; conserver plusieurs variantes volumineuses vous fera dépasser sans effort les 200 Go. Un SSD de 512 Go constitue un seuil raisonnable si vous envisagez de constituer une collection de modèles.

Utilisez un SSD, de préférence NVMe. Comme les poids sont lus depuis le disque vers la RAM ou la VRAM à chaque premier chargement d’un modèle, un disque dur mécanique lent se traduit directement par un démarrage péniblement lent — un modèle de 40 Go mettrait des minutes à charger depuis un disque rotatif. Un stockage rapide n’améliore pas le débit de tokens par seconde une fois le modèle chargé, mais il rend la première requête quasi instantanée au lieu d’une attente de 30 secondes.

Système d’exploitation et pilotes. Ollama fonctionne nativement sur les trois plateformes, mais chacune impose un minimum :

macOS : version 11 (Big Sur) ou ultérieure, sur processeurs Apple Silicon comme sur Intel.
Windows : Windows 10 version 22H2 ou ultérieure (éditions Famille ou Professionnel), sur architectures x86_64 et ARM64 — ainsi, les ordinateurs équipés de puces Snapdragon l’exécutent nativement, sans émulation x86.
Linux : la plupart des distributions récentes (Ubuntu 18.04+, Debian, Fedora, RHEL, Arch).

Pour l’accélération GPU, vous avez également besoin de pilotes à jour : un pilote NVIDIA récent — version 531 ou supérieure (et version 570 ou supérieure pour les cartes graphiques anciennes des générations Maxwell et Pascal) — pour CUDA, ou une pile de pilotes compatible Vulkan ou ROCm v7 pour les cartes AMD Radeon. En cas d’absence ou de désuétude du pilote, Ollama retombe silencieusement sur le CPU — ce qui constitue la cause la plus fréquente de ralentissement sur une machine « dotée d’un bon GPU ».

FAQ

De combien de mémoire RAM ai-je besoin pour exécuter Ollama ?

Cela dépend entièrement du modèle. Ollama lui-même nécessite presque rien ; c’est le modèle qui fixe la demande. En règle générale, un modèle quantifié en 4 bits nécessite environ 0,6 Go par milliard de paramètres — soit ~4–5 Go pour un modèle de 7 milliards, ~8 Go pour un modèle de 13 milliards, et 40 Go ou plus pour un modèle de 70 milliards. Prévoyez toujours quelques gigaoctets supplémentaires pour votre système d’exploitation.

Puis-je exécuter Ollama sans GPU ?

Oui. Les petits modèles (2–8 milliards) fonctionnent correctement sur CPU, bien qu’avec une vitesse inférieure à celle d’un GPU. Un modèle comme Gemma2 2B nécessite seulement environ 1,7 Go de RAM et fonctionne sur des ordinateurs portables basiques. Pour les modèles supérieurs à ~13 milliards, un GPU ou un Apple Silicon doté de mémoire unifiée fait réellement la différence.

De combien de VRAM ai-je besoin pour un modèle de 7 milliards ?

Environ 6–8 Go pour un modèle de 7 milliards quantifié en 4 bits, y compris une marge pour le contexte. Cela convient parfaitement à la plupart des GPU grand public d’entrée de gamme, ainsi qu’aux ordinateurs portables disposant de 16 Go de mémoire unifiée ou système.

Pourquoi Ollama fonctionne-t-il si lentement ?

Presque toujours parce que le modèle ne tient pas entièrement dans la VRAM de votre GPU, ce qui force une partie à être déplacée vers la mémoire système ou le CPU. Vérifiez avec ollama ps — si l’utilisation du CPU apparaît élevée, passez à un modèle plus petit ou à une quantification plus agressive afin que le modèle tienne entièrement dans la mémoire rapide.

Un Mac est-il adapté à l’exécution d’Ollama ?

Oui, souvent excellente. La mémoire unifiée d’Apple Silicon permet à un Mac disposant de 64 Go de RAM d’exécuter des modèles qui exigeraient sinon un PC coûteux équipé de plusieurs GPU, et le backend MLX (depuis la version v0.19) en a également fait une solution performante. Un Mac doté d’une grande quantité de mémoire constitue l’une des meilleures options monocarte pour les LLM locaux en 2026. that would otherwise need a costly multi-GPU PC, and the MLX backend (since v0.19) made it fast too. A high-memory Mac is one of the best single-machine options for local LLMs in 2026.

De combien d’espace disque ai-je besoin pour Ollama ?

Prévoyez environ 4 Go pour l’installation d’Ollama elle-même, puis ajoutez la taille de chaque modèle que vous téléchargez. En quantification 4 bits, un modèle de 8B occupe environ 5 Go, un modèle de 70B environ 40 Go, et les modèles les plus volumineux dépassent les 65 Go. Une configuration typique avec plusieurs modèles se situe entre 30 et 80 Go ; un SSD de 512 Go constitue donc un point de départ confortable. Un SSD (de préférence NVMe) est fortement recommandé, car les modèles sont chargés depuis le disque à chaque première exécution.

Où Ollama stocke-t-il les modèles, et puis-je les déplacer vers un autre disque ?

Par défaut, Ollama conserve les modèles téléchargés dans un dossier caché de votre répertoire personnel — ~/.ollama sur macOS et Linux, et %HOMEPATH%.ollama sur Windows. Si votre disque système est limité en capacité, vous pouvez rediriger le stockage vers un disque plus spacieux ou externe en définissant la variable d’environnement OLLAMA_MODELS avant de lancer Ollama. Il s’agit de la solution la plus propre lorsque votre disque système manque d’espace.

Quels systèmes d’exploitation Ollama prend-il en charge ?

Ollama fonctionne nativement sur macOS 11 (Big Sur) ou ultérieur, Windows 10 version 22H2 ou ultérieure (64 bits, y compris les appareils ARM64 tels que les ordinateurs portables Snapdragon), et la plupart des distributions Linux récentes, notamment Ubuntu 18.04+, Fedora et Arch. Pour l’accélération GPU, vous devez également disposer d’un pilote à jour — un pilote NVIDIA récent pour CUDA, ou un pilote compatible ROCm/Vulkan pour AMD — sinon Ollama s’exécute sur le CPU.

Conclusion

Avant tout téléchargement, effectuez rapidement ce calcul : nombre de paramètres × 0,6 Go pour un modèle quantifié en 4 bits, plus une marge de sécurité. Comparez ce résultat à votre VRAM (NVIDIA/AMD) ou à votre mémoire unifiée (Apple), et vous éviterez définitivement les erreurs frustrantes de mémoire insuffisante. En cas de doute, commencez avec un modèle une taille en dessous de celui que vous aviez envisagé — un modèle qui tient et fonctionne rapidement vaut mieux qu’un modèle plus gros qui peine.