How do I install Ollama on Windows?

Download the native installer from ollama.com/download and run the .exe. Ollama runs natively on Windows with no WSL required, and automatically uses an NVIDIA GPU via CUDA if you have one. Confirm the install with ollama --version in PowerShell.

How do I install Ollama on Linux?

Run curl -fsSL https://ollama.com/install.sh | sh. This installs Ollama and registers it as a systemd service. Verify it with systemctl status ollama. The installer auto-detects NVIDIA and AMD GPUs.

Can I install Ollama with Homebrew?

Yes — brew install ollama works on macOS. The native app from ollama.com is equally good and includes a menu-bar presence; the Homebrew route is handy if you manage everything through the command line.

Where does Ollama store models?

By default, on Mac and Linux in ~/.ollama/models, and on Windows under your user profile. Models can be several gigabytes each, so use ollama list to track what you've downloaded and ollama rm <model> to clean up.

Is Ollama safe to install?

Yes. Ollama is open-source (MIT-licensed) and widely used. The standard caution applies to the Linux one-line installer — it's the project's official script, but if you prefer, you can download and inspect install.sh before running it.

Why does Ollama keep cutting off long prompts or documents?

Ollama defaults to a 4096-token context window regardless of what the model can actually handle, so longer inputs are truncated without warning. Raise it by starting the server with OLLAMA_CONTEXT_LENGTH set higher (for example 8192 or more), up to the model's supported limit. A bigger context uses more memory, so enable OLLAMA_FLASH_ATTENTION=1 to offset the cost, and watch your RAM or VRAM headroom.

How do I access Ollama from another computer on my network?

By default Ollama only listens on localhost, so it is invisible to other devices. Set OLLAMA_HOST=0.0.0.0:11434 and restart it, then connect using the host machine's LAN IP address on port 11434. Be aware there is no authentication on the API, so only expose it on a network you trust, and use a firewall rule or reverse proxy if the machine is reachable from outside your home or office.

How do I stop Ollama from reloading the model on every request?

That delay is the model being unloaded from memory between uses. Ollama keeps a model loaded for 5 minutes by default; set OLLAMA_KEEP_ALIVE=-1 to keep it resident indefinitely so prompts respond instantly. The trade-off is that the model holds onto your RAM or VRAM the whole time, so use 0 instead if you would rather free that memory the moment a request finishes.

How to Install Ollama in 2026: Mac, Windows, and Linux (Step by Step)

Mis à jour 10 juillet 2026 · Initialement publié le 6 juin 2026

L'installation d'Ollama ne prend vraiment que deux minutes, quel que soit le système d'exploitation utilisé. Ce guide vous explique en détail la marche à suivre sur Mac, Windows et Linux, vous montre comment exécuter votre premier modèle et aborde les quelques erreurs que les utilisateurs rencontrent le plus souvent.

Vous découvrez cet outil pour la première fois ? Commencez par Qu'est-ce qu'Ollama et comment ça marche ?, puis revenez ici pour l'installer.

Quick answer: How do you install Ollama?

Installing Ollama is a download-and-run process that takes around two minutes on every major operating system. On macOS, download the app from ollama.com or run brew install ollama; on Windows, run the official installer, which is native and needs no WSL; on Linux, run the one-liner curl -fsSL https://ollama.com/install.sh | sh. Then pull and run your first model with Lancer gemma4, and confirm it works when the local API answers at http://localhost:11434.

macOS : download the app from ollama.com or run brew install ollama.
Windows : run the official .exe installer — native, no WSL required — then check ollama --version.
Linux : une commande — curl -fsSL https://ollama.com/install.sh | sh.
First model to run: Lancer gemma4 downloads and runs a strong all-rounder in a single command.
RAM you need: roughly as much free RAM (or VRAM) as the quantized model size — around 4–5 GB for a 7B model and about 8 GB for a 13B model.

Points clés

Mac : téléchargez l'application sur ollama.com, ou brew install ollama.
Windows : Téléchargez et exécutez le programme d'installation officiel — version native, WSL non requis.
Linux : une commande — curl -fsSL https://ollama.com/install.sh | sh.
Premier modèle : Lancer gemma4 Il s'agit d'un logiciel polyvalent et performant, facile à télécharger et à utiliser.
Vérifiez que cela fonctionne : l'API répond à l'adresse http://localhost:11434.

Avant l'installation : votre ordinateur est-il compatible ?

Ollama est une toute petite ville, mais le modèles ne le sont pas. Une règle empirique rapide : il vous faut environ autant de RAM libre (ou de VRAM) que la taille quantifiée du modèle — environ 4 à 5 Go pour un modèle de 7 milliards de paramètres, 8 Go pour un modèle de 13 milliards de paramètres, et bien plus encore pour les plus gros. Si vous n’êtes pas sûr de ce que votre matériel peut supporter, consultez notre Guide des exigences système d’Ollama Tout d'abord, choisissez un modèle qui vous va vraiment bien.

Installer sur macOS

La solution la plus simple est l'application native :

Aller à ollama.com/téléchargement et téléchargez l'application macOS.
Ouvrez le .dmg puis faites glisser Ollama vers le dossier « Applications ».
Lancez-le — Ollama fonctionne en arrière-plan et le ollama La commande devient disponible dans votre terminal.

Vous préférez la ligne de commande ? Utilisez Homebrew :

brew install ollama

Sur Apple Silicon (M1 à M5), Ollama utilise automatiquement le GPU via le backend MLX d'Apple (depuis la version 0.19), ce qui vous permet de bénéficier d'une inférence rapide sans configuration supplémentaire.

Installation sous Windows

Ollama fonctionne en mode natif sous Windows — vous n'avez plus besoin de WSL :

Téléchargez le programme d'installation pour Windows à partir de ollama.com/téléchargement.
Lancez le .exe et suivez les instructions.
Ouvrir PowerShell ou Invite de commande et tapez ollama --version pour vérifier qu'il est bien installé.

Si vous disposez d'un GPU NVIDIA, Ollama le détecte automatiquement et utilise CUDA. Aucune manipulation particulière n'est nécessaire au niveau des pilotes, à condition que ceux-ci soient à jour.

Installation sous Linux

Une seule commande suffit :

curl -fsSL https://ollama.com/install.sh | sh

Cela permet d'installer Ollama et de le configurer en tant que systemd service qui démarre au démarrage du système. Pour vérifier qu'il est bien en cours d'exécution :

systemctl status ollama

Sous Ubuntu et la plupart des distributions, le programme d'installation détecte les cartes graphiques NVIDIA et AMD et configure le backend approprié. Pour les cartes AMD en particulier, assurez-vous que ROCm est installé — consultez notre article détaillé sur ROCm contre CUDA concernant l'état de la prise en charge d'AMD en 2026.

Exécutez votre premier modèle

Une fois Ollama installé, vous pouvez récupérer et exécuter un modèle en une seule commande :

Lancer gemma4

Lors de la première exécution, le modèle (de quelques gigaoctets) est téléchargé, puis vous accédez à une interface de chat. Tapez une question, obtenez une réponse — le tout directement sur votre ordinateur. Voici quelques commandes utiles :

ollama list — afficher les modèles que vous avez téléchargés.
ollama pull qwen3 — télécharger un modèle sans l'exécuter.
ollama rm gemma4 — Supprimer un modèle pour libérer de l'espace disque.
ollama ps — voir ce qui est actuellement chargé en mémoire.

Vous ne savez pas par quel modèle commencer ? Consultez notre guide sur les les meilleurs LLM locaux sur Ollama associe les modèles aux cas d'utilisation et au matériel.

Vérifiez que l'API fonctionne

Ollama expose une API REST sur le port 11434. Pour vérifier qu'elle est bien active, exécutez la commande suivante :

curl http://localhost:11434/api/tags

Une réponse JSON répertoriant vos modèles signifie que tout fonctionne correctement. C'est à ce point de terminaison que vos propres applications se connecteront — et comme Ollama propose une API compatible avec OpenAI, une grande partie du code existant fonctionne simplement en modifiant l'URL de base.

Problèmes d'installation courants et solutions

“ ollama : commande introuvable ” (Mac/Linux) : L'application est installée, mais elle n'apparaît pas sur votre PATH. Sur Mac, assurez-vous que l'application a bien été lancée au moins une fois ; sous Linux, ouvrez un nouveau terminal après l'installation.
Les téléchargements de modèles sont lents ou se bloquent : Ollama télécharge des fichiers volumineux ; un téléchargement bloqué se résout généralement en ollama pull encore une fois — il reprend là où il s'était arrêté, au lieu de redémarrer.
Le GPU n'est pas utilisé : vérifier ollama ps — si le message indique « 100% CPU », cela signifie peut-être que vos pilotes GPU ne sont pas à jour ou que le modèle est trop volumineux pour tenir dans la mémoire VRAM et qu’il a donc été transféré vers le processeur. Essayez un modèle plus petit ou davantage quantifié.
“Erreurs ” mémoire insuffisante » : Le modèle dépasse la capacité de votre RAM/VRAM. Choisissez un échantillon plus petit (recherchez q4 (variantes) ou un modèle de plus petite taille. Notre guide des exigences système indique où chaque élément doit être placé.
Le port 11434 est déjà utilisé : Une autre instance d'Ollama est en cours d'exécution. Arrêtez-la (ollama ps puis de quitter l'application/le service) avant d'en lancer une nouvelle.

Configurer Ollama après l'installation : stockage, mémoire et interface utilisateur

L'installation d'Ollama est un jeu d'enfant. Quelques paramètres suffisent pour déterminer s'il restera discret ou s'il va tranquillement monopoliser votre disque dur et votre mémoire vive. Il s'agit exclusivement de variables d'environnement, et l'endroit où vous devez les définir dépend de votre système d'exploitation : sous macOS, utilisez launchctl setenv, sous Linux, modifiez le service à l'aide de systemctl edit ollama.service et ajouter un Environnement= ligne, et sous Windows, ajoutez une variable d'environnement utilisateur dans les Paramètres. Redémarrez Ollama après chaque modification pour que celle-ci prenne effet.

Les quatre qui comptent le plus :

OLLAMA_MODELS — emplacements où sont stockés les modèles. Les modèles sont volumineux, et par défaut, ils se trouvent sur votre disque système (~/.ollama/models sous macOS, /usr/share/ollama/.ollama/models sous Linux, C:Utilisateurs.ollamamodels sous Windows). Configurez-le pour qu'il utilise un disque plus grand ou plus rapide avant de charger une multitude de modèles. Sous Linux, assurez-vous que le ollama L'utilisateur peut lire et écrire dans ce nouveau répertoire.
OLLAMA_KEEP_ALIVE — la durée pendant laquelle un modèle reste en mémoire après une requête. La valeur par défaut est de 5 minutes. Définissez-la sur -1 pour conserver un modèle à jour afin que la première réponse ne soit jamais lente, ou 0 pour décharger immédiatement et libérer de la mémoire VRAM dès que vous avez terminé.
OLLAMA_CONTEXT_LENGTH — la fenêtre de contexte. Par défaut, Ollama utilise une valeur prudente de 4 096 tokens, ce qui fait que les longs documents sont tronqués sans avertissement. Augmentez cette valeur (par exemple à 8 192 ou plus) si votre modèle le permet, et associez-la à OLLAMA_FLASH_ATTENTION=1 afin de limiter la consommation supplémentaire de mémoire.
OLLAMA_HOST — ce à quoi le serveur se connecte. Par défaut, Ollama n'écoute que sur 127.0.0.1:11434, de sorte qu'aucun autre élément de votre réseau ne puisse y accéder. Configurez-le sur 0.0.0.0:11434 pour utiliser Ollama depuis un autre ordinateur, un téléphone ou un conteneur Docker.

Une mise en garde importante concernant ce dernier point : l'API Ollama présente pas d'authentification intégrée. Liaison à 0.0.0.0 Cela signifie que toute personne pouvant accéder au port 11434 peut exécuter des modèles sur votre matériel. Ne le faites que sur un réseau local (LAN) de confiance, et placez-le derrière un proxy inverse ou une règle de pare-feu si la machine est exposée.

Enfin, la ligne de commande convient pour les tests, mais s'avère fastidieuse au quotidien. La solution habituelle consiste à Ouvrir l'interface utilisateur Web, une interface de type ChatGPT auto-hébergée qui communique avec votre instance locale d'Ollama. La solution la plus rapide passe par Docker : le conteneur écoute en interne sur le port 8080 ; il suffit donc de le rediriger vers un port hôte à l'aide de -p 3000:8080 et ouvrir http://localhost:3000, puis configurez-le pour qu'il pointe vers votre instance Ollama. Vous bénéficiez ainsi de l'historique des discussions, du changement de modèle et du téléchargement de documents, le tout fonctionnant entièrement sur votre propre machine.

FAQ

Comment installer Ollama sous Windows ?

Téléchargez le programme d'installation natif depuis ollama.com/download et lancez le .exe. Ollama fonctionne en mode natif sous Windows sans nécessiter WSL, et utilise automatiquement un GPU NVIDIA via CUDA si vous en possédez un. Vérifiez que l'installation a bien été effectuée à l'aide de la commande ollama --version dans PowerShell.

Comment installer Ollama sous Linux ?

Exécuter curl -fsSL https://ollama.com/install.sh | sh. Cela permet d'installer Ollama et de l'enregistrer en tant que service systemd. Vérifiez-le à l'aide de la commande systemctl status ollama. Le programme d'installation détecte automatiquement les cartes graphiques NVIDIA et AMD.

Puis-je installer Ollama avec Homebrew ?

Oui — brew install ollama fonctionne sous macOS. L'application native proposée par ollama.com est tout aussi performante et s'affiche dans la barre de menus ; la solution Homebrew est pratique si vous gérez tout via la ligne de commande.

Où Ollama stocke-t-il les modèles ?

Par défaut, sous Mac et Linux dans ~/.ollama/models, et sous Windows, dans votre profil utilisateur. Les modèles pouvant occuper plusieurs gigaoctets chacun, utilisez ollama list pour garder une trace de ce que vous avez téléchargé et ollama rm pour faire le ménage.

L'installation d'Ollama ne présente-t-elle aucun risque ?

Oui. Ollama est un logiciel libre (sous licence MIT) et largement utilisé. La mise en garde habituelle s'applique à l'installateur Linux en une seule ligne : il s'agit du script officiel du projet, mais si vous le souhaitez, vous pouvez le télécharger et l'examiner install.sh avant de l'exécuter.

Pourquoi Ollama tronque-t-il systématiquement les longues requêtes ou les longs documents ?

Ollama utilise par défaut une fenêtre de contexte de 4096 tokens, quelle que soit la capacité réelle du modèle ; les entrées plus longues sont donc tronquées sans avertissement. Pour augmenter cette valeur, lancez le serveur avec OLLAMA_CONTEXT_LENGTH définissez une valeur plus élevée (par exemple 8192 ou plus), dans la limite prise en charge par le modèle. Un contexte plus grand utilise davantage de mémoire ; par conséquent, activez OLLAMA_FLASH_ATTENTION=1 pour compenser le coût, et surveillez votre marge de manœuvre en matière de RAM ou de VRAM.

Comment puis-je accéder à Ollama depuis un autre ordinateur de mon réseau ?

Par défaut, Ollama n'écoute que sur localhost ; il est donc invisible pour les autres appareils. Configurez OLLAMA_HOST=0.0.0.0:11434 puis redémarrez-le, et connectez-vous ensuite en utilisant l'adresse IP LAN de la machine hôte sur le port 11434. Attention : l'API ne dispose d'aucun système d'authentification ; veillez donc à ne l'exposer que sur un réseau de confiance, et utilisez une règle de pare-feu ou un proxy inverse si la machine est accessible depuis l'extérieur de votre domicile ou de votre bureau.

Comment puis-je empêcher Ollama de recharger le modèle à chaque requête ?

Ce délai correspond au fait que le modèle est déchargé de la mémoire entre deux utilisations. Par défaut, Ollama conserve un modèle chargé pendant 5 minutes ; définissez OLLAMA_KEEP_ALIVE=-1 pour le maintenir en mémoire de manière permanente afin que les invites de commande répondent instantanément. En contrepartie, le modèle occupe votre RAM ou votre VRAM en permanence ; utilisez donc 0 ou bien, si vous préférez libérer cette mémoire dès qu’une requête est terminée.

Conclusion

Quel que soit le système d'exploitation utilisé, l'installation d'Ollama se résume à un simple téléchargement suivi d'une exécution, ce qui prend environ deux minutes. Il suffit ensuite d'une seule commande pour créer votre premier modèle local. Choisissez un modèle adapté à votre matériel, vérifiez que l'API répond sur le port 11434, et vous disposez d'un LLM privé et gratuit fonctionnant sur votre propre machine. À partir de là, explorez quels modèles exécuter et de combien de matériel chacun a besoin.