Why Local LLMs Matter

See the section "Why Local LLMs Matter" in this article for the full answer.

See the section "What You Need" in this article for the full answer.

What Local LLMs Can Do Well

See the section "What Local LLMs Can Do Well" in this article for the full answer.

What They Can't Do Yet

See the section "What They Can't Do Yet" in this article for the full answer.

Can I run Llama on a normal laptop?

Yes. A laptop with 16 GB of RAM comfortably runs 7–8B models, which are genuinely useful. Even 8 GB machines can run smaller 1–3B models. Apple Silicon Macs and laptops with a discrete GPU run local models especially well.

Is running an LLM locally free?

Yes. The models are free to download and there's no usage cost — you can generate as much as you want. The only "cost" is your hardware and the disk space the model files take up (a few gigabytes each).

What is the best tool to run LLMs locally?

Ollama is the most popular and the best all-round choice — a simple command downloads and runs any model, and it provides a local API. LM Studio is the best option if you prefer a graphical app with no command line.

How much RAM do I need to run a local LLM?

16 GB is the comfortable minimum for genuinely capable 7–8B models. With 8 GB you're limited to smaller 1–3B models. With 32 GB you can run 13–14B models. More memory mostly lets you run larger, smarter models.

Are local LLMs as good as ChatGPT?

Not as capable as a frontier cloud model — laptop-sized models are smaller and less powerful. But they are good enough for many everyday tasks: writing, summarizing, coding assistance, and Q&A. You trade some capability for total privacy, zero cost, and offline access.

Why is my local LLM so slow?

Nine times out of ten, the model isn't using your GPU. Run ollama ps while a model is loaded: if it shows 100% CPU or a CPU/GPU split, that's your answer. The usual causes are GPU drivers installed after the runtime (reinstall the runtime so it picks up CUDA), a model too large for your VRAM (use a smaller model or heavier quantization), or a context window so big it pushes layers onto the CPU (lower it).

Should I keep my laptop plugged in while running a local LLM?

Yes, for anything beyond a quick question. Most Windows laptops aggressively limit the discrete GPU on battery to preserve runtime, which can roughly halve your tokens-per-second. That slowdown is firmware power policy, not a fault. Plugging in restores full GPU clocks; a cooling stand for airflow helps avoid the thermal throttling that creeps in after extended sessions.

Can I use a local LLM completely offline?

Yes. Only the initial model download needs internet. Once the model is on disk, it runs fully offline — you can disconnect entirely and it still responds. That's the core privacy benefit: your prompts never leave the machine, which makes a local model a sensible choice for confidential notes, draft work, or anything you wouldn't want sent to a cloud service.

Comment exécuter Llama localement sur votre ordinateur portable en 2026 (guide complet de configuration)

Mis à jour 10 juin 2026 · Initialement publié le 18 mai 2026

Exécuter un modèle de langage volumineux sur son propre ordinateur portable était autrefois un projet de recherche. En 2026, cela prend seulement 15 minutes. Vous pouvez disposer d’un assistant IA véritablement performant fonctionnant entièrement sur votre machine — sans abonnement, sans connexion Internet requise, et sans que vos données ne quittent jamais votre ordinateur.

Ce guide décrit l’intégralité du processus : le matériel requis, l’outil à utiliser, le modèle à télécharger et la marche à suivre pour le faire fonctionner.

Points clés

La méthode la plus simple consiste à installez Ollama ou LM Studio — les deux vous permettent de démarrer en quelques minutes.
Matériel : 16 Go de RAM constituent le minimum confortable ; un Mac équipé de puces Apple Silicon ou un ordinateur portable doté d’un GPU dédié sont idéaux.
Taille du modèle : Les modèles de 7 à 8 milliards de paramètres représentent le meilleur compromis pour les ordinateurs portables — performants et rapides.
Quantification réduit la taille des modèles afin qu’ils s’adaptent à votre matériel ; les versions « Q4 » constituent le choix standard.
Pourquoi le faire ? C’est gratuit, entièrement privé et fonctionne hors ligne.

Pourquoi exécuter un modèle de langage localement ?

L’IA dans le cloud est pratique, alors pourquoi exécuter soi-même un modèle ? Trois raisons concrètes :

Confidentialité. Aucune donnée saisie ne quitte votre machine. Pour les travaux sensibles, confidentiels ou personnels, c’est un avantage réel.
Coût. C’est gratuit. Aucun abonnement, aucune facturation à l’usage, aucun plafond de consommation — générez autant que vous le souhaitez.
Hors ligne et toujours disponible. Cela fonctionne à bord d’un avion, sans Internet, et ne peut ni être limité en fréquence ni être retiré du marché.

Le compromis : un modèle exécuté sur un ordinateur portable est plus petit et moins performant qu’un modèle de pointe hébergé dans le cloud. Toutefois, les petits modèles modernes sont suffisamment capables pour accomplir bon nombre de tâches réelles — rédaction, synthèse, aide à la programmation, brainstorming, questions-réponses.

Étape 1 : Vérifiez votre matériel

Les performances d’un modèle de langage local dépendent principalement de la mémoire. Voici la situation réelle :

Votre ordinateur portable	Ce que vous pouvez exécuter
8 Go de RAM	Uniquement des modèles très légers (1 à 3 milliards de paramètres). Utilisables, mais limités.
16 Go de RAM	Des modèles de 7 à 8 milliards de paramètres sans difficulté — le meilleur compromis.
32 Go de RAM	Jusqu’à environ 13–14 milliards de paramètres, avec une bonne vitesse.
Apple Silicon (séries M)	Excellent — la mémoire unifiée est idéale ; les modèles plus volumineux fonctionnent bien.
GPU NVIDIA dédié	L’option la plus rapide ; la VRAM constitue la limite pour la taille du modèle.

Les deux éléments essentiels : mémoire totale (RAM ou VRAM sur un GPU) détermine la taille maximale du modèle que vous pouvez charger, tandis qu’un GPU ou une puce Apple Silicon détermine sa vitesse d’exécution. Un ordinateur portable moderne équipé de 16 Go de RAM constitue un point de départ parfaitement adapté.

Étape 2 : Choisissez votre outil

Vous n’interagissez pas directement avec le modèle brut — vous utilisez un outil qui le télécharge, le gère et l’exécute. Les meilleures options en 2026 sont les suivantes :

Ollama — le choix le plus populaire. Un outil propre en ligne de commande (avec une application simple) qui télécharge et exécute des modèles à l’aide d’une seule commande, et expose une API locale afin que d’autres applications puissent s’y connecter. Le meilleur choix polyvalent.
LM Studio — une application graphique soignée. Parcourez et téléchargez des modèles, discutez via une interface intégrée, sans avoir besoin de la ligne de commande. Idéal pour les débutants souhaitant une expérience visuelle.
Jan — une application open source axée sur la confidentialité, une alternative épurée à LM Studio.
llama.cpp — le moteur haute performance sur lequel reposent bon nombre de ces outils. Utilisez-le directement si vous recherchez un contrôle maximal et une efficacité optimale.

Pour la plupart des utilisateurs : Ollama si vous êtes à l’aise avec un terminal, LM Studio si vous préférez cliquer.

Étape 3 : Installez et exécutez votre premier modèle

La configuration avec Ollama est effectivement aussi simple que cela :

Téléchargez et installez Ollama depuis son site officiel.
Ouvrez un terminal.
Exécutez une seule commande :

ollama run llama3.1

Cette commande télécharge le modèle lors de la première utilisation (quelques gigaoctets), puis vous place directement dans une invite de discussion. C’est tout — vous disposez désormais d’un assistant IA privé fonctionnant localement. La fois suivante, il démarre instantanément.

Avec LM Studio, l’équivalent consiste à : ouvrir l’application, rechercher un modèle, cliquer sur « Télécharger », puis cliquer pour commencer à discuter — entièrement via l’interface.

Étape 4 : Choisissez le modèle et sa taille adaptés

Deux éléments à sélectionner : la famille de modèles et sa taille.

Famille de modèles — parmi les modèles open source performants capables de fonctionner efficacement en local figurent notamment la série Llama de Meta, les modèles Qwend’Alibaba, les modèles Gemma, les modèles de Mistral, et DeepSeekles versions plus légères de. Tous sont excellents ; essayez-en quelques-uns pour voir celui que vous préférez.

Taille — les modèles sont désignés par leur nombre de paramètres, indiqué sous forme de 3B, 8B, 14B (B = milliard) :

1–3B — très rapides, peu gourmands en mémoire, parfaitement adaptés aux tâches simples. Convient bien aux machines disposant de 8 Go de RAM.
7–8B — le compromis idéal pour les ordinateurs portables. Réellement performants pour la rédaction, l’assistance à la programmation et les questions-réponses, et fonctionnent bien sur 16 Go de RAM.
13–14B et plus — nettement plus intelligents, mais nécessitent 32 Go de RAM ou un GPU puissant.

Commencez avec un modèle de 8B. Il offre le meilleur équilibre entre performances et rapidité pour la plupart des ordinateurs portables.

Étape 5 : Comprenez la quantification

Vous verrez apparaître dans les noms de modèles des étiquettes telles que Q4_K_M ou Q8. Il s’agit de la quantification — une technique de compression qui réduit la précision des nombres du modèle afin de diminuer fortement sa consommation mémoire, avec seulement une légère perte de qualité.

Q8 — qualité la plus élevée, taille la plus importante.
Q4 — environ la moitié de la mémoire requise par Q8, avec une qualité très proche. Il s’agit de la recommandation standard.
Q2/Q3 — taille minimale, mais la qualité se dégrade nettement ; n’utilisez cette option que si vos contraintes mémoire vous y obligent.

Règle pratique : choisissez une version quantifiée du modèle le plus volumineux que votre mémoire peut accueillir confortablement. Des outils comme Ollama sélectionnent automatiquement une quantification raisonnable par défaut, ce qui signifie que vous n’avez souvent pas besoin d’y réfléchir. Q4 version of the largest model your memory can comfortably hold. Tools like Ollama pick a sensible quantization by default, so you often don’t have to think about it.

Aller plus loin

Une fois le modèle lancé, vous pouvez faire bien plus que discuter dans un terminal :

Connectez une interface plus conviviale — des applications telles qu’Open WebUI offrent une fenêtre au style ChatGPT pour interagir avec votre modèle local.
Utilisez l’API locale — Ollama expose une API sur votre machine, ce qui vous permet de créer des scripts et des applications qui interagissent avec votre modèle local exactement comme vous le feriez avec un modèle hébergé dans le cloud.
Essayez la recherche — pointez une configuration RAG sur vos propres documents pour obtenir une assistance entièrement privée de type « discutez avec vos fichiers ».

Pourquoi c’est lent — et comment y remédier

La plainte la plus fréquente après une première installation n’est pas que le modèle ne s’exécute pas, mais qu’il tourne au ralenti. Sur un ordinateur portable, une sortie lente provient presque toujours du fait que le modèle n’utilise pas réellement votre GPU. La méthode la plus rapide pour vérifier cela consiste à lancer un modèle, puis, dans un autre terminal, à exécuter ollama ps. La sortie indique comment le modèle est réparti : si elle affiche 100 % GPU, tout va bien ; si elle indique 100 % CPU ou une répartition CPU/GPU, vous avez identifié le problème.

Trois causes sont généralement en jeu, classées par ordre de fréquence :

Le GPU n’a jamais été détecté. Sur Windows et Linux avec une carte NVIDIA, cela signifie généralement que les pilotes GPU ont été installés qu’après après le runtime, si bien que ce dernier n’a jamais intégré le support CUDA — Ollama vérifie la présence du GPU au moment de l’installation, pas pendant l’exécution. Vérifiez que nvidia-smi fonctionne, puis réinstallez le runtime afin qu’il détecte le GPU. Cette seule correction résout la majorité des rapports signalant « le modèle utilise mon CPU ».
Le modèle est trop volumineux pour votre VRAM. Lorsqu’un modèle ne tient pas entièrement dans la VRAM, les couches excédentaires retombent silencieusement dans la mémoire système et sur le CPU — et ces quelques couches traitées par le CPU ralentissent l’ensemble. La solution consiste à passer à un modèle plus petit ou à une quantification plus forte (une version « lower-Q ») afin que le modèle entier réside dans la VRAM.
Votre fenêtre de contexte est trop grande. Un contexte long consomme également de la mémoire, car le cache KV augmente avec sa taille. Si vous la poussez trop loin, certaines couches reviennent sur le CPU. Si vous n’avez pas besoin d’un prompt très long, réduisez la longueur du contexte (8 K suffit amplement pour la plupart des usages) : le modèle s’intégrera alors plus facilement.

Deux problèmes sont spécifiques aux ordinateurs portables. Premièrement, la stratégie d’alimentation par batterie: la plupart des ordinateurs portables Windows limitent fortement le GPU dédié lorsqu’ils ne sont pas branchés, ce qui peut réduire de moitié ou davantage la vitesse d’inférence. Il s’agit d’un comportement du micrologiciel, non d’un bogue — branchez donc votre ordinateur portable pour les travaux exigeants. Deuxièmement, le freinage thermique: après environ 10 à 20 minutes de génération continue, un ordinateur portable fin et léger chauffe et abaisse ses fréquences. Soulevez légèrement l’ordinateur portable (de quelques centimètres) sur un support pour améliorer la circulation de l’air, et privilégiez une quantification plus légère qui génère moins de chaleur : ces mesures retardent l’apparition du freinage thermique. Cela ne transforme pas un ordinateur portable en station de travail, mais cela fait la différence entre quelques jetons par seconde et un assistant véritablement utilisable.

FAQ

Puis-je exécuter Llama sur un ordinateur portable classique ?

Oui. Un ordinateur portable disposant de 16 Go de RAM exécute aisément des modèles de 7 à 8 milliards de paramètres (7–8B), qui sont véritablement utiles. Même les machines équipées de seulement 8 Go de RAM peuvent faire fonctionner des modèles plus petits, de 1 à 3 milliards de paramètres (1–3B). Les Macs à puce Apple Silicon et les ordinateurs portables dotés d’un GPU dédié exécutent particulièrement bien les modèles locaux.

L’exécution d’un LLM en local est-elle gratuite ?

Oui. Les modèles sont gratuits à télécharger et n’impliquent aucun coût d’utilisation — vous pouvez générer autant de contenu que vous le souhaitez. Le seul « coût » réside dans votre matériel et l’espace disque occupé par les fichiers du modèle (quelques gigaoctets chacun).

Quel est le meilleur outil pour exécuter des LLM en local ?

Ollama est l’outil le plus populaire et le meilleur choix polyvalent : une simple commande permet de télécharger et d’exécuter n’importe quel modèle, tout en fournissant une API locale. LM Studio constitue la meilleure option si vous préférez une application graphique sans interface en ligne de commande.

De combien de mémoire RAM ai-je besoin pour exécuter un LLM local?

16 Go constituent le minimum confortable pour faire fonctionner efficacement des modèles de 7 à 8 milliards de paramètres. Avec 8 Go, vous êtes limité aux modèles plus petits de 1 à 3 milliards de paramètres. Avec 32 Go, vous pouvez exécuter des modèles de 13 à 14 milliards de paramètres. Plus de mémoire vous permet surtout d’exécuter des modèles plus volumineux et plus performants.

Les LLM locaux sont-ils aussi performants que ChatGPT ?

Non, ils ne sont pas aussi capables qu’un modèle de pointe hébergé dans le cloud — les modèles adaptés aux ordinateurs portables sont plus petits et moins puissants. Toutefois, ils conviennent parfaitement à de nombreuses tâches courantes : rédaction, synthèse, aide à la programmation et questions-réponses. Vous échangez une partie de leurs capacités contre une confidentialité totale, une utilisation gratuite et un accès hors ligne.

Pourquoi mon LLM local est-il si lent ?

Neuf fois sur dix, le modèle n’utilise pas votre GPU. Exécutez ollama ps pendant qu’un modèle est chargé : si l’affichage indique 100 % CPU ou une répartition CPU/GPU, c’est là votre réponse. Les causes habituelles sont : des pilotes GPU installés après le runtime (réinstallez le runtime pour qu’il intègre CUDA), un modèle trop volumineux pour votre VRAM (optez pour un modèle plus petit ou une quantification plus forte), ou une fenêtre de contexte trop grande qui force certaines couches sur le CPU (réduisez-la).

Dois-je garder mon ordinateur portable branché pendant l’exécution d’un LLM local ?

Oui, sauf pour une question ponctuelle. La plupart des ordinateurs portables Windows limitent fortement le GPU dédié en mode batterie afin de préserver l’autonomie, ce qui peut réduire d’environ moitié votre débit de jetons par seconde. Ce ralentissement résulte d’une politique de gestion de l’alimentation intégrée au micrologiciel, non d’un dysfonctionnement. Brancher l’ordinateur restaure les fréquences maximales du GPU ; un support de refroidissement améliorant la circulation de l’air aide également à éviter le freinage thermique qui apparaît après des sessions prolongées.

Puis-je utiliser un LLM local totalement hors ligne ?

Oui. Seul le téléchargement initial du modèle nécessite une connexion Internet. Une fois le modèle stocké sur le disque, il fonctionne entièrement hors ligne — vous pouvez vous déconnecter complètement et il répondra néanmoins. C’est là tout l’avantage en matière de confidentialité : vos prompts ne quittent jamais votre machine, ce qui rend un LLM local pertinent pour des notes confidentielles, des brouillons ou tout contenu que vous ne souhaiteriez pas envoyer à un service cloud.

Conclusion

Exécuter un modèle d’intelligence artificielle sur votre propre ordinateur portable n’est plus difficile. Installez Ollama ou LM Studio, téléchargez un modèle 8B dans une Q4 quantification, et en moins de 15 minutes vous disposez d’un assistant performant, gratuit, entièrement privé et fonctionnant hors ligne.

Il ne remplacera pas un modèle de pointe hébergé dans le cloud pour les tâches les plus complexes — mais pour la rédaction quotidienne, l’aide à la programmation et les questions-réponses confidentielles, un modèle local est véritablement utile. Et une fois lancé, il vous appartient entièrement : pas d’abonnement, pas de limitation, et aucune donnée ne quitte votre machine.