Liste des modèles Ollama 2026 : tailles, mémoire RAM et meilleurs choix

Si vous exécutez des modèles localement, la bibliothèque Ollama est la source principale de ces modèles — mais elle évolue constamment et les noms sont souvent obscurs. Voici une liste pratique des modèles Ollama pour 2026 : les modèles effectivement utilisés, leurs besoins en mémoire, leurs points forts respectifs, ainsi que les commandes permettant d’afficher les modèles déjà installés ou d’en télécharger de nouveaux. Par défaut, Ollama télécharge une version quantifiée en 4 bits, ce qui explique pourquoi un modèle « 70B » peut tenir sur une station de travail performante, tandis qu’un modèle « 8B » fonctionne même sur un ordinateur portable. Les tailles indiquées ci-dessous correspondent aux versions par défaut approximatives — vérifiez toujours la Base de données de modèles IA ou exécutez la commande ollama list pour connaître l’état exact des modèles disponibles sur votre machine.

Référence rapide

Exécution sur n’importe quel ordinateur portable (8 Go de RAM) : Llama 3.2 3B, Phi-3 Mini, Gemma 3 4B — légers, rapides et fonctionnant hors ligne.
Meilleur compromis global (16 Go) : Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B — le point d’équilibre idéal pour la plupart des utilisateurs.
Haute qualité (32 Go ou plus / GPU) : Gemma 2 27B, Qwen 2.5 32B, Mixtral 8x7B.
Proche de l’état de l’art (poste de travail / 48 Go ou plus) : Llama 3.3 70B, DeepSeek-R1 70B.
Raisonnement : DeepSeek-R1 est une distillation. Programmation : Qwen 2.5 Coder, Code Llama. Vision : LLaVA. Intégrations vectorielles (embeddings) : nomic-embed-text.
La règle : choisissez en fonction de la mémoire dont vous disposez — vérifiez n’importe quel modèle avec notre outil gratuit Calculateur de VRAM.

Les modèles Ollama les plus populaires en un coup d’œil

Chaque modèle ci-dessous est disponible via une simple commande ollama pull <nom>. « Téléchargement » indique la taille approximative par défaut en quantification 4 bits (Q4) ; « Mémoire minimale » correspond à la quantité minimale pratique de RAM système (CPU) ou de VRAM (GPU) requise pour exécuter le modèle confortablement. Les nombres de paramètres sont exacts ; les tailles sont approximatives et peuvent varier d’une version à l’autre.

Modèle	Paramètres	Téléchargement (Q4)	Mémoire minimale	Idéal pour
Llama 3.2	1 milliard / 3 milliards	~1,3 / 2 Go	4–8 Go	Appareils embarqués, smartphones, chat ultra-léger
Llama 3.1	8B	~4,7 Go	8–16 Go	Meilleur modèle léger polyvalent
Llama 3.3	70B	environ 43 Go	48 Go ou plus	Modèle ouvert proche de l’état de l’art
Gemma 3	1 milliard / 4 milliards	~0,8 / 3,3 Go	4–8 Go	Modèle léger efficace (Google)
Gemma 2	9 milliards / 27 milliards	~5,4 / 16 Go	12–32 Go	Excellente qualité rapportée à la taille
Qwen 2.5	0,5–72 milliards	~0,4–47 Go	4 Go ou plus	Multilingue, large éventail de tailles
Qwen 2.5 Coder	1,5–32 milliards	~1–20 Go	8 Go ou plus	Assistant local de programmation
Mistral	7B	~4,1 Go	8 Go	Classique rapide et fiable
Mistral Nemo	12B	~7 Go	16 Go	Contexte long de 128 k tokens
Mixtral	8×7B	~26 Go	32 Go et plus	Qualité « mixture-of-experts »
Phi-4	14B	environ 9 Go	16 Go	Raisonnement dans un petit modèle
Phi-3 Mini	3,8 milliards de paramètres	~2,3 Go	8 Go	Mini mais performant
DeepSeek-R1 (distillée)	1,5 à 70 milliards de paramètres	~1,1 à 43 Go	8 Go ou plus	Raisonnement étape par étape
LLaVA	7 à 34 milliards de paramètres	~4,7 à 20 Go	8 Go ou plus	Vision (compréhension d’images)
nomic-embed-text	—	~0,3 Go	2 Go	Intégrations (embeddings) pour la recherche et les systèmes RAG

Souhaitez-vous comparer ces modèles locaux avec les modèles cloud équivalents en termes de coût et de vitesse ? Le Base de données de modèles IA répertorie les modèles ouverts et fermés côte à côte, tandis que le Calculateur de coûts des API IA montre quand l’exécution locale est plus avantageuse que le paiement à l’usage (par jeton).

Comment lister les modèles Ollama déjà installés

Pour afficher la liste de tous les modèles déjà présents sur votre machine, avec leur taille et la date de leur dernière utilisation, exécutez la commande suivante :

ollama list

Cette commande affiche le nom, l’étiquette (tag), l’identifiant unique et la taille de chaque modèle. Pour voir quels modèles sont actuellement chargés en mémoire, utilisez la commande ollama ps; pour supprimer un modèle dont vous n’avez plus besoin et libérer de l’espace disque, utilisez la commande ollama rm <nom>. Ces trois commandes — list, ps et rm — constituent l’ensemble minimal nécessaire pour gérer une collection de modèles locaux.

Comment rechercher et télécharger de nouveaux modèles depuis la bibliothèque

Le catalogue complet d’Ollama est hébergé dans sa bibliothèque en ligne, et le téléchargement de n’importe quel modèle ne nécessite qu’une seule commande :

ollama pull llama3.1 ou lancez-le directement avec la commande ollama run llama3.1

Les noms des modèles utilisent des étiquettes (tags) indiquant leur taille et leur variante — par exemple : llama3.1:8b, gemma2:27b, qwen2.5:14b. Si vous omettez l’étiquette, Ollama télécharge automatiquement une version par défaut raisonnable (généralement la taille la plus populaire quantifiée en 4 bits). Pour une première installation, notre guide d’installation pas à pas d’Ollama couvre macOS, Windows et Linux.

Modèles légers — fonctionnent sur presque n’importe quel ordinateur portable

Les modèles allant de 1 à environ 4 milliards de paramètres s’exécutent sans problème sur un ordinateur portable moderne équipé de 8 Go de RAM, sans carte graphique requise. Llama 3.2 3B, Gemma 3 4B et Phi-3 Mini sont les modèles les plus remarquables : rapides, réellement utiles pour résumer des textes, rédiger des brouillons ou répondre à des questions simples, et suffisamment légers pour rester chargés en permanence. Ils ne rivalisent pas avec les modèles cloud les plus avancés, mais ils excellent pour des tâches quotidiennes privées et hors ligne, et constituent le point de départ idéal pour les débutants en IA locale.

Modèles de taille moyenne — le point idéal autour de 16 Go

La classe des modèles de 7 à 14 milliards de paramètres convient à la plupart des utilisateurs. Llama 3.1 8B, Qwen 2.5 7B et Mistral 7B offrent une amélioration notable de la cohérence par rapport aux petits modèles, tout en s’adaptant aisément à 16 Go de RAM ou à une carte graphique grand public. Phi-4 et Mistral Nemo poussent davantage la qualité et la longueur du contexte. Si vous ne souhaitez utiliser qu’un seul modèle pour des usages généraux, choisissez-en un dans cette catégorie : il offre le meilleur compromis entre performances et exigences matérielles.

Modèles volumineux — réservés aux postes de travail et aux GPU

À partir de 27 milliards de paramètres, vous entrez dans le domaine du matériel haut de gamme. Gemma 2 27B et Qwen 2.5 32B nécessite 32 Go de mémoire ou plus ; Mixtral 8×7B et les modèles de la classe 70B — Llama 3.3 70B et le DeepSeek-R1 70B (version distillée) — exigent 48 Go ou plus de mémoire rapide, ce qui signifie concrètement une carte graphique haute VRAM ou un Mac doté de puces Apple Silicon très bien doté en mémoire. En contrepartie, vous obtenez une qualité proche de celle des grands modèles cloud, entièrement exécutée sur votre propre machine. Consultez notre meilleures GPU pour l’IA guide détaillé sur les configurations matérielles capables de faire tourner ces modèles.

Modèles spécialisés : programmation, vision par ordinateur et plongements (embeddings)

Au-delà des conversations générales, Ollama propose également des modèles spécialisés pour des tâches précises. Qwen 2.5 Coder et Code Llama est conçu spécifiquement pour la programmation et s’intègre parfaitement avec les outils locaux d’environnements de développement intégrés (IDE). LLaVA ajoute la vision, permettant ainsi à un modèle de décrire ou de raisonner sur des images. Et les modèles d’incorporation (embedding) comme nomic-embed-text et mxbai-embed-large ne dialoguent pas du tout — ils transforment le texte en vecteurs destinés à la recherche et à la génération augmentée par récupération (RAG), fondement d’une configuration RAG locale.

Quel modèle Ollama devriez-vous réellement utiliser ?

La réponse honnête est la suivante : le plus grand modèle que votre mémoire peut charger dans la catégorie dont vous avez besoin. Pour une utilisation générale, commencez avec un modèle de 8 milliards de paramètres (8B) et passez à des modèles plus volumineux uniquement si la qualité ne répond pas à vos attentes. Pour le raisonnement, essayez une version distillée de DeepSeek-R1 ; pour la programmation, Qwen 2.5 Coder ; pour les images, LLaVA. Nous classons les meilleurs choix par cas d’usage dans les meilleurs modèles de LLM locaux à exécuter sur Ollama, et comparons Ollama lui-même aux alternatives dans Ollama contre LM Studio contre vLLM contre llama.cpp.

Vérifiez la compatibilité d’un modèle avant de le télécharger

L’erreur la plus fréquente consiste à télécharger un modèle trop volumineux pour votre machine — celui-ci refusera soit de se charger, soit ralentira considérablement en recourant au stockage secondaire (swap). Avant tout téléchargement, évaluez sa taille : en règle générale approximative, un modèle quantifié en 4 bits nécessite un peu moins de 1 Go de mémoire par milliard de paramètres, auxquels s’ajoute une marge pour le contexte. Notre outil gratuit Calculateur de VRAM indique précisément la consommation mémoire pour n’importe quel modèle et toute méthode de quantification, tandis que Exigences système d’Ollama expliquent en détail le compromis entre mémoire vive (RAM) et mémoire vidéo (VRAM).

Questions fréquemment posées

Comment lister les modèles installés dans Ollama ? Exécuter ollama list permet d’afficher tous les modèles installés avec leur taille respective, ollama ps affiche uniquement celui actuellement chargé en mémoire, et ollama rm <nom> permet de supprimer un modèle.

Quel est le meilleur modèle Ollama ? Il n’existe pas de « meilleur » modèle universel — cela dépend entièrement de la capacité mémoire de votre machine. Llama 3.1 8B constitue le meilleur choix polyvalent pour les machines équipées de 16 Go de RAM ; consultez notre liste classée pour identifier le modèle optimal selon chaque cas d’usage.

Combien de modèles Ollama propose-t-il ? Des centaines, répartis entre familles de modèles conversationnels, de programmation, de vision et d’incorporation (embedding), chacune offrant plusieurs tailles. Le tableau ci-dessus couvre ceux que la plupart des utilisateurs exécutent effectivement.

De combien de mémoire vive (RAM) ai-je besoin pour exécuter des modèles Ollama ? 8 Go suffisent pour les modèles légers (1B–4B), 16 Go permettent d’exécuter commodément les modèles populaires de 7B à 8B, tandis qu’au moins 32 Go de RAM ou une carte graphique sont requis pour les modèles de 27B et plus. Vérifiez la consommation mémoire de tout modèle à l’aide de notre Calculateur de VRAM.

Puis-je exécuter ces modèles hors ligne ? Oui — une fois téléchargés, tous les modèles Ollama s’exécutent entièrement sur votre machine, sans aucune connexion Internet. C’est d’ailleurs la raison principale d’utiliser des modèles locaux.

En résumé

La liste des modèles Ollama est longue, mais le choix est simple : déterminez d’abord votre besoin — discussion générale, raisonnement, programmation, vision ou incorporation — puis sélectionnez le modèle le plus volumineux de cette catégorie que votre mémoire peut accueillir. Commencez petit avec un modèle de 8B, utilisez ollama list pour suivre vos modèles installés, et consultez systématiquement le Calculateur de VRAM avant chaque téléchargement afin d’éviter d’installer un modèle incompatible avec votre machine. À partir de là, exécuter une IA performante, locale et privée ne demande que quelques commandes.

Les noms, tailles et disponibilités des modèles évoluent fréquemment ; les chiffres indiqués correspondent à des valeurs par défaut approximatives, valables à la mi-2026 — veuillez les vérifier auprès de ollama list et de la bibliothèque officielle avant de vous y fier.