Elenco dei modelli Ollama 2026: dimensioni, RAM e migliori scelte

Se esegui modelli in locale, la libreria Ollama è la fonte principale della maggior parte di essi — ma cambia costantemente e i nomi sono criptici. Questa è una pratica lista dei modelli Ollama per il 2026: i modelli effettivamente utilizzati dagli utenti, la memoria necessaria per ciascuno e le loro caratteristiche principali, oltre a istruzioni su come elencare i modelli già presenti sul proprio sistema ed eseguire il download di nuovi. Per impostazione predefinita, Ollama scarica una versione quantizzata a 4 bit, motivo per cui un modello da "70B" può essere eseguito su una workstation performante e uno da "8B" su un laptop. Le dimensioni indicate sono approssimative e corrispondono alle configurazioni predefinite — verificare sempre la Database di modelli AI documentazione ufficiale ollama list o eseguire il comando

Riferimento rapido

Eseguibile su qualsiasi laptop (8 GB di RAM): Llama 3.2 3B, Phi-3 Mini, Gemma 3 4B — piccoli, veloci e funzionanti offline.
Migliore compromesso (16 GB): Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B — il punto ottimale per la maggior parte degli utenti.
Alta qualità (32 GB o più / GPU): Gemma 2 da 27B, Qwen 2.5 da 32B, Mixtral 8x7B.
Vicino allo stato dell'arte (workstation / 48 GB+): Llama 3.3 da 70B, DeepSeek-R1 da 70B.
Ragionamento: DeepSeek-R1 è una versione distillata. Programmazione: Qwen 2.5 Coder, Code Llama. Visione: LLaVA. Embedding: nomic-embed-text.
La regola: scegli in base alla memoria disponibile — verifica qualsiasi modello con il nostro servizio gratuito Calcolatore di VRAM.

I modelli Ollama più popolari a colpo d'occhio

Ogni modello riportato di seguito è disponibile con un semplice comando ollama pull <nome>. «Download» indica approssimativamente la dimensione predefinita in formato 4-bit (Q4); «Memoria minima» rappresenta la soglia pratica di RAM di sistema (CPU) o VRAM (GPU) necessaria per eseguirlo agevolmente. Il numero di parametri è esatto; le dimensioni sono approssimative e possono variare con ogni nuova versione.

Modello	Parametri	Download (Q4)	Memoria minima	Ideale per
Llama 3.2	1B / 3B	~1,3 / 2 GB	4–8 GB	Dispositivi edge, smartphone, chat ultraleggera
Llama 3.1	8B	~4,7 GB	8–16 GB	Miglior modello compatto per uso generico
Llama 3.3	70B	~43 GB	48 GB+	Modello open source vicino allo stato dell'arte
Gemma 3	1B / 4B	~0,8 / 3,3 GB	4–8 GB	Modello compatto ed efficiente (Google)
Gemma 2	9B / 27B	~5,4 / 16 GB	12–32 GB	Elevata qualità rapportata alle dimensioni
Qwen 2.5	0,5B–72B	~0,4–47 GB	4 GB+	Multilingue, ampia gamma di dimensioni
Qwen 2.5 Coder	1,5B–32B	~1–20 GB	8 GB o più	Assistente locale per la programmazione
Mistral	7B	~4,1 GB	8 GB	Classico affidabile e veloce
Mistral Nemo	12B	~7 GB	16 GB	Lungo contesto da 128k token
Mixtral	8×7B	~26 GB	32 GB+	Qualità da modello a esperti misti (MoE)
Phi-4	14B	~9 GB	16 GB	Ragionamento in un modello di piccole dimensioni
Phi-3 Mini	3,8 miliardi di parametri	~2,3 GB	8 GB	Piccolo ma capace
DeepSeek-R1 (distill)	1,5–70 miliardi di parametri	~1,1–43 GB	8 GB o più	Ragionamento passo dopo passo
LLaVA	7–34 miliardi di parametri	~4,7–20 GB	8 GB o più	Visione (comprensione delle immagini)
nomic-embed-text	—	~0,3 GB	2 GB	Embedding per RAG/ricerca

Vuoi confrontare questi modelli locali con i modelli cloud in termini di costo e velocità? La Database di modelli AI elenco modelli open e closed side by side, mentre la Calcolatore dei costi delle API AI mostra quando eseguire localmente risulta più conveniente che pagare per token.

Come elencare i modelli Ollama già installati

Per visualizzare tutti i modelli già presenti sul tuo computer, con le relative dimensioni e la data dell’ultimo utilizzo, esegui:

ollama list

Questo comando stampa nome, tag, ID univoco e dimensione di ciascun modello. Per vedere quali modelli sono attualmente caricati in memoria, usa ollama ps; per rimuoverne uno non più necessario e liberare spazio su disco, usa ollama rm <nome>. Questi tre comandi — list, ps e rm — sono tutto ciò che ti serve per gestire una collezione di modelli locali.

Come cercare e scaricare nuovi modelli dalla libreria

Il catalogo completo di Ollama è disponibile nella sua libreria online, e scaricare qualsiasi modello richiede un solo comando:

ollama pull llama3.1 oppure eseguilo direttamente con ollama run llama3.1

I nomi dei modelli usano i tag per indicare dimensioni e varianti — ad esempio llama3.1:8b, gemma2:27b, qwen2.5:14b. Se ometti il tag, Ollama scarica automaticamente una versione predefinita ragionevole (di solito la variante più popolare quantizzata a 4 bit). Per una prima installazione, la nostra guida passo-passo all’installazione di Ollama copre Mac, Windows e Linux.

Modelli piccoli — eseguibili su quasi ogni laptop

I modelli da 1 a circa 4 miliardi di parametri funzionano agevolmente su un laptop moderno con 8 GB di RAM, senza necessità di GPU. Llama 3.2 3B, Gemma 3 4B e Phi-3 Mini sono i modelli più performanti: veloci, davvero utili per riassumere testi, redigere bozze e rispondere a domande semplici, e abbastanza leggeri da poter essere tenuti caricati in memoria. Non eguaglieranno mai un modello cloud di ultima generazione, ma per compiti quotidiani privati e offline sono eccellenti — e rappresentano il punto di partenza ideale per chi si avvicina per la prima volta all’intelligenza artificiale locale.

Modelli di medie dimensioni — il punto ottimale per 16 GB

La classe da 7B a 14B è quella in cui la maggior parte degli utenti dovrebbe operare. Llama 3.1 8B, Qwen 2.5 7B e Mistral 7B offrono un notevole miglioramento della coerenza rispetto ai modelli più piccoli, pur occupando comodamente al massimo 16 GB di RAM o una GPU mainstream. Phi-4 e Mistral Nemo spingono ulteriormente qualità e lunghezza del contesto. Se cerchi un singolo modello per uso generale, scegli tra quelli di questa riga: offrono il miglior compromesso tra capacità e richieste hardware.

Modelli grandi — ambito workstation e GPU

A partire dai 27B in su, servono hardware seri. Gemma 2 27B e Qwen 2.5 32B richiede 32 GB o più; Mixtral 8x7B e i modelli da 70B — Llama 3.3 70B e il DeepSeek-R1 70B distill — necessitano di 48 GB o più di memoria veloce, il che in pratica significa una GPU con molta VRAM oppure un Mac Apple Silicon dotato di molta RAM. Il vantaggio è una qualità che si avvicina a quella dei grandi modelli cloud, eseguita interamente sulla tua macchina. Consulta la nostra migliori GPU per l’IA guida su quali hardware riescono effettivamente ad eseguirli.

Modelli specializzati: programmazione, visione artificiale ed embedding

Oltre alle conversazioni generali, Ollama ospita modelli specializzati per compiti specifici. Qwen 2.5 Coder e Code Llama è progettato per la programmazione e si integra bene con strumenti IDE locali. LLaVA aggiunge la capacità visiva, consentendo a un modello di descrivere o ragionare su immagini. I modelli di embedding come nomic-embed-text e mxbai-embed-large non supportano alcuna funzionalità di chat: trasformano semplicemente il testo in vettori per la ricerca e la generazione migliorata con recupero (retrieval-augmented generation), ossia il fondamento di una configurazione RAG locale.

Quale modello Ollama dovresti effettivamente utilizzare?

La risposta onesta è: il più grande che la tua memoria riesce a contenere nella classe di cui hai bisogno. Per un utilizzo generico, inizia con un modello da 8 miliardi di parametri (8B) e passa a modelli più grandi solo se la qualità risultante non soddisfa le tue aspettative. Per compiti di ragionamento, prova una versione distillata di DeepSeek-R1; per la programmazione, Qwen 2.5 Coder; per l’elaborazione di immagini, LLaVA. Nella nostra classifica dei migliori modelli per ogni scenario d’uso, presentata in i migliori LLM locali da eseguire su Ollama, confrontiamo anche Ollama stesso con le alternative disponibili in Ollama vs LM Studio vs vLLM vs llama.cpp.

Verifica che un modello sia compatibile prima di scaricarlo

L’errore più comune consiste nel scaricare un modello troppo grande per le capacità della propria macchina: in tal caso, il modello potrebbe rifiutarsi di caricare oppure funzionare in modo estremamente lento a causa dello swapping su disco. Prima di scaricarlo, valutane le dimensioni: come regola approssimativa, un modello quantizzato a 4 bit richiede poco meno di 1 GB di memoria per ogni miliardo di parametri, oltre a un certo margine di riserva per gestire il contesto. Il nostro strumento gratuito Calcolatore di VRAM fornisce la cifra esatta di memoria necessaria per qualsiasi modello e livello di quantizzazione, mentre Requisiti di sistema di Ollama spiegano in dettaglio il compromesso tra RAM e VRAM.

Domande frequenti

Come faccio a elencare i modelli installati in Ollama? Esegui ollama list per visualizzare tutti i modelli installati insieme alle loro dimensioni, ollama ps per verificare quale modello è attualmente caricato e ollama rm <nome> per eliminarne uno.

Qual è il miglior modello Ollama? Non esiste un singolo modello migliore in assoluto: la scelta dipende dalla quantità di memoria disponibile. Llama 3.1 8B è il modello più equilibrato per macchine dotate di 16 GB di RAM; consulta la nostra classifica dettagliata per scoprire il modello ottimale per ciascun caso d’uso.

Quanti modelli offre Ollama? Centinaia, suddivisi tra famiglie dedicate alla chat, alla programmazione, alla visione artificiale e agli embedding, con diverse dimensioni disponibili per ciascuna famiglia. La tabella sopra riporta i modelli effettivamente utilizzati dalla maggior parte degli utenti.

Di quanta RAM ho bisogno per eseguire i modelli Ollama? 8 GB sono sufficienti per modelli piccoli (1–4 miliardi di parametri), 16 GB permettono di eseguire agevolmente i modelli più diffusi da 7–8 miliardi di parametri, mentre per modelli da 27 miliardi di parametri o superiori servono almeno 32 GB di RAM o una GPU dedicata. Verifica i requisiti di qualsiasi modello con il nostro Calcolatore di VRAM.

Posso eseguire questi modelli offline? Sì: una volta scaricati, tutti i modelli Ollama girano interamente sulla tua macchina, senza alcuna connessione internet — ed è proprio questo il principale vantaggio nell’uso di modelli locali.

In sintesi

L’elenco dei modelli Ollama è lungo, ma la scelta è semplice: determina innanzitutto la tua esigenza — chat generica, ragionamento, programmazione, visione artificiale o embedding — quindi seleziona il modello più grande possibile all’interno di quella categoria compatibile con la tua memoria. Inizia con un modello da 8 miliardi di parametri, usa ollama list per tenere traccia dei modelli già installati e consulta sempre il nostro Calcolatore di VRAM prima di ogni download, così da evitare di scaricare un modello incompatibile con le capacità della tua macchina. Da quel momento in poi, eseguire un’intelligenza artificiale potente, locale e privata richiede soltanto un paio di comandi.

I nomi, le dimensioni e la disponibilità dei modelli cambiano frequentemente; i dati indicati sono valori approssimativi basati sulle impostazioni predefinite aggiornate a metà 2026 — verifica sempre le informazioni più recenti tramite ollama list e la libreria ufficiale prima di fare affidamento su di essi.