Lista de Modelos Ollama 2026: Tamanhos, RAM e Melhores Escolhas

Se você executa modelos localmente, a biblioteca do Ollama é de onde a maioria deles provém — mas ela muda constantemente e os nomes são cripticos. Este é um guia prático lista de modelos do Ollama para 2026: os modelos que as pessoas realmente executam, quanto memória cada um exige, para que cada um é indicado, além de como listar os modelos já instalados e baixar novos. Por padrão, o Ollama baixa uma versão quantizada em 4 bits, razão pela qual um modelo de "70B" pode caber em uma estação de trabalho potente e um modelo de "8B" roda até mesmo em um laptop. Os tamanhos indicados abaixo são aproximações dos valores padrão — verifique sempre o Banco de dados de modelos de IA ou execute ollama list para saber quais modelos estão disponíveis atualmente na sua máquina.

Referência rápida

Executável em qualquer laptop (8 GB de RAM): Llama 3.2 3B, Phi-3 Mini, Gemma 3 4B — pequenos, rápidos e funcionam offline.
Melhor desempenho geral (16 GB): Llama 3.1 8B, Qwen 2.5 7B, Mistral 7B — o ponto ideal para a maioria dos usuários.
Alta qualidade (32 GB ou mais / GPU): Gemma 2 27B, Qwen 2.5 32B, Mixtral 8x7B.
Próximo do estado da arte (estação de trabalho / 48 GB ou mais): Llama 3.3 70B, DeepSeek-R1 70B.
Raciocínio: DeepSeek-R1 é uma distilação. Codificação: Qwen 2.5 Coder, Code Llama. Visão: LLaVA. Incorporações (embeddings): nomic-embed-text.
A regra: escolha com base na memória disponível — verifique qualquer modelo com nossa ferramenta gratuita Calculadora de VRAM.

Os modelos Ollama mais populares em um relance

Todos os modelos listados abaixo estão disponíveis com um simples comando ollama pull <nome>. A coluna «Baixar» indica aproximadamente o tamanho padrão em 4 bits (Q4); «Memória mínima» representa o limite prático de RAM do sistema (CPU) ou VRAM (GPU) necessário para executá-lo confortavelmente. As contagens de parâmetros são exatas; os tamanhos são aproximados e podem variar conforme cada nova versão.

Modelo	Parâmetros	Baixar (Q4)	Memória mínima	Melhor para
Llama 3.2	1B / 3B	~1,3 / 2 GB	4–8 GB	Dispositivos de borda, smartphones, conversação ultraleve
Llama 3.1	8B	~4,7 GB	8–16 GB	Melhor modelo pequeno versátil
Llama 3.3	70B	~43 GB	48 GB ou mais	Modelo aberto próximo do estado da arte
Gemma 3	1B / 4B	~0,8 / 3,3 GB	4–8 GB	Pequeno e eficiente (Google)
Gemma 2	9B / 27B	~5,4 / 16 GB	12–32 GB	Excelente relação qualidade/tamanho
Qwen 2.5	0,5B–72B	~0,4–47 GB	4 GB ou mais	Multilíngue, ampla faixa de tamanhos
Qwen 2.5 Coder	1,5B–32B	~1–20 GB	8 GB ou mais	Assistente de programação local
Mistral	7B	~4,1 GB	8 GB	Clássico rápido e confiável
Mistral Nemo	12B	~7 GB	16 GB	Contexto longo de 128k
Mixtral	8×7B	~26 GB	32 GB ou mais	Qualidade de mistura de especialistas (mixture-of-experts)
Phi-4	14B	~9 GB	16 GB	Raciocínio em um modelo pequeno
Phi-3 Mini	3,8B	~2,3 GB	8 GB	Pequeno, mas capaz
DeepSeek-R1 (versão destilada)	1,5B–70B	~1,1–43 GB	8 GB ou mais	Raciocínio passo a passo
LLaVA	7B–34B	~4,7–20 GB	8 GB ou mais	Visão (compreensão de imagens)
nomic-embed-text	—	~0,3 GB	2 GB	Incorporações (embeddings) para RAG/pesquisa

Quer comparar esses modelos locais com os modelos em nuvem quanto a preço e velocidade? A Banco de dados de modelos de IA lista modelos abertos e fechados lado a lado, e o Calculadora de custos de API de IA mostra quando executar localmente é mais vantajoso do que pagar por token.

Como listar os modelos Ollama já instalados

Para ver todos os modelos já instalados em sua máquina, com seus tamanhos e datas da última utilização, execute:

ollama list

Isso exibe o nome, a tag, o ID exclusivo e o tamanho de cada modelo. Para ver quais modelos estão atualmente carregados na memória, use ollama ps; para remover um modelo que você não precisa mais e recuperar espaço em disco, use ollama rm <nome>. Esses três comandos — list, ps e rm — são tudo de que você precisa para gerenciar uma coleção local de modelos.

Como localizar e baixar novos modelos da biblioteca

O catálogo completo do Ollama está disponível na sua biblioteca online, e baixar qualquer modelo exige apenas um comando:

ollama pull llama3.1 ou execute-o diretamente com ollama run llama3.1

Os nomes dos modelos usam tags para indicar tamanho e variante — por exemplo, llama3.1:8b, gemma2:27b, qwen2.5:14b. Se você omitir a tag, o Ollama baixa uma versão padrão razoável (geralmente o tamanho mais popular em 4 bits). Para uma primeira instalação, nosso guia passo a passo de instalação do Ollama abrange Mac, Windows e Linux.

Modelos pequenos — executam em quase qualquer laptop

Modelos com 1B a cerca de 4B de parâmetros funcionam bem em um laptop moderno com 8 GB de RAM, sem necessidade de GPU. Llama 3.2 3B, Gemma 3 4B e Phi-3 Mini são destaques: rápidos, realmente úteis para resumos, redação de textos e respostas a perguntas simples, e pequenos o suficiente para permanecer carregados na memória. Eles não igualam modelos avançados em nuvem, mas são excelentes para tarefas cotidianas privadas e offline — e constituem o ponto de partida ideal se você é novo em IA local.

Modelos de tamanho médio — ponto ideal para 16 GB

A classe de 7B a 14B é onde a maioria das pessoas deve concentrar-se. Llama 3.1 8B, Qwen 2.5 7B e Mistral 7B oferecem um grande salto em coerência em comparação com os modelos menores, mantendo-se confortavelmente dentro de 16 GB de RAM ou em uma GPU convencional. Phi-4 e Mistral Nemo impulsionam ainda mais qualidade e comprimento de contexto. Se você deseja um único modelo para uso geral, escolha um dessa faixa — ele representa o melhor equilíbrio entre capacidade e exigências de hardware.

Modelos grandes — exigem estações de trabalho e GPUs

A partir de 27B, você entra no domínio de hardware robusto. Gemma 2 27B e Qwen 2.5 32B exige 32 GB ou mais; Mixtral 8x7B e os modelos da classe 70B — Llama 3.3 70B e o DeepSeek-R1 70B (versão destilada) — exigem 48 GB ou mais de memória rápida, o que, na prática, significa uma GPU com alta VRAM ou um Mac com Apple Silicon de alta memória. A recompensa é uma qualidade que se aproxima da dos grandes modelos em nuvem, executados integralmente em sua própria máquina. Consulte nosso melhores GPUs para IA guia sobre quais hardwares realmente suportam esses modelos.

Modelos especializados: codificação, visão e incorporações (embeddings)

Além de conversação geral, o Ollama hospeda modelos especializados em tarefas específicas. Qwen 2.5 Coder e Code Llama foi desenvolvido especificamente para programação e integra-se bem com ferramentas locais de IDE. LLaVA adiciona visão, permitindo que um modelo descreva ou raciocine sobre imagens. E modelos de incorporação (embedding) como nomic-embed-text e mxbai-embed-large não realizam conversas de forma alguma — eles convertem texto em vetores para busca e geração aumentada por recuperação (retrieval-augmented generation), a espinha dorsal de uma configuração local RAG.

Qual modelo Ollama você realmente deveria usar?

A resposta honesta é: o maior modelo que sua memória conseguir carregar na classe de que você precisa. Para uso geral, comece com um modelo de 8B e suba apenas se a qualidade for insuficiente. Para raciocínio, experimente uma versão distilada do DeepSeek-R1; para programação, o Qwen 2.5 Coder; para imagens, o LLaVA. Classificamos as melhores opções por caso de uso em os melhores LLMs locais para executar no Ollama, e comparamos o próprio Ollama com as alternativas em Ollama vs LM Studio vs vLLM vs llama.cpp.

Verifique se o modelo cabe no seu sistema antes de baixá-lo

O erro mais comum é baixar um modelo muito grande para sua máquina — ele simplesmente recusará o carregamento ou ficará extremamente lento ao recorrer à troca com o disco. Antes de baixar, avalie seu tamanho: como regra aproximada, um modelo quantizado em 4 bits exige pouco menos de 1 GB de memória por bilhão de parâmetros, além de uma margem para o contexto. Nossa ferramenta gratuita Calculadora de VRAM fornece o valor exato de memória necessária para qualquer modelo e tipo de quantização, e Requisitos do sistema do Ollama explicam detalhadamente a compensação entre RAM e VRAM.

Perguntas frequentes

Como listar os modelos instalados no Ollama? Executar ollama list para ver todos os modelos instalados com seus respectivos tamanhos, ollama ps para verificar qual está carregado no momento e ollama rm <nome> para excluí-lo.

Qual é o melhor modelo para Ollama? Não há um único melhor — tudo depende da sua memória disponível. O Llama 3.1 8B é a melhor escolha geral para máquinas com 16 GB; consulte nossa lista classificada para cada caso de uso.

Quantos modelos o Ollama possui? Centenas, abrangendo famílias de modelos para conversação, programação, visão e incorporação (embedding), com múltiplos tamanhos em cada categoria. A tabela acima cobre os modelos que a maioria das pessoas realmente executa.

Quanta RAM preciso para executar modelos Ollama? 8 GB são suficientes para modelos pequenos (1B–4B), 16 GB suportam a popular classe de 7B–8B, e 32 GB ou mais — ou uma GPU — são necessários para modelos de 27B e superiores. Verifique qualquer modelo com nossa Calculadora de VRAM.

Posso executar esses modelos offline? Sim — uma vez baixados, todos os modelos Ollama rodam integralmente em sua máquina, sem necessidade de conexão com a internet, o que constitui justamente a principal razão para usar modelos locais.

Conclusão

A lista de modelos Ollama é extensa, mas a escolha é simples: defina sua necessidade — conversação geral, raciocínio, programação, visão ou incorporação — e selecione o maior modelo dessa categoria que sua memória consiga suportar. Comece com um modelo de 8B, use ollama list para acompanhar o que você já tem instalado e confie sempre na Calculadora de VRAM antes de cada download, garantindo que nunca baixe algo que sua máquina não consiga executar. A partir daí, executar uma IA capaz, local e privada requer apenas alguns comandos.

Nomes, tamanhos e disponibilidade dos modelos mudam frequentemente; os valores indicados são aproximações baseadas nas configurações padrão vigentes até meados de 2026 — verifique-os com ollama list e com a biblioteca oficial antes de confiar neles.