Lista de modelos de Ollama 2026: tamaños, memoria RAM y mejores opciones

Si ejecutas modelos localmente, la biblioteca de Ollama es la fuente principal de la mayoría de ellos; sin embargo, esta cambia constantemente y los nombres resultan crípticos. Esta es una guía práctica lista de modelos de Ollama para 2026: los modelos que realmente usan las personas, los requisitos de memoria de cada uno y sus fortalezas específicas, además de cómo listar los modelos ya instalados y descargar nuevos. Por defecto, Ollama descarga una versión cuantizada a 4 bits, razón por la cual un modelo etiquetado como «70B» puede ejecutarse en una estación de trabajo potente, mientras que uno de «8B» funciona incluso en una laptop. Los tamaños indicados a continuación son aproximados y corresponden a las versiones predeterminadas; siempre verifica la Base de datos de modelos de IA documentación oficial ollama list o ejecuta

Referencia rápida

Ejecutable en cualquier laptop (8 GB de RAM): Llama 3.2 de 3B, Phi-3 Mini, Gemma 3 de 4B: pequeños, rápidos y funcionan sin conexión.
Mejor equilibrio general (16 GB): Llama 3.1 de 8B, Qwen 2.5 de 7B, Mistral 7B: el punto óptimo para la mayoría de los usuarios.
Alta calidad (32 GB o más / GPU): Gemma 2 de 27B, Qwen 2.5 de 32B, Mixtral 8x7B.
Cerca del estado del arte (estación de trabajo / 48 GB o más): Llama 3.3 de 70B, DeepSeek-R1 de 70B.
Razonamiento: DeepSeek-R1 es una versión refinada. Programación: Qwen 2.5 Coder, Code Llama. Visión: LLaVA. Incrustaciones (embeddings): nomic-embed-text.
La regla: elige según la memoria disponible — verifica cualquier modelo con nuestra herramienta gratuita Calculadora de VRAM.

Los modelos de Ollama más populares a primera vista

Todos los modelos enumerados a continuación están disponibles con un simple comando ollama pull <nombre>. «Descarga» indica aproximadamente el tamaño predeterminado en cuantización de 4 bits (Q4); «Memoria mínima» representa la cantidad práctica mínima de RAM del sistema (CPU) o VRAM (GPU) necesaria para ejecutarlo cómodamente. Los recuentos de parámetros son exactos; los tamaños son aproximados y pueden variar con cada nueva versión.

Modelo	Parámetros	Descarga (Q4)	Memoria mínima	Ideal para
Llama 3.2	1B / 3B	~1,3 / 2 GB	4–8 GB	Dispositivos perimetrales, teléfonos móviles, chat ultraligero
Llama 3.1	8B	~4,7 GB	8–16 GB	Mejor modelo pequeño versátil
Llama 3.3	70B	~43 GB	48 GB o más	Modelo abierto cercano al estado del arte
Gemma 3	1B / 4B	~0,8 / 3,3 GB	4–8 GB	Modelo pequeño eficiente (de Google)
Gemma 2	9B / 27B	~5,4 / 16 GB	12–32 GB	Excelente relación calidad-tamaño
Qwen 2.5	0,5B–72B	~0,4–47 GB	4 GB o más	Multilingüe, amplio rango de tamaños
Qwen 2.5 Coder	1,5B–32B	~1–20 GB	8 GB o más	Asistente local de programación
Mistral	7B	~4,1 GB	8 GB	Clásico rápido y fiable
Mistral Nemo	12B	~7 GB	16 GB	Contexto largo de 128k
Mixtral	8×7B	~26 GB	32 GB o más	Calidad de mezcla de expertos (mixture-of-experts)
Phi-4	14B	~9 GB	16 GB	Razonamiento en un modelo pequeño
Phi-3 Mini	3,8 mil millones de parámetros	~2,3 GB	8 GB	Pequeño pero capaz
DeepSeek-R1 (versión destilada)	1,5 mil millones – 70 mil millones de parámetros	~1,1–43 GB	8 GB o más	Razonamiento paso a paso
LLaVA	7B–34B	~4,7–20 GB	8 GB o más	Visión (comprensión de imágenes)
nomic-embed-text	—	~0,3 GB	2 GB	Incrustaciones (embeddings) para recuperación aumentada (RAG) y búsquedas

¿Desea comparar estos modelos locales con los modelos en la nube en términos de precio y velocidad? La Base de datos de modelos de IA lista muestra modelos abiertos y cerrados uno al lado del otro, y la Calculadora de costos de API de IA tabla indica cuándo ejecutar localmente resulta más económico que pagar por cada token.

Cómo listar los modelos de Ollama que tienes instalados

Para ver todos los modelos ya instalados en su equipo, junto con su tamaño y la fecha de su último uso, ejecute:

ollama list

Esto mostrará el nombre, la etiqueta, el identificador único y el tamaño de cada modelo. Para ver qué modelos están cargados actualmente en memoria, use ollama ps; para eliminar uno que ya no necesite y recuperar espacio en disco, use ollama rm <nombre>. Estos tres comandos — list, ps y rm — son todo lo que necesita para gestionar una colección local de modelos.

Cómo buscar y descargar nuevos modelos desde la biblioteca

El catálogo completo de Ollama se aloja en su biblioteca en línea, y descargar cualquier modelo requiere un solo comando:

ollama pull llama3.1 o ejecútelo directamente con ollama run llama3.1

Los nombres de los modelos usan etiquetas para indicar su tamaño y variante: llama3.1:8b, gemma2:27b, qwen2.5:14b. Si omite la etiqueta, Ollama descargará una versión predeterminada razonable (normalmente la más popular, cuantizada a 4 bits). Para una instalación inicial, nuestra guía paso a paso para instalar Ollama cubre macOS, Windows y Linux.

Modelos pequeños: funcionan en casi cualquier portátil

Los modelos de 1 mil millones a aproximadamente 4 mil millones de parámetros funcionan sin problemas en un portátil moderno con 8 GB de RAM, sin necesidad de GPU. Llama 3.2 de 3B, Gemma 3 de 4B y Phi-3 Mini son los destacados: rápidos, realmente útiles para resumir, redactar y responder preguntas sencillas, y lo suficientemente pequeños como para mantenerlos cargados en memoria. No igualarán la calidad de los modelos punteros en la nube, pero sí son excelentes para tareas cotidianas privadas y sin conexión, y constituyen el punto de partida ideal si es nuevo en la inteligencia artificial local.

Modelos de tamaño medio: el punto óptimo para 16 GB

La categoría de 7B–14B es donde la mayoría de los usuarios deberían centrarse. Llama 3.1 de 8B, Qwen 2.5 de 7B y Mistral 7B ofrecen un salto significativo en coherencia respecto a los modelos pequeños, manteniéndose cómodamente dentro de los 16 GB de RAM o en una GPU convencional. Phi-4 y Mistral Nemo impulsan aún más la calidad y la longitud del contexto. Si busca un único modelo para uso general, elija uno de esta fila: representa el mejor equilibrio entre capacidades y demanda de hardware.

Modelos grandes: estaciones de trabajo y entornos con GPU

A partir de los 27B entramos en el terreno del hardware exigente. Gemma 2 27B y Qwen 2.5 de 32B requiere 32 GB o más; Mixtral 8x7B y los modelos de la clase 70B — Llama 3.3 de 70B y el DeepSeek-R1 70B (versión destilada) — necesitan 48 GB o más de memoria rápida, lo que en la práctica significa una GPU con mucha VRAM o un Mac con chip Apple Silicon de alta memoria. La recompensa es una calidad que se acerca a la de los grandes modelos en la nube, ejecutándose íntegramente en su propia máquina. Consulte nuestra mejoras GPUs para IA guía sobre qué hardware puede ejecutar efectivamente estos modelos.

Modelos especializados: programación, visión por computadora y incrustaciones (embeddings)

Más allá de las conversaciones generales, Ollama aloja modelos especializados para tareas específicas. Qwen 2.5 Coder y Code Llama están diseñados para programación y se integran bien con herramientas locales de entornos de desarrollo integrados (IDE). LLaVA añade visión, de modo que un modelo pueda describir o razonar sobre imágenes. Y los modelos de incrustación (embedding) como nomic-embed-text y mxbai-embed-large no conversan en absoluto: convierten texto en vectores para búsquedas y generación aumentada con recuperación (RAG), la columna vertebral de una configuración RAG local.

¿Qué modelo de Ollama deberías usar realmente?

La respuesta sincera es: el más grande que su memoria pueda alojar dentro de la categoría que necesita. Para uso general, comience con un modelo de 8B y suba solo si la calidad resulta insuficiente. Para razonamiento, pruebe una versión distilada de DeepSeek-R1; para programación, Qwen 2.5 Coder; para imágenes, LLaVA. Clasificamos las mejores opciones según su caso de uso en los mejores modelos de lenguaje local (LLM) para ejecutar en Ollama, y comparamos Ollama con sus alternativas en Ollama frente a LM Studio frente a vLLM frente a llama.cpp.

Verifica si un modelo cabe en tu sistema antes de descargarlo

El error más frecuente es descargar un modelo demasiado grande para su equipo: bien se negará a cargarse, bien funcionará extremadamente lento al recurrir al intercambio con disco. Antes de descargarlo, evalúe su tamaño: como regla aproximada, un modelo cuantizado a 4 bits requiere poco menos de 1 GB de memoria por cada mil millones de parámetros, además de margen adicional para el contexto. Nuestra herramienta gratuita Calculadora de VRAM proporciona la cifra exacta para cualquier modelo y tipo de cuantización, y Requisitos del sistema de Ollama explican detalladamente el compromiso entre RAM y VRAM.

Preguntas frecuentes

¿Cómo listo los modelos instalados en Ollama? Ejecutar ollama list para ver todos los modelos instalados junto con su tamaño, ollama ps para ver qué modelo está cargado actualmente y ollama rm <nombre> para eliminar uno.

¿Cuál es el mejor modelo de Ollama? No existe un único «mejor» modelo: depende de su capacidad de memoria. Llama 3.1 8B es la opción más equilibrada para equipos con 16 GB de RAM; consulte nuestra lista clasificada para cada caso de uso.

¿Cuántos modelos ofrece Ollama? Cientos, distribuidos entre familias de modelos para conversación, programación, visión e incrustación (embedding), con múltiples tamaños en cada una. La tabla anterior incluye los que la mayoría de los usuarios realmente ejecutan.

¿Cuánta memoria RAM necesito para ejecutar modelos de Ollama? Con 8 GB puede ejecutar modelos pequeños (1B–4B); con 16 GB, la popular clase de 7B–8B; y para modelos de 27B o mayores se requieren 32 GB o más de RAM, o bien una GPU. Verifique cualquier modelo con nuestra Calculadora de VRAM.

¿Puedo ejecutar estos modelos sin conexión? Sí: una vez descargado, cada modelo de Ollama se ejecuta íntegramente en su equipo sin necesidad de conexión a Internet, lo cual constituye precisamente la principal razón para usar modelos locales.

Conclusión

La lista de modelos de Ollama es extensa, pero su selección es sencilla: decida qué necesita —conversación general, razonamiento, programación, visión o incrustaciones— y luego elija el modelo más grande de esa categoría que su memoria pueda alojar. Comience con un modelo de 8B, use ollama list para llevar un registro de los que tiene instalados y confíe en la Calculadora de VRAM antes de cada descarga, para evitar jamás instalar un modelo que su equipo no pueda ejecutar. A partir de ahí, ejecutar inteligencia artificial potente, local y privada requiere tan solo unos pocos comandos.

Los nombres, tamaños y disponibilidad de los modelos cambian con frecuencia; las cifras son valores aproximados basados en configuraciones predeterminadas vigentes a mediados de 2026 —verifíquelas siempre con ollama list y la biblioteca oficial antes de depender de ellas.