Monday, 22 June 2026 | Updating Daily AI insight, written for builders

Requisitos del sistema para Ollama en 2026: ¿cuánta RAM y VRAM necesitas realmente?

Actualizado · Publicado originalmente el 6 de junio de 2026

La razón más común por la que un modelo no se ejecuta en Ollama no es un error, sino que el modelo es más grande que la memoria disponible. Ollama en sí es muy ligero; son los modelos los que exigen recursos hardware. Esta guía te proporciona las cifras reales de RAM y VRAM necesarias para cada tamaño de modelo en 2026, además de una fórmula sencilla para saber qué cabrá en tu sistema antes de pasar diez minutos descargando algo que no se cargará.

Si aún no has instalado Ollama, comienza con nuestra guía de instalación paso a paso.

Conclusiones clave

  • Regla general: un modelo cuantizado (Q4) necesita aproximadamente 0,6 GB de memoria por cada mil millones de parámetros, más margen para el contexto.
  • Modelos de 2–3 mil millones: se ejecutan en CPU, con ~2–4 GB de RAM. Funcionan bien incluso en un portátil básico.
  • Modelos de 7–8 mil millones: ~6–8 GB de RAM/VRAM. El punto óptimo para la mayoría de los portátiles.
  • Modelos de 27–34 mil millones: ~20–24 GB de VRAM. Requieren una GPU de gama alta o una Apple Silicon con mucha memoria unificada.
  • Modelos de 70 mil millones o más: 40 GB o más: una GPU de estación de trabajo, una configuración multi-GPU o una memoria unificada de 64 GB o superior.

Por qué la memoria lo es todo

Para generar texto, los pesos de un modelo deben residir en memoria rápida: la VRAM de tu GPU o la RAM del sistema si se ejecuta en CPU. Si el modelo no cabe, ocurre una de dos cosas: Ollama traslada parte de él a una memoria más lenta (y el rendimiento se desploma), o se niega a cargar mostrando un error de falta de memoria. Todo lo demás —velocidad de la CPU, disco duro, sistema operativo— importa mucho menos que disponer de suficiente memoria del tipo adecuado.

Dos factores determinan los requisitos:

  1. Cantidad de parámetros — un modelo de 7 mil millones tiene 7 mil millones de pesos; un modelo de 70 mil millones tiene diez veces más.
  2. Cuantización — Ollama utiliza pesos comprimidos en formato GGUF. Una cuantización de 4 bits (Q4) reduce aproximadamente a la mitad el uso de memoria respecto a una cuantización de 8 bits, con una pérdida mínima de calidad, por lo que es el punto óptimo predeterminado.

La fórmula sencilla

Para un modelo cuantizado de 4 bits —el formato que Ollama descarga por defecto—, estima:

Memoria necesaria ≈ (parámetros en miles de millones) × 0,6 GB + sobrecarga del contexto

Así, un modelo de 7 mil millones necesita aproximadamente 4–5 GB, uno de 13 mil millones alrededor de 8 GB, uno de 27 mil millones unos 18–20 GB y uno de 70 mil millones 40 GB o más. Añade un poco adicional para la caché KV, cuyo tamaño aumenta conforme tus conversaciones se hacen más largas. Deja siempre varios gigabytes de margen para tu sistema operativo.

Requisitos según el tamaño del modelo

Tamaño del modeloMemoria (Q4)Se ejecuta enEjemplos de modelos
2–3 mil millones~2–4 GBCPU / cualquier portátilGemma2 2B, Phi-4 mini
7–8 mil millones~6–8 GBGPU de entrada / portátil con 16 GBDeepSeek-R1 7B, Llama 3.3 8B
13–14 mil millones~10–12 GBGPU de gama mediaPhi-4, Qwen intermedio
27–34 mil millones~18–24 GBGPU de gama alta / Apple SiliconGemma 4 26B, Qwen 3.6 27B
70 mil millones~40–48 GBEstación de trabajo / multi-GPUClase Llama 70B
200 mil millones+ (MoE)100 GB+Servidor / memoria unificada masivaQwen3 235B-A22B

Para un análisis más detallado por modelos específicos, consulte nuestra guía sobre Requisitos de VRAM para cada modelo de lenguaje de gran tamaño importante.

GPU frente a CPU frente a Apple Silicon

GPU NVIDIA — el estándar de oro. La VRAM es el límite físico: el modelo debe caber íntegramente en la memoria de su tarjeta para ejecutarse con rapidez. Una tarjeta de 24 GB (RTX 4090/5090) ejecuta cómodamente modelos de hasta ~27–34 mil millones de parámetros.

Solo CPU — funciona con modelos pequeños (2–8 mil millones), pero mucho más lentamente, ya que el ancho de banda de la memoria del sistema no puede igualar al de una GPU. Es perfectamente válido para tareas ligeras en un portátil sin GPU dedicada.

Apple Silicon — un caso especial, y muy sólido. Debido a que los Mac utilizan memoria unificada memoria unificada compartida entre CPU y GPU, un Mac con 64 GB puede cargar modelos que requerirían una costosa PC con múltiples GPU. Desde que Ollama v0.19 (marzo de 2026) incorporó el backend MLX, Apple Silicon también se volvió mucho más rápido, convirtiendo a un Mac con mucha memoria en una de las mejores máquinas locales de LLM de una sola unidad disponibles actualmente. Para comparar su rendimiento frente a una GPU discreta, consulte Strix Halo frente a Apple M4 Pro.

GPU AMD — compatible mediante ROCm. Funciona bien para inferencia en 2026; consulte nuestro Comparación entre ROCm y CUDA para conocer su estado actual.

Cómo hacer que un modelo grande quepa en tu sistema

Si el modelo que desea supera ligeramente su capacidad de memoria, tiene opciones antes de rendirse:

  • Utilice una cuantización menor — descargue una variante Q4 o incluso q3 en lugar de q8. Sacrifica un poco de calidad a cambio de un ahorro importante de memoria.
  • Elija un modelo más pequeño — un modelo bien seleccionado de 8 mil millones suele superar a uno de 27 mil millones que apenas logra ejecutarse y se ve obligado a intercambiar datos con disco.
  • Acorte la ventana de contexto — un contexto más pequeño consume menos memoria para la caché KV.
  • Cierre otras aplicaciones — en una máquina con CPU o memoria unificada, la RAM libre es su presupuesto.

Para elegir un modelo adaptado a su hardware, consulte la sección mejores modelos de lenguaje de gran tamaño locales para ejecutar en Ollama.

Requisitos de almacenamiento y software que la gente olvida

La memoria RAM y la VRAM acaparan toda la atención, pero dos requisitos menos evidentes causan más fallos en las primeras instalaciones que cualquier otro: el espacio en disco y la pila de software subyacente. Si estos fallan, Ollama bien se niega a instalarse o bien falla a mitad de la descarga de un modelo.

Espacio en disco. El binario de Ollama en sí es pequeño; reserve aproximadamente 4 GB para la instalación. Son los modelos los que consumen su unidad. Cada modelo se descarga una sola vez y se almacena en caché en el disco, para luego cargarse en memoria durante la ejecución, por lo que necesita espacio suficiente para almacenar íntegramente los pesos, además del espacio libre que ya tenga disponible. Como orientación aproximada con cuantización común de 4 bits:

  • Un modelo de 8B (por ejemplo, Llama 3.1 8B): unos 5 GB en disco.
  • Un modelo de clase 20B: aproximadamente 12–14 GB.
  • Un modelo de 70B: alrededor de 40 GB.
  • Un modelo MoE muy grande (clase Llama 4): 65 GB o más.

Estos tamaños se acumulan rápidamente. Una colección casual de varios modelos ocupa entre 30 y 80 GB; si conserva varias variantes grandes, superará fácilmente los 200 GB. Un SSD de 512 GB constituye un mínimo razonable si planea acumular modelos.

Use un SSD, preferiblemente NVMe. Dado que los pesos se leen desde el disco a la RAM o la VRAM cada vez que un modelo se carga por primera vez, una unidad mecánica lenta se manifiesta directamente como un arranque lento: un modelo de 40 GB tarda mucho en cargarse desde un disco giratorio. Un almacenamiento rápido no afecta a la velocidad de generación de tokens (tokens por segundo) una vez que el modelo ya está cargado, pero hace que la respuesta a la primera solicitud parezca instantánea, en lugar de una pausa de 30 segundos.

Sistema operativo y controladores. Ollama se ejecuta de forma nativa en las tres plataformas, pero cada una tiene un requisito mínimo:

  • macOS: 11 (Big Sur) o posterior, tanto en Apple Silicon como en procesadores Intel.
  • Windows: Windows 10 versión 22H2 o posterior (edición Hogar o Profesional), en arquitecturas x86_64 y ARM64; así pues, los equipos con Snapdragon lo ejecutan de forma nativa, sin necesidad de emulación x86.
  • Linux: la mayoría de las distribuciones modernas (Ubuntu 18.04+, Debian, Fedora, RHEL, Arch).

Para aceleración mediante GPU también necesita controladores actualizados: un controlador NVIDIA reciente — versión 531 o superior (y versión 570 o superior para tarjetas antiguas de las generaciones Maxwell y Pascal) — para CUDA, o una pila de controladores compatibles con Vulkan o ROCm v7 para AMD Radeon. Si falta el controlador adecuado, Ollama pasa silenciosamente a la CPU, lo cual es la causa más frecuente de que una máquina «con una buena GPU» funcione lentamente.

Preguntas frecuentes

¿Cuánta memoria RAM necesito para ejecutar Ollama?

Depende completamente del modelo. El propio Ollama requiere casi nada; es el modelo el que establece el requisito. Como regla general, un modelo cuantizado a 4 bits necesita aproximadamente 0,6 GB por cada mil millones de parámetros: unos ~4–5 GB para un modelo de 7 mil millones, ~8 GB para uno de 13 mil millones y 40 GB o más para uno de 70 mil millones. Deje siempre varios gigabytes libres para su sistema operativo.

¿Puedo ejecutar Ollama sin GPU?

Sí. Los modelos pequeños (2–8 mil millones) funcionan bien en CPU, aunque más lentamente que en una GPU. Un modelo como Gemma2 2B necesita solo unos 1,7 GB de RAM y funciona en portátiles básicos. Para modelos superiores a ~13 mil millones, una GPU o Apple Silicon con memoria unificada marca una diferencia real.

¿Cuánta VRAM necesito para un modelo de 7 mil millones?

Aproximadamente 6–8 GB para un modelo de 7 mil millones cuantizado a 4 bits, incluyendo cierto margen para el contexto. Esto cabe cómodamente en la mayoría de las GPU discretas de gama de entrada y en portátiles con 16 GB de memoria unificada o del sistema.

¿Por qué Ollama se ejecuta tan lentamente?

Casi siempre porque el modelo no cabe íntegramente en la VRAM de su GPU, por lo que parte de él se traslada a la memoria del sistema o a la CPU. Compruébelo con ollama ps — si muestra un uso elevado de la CPU, cambie a un modelo más pequeño o aplique una cuantización más agresiva para que el modelo completo quepa en la memoria rápida.

¿Es bueno un Mac para ejecutar Ollama?

Sí, a menudo excelente. La memoria unificada de Apple Silicon permite que un Mac con 64 GB ejecute modelos que de otro modo requerirían una costosa PC con múltiples GPU, y el backend MLX (desde la versión 0.19) también lo ha hecho rápido. Un Mac con mucha memoria es una de las mejores opciones de una sola máquina para LLM locales en 2026. that would otherwise need a costly multi-GPU PC, and the MLX backend (since v0.19) made it fast too. A high-memory Mac is one of the best single-machine options for local LLMs in 2026.

¿Cuánto espacio en disco necesito para Ollama?

Planifique unos 4 GB para la instalación de Ollama y añada el tamaño de cada modelo que descargue. Con cuantización de 4 bits, un modelo de 8B ocupa aproximadamente 5 GB, uno de 70B alrededor de 40 GB y los modelos más grandes superan los 65 GB. Una configuración típica con varios modelos ocupa entre 30 y 80 GB, por lo que un SSD de 512 GB constituye un punto de partida cómodo. Se recomienda encarecidamente usar un SSD (preferiblemente NVMe), porque los modelos se cargan desde el disco cada vez que se ejecutan por primera vez.

¿Dónde almacena Ollama los modelos y puedo moverlos a otra unidad?

De forma predeterminada, Ollama guarda los modelos descargados en una carpeta oculta dentro del directorio personal — ~/.ollama en macOS y Linux, y %HOMEPATH%.ollama en Windows. Si su unidad del sistema es pequeña, puede redirigir el almacenamiento a una unidad más grande o externa estableciendo la variable de entorno OLLAMA_MODELS antes de iniciar Ollama. Esta es la solución más limpia cuando su unidad de arranque se queda sin espacio.

¿Qué sistemas operativos admite Ollama?

Ollama se ejecuta de forma nativa en macOS 11 (Big Sur) o posterior, Windows 10 versión 22H2 o posterior (de 64 bits, incluidos dispositivos ARM64 como los portátiles Snapdragon) y la mayoría de las distribuciones modernas de Linux, como Ubuntu 18.04+, Fedora y Arch. Para aceleración mediante GPU también necesita un controlador actualizado: un controlador NVIDIA reciente para CUDA, o un controlador compatible con ROCm/Vulkan para AMD; de lo contrario, Ollama se ejecutará en la CPU.

Conclusión

Antes de descargar cualquier cosa, haga rápidamente la cuenta: parámetros × 0,6 GB para un modelo cuantizado a 4 bits, más un margen de seguridad. Ajuste ese valor a su VRAM (NVIDIA/AMD) o memoria unificada (Apple), y nunca volverá a encontrarse con un frustrante error de memoria insuficiente. En caso de duda, comience con un tamaño menor del que cree necesario: un modelo que cabe y se ejecuta con rapidez siempre supera a uno más grande que avanza a paso de tortuga.

Scroll to Top