Monday, 22 June 2026 | Updating Daily AI insight, written for builders

¿Qué es Ollama? Guía completa para ejecutar modelos de lenguaje de gran tamaño localmente en 2026

Actualizado · Publicado originalmente el 6 de junio de 2026

Si has pasado algo de tiempo alrededor de la IA local durante los últimos dos años, seguramente ya hayas oído ese nombre. Ollama es la herramienta que transformó la frase «ejecutar un modelo de lenguaje de gran tamaño en tu propia máquina» de un fin de semana plagado de errores de CUDA a un único comando: ollama run llama3.3.

Esta guía explica exactamente qué es Ollama, cómo funciona bajo el capó, qué puede y qué no puede hacer, y si es la herramienta adecuada para ti en 2026.

Conclusiones clave

  • ¿Qué es?: una herramienta gratuita y de código abierto que descarga, gestiona y ejecuta modelos de lenguaje de gran tamaño abiertos de forma local con un solo comando: sin nube, sin claves de API y sin que tus datos salgan de tu equipo.
  • Cómo funciona: envuelve el motor llama.cpp (y MLX de Apple en Mac desde la versión 0.19) y se encarga de descargar modelos, realizar su cuantización, asignar recursos de GPU y exponer una API REST en el puerto 11434.
  • A quién va dirigido: desarrolladores y entusiastas que desean la forma más sencilla de prototipar con modelos locales. Es el punto de entrada con «menor arrepentimiento» en 2026.
  • A quién no va dirigido: servicio en producción con alta concurrencia; para ello, vLLM es aproximadamente 16–20 veces más rápido bajo carga.
  • Coste: 0 USD. Está licenciado bajo la licencia MIT y se ejecuta íntegramente en tu hardware.

Qué es realmente Ollama

Ollama es un entorno de ejecución de código abierto para modelos de lenguaje de gran tamaño que se ejecuta en tu propio ordenador —Mac, Windows o Linux—. Piensa en él como el «Docker para modelos de lenguaje de gran tamaño»: en lugar de lidiar con entornos de Python, pesos de modelos y controladores de GPU, simplemente escribes un comando y ¡el modelo ya está funcionando.

La propuesta es sencilla: mantener tus datos en tu equipo, no pagar nada por cada token y trabajar sin conexión. Cuando ejecutas ollama run gemma4, Ollama descarga el modelo, lo carga en la memoria de tu GPU (o en la memoria RAM del sistema si no dispones de GPU) y te coloca directamente en un entorno interactivo de chat. Eso es todo.

Detrás de esa simplicidad, Ollama realiza mucho trabajo por ti:

  • Gestión de modelos — descarga, versionado y almacenamiento de modelos desde su registro, tal como un gestor de paquetes maneja el software.
  • Cuantización — utiliza automáticamente versiones comprimidas (GGUF) de los modelos, de modo que un modelo de 27 000 millones de parámetros cabe en la memoria de equipos de consumo.
  • Asignación de capas a la GPU — decidir cuánta parte del modelo reside en la GPU frente a la CPU, según la VRAM disponible.
  • Gestión del contexto y de la caché KV — gestionar la memoria que aumenta a medida que la conversación se alarga.
  • Una API REST — exponerlo todo en http://localhost:11434 para que tus propias aplicaciones puedan comunicarse con ella.

Cómo funciona bajo el capó

Ollama no es, en sí mismo, un motor de inferencia. Es una capa de experiencia envuelta alrededor de uno. En su interior utiliza llama.cppllama.cpp, el motor en C++ que realiza las operaciones matemáticas reales para ejecutar eficientemente un modelo cuantizado en CPUs y GPUs. A partir de la versión v0.19 (marzo de 2026), Ollama también emplea el backend MLX de Apple en los chips Apple Silicon —un cambio que ha proporcionado aceleraciones enormes (en un M5 Max ejecutando Qwen 3.5, el rendimiento de decodificación casi se duplicó).

El flujo de trabajo tiene este aspecto:

  1. Ejecutas un comandoollama run qwen3 desde la terminal o una solicitud a la API.
  2. Ollama resuelve el modelo — si aún no está descargado, recupera los pesos en formato GGUF desde el registro.
  3. Carga el modelo en memoria — dividiendo las capas entre GPU y CPU según la VRAM disponible.
  4. Proporciona respuestas — ya sea de forma interactiva en tu terminal o como JSON mediante la API REST.

Esta API REST es la parte que más interesa a los desarrolladores. Cualquier aplicación capaz de realizar una solicitud HTTP puede usar un modelo local a través de Ollama; y, dado que Ollama incorpora un punto final compatible con OpenAI, gran parte del código existente funciona simplemente cambiando la URL base.

Qué puedes construir con él

Ollama es el motor que impulsa una amplia gama de proyectos de IA local en 2026:

  • Chatbots privados que nunca envían una sola palabra a la nube.
  • Asistentes de programación — el nuevo comando ollama launch configura herramientas como Claude Code, OpenCode, y Codex con un modelo local o en la nube sin necesidad de archivos de configuración.
  • Sistemas RAG que usan la API de incrustaciones por lotes de Ollama para indexar tus propios documentos.
  • Agentes y automatizaciones que invocan modelos locales para clasificación, extracción o resúmenes, sin coste marginal adicional.
  • Pipelines de salida estructurada — Ollama ahora puede restringir la salida de un modelo a un esquema JSON, lo que lo hace fiable para uso programático.

Dónde encaja Ollama entre las alternativas disponibles

Ollama no es la única forma de ejecutar modelos localmente, ni siempre es la mejor opción. Este es el panorama realista:

HerramientaIdeal paraCompromiso
OllamaPrototipado por un solo desarrollador en cualquier sistema operativoLento bajo alta concurrencia
LM StudioUna interfaz gráfica pulida para explorar y chatear con modelosMenos automatizable; centrada en escritorio
vLLMServicio multiusuario en producción sobre GPUsConfiguración compleja; no orientada inicialmente a entornos locales
llama.cppMáxima velocidad y hardware integrado o periféricoNivel más bajo; tú mismo ensamblas los componentes

Si eres una sola persona experimentando, Ollama destaca por su comodidad. En cuanto necesites atender a muchos usuarios simultáneamente, querrás consultar nuestro análisis completo de Ollama frente a LM Studio frente a vLLM frente a llama.cpp.

Empezar en dos minutos

La barrera de entrada es realmente mínima:

  1. Instálalo — descarga la aplicación para tu sistema operativo (consulta nuestra guía paso a paso para la instalación).
  2. Descarga y ejecuta un modeloollama run gemma4 para un modelo equilibrado y versátil, o ollama run qwen3 para programación.
  3. Habla con él — chatea desde la terminal o apunta tu aplicación a http://localhost:11434.

Antes de elegir un modelo, verifica que tu equipo pueda manejarlo — consulta nuestra guía sobre los requisitos del sistema de Ollama asigna los tamaños de los modelos a la memoria RAM y VRAM que realmente necesitas.

¿Qué hardware necesitas realmente?

Ollama iniciará en casi cualquier máquina con una CPU y 8 GB de RAM, pero «inicia» y «resulta usable» son preguntas distintas. El único número que determina tu experiencia es cuánta memoria cabe el modelo, ya que el modelo completo debe residir en la RAM (o, idealmente, en la VRAM de la GPU) mientras se ejecuta. Una regla general fiable es aproximadamente 0,6 GB de memoria por mil millones de parámetros a la cuantización predeterminada Q4_K_M, más un pequeño margen adicional para el contexto.

Esta estimación te proporciona una guía rápida de dimensionamiento para las clases de modelos más comunes:

Clase del modeloDescarga aproximada (Q4_K_M)Memoria recomendada
7–8B (Llama 3.x, Mistral)~5 GB8 GB+
13–14B (Qwen, Phi)~9 GB16 GB+
32B~20 GB24 GB+
70B (Llama 3.3)~43 GB64 GB+

Para la mayoría de las personas, el punto óptimo práctico es una GPU o una Mac con aproximadamente 16 GB de VRAM o memoria unificada —suficiente para ejecutar modelos de 7B a 14B a velocidades que parecen instantáneas. Tanto una tarjeta RTX de 16 GB como una Mac Apple Silicon de 16 GB entran claramente en esta categoría.

Dos aspectos arquitectónicos son clave al elegir. Una GPU NVIDIA discreta tiene una ventaja decisiva siempre que el modelo quepa íntegramente en su VRAM, ofreciendo la mayor velocidad de generación de tokens por segundo. Por otro lado, la memoria unificada memoria unificada de Apple Silicon representa un compromiso opuesto: comparte toda la memoria del sistema con la GPU, por lo que una Mac de 64 GB o 128 GB puede ejecutar modelos de 32B a 70B que simplemente no cabrían en una tarjeta gráfica de consumo —aunque con menor rendimiento. El punto de inflexión se sitúa alrededor de los modelos de 24 GB.

puede puedes ejecutar Ollama sin GPU alguna. Una CPU moderna de varios núcleos maneja un modelo de 7B a velocidades aceptables (unos pocos a bajos dobles dígitos de tokens por segundo), pero los modelos grandes de 70B en CPU caen por debajo de un token por segundo —aceptable para trabajos por lotes nocturnos, pero incómodo para conversaciones interactivas. Si la velocidad interactiva es importante, la aceleración mediante GPU o Apple Silicon es el factor determinante.

Preguntas frecuentes

¿Es Ollama gratuito?

Sí. Ollama es de código abierto bajo la licencia MIT y completamente gratuito. El único «coste» es el hardware en el que lo ejecutas y la electricidad que consume; no hay cargos por token porque nada se envía a un proveedor en la nube.

¿Envía Ollama mis datos a alguna parte?

No. Por diseño, la inferencia se realiza íntegramente en tu máquina. El único tráfico de red ocurre al descargar un modelo la primera vez que lo extraes («pull»). Esta es la razón principal por la que equipos de salud, sector legal y finanzas lo utilizan: los prompts sensibles nunca salen del edificio.

¿Necesito una GPU para ejecutar Ollama?

No, pero sí ayuda mucho. Ollama se ejecuta únicamente en CPU para modelos pequeños (un modelo de 2–3 mil millones de parámetros funciona cómodamente en un portátil moderno) y utiliza automáticamente tu GPU cuando está disponible. Para modelos con más de ~13 mil millones de parámetros, una GPU o Apple Silicon con memoria unificada marca una gran diferencia. Consulta nuestra guía de requisitos del sistema para detalles específicos.

¿Qué modelos puede ejecutar Ollama?

Más de 100 modelos abiertos, incluidos Llama 3.3 y Llama 4 de Meta, Gemma 4 de Google, la serie Qwen 3 de Alibaba, DeepSeek V3 y R1, Mistral y Phi-4 de Microsoft. Nuestra selección de los mejores modelos de lenguaje local (LLM) para ejecutar en Ollama explica cuál usar para cada tipo de tarea.

¿Es Ollama mejor que ChatGPT?

Son herramientas distintas. ChatGPT te ofrece un modelo puntero sin configuración previa, pero envía tus datos a la nube y cobra una suscripción. Ollama ejecuta modelos abiertos más pequeños localmente, de forma gratuita y privada, aunque incluso el mejor modelo local sigue quedando atrás frente a los mejores modelos en la nube en las tareas más exigentes. En cuanto a privacidad, costo y uso sin conexión, Ollama gana; pero en capacidad bruta para razonamiento complejo, la vanguardia en la nube sigue liderando.

¿Cuál es el puerto de la API de Ollama?

Ollama expone su API REST en http://localhost:11434 de forma predeterminada. También ofrece un punto final compatible con OpenAI, por lo que gran parte del código existente basado en los SDK de OpenAI funciona simplemente redirigiendo la URL base a tu instancia local de Ollama.

¿Puede Ollama reemplazar la API de OpenAI en mi aplicación existente?

Para la mayoría de las aplicaciones, sí. Ollama expone un punto final compatible con OpenAI en http://localhost:11434/v1, incluida la ruta /v1/chat/completions que la mayoría de las herramientas invocan. Basta con apuntar el parámetro «base_url» del cliente de OpenAI a esa dirección, pasar una clave API ficticia y establecer el campo «model» con una etiqueta de Ollama instalada. También se admiten incrustaciones (embeddings), visión y llamadas a herramientas (tool-calling), por lo que muchos proyectos realizan la migración modificando solo dos líneas. Cubre partes de la API de OpenAI, pero no todos sus parámetros; verifica, por tanto, cualquier campo especializado del que dependa tu aplicación. base_url at it, pass any placeholder API key, and set the model field to an installed Ollama tag. Embeddings, vision, and tool-calling are supported too, so many projects switch by changing two lines. It covers parts of the OpenAI API rather than every parameter, so verify any exotic fields your app relies on.

¿Puedo ejecutar Ollama sin GPU?

Sí. Ollama se ejecuta íntegramente en CPU cuando no hay una GPU compatible disponible —solo necesitas suficiente memoria RAM del sistema para alojar el modelo. Una CPU moderna de varios núcleos ejecuta un modelo de 7B a velocidades utilizables, pero el rendimiento disminuye drásticamente a medida que los modelos crecen, y los modelos de clase 70B en CPU son demasiado lentos para uso interactivo. Para conversaciones cotidianas, una GPU o una Mac Apple Silicon marcan la diferencia entre una respuesta lenta y una ágil.

¿Cuánto espacio en disco ocupan los modelos de Ollama y dónde se almacenan?

Plan para los tamaños de descarga indicados anteriormente: un modelo de 7B ocupa aproximadamente 5 GB en disco, un modelo de 70B alrededor de 43 GB, y descargar varios modelos suma rápidamente espacio. De forma predeterminada, se almacenan en ~/.ollama/models (o C:\Users\\.ollama\models en Windows). Puedes cambiar la ubicación de ese directorio mediante la variable de entorno OLLAMA_MODELS y eliminar cualquier elemento que ya no necesites con el comando ollama rm .

Conclusión

Ollama conquistó el espacio de los LLM locales en 2026 al hacer una sola cosa excepcionalmente bien: eliminar fricciones. Es gratuito, privado, se ejecuta en el hardware que ya posees y te lleva desde «quiero probar un modelo local» hasta un modelo en funcionamiento en unos dos minutos. No es la opción más rápida bajo carga intensa, y un modelo local no superará al mejor modelo en la nube en los problemas más difíciles; pero como puerta de entrada a la inteligencia artificial local, ninguna otra solución se le acerca. Si estás comenzando, empieza aquí.

Scroll to Top