LM Studio es lo más cercano que tiene el mundo de la IA local a una aplicación de escritorio que «simplemente funciona». La descargas, buscas un modelo en su catálogo integrado, haces clic en «cargar» y empiezas a chatear: sin terminal, sin Docker ni archivos de configuración. Detrás de esa interfaz amigable se encuentran los mismos motores llama.cpp y MLX que impulsan la mayor parte del ecosistema local de LLM, además de un servidor local de un solo clic que imita la API de OpenAI, permitiendo que tu código existente se comunique con un modelo que se ejecuta en tu propia máquina.
Esta guía te lleva de cero a a un modelo local en funcionamiento mediante la interfaz gráfica. Explicamos qué es realmente LM Studio a mediados de 2026, cómo instalarlo en Windows, macOS y Linux, cómo elegir un modelo y una cuantización adecuados para tu hardware, cómo activar el servidor local y cuánta VRAM y RAM necesitas aproximadamente. También trazamos una línea clara y honesta entre LM Studio y Ollama, ya que resuelven problemas superpuestos pero distintos.
Conclusiones clave
- LM Studio es una interfaz gráfica de usuario (GUI) de escritorio gratuita desarrollada por Element Labs (la empresa detrás de LM Studio, fundada por el creador original de la aplicación), diseñada para ejecutar modelos de lenguaje de gran tamaño de código abierto (LLM) localmente —gratuita para uso personal y comercial desde el 8 de julio de 2025, sin necesidad de licencia ni formulario alguno.
- La versión estable más reciente es la 0.4.16 (8 de junio de 2026), que aumentó la longitud de contexto predeterminada a 8.000 tokens y lanzó «Locally», una aplicación móvil complementaria para iPhone e iPad.
- Ejecuta dos motores: llama.cpp para modelos GGUF (NVIDIA/AMD/Intel/CPU) y MLX para Apple Silicon, con incorporaciones recientes como la paralelización de tensores en múltiples GPU (0.4.15) y la decodificación especulativa MTP estable (0.4.14).
- Un servidor local integrado compatible con la API de OpenAI expone cualquier modelo cargado en
http://localhost:1234/v1— apunta cualquier SDK de OpenAI a esa URL y funcionará sin necesidad de modificar el código. - Requisitos mínimos de hardware: CPU con soporte AVX2, 16 GB o más de RAM recomendados y aproximadamente 6–9 GB de VRAM para ejecutar cómodamente un modelo de 7B–13B en cuantización Q4. En macOS se requiere Apple Silicon y macOS 14 o posterior.
- Elige LM Studio para explorar y chatear; elige Ollama para servidores sin interfaz gráfica y automatización. Son complementarios, no competidores.
- Qué es realmente LM Studio
- Instalación de LM Studio en Windows, macOS y Linux
- Descarga y selección de un modelo
- El servidor local integrado (API compatible con OpenAI)
- Hardware y VRAM: qué necesitas realmente
- LM Studio frente a Ollama: ¿cuál es el adecuado para ti?
- Preguntas frecuentes
- Conclusión
- Artículos relacionados
Qué es realmente LM Studio
LM Studio es una aplicación de escritorio que descarga y ejecuta modelos de lenguaje de gran tamaño íntegramente en tu propio hardware. Nada sale de tu equipo. Incluye dos motores de inferencia: llama.cpp, que ejecuta el ampliamente utilizado formato de modelos GGUF en sistemas NVIDIA, AMD, Intel y exclusivamente basados en CPU, y MLX de Apple, que ejecuta de forma nativa modelos en formato MLX en Macs con chips de la serie M. Ofrece un explorador de modelos, una ventana de chat al estilo de ChatGPT, ajustes de inferencia específicos por modelo y un interruptor para activar/desactivar el servidor, todo en una sola interfaz.
El producto es desarrollado por Element Labs, Inc., la empresa detrás de LM Studio, fundada en 2023 por Yagil Burowski —el creador original de la aplicación—. A partir del 8 de julio de 2025 se convirtió en gratuito para su uso profesional, eliminando el requisito previo de solicitar una licencia comercial independiente. Usted y su equipo pueden instalarlo y utilizarlo con fines comerciales sin necesidad de rellenar ningún formulario, registrarse ni pagar ninguna tarifa. Existe una versión empresarial paga de LM Studio para organizaciones que requieren funciones avanzadas como autenticación única (SSO), control de acceso a modelos y servidores MCP, y colaboración privada; sin embargo, la aplicación principal que la mayoría de los usuarios desea es completamente gratuita.
La versión estable actual es 0.4.16v0.4.16, lanzada el 8 de junio de 2026. Las versiones recientes se han actualizado con rapidez: la 0.4.10 incorporó soporte OAuth para servidores MCP; la 0.4.14 incluyó una implementación estable de la decodificación especulativa MTP (generación más rápida en modelos con cabezas de predicción de múltiples tokens); la 0.4.15 añadió paralelismo tensorial para dividir un modelo entre varias GPU; y la 0.4.16 elevó la ventana de contexto predeterminada a 8 000 tokens e introdujo «Locally», una aplicación complementaria para iPhone y iPad que transmite en tiempo real desde su escritorio mediante LM Link.
Instalación de LM Studio en Windows, macOS y Linux
La instalación sigue el procedimiento habitual para aplicaciones: descargue la versión correspondiente a su sistema operativo desde lmstudio.ai y ejecútela. El inconveniente radica en los requisitos de plataforma, que son más exigentes que en software convencional debido a que los LLM dependen fuertemente del conjunto de instrucciones de la CPU y de la memoria disponible.
| Plataforma | Requisito | Notas |
|---|---|---|
| Windows | CPU x64 o ARM con soporte AVX2 | Soporte para Snapdragon X Elite (ARM); instalador .exe estándar |
| macOS | Chips Apple Silicon (M1–M4), macOS 14.0 o posterior | No se admiten Macs con procesadores Intel; esta restricción permite aprovechar el motor MLX |
| Linux | x64 o ARM64, Ubuntu 20.04 o posterior | Se distribuye como AppImage; las distribuciones distintas de Ubuntu 22 están menos probadas |
El El conjunto de instrucciones AVX2 es obligatorio en sistemas x64. En la práctica, esto abarca los procesadores Intel Core de cuarta generación (Haswell, 2013) en adelante y todos los procesadores AMD Ryzen, por lo que prácticamente cualquier PC moderna cumple este requisito. La principal limitación está en macOS: Los Macs con procesadores Intel no son compatibles en absoluto en las versiones actuales: se requiere un chip de la serie M. En Linux, el formato AppImage significa que no es necesario realizar ninguna instalación a nivel de sistema: basta con asignar permisos de ejecución y ejecutarlo directamente.
Tras el primer inicio, LM Studio le guía a través de la pestaña «Descubrir» y, en una instalación nueva, puede sugerirle un modelo inicial. No lo acepte automáticamente: seleccione un modelo adecuado a su hardware, que es precisamente el siguiente paso.
Descarga y selección de un modelo
Abra la pestaña «Descubrir». El descargador integrado obtiene modelos desde Hugging Face y permite buscarlos por palabra clave («qwen», «gemma»), por un identificador específico de usuario/modelo o pegando una URL completa de Hugging Face. Cada modelo muestra varias cuantización variantes —etiquetas como Q4_K_M, Q5_K_M, o Q8_0. La cuantización comprime los pesos del modelo para reducir tanto el tamaño del archivo como su huella de memoria, intercambiando ligeramente calidad por una reducción significativa de tamaño.
Para la mayoría de los usuarios, Q4_K_M representa el punto óptimo. Reduce un modelo de 7 000 millones de parámetros (7B) desde aproximadamente 13–14 GB en precisión completa (FP16) hasta unos 4 GB —una reducción de cerca del 70 %—, manteniendo la mayor parte de la calidad de salida; en pruebas estándar de perplejidad, la diferencia frente a la precisión completa es tan pequeña que rara vez se percibe en conversaciones cotidianas. La denominación «K_M» indica una cuantización K media: asigna más bits a los tensores más sensibles (por ejemplo, las proyecciones de salida de atención, conservadas con mayor precisión) y menos bits al resto. Solo suba a niveles superiores si dispone de recursos suficientes, y baje únicamente si es estrictamente necesario.
Ajuste la cuantización a su VRAM disponible
| VRAM disponible | Cuantización recomendada | Regla general |
|---|---|---|
| Menos de 8 GB | Q2_K / Q3_K_M | Utilice exclusivamente modelos de 7B–8B |
| 8–12 GB | Q4_K_M (recomendado) | Modelos de 7B con comodidad; un modelo de 13B cabe cómodamente en una GPU de 12 GB |
| 12–16 GB | Q5_K_M / Q6_K | Mayor calidad en modelos intermedios |
| 16–24 GB | Q8_0 | Calidad casi sin pérdidas en modelos de 7B–13B |
| 24 GB o más | F16 (precisión completa) | O modelos más grandes en Q4/Q5 |
Tamaños aproximados de almacenamiento y memoria según el tamaño del modelo en Q4: un modelo de 7B ocupa unos 4–5 GB; uno de 13B, unos 8–9 GB; uno de 30B, unos 18–20 GB; y uno de 70B supera los 40 GB. Un modelo de 13B en Q4_K_M ocupa aproximadamente 8–9 GB de pesos, por lo que una GPU de 12 GB puede alojarlo íntegramente (pesos más una caché KV moderada); de lo contrario, LM Studio traslada a la GPU solo lo que cabe y ejecuta el resto en la CPU, lo cual es más lento. Recuerde que la caché KV y la longitud del contexto incrementan estos valores, así que reserve al menos un par de gigabytes de margen. Si aún está eligiendo su primer modelo, nuestra comparativa de los mejores LLM locales para ejecutar en Ollama en 2026 es prácticamente equivalente a la de LM Studio, ya que ambos utilizan los mismos archivos GGUF.
En Apple Silicon, prefiera las versiones en formato MLX cuando estén disponibles. En modelos compatibles, las versiones en formato MLX suelen ser más rápidas que sus equivalentes en GGUF en el mismo chip de la serie M —normalmente entre un 10 % y un 40 %, aunque la diferencia varía según el modelo y puede ser prácticamente nula (e incluso, en algunos modelos recientes, GGUF supera ligeramente a MLX). La calidad es generalmente comparable, pero no siempre idéntica: la cuantización mixta Q4_K_M de GGUF asigna más bits a las capas más sensibles, mientras que la cuantización de 4 bits de MLX es más uniforme, por lo que merece la pena comparar ambas opciones para cualquier modelo que vaya a usar intensivamente. LM Studio le permite cambiar el formato por modelo directamente desde la interfaz, de modo que puede descargar la variante MLX cuando esté disponible y recurrir a GGUF cuando no lo esté.
El servidor local integrado (API compatible con OpenAI)
Esta es la función que transforma LM Studio de una simple herramienta de chat en una utilidad para desarrolladores. Cargue un modelo, abra la pestaña «Desarrollador/Servidor» y active el servidor. LM Studio entonces expone una API REST compatible con OpenAI en http://localhost:1234/v1, exponiendo puntos de conexión para finalizaciones de chat, finalizaciones, incrustaciones (embeddings) y respuestas. Cualquier cliente que implemente el esquema OpenAI Chat Completions —el SDK de Python openai , el paquete Node openai , el contenedor OpenAI de LangChain o una llamada cURL sin procesar curl — se conecta simplemente apuntando su parámetro base_url / baseURL a esa dirección.
No existe un requisito real de clave API ni salida de red: las solicitudes permanecen en su equipo, no hay límites de tasa y no se aplica ningún costo por token. En el código, normalmente se pasa una clave ficticia como "lm-studio" y se establece la URL base; así, las llamadas existentes a la API de OpenAI funcionan sin modificaciones. Esto convierte a LM Studio en una solución de sustitución limpia e inmediata para desarrollo, pruebas y cargas de trabajo sensibles a la privacidad, donde no puede enviarse datos a una API en la nube.
Donde brilla el servidor
- Un solo interruptor: nada de YAML ni demonios independientes que configurar
- Compatibilidad nativa con OpenAI: basta con cambiar la URL base y desplegar
- Totalmente local: sin costos, sin límites de tasa y sin que los datos salgan del equipo
- Ideal para prototipar agentes y sistemas RAG con modelos locales gratuitos
Sus limitaciones
- Está vinculado a la interfaz gráfica de escritorio: no está diseñado para servidores sin interfaz gráfica (headless) ni para VPS
- Consumo de memoria en reposo más alto que un entorno de ejecución basado en CLI
- Alcance limitado a una sola máquina: carece de funciones integradas de agrupamiento (clustering) o equilibrio de carga
- Para entornos productivos que requieren disponibilidad continua, un entorno de ejecución especializado resulta más adecuado
Si supera las capacidades de un solo equipo de escritorio y necesita un servicio headless y siempre activo, ese es precisamente el punto en el que Ollama u otro motor más robusto asumen el rol principal — consulte nuestra comparación entre Ollama frente a LM Studio frente a vLLM frente a llama.cpp para el análisis completo.
Hardware y VRAM: qué necesitas realmente
La configuración mínima realista consiste en una CPU con soporte AVX2 y 16 GB de memoria RAM del sistema (con 8 GB podrán ejecutarse modelos pequeños, pero rápidamente notará sus limitaciones: contexto corto, modelos reducidos y ralentizaciones evidentes). La RAM sigue siendo crítica incluso en configuraciones con GPU, ya que cualquier capa que no quepa en la VRAM se traslada a la memoria del sistema.
Para aceleración mediante GPU, se recomienda como mínimo 4 GB de VRAM dedicada, y más es siempre mejor. Un objetivo práctico para una experiencia fluida con modelos de 7B a 13B es una tarjeta con 8–12 GB. Los modelos más grandes escalan rápidamente: un modelo de 70B en cuantización Q4 requiere aproximadamente 40 GB o más combinando VRAM y RAM, razón por la cual ejecutarlo cómodamente suele requerir entre 48 y 64 GB de memoria del sistema si no cabe íntegramente en la GPU. En los equipos Apple Silicon, la arquitectura de memoria unificada combina RAM y VRAM, por lo que un Mac con 32 GB o 64 GB ofrece un rendimiento superior al esperado para modelos de tamaño medio. Si busca específicamente una tarjeta para este propósito, nuestra guía sobre mejoras GPUs para modelos de lenguaje local en 2026 el análisis del precio por gigabyte
LM Studio frente a Ollama: ¿cuál es el adecuado para ti?
Estas dos herramientas se comparan constantemente, y la respuesta breve es que están diseñadas para distintos usuarios. Ollama es un servicio CLI y HTTP orientado a desarrolladores que se ejecuta sin interfaz gráfica; LM Studio es una interfaz gráfica pulida con la que interactúa mediante clics. Ambas ejecutan modelos GGUF mediante llama.cpp, por lo que la velocidad bruta por token es esencialmente idéntica para un mismo modelo y nivel de cuantización. Las diferencias radican en la usabilidad y el despliegue.
| Dimensión | LM Studio | Ollama |
|---|---|---|
| Interfaz principal | Interfaz gráfica de escritorio | CLI + API HTTP |
| Huella en reposo | Mayor (interfaz gráfica completa) | Menor (servicio en segundo plano) |
| Formato de modelo | GGUF + MLX | GGUF |
| Servidor compatible con OpenAI | Sí, puerto 1234 | Sí, puerto 11434 |
| Uso sin interfaz gráfica / en servidor | No es su uso previsto | Diseñado expresamente para ello |
| Ideal para | Exploración y conversación | Automatización y despliegue |
Elija LM Studio si principalmente desea conversar con modelos en una laptop, explorar y probar múltiples modelos sin fricciones y evitar completamente la terminal: ofrece especialmente a los usuarios de Windows una experiencia fluida impulsada por un instalador. Elija Ollama si está integrando modelos en su base de código, desplegándolos en un VPS o automatizando flujos de trabajo mediante scripts. Muchas personas usan ambas herramientas: LM Studio para descubrir y evaluar un modelo, y Ollama para servirlo en producción. Si está evaluando específicamente alternativas con interfaz gráfica, nuestra comparación entre Ollama frente a Jan analiza otro competidor de código abierto en este mismo espacio.
Preguntas frecuentes
¿Es gratuito LM Studio para uso comercial?
Sí. A partir del 8 de julio de 2025, LM Studio es gratuito tanto para uso personal como comercial o empresarial, y ya no es necesario solicitar una licencia específica ni completar ningún formulario. Existe una versión empresarial opcional de pago para organizaciones que necesiten funciones avanzadas de administración (como autenticación única SSO y control de acceso a modelos o protocolos MCP), pero la aplicación estándar es completamente gratuita.
¿Funciona LM Studio en Macs con procesador Intel?
No. Las versiones actuales de LM Studio requieren Apple Silicon (M1 a M4 y sus variantes) y macOS 14.0 o posterior. Los Macs basados en Intel no son compatibles. En Apple Silicon también dispone del motor MLX, más rápido, además del soporte para GGUF.
¿Qué formato de modelo utiliza LM Studio?
LM Studio ejecuta modelos GGUF mediante su motor llama.cpp integrado en prácticamente todo tipo de hardware, y modelos en formato MLX mediante el motor MLX de Apple en Macs de la serie M. GGUF es el estándar de archivo único compartido por LM Studio, Ollama, Jan y GPT4All, por lo que los modelos son ampliamente intercambiables entre estas herramientas.
¿Cuál es la diferencia entre Q4_K_M y Q8_0?
Ambos son niveles de cuantización. Q4_K_M emplea 4 bits y ocupa aproximadamente un tercio del tamaño de la precisión completa, conservando la mayor parte de la calidad; es la opción recomendada por defecto para la mayoría de los sistemas. Q8_0 emplea 8 bits, es más grande y prácticamente sin pérdida, y solo merece considerarse si dispone de 16–24 GB de VRAM disponibles.
¿Cómo conecto mi código al servidor local de LM Studio?
Active el servidor desde la pestaña Desarrollador/Servidor tras cargar un modelo, y luego configure la URL base de cualquier SDK de OpenAI para que apunte a http://localhost:1234/v1. No se requiere ninguna clave API real (puede usar cualquier cadena ficticia), y el código existente para OpenAI Chat Completions funciona sin modificaciones adicionales.
¿Cuánta VRAM necesito para ejecutar un modelo de 7B?
Un modelo de 7B en cuantización Q4_K_M ocupa aproximadamente 4–5 GB en disco, y con la caché KV y la sobrecarga asociada, una tarjeta con 6–8 GB de VRAM lo ejecuta cómodamente y por completo en la GPU. Con menos VRAM, LM Studio descarga el exceso a la memoria RAM del sistema y a la CPU, lo cual sigue funcionando, aunque más lentamente.
¿Puedo ejecutar LM Studio como servidor en una VPS?
No es su caso de uso previsto. LM Studio está diseñado principalmente para su interfaz gráfica de escritorio, y la opción de servidor asume una máquina local. Para alojamiento sin interfaz gráfica (headless) y siempre activo en una VPS, Ollama o un motor de inferencia especializado son opciones más adecuadas.
Conclusión
LM Studio es la forma más sencilla de comenzar con modelos de lenguaje locales en 2026, y ahora es realmente gratuito para cualquier uso. Si desea descargar un modelo, conversar con él y, ocasionalmente, apuntar su propio código a un punto final privado compatible con OpenAI —todo ello sin tocar una terminal—, ninguna otra herramienta ofrece una experiencia tan accesible. Además, la versión 0.4.x ha cerrado brechas reales con funciones como la paralelización tensorial en múltiples GPU y la decodificación especulativa, por lo que ya no es simplemente un juguete para principiantes.
Donde sí tiene limitaciones es en despliegue. La sobrecarga de la interfaz gráfica y el servidor orientado al entorno de escritorio hacen que LM Studio no sea la herramienta adecuada para servir modelos en producción sin interfaz gráfica (headless); esa es precisamente la función de Ollama o vLLM. La estrategia más práctica consiste en usar LM Studio como entorno de exploración y chat, aprovecharlo para identificar el modelo y la cuantización adecuados para su hardware, y recurrir a un entorno de ejecución especializado cuando necesite servir ese modelo las 24 horas del día. Sin embargo, para la mayoría de los usuarios que ejecutan modelos en una laptop o un equipo de escritorio, esta es la primera aplicación que deben instalar.
