Is LM Studio free for commercial use?

Yes. Since July 8, 2025, LM Studio is free for both personal and commercial/workplace use, and you no longer need to request a separate license or fill out any form. There is an optional paid Enterprise tier for organizations wanting advanced administration features (such as SSO and model/MCP gating), but the standard app is free.

Does LM Studio work on Intel Macs?

No. Current LM Studio builds require Apple Silicon (M1 through M4 and their variants) and macOS 14.0 or newer. Intel-based Macs are unsupported. On Apple Silicon you also get the faster MLX engine in addition to GGUF.

What model format does LM Studio use?

LM Studio runs GGUF models through its bundled llama.cpp engine on virtually all hardware, and MLX-format models through Apple's MLX engine on M-series Macs. GGUF is the single-file standard shared by LM Studio, Ollama, Jan, and GPT4All, so models are largely interchangeable across these tools.

What is the difference between Q4_K_M and Q8_0?

Both are quantization levels. Q4_K_M is 4-bit and roughly a third the size of full precision while keeping the large majority of quality — the recommended default for most hardware. Q8_0 is 8-bit, larger and effectively near-lossless, worth using only if you have 16–24GB of VRAM to spare.

How do I connect my code to LM Studio's local server?

Enable the server in the Developer/Server tab with a model loaded, then point any OpenAI SDK's base URL at http://localhost:1234/v1. No real API key is needed (pass any placeholder string), and existing OpenAI Chat Completions code works without other changes.

How much VRAM do I need to run a 7B model?

A 7B model at Q4_K_M is about 4–5GB on disk, and with the KV cache and overhead a card with 6–8GB of VRAM runs it comfortably and fully on the GPU. With less VRAM, LM Studio offloads the overflow to system RAM and CPU, which still works but runs slower.

Can I run LM Studio as a server on a VPS?

It's not the intended use case. LM Studio is built around its desktop GUI, and the server toggle assumes a local machine. For headless, always-on hosting on a VPS, Ollama or a dedicated inference engine is the better fit.

LM Studio: La guía completa (2026)

LM Studio es lo más cercano que tiene el mundo de la IA local a una aplicación de escritorio que «simplemente funciona». La descargas, buscas un modelo en su catálogo integrado, haces clic en «cargar» y empiezas a chatear: sin terminal, sin Docker ni archivos de configuración. Detrás de esa interfaz amigable se encuentran los mismos motores llama.cpp y MLX que impulsan la mayor parte del ecosistema local de LLM, además de un servidor local de un solo clic que imita la API de OpenAI, permitiendo que tu código existente se comunique con un modelo que se ejecuta en tu propia máquina.

Esta guía te lleva de cero a a un modelo local en funcionamiento mediante la interfaz gráfica. Explicamos qué es realmente LM Studio a mediados de 2026, cómo instalarlo en Windows, macOS y Linux, cómo elegir un modelo y una cuantización adecuados para tu hardware, cómo activar el servidor local y cuánta VRAM y RAM necesitas aproximadamente. También trazamos una línea clara y honesta entre LM Studio y Ollama, ya que resuelven problemas superpuestos pero distintos.

Conclusiones clave

LM Studio es una interfaz gráfica de usuario (GUI) de escritorio gratuita desarrollada por Element Labs (la empresa detrás de LM Studio, fundada por el creador original de la aplicación), diseñada para ejecutar modelos de lenguaje de gran tamaño de código abierto (LLM) localmente —gratuita para uso personal y comercial desde el 8 de julio de 2025, sin necesidad de licencia ni formulario alguno.
La versión estable más reciente es la 0.4.16 (8 de junio de 2026), que aumentó la longitud de contexto predeterminada a 8.000 tokens y lanzó «Locally», una aplicación móvil complementaria para iPhone e iPad.
Ejecuta dos motores: llama.cpp para modelos GGUF (NVIDIA/AMD/Intel/CPU) y MLX para Apple Silicon, con incorporaciones recientes como la paralelización de tensores en múltiples GPU (0.4.15) y la decodificación especulativa MTP estable (0.4.14).
Un servidor local integrado compatible con la API de OpenAI expone cualquier modelo cargado en http://localhost:1234/v1 — apunta cualquier SDK de OpenAI a esa URL y funcionará sin necesidad de modificar el código.
Requisitos mínimos de hardware: CPU con soporte AVX2, 16 GB o más de RAM recomendados y aproximadamente 6–9 GB de VRAM para ejecutar cómodamente un modelo de 7B–13B en cuantización Q4. En macOS se requiere Apple Silicon y macOS 14 o posterior.
Elige LM Studio para explorar y chatear; elige Ollama para servidores sin interfaz gráfica y automatización. Son complementarios, no competidores.

Qué es realmente LM Studio

LM Studio es una aplicación de escritorio que descarga y ejecuta modelos de lenguaje de gran tamaño íntegramente en tu propio hardware. Nada sale de tu equipo. Incluye dos motores de inferencia: llama.cpp, que ejecuta el ampliamente utilizado formato de modelos GGUF en sistemas NVIDIA, AMD, Intel y exclusivamente basados en CPU, y MLX de Apple, que ejecuta de forma nativa modelos en formato MLX en Macs con chips de la serie M. Ofrece un explorador de modelos, una ventana de chat al estilo de ChatGPT, ajustes de inferencia específicos por modelo y un interruptor para activar/desactivar el servidor, todo en una sola interfaz.

El producto es desarrollado por Element Labs, Inc., la empresa detrás de LM Studio, fundada en 2023 por Yagil Burowski —el creador original de la aplicación—. A partir del 8 de julio de 2025 se convirtió en gratuito para su uso profesional, eliminando el requisito previo de solicitar una licencia comercial independiente. Usted y su equipo pueden instalarlo y utilizarlo con fines comerciales sin necesidad de rellenar ningún formulario, registrarse ni pagar ninguna tarifa. Existe una versión empresarial paga de LM Studio para organizaciones que requieren funciones avanzadas como autenticación única (SSO), control de acceso a modelos y servidores MCP, y colaboración privada; sin embargo, la aplicación principal que la mayoría de los usuarios desea es completamente gratuita.

La versión estable actual es 0.4.16v0.4.16, lanzada el 8 de junio de 2026. Las versiones recientes se han actualizado con rapidez: la 0.4.10 incorporó soporte OAuth para servidores MCP; la 0.4.14 incluyó una implementación estable de la decodificación especulativa MTP (generación más rápida en modelos con cabezas de predicción de múltiples tokens); la 0.4.15 añadió paralelismo tensorial para dividir un modelo entre varias GPU; y la 0.4.16 elevó la ventana de contexto predeterminada a 8 000 tokens e introdujo «Locally», una aplicación complementaria para iPhone y iPad que transmite en tiempo real desde su escritorio mediante LM Link.

Instalación de LM Studio en Windows, macOS y Linux

La instalación sigue el procedimiento habitual para aplicaciones: descargue la versión correspondiente a su sistema operativo desde lmstudio.ai y ejecútela. El inconveniente radica en los requisitos de plataforma, que son más exigentes que en software convencional debido a que los LLM dependen fuertemente del conjunto de instrucciones de la CPU y de la memoria disponible.

Plataforma	Requisito	Notas
Windows	CPU x64 o ARM con soporte AVX2	Soporte para Snapdragon X Elite (ARM); instalador .exe estándar
macOS	Chips Apple Silicon (M1–M4), macOS 14.0 o posterior	No se admiten Macs con procesadores Intel; esta restricción permite aprovechar el motor MLX
Linux	x64 o ARM64, Ubuntu 20.04 o posterior	Se distribuye como AppImage; las distribuciones distintas de Ubuntu 22 están menos probadas

El El conjunto de instrucciones AVX2 es obligatorio en sistemas x64. En la práctica, esto abarca los procesadores Intel Core de cuarta generación (Haswell, 2013) en adelante y todos los procesadores AMD Ryzen, por lo que prácticamente cualquier PC moderna cumple este requisito. La principal limitación está en macOS: Los Macs con procesadores Intel no son compatibles en absoluto en las versiones actuales: se requiere un chip de la serie M. En Linux, el formato AppImage significa que no es necesario realizar ninguna instalación a nivel de sistema: basta con asignar permisos de ejecución y ejecutarlo directamente.

Tras el primer inicio, LM Studio le guía a través de la pestaña «Descubrir» y, en una instalación nueva, puede sugerirle un modelo inicial. No lo acepte automáticamente: seleccione un modelo adecuado a su hardware, que es precisamente el siguiente paso.

Descarga y selección de un modelo

Abra la pestaña «Descubrir». El descargador integrado obtiene modelos desde Hugging Face y permite buscarlos por palabra clave («qwen», «gemma»), por un identificador específico de usuario/modelo o pegando una URL completa de Hugging Face. Cada modelo muestra varias cuantización variantes —etiquetas como Q4_K_M, Q5_K_M, o Q8_0. La cuantización comprime los pesos del modelo para reducir tanto el tamaño del archivo como su huella de memoria, intercambiando ligeramente calidad por una reducción significativa de tamaño.

Para la mayoría de los usuarios, Q4_K_M representa el punto óptimo. Reduce un modelo de 7 000 millones de parámetros (7B) desde aproximadamente 13–14 GB en precisión completa (FP16) hasta unos 4 GB —una reducción de cerca del 70 %—, manteniendo la mayor parte de la calidad de salida; en pruebas estándar de perplejidad, la diferencia frente a la precisión completa es tan pequeña que rara vez se percibe en conversaciones cotidianas. La denominación «K_M» indica una cuantización K media: asigna más bits a los tensores más sensibles (por ejemplo, las proyecciones de salida de atención, conservadas con mayor precisión) y menos bits al resto. Solo suba a niveles superiores si dispone de recursos suficientes, y baje únicamente si es estrictamente necesario.

Ajuste la cuantización a su VRAM disponible

VRAM disponible	Cuantización recomendada	Regla general
Menos de 8 GB	Q2_K / Q3_K_M	Utilice exclusivamente modelos de 7B–8B
8–12 GB	Q4_K_M (recomendado)	Modelos de 7B con comodidad; un modelo de 13B cabe cómodamente en una GPU de 12 GB
12–16 GB	Q5_K_M / Q6_K	Mayor calidad en modelos intermedios
16–24 GB	Q8_0	Calidad casi sin pérdidas en modelos de 7B–13B
24 GB o más	F16 (precisión completa)	O modelos más grandes en Q4/Q5

Tamaños aproximados de almacenamiento y memoria según el tamaño del modelo en Q4: un modelo de 7B ocupa unos 4–5 GB; uno de 13B, unos 8–9 GB; uno de 30B, unos 18–20 GB; y uno de 70B supera los 40 GB. Un modelo de 13B en Q4_K_M ocupa aproximadamente 8–9 GB de pesos, por lo que una GPU de 12 GB puede alojarlo íntegramente (pesos más una caché KV moderada); de lo contrario, LM Studio traslada a la GPU solo lo que cabe y ejecuta el resto en la CPU, lo cual es más lento. Recuerde que la caché KV y la longitud del contexto incrementan estos valores, así que reserve al menos un par de gigabytes de margen. Si aún está eligiendo su primer modelo, nuestra comparativa de los mejores LLM locales para ejecutar en Ollama en 2026 es prácticamente equivalente a la de LM Studio, ya que ambos utilizan los mismos archivos GGUF.

En Apple Silicon, prefiera las versiones en formato MLX cuando estén disponibles. En modelos compatibles, las versiones en formato MLX suelen ser más rápidas que sus equivalentes en GGUF en el mismo chip de la serie M —normalmente entre un 10 % y un 40 %, aunque la diferencia varía según el modelo y puede ser prácticamente nula (e incluso, en algunos modelos recientes, GGUF supera ligeramente a MLX). La calidad es generalmente comparable, pero no siempre idéntica: la cuantización mixta Q4_K_M de GGUF asigna más bits a las capas más sensibles, mientras que la cuantización de 4 bits de MLX es más uniforme, por lo que merece la pena comparar ambas opciones para cualquier modelo que vaya a usar intensivamente. LM Studio le permite cambiar el formato por modelo directamente desde la interfaz, de modo que puede descargar la variante MLX cuando esté disponible y recurrir a GGUF cuando no lo esté.

El servidor local integrado (API compatible con OpenAI)

Esta es la función que transforma LM Studio de una simple herramienta de chat en una utilidad para desarrolladores. Cargue un modelo, abra la pestaña «Desarrollador/Servidor» y active el servidor. LM Studio entonces expone una API REST compatible con OpenAI en http://localhost:1234/v1, exponiendo puntos de conexión para finalizaciones de chat, finalizaciones, incrustaciones (embeddings) y respuestas. Cualquier cliente que implemente el esquema OpenAI Chat Completions —el SDK de Python openai , el paquete Node openai , el contenedor OpenAI de LangChain o una llamada cURL sin procesar curl — se conecta simplemente apuntando su parámetro base_url / baseURL a esa dirección.

No existe un requisito real de clave API ni salida de red: las solicitudes permanecen en su equipo, no hay límites de tasa y no se aplica ningún costo por token. En el código, normalmente se pasa una clave ficticia como "lm-studio" y se establece la URL base; así, las llamadas existentes a la API de OpenAI funcionan sin modificaciones. Esto convierte a LM Studio en una solución de sustitución limpia e inmediata para desarrollo, pruebas y cargas de trabajo sensibles a la privacidad, donde no puede enviarse datos a una API en la nube.

Donde brilla el servidor

Un solo interruptor: nada de YAML ni demonios independientes que configurar
Compatibilidad nativa con OpenAI: basta con cambiar la URL base y desplegar
Totalmente local: sin costos, sin límites de tasa y sin que los datos salgan del equipo
Ideal para prototipar agentes y sistemas RAG con modelos locales gratuitos

Sus limitaciones

Está vinculado a la interfaz gráfica de escritorio: no está diseñado para servidores sin interfaz gráfica (headless) ni para VPS
Consumo de memoria en reposo más alto que un entorno de ejecución basado en CLI
Alcance limitado a una sola máquina: carece de funciones integradas de agrupamiento (clustering) o equilibrio de carga
Para entornos productivos que requieren disponibilidad continua, un entorno de ejecución especializado resulta más adecuado

Si supera las capacidades de un solo equipo de escritorio y necesita un servicio headless y siempre activo, ese es precisamente el punto en el que Ollama u otro motor más robusto asumen el rol principal — consulte nuestra comparación entre Ollama frente a LM Studio frente a vLLM frente a llama.cpp para el análisis completo.

Hardware y VRAM: qué necesitas realmente

La configuración mínima realista consiste en una CPU con soporte AVX2 y 16 GB de memoria RAM del sistema (con 8 GB podrán ejecutarse modelos pequeños, pero rápidamente notará sus limitaciones: contexto corto, modelos reducidos y ralentizaciones evidentes). La RAM sigue siendo crítica incluso en configuraciones con GPU, ya que cualquier capa que no quepa en la VRAM se traslada a la memoria del sistema.

Para aceleración mediante GPU, se recomienda como mínimo 4 GB de VRAM dedicada, y más es siempre mejor. Un objetivo práctico para una experiencia fluida con modelos de 7B a 13B es una tarjeta con 8–12 GB. Los modelos más grandes escalan rápidamente: un modelo de 70B en cuantización Q4 requiere aproximadamente 40 GB o más combinando VRAM y RAM, razón por la cual ejecutarlo cómodamente suele requerir entre 48 y 64 GB de memoria del sistema si no cabe íntegramente en la GPU. En los equipos Apple Silicon, la arquitectura de memoria unificada combina RAM y VRAM, por lo que un Mac con 32 GB o 64 GB ofrece un rendimiento superior al esperado para modelos de tamaño medio. Si busca específicamente una tarjeta para este propósito, nuestra guía sobre mejoras GPUs para modelos de lenguaje local en 2026 el análisis del precio por gigabyte

LM Studio frente a Ollama: ¿cuál es el adecuado para ti?

Estas dos herramientas se comparan constantemente, y la respuesta breve es que están diseñadas para distintos usuarios. Ollama es un servicio CLI y HTTP orientado a desarrolladores que se ejecuta sin interfaz gráfica; LM Studio es una interfaz gráfica pulida con la que interactúa mediante clics. Ambas ejecutan modelos GGUF mediante llama.cpp, por lo que la velocidad bruta por token es esencialmente idéntica para un mismo modelo y nivel de cuantización. Las diferencias radican en la usabilidad y el despliegue.

Dimensión	LM Studio	Ollama
Interfaz principal	Interfaz gráfica de escritorio	CLI + API HTTP
Huella en reposo	Mayor (interfaz gráfica completa)	Menor (servicio en segundo plano)
Formato de modelo	GGUF + MLX	GGUF
Servidor compatible con OpenAI	Sí, puerto 1234	Sí, puerto 11434
Uso sin interfaz gráfica / en servidor	No es su uso previsto	Diseñado expresamente para ello
Ideal para	Exploración y conversación	Automatización y despliegue

Elija LM Studio si principalmente desea conversar con modelos en una laptop, explorar y probar múltiples modelos sin fricciones y evitar completamente la terminal: ofrece especialmente a los usuarios de Windows una experiencia fluida impulsada por un instalador. Elija Ollama si está integrando modelos en su base de código, desplegándolos en un VPS o automatizando flujos de trabajo mediante scripts. Muchas personas usan ambas herramientas: LM Studio para descubrir y evaluar un modelo, y Ollama para servirlo en producción. Si está evaluando específicamente alternativas con interfaz gráfica, nuestra comparación entre Ollama frente a Jan analiza otro competidor de código abierto en este mismo espacio.

Preguntas frecuentes

¿Es gratuito LM Studio para uso comercial?

Sí. A partir del 8 de julio de 2025, LM Studio es gratuito tanto para uso personal como comercial o empresarial, y ya no es necesario solicitar una licencia específica ni completar ningún formulario. Existe una versión empresarial opcional de pago para organizaciones que necesiten funciones avanzadas de administración (como autenticación única SSO y control de acceso a modelos o protocolos MCP), pero la aplicación estándar es completamente gratuita.

¿Funciona LM Studio en Macs con procesador Intel?

No. Las versiones actuales de LM Studio requieren Apple Silicon (M1 a M4 y sus variantes) y macOS 14.0 o posterior. Los Macs basados en Intel no son compatibles. En Apple Silicon también dispone del motor MLX, más rápido, además del soporte para GGUF.

¿Qué formato de modelo utiliza LM Studio?

LM Studio ejecuta modelos GGUF mediante su motor llama.cpp integrado en prácticamente todo tipo de hardware, y modelos en formato MLX mediante el motor MLX de Apple en Macs de la serie M. GGUF es el estándar de archivo único compartido por LM Studio, Ollama, Jan y GPT4All, por lo que los modelos son ampliamente intercambiables entre estas herramientas.

¿Cuál es la diferencia entre Q4_K_M y Q8_0?

Ambos son niveles de cuantización. Q4_K_M emplea 4 bits y ocupa aproximadamente un tercio del tamaño de la precisión completa, conservando la mayor parte de la calidad; es la opción recomendada por defecto para la mayoría de los sistemas. Q8_0 emplea 8 bits, es más grande y prácticamente sin pérdida, y solo merece considerarse si dispone de 16–24 GB de VRAM disponibles.

¿Cómo conecto mi código al servidor local de LM Studio?

Active el servidor desde la pestaña Desarrollador/Servidor tras cargar un modelo, y luego configure la URL base de cualquier SDK de OpenAI para que apunte a http://localhost:1234/v1. No se requiere ninguna clave API real (puede usar cualquier cadena ficticia), y el código existente para OpenAI Chat Completions funciona sin modificaciones adicionales.

¿Cuánta VRAM necesito para ejecutar un modelo de 7B?

Un modelo de 7B en cuantización Q4_K_M ocupa aproximadamente 4–5 GB en disco, y con la caché KV y la sobrecarga asociada, una tarjeta con 6–8 GB de VRAM lo ejecuta cómodamente y por completo en la GPU. Con menos VRAM, LM Studio descarga el exceso a la memoria RAM del sistema y a la CPU, lo cual sigue funcionando, aunque más lentamente.

¿Puedo ejecutar LM Studio como servidor en una VPS?

No es su caso de uso previsto. LM Studio está diseñado principalmente para su interfaz gráfica de escritorio, y la opción de servidor asume una máquina local. Para alojamiento sin interfaz gráfica (headless) y siempre activo en una VPS, Ollama o un motor de inferencia especializado son opciones más adecuadas.

Conclusión

LM Studio es la forma más sencilla de comenzar con modelos de lenguaje locales en 2026, y ahora es realmente gratuito para cualquier uso. Si desea descargar un modelo, conversar con él y, ocasionalmente, apuntar su propio código a un punto final privado compatible con OpenAI —todo ello sin tocar una terminal—, ninguna otra herramienta ofrece una experiencia tan accesible. Además, la versión 0.4.x ha cerrado brechas reales con funciones como la paralelización tensorial en múltiples GPU y la decodificación especulativa, por lo que ya no es simplemente un juguete para principiantes.

Donde sí tiene limitaciones es en despliegue. La sobrecarga de la interfaz gráfica y el servidor orientado al entorno de escritorio hacen que LM Studio no sea la herramienta adecuada para servir modelos en producción sin interfaz gráfica (headless); esa es precisamente la función de Ollama o vLLM. La estrategia más práctica consiste en usar LM Studio como entorno de exploración y chat, aprovecharlo para identificar el modelo y la cuantización adecuados para su hardware, y recurrir a un entorno de ejecución especializado cuando necesite servir ese modelo las 24 horas del día. Sin embargo, para la mayoría de los usuarios que ejecutan modelos en una laptop o un equipo de escritorio, esta es la primera aplicación que deben instalar.