Is LM Studio free for commercial use?

Yes. Since July 8, 2025, LM Studio is free for both personal and commercial/workplace use, and you no longer need to request a separate license or fill out any form. There is an optional paid Enterprise tier for organizations wanting advanced administration features (such as SSO and model/MCP gating), but the standard app is free.

Does LM Studio work on Intel Macs?

No. Current LM Studio builds require Apple Silicon (M1 through M4 and their variants) and macOS 14.0 or newer. Intel-based Macs are unsupported. On Apple Silicon you also get the faster MLX engine in addition to GGUF.

What model format does LM Studio use?

LM Studio runs GGUF models through its bundled llama.cpp engine on virtually all hardware, and MLX-format models through Apple's MLX engine on M-series Macs. GGUF is the single-file standard shared by LM Studio, Ollama, Jan, and GPT4All, so models are largely interchangeable across these tools.

What is the difference between Q4_K_M and Q8_0?

Both are quantization levels. Q4_K_M is 4-bit and roughly a third the size of full precision while keeping the large majority of quality — the recommended default for most hardware. Q8_0 is 8-bit, larger and effectively near-lossless, worth using only if you have 16–24GB of VRAM to spare.

How do I connect my code to LM Studio's local server?

Enable the server in the Developer/Server tab with a model loaded, then point any OpenAI SDK's base URL at http://localhost:1234/v1. No real API key is needed (pass any placeholder string), and existing OpenAI Chat Completions code works without other changes.

How much VRAM do I need to run a 7B model?

A 7B model at Q4_K_M is about 4–5GB on disk, and with the KV cache and overhead a card with 6–8GB of VRAM runs it comfortably and fully on the GPU. With less VRAM, LM Studio offloads the overflow to system RAM and CPU, which still works but runs slower.

Can I run LM Studio as a server on a VPS?

It's not the intended use case. LM Studio is built around its desktop GUI, and the server toggle assumes a local machine. For headless, always-on hosting on a VPS, Ollama or a dedicated inference engine is the better fit.

LM Studio: O Guia Completo (2026)

O LM Studio é a solução mais próxima do que o mundo da IA local tem a oferecer em termos de aplicativo desktop que 'simplesmente funciona'. Você o baixa, pesquisa um modelo no catálogo integrado, clica em carregar e começa a conversar — sem terminal, sem Docker, sem arquivos de configuração. Por trás dessa interface amigável estão os mesmos mecanismos llama.cpp e MLX que sustentam grande parte do ecossistema de LLMs locais, além de um servidor local de um clique que imita a API da OpenAI, permitindo que seu código existente se comunique com um modelo executado na sua própria máquina.

Este guia o leva do zero ao a um modelo local em execução por meio da interface gráfica. Abordamos o que o LM Studio realmente é em meados de 2026, como instalá-lo no Windows, macOS e Linux, como escolher um modelo e uma quantização compatíveis com seu hardware, como ativar o servidor local e quanta VRAM e RAM você precisa aproximadamente. Também traçamos uma linha clara entre LM Studio e Ollama, pois eles resolvem problemas sobrepostos, mas distintos.

Principais conclusões

LM Studio é uma interface gráfica desktop gratuita desenvolvida pela Element Labs (empresa por trás do LM Studio, fundada pelo criador original do aplicativo) para executar modelos de linguagem de grande porte de código aberto localmente — gratuita para uso pessoal e comercial desde 8 de julho de 2025, sem necessidade de licença ou formulário.
A versão estável mais recente é a 0.4.16 (8 de junho de 2026), que aumentou o comprimento padrão de contexto para 8 mil tokens e lançou o aplicativo complementar para dispositivos móveis 'Locally', disponível para iPhone e iPad.
Ele executa dois mecanismos: llama.cpp para modelos GGUF (NVIDIA/AMD/Intel/CPU) e MLX para Apple Silicon, com recursos recentes como processamento paralelo de tensores em múltiplas GPUs (0.4.15) e decodificação especulativa MTP estável (0.4.14).
Um servidor local integrado compatível com a API da OpenAI expõe qualquer modelo carregado em http://localhost:1234/v1 — basta apontar qualquer SDK da OpenAI para essa URL e ele funcionará sem alterações no código.
Requisito mínimo de hardware: CPU com suporte a AVX2, 16 GB ou mais de RAM recomendados e cerca de 6–9 GB de VRAM para executar confortavelmente modelos de 7B–13B com quantização Q4. No macOS, é necessário Apple Silicon e macOS 14 ou posterior.
Escolha o LM Studio para explorar e conversar; escolha o Ollama para servidores sem interface gráfica e automação. Eles são complementares, não concorrentes.

O que o LM Studio realmente é

LM Studio é um aplicativo desktop que baixa e executa modelos de linguagem de grande porte inteiramente no seu próprio hardware. Nada sai da sua máquina. Ele inclui dois mecanismos de inferência: llama.cpp, que executa o amplamente utilizado formato de modelo GGUF em sistemas NVIDIA, AMD, Intel e apenas CPU, e MLX da Apple, que executa nativamente modelos no formato MLX em Macs com chips da série M. Você obtém um navegador de modelos, uma janela de chat no estilo ChatGPT, configurações de inferência específicas por modelo e um controle para ativar/desativar o servidor — tudo em uma única janela.

O produto é desenvolvido pela Element Labs, Inc., empresa por trás do LM Studio, fundada em 2023 por Yagil Burowski — o criador original do aplicativo. A partir de 8 de julho de 2025 tornou-se gratuito para uso profissional, eliminando o requisito anterior de solicitar uma licença comercial separada. Você e sua equipe podem instalá-lo e usá-lo comercialmente sem preencher formulários, sem cadastro e sem custo algum. Existe uma versão paga, LM Studio Enterprise, destinada a organizações que desejam recursos avançados como SSO (Single Sign-On), controle de acesso a modelos/MCP e colaboração privada; contudo, o aplicativo principal, que a maioria das pessoas deseja, é gratuito.

A versão estável atual é a 0.4.16versão 0.4.16, lançada em 8 de junho de 2026. As versões recentes evoluíram rapidamente: a 0.4.10 adicionou suporte OAuth para servidores MCP; a 0.4.14 trouxe a decodificação especulativa MTP estável (geração mais rápida em modelos com cabeças de previsão de múltiplos tokens); a 0.4.15 introduziu paralelismo tensorial para dividir um modelo entre várias GPUs; e a 0.4.16 elevou a janela de contexto padrão para 8 mil tokens e lançou o aplicativo complementar "Locally", para iPhone e iPad, que transmite fluxos de dados diretamente do seu computador desktop via LM Link.

Instalando o LM Studio no Windows, macOS e Linux

A instalação segue o procedimento normal de aplicativos: baixe a versão compatível com seu sistema operacional em lmstudio.ai e execute-a. O ponto crítico são os requisitos de plataforma, que têm maior relevância do que em softwares convencionais, pois modelos de linguagem de grande porte (LLMs) dependem intensamente do conjunto de instruções da CPU e da memória disponível.

Plataforma	Requisito	Observações
Windows	CPU x64 ou ARM com suporte a AVX2	Suporte ao Snapdragon X Elite (ARM); instalador .exe padrão
macOS	Apple Silicon (M1–M4), macOS 14.0 ou posterior	MacIntel não é suportado; essa configuração habilita o mecanismo MLX
Linux	x64 ou ARM64, Ubuntu 20.04 ou posterior	Distribuído como AppImage; distribuições além do Ubuntu 22 têm testes menos abrangentes

O O conjunto de instruções AVX2 é obrigatório em sistemas x64. Na prática, isso abrange processadores Intel Core da 4ª geração (Haswell, 2013) em diante e todos os processadores AMD Ryzen, de modo que praticamente qualquer PC razoavelmente moderno atende a esse requisito. O grande detalhe a observar diz respeito ao macOS: MacIntel não é suportado de forma alguma nas versões atuais — você precisa de um chip da série M. No Linux, o AppImage significa que não há necessidade de instalação global no sistema; basta torná-lo executável e executá-lo.

Após o primeiro lançamento, o LM Studio guia você pela guia "Descobrir" e, em uma instalação nova, pode sugerir um modelo inicial. Não aceite cegamente — escolha um modelo compatível com seu hardware, que é o próximo passo.

Baixando e escolhendo um modelo

Abra a guia "Descobrir". O downloader integrado busca modelos no Hugging Face, permitindo pesquisas por palavra-chave ("qwen", "gemma"), por um identificador específico de usuário/modelo ou colando uma URL completa do Hugging Face. Cada modelo lista diversas quantização variantes — rótulos como Q4_K_M, Q5_K_M, ou Q8_0. A quantização comprime os pesos para reduzir o tamanho do arquivo e a ocupação de memória, trocando uma pequena parcela de qualidade por uma economia significativa de espaço.

Para a maioria dos usuários, Q4_K_M representa o ponto ideal. Ela reduz um modelo de 7B de aproximadamente 13–14 GB na precisão total (FP16) para cerca de 4 GB — cerca de 70% menor — mantendo a maior parte da qualidade de saída; em benchmarks padrão de perplexidade, a diferença em relação à precisão total é tão pequena que raramente se manifesta em conversas cotidianas. A sigla "K_M" indica uma quantização K média: ela aloca mais bits aos tensores mais sensíveis (como projeções de saída de atenção, mantidas em maior precisão) e menos bits aos demais. Opte por níveis superiores apenas se tiver margem de recurso disponível, e por níveis inferiores somente se for estritamente necessário.

Correspondência entre quantização e VRAM disponível

VRAM disponível	Quantização recomendada	Regra prática
Abaixo de 8 GB	Q2_K / Q3_K_M	Limite-se a modelos de 7B–8B
8–12 GB	Q4_K_M (recomendado)	Modelos de 7B cabem confortavelmente; um modelo de 13B cabe em uma GPU de 12 GB
12–16 GB	Q5_K_M / Q6_K	Maior qualidade em modelos intermediários
16–24 GB	Q8_0	Quase sem perdas em modelos de 7B–13B
24 GB ou mais	F16 (precisão total)	Ou modelos maiores com quantização Q4/Q5

Tamanhos aproximados de armazenamento e memória por tamanho de modelo na quantização Q4: um modelo de 7B ocupa cerca de 4–5 GB, um de 13B, 8–9 GB; um de 30B, 18–20 GB; e um de 70B ultrapassa os 40 GB. Um modelo de 13B em Q4_K_M ocupa aproximadamente 8–9 GB nos pesos, portanto uma GPU de 12 GB consegue hospedá-lo integralmente (pesos mais um cache KV modesto); caso contrário, o LM Studio transfere para a GPU apenas o que couber e executa o restante na CPU — o que é mais lento. Lembre-se de que o cache KV e o comprimento do contexto acrescentam sobrecarga a esses valores, portanto reserve alguns gigabytes de margem. Se ainda estiver escolhendo seu primeiro modelo, nossa seleção dos melhores LLMs locais para executar no Ollama em 2026 é quase equivalente ao LM Studio, já que ambos utilizam os mesmos arquivos GGUF.

Em dispositivos com Apple Silicon, prefira compilações no formato MLX sempre que disponíveis. Nesses modelos compatíveis, as versões no formato MLX costumam ser mais rápidas do que as equivalentes em GGUF no mesmo chip da série M — geralmente entre 10% e 40%, embora essa diferença varie conforme o modelo e possa ser próxima de zero (e, em alguns modelos recentes, o GGUF até supera levemente o MLX). A qualidade é amplamente comparável, mas nem sempre idêntica: a quantização mista Q4_K_M do GGUF atribui mais bits às camadas mais sensíveis, enquanto a quantização de 4 bits do MLX é mais uniforme; portanto, vale a pena comparar ambas as versões para qualquer modelo que você pretenda usar intensivamente. O LM Studio permite alternar entre os formatos diretamente pela interface do usuário, possibilitando baixar a variante MLX quando disponível e recorrer ao GGUF quando não houver opção MLX.

O servidor local integrado (API compatível com a OpenAI)

Essa é a funcionalidade que transforma o LM Studio de um simples brinquedo para conversas em uma ferramenta para desenvolvedores. Carregue um modelo, abra a guia "Desenvolvedor/Servidor" e ative o servidor. O LM Studio então disponibiliza uma API REST compatível com OpenAI em http://localhost:1234/v1— expondo endpoints para conclusões de chat, conclusões, incorporações e respostas. Qualquer cliente compatível com o esquema OpenAI Chat Completions — o SDK Python openai o pacote Node openai o wrapper OpenAI da LangChain ou um comando curl — se conecta simplesmente apontando seu parâmetro base_url / baseURL para esse endereço.

Não há exigência real de chave de API nem saída de rede: as solicitações permanecem em sua máquina, não há limites de taxa e não há custo por token. Em código, normalmente você fornece uma chave fictícia como "lm-studio" e define a URL base; assim, as chamadas existentes à API OpenAI funcionam sem alterações. Isso torna o LM Studio uma substituição limpa e direta para desenvolvimento, testes e cargas de trabalho sensíveis à privacidade, nas quais não é possível enviar dados para uma API na nuvem.

Onde o servidor se destaca

Um único botão — sem arquivos YAML, sem daemon separado para configurar
Compatibilidade nativa com a OpenAI; basta trocar a URL base e implantar
Totalmente local: sem custos, sem limites de taxa e sem dados deixando sua máquina
Ideal para prototipagem de agentes e RAG com modelos locais gratuitos

Onde apresenta limitações

Vinculado à interface gráfica desktop — não projetado para servidores sem interface (headless) ou VPS
Consumo de memória ociosa maior do que um runtime baseado em linha de comando
Escopo limitado a uma única máquina; sem suporte nativo a clusterização ou balanceamento de carga
Para implantação contínua em produção, um runtime dedicado é mais adequado

Se você ultrapassar os limites de um único computador desktop e precisar de um serviço headless e sempre ativo, essa é exatamente a fronteira onde o Ollama ou um mecanismo mais robusto assumem o controle — confira nossa comparação Ollama vs LM Studio vs vLLM vs llama.cpp para a análise completa.

Hardware e VRAM: o que você realmente precisa

A configuração mínima realista exige uma CPU com suporte AVX2 e 16 GB de memória RAM (8 GB executam modelos pequenos, mas você sentirá rapidamente os limites — contexto curto, modelos pequenos e lentidão perceptível). A memória RAM continua sendo crítica mesmo em configurações com GPU, pois quaisquer camadas que não caibam na VRAM são transferidas para a memória do sistema.

Para aceleração por GPU, recomenda-se, no mínimo, 4 GB de VRAM dedicada, e mais é sempre melhor. Um alvo prático para uma experiência fluida com modelos de 7B a 13B é uma placa com 8–12 GB. Modelos maiores escalonam rapidamente: um modelo de 70B em quantização Q4 requer aproximadamente 40 GB ou mais combinando VRAM e RAM, razão pela qual executá-lo confortavelmente geralmente exige 48–64 GB de memória do sistema caso não seja possível acomodá-lo inteiramente na GPU. Nos Macs com Apple Silicon, a arquitetura de memória unificada combina RAM e VRAM, de modo que um Mac com 32 GB ou 64 GB oferece desempenho superior ao esperado para modelos de tamanho médio. Se você está procurando uma placa especificamente para esse fim, nosso guia sobre melhores GPUs para LLMs locais em 2026 custo por gigabyte em GPUs

LM Studio vs Ollama: qual deles é ideal para você

detalha os cálculos de relação preço-desempenho. Ollama é um serviço CLI e HTTP voltado prioritariamente para desenvolvedores, executado sem interface gráfica; já o LM Studio é uma interface gráfica polida, destinada à interação por cliques. Ambos executam modelos no formato GGUF por meio do llama.cpp, portanto a velocidade bruta por token é essencialmente idêntica para um mesmo modelo e nível de quantização. As diferenças residem na usabilidade e no modo de implantação.

Dimensão	LM Studio	Ollama
Interface principal	Interface gráfica desktop	CLI + API HTTP
Consumo ocioso	Mais elevado (interface gráfica completa)	Mais leve (serviço em segundo plano)
Formato de modelo	GGUF + MLX	GGUF
Servidor compatível com OpenAI	Sim, na porta 1234	Sim, na porta 11434
Uso headless / em servidores	Não é o uso pretendido	Projetado especificamente para isso
Melhor para	Exploração e conversação	Automação e implantação

Escolha o LM Studio se você deseja principalmente conversar com modelos em um laptop, navegar e experimentar diversos modelos sem atritos e evitar totalmente o terminal — ele oferece especialmente aos usuários do Windows uma experiência suave, guiada por instalador. Escolha o Ollama se você estiver integrando modelos a um código-fonte, implantando em um VPS ou automatizando um fluxo de trabalho. Muitas pessoas usam ambos: o LM Studio para encontrar e avaliar um modelo, e o Ollama para servi-lo em produção. Se você está comparando especificamente alternativas com interface gráfica, nossa comparação Ollama vs Jan aborda outro concorrente de código aberto nesse mesmo espaço.

Perguntas frequentes

O LM Studio é gratuito para uso comercial?

Sim. A partir de 8 de julho de 2025, o LM Studio é gratuito tanto para uso pessoal quanto comercial/empresarial, e não é mais necessário solicitar uma licença separada nem preencher qualquer formulário. Existe uma versão Enterprise paga opcional para organizações que desejam recursos avançados de administração (como SSO e restrições de acesso a modelos/MCP), mas o aplicativo padrão é totalmente gratuito.

O LM Studio funciona em Macs com processadores Intel?

Não. As versões atuais do LM Studio exigem Apple Silicon (M1 até M4 e suas variantes) e macOS 14.0 ou posterior. Macs com processadores Intel não são suportados. Nos Macs com Apple Silicon, você também obtém o mecanismo MLX mais rápido, além do GGUF.

Qual formato de modelo o LM Studio utiliza?

O LM Studio executa modelos no formato GGUF por meio do mecanismo llama.cpp embutido em praticamente todo hardware, e modelos no formato MLX por meio do mecanismo MLX da Apple nos Macs da série M. O GGUF é o padrão de arquivo único compartilhado pelo LM Studio, Ollama, Jan e GPT4All, de modo que os modelos são amplamente intercambiáveis entre essas ferramentas.

Qual é a diferença entre Q4_K_M e Q8_0?

Ambos são níveis de quantização. Q4_K_M é uma quantização de 4 bits, com cerca de um terço do tamanho da precisão total, mantendo a maior parte da qualidade — é o padrão recomendado para a maioria dos hardwares. Q8_0 é uma quantização de 8 bits, maior e praticamente sem perdas; vale a pena usá-la apenas se você tiver 16–24 GB de VRAM disponíveis.

Como conectar meu código ao servidor local do LM Studio?

Ative o servidor na guia Desenvolvedor/Servidor após carregar um modelo e, em seguida, configure a URL base de qualquer SDK OpenAI para apontar para http://localhost:1234/v1. Nenhuma chave de API real é necessária (basta fornecer qualquer string fictícia), e o código existente para Chat Completions da OpenAI funciona sem outras modificações.

Quanta VRAM é necessária para executar um modelo de 7B?

Um modelo de 7B em Q4_K_M ocupa cerca de 4–5 GB em disco, e, considerando o cache KV e a sobrecarga, uma placa com 6–8 GB de VRAM executa-o confortavelmente e integralmente na GPU. Com menos VRAM, o LM Studio transfere automaticamente os dados excedentes para a memória RAM e a CPU do sistema, o que ainda funciona, mas com desempenho reduzido.

Posso executar o LM Studio como um servidor em um VPS?

Esse não é o caso de uso pretendido. O LM Studio foi desenvolvido em torno de sua interface gráfica para desktop, e a opção de servidor pressupõe uma máquina local. Para hospedagem sem interface (headless) e sempre ativa em um VPS, o Ollama ou um mecanismo de inferência dedicado são soluções mais adequadas.

Conclusão

O LM Studio é a forma mais simples de começar com LLMs locais em 2026, e agora é genuinamente gratuito para qualquer finalidade. Se você deseja baixar um modelo, conversar com ele e, ocasionalmente, apontar seu próprio código para um endpoint privado compatível com OpenAI — tudo sem precisar usar um terminal — nenhuma outra ferramenta oferece essa facilidade de acesso. A linha 0.4.x também resolveu lacunas reais com recursos como processamento tensorial paralelo em múltiplas GPUs e decodificação especulativa, tornando-o muito mais do que apenas uma ferramenta para iniciantes.

Onde ele fica aquém é na implantação (deployment). A sobrecarga da interface gráfica e o servidor voltado exclusivamente para desktop significam que o LM Studio não é a ferramenta ideal para servir modelos em produção sem interface — essa é uma tarefa para o Ollama ou para o vLLM. A abordagem mais prática é tratar o LM Studio como seu ambiente de exploração e conversação, aproveitá-lo para identificar o modelo e a quantização ideais para seu hardware e recorrer a um runtime dedicado quando for necessário disponibilizar esse modelo continuamente. Para a maioria dos usuários individuais que executam modelos em laptops ou desktops, no entanto, este é o primeiro aplicativo a ser instalado.