LM Studio è la soluzione più vicina, nel mondo dell’intelligenza artificiale locale, a un’applicazione desktop pronta all’uso. La scarichi, cerchi un modello nel catalogo integrato, clicchi su «carica» e inizi subito a chattare — niente terminale, niente Docker, niente file di configurazione. Dietro questa interfaccia amichevole si nascondono gli stessi motori llama.cpp e MLX che alimentano gran parte dell’ecosistema dei modelli linguistici locali, oltre a un server locale a un solo clic che emula l’API OpenAI, consentendo al tuo codice esistente di interagire con un modello in esecuzione sulla tua macchina.
Questa guida ti accompagna da zero a all’esecuzione di un modello locale tramite l’interfaccia grafica. Analizziamo cos’è realmente LM Studio a metà del 2026, come installarlo su Windows, macOS e Linux, come scegliere un modello e una quantizzazione compatibili con il tuo hardware, come abilitare il server locale e quali siano approssimativamente le esigenze di VRAM e RAM. Tracciamo inoltre una linea chiara tra LM Studio e Ollama, poiché risolvono problemi sovrapposti ma distinti.
Punti chiave
- LM Studio è un'applicazione desktop gratuita sviluppata da Element Labs (la società dietro LM Studio, fondata dal creatore originale dell’app) per eseguire in locale modelli linguistici open-weight — gratuita per uso personale e commerciale dal 8 luglio 2025, senza necessità di licenza né di compilazione di moduli.
- L’ultima versione stabile è la 0.4.16 (8 giugno 2026), che ha aumentato la lunghezza predefinita del contesto a 8.000 token e ha introdotto «Locally», un’app companion per iPhone e iPad.
- Esegue due motori: llama.cpp per modelli GGUF (NVIDIA/AMD/Intel/CPU) e MLX per Apple Silicon, con recenti aggiunte come il parallelismo tensoriale su più GPU (0.4.15) e la decodifica speculativa MTP stabile (0.4.14).
- Un server locale integrato compatibile con l’API OpenAI rende disponibile qualsiasi modello caricato all’indirizzo
http://localhost:1234/v1— basta puntare qualsiasi SDK OpenAI a tale URL e funzionerà senza modifiche al codice. - Requisiti hardware minimi: CPU con supporto AVX2, RAM consigliata 16 GB o superiore e circa 6–9 GB di VRAM per eseguire comodamente modelli da 7B a 13B in quantizzazione Q4. Su macOS è richiesto Apple Silicon e macOS 14 o versione successiva.
- Scegli LM Studio per esplorare e chattare; scegli Ollama per server headless e automazione. Sono complementari, non concorrenti.
Cos’è realmente LM Studio
LM Studio è un’applicazione desktop che scarica ed esegue modelli linguistici di grandi dimensioni interamente sul tuo hardware. Nulla lascia il tuo dispositivo. Include due motori di inferenza: llama.cpp, che esegue il diffuso formato di modelli GGUF su sistemi NVIDIA, AMD, Intel e CPU-only, e MLX di Apple, che esegue nativamente modelli in formato MLX sui Mac con chip M-series. Offre un browser per modelli, una finestra di chat nello stile di ChatGPT, impostazioni di inferenza specifiche per ciascun modello e un interruttore per avviare un server — tutto in un’unica interfaccia.
Il prodotto è sviluppato da Element Labs, Inc., l’azienda dietro LM Studio, fondata nel 2023 da Yagil Burowski — creatore originale dell’app. A partire dal 8 luglio 2025 è diventato gratuito per l’uso professionale, eliminando il precedente obbligo di richiedere una licenza commerciale separata. Tu e il tuo team potete installarlo e utilizzarlo a scopo commerciale senza compilare moduli, registrarsi o pagare alcuna quota. Esiste una versione enterprise a pagamento di LM Studio per le organizzazioni che necessitano di funzionalità avanzate come l’autenticazione SSO, il controllo dei modelli/MCP e la collaborazione privata, ma l’app principale, quella più utilizzata dalla maggior parte degli utenti, è completamente gratuita.
La versione stabile attuale è 0.4.16, rilasciata l’8 giugno 2026. Le versioni recenti si sono evolute rapidamente: la 0.4.10 ha introdotto l’OAuth per i server MCP; la 0.4.14 ha integrato in modo stabile la decodifica speculativa MTP (generazione più veloce per modelli dotati di testine multi-token-prediction); la 0.4.15 ha aggiunto il parallelismo tensoriale per suddividere un modello su più GPU; infine, la 0.4.16 ha innalzato la finestra contestuale predefinita a 8.000 token e ha lanciato «Locally», un’app companion per iPhone e iPad che trasmette in streaming dal desktop tramite LM Link.
Installazione di LM Studio su Windows, macOS e Linux
L’installazione segue il normale processo di installazione di un’app: scaricate la build adatta al vostro sistema operativo dal sito lmstudio.ai ed eseguitela. L’aspetto critico riguarda però i requisiti di piattaforma, che rivestono maggiore importanza rispetto al software tradizionale, poiché gli LLM sfruttano intensivamente il set di istruzioni della CPU e la memoria.
| Piattaforma | Requisito | Note |
|---|---|---|
| Windows | CPU x64 o ARM con supporto AVX2 | Supporto per Snapdragon X Elite (ARM); installer .exe standard |
| macOS | Apple Silicon (M1–M4), macOS 14.0 o versione successiva | I Mac Intel non sono supportati; questa configurazione abilita il motore MLX |
| Linux | x64 o ARM64, Ubuntu 20.04 o versione successiva | Distribuito come AppImage; le distribuzioni Linux oltre Ubuntu 22 sono meno testate |
Il Il set di istruzioni AVX2 è obbligatorio sui sistemi x64. Nella pratica, ciò copre i processori Intel Core dalla quarta generazione (Haswell, 2013) in poi e tutti i processori AMD Ryzen, quindi qualsiasi PC ragionevolmente moderno soddisfa questo requisito. Il vero punto critico riguarda invece macOS: I Mac Intel non sono affatto supportati nelle versioni attuali — è indispensabile un chip M-series. Su Linux, l’AppImage significa che non è necessaria alcuna installazione a livello di sistema: basta renderla eseguibile ed avviarla.
Al primo avvio, LM Studio guida l’utente attraverso la scheda «Discover» e, su un’installazione nuova, potrebbe suggerire un modello iniziale. Non accettatelo acriticamente: scegliete invece un modello compatibile con l’hardware disponibile, che è il passo successivo.
Download e scelta di un modello
Aprite la scheda «Discover». Il downloader integrato recupera modelli da Hugging Face e consente di cercarli per parola chiave («qwen», «gemma»), per un identificativo specifico utente/modello o incollando un URL completo di Hugging Face. Ogni modello elenca diverse quantizzazione varianti — etichette come Q4_K_M, Q5_K_M, oppure Q8_0. La quantizzazione comprime i pesi del modello riducendone dimensione del file e occupazione di memoria, sacrificando una piccola parte della qualità per ottenere un notevole risparmio di spazio.
Per la maggior parte degli utenti, Q4_K_M rappresenta il compromesso ideale. Riduce un modello da 7 miliardi di parametri (7B) da circa 13–14 GB in precisione piena (FP16) a circa 4 GB — ovvero circa il 70% in meno — mantenendo la stragrande maggioranza della qualità dell’output; nei benchmark standard di perplexity lo scarto rispetto alla precisione piena è così contenuto da risultare raramente percettibile nella conversazione quotidiana. La sigla «K_M» indica una quantizzazione K-media: essa assegna più bit ai tensori più sensibili (ad esempio le proiezioni di output dell’attenzione, mantenute a precisione superiore) e meno bit agli altri. Optate per una quantizzazione superiore solo se disponete di risorse sufficienti, e per una inferiore solo se strettamente necessario.
Abbinare la quantizzazione alla VRAM disponibile
| VRAM disponibile | Quantizzazione consigliata | Regola empirica |
|---|---|---|
| Meno di 8 GB | Q2_K / Q3_K_M | Preferire modelli da 7B–8B |
| 8–12 GB | Q4_K_M (consigliata) | Modelli da 7B gestibili agevolmente; un modello da 13B si adatta a una GPU da 12 GB |
| 12–16 GB | Q5_K_M / Q6_K | Qualità superiore su modelli di fascia media |
| 16–24 GB | Q8_0 | Quasi senza perdita di qualità su modelli da 7B–13B |
| 24 GB o più | F16 (precisione piena) | Oppure modelli più grandi in Q4/Q5 |
Dimensioni approssimative di archiviazione e memoria per modello di dimensione pari a Q4: un modello da 7B occupa circa 4–5 GB, uno da 13B circa 8–9 GB, uno da 30B circa 18–20 GB e uno da 70B supera i 40 GB. Un modello da 13B in Q4_K_M occupa circa 8–9 GB di pesi, quindi può essere ospitato interamente sulla GPU di una scheda da 12 GB (pesi più una cache KV modesta); altrimenti LM Studio carica sulla GPU solo quanto possibile e esegue il resto sulla CPU, con conseguente riduzione delle prestazioni. Ricordate che la cache KV e la lunghezza del contesto incrementano ulteriormente questi valori, quindi lasciate un margine di sicurezza di alcuni gigabyte. Se state ancora scegliendo il vostro primo modello, la nostra panoramica dei migliori LLM locali da eseguire su Ollama nel 2026 si adatta quasi perfettamente anche a LM Studio, dato che entrambi utilizzano gli stessi file GGUF.
Su Apple Silicon, preferite i build in formato MLX quando disponibili. Nei modelli supportati, le versioni in formato MLX sono spesso più veloci dell’equivalente GGUF sullo stesso chip M-series — generalmente con un vantaggio compreso tra il 10% e il 40%, sebbene tale differenza vari a seconda del modello e possa talvolta essere pressoché nulla (e in alcuni modelli recenti persino il GGUF riesce a superare leggermente l’MLX). La qualità è sostanzialmente comparabile, ma non sempre identica: la quantizzazione mista Q4_K_M di GGUF assegna più bit ai layer più sensibili, mentre la quantizzazione a 4 bit di MLX è più uniforme; pertanto, vale la pena confrontare entrambe le versioni per un modello che utilizzerete intensivamente. LM Studio permette di cambiare formato per ogni singolo modello direttamente dall’interfaccia utente, consentendovi di selezionare la variante MLX quando disponibile e ricadere sul GGUF in caso contrario.
Il server locale integrato (API compatibile con OpenAI)
Questa funzionalità trasforma LM Studio da semplice strumento di chat in un vero e proprio strumento per sviluppatori. Caricate un modello, aprite la scheda «Developer/Server» e attivate il server. LM Studio esporrà quindi un' API REST compatibile con OpenAI all’indirizzo http://localhost:1234/v1che espone endpoint per chat completions, completions, embeddings e risposte. Qualsiasi client compatibile con lo schema OpenAI Chat Completions — l'SDK Python openai , il pacchetto Node openai , il wrapper OpenAI di LangChain o un comando curl — si connette semplicemente impostando il proprio base_url / baseURL all’indirizzo indicato.
Non è richiesta alcuna chiave API reale e non vi è alcun traffico di uscita verso la rete: le richieste rimangono sul tuo computer, non sono previsti limiti di frequenza (rate limits) e non vi è alcun costo per token. Nel codice, in genere si passa una chiave segnaposto come "lm-studio" e si imposta l’URL base; le chiamate esistenti a OpenAI funzionano senza modifiche. Ciò rende LM Studio una soluzione pronta all’uso per sviluppo, test e carichi di lavoro sensibili alla privacy, nei quali non puoi inviare dati a un’API cloud.
Dove il server eccelle
- Un solo interruttore — niente YAML, nessun demone separato da configurare
- Compatibilità nativa con OpenAI; basta cambiare l’URL base ed è subito operativo
- Completamente locale: zero costi, nessun limite di frequenza, nessun dato lascia il dispositivo
- Ideale per prototipare agenti e sistemi RAG utilizzando modelli locali gratuiti
Dove mostra i suoi limiti
- Legato all’interfaccia grafica desktop — non progettato per server headless o VPS
- Consumo di memoria a riposo più elevato rispetto a un runtime CLI
- Ambito limitato a un singolo computer; nessun supporto integrato per clustering o bilanciamento del carico
- Per servizi di produzione sempre attivi, un runtime dedicato è più adatto
Se superi le capacità di un singolo computer desktop e hai bisogno di un servizio headless e sempre attivo, è esattamente in questo punto che entrano in gioco Ollama o un motore più potente — consulta la nostra comparazione Ollama vs LM Studio vs vLLM vs llama.cpp per l'analisi completa.
Hardware e VRAM: cosa ti serve effettivamente
Il requisito minimo onesto è una CPU con istruzioni AVX2 e 16 GB di RAM di sistema (con 8 GB è possibile eseguire modelli piccoli, ma si raggiunge rapidamente il limite — contesto breve, modelli ridotti e rallentamenti evidenti). La RAM è fondamentale anche su configurazioni con GPU, poiché qualsiasi strato che non entra nella VRAM viene spostato nella memoria di sistema.
Per l’accelerazione GPU, si raccomanda almeno 4 GB di VRAM dedicata, e più è meglio. Un obiettivo pratico per un’esperienza fluida con modelli da 7B a 13B è una scheda da 8–12 GB. I modelli più grandi scalano rapidamente: un modello da 70B quantizzato Q4 richiede circa 40 GB o più, distribuiti tra VRAM e RAM; pertanto, per eseguirlo comodamente è tipicamente necessaria una memoria di sistema da 48 a 64 GB se non è possibile caricarlo interamente sulla GPU. Sui dispositivi Apple Silicon, l’architettura a memoria unificata combina RAM e VRAM, quindi un Mac da 32 GB o 64 GB offre prestazioni superiori per modelli di media grandezza. Se stai cercando una scheda grafica specificamente per questo scopo, la nostra guida migliori GPU per LLM locali nel 2026 analizza il rapporto prezzo-per-gigabyte.
LM Studio vs Ollama: quale fa al caso tuo
Questi due strumenti vengono confrontati continuamente, e la risposta breve è che sono progettati per persone diverse. Ollama è un servizio CLI e HTTP pensato innanzitutto per gli sviluppatori, da eseguire in modalità headless; LM Studio è invece un’interfaccia grafica curata, da utilizzare con un semplice clic. Entrambi eseguono modelli GGUF tramite llama.cpp, quindi la velocità effettiva per token è essenzialmente identica per uno stesso modello e livello di quantizzazione. Le differenze riguardano soprattutto l’usabilità e il deployment.
| Dimensione | LM Studio | Ollama |
|---|---|---|
| Interfaccia principale | Interfaccia grafica desktop | CLI + API HTTP |
| Impatto a riposo | Più elevato (interfaccia grafica completa) | Più leggero (servizio in background) |
| Formato modello | GGUF + MLX | GGUF |
| Server compatibile con OpenAI | Sì, sulla porta 1234 | Sì, sulla porta 11434 |
| Utilizzo headless / server | Non è l’uso previsto | Progettato appositamente per questo |
| Ideale per | Esplorazione e conversazione | Automazione e deployment |
Scegli LM Studio se vuoi principalmente chattare con modelli su un laptop, navigare e provare molti modelli senza attriti e evitare completamente il terminale — offre soprattutto agli utenti Windows un’esperienza fluida, guidata da un installatore. Scegli Ollama se stai integrando modelli nel tuo codice, li stai distribuendo su una VPS o li stai orchestrando in una pipeline. Molte persone utilizzano entrambi: LM Studio per trovare e valutare un modello, Ollama per servirlo in produzione. Se stai valutando alternative GUI specifiche, la nostra comparazione Ollama vs Jan tratta un altro concorrente open source nello stesso ambito.
Domande frequenti
LM Studio è gratuito per uso commerciale?
Sì. Dal 8 luglio 2025, LM Studio è gratuito sia per uso personale che commerciale/lavorativo; non è più necessario richiedere una licenza separata né compilare alcun modulo. È disponibile un piano Enterprise opzionale a pagamento per organizzazioni che necessitano di funzionalità amministrative avanzate (ad esempio SSO e controllo dell’accesso ai modelli/MCP), ma l’app standard è completamente gratuita.
LM Studio funziona sui Mac Intel?
No. Le versioni attuali di LM Studio richiedono Apple Silicon (M1, M2, M3, M4 e varianti correlate) e macOS 14.0 o versione successiva. I Mac basati su processore Intel non sono supportati. Su Apple Silicon è inoltre disponibile, oltre a GGUF, il motore MLX più veloce.
Quale formato di modello utilizza LM Studio?
LM Studio esegue modelli GGUF tramite il motore llama.cpp integrato su quasi tutti i dispositivi hardware, e modelli nel formato MLX tramite il motore MLX di Apple sui Mac della serie M. GGUF è lo standard monofile condiviso da LM Studio, Ollama, Jan e GPT4All, quindi i modelli sono largamente interoperabili tra questi strumenti.
Qual è la differenza tra Q4_K_M e Q8_0?
Entrambi sono livelli di quantizzazione. Q4_K_M è una quantizzazione a 4 bit, pari a circa un terzo della dimensione della precisione piena, mantenendo la maggior parte della qualità — è il livello consigliato come impostazione predefinita per la maggior parte dei dispositivi hardware. Q8_0 è una quantizzazione a 8 bit, più grande e sostanzialmente priva di perdite, da utilizzare solo se si dispone di 16–24 GB di VRAM disponibili.
Come collego il mio codice al server locale di LM Studio?
Abilita il server nella scheda Sviluppatore/Server dopo aver caricato un modello, quindi imposta l’URL base di qualsiasi SDK OpenAI su http://localhost:1234/v1. Non è richiesta alcuna chiave API reale (puoi inserire una stringa segnaposto qualsiasi) e il codice esistente per le OpenAI Chat Completions funziona senza ulteriori modifiche.
Quanta VRAM è necessaria per eseguire un modello da 7 miliardi di parametri?
Un modello da 7B in quantizzazione Q4_K_M occupa circa 4–5 GB su disco; considerando la cache KV e l’overhead, una scheda grafica con 6–8 GB di VRAM lo esegue comodamente e interamente sulla GPU. Con meno VRAM, LM Studio sposta automaticamente i dati in eccesso nella RAM di sistema e sulla CPU, il che funziona comunque, ma con prestazioni inferiori.
Posso eseguire LM Studio come server su un VPS?
Non è questo l’uso previsto. LM Studio è progettato intorno alla sua interfaccia grafica desktop e l’opzione «server» presuppone un’utilizzo su macchina locale. Per un hosting headless e sempre attivo su un VPS, Ollama o un motore di inferenza dedicato rappresentano una scelta più adatta.
Conclusione
LM Studio è l’accesso più semplice ai modelli linguistici locali nel 2026 ed è ora effettivamente gratuito per qualsiasi utilizzo. Se desideri scaricare un modello, conversare con esso e occasionalmente indirizzare il tuo codice verso un endpoint privato compatibile con OpenAI — tutto senza mai aprire un terminale — nessun altro strumento è altrettanto intuitivo. La serie 0.4.x ha inoltre colmato significativi divari funzionali, introducendo caratteristiche come l’elaborazione tensoriale parallela su più GPU e la decodifica speculativa, rendendolo ormai ben più di un semplice strumento per principianti.
Dove invece mostra i suoi limiti è nell’ambito del deployment. L’overhead dell’interfaccia grafica e il server legato all’ambiente desktop rendono LM Studio inadatto per servizi di produzione headless: questa è invece la specialità di Ollama o vLLM. L’approccio più pragmatico consiste nel considerare LM Studio come un ambiente di esplorazione e chat, sfruttandolo per identificare il modello e la quantizzazione più adatti al proprio hardware, e passare a un runtime dedicato quando si necessita di servire quel modello in modo continuativo. Per la maggior parte degli utenti che eseguono modelli su laptop o desktop, tuttavia, questo è la prima applicazione da installare.
