{"id":1106,"date":"2026-06-15T18:14:24","date_gmt":"2026-06-15T18:14:24","guid":{"rendered":"https:\/\/convly.ai\/lm-studio-complete-guide-2026\/"},"modified":"2026-06-19T16:39:50","modified_gmt":"2026-06-19T16:39:50","slug":"lm-studio-complete-guide-2026","status":"publish","type":"post","link":"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/","title":{"rendered":"LM Studio: guida completa (2026)"},"content":{"rendered":"<p>LM Studio \u00e8 la soluzione pi\u00f9 vicina, nel mondo dell\u2019intelligenza artificiale locale, a un\u2019applicazione desktop pronta all\u2019uso. La scarichi, cerchi un modello nel catalogo integrato, clicchi su \u00abcarica\u00bb e inizi subito a chattare \u2014 niente terminale, niente Docker, niente file di configurazione. Dietro questa interfaccia amichevole si nascondono gli stessi motori llama.cpp e MLX che alimentano gran parte dell\u2019ecosistema dei modelli linguistici locali, oltre a un server locale a un solo clic che emula l\u2019API OpenAI, consentendo al tuo codice esistente di interagire con un modello in esecuzione sulla tua macchina.<\/p>\n<p>This guide takes you from zero to a running local model through the GUI. We cover what LM Studio actually is in mid-2026, how to install it on Windows, macOS, and Linux, how to pick a model and quantization that fits your hardware, how to flip on the local server, and roughly how much VRAM and RAM you need. We also draw an honest line between LM Studio and Ollama, because they solve overlapping but different problems.<\/p>\n<div class=\"convly-tldr\">\n<h3>Punti chiave<\/h3>\n<ul>\n<li><strong>LM Studio \u00e8 un'applicazione desktop gratuita<\/strong> sviluppata da Element Labs (la societ\u00e0 dietro LM Studio, fondata dal creatore originale dell\u2019app) per eseguire in locale modelli linguistici open-weight \u2014 gratuita per uso personale e commerciale dal 8 luglio 2025, senza necessit\u00e0 di licenza n\u00e9 di compilazione di moduli.<\/li>\n<li><strong>L\u2019ultima versione stabile \u00e8 la 0.4.16 (8 giugno 2026)<\/strong>, che ha aumentato la lunghezza predefinita del contesto a 8.000 token e ha introdotto \u00abLocally\u00bb, un\u2019app companion per iPhone e iPad.<\/li>\n<li><strong>Esegue due motori:<\/strong> llama.cpp per modelli GGUF (NVIDIA\/AMD\/Intel\/CPU) e MLX per Apple Silicon, con recenti aggiunte come il parallelismo tensoriale su pi\u00f9 GPU (0.4.15) e la decodifica speculativa MTP stabile (0.4.14).<\/li>\n<li><strong>Un server locale integrato compatibile con l\u2019API OpenAI<\/strong> rende disponibile qualsiasi modello caricato all\u2019indirizzo <code>http:\/\/localhost:1234\/v1<\/code> \u2014 basta puntare qualsiasi SDK OpenAI a tale URL e funzioner\u00e0 senza modifiche al codice.<\/li>\n<li><strong>Requisiti hardware minimi:<\/strong> CPU con supporto AVX2, RAM consigliata 16 GB o superiore e circa 6\u20139 GB di VRAM per eseguire comodamente modelli da 7B a 13B in quantizzazione Q4. Su macOS \u00e8 richiesto Apple Silicon e macOS 14 o versione successiva.<\/li>\n<li><strong>Scegli LM Studio per esplorare e chattare; scegli Ollama per server headless e automazione.<\/strong> Sono complementari, non concorrenti.<\/li>\n<\/ul>\n<\/div>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_84 counter-flat ez-toc-counter ez-toc-container-direction\">\n<label for=\"ez-toc-cssicon-toggle-item-6a389c0ab1aa8\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Attiva\/Disattiva<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #000000;color:#000000\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #000000;color:#000000\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-6a389c0ab1aa8\"  aria-label=\"Attiva\/Disattiva\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#What_LM_Studio_actually_is\" >Cos\u2019\u00e8 realmente LM Studio<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#Installing_LM_Studio_on_Windows_macOS_and_Linux\" >Installazione di LM Studio su Windows, macOS e Linux<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#Downloading_and_choosing_a_model\" >Download e scelta di un modello<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#The_built-in_local_server_OpenAI-compatible_API\" >Il server locale integrato (API compatibile con OpenAI)<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#Hardware_and_VRAM_what_you_actually_need\" >Hardware e VRAM: cosa ti serve effettivamente<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#LM_Studio_vs_Ollama_which_one_is_for_you\" >LM Studio vs Ollama: quale fa al caso tuo<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#FAQ\" >Domande frequenti<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#Bottom_line\" >Conclusione<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/convly.ai\/it\/lm-studio-complete-guide-2026\/#Related_articles\" >Articoli correlati<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"What_LM_Studio_actually_is\"><\/span>Cos\u2019\u00e8 realmente LM Studio<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>LM Studio \u00e8 un\u2019applicazione desktop che scarica ed esegue modelli linguistici di grandi dimensioni interamente sul tuo hardware. Nulla lascia il tuo dispositivo. Include due motori di inferenza: <strong>llama.cpp<\/strong>, che esegue il diffuso formato di modelli GGUF su sistemi NVIDIA, AMD, Intel e CPU-only, e <strong>MLX di Apple<\/strong>, che esegue nativamente modelli in formato MLX sui Mac con chip M-series. Offre un browser per modelli, una finestra di chat nello stile di ChatGPT, impostazioni di inferenza specifiche per ciascun modello e un interruttore per avviare un server \u2014 tutto in un\u2019unica interfaccia.<\/p>\n<p>Il prodotto \u00e8 sviluppato da <strong>Element Labs, Inc.<\/strong>, l\u2019azienda dietro LM Studio, fondata nel 2023 da Yagil Burowski \u2014 creatore originale dell\u2019app. A partire dal <strong>8 luglio 2025<\/strong> \u00e8 diventato <strong>gratuito per l\u2019uso professionale<\/strong>, eliminando il precedente obbligo di richiedere una licenza commerciale separata. Tu e il tuo team potete installarlo e utilizzarlo a scopo commerciale senza compilare moduli, registrarsi o pagare alcuna quota. Esiste una versione enterprise a pagamento di LM Studio per le organizzazioni che necessitano di funzionalit\u00e0 avanzate come l\u2019autenticazione SSO, il controllo dei modelli\/MCP e la collaborazione privata, ma l\u2019app principale, quella pi\u00f9 utilizzata dalla maggior parte degli utenti, \u00e8 completamente gratuita.<\/p>\n<p>La versione stabile attuale \u00e8 <strong>0.4.16<\/strong>, rilasciata l\u20198 giugno 2026. Le versioni recenti si sono evolute rapidamente: la 0.4.10 ha introdotto l\u2019OAuth per i server MCP; la 0.4.14 ha integrato in modo stabile la decodifica speculativa MTP (generazione pi\u00f9 veloce per modelli dotati di testine multi-token-prediction); la 0.4.15 ha aggiunto il parallelismo tensoriale per suddividere un modello su pi\u00f9 GPU; infine, la 0.4.16 ha innalzato la finestra contestuale predefinita a 8.000 token e ha lanciato \u00abLocally\u00bb, un\u2019app companion per iPhone e iPad che trasmette in streaming dal desktop tramite LM Link.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Installing_LM_Studio_on_Windows_macOS_and_Linux\"><\/span>Installazione di LM Studio su Windows, macOS e Linux<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>L\u2019installazione segue il normale processo di installazione di un\u2019app: scaricate la build adatta al vostro sistema operativo dal sito lmstudio.ai ed eseguitela. L\u2019aspetto critico riguarda per\u00f2 i requisiti di piattaforma, che rivestono maggiore importanza rispetto al software tradizionale, poich\u00e9 gli LLM sfruttano intensivamente il set di istruzioni della CPU e la memoria.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Piattaforma<\/th>\n<th>Requisito<\/th>\n<th>Note<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Windows<\/td>\n<td>CPU x64 o ARM con supporto AVX2<\/td>\n<td>Supporto per Snapdragon X Elite (ARM); installer .exe standard<\/td>\n<\/tr>\n<tr>\n<td>macOS<\/td>\n<td>Apple Silicon (M1\u2013M4), macOS 14.0 o versione successiva<\/td>\n<td>I Mac Intel non sono supportati; questa configurazione abilita il motore MLX<\/td>\n<\/tr>\n<tr>\n<td>Linux<\/td>\n<td>x64 o ARM64, Ubuntu 20.04 o versione successiva<\/td>\n<td>Distribuito come AppImage; le distribuzioni Linux oltre Ubuntu 22 sono meno testate<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Il <strong>Il set di istruzioni AVX2 \u00e8 obbligatorio<\/strong> sui sistemi x64. Nella pratica, ci\u00f2 copre i processori Intel Core dalla quarta generazione (Haswell, 2013) in poi e tutti i processori AMD Ryzen, quindi qualsiasi PC ragionevolmente moderno soddisfa questo requisito. Il vero punto critico riguarda invece macOS: <strong>I Mac Intel non sono affatto supportati<\/strong> nelle versioni attuali \u2014 \u00e8 indispensabile un chip M-series. Su Linux, l\u2019AppImage significa che non \u00e8 necessaria alcuna installazione a livello di sistema: basta renderla eseguibile ed avviarla.<\/p>\n<p>Al primo avvio, LM Studio guida l\u2019utente attraverso la scheda \u00abDiscover\u00bb e, su un\u2019installazione nuova, potrebbe suggerire un modello iniziale. Non accettatelo acriticamente: scegliete invece un modello compatibile con l\u2019hardware disponibile, che \u00e8 il passo successivo.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Downloading_and_choosing_a_model\"><\/span>Download e scelta di un modello<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Aprite la scheda \u00abDiscover\u00bb. Il downloader integrato recupera modelli da Hugging Face e consente di cercarli per parola chiave (\u00abqwen\u00bb, \u00abgemma\u00bb), per un identificativo specifico <code>utente\/modello<\/code> o incollando un URL completo di Hugging Face. Ogni modello elenca diverse <strong>quantizzazione<\/strong> varianti \u2014 etichette come <code>Q4_K_M<\/code>, <code>Q5_K_M<\/code>, oppure <code>Q8_0<\/code>. La quantizzazione comprime i pesi del modello riducendone dimensione del file e occupazione di memoria, sacrificando una piccola parte della qualit\u00e0 per ottenere un notevole risparmio di spazio.<\/p>\n<p>Per la maggior parte degli utenti, <strong>Q4_K_M rappresenta il compromesso ideale.<\/strong> Riduce un modello da 7 miliardi di parametri (7B) da circa 13\u201314 GB in precisione piena (FP16) a circa 4 GB \u2014 ovvero circa il 70% in meno \u2014 mantenendo la stragrande maggioranza della qualit\u00e0 dell\u2019output; nei benchmark standard di perplexity lo scarto rispetto alla precisione piena \u00e8 cos\u00ec contenuto da risultare raramente percettibile nella conversazione quotidiana. La sigla \u00abK_M\u00bb indica una quantizzazione K-media: essa assegna pi\u00f9 bit ai tensori pi\u00f9 sensibili (ad esempio le proiezioni di output dell\u2019attenzione, mantenute a precisione superiore) e meno bit agli altri. Optate per una quantizzazione superiore solo se disponete di risorse sufficienti, e per una inferiore solo se strettamente necessario.<\/p>\n<h3>Abbinare la quantizzazione alla VRAM disponibile<\/h3>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>VRAM disponibile<\/th>\n<th>Quantizzazione consigliata<\/th>\n<th>Regola empirica<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Meno di 8 GB<\/td>\n<td>Q2_K \/ Q3_K_M<\/td>\n<td>Preferire modelli da 7B\u20138B<\/td>\n<\/tr>\n<tr>\n<td>8\u201312 GB<\/td>\n<td>Q4_K_M (consigliata)<\/td>\n<td>Modelli da 7B gestibili agevolmente; un modello da 13B si adatta a una GPU da 12 GB<\/td>\n<\/tr>\n<tr>\n<td>12\u201316 GB<\/td>\n<td>Q5_K_M \/ Q6_K<\/td>\n<td>Qualit\u00e0 superiore su modelli di fascia media<\/td>\n<\/tr>\n<tr>\n<td>16\u201324 GB<\/td>\n<td>Q8_0<\/td>\n<td>Quasi senza perdita di qualit\u00e0 su modelli da 7B\u201313B<\/td>\n<\/tr>\n<tr>\n<td>24 GB o pi\u00f9<\/td>\n<td>F16 (precisione piena)<\/td>\n<td>Oppure modelli pi\u00f9 grandi in Q4\/Q5<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Dimensioni approssimative di archiviazione e memoria per modello di dimensione pari a Q4: un modello da 7B occupa circa 4\u20135 GB, uno da 13B circa 8\u20139 GB, uno da 30B circa 18\u201320 GB e uno da 70B supera i 40 GB. Un modello da 13B in Q4_K_M occupa circa 8\u20139 GB di pesi, quindi pu\u00f2 essere ospitato interamente sulla GPU di una scheda da 12 GB (pesi pi\u00f9 una cache KV modesta); altrimenti LM Studio carica sulla GPU solo quanto possibile e esegue il resto sulla CPU, con conseguente riduzione delle prestazioni. Ricordate che la cache KV e la lunghezza del contesto incrementano ulteriormente questi valori, quindi lasciate un margine di sicurezza di alcuni gigabyte. Se state ancora scegliendo il vostro primo modello, la nostra panoramica dei <a href=\"\/it\/best-local-llms-to-run-on-ollama-2026\/\">migliori LLM locali da eseguire su Ollama nel 2026<\/a> si adatta quasi perfettamente anche a LM Studio, dato che entrambi utilizzano gli stessi file GGUF.<\/p>\n<p><strong>Su Apple Silicon, preferite i build in formato MLX quando disponibili.<\/strong> Nei modelli supportati, le versioni in formato MLX sono spesso pi\u00f9 veloci dell\u2019equivalente GGUF sullo stesso chip M-series \u2014 generalmente con un vantaggio compreso tra il 10% e il 40%, sebbene tale differenza vari a seconda del modello e possa talvolta essere pressoch\u00e9 nulla (e in alcuni modelli recenti persino il GGUF riesce a superare leggermente l\u2019MLX). La qualit\u00e0 \u00e8 sostanzialmente comparabile, ma non sempre identica: la quantizzazione mista Q4_K_M di GGUF assegna pi\u00f9 bit ai layer pi\u00f9 sensibili, mentre la quantizzazione a 4 bit di MLX \u00e8 pi\u00f9 uniforme; pertanto, vale la pena confrontare entrambe le versioni per un modello che utilizzerete intensivamente. LM Studio permette di cambiare formato per ogni singolo modello direttamente dall\u2019interfaccia utente, consentendovi di selezionare la variante MLX quando disponibile e ricadere sul GGUF in caso contrario.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"The_built-in_local_server_OpenAI-compatible_API\"><\/span>Il server locale integrato (API compatibile con OpenAI)<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Questa funzionalit\u00e0 trasforma LM Studio da semplice strumento di chat in un vero e proprio strumento per sviluppatori. Caricate un modello, aprite la scheda \u00abDeveloper\/Server\u00bb e attivate il server. LM Studio esporr\u00e0 quindi un' <strong>API REST compatibile con OpenAI all\u2019indirizzo <code>http:\/\/localhost:1234\/v1<\/code><\/strong>che espone endpoint per chat completions, completions, embeddings e risposte. Qualsiasi client compatibile con lo schema OpenAI Chat Completions \u2014 l'SDK Python <code>openai<\/code> , il pacchetto Node <code>openai<\/code> , il wrapper OpenAI di LangChain o un comando <code>curl<\/code> \u2014 si connette semplicemente impostando il proprio <code>base_url<\/code> \/ <code>baseURL<\/code> all\u2019indirizzo indicato.<\/p>\n<p>Non \u00e8 richiesta alcuna chiave API reale e non vi \u00e8 alcun traffico di uscita verso la rete: le richieste rimangono sul tuo computer, non sono previsti limiti di frequenza (rate limits) e non vi \u00e8 alcun costo per token. Nel codice, in genere si passa una chiave segnaposto come <code>\"lm-studio\"<\/code> e si imposta l\u2019URL base; le chiamate esistenti a OpenAI funzionano senza modifiche. Ci\u00f2 rende LM Studio una soluzione pronta all\u2019uso per sviluppo, test e carichi di lavoro sensibili alla privacy, nei quali non puoi inviare dati a un\u2019API cloud.<\/p>\n<div class=\"convly-procons\">\n<div class=\"pros\">\n<h4>Dove il server eccelle<\/h4>\n<ul>\n<li>Un solo interruttore \u2014 niente YAML, nessun demone separato da configurare<\/li>\n<li>Compatibilit\u00e0 nativa con OpenAI; basta cambiare l\u2019URL base ed \u00e8 subito operativo<\/li>\n<li>Completamente locale: zero costi, nessun limite di frequenza, nessun dato lascia il dispositivo<\/li>\n<li>Ideale per prototipare agenti e sistemi RAG utilizzando modelli locali gratuiti<\/li>\n<\/ul>\n<\/div>\n<div class=\"cons\">\n<h4>Dove mostra i suoi limiti<\/h4>\n<ul>\n<li>Legato all\u2019interfaccia grafica desktop \u2014 non progettato per server headless o VPS<\/li>\n<li>Consumo di memoria a riposo pi\u00f9 elevato rispetto a un runtime CLI<\/li>\n<li>Ambito limitato a un singolo computer; nessun supporto integrato per clustering o bilanciamento del carico<\/li>\n<li>Per servizi di produzione sempre attivi, un runtime dedicato \u00e8 pi\u00f9 adatto<\/li>\n<\/ul>\n<\/div>\n<\/div>\n<p>Se superi le capacit\u00e0 di un singolo computer desktop e hai bisogno di un servizio headless e sempre attivo, \u00e8 esattamente in questo punto che entrano in gioco Ollama o un motore pi\u00f9 potente \u2014 consulta la nostra <a href=\"\/it\/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-2026\/\">comparazione Ollama vs LM Studio vs vLLM vs llama.cpp<\/a> per l'analisi completa.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Hardware_and_VRAM_what_you_actually_need\"><\/span>Hardware e VRAM: cosa ti serve effettivamente<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Il requisito minimo onesto \u00e8 una CPU con istruzioni AVX2 e 16 GB di RAM di sistema (con 8 GB \u00e8 possibile eseguire modelli piccoli, ma si raggiunge rapidamente il limite \u2014 contesto breve, modelli ridotti e rallentamenti evidenti). La RAM \u00e8 fondamentale anche su configurazioni con GPU, poich\u00e9 qualsiasi strato che non entra nella VRAM viene spostato nella memoria di sistema.<\/p>\n<p>Per l\u2019accelerazione GPU, <strong>si raccomanda almeno 4 GB di VRAM dedicata<\/strong>, e pi\u00f9 \u00e8 meglio. Un obiettivo pratico per un\u2019esperienza fluida con modelli da 7B a 13B \u00e8 una scheda da 8\u201312 GB. I modelli pi\u00f9 grandi scalano rapidamente: un modello da 70B quantizzato Q4 richiede circa 40 GB o pi\u00f9, distribuiti tra VRAM e RAM; pertanto, per eseguirlo comodamente \u00e8 tipicamente necessaria una memoria di sistema da 48 a 64 GB se non \u00e8 possibile caricarlo interamente sulla GPU. Sui dispositivi Apple Silicon, l\u2019architettura a memoria unificata combina RAM e VRAM, quindi un Mac da 32 GB o 64 GB offre prestazioni superiori per modelli di media grandezza. Se stai cercando una scheda grafica specificamente per questo scopo, la nostra guida <a href=\"\/it\/best-gpus-for-local-llms-2026\/\">migliori GPU per LLM locali nel 2026<\/a> analizza il rapporto prezzo-per-gigabyte.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"LM_Studio_vs_Ollama_which_one_is_for_you\"><\/span>LM Studio vs Ollama: quale fa al caso tuo<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Questi due strumenti vengono confrontati continuamente, e la risposta breve \u00e8 che sono progettati per persone diverse. <a href=\"\/it\/what-is-ollama-complete-guide-2026\/\">Ollama<\/a> \u00e8 un servizio CLI e HTTP pensato innanzitutto per gli sviluppatori, da eseguire in modalit\u00e0 headless; LM Studio \u00e8 invece un\u2019interfaccia grafica curata, da utilizzare con un semplice clic. Entrambi eseguono modelli GGUF tramite llama.cpp, quindi la velocit\u00e0 effettiva per token \u00e8 essenzialmente identica per uno stesso modello e livello di quantizzazione. Le differenze riguardano soprattutto l\u2019usabilit\u00e0 e il deployment.<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Dimensione<\/th>\n<th>LM Studio<\/th>\n<th>Ollama<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>Interfaccia principale<\/td>\n<td>Interfaccia grafica desktop<\/td>\n<td>CLI + API HTTP<\/td>\n<\/tr>\n<tr>\n<td>Impatto a riposo<\/td>\n<td>Pi\u00f9 elevato (interfaccia grafica completa)<\/td>\n<td>Pi\u00f9 leggero (servizio in background)<\/td>\n<\/tr>\n<tr>\n<td>Formato modello<\/td>\n<td>GGUF + MLX<\/td>\n<td>GGUF<\/td>\n<\/tr>\n<tr>\n<td>Server compatibile con OpenAI<\/td>\n<td>S\u00ec, sulla porta 1234<\/td>\n<td>S\u00ec, sulla porta 11434<\/td>\n<\/tr>\n<tr>\n<td>Utilizzo headless \/ server<\/td>\n<td>Non \u00e8 l\u2019uso previsto<\/td>\n<td>Progettato appositamente per questo<\/td>\n<\/tr>\n<tr>\n<td>Ideale per<\/td>\n<td>Esplorazione e conversazione<\/td>\n<td>Automazione e deployment<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Scegli LM Studio se vuoi principalmente chattare con modelli su un laptop, navigare e provare molti modelli senza attriti e evitare completamente il terminale \u2014 offre soprattutto agli utenti Windows un\u2019esperienza fluida, guidata da un installatore. Scegli Ollama se stai integrando modelli nel tuo codice, li stai distribuendo su una VPS o li stai orchestrando in una pipeline. Molte persone utilizzano entrambi: LM Studio per trovare e valutare un modello, Ollama per servirlo in produzione. Se stai valutando alternative GUI specifiche, la nostra <a href=\"\/it\/ollama-vs-jan-2026\/\">comparazione Ollama vs Jan<\/a> tratta un altro concorrente open source nello stesso ambito.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"FAQ\"><\/span>Domande frequenti<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<h3>LM Studio \u00e8 gratuito per uso commerciale?<\/h3>\n<p>S\u00ec. Dal 8 luglio 2025, LM Studio \u00e8 gratuito sia per uso personale che commerciale\/lavorativo; non \u00e8 pi\u00f9 necessario richiedere una licenza separata n\u00e9 compilare alcun modulo. \u00c8 disponibile un piano Enterprise opzionale a pagamento per organizzazioni che necessitano di funzionalit\u00e0 amministrative avanzate (ad esempio SSO e controllo dell\u2019accesso ai modelli\/MCP), ma l\u2019app standard \u00e8 completamente gratuita.<\/p>\n<h3>LM Studio funziona sui Mac Intel?<\/h3>\n<p>No. Le versioni attuali di LM Studio richiedono Apple Silicon (M1, M2, M3, M4 e varianti correlate) e macOS 14.0 o versione successiva. I Mac basati su processore Intel non sono supportati. Su Apple Silicon \u00e8 inoltre disponibile, oltre a GGUF, il motore MLX pi\u00f9 veloce.<\/p>\n<h3>Quale formato di modello utilizza LM Studio?<\/h3>\n<p>LM Studio esegue modelli GGUF tramite il motore llama.cpp integrato su quasi tutti i dispositivi hardware, e modelli nel formato MLX tramite il motore MLX di Apple sui Mac della serie M. GGUF \u00e8 lo standard monofile condiviso da LM Studio, Ollama, Jan e GPT4All, quindi i modelli sono largamente interoperabili tra questi strumenti.<\/p>\n<h3>Qual \u00e8 la differenza tra Q4_K_M e Q8_0?<\/h3>\n<p>Entrambi sono livelli di quantizzazione. Q4_K_M \u00e8 una quantizzazione a 4 bit, pari a circa un terzo della dimensione della precisione piena, mantenendo la maggior parte della qualit\u00e0 \u2014 \u00e8 il livello consigliato come impostazione predefinita per la maggior parte dei dispositivi hardware. Q8_0 \u00e8 una quantizzazione a 8 bit, pi\u00f9 grande e sostanzialmente priva di perdite, da utilizzare solo se si dispone di 16\u201324 GB di VRAM disponibili.<\/p>\n<h3>Come collego il mio codice al server locale di LM Studio?<\/h3>\n<p>Abilita il server nella scheda Sviluppatore\/Server dopo aver caricato un modello, quindi imposta l\u2019URL base di qualsiasi SDK OpenAI su <code>http:\/\/localhost:1234\/v1<\/code>. Non \u00e8 richiesta alcuna chiave API reale (puoi inserire una stringa segnaposto qualsiasi) e il codice esistente per le OpenAI Chat Completions funziona senza ulteriori modifiche.<\/p>\n<h3>Quanta VRAM \u00e8 necessaria per eseguire un modello da 7 miliardi di parametri?<\/h3>\n<p>Un modello da 7B in quantizzazione Q4_K_M occupa circa 4\u20135 GB su disco; considerando la cache KV e l\u2019overhead, una scheda grafica con 6\u20138 GB di VRAM lo esegue comodamente e interamente sulla GPU. Con meno VRAM, LM Studio sposta automaticamente i dati in eccesso nella RAM di sistema e sulla CPU, il che funziona comunque, ma con prestazioni inferiori.<\/p>\n<h3>Posso eseguire LM Studio come server su un VPS?<\/h3>\n<p>Non \u00e8 questo l\u2019uso previsto. LM Studio \u00e8 progettato intorno alla sua interfaccia grafica desktop e l\u2019opzione \u00abserver\u00bb presuppone un\u2019utilizzo su macchina locale. Per un hosting headless e sempre attivo su un VPS, Ollama o un motore di inferenza dedicato rappresentano una scelta pi\u00f9 adatta.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Bottom_line\"><\/span>Conclusione<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>LM Studio \u00e8 l\u2019accesso pi\u00f9 semplice ai modelli linguistici locali nel 2026 ed \u00e8 ora effettivamente gratuito per qualsiasi utilizzo. Se desideri scaricare un modello, conversare con esso e occasionalmente indirizzare il tuo codice verso un endpoint privato compatibile con OpenAI \u2014 tutto senza mai aprire un terminale \u2014 nessun altro strumento \u00e8 altrettanto intuitivo. La serie 0.4.x ha inoltre colmato significativi divari funzionali, introducendo caratteristiche come l\u2019elaborazione tensoriale parallela su pi\u00f9 GPU e la decodifica speculativa, rendendolo ormai ben pi\u00f9 di un semplice strumento per principianti.<\/p>\n<p>Dove invece mostra i suoi limiti \u00e8 nell\u2019ambito del deployment. L\u2019overhead dell\u2019interfaccia grafica e il server legato all\u2019ambiente desktop rendono LM Studio inadatto per servizi di produzione headless: questa \u00e8 invece la specialit\u00e0 di Ollama o vLLM. L\u2019approccio pi\u00f9 pragmatico consiste nel considerare LM Studio come un ambiente di esplorazione e chat, sfruttandolo per identificare il modello e la quantizzazione pi\u00f9 adatti al proprio hardware, e passare a un runtime dedicato quando si necessita di servire quel modello in modo continuativo. Per la maggior parte degli utenti che eseguono modelli su laptop o desktop, tuttavia, questo \u00e8 la prima applicazione da installare.<\/p>\n<p><!--related-block--><\/p>\n<div class=\"convly-related\">\n<h2><span class=\"ez-toc-section\" id=\"Related_articles\"><\/span>Articoli correlati<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<ul>\n<li><a href=\"https:\/\/convly.ai\/it\/gpt-5-6-what-we-know-2026\/\">GPT-5.6: ci\u00f2 che sappiamo rispetto a ci\u00f2 che \u00e8 trapelato (2026)<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/it\/kimi-k2-7-code-explained-2026\/\">Kimi K2.7 Code spiegato: il modello aperto per la programmazione da 1 trilione di token di Moonshot<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/it\/glm-5-2-explained-2026\/\">GLM 5.2 spiegato: il modello aperto per la programmazione con contesto da 1 milione di token di Zhipu<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/it\/ollama-vs-jan-2026\/\">Ollama vs Jan: quale applicazione locale per IA vince nel 2026?<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/it\/claude-5-new-ai-models-june-2026\/\">Esiste un Claude 5? Claude Fable 5 e tutti i principali modelli AI di giugno 2026<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/it\/what-is-ollama-complete-guide-2026\/\">Cos'\u00e8 Ollama? La guida completa all'esecuzione locale di LLM nel 2026<\/a><\/li>\n<li><a href=\"https:\/\/convly.ai\/it\/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-2026\/\">Ollama vs LM Studio vs vLLM vs llama.cpp: quale scegliere nel 2026?<\/a><\/li>\n<\/ul>\n<\/div>","protected":false},"excerpt":{"rendered":"<p>A practical, zero-to-running guide to LM Studio in 2026: setup on every OS, choosing models and quantization, the built-in OpenAI-compatible server, and the hardware you actually need.<\/p>","protected":false},"author":1,"featured_media":1116,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[3],"tags":[347,290,750,260,256,259,749,286],"class_list":["post-1106","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-llms","tag-apple-silicon","tag-gguf","tag-llms","tag-lm-studio","tag-local-llm","tag-ollama","tag-openai-compatible-api","tag-quantization"],"_links":{"self":[{"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/posts\/1106","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/comments?post=1106"}],"version-history":[{"count":4,"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/posts\/1106\/revisions"}],"predecessor-version":[{"id":1199,"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/posts\/1106\/revisions\/1199"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/media\/1116"}],"wp:attachment":[{"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/media?parent=1106"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/categories?post=1106"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/convly.ai\/it\/wp-json\/wp\/v2\/tags?post=1106"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}