Is LM Studio free for commercial use?

Yes. Since July 8, 2025, LM Studio is free for both personal and commercial/workplace use, and you no longer need to request a separate license or fill out any form. There is an optional paid Enterprise tier for organizations wanting advanced administration features (such as SSO and model/MCP gating), but the standard app is free.

Does LM Studio work on Intel Macs?

No. Current LM Studio builds require Apple Silicon (M1 through M4 and their variants) and macOS 14.0 or newer. Intel-based Macs are unsupported. On Apple Silicon you also get the faster MLX engine in addition to GGUF.

What model format does LM Studio use?

LM Studio runs GGUF models through its bundled llama.cpp engine on virtually all hardware, and MLX-format models through Apple's MLX engine on M-series Macs. GGUF is the single-file standard shared by LM Studio, Ollama, Jan, and GPT4All, so models are largely interchangeable across these tools.

What is the difference between Q4_K_M and Q8_0?

Both are quantization levels. Q4_K_M is 4-bit and roughly a third the size of full precision while keeping the large majority of quality — the recommended default for most hardware. Q8_0 is 8-bit, larger and effectively near-lossless, worth using only if you have 16–24GB of VRAM to spare.

How do I connect my code to LM Studio's local server?

Enable the server in the Developer/Server tab with a model loaded, then point any OpenAI SDK's base URL at http://localhost:1234/v1. No real API key is needed (pass any placeholder string), and existing OpenAI Chat Completions code works without other changes.

How much VRAM do I need to run a 7B model?

A 7B model at Q4_K_M is about 4–5GB on disk, and with the KV cache and overhead a card with 6–8GB of VRAM runs it comfortably and fully on the GPU. With less VRAM, LM Studio offloads the overflow to system RAM and CPU, which still works but runs slower.

Can I run LM Studio as a server on a VPS?

It's not the intended use case. LM Studio is built around its desktop GUI, and the server toggle assumes a local machine. For headless, always-on hosting on a VPS, Ollama or a dedicated inference engine is the better fit.

LM Studio: The Complete Guide (2026)

Mis à jour August 1, 2026 · Originally published June 15, 2026

LM Studio est ce qui se rapproche le plus, dans le monde de l’IA locale, d’une application de bureau “ qui fonctionne tout simplement ”. Vous la téléchargez, vous recherchez un modèle dans un catalogue intégré, vous cliquez sur « Charger » et vous commencez à discuter — pas besoin de terminal, pas besoin de Docker, pas besoin de fichiers de configuration. Derrière cette interface conviviale se cachent les mêmes moteurs llama.cpp et MLX qui alimentent la majeure partie de l’écosystème des LLM locaux, ainsi qu’un serveur accessible en un clic qui imite l’API OpenAI afin que votre code existant puisse communiquer avec un modèle s’exécutant sur votre propre machine.

This guide takes you from zero to a running local model through the GUI. We cover what LM Studio actually is in mid-2026, how to install it on Windows, macOS, and Linux, how to pick a model and quantization that fits your hardware, how to flip on the local server, and roughly how much VRAM and RAM you need. We also draw an honest line between LM Studio and Ollama, because they solve overlapping but different problems.

Points clés

LM Studio est une interface graphique gratuite pour ordinateur de bureau développé par Element Labs (la société à l'origine de LM Studio, fondée par le créateur initial de l'application) pour exécuter localement des modèles de langage de grande envergure (LLM) sans restriction de taille — gratuit pour un usage personnel et commercial depuis le 8 juillet 2025, sans licence ni formulaire à remplir.
La dernière version stable est la 0.4.16 (8 juin 2026), ce qui a porté la longueur par défaut du contexte à 8 000 tokens et a permis le lancement de “ Locally ”, une application mobile complémentaire pour iPhone et iPad.
Il est équipé de deux moteurs : llama.cpp pour les modèles GGUF (NVIDIA/AMD/Intel/CPU) et MLX pour Apple Silicon, avec des ajouts récents tels que le traitement tensoriel parallèle multi-GPU (0.4.15) et le décodage spéculatif MTP stabilisé (0.4.14).
Un serveur intégré compatible avec OpenAI affiche tout modèle chargé à l'adresse http://localhost:1234/v1 — Il suffit de pointer n'importe quel SDK OpenAI vers cette URL pour que cela fonctionne, sans aucune modification du code.
Revêtement de sol : Processeur AVX2, 16 Go ou plus de RAM recommandés, et environ 6 à 9 Go de mémoire vidéo pour un rendu fluide d’un modèle de 7 à 13 milliards de polygones en qualité Q4. macOS nécessite un processeur Apple Silicon et la version 14 ou supérieure de macOS.
Optez pour LM Studio pour l'exploration et le chat ; optez pour Ollama pour les serveurs headless et l'automatisation. Ils sont complémentaires, pas rivaux.

Ce qu’est réellement LM Studio

LM Studio est une application de bureau qui permet de télécharger et d'exécuter des modèles linguistiques volumineux entièrement sur votre propre matériel. Aucune donnée ne quitte votre ordinateur. Elle intègre deux moteurs d'inférence : llama.cpp, qui prend en charge le format de modèle GGUF, largement utilisé, sur les systèmes NVIDIA, AMD, Intel et ceux équipés uniquement d'un processeur, et Le MLX d'Apple, qui exécute nativement des modèles au format MLX sur les Mac de la série M. Vous disposez d'un navigateur de modèles, d'une fenêtre de discussion de type ChatGPT, de paramètres d'inférence spécifiques à chaque modèle et d'un bouton pour activer ou désactiver le serveur — le tout dans une seule fenêtre.

Ce produit est fabriqué par Element Labs, Inc., la société à l'origine de LM Studio, fondée en 2023 par Yagil Burowski, le créateur initial de l'application. À la date du 8 juillet 2025 c'est devenu utilisable gratuitement au travail, supprimant ainsi l'obligation antérieure de demander une licence commerciale distincte. Vous et votre équipe pouvez l'installer et l'utiliser à des fins commerciales sans avoir à remplir de formulaire, sans inscription et sans frais. Il existe une offre payante distincte, LM Studio Enterprise, destinée aux organisations qui souhaitent bénéficier de fonctionnalités avancées telles que l'authentification unique (SSO), le contrôle d'accès aux modèles et aux MCP, ainsi que la collaboration privée, mais l'application de base, celle que la plupart des utilisateurs recherchent, est gratuite.

La version stable actuelle est 0.4.16, publiée le 8 juin 2026. Les versions récentes se sont succédé à un rythme soutenu : la version 0.4.10 a ajouté la prise en charge d’OAuth pour les serveurs MCP, la version 0.4.14 a introduit le décodage spéculatif MTP stable (génération plus rapide sur les modèles dotés de têtes de prédiction multi-tokens), la version 0.4.15 a ajouté le parallélisme tensoriel pour répartir un modèle sur plusieurs GPU, et la version 0.4.16 a porté la fenêtre de contexte par défaut à 8 000 tokens et a introduit “ Locally ”, une application compagnon pour iPhone/iPad qui diffuse en continu depuis votre ordinateur de bureau via LM Link.

Installation de LM Studio sous Windows, macOS et Linux

L'installation se fait comme pour n'importe quelle application : téléchargez la version adaptée à votre système d'exploitation sur lmstudio.ai et lancez-la. Le point à retenir concerne la configuration système requise, qui est plus importante que pour un logiciel classique, car les modèles de langage à grande échelle (LLM) sollicitent fortement le jeu d'instructions de votre processeur et votre mémoire.

Plateforme	Exigence	Remarques
Windows	Processeur x64 ou ARM, compatible AVX2	Prise en charge de Snapdragon X Elite (ARM) ; programme d'installation standard au format .exe
macOS	Apple Silicon (M1 à M4), macOS 14.0 ou version ultérieure	Les Mac Intel ne sont pas pris en charge ; active le moteur MLX
Linux	x64 ou ARM64, Ubuntu 20.04 ou version ultérieure	Distribué sous forme d'AppImage ; les distributions postérieures à Ubuntu 22 ont fait l'objet de moins de tests

Le Le jeu d'instructions AVX2 est obligatoire sur les systèmes x64. Concrètement, cela concerne les processeurs Intel Core à partir de la 4e génération (Haswell, 2013) ainsi que tous les processeurs AMD Ryzen ; ainsi, tout PC relativement récent est compatible. Le gros hic, c'est macOS : Les Mac équipés de processeurs Intel ne sont pas pris en charge du tout Dans les versions actuelles, il faut une puce de la série M. Sous Linux, grâce au format AppImage, il n'y a rien à installer au niveau du système ; il suffit de rendre le fichier exécutable et de le lancer.

Lors du premier démarrage, LM Studio vous guide à travers l'onglet « Découvrir » et, dans le cas d'une nouvelle installation, peut vous proposer un modèle de démarrage. Ne l'acceptez pas sans réfléchir : choisissez un modèle adapté à votre matériel, ce qui constitue l'étape suivante.

Téléchargement et sélection d'un modèle

Ouvrez l'onglet “ Discover ”. Le téléchargeur intégré récupère les modèles depuis Hugging Face, et vous pouvez effectuer une recherche par mot-clé (“ qwen ”, « gemma ») ou par un utilisateur/modèle identifiant, ou en collant l'URL complète de Hugging Face. Chaque modèle répertorie plusieurs quantification variantes — des libellés tels que Q4_K_M, Q5_K_M, ou Q8_0. La quantification compresse les poids afin de réduire la taille du fichier et l'empreinte mémoire, au prix d'une légère perte de qualité qui permet de gagner beaucoup d'espace.

Pour la plupart des gens, Q4_K_M, c'est le point idéal. Il réduit la taille d’un modèle 7B, qui passe d’environ 13 à 14 Go en précision totale (FP16) à environ 4 Go — soit une réduction d’environ 701 TP3T — tout en conservant la grande majorité de la qualité de sortie ; sur les benchmarks de perplexité standard, l’écart par rapport à la précision maximale est suffisamment faible pour qu’il soit rarement perceptible dans les conversations quotidiennes. Le “ K_M ” signifie « K-quant moyen » : il consacre davantage de bits aux tenseurs les plus sensibles (tels que les projections de sortie d’attention, conservées à une précision plus élevée) et moins ailleurs. N’optez pour une précision supérieure que si vous disposez de la marge nécessaire, et ne la réduisez que si vous y êtes contraint.

Adapter la quantification à votre mémoire VRAM

Mémoire vidéo disponible	Quant recommandé	Règle générale
Moins de 8 Go	Q2_K / Q3_K_M	Optez pour les modèles 7B–8B
8 à 12 Go	Q4_K_M (recommandé)	7B : s'adapte parfaitement ; 13B : compatible avec une carte de 12 Go
12 à 16 Go	Q5_K_M / Q6_K	Une qualité supérieure sur les modèles de milieu de gamme
16 à 24 Go	Q8_0	Qualité quasi sans perte sur les modèles 7B à 13B
24 Go et plus	F16 (précision maximale)	Ou des modèles plus grands aux trimestres 4 et 5

Tailles approximatives de stockage et de mémoire par taille de modèle au quatrième trimestre : un modèle 7B occupe environ 4 à 5 Go, un 13B entre 8 et 9 Go, un 30B entre 18 et 20 Go, et un 70B dépasse les 40 Go. Un modèle 13B au format Q4_K_M occupe environ 8 à 9 Go de poids ; un GPU de 12 Go peut donc l’héberger (poids plus un cache KV modeste) sur le GPU ; sinon, LM Studio décharge ce qui tient et exécute le reste sur le CPU, ce qui est plus lent. N’oubliez pas que le cache KV et la longueur du contexte s’ajoutent à ces chiffres ; prévoyez donc une marge de quelques gigaoctets. Si vous êtes encore en train de choisir votre premier modèle, notre tour d’horizon des Meilleurs modèles de langage locaux à exécuter sur Ollama en 2026 correspond presque parfaitement à LM Studio, puisque les deux utilisent les mêmes fichiers GGUF.

Sur Apple Silicon, privilégiez les versions MLX lorsqu'elles sont disponibles. Sur les modèles pris en charge, les compilations au format MLX sont souvent plus rapides que celles au format GGUF équivalent sur la même puce de la série M — généralement de l’ordre de 10 à 40%, bien que l’écart varie selon les modèles et puisse être proche de zéro (et que, sur certains modèles récents, le format GGUF prenne même légèrement l’avantage). La qualité est globalement comparable, mais elle n’est pas toujours identique : le format Q4_K_M à précision mixte de GGUF attribue davantage de bits aux couches sensibles, tandis que le format MLX 4 bits est plus uniforme ; il est donc utile de comparer les deux pour un modèle que vous comptez utiliser intensivement. LM Studio vous permet de changer de format par modèle depuis l’interface utilisateur ; vous pouvez ainsi opter pour la variante MLX lorsqu’elle existe et revenir à GGUF lorsqu’elle n’est pas disponible.

Le serveur local intégré (API compatible avec OpenAI)

C'est cette fonctionnalité qui fait de LM Studio bien plus qu'un simple gadget de chat : c'est un véritable outil de développement. Chargez un modèle, ouvrez l'onglet « Développement/Serveur » et activez le serveur. LM Studio met alors à disposition un API REST compatible avec OpenAI disponible à l'adresse http://localhost:1234/v1, en exposant des points de terminaison pour les compléments de conversation, les compléments, les représentations et les réponses. Tout client compatible avec le schéma OpenAI Chat Completions — le Python openai SDK, le nœud openai package, le wrapper OpenAI de LangChain, ou un fichier brut boucle — se connecte simplement en le pointant vers base_url / baseURL à cette adresse.

Il n'y a pas vraiment d'exigence concernant la clé API, ni de sortie réseau : les requêtes restent sur votre machine, il n'y a pas de limites de débit et aucun coût par jeton n'est facturé. Dans le code, on transmet généralement une clé fictive telle que " lm-studio " Il suffit de définir l'URL de base pour que les appels OpenAI existants continuent de fonctionner sans modification. LM Studio s'impose ainsi comme une solution prête à l'emploi pour le développement, les tests et les tâches sensibles en matière de confidentialité, lorsque l'envoi de données vers une API cloud n'est pas possible.

Les points forts du serveur

Un simple commutateur — pas de YAML, pas de démon distinct à configurer
Compatibilité OpenAI prête à l'emploi ; il suffit de remplacer l'URL de base et c'est parti
Entièrement local : coût nul, aucune limite de débit, aucune donnée ne quitte le boîtier
Idéal pour le prototypage d'agents et le RAG sur un modèle local gratuit

Ses points faibles

Lié à l'interface graphique de bureau — n'est pas conçu pour les serveurs sans affichage ni pour un VPS
Une surcharge mémoire au ralenti plus importante que celle d'un moteur d'exécution CLI
Solution monobloc ; pas de fonctionnalité intégrée de mise en grappe ni d'équilibrage de charge
Pour une mise en service en production en continu, un environnement d'exécution dédié est plus adapté

Si un simple serveur de bureau ne suffit plus et que vous avez besoin d'un service sans interface graphique fonctionnant en permanence, c'est précisément là qu'Ollama ou un moteur plus puissant prend le relais — consultez notre Comparaison entre Ollama, LM Studio, vLLM et llama.cpp pour l’analyse complète.

Matériel et mémoire vidéo : ce dont vous avez réellement besoin

La configuration de base recommandée comprend un processeur prenant en charge AVX2 et 16 Go de mémoire vive (8 Go suffisent pour les petits modèles, mais vous atteindrez rapidement vos limites : contexte court, petits modèles et ralentissements perceptibles). La mémoire vive est importante même sur les configurations GPU, car toutes les couches qui ne tiennent pas dans la mémoire vidéo (VRAM) sont transférées vers la mémoire vive du système.

Pour l'accélération par GPU, Au moins 4 Go de mémoire vidéo dédiée constituent la configuration minimale recommandée., et plus il y en a, mieux c’est. Pour bénéficier d’une expérience fluide avec les modèles 7B à 13B, il est recommandé d’opter pour une carte de 8 à 12 Go. Les modèles plus puissants montent rapidement en puissance : un 70B au quatrième trimestre nécessite environ 40 Go ou plus entre VRAM et RAM, c’est pourquoi pour en faire tourner un confortablement, il faut généralement compter entre 48 et 64 Go de mémoire système si vous ne pouvez pas tout loger sur le GPU. Sur Apple Silicon, l’architecture de mémoire unifiée regroupe la RAM et la VRAM ; ainsi, un Mac de 32 Go ou 64 Go offre des performances bien supérieures à ce que l’on pourrait attendre pour les modèles de taille moyenne. Si vous cherchez une carte spécialement adaptée à cet usage, consultez notre guide sur les meilleur GPUs for local LLMs en 2026 explique le calcul du prix au gigaoctet.

LM Studio ou Ollama : lequel vous convient le mieux ?

On les compare sans cesse, et pour faire court, on peut dire qu’ils s’adressent à des publics différents. Ollama Il s'agit d'une interface CLI et d'un service HTTP conçus avant tout pour les développeurs, que l'on exécute en mode headless ; LM Studio est une interface graphique soignée, que l'on utilise par simple clic. Les deux exécutent des modèles GGUF via llama.cpp ; la vitesse brute par token est donc pratiquement identique pour un modèle et une quantification identiques. Les différences portent sur l'ergonomie et le déploiement.

Dimension	LM Studio	Ollama
Interface principale	Interface graphique de bureau	Interface en ligne de commande (CLI) + API HTTP
Empreinte en veille	Plus lourd (interface graphique complète)	Allume-cigare (service en arrière-plan)
Format type	GGUF + MLX	GGUF
Serveur compatible OpenAI	Oui, le port 1234	Oui, le port 11434
Utilisation en mode « headless » / sur serveur	Utilisation non conforme	Conçu spécialement pour cela
Idéal pour	Découvrir et discuter	Automatisation et déploiement

Optez pour LM Studio si vous souhaitez principalement discuter avec des modèles sur un ordinateur portable, parcourir et tester de nombreux modèles en toute simplicité, et éviter complètement le terminal — il offre notamment aux utilisateurs de Windows une expérience fluide, guidée par un programme d’installation. Optez pour Ollama si vous intégrez des modèles dans une base de code, si vous effectuez un déploiement sur un VPS ou si vous automatisez un pipeline via des scripts. Beaucoup d’utilisateurs utilisent les deux : LM Studio pour trouver et évaluer un modèle, et Ollama pour le mettre en production. Si vous comparez spécifiquement différentes interfaces graphiques, notre Comparaison entre Ollama et Jan présente un autre concurrent open source dans ce même domaine.

FAQ

LM Studio est-il gratuit pour un usage commercial ?

Oui. Depuis le 8 juillet 2025, LM Studio est gratuit tant pour un usage personnel que professionnel, et il n'est plus nécessaire de demander une licence distincte ni de remplir un formulaire. Il existe une offre Enterprise payante en option pour les organisations souhaitant bénéficier de fonctionnalités d'administration avancées (telles que l'authentification unique (SSO) et le contrôle d'accès aux modèles/MCP), mais l'application standard est gratuite.

LM Studio fonctionne-t-il sur les Mac équipés d'un processeur Intel ?

Non. Les versions actuelles de LM Studio nécessitent un processeur Apple Silicon (M1 à M4 et leurs variantes) ainsi que macOS 14.0 ou une version plus récente. Les Mac équipés d’un processeur Intel ne sont pas pris en charge. Sur Apple Silicon, vous bénéficiez également du moteur MLX, plus rapide, en plus de GGUF.

Quel format de modèle LM Studio utilise-t-il ?

LM Studio exécute les modèles GGUF via son moteur intégré « llama.cpp » sur pratiquement tous les matériels, et les modèles au format MLX via le moteur MLX d’Apple sur les Mac de la série M. Le format GGUF est la norme de fichier unique commune à LM Studio, Ollama, Jan et GPT4All ; les modèles sont donc largement interchangeables entre ces outils.

Quelle est la différence entre Q4_K_M et Q8_0 ?

Ces deux options correspondent à des niveaux de quantification. Q4_K_M est un format 4 bits qui représente environ un tiers de la taille de la précision maximale tout en conservant la grande majorité de la qualité — c'est le réglage par défaut recommandé pour la plupart des matériels. Q8_0 est un format 8 bits, plus volumineux et pratiquement sans perte, qui ne vaut la peine d'être utilisé que si vous disposez de 16 à 24 Go de VRAM.

Comment puis-je connecter mon code au serveur local de LM Studio ?

Activez le serveur dans l'onglet « Developer/Server » après avoir chargé un modèle, puis configurez l'URL de base de n'importe quel SDK OpenAI pour qu'elle pointe vers http://localhost:1234/v1. Aucune clé API réelle n'est nécessaire (vous pouvez entrer n'importe quelle chaîne de caractères à titre de placeholder), et le code existant d'OpenAI Chat Completions fonctionne sans autre modification.

De combien de VRAM ai-je besoin pour faire tourner un modèle 7B ?

Un modèle 7B en configuration Q4_K_M occupe environ 4 à 5 Go sur le disque dur ; compte tenu du cache KV et de la surcharge, une carte dotée de 6 à 8 Go de VRAM permet de l'exécuter sans problème et intégralement sur le GPU. Avec moins de VRAM, LM Studio transfère le surplus vers la mémoire vive du système et le processeur, ce qui fonctionne tout de même mais est plus lent.

Puis-je faire fonctionner LM Studio en tant que serveur sur un VPS ?

Ce n'est pas le cas d'utilisation prévu. LM Studio s'articule autour de son interface graphique de bureau, et l'option « serveur » suppose l'utilisation d'une machine locale. Pour un hébergement « headless » et toujours actif sur un VPS, Ollama ou un moteur d'inférence dédié constituent une meilleure solution.

Conclusion

LM Studio est la solution la plus simple pour se lancer dans les LLM locaux en 2026, et elle est désormais véritablement gratuite, quelle que soit l’utilisation que vous en faites. Si vous souhaitez télécharger un modèle, discuter avec lui et, de temps à autre, envoyer votre propre code vers un point de terminaison privé compatible avec OpenAI — le tout sans avoir à utiliser de terminal —, aucune autre solution n’est aussi accessible. La version 0.4.x a également comblé de réelles lacunes grâce à des fonctionnalités telles que le traitement tensoriel parallèle sur plusieurs GPU et le décodage spéculatif ; il ne s’agit donc plus d’un simple jouet pour débutants.

C’est au niveau du déploiement que le bât blesse. La surcharge liée à l’interface graphique et le fait que le serveur soit lié à un poste de travail font que LM Studio n’est pas l’outil adapté à une mise en production « headless » — c’est là le rôle d’Ollama ou de vLLM. La démarche la plus pragmatique consiste à considérer LM Studio comme votre environnement de travail pour l’exploration et les échanges, à vous en servir pour trouver le modèle et la quantification adaptés à votre matériel, puis à opter pour un environnement d’exécution dédié lorsque vous devez faire fonctionner ce modèle 24 heures sur 24. Pour la plupart des utilisateurs qui exécutent des modèles sur un ordinateur portable ou de bureau, c’est toutefois la première application à installer.

Rédigé par Mustafa Ihsan

Mustafa Ihsan est le fondateur et rédacteur en chef de Convly.ai. Il a conçu et maintient la base de données en temps réel des modèles IA du site, son indice prix-performance, ainsi que ses calculateurs gratuits pour les besoins en VRAM, les coûts des API et l’économie de l’auto-hébergement. Il écrit sur la tarification des modèles, les résultats des benchmarks et le matériel nécessaire pour exécuter localement des modèles IA, privilégiant systématiquement les chiffres mesurés aux allégations des fournisseurs.

Tous les articles de Mustafa Ihsan · À propos de Convly