Is Nemotron 3 Nano Omni free?

The weights are openly available under the NVIDIA Open Model Agreement, which allows commercial use, and you can try the model for free on OpenRouter. "Free" to self-host still means paying for the GPU it runs on — but there are no license fees and no per-token cost if you host it yourself.

What inputs can Nemotron 3 Nano Omni accept?

Text, images, audio (WAV/MP3 up to about one hour), and video (MP4 up to about two minutes), all in a single reasoning loop. It outputs text, including structured JSON, tool calls, chain-of-thought reasoning, and word-level timestamps for audio.

How much VRAM do I need to run it?

It depends on the precision. The 4-bit NVFP4 build (~21 GB) needs a 32GB RTX 5090 minimum; the FP8 build (~33 GB) needs a 48GB L40S; and the full BF16 build (~62 GB) needs an H100 80GB or a B200. The multimodal encoders and long context add overhead beyond the raw weight size.

Can I run it on an RTX 4090 or an 8GB GPU?

For the full Omni multimodal model, realistically no — a 24GB RTX 4090 is borderline and 8GB cards are out. If you need a Nemotron that runs on smaller hardware, use the text-only Nemotron 3 Nano (which has community GGUF builds), accepting that you lose the vision, audio, and video capabilities.

Is it better than closed multimodal models like GPT or Gemini?

On open multimodal benchmarks for documents, video, and audio — and especially on efficiency — it leads or matches much larger models in its class. But the biggest closed frontier models are still stronger at broad, open-ended reasoning. Its real advantage is doing perception tasks fast, cheap, and openly.

What is Nemotron 3 Nano Omni actually for?

NVIDIA describes it as the "multimodal perception and context sub-agent" in agentic systems — the component that reads documents, watches video, and listens to audio so a larger agent can decide what to do. Think document intelligence, media analysis, and GUI automation rather than general chat.

NVIDIA Nemotron 3 Nano Omni expliqué : un modèle ouvert qui voit, entend et lit (2026)

NVIDIA vient de publier Nemotron 3 Nano Omni, et la proposition est remarquablement simple : un seul modèle ouvert capable de voir, entendre, regarder et lire — puis de raisonner sur l’ensemble de ces entrées en une seule passe. Pas de modèle visuel séparé, pas de module de reconnaissance vocale ajouté, pas de chaîne de trois API différentes reliées entre elles. Texte, images, audio et vidéo sont tous injectés dans le même modèle, qui renvoie des réponses structurées.

Ce qui rend cela intéressant n’est pas à lui seul le qualificatif « omni » — de nombreux laboratoires proposent aujourd’hui des modèles multimodaux. Ce qui distingue Nemotron 3 Nano Omni, c’est qu’il réalise cette tâche avec seulement 3 milliards de paramètres actifs sur environ 30 milliards au total, sous une licence commerciale véritablement ouverte, les poids étant disponibles sur Hugging Face. Autrement dit : une fonctionnalité multimodale de pointe, dans une taille et sous une licence permettant effectivement à un développeur individuel ou à une petite entreprise de le déployer et de s’y appuyer.

Ce guide analyse ce qu’est ce modèle, comment son architecture parvient à rester si efficace, ses performances réelles sur des benchmarks concrets, et — question primordiale pour nos lecteurs — ce qu’il faut réellement pour l’exécuter.

Points clés

Conception 30B-A3B — environ 30 milliards de paramètres au total, mais seulement ~3 milliards de paramètres actifs par token, ce qui permet de l’exécuter à bien moindre coût que ne le laisse supposer sa taille nominale.
Vraiment multimodal — texte, images, audio (jusqu’à ~1 heure) et vidéo (jusqu’à ~2 minutes) en entrée ; texte en sortie.
Hybride MoE Mamba-Transformer — les couches Mamba traitent efficacement les longs contextes ; les couches Transformer combinées à un mélange d’experts (mixture-of-experts) assurent le raisonnement.
contexte de 256 Ko, appel de fonctions, sortie JSON et chaîne de raisonnement (chain-of-thought), voire horodatages audio au niveau du mot.
Ouvert et commercial — Accord NVIDIA Open Model ; poids disponibles sur Hugging Face, test gratuits possibles sur OpenRouter.
Pas un modèle destiné aux GPU peu puissants — la version multimodale nécessite réellement une RTX 5090 avec 32 Go de VRAM (quantification 4 bits) ou une carte professionnelle / pour centre de données disposant de 48 à 80 Go de VRAM.

Qu’est-ce que Nemotron 3 Nano Omni ?

Nemotron 3 Nano Omni est le modèle ouvert de raisonnement multimodal de NVIDIA — membre « Omni » de la famille Nemotron 3 Nano. Son nom reflète ses trois caractéristiques fondamentales. Nemotron 3 est la troisième génération de modèles ouverts de NVIDIA. Nano signale le niveau d'efficacité — suffisamment petit pour être auto-hébergé, et pas un modèle réservé aux énormes centres de données. Omni est le point central : il comprend nativement quatre types d'entrées — texte, images, audio et vidéo — au sein d'une seule boucle de raisonnement unifiée, plutôt que de chaîner plusieurs modèles spécialisés séparés.

Ce dernier point constitue la véritable nouveauté. La méthode habituelle pour construire un système capable de « regarder une vidéo et d’y répondre » consiste en un pipeline : un modèle transcrit l’audio, un autre génère des légendes pour les images fixes, un troisième analyse le texte, et un modèle de langage assemble les résultats. Chaque étape ajoute de la latence, des coûts et un risque de perte d’information. Nemotron 3 Nano Omni compresse ce pipeline en un seul modèle qui perçoit simultanément tous les flux. NVIDIA le présente comme le « sous-agent de perception multimodale et de contexte » au sein de systèmes agents plus vastes — la composante qui regarde, écoute et lit afin que le reste de l’agent puisse agir.

Et il y parvient tout en restant compact là où cela compte. Bien qu’il comporte environ 30 milliards de paramètres au total, seuls environ 3 milliards sont activés pour chaque jeton. C’est là la clé qui rend l’ensemble pratique, et il est utile de comprendre pourquoi.

L’architecture : pourquoi est-elle si efficace ?

Deux choix architecturaux permettent à Nemotron 3 Nano Omni de surpasser sa catégorie en termes de performances.

Un socle hybride Mamba-Transformer. La plupart des modèles de langage reposent exclusivement sur l’architecture Transformer, excellente pour le raisonnement mais coûteuse à mesure que le contexte s’allonge — le coût de l’attention augmente quadratiquement avec la longueur de la séquence. Nemotron 3 Nano Omni entrelace des couches Mamba (basées sur un espace d’état sélectif) avec des couches Transformer. Les couches Mamba traitent efficacement les séquences longues et leur mémoire ; les couches Transformer assurent le raisonnement précis. NVIDIA cite jusqu’à 4 fois meilleure efficacité mémoire et calculatoire grâce à cette hybridation comparée à un modèle purement Transformer équivalent — un avantage déterminant lorsque l’entrée peut être une heure d’audio ou un document de 256 K jetons.

Une pile de couches « mélange d’experts » (MoE). Au lieu d’activer tous les paramètres pour chaque jeton, le modèle aiguille chaque jeton vers un petit sous-ensemble de sous-réseaux spécialisés, appelés « experts ». Seulement environ ~3 milliards des ~30 milliards de paramètres sont sollicités par jeton. On obtient ainsi la capacité de connaissance d’un modèle de 30 milliards de paramètres, avec un coût d’inférence proche de celui d’un modèle de 3 milliards de paramètres. Il s’agit du même principe d’efficacité utilisé par d’autres modèles ouverts modernes tels que inference cost of a 3B one. This is the same efficiency play behind other modern open models like GLM 5.2 et Kimi K2.7 Code — si vous souhaitez approfondir le fonctionnement technique, notre article explicatif sur le fonctionnement des modèles « mélange d’experts » décrit clairement le mécanisme de routage.

Par-dessus ce socle linguistique sont intégrés deux encodeurs spécialisés qui confèrent au modèle ses « sens » :

Vision : un encodeur C-RADIOv4-H doté de convolutions 3D pour le traitement spatio-temporel, ainsi qu’une couche Efficient Video Sampling (EVS) afin d’éviter une explosion du budget en jetons pour les vidéos.
Audio : encodeur NVIDIA Parakeet , capable de traiter la parole et l’audio général, et même de produire des horodatages au niveau du mot.

Le résultat est un modèle unique qui prend en entrée des pixels, des formes d’onde et du texte, et les transforme en une représentation interne partagée sur laquelle il peut raisonner conjointement.

Ce qu’il peut réellement faire

Sur le papier, le terme « multimodal » peut signifier presque n’importe quoi ; voici donc les capacités concrètes documentées par NVIDIA pour Nemotron 3 Nano Omni :

Entrées : texte ; images (RVB) ; audio au format WAV ou MP3 jusqu’à environ une heure; et vidéo au format MP4 jusqu’à environ deux minutes.
Sortie : texte — mais un texte riche. Le modèle peut générer du JSON structuré, afficher sa chaîne de raisonnement, effectuer des appels d’outils, et joindre des horodatages au niveau du mot à la transcription audio.
Fenêtre de contexte : 256 K jetons, avec une augmentation progressive de la longueur de contexte durant l’entraînement (environ 16 K → 49 K → 262 K). Cela permet d’intégrer en une seule passe un long contrat, une transcription détaillée ou une vaste base de code — la même capacité de traitement de contexte étendu qui rend les bases de données vectorielles et et les pipelines RAG moins indispensables pour les documents de taille moyenne.

NVIDIA identifie les cas d’usage pratiques autour de la intelligence documentaire (analyse de contrats, formulaires et pages numérisées via OCR), médias et divertissement (analyse de vidéos et de discours), service client, et automatisation d’interfaces graphiques (GUI) — un agent capable d’observer un écran et de décider quoi cliquer. Le fil conducteur est perception: des tâches où le modèle doit d’abord comprendre des entrées réelles complexes avant de pouvoir accomplir quoi que ce soit d’utile.

Benchmarks : quelle est sa véritable performance ?

Les scores des benchmarks évoluent à chaque nouvelle version ; considérez-les donc comme une photographie instantanée plutôt que comme une vérité absolue. Cela dit, le tableau est cohérent : Nemotron 3 Nano Omni devance ou égale des modèles nettement plus volumineux sur les tâches exigeant fortement la perception, et il se distingue nettement en matière d’efficacité.

Quelques résultats publiés par NVIDIA pour ce modèle :

Benchmark	Ce qu’il mesure	Score
OCRBench V2	Reconnaissance de texte dans des images ou des documents	67.04
CV-Bench 2D	Ancrage visuel (visual grounding)	83.95
Video-MME	Compréhension vidéo	72.2
OSWorld	Utilisation informatique / agents d’interface graphique (GUI)	47.4
Speech IF	Suivi d’instructions orales	89.39

Par ailleurs, NVIDIA indique une précision record sur les classements spécialisés dans l’analyse de documents, notamment MMLongBench-Doc et des résultats leaders dans leur catégorie sur les benchmarks vidéo-et-audio WorldSense et DailyOmni ainsi que sur la suite audio VoiceBench .

C’est surtout sur l’efficacité que ce modèle se démarque véritablement. NVIDIA cite une capacité système effective environ 9,2 fois supérieure sur les charges de travail de raisonnement vidéo et environ 7,4× sur les tâches impliquant plusieurs documents, comparé à des solutions alternatives similaires — et sur un benchmark d’étiquetage vidéo, il a traité le plus grand volume de vidéos par heure au coût d’inférence le plus bas parmi tous les modèles testés, qu’ils soient open source ou propriétaires. Le chiffre phare mentionné ailleurs dans les documents NVIDIA est un débit jusqu’à 9 fois supérieur et et un raisonnement monocourant 2,9 fois plus rapide sur les cas d’usage multimodaux. Même si les performances réelles s’avèrent inférieures, la tendance est claire : ce modèle est conçu pour être peu coûteux à déployer à grande échelle, ce qui correspond exactement aux besoins d’un agent perceptif toujours actif.

La mise en garde honnête : ces résultats proviennent des benchmarks internes de NVIDIA, et « leader de sa catégorie parmi les modèles multimodaux open source de taille comparable » ne signifie pas « bat tous les modèles propriétaires de pointe dans tous les domaines ». Pour des raisonnements larges et ouverts, les modèles propriétaires les plus volumineux restent en tête. L’argument de Nemotron 3 Nano Omni repose sur l’efficacité couplée à l’ouverture, et non sur une suprématie brute aux frontières du domaine.

Peut-on l’exécuter localement ? Exigences en VRAM et matériel

Il convient ici de remettre les attentes à plat. Nemotron 3 Nano Omni est « petit » par rapport à un modèle de pointe de plus de 100 milliards de paramètres, mais c’est tout de même un modèle multimodal de 30 milliards de paramètres, et la version Omni est plus gourmande en ressources qu’un modèle textuel du même nombre de paramètres. NVIDIA publie trois variantes quantifiées avec des seuils matériels précis :

Précision	Taille du modèle	GPU NVIDIA minimal requis
BF16 (pleine précision)	~62 Go	1 × H100 80 Go ou 1 × B200
FP8	~33 Go	1 × L40S 48 Go
NVFP4 (4 bits)	~21 Go	1 × RTX 5090 32 Go

Lisez attentivement cette dernière ligne, car c’est celle qui intéressera la plupart des utilisateurs. Les poids en NVFP4 4 bits occupent environ 21 Go — mais le GPU minimal officiellement requis par NVIDIA est une RTX 5090 32 Go et non une carte de 24 Go. Ce décalage reflète la surcharge multimodale : les encodeurs visuels et audio, le cache KV et un contexte long nécessitent tous une marge de manœuvre supplémentaire au-delà de l’espace occupé par les poids eux-mêmes. En pratique, cela signifie qu’une carte de 24 Go est tout juste suffisante, voire limite, pour faire fonctionner la variante Omni, tandis que les cartes graphiques grand public typiques de 8 à 16 Go sont inadaptées au modèle multimodal complet. 32GB RTX 5090, not a 24GB card. That gap is the multimodal overhead: the vision and audio encoders, the KV cache, and a long context all need headroom on top of the weights. In practice that means a 24GB RTX 4090 est tout juste suffisante, voire limite, pour faire fonctionner la variante Omni, tandis que les cartes graphiques grand public typiques de 8 à 16 Go sont inadaptées au modèle multimodal complet.

Si votre objectif est simplement « exécuter un Nemotron efficace sur une carte moins puissante », la solution mieux adaptée est le Nemotron 3 Nano textuel (non Omni) que la communauté a déjà empaqueté sous forme de builds légers GGUF, exécutables sur du matériel bien plus modeste — au prix de renoncer aux capacités visuelles, audio et vidéo. Pour une introduction à l’adéquation entre taille de modèle et carte graphique, consultez notre guide sur la quantité de VRAM requise par chaque grand modèle linguistique (LLM) et nos sélections pour les meilleurs GPU pour les grands modèles linguistiques locaux.

Comment l’exécuter — et où l’obtenir

Vous avez trois voies réalistes, selon que vous souhaitez essayer le modèle ou le déployer en production.

1. Essayez-le gratuitement, sans matériel spécifique. La méthode la plus rapide pour découvrir ses capacités consiste à utiliser OpenRouter, qui héberge le modèle avec un niveau gratuit. Vous pouvez également y accéder via l’API hébergée de NVIDIA. Idéal pour évaluer la qualité avant de vous engager dans une infrastructure dédiée.

2. Hébergement local en production. NVIDIA le fournit sous forme de microservice NIM, et il est pris en charge par les frameworks sérieux d’inférence — vLLM, SGLang et TensorRT-LLM —, ce qui vous permet de l’exécuter efficacement sur une carte H100, L40S ou RTX 5090. C’est la solution privilégiée par les équipes qui exigent un contrôle total des données et des coûts prévisibles à grande échelle.

3. Exécution locale sur poste de travail. La prise en charge dans des outils grand public comme LM Studio, Ollama, et llama.cpp s’améliore progressivement — simple à mettre en œuvre aujourd’hui pour la version textuelle uniquement de Nemotron 3 Nano, tandis que le support complet multimodal (Omni) arrivera au fur et à mesure que ces environnements s’adapteront aux nouveaux encodeurs. Si vous débutez en inférence locale, commencez par notre guide complet de LM Studio ou par notre comparatif des Ollama contre LM Studio contre vLLM contre llama.cpp outils disponibles afin de choisir celui qui vous convient le mieux.

Les poids du modèle sont disponibles sur Hugging Face, au sein de l’organisation officielle nvidia/ , dans les versions BF16, FP8 et NVFP4.

Licence et usage commercial

C’est l’un des principaux atouts de Nemotron 3 Nano Omni. Il est publié sous l’ Accord NVIDIA sur les modèles ouverts (licence Nemotron Open Model License), qui autorise l’usage commercial. Vous pouvez l’héberger localement, le fine-tuner — la famille Nemotron est livrée avec des recettes d’entraînement ouvertes, et des outils comme Unsloth prennent déjà en charge son affinage — et l’intégrer à un produit commercial, tout en conservant vos données sur votre propre infrastructure.

Cette combinaison de poids ouverts et de licence commerciale permissive en fait une alternative crédible aux API multimodales fermées pour les entreprises qui ne peuvent pas, ou ne veulent pas, envoyer de documents sensibles, d’enregistrements téléphoniques ou de vidéos vers un point de terminaison tiers.

Pour qui est-il adapté — et pour qui ne l’est-il pas ?

Les concepteurs d’agents ayant besoin d’une couche de perception peu coûteuse et rapide — capable de lire des documents, visionner de courts extraits vidéo ou transcrire des appels dans le cadre d’un système plus vaste — constituent le public cible. C’est précisément ce cas d’usage qu’a conçu NVIDIA.
Les entreprises nécessitant une IA multimodale sur site avec un contrôle strict des données disposent désormais d’une option ouverte et commercialement licenciée, compétitive face aux API fermées sur les tâches de perception essentielles.
Les développeurs disposant d’une carte graphique de 32 Go ou plus (RTX 5090 ou cartes professionnelles / data-center) peuvent héberger localement le modèle Omni complet et développer dessus.
Les passionnés équipés de cartes graphiques grand public de 8 à 16 Go doivent modérer leurs attentes : le modèle multimodal complet n’est pas adapté à leur carte. Privilégiez plutôt la version textuelle uniquement de Nemotron 3 Nano, ou des modèles multimodaux plus légers.
Toute personne recherchant simplement le meilleur chatbot conversationnel ouvert sera probablement plus satisfaite avec un modèle général plus volumineux — l’avantage de Nemotron 3 Nano Omni réside dans la perception et l’efficacité, non dans le raisonnement conversationnel généralisé.

FAQ

Nemotron 3 Nano Omni est-il gratuit ?

Les poids sont librement accessibles sous l’Accord NVIDIA sur les modèles ouverts, qui autorise l’usage commercial, et vous pouvez tester le modèle gratuitement sur OpenRouter. Le terme « gratuit » pour l’hébergement local signifie néanmoins que vous devrez assumer le coût de la carte GPU nécessaire à son exécution — mais aucune redevance de licence ni aucun coût par jeton ne s’applique si vous l’hébergez vous-même.

Quels types d’entrées Nemotron 3 Nano Omni peut-il accepter ?

Du texte, des images, de l’audio (WAV/MP3 jusqu’à environ une heure) et de la vidéo (MP4 jusqu’à environ deux minutes), le tout dans une seule boucle de raisonnement. En sortie, il génère du texte, notamment du JSON structuré, des appels d’outils, un raisonnement pas à pas (chain-of-thought) et des horodatages au niveau du mot pour l’audio.

De combien de VRAM ai-je besoin pour l’exécuter ?

Cela dépend de la précision utilisée. La version 4 bits NVFP4 (~21 Go) requiert au minimum une RTX 5090 de 32 Go ; la version FP8 (~33 Go) nécessite une L40S de 48 Go ; quant à la version complète BF16 (~62 Go), elle exige une H100 de 80 Go ou une B200. Les encodeurs multimodaux et le contexte long ajoutent une surcharge supplémentaire au-delà de la taille brute des poids.

Puis-je l’exécuter sur une RTX 4090 ou une carte de 8 Go ?

Pour le modèle multimodal Omni complet, la réponse est réaliste : non — une RTX 4090 de 24 Go se situe à la limite, et les cartes de 8 Go sont exclues. Si vous avez besoin d’une version de Nemotron fonctionnant sur du matériel moins puissant, utilisez la version textuelle uniquement de Nemotron 3 Nano (disponible en versions communautaires GGUF), en acceptant de sacrifier les capacités visuelles, audio et vidéo.

Est-il meilleur que les modèles multimodaux fermés comme GPT ou Gemini ?

Sur les benchmarks ouverts multimodaux portant sur les documents, la vidéo et l’audio — et surtout en termes d’efficacité — il devance ou égale des modèles bien plus volumineux de sa catégorie. Toutefois, les plus grands modèles fermés de pointe restent supérieurs pour le raisonnement généralisé et ouvert. Son véritable avantage réside dans l’exécution rapide, économique et ouverte de tâches de perception.

À quoi sert concrètement Nemotron 3 Nano Omni ?

NVIDIA le décrit comme le « sous-agent de perception et de contexte multimodal » au sein des systèmes agents — le composant chargé de lire des documents, visionner des vidéos et écouter des enregistrements audio afin qu’un agent plus vaste puisse décider de la suite des actions. Pensez à l’intelligence documentaire, à l’analyse multimédia ou à l’automatisation d’interfaces graphiques, plutôt qu’à un chatbot généraliste.

Conclusion

Nemotron 3 Nano Omni est une sortie précise et ciblée. Il ne cherche pas à être le modèle le plus intelligent au monde ; il vise à devenir la solution la plus efficace pour doter un système d’IA de véritables sens — vue, ouïe et lecture — dans un seul paquet ouvert et auto-hébergeable. Sa conception MoE (mixture-of-experts) de 30 milliards de paramètres avec 3 milliards actifs, combinée à son architecture hybride Mamba-Transformer, rend effectivement abordable son déploiement, tandis que sa licence commerciale ouverte en garantit l’utilisation réelle dans un produit.

Il faut garder à l’esprit un point crucial : les exigences matérielles. Ce modèle est « nano » par rapport aux modèles de pointe, pas par rapport aux PC de jeu — la version multimodale complète requiert une RTX 5090 de 32 Go ou supérieure. Si vous disposez de cette carte et que vous développez une application nécessitant une perception économique du monde réel, Nemotron 3 Nano Omni est l’un des modèles ouverts les plus convaincants de 2026. Si vous recherchez simplement un petit chatbot pour un ordinateur portable équipé d’une carte graphique de 8 Go, ce modèle ne vous convient pas — mais sa version textuelle uniquement pourrait parfaitement répondre à vos besoins.