Is Nemotron 3 Nano Omni free?

The weights are openly available under the NVIDIA Open Model Agreement, which allows commercial use, and you can try the model for free on OpenRouter. "Free" to self-host still means paying for the GPU it runs on — but there are no license fees and no per-token cost if you host it yourself.

What inputs can Nemotron 3 Nano Omni accept?

Text, images, audio (WAV/MP3 up to about one hour), and video (MP4 up to about two minutes), all in a single reasoning loop. It outputs text, including structured JSON, tool calls, chain-of-thought reasoning, and word-level timestamps for audio.

How much VRAM do I need to run it?

It depends on the precision. The 4-bit NVFP4 build (~21 GB) needs a 32GB RTX 5090 minimum; the FP8 build (~33 GB) needs a 48GB L40S; and the full BF16 build (~62 GB) needs an H100 80GB or a B200. The multimodal encoders and long context add overhead beyond the raw weight size.

Can I run it on an RTX 4090 or an 8GB GPU?

For the full Omni multimodal model, realistically no — a 24GB RTX 4090 is borderline and 8GB cards are out. If you need a Nemotron that runs on smaller hardware, use the text-only Nemotron 3 Nano (which has community GGUF builds), accepting that you lose the vision, audio, and video capabilities.

Is it better than closed multimodal models like GPT or Gemini?

On open multimodal benchmarks for documents, video, and audio — and especially on efficiency — it leads or matches much larger models in its class. But the biggest closed frontier models are still stronger at broad, open-ended reasoning. Its real advantage is doing perception tasks fast, cheap, and openly.

What is Nemotron 3 Nano Omni actually for?

NVIDIA describes it as the "multimodal perception and context sub-agent" in agentic systems — the component that reads documents, watches video, and listens to audio so a larger agent can decide what to do. Think document intelligence, media analysis, and GUI automation rather than general chat.

NVIDIA Nemotron 3 Nano Omni spiegato: un modello aperto che vede, sente e legge (2026)

NVIDIA ha appena rilasciato Nemotron 3 Nano Omni, e la proposta è insolitamente semplice: un singolo modello aperto che può vedere, sentire, guardare e leggere —per poi ragionare su tutto questo in un singolo passaggio. Nessun modello di visione separato, nessun speech-to-text aggiunto, nessuna pipeline di tre API diverse incollate insieme. Testo, immagini, audio e video entrano tutti nello stesso modello, e ne escono risposte strutturate.

La cosa interessante non è l'etichetta «omni» di per sé —ormai molti laboratori rilasciano modelli multimodali. È che Nemotron 3 Nano Omni lo fa con soli 3 miliardi di parametri attivi su circa 30 miliardi totali, sotto una licenza commerciale davvero aperta, con i pesi disponibili su Hugging Face. In altre parole: un set di funzionalità multimodali di primo livello, in una dimensione e una licenza che uno sviluppatore singolo o una piccola azienda possono davvero distribuire e su cui costruire.

Questa guida spiega cos'è il modello, come la sua architettura resta così efficiente, come si comporta in benchmark reali e —la domanda che conta di più per i nostri lettori— cosa serve davvero per eseguirlo.

Punti chiave

Design 30B-A3B —circa 30 miliardi di parametri totali ma solo ~3 miliardi attivi per token, quindi gira molto più economico di quanto suggerisca la sua dimensione nominale.
Davvero omni-modale —entrano testo, immagini, audio (fino a ~1 ora) e video (fino a ~2 minuti); esce testo.
MoE ibrido Mamba-Transformer —gli strati Mamba gestiscono il contesto lungo in modo efficiente; gli strati Transformer + mixture-of-experts si occupano del ragionamento.
contesto da 256K, chiamate a strumenti, output in JSON e in catena di pensiero, e persino timestamp audio a livello di parola.
Aperto e commerciale —NVIDIA Open Model Agreement; pesi su Hugging Face, gratis da provare su OpenRouter.
Non è un modello per GPU piccole —la build multimodale vuole, realisticamente, una RTX 5090 da 32 GB (4 bit) o una scheda professionale/da data center da 48–80 GB.

Cos'è Nemotron 3 Nano Omni?

Nemotron 3 Nano Omni è il modello di ragionamento multimodale aperto di NVIDIA —il membro «Omni» della famiglia Nemotron 3 Nano. Il nome racchiude i suoi tre tratti distintivi. Nemotron 3 è la linea di modelli aperti di terza generazione di NVIDIA. Nano indica la fascia di efficienza —abbastanza piccolo da auto-ospitarlo, non un modello gigantesco solo per data center. Omni è il fulcro: comprende nativamente quattro tipi di input —testo, immagini, audio e video— all'interno di un singolo ciclo di ragionamento unificato, anziché concatenare modelli specializzati separati.

Quest'ultimo punto è la vera storia. Il modo consueto di costruire un sistema in grado di «guardare un video e rispondere a domande su di esso» è una pipeline: un modello trascrive l'audio, un altro descrive i fotogrammi, un terzo legge il testo e un modello linguistico cuce insieme gli output. Ogni passaggio aggiunge latenza, costo e un punto in cui l'informazione si perde. Nemotron 3 Nano Omni comprime quella pipeline in un singolo modello che percepisce tutto in una volta. NVIDIA lo descrive come il «sub-agente multimodale di percezione e contesto» all'interno di sistemi agentici più grandi —la parte che guarda, ascolta e legge affinché il resto dell'agente possa agire.

E ci riesce restando piccolo dove conta. Pur portando circa 30 miliardi di parametri in totale, solo all'incirca 3 miliardi sono attivi per un dato token. È il trucco che rende il tutto pratico —e vale la pena capire perché.

L'architettura: perché è così efficiente

Due scelte di progettazione permettono a Nemotron 3 Nano Omni di colpire al di sopra della propria categoria.

Un backbone ibrido Mamba-Transformer. La maggior parte dei modelli linguistici sono Transformer puri, eccellenti nel ragionamento ma che diventano costosi al crescere del contesto —il loro costo di attenzione scala in modo quadratico con la lunghezza della sequenza. Nemotron 3 Nano Omni alterna strati Mamba (un design selettivo a spazio di stati) con strati Transformer. Gli strati Mamba trasportano sequenza e memoria in modo efficiente su input lunghi; gli strati Transformer svolgono il ragionamento preciso. NVIDIA dichiara fino a 4× di efficienza in più in memoria e calcolo con questo ibrido rispetto a un modello comparabile basato solo su Transformer —cosa che conta enormemente quando il tuo input può essere un'ora di audio o un documento da 256K token.

Uno stack di strati mixture-of-experts (MoE). Invece di usare ogni parametro su ogni token, il modello instrada ogni token verso un piccolo sottoinsieme di sotto-reti «esperte». Solo ~3B dei ~30B parametri si attivano per token. Ottieni la capacità di conoscenza di un modello da 30B con all'incirca il costo di inferenza di uno da 3B. È la stessa logica di efficienza dietro altri moderni modelli aperti come GLM 5.2 e Kimi K2.7 Code —se vuoi la meccanica più approfondita, il nostro articolo su come funzionano i modelli mixture-of-experts spiega l'instradamento in parole semplici.

Sopra quel backbone linguistico siedono due encoder specializzati che danno al modello i suoi sensi:

Visione: un C-RADIOv4-H encoder con convoluzioni 3D per l'elaborazione spaziotemporale, più uno strato Efficient Video Sampling (EVS) affinché il video non faccia esplodere il budget di token.
Audio: un encoder Parakeet di NVIDIA, che gestisce voce e audio generico e produce persino timestamp a livello di parola.

Il risultato è un singolo modello che prende pixel, forme d'onda e testo e li trasforma in una rappresentazione interna condivisa su cui può ragionare insieme.

Cosa sa fare davvero

Sulla carta «multimodale» può significare quasi tutto, quindi ecco le capacità concrete che NVIDIA documenta per Nemotron 3 Nano Omni:

Input: testo; immagini (RGB); audio come WAV o MP3 fino a circa un'ora; e video come MP4 fino a circa due minuti.
Output: testo —ma testo ricco. Può emettere JSONstrutturato, mostrare il suo ragionamento a catena di pensiero, effettuare chiamate a strumentie allegare timestamp a livello di parola all'audio che trascrive.
Finestra di contesto: 256K token, con la lunghezza di contesto aumentata progressivamente durante l'addestramento (circa 16K → 49K → 262K). Abbastanza da contenere un contratto lungo, una trascrizione estesa o una grande base di codice in un singolo passaggio —la stessa capacità di contesto lungo che rende le database vettoriali e pipeline RAG meno necessarie per documenti di medie dimensioni.

NVIDIA colloca i casi d'uso pratici attorno a intelligenza documentale (lettura di contratti, moduli e pagine scansionate con OCR), media e intrattenimento (analisi di video e voce), assistenza clientie automazione della GUI —un agente che può guardare uno schermo e decidere dove cliccare. Il filo conduttore è percezione: compiti in cui il modello deve capire input disordinati del mondo reale prima di poter fare qualcosa di utile.

Benchmark: quanto è buono davvero?

I numeri dei benchmark cambiano a ogni rilascio, quindi prendili come un'istantanea più che come un dogma. Detto questo, il quadro è coerente: Nemotron 3 Nano Omni guida o eguaglia modelli molto più grandi in compiti ad alta percezione, e vince nettamente in efficienza.

Punteggi selezionati che NVIDIA riporta per il modello:

Benchmark	Cosa misura	Punteggio
OCRBench V2	Leggere testo in immagini/documenti	67.04
CV-Bench 2D	Ancoraggio visivo	83.95
Video-MME	Comprensione video	72.2
OSWorld	Uso del computer / agenti GUI	47.4
Speech IF	Seguire istruzioni vocali	89.39

Oltre a questi, NVIDIA riporta un'accuratezza di primo livello su leaderboard documentali come MMLongBench-Doc e risultati di vertice di categoria sui WorldSense e DailyOmni benchmark video-audio e sulla VoiceBench suite audio.

È nelle affermazioni di efficienza che si distingue davvero. NVIDIA cita circa 9,2× di capacità effettiva del sistema in più su carichi di ragionamento video e all'incirca 7,4× su compiti multi-documento, rispetto ad alternative comparabili —e in un benchmark di tagging video ha elaborato la maggiore quantità di video all'ora al minor costo di inferenza tra tutti i modelli testati, aperti o chiusi. Il numero di punta altrove nei materiali di NVIDIA è fino a 9× di throughput in più e 2,9× più veloce nel ragionamento a flusso singolo in casi d'uso multimodali. Anche se i numeri reali risultassero più bassi, la direzione è chiara: questo modello è costruito per essere economico da servire su larga scala, che è esattamente ciò di cui ha bisogno un agente di percezione sempre attivo.

L'avvertenza onesta: questi sono i benchmark di NVIDIA stessa, e «di primo livello per un modello multimodale aperto della sua categoria» non è la stessa cosa di «batte ogni modello chiuso di frontiera in tutto». Per il ragionamento ampio e aperto, i maggiori modelli proprietari restano avanti. L'argomento di Nemotron 3 Nano Omni è efficienza più apertura, non pura supremazia di frontiera.

Puoi eseguirlo in locale? VRAM e hardware

Qui serve un bagno di realtà. Nemotron 3 Nano Omni è «piccolo» rispetto a un modello di frontiera da oltre 100B, ma è un 30B multimodale, e la build Omni è più pesante da eseguire di un modello solo testo con lo stesso numero di parametri. NVIDIA pubblica tre varianti quantizzate con soglie hardware concrete:

Precisione	Dimensione del modello	GPU minima secondo NVIDIA
BF16 (completo)	~62 GB	1× H100 80GB o 1× B200
FP8	~33 GB	1× L40S 48GB
NVFP4 (4 bit)	~21 GB	1× RTX 5090 32GB

Leggi con attenzione quell'ultima riga, perché è quella che interesserà ai più. I pesi a 4 bit NVFP4 occupano circa 21 GB —ma il minimo dichiarato da NVIDIA è una RTX 5090 da 32 GB, non una scheda da 24 GB. Quel divario è l'overhead multimodale: gli encoder di visione e audio, la cache KV e un contesto lungo necessitano tutti di margine oltre i pesi. In pratica significa che una RTX 4090 da 24 GB è, nel migliore dei casi, al limite per la variante Omni, e le tipiche GPU da gaming da 8–16 GB sono fuori gioco per il modello multimodale completo.

Se il tuo obiettivo è semplicemente «far girare un Nemotron efficiente su una scheda più piccola», la scelta migliore è il Nemotron 3 Nano solo testo (non Omni), che la community ha già impacchettato in build GGUF leggere che girano su hardware molto più modesto —al costo di rinunciare ai sensi di visione/audio/video. Per un'introduzione su come adattare la dimensione del modello alla tua scheda, vedi la nostra guida su quanta VRAM serve a ogni grande LLM e i nostri consigli sulle migliori GPU per LLM locali.

Come eseguirlo —e dove ottenerlo

Hai tre percorsi realistici, a seconda che tu voglia provarlo o distribuirlo .

1. Provalo gratis, senza hardware. Il modo più rapido per vedere cosa fa è OpenRouter, che ospita il modello con un piano gratuito. Puoi raggiungerlo anche tramite l'API ospitata di NVIDIA. Utile per valutare la qualità prima di impegnarti con l'infrastruttura.

2. Auto-ospitalo per la produzione. NVIDIA lo distribuisce come microservizio NIM, ed è supportato dagli stack di serving seri — vLLM, SGLang e TensorRT-LLM — che è ciò che useresti per eseguirlo in modo efficiente su una H100, L40S o RTX 5090. Questa è la via per i team che necessitano di controllo dei dati e costi prevedibili su larga scala.

3. Runtime desktop locali. Il supporto in strumenti consumer come LM Studio, Ollamae llama.cpp sta maturando —già semplice con il Nemotron 3 Nano solo testo oggi, con pieno supporto multimodale Omni in arrivo man mano che questi runtime raggiungono i nuovi encoder. Se sei nuovo all'inferenza locale, inizia con la nostra guida completa a LM Studio o il nostro confronto tra Ollama vs LM Studio vs vLLM vs llama.cpp per scegliere lo strumento giusto.

I pesi stessi risiedono su Hugging Face sotto l'organizzazione ufficiale nvidia/ , nelle varianti BF16, FP8 e NVFP4.

Licenza e uso commerciale

Questo è uno dei punti di forza maggiori di Nemotron 3 Nano Omni. È rilasciato sotto la NVIDIA Open Model Agreement (la Nemotron Open Model License), che consente l'uso commerciale. Puoi auto-ospitarlo, fargli fine-tuning —la famiglia di NVIDIA include ricette di addestramento aperte, e strumenti come Unsloth ne supportano già il tuning— e integrarlo in un prodotto commerciale, il tutto mantenendo i tuoi dati sulla tua infrastruttura.

Questa combinazione di pesi aperti e una licenza commerciale permissiva è ciò che lo rende una vera alternativa alle API multimodali chiuse per le aziende che non possono, o non vogliono, inviare documenti, chiamate e video sensibili a un endpoint di terze parti.

Chi dovrebbe usarlo —e chi no

Gli sviluppatori di agenti che necessitano di uno strato di percezione economico e veloce —qualcosa che legga documenti, guardi brevi clip o trascriva chiamate all'interno di un sistema più grande— sono il pubblico di riferimento. È il caso d'uso per cui NVIDIA lo ha progettato.
Le aziende che necessitano di IA multimodale on-premise con controllo dei dati ottengono un'opzione aperta e con licenza commerciale che compete con le API chiuse nei compiti di percezione che contano.
Gli sviluppatori con una GPU da 32 GB o più (RTX 5090 o schede professionali/da data center) possono auto-ospitare il modello Omni completo e costruirci sopra.
Gli hobbisti con GPU da gaming da 8–16 GB dovrebbero ridimensionare le aspettative: il modello multimodale completo non è per la tua scheda. Guarda invece il Nemotron 3 Nano solo testo, o modelli multimodali più piccoli.
Chi vuole solo il miglior chatbot generico potrebbe essere più soddisfatto con un modello generale più grande —il punto di forza di Nemotron 3 Nano Omni è la percezione e l'efficienza, non il ragionamento conversazionale ampio.

Domande frequenti

Nemotron 3 Nano Omni è gratuito?

I pesi sono disponibili apertamente sotto la NVIDIA Open Model Agreement, che consente l'uso commerciale, e puoi provare il modello gratis su OpenRouter. «Gratis» nell' auto-ospitarlo significa comunque pagare per la GPU su cui gira —ma non ci sono canoni di licenza né costi per token se lo ospiti tu stesso.

Quali input accetta Nemotron 3 Nano Omni?

Testo, immagini, audio (WAV/MP3 fino a circa un'ora) e video (MP4 fino a circa due minuti), tutto in un singolo ciclo di ragionamento. Produce testo, incluso JSON strutturato, chiamate a strumenti, ragionamento a catena di pensiero e timestamp a livello di parola per l'audio.

Quanta VRAM mi serve per eseguirlo?

Dipende dalla precisione. La build NVFP4 a 4 bit (~21 GB) richiede come minimo una RTX 5090 da 32 GB; la build FP8 (~33 GB) richiede una L40S da 48 GB; e la build BF16 completa (~62 GB) richiede una H100 80GB o una B200. Gli encoder multimodali e il contesto lungo aggiungono overhead oltre la dimensione pura dei pesi.

Posso eseguirlo su una RTX 4090 o una GPU da 8 GB?

Per il modello Omni multimodale completo, realisticamente no —una RTX 4090 da 24 GB è al limite e le schede da 8 GB sono escluse. Se ti serve un Nemotron che giri su hardware più piccolo, usa il Nemotron 3 Nano solo testo (che ha build GGUF della community), accettando di perdere le capacità di visione, audio e video.

È migliore dei modelli multimodali chiusi come GPT o Gemini?

Su benchmark multimodali aperti per documenti, video e audio —e soprattutto in efficienza— guida o eguaglia modelli molto più grandi della sua categoria. Ma i maggiori modelli chiusi di frontiera restano più forti nel ragionamento ampio e aperto. Il suo vero vantaggio è svolgere i compiti di percezione in modo rapido, economico e aperto.

A cosa serve davvero Nemotron 3 Nano Omni?

NVIDIA lo descrive come il «sub-agente multimodale di percezione e contesto» nei sistemi agentici —il componente che legge documenti, guarda video e ascolta audio affinché un agente più grande possa decidere cosa fare. Pensa a intelligenza documentale, analisi dei media e automazione della GUI, più che a chat generica.

Conclusione

Nemotron 3 Nano Omni è un rilascio netto e mirato. Non cerca di essere il modello più intelligente del mondo; cerca di essere il modo più efficiente per dare a un sistema di IA sensi reali —vista, udito e lettura— in un singolo pacchetto aperto e auto-ospitabile. Il design mixture-of-experts 30B-A3B più il backbone Mamba-Transformer lo rende davvero conveniente da servire, e la licenza commerciale aperta lo rende davvero utilizzabile in un prodotto.

L'unica cosa da tenere a mente è l'hardware. Questo è «nano» secondo gli standard dei modelli di frontiera, non secondo quelli di un PC da gaming —la build multimodale completa vuole una RTX 5090 da 32 GB o migliore. Se hai la GPU e stai costruendo qualcosa che deve percepire il mondo reale a basso costo, Nemotron 3 Nano Omni è uno dei modelli aperti più convincenti del 2026. Se vuoi solo un piccolo chatbot per un portatile da 8 GB, non è questo —ma il suo fratello solo testo potrebbe esserlo.