Is Nemotron 3 Nano Omni free?

The weights are openly available under the NVIDIA Open Model Agreement, which allows commercial use, and you can try the model for free on OpenRouter. "Free" to self-host still means paying for the GPU it runs on — but there are no license fees and no per-token cost if you host it yourself.

What inputs can Nemotron 3 Nano Omni accept?

Text, images, audio (WAV/MP3 up to about one hour), and video (MP4 up to about two minutes), all in a single reasoning loop. It outputs text, including structured JSON, tool calls, chain-of-thought reasoning, and word-level timestamps for audio.

How much VRAM do I need to run it?

It depends on the precision. The 4-bit NVFP4 build (~21 GB) needs a 32GB RTX 5090 minimum; the FP8 build (~33 GB) needs a 48GB L40S; and the full BF16 build (~62 GB) needs an H100 80GB or a B200. The multimodal encoders and long context add overhead beyond the raw weight size.

Can I run it on an RTX 4090 or an 8GB GPU?

For the full Omni multimodal model, realistically no — a 24GB RTX 4090 is borderline and 8GB cards are out. If you need a Nemotron that runs on smaller hardware, use the text-only Nemotron 3 Nano (which has community GGUF builds), accepting that you lose the vision, audio, and video capabilities.

Is it better than closed multimodal models like GPT or Gemini?

On open multimodal benchmarks for documents, video, and audio — and especially on efficiency — it leads or matches much larger models in its class. But the biggest closed frontier models are still stronger at broad, open-ended reasoning. Its real advantage is doing perception tasks fast, cheap, and openly.

What is Nemotron 3 Nano Omni actually for?

NVIDIA describes it as the "multimodal perception and context sub-agent" in agentic systems — the component that reads documents, watches video, and listens to audio so a larger agent can decide what to do. Think document intelligence, media analysis, and GUI automation rather than general chat.

NVIDIA Nemotron 3 Nano Omni explicado: um modelo aberto que vê, ouve e lê (2026)

A NVIDIA acaba de lançar o Nemotron 3 Nano Omni, e a proposta é invulgarmente simples: um único modelo aberto que consegue ver, ouvir, assistir e ler —e depois raciocinar sobre tudo isso numa única passagem. Sem modelo de visão separado, sem speech-to-text acoplado, sem uma pipeline de três APIs diferentes coladas umas às outras. Texto, imagens, áudio e vídeo entram todos no mesmo modelo, e saem respostas estruturadas.

O interessante não é o rótulo «omni» em si —hoje muitos laboratórios lançam modelos multimodais. É que o Nemotron 3 Nano Omni o faz com apenas 3 mil milhões de parâmetros ativos de cerca de 30 mil milhões no total, sob uma licença comercial genuinamente aberta, com os pesos disponíveis no Hugging Face. Por outras palavras: um conjunto de capacidades multimodais de topo, num tamanho e numa licença que um programador individual ou uma pequena empresa conseguem realmente implementar e aproveitar.

Este guia explica o que é o modelo, como a sua arquitetura se mantém tão eficiente, como se sai em benchmarks reais e —a pergunta que mais importa aos nossos leitores— o que é realmente preciso para o executar.

Principais conclusões

Design 30B-A3B —cerca de 30 mil milhões de parâmetros no total, mas apenas ~3 mil milhões ativos por token, pelo que corre muito mais barato do que o seu tamanho nominal sugere.
Genuinamente omni-modal —entram texto, imagens, áudio (até ~1 hora) e vídeo (até ~2 minutos); sai texto.
MoE híbrido Mamba-Transformer —as camadas Mamba tratam o contexto longo de forma eficiente; as camadas Transformer + mixture-of-experts encarregam-se do raciocínio.
contexto de 256K, chamadas a ferramentas, saída em JSON e em cadeia de pensamento, e até marcas temporais de áudio ao nível da palavra.
Aberto e comercial —NVIDIA Open Model Agreement; pesos no Hugging Face, grátis para experimentar no OpenRouter.
Não é um modelo para GPUs pequenas —a versão multimodal quer, de forma realista, uma RTX 5090 de 32 GB (4 bits) ou uma placa profissional/de centro de dados de 48–80 GB.

O que é o Nemotron 3 Nano Omni?

O Nemotron 3 Nano Omni é o modelo de raciocínio multimodal aberto da NVIDIA —o membro «Omni» da família Nemotron 3 Nano. O nome resume os seus três traços definidores. Nemotron 3 é a linha de modelos abertos de terceira geração da NVIDIA. Nano indica o nível de eficiência —pequeno o suficiente para auto-hospedar, não um modelo gigantesco só para centros de dados. Omni é o destaque: compreende nativamente quatro tipos de entrada —texto, imagens, áudio e vídeo— dentro de um único ciclo de raciocínio unificado, em vez de encadear modelos especializados separados.

Esse último ponto é a verdadeira história. A forma habitual de construir um sistema capaz de «ver um vídeo e responder a perguntas sobre ele» é uma pipeline: um modelo transcreve o áudio, outro descreve os fotogramas, um terceiro lê o texto e um modelo de linguagem une as saídas. Cada salto acrescenta latência, custo e um ponto onde a informação se perde. O Nemotron 3 Nano Omni comprime essa pipeline num único modelo que percebe tudo de uma só vez. A NVIDIA descreve-o como o «subagente multimodal de perceção e contexto» dentro de sistemas agênticos maiores —a parte que olha, escuta e lê para que o resto do agente possa agir.

E consegue-o mantendo-se pequeno onde importa. Apesar de ter cerca de 30 mil milhões de parâmetros no total, apenas cerca de 3 mil milhões estão ativos para um dado token. É o truque que torna tudo prático —e vale a pena perceber porquê.

A arquitetura: porque é tão eficiente

Duas decisões de design permitem ao Nemotron 3 Nano Omni jogar acima da sua categoria.

Um backbone híbrido Mamba-Transformer. A maioria dos modelos de linguagem são Transformers puros, excelentes a raciocinar mas que ficam caros à medida que o contexto cresce —o seu custo de atenção escala de forma quadrática com o comprimento da sequência. O Nemotron 3 Nano Omni intercala camadas Mamba (um design seletivo de espaço de estados) com camadas Transformer. As camadas Mamba transportam sequência e memória de forma eficiente em entradas longas; as camadas Transformer fazem o raciocínio preciso. A NVIDIA refere até 4× melhor eficiência de memória e computação com este híbrido face a um modelo comparável baseado apenas em Transformer —algo que importa imenso quando a tua entrada pode ser uma hora de áudio ou um documento de 256K tokens.

Uma pilha de camadas mixture-of-experts (MoE). Em vez de usar cada parâmetro em cada token, o modelo encaminha cada token para um pequeno subconjunto de sub-redes «especialistas». Apenas ~3B dos ~30B parâmetros são ativados por token. Obténs a capacidade de conhecimento de um modelo de 30B com aproximadamente o custo de inferência de um de 3B. É a mesma jogada de eficiência por trás de outros modelos abertos modernos como o GLM 5.2 e Kimi K2.7 Code —se quiseres a mecânica mais a fundo, o nosso artigo sobre como funcionam os modelos mixture-of-experts explica o encaminhamento em linguagem simples.

Sobre esse backbone de linguagem assentam dois codificadores especializados que dão ao modelo os seus sentidos:

Visão: um C-RADIOv4-H codificador com convoluções 3D para o processamento espácio-temporal, mais uma camada Efficient Video Sampling (EVS) para que o vídeo não rebente o orçamento de tokens.
Áudio: um codificador Parakeet da NVIDIA, que trata voz e áudio geral e até produz marcas temporais ao nível da palavra.

O resultado é um único modelo que recebe píxeis, formas de onda e texto e os transforma numa representação interna partilhada sobre a qual consegue raciocinar em conjunto.

O que consegue fazer na prática

No papel «multimodal» pode significar quase tudo, por isso eis as capacidades concretas que a NVIDIA documenta para o Nemotron 3 Nano Omni:

Entradas: texto; imagens (RGB); áudio em WAV ou MP3 até cerca de uma hora; e vídeo em MP4 até cerca de dois minutos.
Saída: texto —mas texto rico. Consegue emitir JSONestruturado, mostrar o seu raciocínio em cadeia de pensamento, fazer chamadas a ferramentase anexar marcas temporais ao nível da palavra ao áudio que transcreve.
Janela de contexto: 256K tokens, com o comprimento de contexto aumentado progressivamente durante o treino (cerca de 16K → 49K → 262K). Chega para conter um contrato longo, uma transcrição extensa ou uma grande base de código numa única passagem —a mesma capacidade de contexto longo que torna as bases de dados vetoriais e pipelines RAG menos necessárias para documentos de tamanho médio.

A NVIDIA posiciona os casos de uso práticos em torno de inteligência documental (ler contratos, formulários e páginas digitalizadas com OCR), media e entretenimento (analisar vídeo e voz), apoio ao clientee automação de GUI —um agente que consegue olhar para um ecrã e decidir onde clicar. O fio condutor é a percepção: tarefas em que o modelo tem de entender entradas desordenadas do mundo real antes de poder fazer algo útil.

Benchmarks: quão bom é realmente?

Os números dos benchmarks mudam a cada lançamento, por isso encara-os como uma fotografia e não como um dogma. Dito isto, o quadro é consistente: o Nemotron 3 Nano Omni lidera ou iguala modelos muito maiores em tarefas com muita perceção, e ganha claramente em eficiência.

Pontuações selecionadas que a NVIDIA reporta para o modelo:

Benchmark	O que mede	Pontuação
OCRBench V2	Ler texto em imagens/documentos	67.04
CV-Bench 2D	Ancoragem visual	83.95
Video-MME	Compreensão de vídeo	72.2
OSWorld	Uso do computador / agentes de GUI	47.4
Speech IF	Seguir instruções faladas	89.39

Para além desses, a NVIDIA reporta uma precisão de topo em leaderboards documentais como MMLongBench-Doc e resultados líderes de categoria nos WorldSense e DailyOmni benchmarks de vídeo e áudio e na VoiceBench suite de áudio.

É nas alegações de eficiência que realmente se destaca. A NVIDIA refere cerca de 9,2× mais capacidade efetiva do sistema em cargas de raciocínio sobre vídeo e cerca de 7,4× em tarefas multidocumento, face a alternativas comparáveis —e num benchmark de etiquetagem de vídeo processou a maior quantidade de vídeo por hora ao menor custo de inferência de todos os modelos testados, abertos ou fechados. O número de destaque noutros materiais da NVIDIA é até 9× mais débito e 2,9× mais rápido em raciocínio de fluxo único em casos de uso multimodais. Mesmo que os números reais fiquem abaixo, a direção é clara: este modelo foi construído para ser barato de servir à escala, que é exatamente o que um agente de perceção sempre ativo precisa.

A ressalva honesta: estes são os próprios benchmarks da NVIDIA, e «de topo para um modelo multimodal aberto da sua categoria» não é o mesmo que «bate todos os modelos fechados de fronteira em tudo». Para o raciocínio amplo e de final aberto, os maiores modelos proprietários continuam à frente. O argumento do Nemotron 3 Nano Omni é eficiência mais abertura, não supremacia pura de fronteira.

Consegue executá-lo localmente? VRAM e hardware

Aqui é preciso um banho de realidade. O Nemotron 3 Nano Omni é «pequeno» face a um modelo de fronteira de mais de 100B, mas é um 30B multimodal, e a build Omni é mais pesada de executar do que um modelo só de texto com o mesmo número de parâmetros. A NVIDIA publica três variantes quantizadas com mínimos de hardware concretos:

Precisão	Tamanho do modelo	GPU mínima da NVIDIA
BF16 (completo)	~62 GB	1× H100 80GB ou 1× B200
FP8	~33 GB	1× L40S 48GB
NVFP4 (4 bits)	~21 GB	1× RTX 5090 32GB

Lê com atenção essa última linha, porque é a que mais importará à maioria. Os pesos de 4 bits NVFP4 ocupam cerca de 21 GB —mas o mínimo indicado pela NVIDIA é uma RTX 5090 de 32 GB, não uma placa de 24 GB. Essa diferença é o overhead multimodal: os codificadores de visão e áudio, a cache KV e um contexto longo precisam todos de margem acima dos pesos. Na prática isso significa que uma RTX 4090 de 24 GB é, na melhor das hipóteses, no limite para a variante Omni, e as típicas GPUs de gaming de 8–16 GB ficam de fora para o modelo multimodal completo.

Se o teu objetivo é simplesmente «correr um Nemotron eficiente numa placa mais pequena», a melhor opção é o Nemotron 3 Nano só de texto (não Omni), que a comunidade já empacotou em builds GGUF leves que correm em hardware muito mais modesto —ao custo de abdicar dos sentidos de visão/áudio/vídeo. Para uma introdução sobre como ajustar o tamanho do modelo à tua placa, vê o nosso guia sobre quanta VRAM cada grande LLM precisa e as nossas escolhas das melhores GPUs para LLMs locais.

Como executá-lo —e onde obtê-lo

Tens três caminhos realistas, consoante queiras experimentá-lo ou implementá-lo .

1. Experimenta-o grátis, sem hardware. A forma mais rápida de ver o que faz é o OpenRouter, que aloja o modelo com um plano gratuito. Também lhe consegues aceder através da API alojada da NVIDIA. Bom para avaliar a qualidade antes de te comprometeres com infraestrutura.

2. Auto-hospeda-o para produção. A NVIDIA distribui-o como um microsserviço NIM, e é suportado pelos stacks de serving sérios — vLLM, SGLang e TensorRT-LLM — que é o que usarias para o correr de forma eficiente numa H100, L40S ou RTX 5090. Esta é a via para equipas que precisam de controlo de dados e custos previsíveis à escala.

3. Runtimes de desktop locais. O suporte em ferramentas de consumo como o LM Studio, Ollamae llama.cpp está a amadurecer —já simples com o Nemotron 3 Nano só de texto hoje, com suporte multimodal Omni completo a chegar à medida que estes runtimes alcancem os novos codificadores. Se és novo na inferência local, começa pelo nosso guia completo do LM Studio ou a nossa comparação de Ollama vs. LM Studio vs. vLLM vs. llama.cpp para escolher a ferramenta certa.

Os próprios pesos vivem no Hugging Face sob a organização oficial nvidia/ , nas variantes BF16, FP8 e NVFP4.

Licença e uso comercial

Este é um dos pontos fortes maiores do Nemotron 3 Nano Omni. É lançado sob a NVIDIA Open Model Agreement (a Nemotron Open Model License), que permite o uso comercial. Consegues auto-hospedá-lo, fazer-lhe fine-tuning —a família da NVIDIA inclui receitas de treino abertas, e ferramentas como o Unsloth já suportam o seu ajuste— e integrá-lo num produto comercial, tudo isto mantendo os teus dados na tua própria infraestrutura.

Essa combinação de pesos abertos com uma licença comercial permissiva é o que o torna uma alternativa real às APIs multimodais fechadas para empresas que não podem, ou não querem, enviar documentos, chamadas e vídeo sensíveis para um endpoint de terceiros.

Quem o deve usar —e quem não

Programadores de agentes que precisam de uma camada de perceção barata e rápida —algo que leia documentos, veja clips curtos ou transcreva chamadas dentro de um sistema maior— são o público-alvo. É o caso de uso para o qual a NVIDIA o concebeu.
Empresas que precisam de IA multimodal on-premise com controlo de dados obtêm uma opção aberta e com licença comercial que compete com as APIs fechadas nas tarefas de perceção que importam.
Programadores com uma GPU de 32 GB ou mais (RTX 5090 ou placas profissionais/de centro de dados) conseguem auto-hospedar o modelo Omni completo e construir sobre ele.
Entusiastas com GPUs de gaming de 8–16 GB devem ajustar as expectativas: o modelo multimodal completo não é para a tua placa. Vê antes o Nemotron 3 Nano só de texto, ou modelos multimodais mais pequenos.
Quem só quer o melhor chatbot de uso geral talvez fique mais satisfeito com um modelo geral maior —a vantagem do Nemotron 3 Nano Omni é a perceção e a eficiência, não o raciocínio conversacional amplo.

Perguntas frequentes

O Nemotron 3 Nano Omni é gratuito?

Os pesos estão disponíveis abertamente sob a NVIDIA Open Model Agreement, que permite o uso comercial, e consegues experimentar o modelo grátis no OpenRouter. «Grátis» no auto-hospedar continua a significar pagar pela GPU em que corre —mas não há taxas de licença nem custo por token se o alojares tu mesmo.

Que entradas aceita o Nemotron 3 Nano Omni?

Texto, imagens, áudio (WAV/MP3 até cerca de uma hora) e vídeo (MP4 até cerca de dois minutos), tudo num único ciclo de raciocínio. Produz texto, incluindo JSON estruturado, chamadas a ferramentas, raciocínio em cadeia de pensamento e marcas temporais ao nível da palavra para o áudio.

Quanta VRAM preciso para o executar?

Depende da precisão. A build NVFP4 de 4 bits (~21 GB) precisa no mínimo de uma RTX 5090 de 32 GB; a build FP8 (~33 GB) precisa de uma L40S de 48 GB; e a build BF16 completa (~62 GB) precisa de uma H100 80GB ou de uma B200. Os codificadores multimodais e o contexto longo acrescentam overhead para além do tamanho puro dos pesos.

Posso executá-lo numa RTX 4090 ou numa GPU de 8 GB?

Para o modelo Omni multimodal completo, realisticamente não —uma RTX 4090 de 24 GB está no limite e as placas de 8 GB ficam de fora. Se precisas de um Nemotron que corra em hardware mais pequeno, usa o Nemotron 3 Nano só de texto (que tem builds GGUF da comunidade), aceitando que perdes as capacidades de visão, áudio e vídeo.

É melhor do que modelos multimodais fechados como o GPT ou o Gemini?

Em benchmarks multimodais abertos de documentos, vídeo e áudio —e sobretudo em eficiência— lidera ou iguala modelos muito maiores da sua categoria. Mas os maiores modelos fechados de fronteira continuam mais fortes no raciocínio amplo e de final aberto. A sua verdadeira vantagem é fazer tarefas de perceção de forma rápida, barata e aberta.

Para que serve realmente o Nemotron 3 Nano Omni?

A NVIDIA descreve-o como o «subagente multimodal de perceção e contexto» em sistemas agênticos —o componente que lê documentos, vê vídeos e ouve áudio para que um agente maior possa decidir o que fazer. Pensa em inteligência documental, análise de media e automação de GUI, mais do que em chat geral.

Conclusão

O Nemotron 3 Nano Omni é um lançamento nítido e focado. Não tenta ser o modelo mais inteligente do mundo; tenta ser a forma mais eficiente de dar a um sistema de IA sentidos reais —visão, audição e leitura— num único pacote aberto e auto-hospedável. O design mixture-of-experts 30B-A3B mais o backbone Mamba-Transformer torna-o realmente acessível de servir, e a licença comercial aberta torna-o realmente utilizável num produto.

A única coisa a ter presente é o hardware. Isto é «nano» segundo os padrões dos modelos de fronteira, não segundo os de um PC de gaming —a build multimodal completa quer uma RTX 5090 de 32 GB ou melhor. Se tens a GPU e estás a construir algo que precisa de percecionar o mundo real de forma barata, o Nemotron 3 Nano Omni é um dos modelos abertos mais convincentes de 2026. Se só queres um pequeno chatbot para um portátil de 8 GB, não é este —mas o seu irmão só de texto poderá ser.