{"id":1217,"date":"2026-06-21T19:15:40","date_gmt":"2026-06-21T19:15:40","guid":{"rendered":"https:\/\/convly.ai\/?p=1217"},"modified":"2026-06-21T19:15:40","modified_gmt":"2026-06-21T19:15:40","slug":"nemotron-3-nano-omni-explained-2026","status":"publish","type":"post","link":"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/","title":{"rendered":"NVIDIA Nemotron 3 Nano Omni explicado: um modelo aberto que v\u00ea, ouve e l\u00ea (2026)"},"content":{"rendered":"<p>A NVIDIA acaba de lan\u00e7ar o <strong>Nemotron 3 Nano Omni<\/strong>, e a proposta \u00e9 invulgarmente simples: um \u00fanico modelo aberto que consegue <em>ver, ouvir, assistir e ler<\/em> \u2014e depois raciocinar sobre tudo isso numa \u00fanica passagem. Sem modelo de vis\u00e3o separado, sem speech-to-text acoplado, sem uma pipeline de tr\u00eas APIs diferentes coladas umas \u00e0s outras. Texto, imagens, \u00e1udio e v\u00eddeo entram todos no mesmo modelo, e saem respostas estruturadas.<\/p>\n<p>O interessante n\u00e3o \u00e9 o r\u00f3tulo \u00abomni\u00bb em si \u2014hoje muitos laborat\u00f3rios lan\u00e7am modelos multimodais. \u00c9 que o Nemotron 3 Nano Omni o faz com apenas <strong>3 mil milh\u00f5es de par\u00e2metros ativos<\/strong> de cerca de 30 mil milh\u00f5es no total, sob uma licen\u00e7a comercial genuinamente aberta, com os pesos dispon\u00edveis no Hugging Face. Por outras palavras: um conjunto de capacidades multimodais de topo, num tamanho e numa licen\u00e7a que um programador individual ou uma pequena empresa conseguem realmente implementar e aproveitar.<\/p>\n<p>Este guia explica o que \u00e9 o modelo, como a sua arquitetura se mant\u00e9m t\u00e3o eficiente, como se sai em benchmarks reais e \u2014a pergunta que mais importa aos nossos leitores\u2014 o que \u00e9 realmente preciso para o executar.<\/p>\n<div class=\"convly-tldr\">\n<h3>Principais conclus\u00f5es<\/h3>\n<ul>\n<li><strong>Design 30B-A3B<\/strong> \u2014cerca de 30 mil milh\u00f5es de par\u00e2metros no total, mas apenas ~3 mil milh\u00f5es ativos por token, pelo que corre muito mais barato do que o seu tamanho nominal sugere.<\/li>\n<li><strong>Genuinamente omni-modal<\/strong> \u2014entram texto, imagens, \u00e1udio (at\u00e9 ~1 hora) e v\u00eddeo (at\u00e9 ~2 minutos); sai texto.<\/li>\n<li><strong>MoE h\u00edbrido Mamba-Transformer<\/strong> \u2014as camadas Mamba tratam o contexto longo de forma eficiente; as camadas Transformer + mixture-of-experts encarregam-se do racioc\u00ednio.<\/li>\n<li><strong>contexto de 256K<\/strong>, chamadas a ferramentas, sa\u00edda em JSON e em cadeia de pensamento, e at\u00e9 marcas temporais de \u00e1udio ao n\u00edvel da palavra.<\/li>\n<li><strong>Aberto e comercial<\/strong> \u2014NVIDIA Open Model Agreement; pesos no Hugging Face, gr\u00e1tis para experimentar no OpenRouter.<\/li>\n<li><strong>N\u00e3o \u00e9 um modelo para GPUs pequenas<\/strong> \u2014a vers\u00e3o multimodal quer, de forma realista, uma RTX 5090 de 32 GB (4 bits) ou uma placa profissional\/de centro de dados de 48\u201380 GB.<\/li>\n<\/ul>\n<\/div>\n<div id=\"ez-toc-container\" class=\"ez-toc-v2_0_84 counter-flat ez-toc-counter ez-toc-container-direction\">\n<label for=\"ez-toc-cssicon-toggle-item-6a388e58b769a\" class=\"ez-toc-cssicon-toggle-label\"><span class=\"\"><span class=\"eztoc-hide\" style=\"display:none;\">Alternar<\/span><span class=\"ez-toc-icon-toggle-span\"><svg style=\"fill: #000000;color:#000000\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" class=\"list-377408\" width=\"20px\" height=\"20px\" viewbox=\"0 0 24 24\" fill=\"none\"><path d=\"M6 6H4v2h2V6zm14 0H8v2h12V6zM4 11h2v2H4v-2zm16 0H8v2h12v-2zM4 16h2v2H4v-2zm16 0H8v2h12v-2z\" fill=\"currentColor\"><\/path><\/svg><svg style=\"fill: #000000;color:#000000\" class=\"arrow-unsorted-368013\" xmlns=\"http:\/\/www.w3.org\/2000\/svg\" width=\"10px\" height=\"10px\" viewbox=\"0 0 24 24\" version=\"1.2\" baseprofile=\"tiny\"><path d=\"M18.2 9.3l-6.2-6.3-6.2 6.3c-.2.2-.3.4-.3.7s.1.5.3.7c.2.2.4.3.7.3h11c.3 0 .5-.1.7-.3.2-.2.3-.5.3-.7s-.1-.5-.3-.7zM5.8 14.7l6.2 6.3 6.2-6.3c.2-.2.3-.5.3-.7s-.1-.5-.3-.7c-.2-.2-.4-.3-.7-.3h-11c-.3 0-.5.1-.7.3-.2.2-.3.5-.3.7s.1.5.3.7z\"\/><\/svg><\/span><\/span><\/label><input type=\"checkbox\"  id=\"ez-toc-cssicon-toggle-item-6a388e58b769a\"  aria-label=\"Alternar\" \/><nav><ul class='ez-toc-list ez-toc-list-level-1' ><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-1\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#What_is_Nemotron_3_Nano_Omni\" >O que \u00e9 o Nemotron 3 Nano Omni?<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-2\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#The_architecture_why_its_so_efficient\" >A arquitetura: porque \u00e9 t\u00e3o eficiente<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-3\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#What_it_can_actually_do\" >O que consegue fazer na pr\u00e1tica<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-4\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#Benchmarks_how_good_is_it_really\" >Benchmarks: qu\u00e3o bom \u00e9 realmente?<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-5\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#Can_you_run_it_locally_VRAM_and_hardware\" >Consegue execut\u00e1-lo localmente? VRAM e hardware<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-6\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#How_to_run_it_%E2%80%94_and_where_to_get_it\" >Como execut\u00e1-lo \u2014e onde obt\u00ea-lo<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-7\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#License_and_commercial_use\" >Licen\u00e7a e uso comercial<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-8\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#Who_should_use_it_%E2%80%94_and_who_shouldnt\" >Quem o deve usar \u2014e quem n\u00e3o<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-9\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#FAQ\" >Perguntas frequentes<\/a><\/li><li class='ez-toc-page-1'><a class=\"ez-toc-link ez-toc-heading-10\" href=\"https:\/\/convly.ai\/pt\/nemotron-3-nano-omni-explained-2026\/#Bottom_line\" >Conclus\u00e3o<\/a><\/li><\/ul><\/nav><\/div>\n<h2><span class=\"ez-toc-section\" id=\"What_is_Nemotron_3_Nano_Omni\"><\/span>O que \u00e9 o Nemotron 3 Nano Omni?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>O Nemotron 3 Nano Omni \u00e9 o modelo de racioc\u00ednio multimodal aberto da NVIDIA \u2014o membro \u00abOmni\u00bb da fam\u00edlia Nemotron 3 Nano. O nome resume os seus tr\u00eas tra\u00e7os definidores. <em>Nemotron 3<\/em> \u00e9 a linha de modelos abertos de terceira gera\u00e7\u00e3o da NVIDIA. <em>Nano<\/em> indica o n\u00edvel de efici\u00eancia \u2014pequeno o suficiente para auto-hospedar, n\u00e3o um modelo gigantesco s\u00f3 para centros de dados. <em>Omni<\/em> \u00e9 o destaque: compreende nativamente quatro tipos de entrada \u2014texto, imagens, \u00e1udio e v\u00eddeo\u2014 dentro de um \u00fanico ciclo de racioc\u00ednio unificado, em vez de encadear modelos especializados separados.<\/p>\n<p>Esse \u00faltimo ponto \u00e9 a verdadeira hist\u00f3ria. A forma habitual de construir um sistema capaz de \u00abver um v\u00eddeo e responder a perguntas sobre ele\u00bb \u00e9 uma pipeline: um modelo transcreve o \u00e1udio, outro descreve os fotogramas, um terceiro l\u00ea o texto e um modelo de linguagem une as sa\u00eddas. Cada salto acrescenta lat\u00eancia, custo e um ponto onde a informa\u00e7\u00e3o se perde. O Nemotron 3 Nano Omni comprime essa pipeline num \u00fanico modelo que percebe tudo de uma s\u00f3 vez. A NVIDIA descreve-o como o <em>\u00absubagente multimodal de perce\u00e7\u00e3o e contexto\u00bb<\/em> dentro de sistemas ag\u00eanticos maiores \u2014a parte que olha, escuta e l\u00ea para que o resto do agente possa agir.<\/p>\n<p>E consegue-o mantendo-se pequeno onde importa. Apesar de ter cerca de 30 mil milh\u00f5es de par\u00e2metros no total, apenas cerca de <strong>3 mil milh\u00f5es est\u00e3o ativos para um dado token<\/strong>. \u00c9 o truque que torna tudo pr\u00e1tico \u2014e vale a pena perceber porqu\u00ea.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"The_architecture_why_its_so_efficient\"><\/span>A arquitetura: porque \u00e9 t\u00e3o eficiente<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Duas decis\u00f5es de design permitem ao Nemotron 3 Nano Omni jogar acima da sua categoria.<\/p>\n<p><strong>Um backbone h\u00edbrido Mamba-Transformer.<\/strong> A maioria dos modelos de linguagem s\u00e3o Transformers puros, excelentes a raciocinar mas que ficam caros \u00e0 medida que o contexto cresce \u2014o seu custo de aten\u00e7\u00e3o escala de forma quadr\u00e1tica com o comprimento da sequ\u00eancia. O Nemotron 3 Nano Omni intercala camadas <strong>Mamba<\/strong> (um design seletivo de espa\u00e7o de estados) com camadas Transformer. As camadas Mamba transportam sequ\u00eancia e mem\u00f3ria de forma eficiente em entradas longas; as camadas Transformer fazem o racioc\u00ednio preciso. A NVIDIA refere at\u00e9 <strong>4\u00d7 melhor efici\u00eancia de mem\u00f3ria e computa\u00e7\u00e3o<\/strong> com este h\u00edbrido face a um modelo compar\u00e1vel baseado apenas em Transformer \u2014algo que importa imenso quando a tua entrada pode ser uma hora de \u00e1udio ou um documento de 256K tokens.<\/p>\n<p><strong>Uma pilha de camadas mixture-of-experts (MoE).<\/strong> Em vez de usar cada par\u00e2metro em cada token, o modelo encaminha cada token para um pequeno subconjunto de sub-redes \u00abespecialistas\u00bb. Apenas ~3B dos ~30B par\u00e2metros s\u00e3o ativados por token. Obt\u00e9ns a <em>capacidade de conhecimento<\/em> de um modelo de 30B com aproximadamente o <em>custo de infer\u00eancia<\/em> de um de 3B. \u00c9 a mesma jogada de efici\u00eancia por tr\u00e1s de outros modelos abertos modernos como o <a href=\"https:\/\/convly.ai\/pt\/glm-5-2-explained-2026\/\">GLM 5.2<\/a> e <a href=\"https:\/\/convly.ai\/pt\/kimi-k2-7-code-explained-2026\/\">Kimi K2.7 Code<\/a> \u2014se quiseres a mec\u00e2nica mais a fundo, o nosso artigo sobre <a href=\"https:\/\/convly.ai\/pt\/glm-5-2-explained-2026\/\">como funcionam os modelos mixture-of-experts<\/a> explica o encaminhamento em linguagem simples.<\/p>\n<p>Sobre esse backbone de linguagem assentam dois codificadores especializados que d\u00e3o ao modelo os seus sentidos:<\/p>\n<ul>\n<li><strong>Vis\u00e3o:<\/strong> um <strong>C-RADIOv4-H<\/strong> codificador com convolu\u00e7\u00f5es 3D para o processamento esp\u00e1cio-temporal, mais uma camada Efficient Video Sampling (EVS) para que o v\u00eddeo n\u00e3o rebente o or\u00e7amento de tokens.<\/li>\n<li><strong>\u00c1udio:<\/strong> um codificador <strong>Parakeet<\/strong> da NVIDIA, que trata voz e \u00e1udio geral e at\u00e9 produz marcas temporais ao n\u00edvel da palavra.<\/li>\n<\/ul>\n<p>O resultado \u00e9 um \u00fanico modelo que recebe p\u00edxeis, formas de onda e texto e os transforma numa representa\u00e7\u00e3o interna partilhada sobre a qual consegue raciocinar em conjunto.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"What_it_can_actually_do\"><\/span>O que consegue fazer na pr\u00e1tica<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>No papel \u00abmultimodal\u00bb pode significar quase tudo, por isso eis as capacidades concretas que a NVIDIA documenta para o Nemotron 3 Nano Omni:<\/p>\n<ul>\n<li><strong>Entradas:<\/strong> texto; imagens (RGB); \u00e1udio em WAV ou MP3 <strong>at\u00e9 cerca de uma hora<\/strong>; e v\u00eddeo em MP4 <strong>at\u00e9 cerca de dois minutos<\/strong>.<\/li>\n<li><strong>Sa\u00edda:<\/strong> texto \u2014mas texto rico. Consegue emitir <strong>JSON<\/strong>estruturado, mostrar o seu <strong>racioc\u00ednio em cadeia de pensamento<\/strong>, fazer <strong>chamadas a ferramentas<\/strong>e anexar <strong>marcas temporais ao n\u00edvel da palavra<\/strong> ao \u00e1udio que transcreve.<\/li>\n<li><strong>Janela de contexto:<\/strong> <strong>256K tokens<\/strong>, com o comprimento de contexto aumentado progressivamente durante o treino (cerca de 16K \u2192 49K \u2192 262K). Chega para conter um contrato longo, uma transcri\u00e7\u00e3o extensa ou uma grande base de c\u00f3digo numa \u00fanica passagem \u2014a mesma capacidade de contexto longo que torna as <a href=\"https:\/\/convly.ai\/pt\/what-is-a-vector-database-2026\/\">bases de dados vetoriais<\/a> e <a href=\"https:\/\/convly.ai\/pt\/how-to-build-a-rag-pipeline-2026\/\">pipelines RAG<\/a> menos necess\u00e1rias para documentos de tamanho m\u00e9dio.<\/li>\n<\/ul>\n<p>A NVIDIA posiciona os casos de uso pr\u00e1ticos em torno de <strong>intelig\u00eancia documental<\/strong> (ler contratos, formul\u00e1rios e p\u00e1ginas digitalizadas com OCR), <strong>media e entretenimento<\/strong> (analisar v\u00eddeo e voz), <strong>apoio ao cliente<\/strong>e <strong>automa\u00e7\u00e3o de GUI<\/strong> \u2014um agente que consegue olhar para um ecr\u00e3 e decidir onde clicar. O fio condutor \u00e9 a <em>percep\u00e7\u00e3o<\/em>: tarefas em que o modelo tem de entender entradas desordenadas do mundo real antes de poder fazer algo \u00fatil.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Benchmarks_how_good_is_it_really\"><\/span>Benchmarks: qu\u00e3o bom \u00e9 realmente?<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Os n\u00fameros dos benchmarks mudam a cada lan\u00e7amento, por isso encara-os como uma fotografia e n\u00e3o como um dogma. Dito isto, o quadro \u00e9 consistente: o Nemotron 3 Nano Omni lidera ou iguala modelos muito maiores em tarefas com muita perce\u00e7\u00e3o, e ganha claramente em efici\u00eancia.<\/p>\n<p>Pontua\u00e7\u00f5es selecionadas que a NVIDIA reporta para o modelo:<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Benchmark<\/th>\n<th>O que mede<\/th>\n<th>Pontua\u00e7\u00e3o<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>OCRBench V2<\/td>\n<td>Ler texto em imagens\/documentos<\/td>\n<td>67.04<\/td>\n<\/tr>\n<tr>\n<td>CV-Bench 2D<\/td>\n<td>Ancoragem visual<\/td>\n<td>83.95<\/td>\n<\/tr>\n<tr>\n<td>Video-MME<\/td>\n<td>Compreens\u00e3o de v\u00eddeo<\/td>\n<td>72.2<\/td>\n<\/tr>\n<tr>\n<td>OSWorld<\/td>\n<td>Uso do computador \/ agentes de GUI<\/td>\n<td>47.4<\/td>\n<\/tr>\n<tr>\n<td>Speech IF<\/td>\n<td>Seguir instru\u00e7\u00f5es faladas<\/td>\n<td>89.39<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Para al\u00e9m desses, a NVIDIA reporta uma precis\u00e3o de topo em leaderboards documentais como <strong>MMLongBench-Doc<\/strong> e resultados l\u00edderes de categoria nos <strong>WorldSense<\/strong> e <strong>DailyOmni<\/strong> benchmarks de v\u00eddeo e \u00e1udio e na <strong>VoiceBench<\/strong> suite de \u00e1udio.<\/p>\n<p>\u00c9 nas alega\u00e7\u00f5es de efici\u00eancia que realmente se destaca. A NVIDIA refere cerca de <strong>9,2\u00d7 mais capacidade efetiva do sistema<\/strong> em cargas de racioc\u00ednio sobre v\u00eddeo e cerca de <strong>7,4\u00d7<\/strong> em tarefas multidocumento, face a alternativas compar\u00e1veis \u2014e num benchmark de etiquetagem de v\u00eddeo processou a maior quantidade de v\u00eddeo por hora ao menor custo de infer\u00eancia de todos os modelos testados, abertos ou fechados. O n\u00famero de destaque noutros materiais da NVIDIA \u00e9 <strong>at\u00e9 9\u00d7 mais d\u00e9bito<\/strong> e <strong>2,9\u00d7 mais r\u00e1pido em racioc\u00ednio de fluxo \u00fanico<\/strong> em casos de uso multimodais. Mesmo que os n\u00fameros reais fiquem abaixo, a dire\u00e7\u00e3o \u00e9 clara: este modelo foi constru\u00eddo para ser <em>barato de servir \u00e0 escala<\/em>, que \u00e9 exatamente o que um agente de perce\u00e7\u00e3o sempre ativo precisa.<\/p>\n<p>A ressalva honesta: estes s\u00e3o os pr\u00f3prios benchmarks da NVIDIA, e \u00abde topo para um modelo multimodal aberto da sua categoria\u00bb n\u00e3o \u00e9 o mesmo que \u00abbate todos os modelos fechados de fronteira em tudo\u00bb. Para o racioc\u00ednio amplo e de final aberto, os maiores modelos propriet\u00e1rios continuam \u00e0 frente. O argumento do Nemotron 3 Nano Omni \u00e9 <strong>efici\u00eancia mais abertura<\/strong>, n\u00e3o supremacia pura de fronteira.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Can_you_run_it_locally_VRAM_and_hardware\"><\/span>Consegue execut\u00e1-lo localmente? VRAM e hardware<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Aqui \u00e9 preciso um banho de realidade. O Nemotron 3 Nano Omni \u00e9 \u00abpequeno\u00bb face a um modelo de fronteira de mais de 100B, mas \u00e9 um 30B multimodal, e a build Omni \u00e9 mais pesada de executar do que um modelo s\u00f3 de texto com o mesmo n\u00famero de par\u00e2metros. A NVIDIA publica tr\u00eas variantes quantizadas com m\u00ednimos de hardware concretos:<\/p>\n<table class=\"convly-vs\">\n<thead>\n<tr>\n<th>Precis\u00e3o<\/th>\n<th>Tamanho do modelo<\/th>\n<th>GPU m\u00ednima da NVIDIA<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td>BF16 (completo)<\/td>\n<td>~62 GB<\/td>\n<td>1\u00d7 H100 80GB ou 1\u00d7 B200<\/td>\n<\/tr>\n<tr>\n<td>FP8<\/td>\n<td>~33 GB<\/td>\n<td>1\u00d7 L40S 48GB<\/td>\n<\/tr>\n<tr>\n<td>NVFP4 (4 bits)<\/td>\n<td>~21 GB<\/td>\n<td>1\u00d7 RTX 5090 32GB<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>L\u00ea com aten\u00e7\u00e3o essa \u00faltima linha, porque \u00e9 a que mais importar\u00e1 \u00e0 maioria. Os pesos de 4 bits <strong>NVFP4<\/strong> ocupam cerca de 21 GB \u2014mas o m\u00ednimo indicado pela NVIDIA \u00e9 uma <strong>RTX 5090 de 32 GB<\/strong>, n\u00e3o uma placa de 24 GB. Essa diferen\u00e7a \u00e9 o overhead multimodal: os codificadores de vis\u00e3o e \u00e1udio, a cache KV e um contexto longo precisam todos de margem acima dos pesos. Na pr\u00e1tica isso significa que uma <a href=\"https:\/\/convly.ai\/pt\/rtx-5090-vs-rtx-4090-for-ai-2026\/\">RTX 4090<\/a> de 24 GB \u00e9, na melhor das hip\u00f3teses, no limite para a variante Omni, e as t\u00edpicas GPUs de gaming de 8\u201316 GB ficam de fora para o modelo multimodal completo.<\/p>\n<p>Se o teu objetivo \u00e9 simplesmente \u00abcorrer um Nemotron eficiente numa placa mais pequena\u00bb, a melhor op\u00e7\u00e3o \u00e9 o <strong>Nemotron 3 Nano s\u00f3 de texto<\/strong> (n\u00e3o Omni), que a comunidade j\u00e1 empacotou em builds GGUF leves que correm em hardware muito mais modesto \u2014ao custo de abdicar dos sentidos de vis\u00e3o\/\u00e1udio\/v\u00eddeo. Para uma introdu\u00e7\u00e3o sobre como ajustar o tamanho do modelo \u00e0 tua placa, v\u00ea o nosso guia sobre <a href=\"https:\/\/convly.ai\/pt\/vram-requirements-every-major-llm-2026\/\">quanta VRAM cada grande LLM precisa<\/a> e as nossas escolhas das <a href=\"https:\/\/convly.ai\/pt\/best-gpus-for-local-llms-2026\/\">melhores GPUs para LLMs locais<\/a>.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"How_to_run_it_%E2%80%94_and_where_to_get_it\"><\/span>Como execut\u00e1-lo \u2014e onde obt\u00ea-lo<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Tens tr\u00eas caminhos realistas, consoante queiras <em>experiment\u00e1-lo<\/em> ou <em>implement\u00e1-lo<\/em> .<\/p>\n<p><strong>1. Experimenta-o gr\u00e1tis, sem hardware.<\/strong> A forma mais r\u00e1pida de ver o que faz \u00e9 o <strong>OpenRouter<\/strong>, que aloja o modelo com um plano gratuito. Tamb\u00e9m lhe consegues aceder atrav\u00e9s da API alojada da NVIDIA. Bom para avaliar a qualidade antes de te comprometeres com infraestrutura.<\/p>\n<p><strong>2. Auto-hospeda-o para produ\u00e7\u00e3o.<\/strong> A NVIDIA distribui-o como um <strong>microsservi\u00e7o NIM<\/strong>, e \u00e9 suportado pelos stacks de serving s\u00e9rios \u2014 <strong>vLLM, SGLang e TensorRT-LLM<\/strong> \u2014 que \u00e9 o que usarias para o correr de forma eficiente numa H100, L40S ou RTX 5090. Esta \u00e9 a via para equipas que precisam de controlo de dados e custos previs\u00edveis \u00e0 escala.<\/p>\n<p><strong>3. Runtimes de desktop locais.<\/strong> O suporte em ferramentas de consumo como o <strong>LM Studio<\/strong>, <strong>Ollama<\/strong>e <strong>llama.cpp<\/strong> est\u00e1 a amadurecer \u2014j\u00e1 simples com o Nemotron 3 Nano s\u00f3 de texto hoje, com suporte multimodal Omni completo a chegar \u00e0 medida que estes runtimes alcancem os novos codificadores. Se \u00e9s novo na infer\u00eancia local, come\u00e7a pelo nosso <a href=\"https:\/\/convly.ai\/pt\/lm-studio-complete-guide-2026\/\">guia completo do LM Studio<\/a> ou a nossa compara\u00e7\u00e3o de <a href=\"https:\/\/convly.ai\/pt\/ollama-vs-lm-studio-vs-vllm-vs-llama-cpp-2026\/\">Ollama vs LM Studio vs vLLM vs llama.cpp<\/a> para escolher a ferramenta certa.<\/p>\n<p>Os pr\u00f3prios pesos vivem no Hugging Face sob a organiza\u00e7\u00e3o oficial <code>nvidia\/<\/code> , nas variantes BF16, FP8 e NVFP4.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"License_and_commercial_use\"><\/span>Licen\u00e7a e uso comercial<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>Este \u00e9 um dos pontos fortes maiores do Nemotron 3 Nano Omni. \u00c9 lan\u00e7ado sob a <strong>NVIDIA Open Model Agreement<\/strong> (a Nemotron Open Model License), que <strong>permite o uso comercial<\/strong>. Consegues auto-hosped\u00e1-lo, fazer-lhe fine-tuning \u2014a fam\u00edlia da NVIDIA inclui receitas de treino abertas, e ferramentas como o Unsloth j\u00e1 suportam o seu ajuste\u2014 e integr\u00e1-lo num produto comercial, tudo isto mantendo os teus dados na tua pr\u00f3pria infraestrutura.<\/p>\n<p>Essa combina\u00e7\u00e3o de pesos abertos com uma licen\u00e7a comercial permissiva \u00e9 o que o torna uma alternativa real \u00e0s APIs multimodais fechadas para empresas que n\u00e3o podem, ou n\u00e3o querem, enviar documentos, chamadas e v\u00eddeo sens\u00edveis para um endpoint de terceiros.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Who_should_use_it_%E2%80%94_and_who_shouldnt\"><\/span>Quem o deve usar \u2014e quem n\u00e3o<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<ul>\n<li><strong>Programadores de agentes<\/strong> que precisam de uma camada de perce\u00e7\u00e3o barata e r\u00e1pida \u2014algo que leia documentos, veja clips curtos ou transcreva chamadas dentro de um sistema maior\u2014 s\u00e3o o p\u00fablico-alvo. \u00c9 o caso de uso para o qual a NVIDIA o concebeu.<\/li>\n<li><strong>Empresas que precisam de IA multimodal on-premise<\/strong> com controlo de dados obt\u00eam uma op\u00e7\u00e3o aberta e com licen\u00e7a comercial que compete com as APIs fechadas nas tarefas de perce\u00e7\u00e3o que importam.<\/li>\n<li><strong>Programadores com uma GPU de 32 GB ou mais<\/strong> (RTX 5090 ou placas profissionais\/de centro de dados) conseguem auto-hospedar o modelo Omni completo e construir sobre ele.<\/li>\n<li><strong>Entusiastas com GPUs de gaming de 8\u201316 GB<\/strong> devem ajustar as expectativas: o modelo multimodal completo n\u00e3o \u00e9 para a tua placa. V\u00ea antes o Nemotron 3 Nano s\u00f3 de texto, ou modelos multimodais mais pequenos.<\/li>\n<li><strong>Quem s\u00f3 quer o melhor chatbot de uso geral<\/strong> talvez fique mais satisfeito com um modelo geral maior \u2014a vantagem do Nemotron 3 Nano Omni \u00e9 a perce\u00e7\u00e3o e a efici\u00eancia, n\u00e3o o racioc\u00ednio conversacional amplo.<\/li>\n<\/ul>\n<h2><span class=\"ez-toc-section\" id=\"FAQ\"><\/span>Perguntas frequentes<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<h3>O Nemotron 3 Nano Omni \u00e9 gratuito?<\/h3>\n<p>Os pesos est\u00e3o dispon\u00edveis abertamente sob a NVIDIA Open Model Agreement, que permite o uso comercial, e consegues experimentar o modelo gr\u00e1tis no OpenRouter. \u00abGr\u00e1tis\u00bb no <em>auto-hospedar<\/em> continua a significar pagar pela GPU em que corre \u2014mas n\u00e3o h\u00e1 taxas de licen\u00e7a nem custo por token se o alojares tu mesmo.<\/p>\n<h3>Que entradas aceita o Nemotron 3 Nano Omni?<\/h3>\n<p>Texto, imagens, \u00e1udio (WAV\/MP3 at\u00e9 cerca de uma hora) e v\u00eddeo (MP4 at\u00e9 cerca de dois minutos), tudo num \u00fanico ciclo de racioc\u00ednio. Produz texto, incluindo JSON estruturado, chamadas a ferramentas, racioc\u00ednio em cadeia de pensamento e marcas temporais ao n\u00edvel da palavra para o \u00e1udio.<\/p>\n<h3>Quanta VRAM preciso para o executar?<\/h3>\n<p>Depende da precis\u00e3o. A build NVFP4 de 4 bits (~21 GB) precisa no m\u00ednimo de uma RTX 5090 de 32 GB; a build FP8 (~33 GB) precisa de uma L40S de 48 GB; e a build BF16 completa (~62 GB) precisa de uma H100 80GB ou de uma B200. Os codificadores multimodais e o contexto longo acrescentam overhead para al\u00e9m do tamanho puro dos pesos.<\/p>\n<h3>Posso execut\u00e1-lo numa RTX 4090 ou numa GPU de 8 GB?<\/h3>\n<p>Para o modelo Omni multimodal completo, realisticamente n\u00e3o \u2014uma RTX 4090 de 24 GB est\u00e1 no limite e as placas de 8 GB ficam de fora. Se precisas de um Nemotron que corra em hardware mais pequeno, usa o Nemotron 3 Nano s\u00f3 de texto (que tem builds GGUF da comunidade), aceitando que perdes as capacidades de vis\u00e3o, \u00e1udio e v\u00eddeo.<\/p>\n<h3>\u00c9 melhor do que modelos multimodais fechados como o GPT ou o Gemini?<\/h3>\n<p>Em benchmarks multimodais abertos de documentos, v\u00eddeo e \u00e1udio \u2014e sobretudo em efici\u00eancia\u2014 lidera ou iguala modelos muito maiores da sua categoria. Mas os maiores modelos fechados de fronteira continuam mais fortes no racioc\u00ednio amplo e de final aberto. A sua verdadeira vantagem \u00e9 fazer tarefas de perce\u00e7\u00e3o de forma r\u00e1pida, barata e aberta.<\/p>\n<h3>Para que serve realmente o Nemotron 3 Nano Omni?<\/h3>\n<p>A NVIDIA descreve-o como o \u00absubagente multimodal de perce\u00e7\u00e3o e contexto\u00bb em sistemas ag\u00eanticos \u2014o componente que l\u00ea documentos, v\u00ea v\u00eddeos e ouve \u00e1udio para que um agente maior possa decidir o que fazer. Pensa em intelig\u00eancia documental, an\u00e1lise de media e automa\u00e7\u00e3o de GUI, mais do que em chat geral.<\/p>\n<h2><span class=\"ez-toc-section\" id=\"Bottom_line\"><\/span>Conclus\u00e3o<span class=\"ez-toc-section-end\"><\/span><\/h2>\n<p>O Nemotron 3 Nano Omni \u00e9 um lan\u00e7amento n\u00edtido e focado. N\u00e3o tenta ser o modelo mais inteligente do mundo; tenta ser a forma mais <em>eficiente<\/em> de dar a um sistema de IA sentidos reais \u2014vis\u00e3o, audi\u00e7\u00e3o e leitura\u2014 num \u00fanico pacote aberto e auto-hosped\u00e1vel. O design mixture-of-experts 30B-A3B mais o backbone Mamba-Transformer torna-o realmente acess\u00edvel de servir, e a licen\u00e7a comercial aberta torna-o realmente utiliz\u00e1vel num produto.<\/p>\n<p>A \u00fanica coisa a ter presente \u00e9 o hardware. Isto \u00e9 \u00abnano\u00bb segundo os padr\u00f5es dos modelos de fronteira, n\u00e3o segundo os de um PC de gaming \u2014a build multimodal completa quer uma RTX 5090 de 32 GB ou melhor. Se tens a GPU e est\u00e1s a construir algo que precisa de percecionar o mundo real de forma barata, o Nemotron 3 Nano Omni \u00e9 um dos modelos abertos mais convincentes de 2026. Se s\u00f3 queres um pequeno chatbot para um port\u00e1til de 8 GB, n\u00e3o \u00e9 este \u2014mas o seu irm\u00e3o s\u00f3 de texto poder\u00e1 ser.<\/p>","protected":false},"excerpt":{"rendered":"<p>NVIDIA&#8217;s Nemotron 3 Nano Omni packs vision, audio, video, and text into one open 30B-A3B model with only 3B active parameters. Here&#8217;s what it does, how good it is, and what it takes to run.<\/p>","protected":false},"author":1,"featured_media":1218,"comment_status":"closed","ping_status":"closed","sticky":false,"template":"","format":"standard","meta":{"site-sidebar-layout":"default","site-content-layout":"","ast-site-content-layout":"default","site-content-style":"default","site-sidebar-style":"default","ast-global-header-display":"","ast-banner-title-visibility":"","ast-main-header-display":"","ast-hfb-above-header-display":"","ast-hfb-below-header-display":"","ast-hfb-mobile-header-display":"","site-post-title":"","ast-breadcrumbs-content":"","ast-featured-img":"","footer-sml-layout":"","ast-disable-related-posts":"","theme-transparent-header-meta":"","adv-header-id-meta":"","stick-header-meta":"","header-above-stick-meta":"","header-main-stick-meta":"","header-below-stick-meta":"","astra-migrate-meta-layouts":"default","ast-page-background-enabled":"default","ast-page-background-meta":{"desktop":{"background-color":"var(--ast-global-color-5)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"ast-content-background-meta":{"desktop":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"tablet":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""},"mobile":{"background-color":"var(--ast-global-color-4)","background-image":"","background-repeat":"repeat","background-position":"center center","background-size":"auto","background-attachment":"scroll","background-type":"","background-media":"","overlay-type":"","overlay-color":"","overlay-opacity":"","overlay-gradient":""}},"footnotes":""},"categories":[3],"tags":[256,770,783,784,786,785],"class_list":["post-1217","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-llms","tag-local-llm","tag-mixture-of-experts","tag-nemotron-3-nano-omni","tag-nvidia-nemotron","tag-omni-modal-ai","tag-open-multimodal-model"],"_links":{"self":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts\/1217","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/comments?post=1217"}],"version-history":[{"count":1,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts\/1217\/revisions"}],"predecessor-version":[{"id":1219,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/posts\/1217\/revisions\/1219"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/media\/1218"}],"wp:attachment":[{"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/media?parent=1217"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/categories?post=1217"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/convly.ai\/pt\/wp-json\/wp\/v2\/tags?post=1217"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}