Is Nemotron 3 Nano Omni free?

The weights are openly available under the NVIDIA Open Model Agreement, which allows commercial use, and you can try the model for free on OpenRouter. "Free" to self-host still means paying for the GPU it runs on — but there are no license fees and no per-token cost if you host it yourself.

What inputs can Nemotron 3 Nano Omni accept?

Text, images, audio (WAV/MP3 up to about one hour), and video (MP4 up to about two minutes), all in a single reasoning loop. It outputs text, including structured JSON, tool calls, chain-of-thought reasoning, and word-level timestamps for audio.

How much VRAM do I need to run it?

It depends on the precision. The 4-bit NVFP4 build (~21 GB) needs a 32GB RTX 5090 minimum; the FP8 build (~33 GB) needs a 48GB L40S; and the full BF16 build (~62 GB) needs an H100 80GB or a B200. The multimodal encoders and long context add overhead beyond the raw weight size.

Can I run it on an RTX 4090 or an 8GB GPU?

For the full Omni multimodal model, realistically no — a 24GB RTX 4090 is borderline and 8GB cards are out. If you need a Nemotron that runs on smaller hardware, use the text-only Nemotron 3 Nano (which has community GGUF builds), accepting that you lose the vision, audio, and video capabilities.

Is it better than closed multimodal models like GPT or Gemini?

On open multimodal benchmarks for documents, video, and audio — and especially on efficiency — it leads or matches much larger models in its class. But the biggest closed frontier models are still stronger at broad, open-ended reasoning. Its real advantage is doing perception tasks fast, cheap, and openly.

What is Nemotron 3 Nano Omni actually for?

NVIDIA describes it as the "multimodal perception and context sub-agent" in agentic systems — the component that reads documents, watches video, and listens to audio so a larger agent can decide what to do. Think document intelligence, media analysis, and GUI automation rather than general chat.

NVIDIA Nemotron 3 Nano Omni erklärt: Ein offenes Modell, das sieht, hört und liest (2026)

NVIDIA hat gerade Nemotron 3 Nano Omniveröffentlicht – und der Ansatz ist ungewöhnlich einfach: ein einziges offenes Modell, das sehen, hören, zuschauen und lesen – und anschließend in einem einzigen Durchgang über all das hinweg schlussfolgern kann. Kein separates Vision-Modell, kein angeflanschtes Speech-to-Text, keine Pipeline aus drei zusammengeklebten APIs. Text, Bilder, Audio und Video gehen alle in dasselbe Modell – und strukturierte Antworten kommen wieder heraus.

Das Interessante daran ist nicht das Label „omni“ an sich – multimodale Modelle bringen inzwischen viele Labore heraus. Es ist, dass Nemotron 3 Nano Omni das mit nur 3 Milliarden aktiven Parametern von rund 30 Milliarden insgesamt schafft, unter einer wirklich offenen kommerziellen Lizenz, mit den Gewichten frei auf Hugging Face. Mit anderen Worten: ein multimodaler Funktionsumfang auf Spitzenniveau, in einer Größe und Lizenz, die ein einzelner Entwickler oder ein kleines Unternehmen tatsächlich einsetzen und darauf aufbauen kann.

Dieser Leitfaden erklärt, was das Modell ist, wie seine Architektur so effizient bleibt, wie es in echten Benchmarks abschneidet und – die für unsere Leser wichtigste Frage – was es wirklich braucht, um es zu betreiben.

Wichtigste Erkenntnisse

30B-A3B-Aufbau – rund 30 Milliarden Parameter insgesamt, aber nur ~3 Milliarden aktiv pro Token, sodass es weit günstiger läuft, als seine nominale Größe vermuten lässt.
Wirklich omni-modal – Text, Bilder, Audio (bis zu ~1 Stunde) und Video (bis zu ~2 Minuten) gehen hinein; Text kommt heraus.
Mamba-Transformer-Hybrid-MoE – Mamba-Schichten bewältigen langen Kontext effizient; Transformer- plus Mixture-of-Experts-Schichten übernehmen das Schlussfolgern.
256K-Kontext, Tool-Aufrufe, JSON- und Chain-of-Thought-Ausgabe und sogar wortgenaue Audio-Zeitstempel.
Offen und kommerziell – NVIDIA Open Model Agreement; Gewichte auf Hugging Face, kostenlos testbar auf OpenRouter.
Kein Modell für kleine GPUs – der multimodale Build will realistisch eine 32GB-RTX-5090 (4-Bit) oder eine 48–80-GB-Profi-/Rechenzentrumskarte.

Was ist Nemotron 3 Nano Omni?

Nemotron 3 Nano Omni ist NVIDIAs offenes, multimodales Reasoning-Modell – das „Omni“-Mitglied der Nemotron-3-Nano-Familie. Der Name fasst seine drei zentralen Eigenschaften zusammen. Nemotron 3 ist NVIDIAs offene Modellreihe der dritten Generation. Nano steht für die Effizienzklasse – klein genug zum Selbst-Hosten, kein riesiges, rein rechenzentrumsgebundenes Modell. Omni ist der Kern: Es versteht von Haus aus vier Eingabearten – Text, Bilder, Audio und Video – innerhalb einer einzigen, vereinheitlichten Reasoning-Schleife, statt separate Spezialmodelle aneinanderzuketten.

Dieser letzte Punkt ist die eigentliche Geschichte. Üblicherweise baut man ein System, das „ein Video ansehen und Fragen dazu beantworten“ kann, als Pipeline: Ein Modell transkribiert den Ton, ein anderes beschriftet die Frames, ein drittes liest den Text, und ein Sprachmodell fügt die Ausgaben zusammen. Jeder Sprung bringt Latenz, Kosten und eine Stelle, an der Information verloren geht. Nemotron 3 Nano Omni fasst diese Pipeline in einem Modell zusammen, das alles auf einmal wahrnimmt. NVIDIA beschreibt es als den „multimodalen Wahrnehmungs- und Kontext-Sub-Agenten“ innerhalb größerer agentischer Systeme – den Teil, der sieht, hört und liest, damit der Rest des Agenten handeln kann.

Und das gelingt ihm, während es dort klein bleibt, wo es darauf ankommt. Obwohl es insgesamt rund 30 Milliarden Parameter trägt, sind nur etwa 3 Milliarden für ein gegebenes Token aktiv. Das ist der Trick, der das Ganze praktikabel macht – und es lohnt sich zu verstehen, warum.

Die Architektur: warum es so effizient ist

Zwei Designentscheidungen lassen Nemotron 3 Nano Omni über seiner Gewichtsklasse boxen.

Ein Mamba-Transformer-Hybrid-Backbone. Die meisten Sprachmodelle sind reine Transformer, die hervorragend schlussfolgern, aber teuer werden, je länger der Kontext wird – ihre Attention-Kosten skalieren quadratisch mit der Sequenzlänge. Nemotron 3 Nano Omni verschränkt Mamba -Schichten (ein selektives State-Space-Design) mit Transformer-Schichten. Die Mamba-Schichten tragen Sequenz und Speicher effizient über lange Eingaben; die Transformer-Schichten übernehmen das präzise Schlussfolgern. NVIDIA nennt bis zu 4× bessere Speicher- und Recheneffizienz durch diesen Hybrid gegenüber einem vergleichbaren reinen Transformer-Modell – was enorm wichtig ist, wenn die Eingabe eine Stunde Audio oder ein 256K-Token-Dokument sein kann.

Ein Mixture-of-Experts-(MoE-)Schichtstapel. Statt jeden Parameter für jedes Token zu nutzen, leitet das Modell jedes Token an eine kleine Teilmenge von „Experten“-Subnetzen weiter. Nur ~3B der ~30B Parameter feuern pro Token. Man erhält die Wissenskapazität eines 30B-Modells bei ungefähr den Inferenzkosten eines 3B-Modells. Das ist dasselbe Effizienzprinzip wie bei anderen modernen offenen Modellen wie GLM 5.2 und Kimi K2.7 Code – wenn du die tiefere Mechanik willst, erklärt unser Beitrag dazu, wie Mixture-of-Experts-Modelle funktionieren das Routing in einfacher Sprache.

Auf diesem Sprach-Backbone sitzen zwei spezialisierte Encoder, die dem Modell seine Sinne geben:

Vision: ein C-RADIOv4-H -Encoder mit 3D-Faltungen für die raumzeitliche Verarbeitung, plus eine Efficient-Video-Sampling-(EVS-)Schicht, damit Video das Token-Budget nicht sprengt.
Audio: ein NVIDIA- Parakeet -Encoder, der Sprache und allgemeines Audio verarbeitet und sogar wortgenaue Zeitstempel erzeugt.

Das Ergebnis ist ein einziges Modell, das Pixel, Wellenformen und Text aufnimmt und sie in eine gemeinsame interne Repräsentation verwandelt, über die es gemeinsam schlussfolgern kann.

Was es tatsächlich kann

Auf dem Papier kann „multimodal“ fast alles bedeuten, daher hier die konkreten Fähigkeiten, die NVIDIA für Nemotron 3 Nano Omni dokumentiert:

Eingaben: Text; Bilder (RGB); Audio als WAV oder MP3 bis zu etwa einer Stunde; und Video als MP4 bis zu etwa zwei Minuten.
Ausgabe: Text – aber reichhaltiger Text. Es kann strukturiertes JSONausgeben, sein Chain-of-Thought-Reasoningzeigen, Tool-Aufrufetätigen und wortgenaue Zeitstempel an transkribiertes Audio anhängen.
Kontextfenster: 256K Token, wobei die Kontextlänge im Training schrittweise hochskaliert wurde (etwa 16K → 49K → 262K). Das reicht, um einen langen Vertrag, ein langes Transkript oder eine große Codebasis in einem einzigen Durchgang zu halten – dieselbe Long-Context-Fähigkeit, die Vektordatenbanken und RAG-Pipelines für mittelgroße Dokumente weniger nötig macht.

NVIDIA verortet die praktischen Anwendungsfälle rund um Dokumenten-Intelligenz (Lesen von Verträgen, Formularen und gescannten Seiten per OCR), Medien und Unterhaltung (Analyse von Video und Sprache), Kundenserviceund GUI-Automatisierung – ein Agent, der auf einen Bildschirm schauen und entscheiden kann, wohin er klickt. Der rote Faden ist Wahrnehmung: Aufgaben, bei denen das Modell unordentliche reale Eingaben verstehen muss, bevor es irgendetwas Nützliches tun kann.

Benchmarks: wie gut ist es wirklich?

Benchmark-Zahlen verschieben sich mit jeder Veröffentlichung, betrachte sie also eher als Momentaufnahme denn als Evangelium. Dennoch ist das Bild einheitlich: Nemotron 3 Nano Omni führt oder hält bei wahrnehmungslastigen Aufgaben mit deutlich größeren Modellen mit – und bei der Effizienz gewinnt es klar.

Ausgewählte Werte, die NVIDIA für das Modell angibt:

Benchmark	Was er misst	Wert
OCRBench V2	Text in Bildern/Dokumenten lesen	67.04
CV-Bench 2D	Visuelle Verortung	83.95
Video-MME	Videoverständnis	72.2
OSWorld	Computernutzung / GUI-Agenten	47.4
Speech IF	Befolgen gesprochener Anweisungen	89.39

Darüber hinaus berichtet NVIDIA von erstklassiger Genauigkeit auf Dokumenten-Leaderboards wie MMLongBench-Doc und kategorieführenden Ergebnissen auf den WorldSense und DailyOmni Video-und-Audio-Benchmarks und der VoiceBench -Audio-Suite.

Bei den Effizienzaussagen setzt es sich wirklich ab. NVIDIA nennt rund 9,2× höhere effektive Systemkapazität bei Video-Reasoning-Workloads und etwa 7,4× bei Multi-Dokument-Aufgaben, gegenüber vergleichbaren Alternativen – und in einem Video-Tagging-Benchmark verarbeitete es das meiste Video pro Stunde zu den niedrigsten Inferenzkosten aller getesteten Modelle, offen wie geschlossen. Die Schlagzahl andernorts in NVIDIAs Material lautet bis zu 9× höherer Durchsatz und 2,9× schnelleres Single-Stream-Reasoning bei multimodalen Anwendungsfällen. Selbst wenn die realen Zahlen niedriger ausfallen, ist die Richtung klar: Dieses Modell ist darauf ausgelegt, im großen Maßstab günstig bereitstellbarzu sein – genau das, was ein dauerhaft laufender Wahrnehmungsagent braucht.

Der ehrliche Vorbehalt: Dies sind NVIDIAs eigene Benchmarks, und „erstklassig für ein offenes multimodales Modell seiner Größenklasse“ ist nicht dasselbe wie „schlägt jedes geschlossene Spitzenmodell in allem“. Für breites, ergebnisoffenes Schlussfolgern liegen die größten proprietären Modelle weiterhin vorn. Das Argument von Nemotron 3 Nano Omni ist Effizienz plus Offenheit, nicht rohe Spitzen-Überlegenheit.

Kann man es lokal betreiben? VRAM und Hardware

Hier ist ein Realitätscheck nötig. Nemotron 3 Nano Omni ist „klein“ im Vergleich zu einem Spitzenmodell mit über 100B, aber es ist ein multimodales 30B-Modell, und der Omni-Build ist schwerer zu betreiben als ein reines Textmodell gleicher Parameterzahl. NVIDIA veröffentlicht drei quantisierte Varianten mit konkreten Hardware-Untergrenzen:

Präzision	Modellgröße	NVIDIAs Mindest-GPU
BF16 (voll)	~62 GB	1× H100 80GB oder 1× B200
FP8	~33 GB	1× L40S 48GB
NVFP4 (4-Bit)	~21 GB	1× RTX 5090 32GB

Lies die unterste Zeile genau, denn sie ist die, die die meisten interessieren wird. Die 4-Bit- NVFP4 -Gewichte sind etwa 21 GB groß – aber NVIDIAs genanntes Minimum ist eine 32GB-RTX-5090, keine 24-GB-Karte. Diese Lücke ist der multimodale Overhead: die Vision- und Audio-Encoder, der KV-Cache und ein langer Kontext brauchen alle Spielraum über den Gewichten hinaus. In der Praxis heißt das, dass eine 24GB- RTX 4090 für die Omni-Variante bestenfalls grenzwertig ist und typische 8–16-GB-Gaming-GPUs für das volle multimodale Modell aus dem Rennen sind.

Wenn dein Ziel schlicht ist, „einen effizienten Nemotron auf einer kleineren Karte laufen zu lassen“, passt der reine Text-Nemotron 3 Nano (nicht Omni) besser, den die Community bereits in leichtgewichtige GGUF-Builds gepackt hat, die auf weit bescheidenerer Hardware laufen – um den Preis, die Vision-/Audio-/Video-Sinne aufzugeben. Für eine Einführung, wie du die Modellgröße zu deiner Karte passend wählst, siehe unseren Leitfaden, wie viel VRAM jedes große LLM braucht und unsere Empfehlungen für die beste GPUs für lokale LLMs.

Wie man es betreibt – und wo man es bekommt

Du hast drei realistische Wege, je nachdem, ob du es ausprobieren willst oder einsetzen willst.

1. Kostenlos testen, ohne Hardware. Der schnellste Weg zu sehen, was es kann, ist OpenRouter, das das Modell mit einem kostenlosen Tarif hostet. Du erreichst es auch über NVIDIAs gehostete API. Gut, um die Qualität zu bewerten, bevor du dich auf Infrastruktur festlegst.

2. Für die Produktion selbst hosten. NVIDIA liefert es als NIM-Microserviceaus, und es wird von den ernsthaften Serving-Stacks unterstützt – vLLM, SGLang und TensorRT-LLM – womit du es effizient auf einer H100, L40S oder RTX 5090 betreibst. Das ist der Weg für Teams, die Datenkontrolle und planbare Kosten im großen Maßstab brauchen.

3. Lokale Desktop-Runtimes. Die Unterstützung in Endnutzer-Tools wie LM Studio, Ollamaund llama.cpp reift – beim reinen Text-Nemotron 3 Nano heute schon unkompliziert, mit voller multimodaler Omni-Unterstützung, sobald diese Runtimes die neuen Encoder eingeholt haben. Wenn du neu in der lokalen Inferenz bist, beginne mit unserem kompletten Leitfaden zu LM Studio oder unserem Vergleich von Ollama vs LM Studio vs. vLLM vs. llama.cpp um das richtige Werkzeug zu wählen.

Die Gewichte selbst liegen auf Hugging Face unter der offiziellen nvidia/ -Organisation, in den Varianten BF16, FP8 und NVFP4.

Lizenz und kommerzielle Nutzung

Das ist einer der stärksten Pluspunkte von Nemotron 3 Nano Omni. Es ist unter der NVIDIA Open Model Agreement (der Nemotron Open Model License) veröffentlicht, die kommerzielle Nutzung erlaubt. Du kannst es selbst hosten, feinabstimmen – NVIDIAs Familie kommt mit offenen Trainingsrezepten, und Tools wie Unsloth unterstützen das Tuning bereits – und es in ein kommerzielles Produkt einbauen, und das alles, während deine Daten auf deiner eigenen Infrastruktur bleiben.

Diese Kombination aus offenen Gewichten und einer freizügigen kommerziellen Lizenz macht es zu einer echten Alternative zu geschlossenen multimodalen APIs für Unternehmen, die sensible Dokumente, Anrufe und Videos nicht an einen Drittanbieter-Endpunkt senden können oder wollen.

Wer es nutzen sollte – und wer nicht

Agenten-Entwickler die eine günstige, schnelle Wahrnehmungsschicht brauchen – etwas, das Dokumente liest, kurze Clips ansieht oder Anrufe innerhalb eines größeren Systems transkribiert – sind die Zielgruppe. Genau für diesen Anwendungsfall hat NVIDIA es entworfen.
Unternehmen, die On-Prem-Multimodal-KI brauchen mit Datenkontrolle erhalten eine offene, kommerziell lizenzierte Option, die bei den entscheidenden Wahrnehmungsaufgaben mit geschlossenen APIs konkurriert.
Entwickler mit einer GPU ab 32 GB (RTX 5090 oder Profi-/Rechenzentrumskarten) können das volle Omni-Modell selbst hosten und darauf aufbauen.
Hobbyisten mit 8–16-GB-Gaming-GPUs sollten ihre Erwartungen anpassen: Das volle multimodale Modell ist nichts für deine Karte. Schau dir stattdessen den reinen Text-Nemotron 3 Nano oder kleinere multimodale Modelle an.
Wer einfach den besten ergebnisoffenen Chatbot will ist mit einem größeren Allzweckmodell vielleicht zufriedener – die Stärke von Nemotron 3 Nano Omni ist Wahrnehmung und Effizienz, nicht breites dialogisches Schlussfolgern.

Häufig gestellte Fragen (FAQ)

Ist Nemotron 3 Nano Omni kostenlos?

Die Gewichte sind offen unter der NVIDIA Open Model Agreement verfügbar, die kommerzielle Nutzung erlaubt, und du kannst das Modell kostenlos auf OpenRouter testen. „Kostenlos“ beim Selbst-Hosten bedeutet weiterhin, für die GPU zu zahlen, auf der es läuft – aber es gibt keine Lizenzgebühren und keine Kosten pro Token, wenn du es selbst hostest.

Welche Eingaben akzeptiert Nemotron 3 Nano Omni?

Text, Bilder, Audio (WAV/MP3 bis zu etwa einer Stunde) und Video (MP4 bis zu etwa zwei Minuten), alles in einer einzigen Reasoning-Schleife. Es gibt Text aus, einschließlich strukturiertem JSON, Tool-Aufrufen, Chain-of-Thought-Reasoning und wortgenauen Zeitstempeln für Audio.

Wie viel VRAM brauche ich, um es zu betreiben?

Das hängt von der Präzision ab. Der 4-Bit-NVFP4-Build (~21 GB) braucht mindestens eine 32GB-RTX-5090; der FP8-Build (~33 GB) braucht eine 48GB-L40S; und der volle BF16-Build (~62 GB) braucht eine H100 80GB oder eine B200. Die multimodalen Encoder und der lange Kontext bringen Overhead über die reine Gewichtsgröße hinaus.

Kann ich es auf einer RTX 4090 oder einer 8-GB-GPU betreiben?

Für das volle multimodale Omni-Modell realistisch nein – eine 24GB-RTX-4090 ist grenzwertig und 8-GB-Karten sind raus. Wenn du einen Nemotron brauchst, der auf kleinerer Hardware läuft, nutze den reinen Text-Nemotron 3 Nano (der Community-GGUF-Builds hat) und nimm in Kauf, dass du die Fähigkeiten für Bild, Audio und Video verlierst.

Ist es besser als geschlossene multimodale Modelle wie GPT oder Gemini?

Bei offenen multimodalen Benchmarks für Dokumente, Video und Audio – und besonders bei der Effizienz – führt es oder hält mit deutlich größeren Modellen seiner Klasse mit. Aber die größten geschlossenen Spitzenmodelle sind beim breiten, ergebnisoffenen Schlussfolgern weiterhin stärker. Sein echter Vorteil ist, Wahrnehmungsaufgaben schnell, günstig und offen zu erledigen.

Wofür ist Nemotron 3 Nano Omni eigentlich gedacht?

NVIDIA beschreibt es als den „multimodalen Wahrnehmungs- und Kontext-Sub-Agenten“ in agentischen Systemen – die Komponente, die Dokumente liest, Videos ansieht und Audio anhört, damit ein größerer Agent entscheiden kann, was zu tun ist. Denk an Dokumenten-Intelligenz, Medienanalyse und GUI-Automatisierung statt an allgemeinen Chat.

Fazit

Nemotron 3 Nano Omni ist eine scharf umrissene, fokussierte Veröffentlichung. Es versucht nicht, das klügste Modell der Welt zu sein; es versucht, der effizienteste Weg zu sein, einem KI-System echte Sinne zu geben – Sehen, Hören und Lesen – in einem einzigen offenen, selbst hostbaren Paket. Das 30B-A3B-Mixture-of-Experts-Design plus das Mamba-Transformer-Backbone macht das wirklich erschwinglich im Betrieb, und die offene kommerzielle Lizenz macht es wirklich einsetzbar in einem Produkt.

Die eine Sache, die man im Blick behalten muss, ist die Hardware. Das ist „nano“ nach den Maßstäben von Spitzenmodellen, nicht nach denen eines Gaming-PCs – der volle multimodale Build will eine 32GB-RTX-5090 oder besser. Wenn du die GPU hast und etwas baust, das die reale Welt günstig wahrnehmen muss, ist Nemotron 3 Nano Omni eines der überzeugendsten offenen Modelle des Jahres 2026. Wenn du nur einen kleinen Chatbot für ein 8-GB-Notebook willst, ist es nicht das richtige – aber sein reines Text-Geschwister könnte es sein.