Is Nemotron 3 Nano Omni free?

The weights are openly available under the NVIDIA Open Model Agreement, which allows commercial use, and you can try the model for free on OpenRouter. "Free" to self-host still means paying for the GPU it runs on — but there are no license fees and no per-token cost if you host it yourself.

What inputs can Nemotron 3 Nano Omni accept?

Text, images, audio (WAV/MP3 up to about one hour), and video (MP4 up to about two minutes), all in a single reasoning loop. It outputs text, including structured JSON, tool calls, chain-of-thought reasoning, and word-level timestamps for audio.

How much VRAM do I need to run it?

It depends on the precision. The 4-bit NVFP4 build (~21 GB) needs a 32GB RTX 5090 minimum; the FP8 build (~33 GB) needs a 48GB L40S; and the full BF16 build (~62 GB) needs an H100 80GB or a B200. The multimodal encoders and long context add overhead beyond the raw weight size.

Can I run it on an RTX 4090 or an 8GB GPU?

For the full Omni multimodal model, realistically no — a 24GB RTX 4090 is borderline and 8GB cards are out. If you need a Nemotron that runs on smaller hardware, use the text-only Nemotron 3 Nano (which has community GGUF builds), accepting that you lose the vision, audio, and video capabilities.

Is it better than closed multimodal models like GPT or Gemini?

On open multimodal benchmarks for documents, video, and audio — and especially on efficiency — it leads or matches much larger models in its class. But the biggest closed frontier models are still stronger at broad, open-ended reasoning. Its real advantage is doing perception tasks fast, cheap, and openly.

What is Nemotron 3 Nano Omni actually for?

NVIDIA describes it as the "multimodal perception and context sub-agent" in agentic systems — the component that reads documents, watches video, and listens to audio so a larger agent can decide what to do. Think document intelligence, media analysis, and GUI automation rather than general chat.

NVIDIA Nemotron 3 Nano Omni explicado: un modelo abierto que ve, oye y lee (2026)

NVIDIA acaba de lanzar Nemotron 3 Nano Omni, y la propuesta es inusualmente simple: un único modelo abierto que puede ver, oír, mirar y leer —y luego razonar sobre todo ello en una sola pasada. Sin un modelo de visión aparte, sin un speech-to-text añadido, sin una pipeline de tres APIs distintas pegadas entre sí. Texto, imágenes, audio y vídeo entran todos en el mismo modelo, y salen respuestas estructuradas.

Lo interesante no es la etiqueta «omni» en sí —ahora muchos laboratorios lanzan modelos multimodales—. Es que Nemotron 3 Nano Omni lo hace con solo 3000 millones de parámetros activos de unos 30 000 millones en total, bajo una licencia comercial genuinamente abierta y con los pesos disponibles en Hugging Face. En otras palabras: un conjunto de capacidades multimodales de primer nivel, en un tamaño y una licencia que un desarrollador individual o una pequeña empresa pueden realmente desplegar y aprovechar.

Esta guía desglosa qué es el modelo, cómo su arquitectura se mantiene tan eficiente, cómo rinde en benchmarks reales y —la pregunta que más importa a nuestros lectores— qué hace falta de verdad para ejecutarlo.

Conclusiones clave

Diseño 30B-A3B —unos 30 000 millones de parámetros en total, pero solo ~3000 millones activos por token, así que se ejecuta mucho más barato de lo que sugiere su tamaño nominal.
Genuinamente omni-modal —entran texto, imágenes, audio (hasta ~1 hora) y vídeo (hasta ~2 minutos); sale texto.
MoE híbrido Mamba-Transformer —las capas Mamba gestionan el contexto largo de forma eficiente; las capas Transformer + mixture-of-experts se encargan del razonamiento.
contexto de 256K, llamadas a herramientas, salida en JSON y en cadena de pensamiento, e incluso marcas de tiempo de audio a nivel de palabra.
Abierto y comercial —NVIDIA Open Model Agreement; pesos en Hugging Face, gratis para probar en OpenRouter.
No es un modelo para GPUs pequeñas —la versión multimodal quiere, de forma realista, una RTX 5090 de 32 GB (4 bits) o una tarjeta profesional/de centro de datos de 48–80 GB.

¿Qué es Nemotron 3 Nano Omni?

Nemotron 3 Nano Omni es el modelo de razonamiento multimodal abierto de NVIDIA —el miembro «Omni» de la familia Nemotron 3 Nano—. El nombre resume sus tres rasgos definitorios. Nemotron 3 es la línea de modelos abiertos de tercera generación de NVIDIA. Nano señala el nivel de eficiencia —lo bastante pequeño para autoalojarlo, no un modelo gigante solo apto para centros de datos. Omni es lo destacado: entiende de forma nativa cuatro tipos de entrada —texto, imágenes, audio y vídeo— dentro de un único bucle de razonamiento unificado, en lugar de encadenar modelos especializados separados.

Ese último punto es la verdadera historia. La forma habitual de construir un sistema que pueda «ver un vídeo y responder preguntas sobre él» es una pipeline: un modelo transcribe el audio, otro describe los fotogramas, un tercero lee el texto y un modelo de lenguaje une las salidas. Cada salto añade latencia, coste y un punto donde la información se pierde. Nemotron 3 Nano Omni colapsa esa pipeline en un único modelo que lo percibe todo a la vez. NVIDIA lo describe como el «subagente multimodal de percepción y contexto» dentro de sistemas agénticos más grandes —la parte que mira, escucha y lee para que el resto del agente pueda actuar.

Y lo logra manteniéndose pequeño donde importa. Pese a llevar unos 30 000 millones de parámetros en total, solo alrededor de 3000 millones están activos para un token dado. Ese es el truco que hace que todo sea práctico —y vale la pena entender por qué.

La arquitectura: por qué es tan eficiente

Dos decisiones de diseño permiten a Nemotron 3 Nano Omni rendir por encima de su categoría.

Un backbone híbrido Mamba-Transformer. La mayoría de los modelos de lenguaje son Transformers puros, excelentes razonando pero que se encarecen a medida que crece el contexto —su coste de atención escala de forma cuadrática con la longitud de la secuencia—. Nemotron 3 Nano Omni intercala Mamba (un diseño selectivo de espacio de estados) con capas Transformer. Las capas Mamba transportan secuencia y memoria de forma eficiente sobre entradas largas; las capas Transformer hacen el razonamiento preciso. NVIDIA cita hasta 4× mejor eficiencia de memoria y cómputo con este híbrido frente a un modelo comparable basado solo en Transformer —algo que importa enormemente cuando tu entrada puede ser una hora de audio o un documento de 256K tokens.

Un conjunto de capas mixture-of-experts (MoE). En lugar de usar cada parámetro en cada token, el modelo enruta cada token a un pequeño subconjunto de subredes «expertas». Solo ~3B de los ~30B parámetros se activan por token. Obtienes la capacidad de conocimiento de un modelo de 30B con aproximadamente el coste de inferencia de uno de 3B. Es la misma jugada de eficiencia que hay detrás de otros modelos abiertos modernos como GLM 5.2 y Kimi K2.7 Code —si quieres la mecánica más a fondo, nuestro artículo sobre cómo funcionan los modelos mixture-of-experts explica el enrutamiento en lenguaje sencillo.

Sobre ese backbone de lenguaje se asientan dos codificadores especializados que dan al modelo sus sentidos:

Visión: un C-RADIOv4-H codificador con convoluciones 3D para el procesamiento espaciotemporal, más una capa Efficient Video Sampling (EVS) para que el vídeo no dispare el presupuesto de tokens.
Audio: un codificador Parakeet de NVIDIA, que maneja voz y audio general e incluso produce marcas de tiempo a nivel de palabra.

El resultado es un único modelo que toma píxeles, formas de onda y texto y los convierte en una representación interna compartida sobre la que puede razonar de forma conjunta.

Qué puede hacer realmente

Sobre el papel «multimodal» puede significar casi cualquier cosa, así que estas son las capacidades concretas que NVIDIA documenta para Nemotron 3 Nano Omni:

Entradas: texto; imágenes (RGB); audio en WAV o MP3 de hasta aproximadamente una hora; y vídeo en MP4 de hasta aproximadamente dos minutos.
Salida: texto —pero texto rico. Puede emitir JSONestructurado, mostrar su razonamiento en cadena de pensamiento, hacer llamadas a herramientasy adjuntar marcas de tiempo a nivel de palabra al audio que transcribe.
Ventana de contexto: 256K tokens, con la longitud de contexto escalada progresivamente durante el entrenamiento (aproximadamente 16K → 49K → 262K). Eso basta para sostener un contrato largo, una transcripción extensa o una base de código grande en una sola pasada —la misma capacidad de contexto largo que hace que las bases de datos vectoriales y pipelines RAG sean menos necesarias para documentos de tamaño medio.

NVIDIA sitúa los casos de uso prácticos en torno a la inteligencia documental (leer contratos, formularios y páginas escaneadas con OCR), los medios y el entretenimiento (analizar vídeo y voz), la atención al clientey la automatización de GUI —un agente que puede mirar una pantalla y decidir dónde hacer clic. El hilo conductor es percepción: tareas en las que el modelo tiene que entender entradas desordenadas del mundo real antes de poder hacer algo útil.

Benchmarks: ¿qué tan bueno es de verdad?

Las cifras de los benchmarks cambian con cada lanzamiento, así que tómalas como una instantánea más que como un dogma. Dicho esto, el panorama es consistente: Nemotron 3 Nano Omni lidera o iguala a modelos mucho más grandes en tareas con mucha percepción, y gana con claridad en eficiencia.

Puntuaciones seleccionadas que NVIDIA reporta para el modelo:

Benchmark	Qué mide	Puntuación
OCRBench V2	Leer texto en imágenes/documentos	67.04
CV-Bench 2D	Anclaje visual	83.95
Video-MME	Comprensión de vídeo	72.2
OSWorld	Uso del ordenador / agentes de GUI	47.4
Speech IF	Seguimiento de instrucciones habladas	89.39

Más allá de eso, NVIDIA reporta una precisión de primer nivel en leaderboards documentales como MMLongBench-Doc y resultados líderes de categoría en los WorldSense y DailyOmni benchmarks de vídeo y audio y en la VoiceBench suite de audio.

Donde realmente se separa es en las afirmaciones de eficiencia. NVIDIA cita en torno a 9,2× más capacidad efectiva del sistema en cargas de razonamiento sobre vídeo y alrededor de 7,4× en tareas multidocumento, frente a alternativas comparables —y en un benchmark de etiquetado de vídeo procesó la mayor cantidad de vídeo por hora al menor coste de inferencia de todos los modelos probados, abiertos o cerrados. La cifra destacada en otros materiales de NVIDIA es hasta 9× más rendimiento y 2,9× más rápido en razonamiento de un solo flujo en casos de uso multimodales. Aunque las cifras reales queden por debajo, la dirección es clara: este modelo está construido para ser barato de servir a escala, que es exactamente lo que necesita un agente de percepción siempre activo.

La advertencia honesta: estos son los propios benchmarks de NVIDIA, y «de primer nivel para un modelo multimodal abierto de su categoría» no es lo mismo que «supera a todo modelo cerrado de frontera en todo». Para el razonamiento amplio y de final abierto, los mayores modelos propietarios siguen por delante. El argumento de Nemotron 3 Nano Omni es eficiencia más apertura, no supremacía pura de frontera.

¿Puedes ejecutarlo en local? VRAM y hardware

Aquí hace falta un baño de realidad. Nemotron 3 Nano Omni es «pequeño» respecto a un modelo de frontera de más de 100B, pero es un 30B multimodal, y la versión Omni es más pesada de ejecutar que un modelo solo de texto con el mismo número de parámetros. NVIDIA publica tres variantes cuantizadas con mínimos de hardware concretos:

Precisión	Tamaño del modelo	GPU mínima de NVIDIA
BF16 (completo)	~62 GB	1× H100 80GB o 1× B200
FP8	~33 GB	1× L40S 48GB
NVFP4 (4 bits)	~21 GB	1× RTX 5090 32GB

Lee esa última fila con atención, porque es la que más importará a la mayoría. Los pesos de 4 bits NVFP4 ocupan unos 21 GB —pero el mínimo declarado por NVIDIA es una RTX 5090 de 32 GB, no una tarjeta de 24 GB. Esa diferencia es el sobrecoste multimodal: los codificadores de visión y audio, la caché KV y un contexto largo necesitan margen por encima de los pesos. En la práctica eso significa que una RTX 4090 de 24 GB es, en el mejor de los casos, ajustada para la variante Omni, y las típicas GPUs de gaming de 8–16 GB quedan fuera para el modelo multimodal completo.

Si tu objetivo es simplemente «ejecutar un Nemotron eficiente en una tarjeta más pequeña», la mejor opción es el Nemotron 3 Nano solo de texto (no Omni), que la comunidad ya ha empaquetado en builds GGUF ligeros que corren en hardware mucho más modesto —a costa de renunciar a los sentidos de visión/audio/vídeo. Para una introducción sobre cómo ajustar el tamaño del modelo a tu tarjeta, consulta nuestra guía sobre cuánta VRAM necesita cada gran LLM y nuestras recomendaciones de las mejores GPUs para LLMs locales.

Cómo ejecutarlo —y dónde conseguirlo

Tienes tres caminos realistas, según quieras probarlo o desplegarlo .

1. Pruébalo gratis, sin hardware. La forma más rápida de ver qué hace es OpenRouter, que aloja el modelo con un nivel gratuito. También puedes acceder a él a través de la API alojada de NVIDIA. Bueno para evaluar la calidad antes de comprometerte con infraestructura.

2. Autoalójalo para producción. NVIDIA lo distribuye como un microservicio NIM, y está soportado por los stacks de serving serios — vLLM, SGLang y TensorRT-LLM — que es lo que usarías para ejecutarlo de forma eficiente en una H100, L40S o RTX 5090. Esta es la vía para equipos que necesitan control de datos y costes predecibles a escala.

3. Runtimes de escritorio locales. El soporte en herramientas de consumo como LM Studio, Ollamay llama.cpp está madurando —ya sencillo con el Nemotron 3 Nano solo de texto, con soporte multimodal Omni completo a medida que estos runtimes alcancen a los nuevos codificadores. Si eres nuevo en la inferencia local, empieza con nuestra guía completa de LM Studio o nuestra comparativa de Ollama frente a LM Studio vs. vLLM vs. llama.cpp para elegir la herramienta adecuada.

Los propios pesos viven en Hugging Face bajo la organización oficial nvidia/ , en las variantes BF16, FP8 y NVFP4.

Licencia y uso comercial

Este es uno de los puntos más fuertes de Nemotron 3 Nano Omni. Se publica bajo la NVIDIA Open Model Agreement (la Nemotron Open Model License), que permite el uso comercial. Puedes autoalojarlo, hacerle fine-tuning —la familia de NVIDIA incluye recetas de entrenamiento abiertas, y herramientas como Unsloth ya soportan su ajuste— e incorporarlo a un producto comercial, todo ello manteniendo tus datos en tu propia infraestructura.

Esa combinación de pesos abiertos más una licencia comercial permisiva es lo que lo convierte en una alternativa real a las APIs multimodales cerradas para empresas que no pueden, o no quieren, enviar documentos, llamadas y vídeo sensibles a un endpoint de terceros.

Quién debería usarlo —y quién no

Desarrolladores de agentes que necesitan una capa de percepción barata y rápida —algo que lea documentos, vea clips cortos o transcriba llamadas dentro de un sistema mayor— son el público objetivo. Es el caso de uso para el que NVIDIA lo diseñó.
Empresas que necesitan IA multimodal on-premise con control de datos obtienen una opción abierta y con licencia comercial que compite con las APIs cerradas en las tareas de percepción que importan.
Desarrolladores con una GPU de 32 GB o más (RTX 5090 o tarjetas profesionales/de centro de datos) pueden autoalojar el modelo Omni completo y construir sobre él.
Aficionados con GPUs de gaming de 8–16 GB deberían ajustar sus expectativas: el modelo multimodal completo no es para tu tarjeta. Mira en su lugar el Nemotron 3 Nano solo de texto, o modelos multimodales más pequeños.
Quien solo quiera el mejor chatbot de propósito general quizá esté más contento con un modelo general más grande —la ventaja de Nemotron 3 Nano Omni es la percepción y la eficiencia, no el razonamiento conversacional amplio.

Preguntas frecuentes

¿Es gratis Nemotron 3 Nano Omni?

Los pesos están disponibles abiertamente bajo la NVIDIA Open Model Agreement, que permite el uso comercial, y puedes probar el modelo gratis en OpenRouter. «Gratis» en el autoalojamiento sigue significando pagar por la GPU en la que corre —pero no hay cuotas de licencia ni coste por token si lo alojas tú mismo.

¿Qué entradas acepta Nemotron 3 Nano Omni?

Texto, imágenes, audio (WAV/MP3 de hasta aproximadamente una hora) y vídeo (MP4 de hasta aproximadamente dos minutos), todo en un único bucle de razonamiento. Produce texto, incluido JSON estructurado, llamadas a herramientas, razonamiento en cadena de pensamiento y marcas de tiempo a nivel de palabra para el audio.

¿Cuánta VRAM necesito para ejecutarlo?

Depende de la precisión. El build NVFP4 de 4 bits (~21 GB) necesita como mínimo una RTX 5090 de 32 GB; el build FP8 (~33 GB) necesita una L40S de 48 GB; y el build BF16 completo (~62 GB) necesita una H100 80GB o una B200. Los codificadores multimodales y el contexto largo añaden sobrecarga más allá del tamaño puro de los pesos.

¿Puedo ejecutarlo en una RTX 4090 o una GPU de 8 GB?

Para el modelo Omni multimodal completo, de forma realista no —una RTX 4090 de 24 GB es ajustada y las tarjetas de 8 GB quedan fuera. Si necesitas un Nemotron que corra en hardware más pequeño, usa el Nemotron 3 Nano solo de texto (que tiene builds GGUF de la comunidad), aceptando que pierdes las capacidades de visión, audio y vídeo.

¿Es mejor que modelos multimodales cerrados como GPT o Gemini?

En benchmarks multimodales abiertos de documentos, vídeo y audio —y especialmente en eficiencia— lidera o iguala a modelos mucho más grandes de su categoría. Pero los mayores modelos cerrados de frontera siguen siendo más fuertes en razonamiento amplio y de final abierto. Su verdadera ventaja es hacer tareas de percepción de forma rápida, barata y abierta.

¿Para qué sirve realmente Nemotron 3 Nano Omni?

NVIDIA lo describe como el «subagente multimodal de percepción y contexto» en sistemas agénticos —el componente que lee documentos, ve vídeos y escucha audio para que un agente mayor pueda decidir qué hacer. Piensa en inteligencia documental, análisis de medios y automatización de GUI, más que en chat general.

Conclusión

Nemotron 3 Nano Omni es un lanzamiento nítido y enfocado. No intenta ser el modelo más listo del mundo; intenta ser la forma más eficiente de dar a un sistema de IA sentidos reales —vista, oído y lectura— en un único paquete abierto y autoalojable. El diseño mixture-of-experts 30B-A3B más el backbone Mamba-Transformer lo hace realmente asequible de servir, y la licencia comercial abierta lo hace realmente utilizable en un producto.

Lo único que conviene tener claro es el hardware. Esto es «nano» según los estándares de los modelos de frontera, no según los de un PC de gaming —la versión multimodal completa quiere una RTX 5090 de 32 GB o mejor. Si tienes la GPU y estás construyendo algo que necesita percibir el mundo real de forma barata, Nemotron 3 Nano Omni es uno de los modelos abiertos más convincentes de 2026. Si solo quieres un pequeño chatbot para un portátil de 8 GB, no es este —pero su hermano solo de texto podría serlo.