Is Nemotron 3 Nano Omni free?

The weights are openly available under the NVIDIA Open Model Agreement, which allows commercial use, and you can try the model for free on OpenRouter. "Free" to self-host still means paying for the GPU it runs on — but there are no license fees and no per-token cost if you host it yourself.

What inputs can Nemotron 3 Nano Omni accept?

Text, images, audio (WAV/MP3 up to about one hour), and video (MP4 up to about two minutes), all in a single reasoning loop. It outputs text, including structured JSON, tool calls, chain-of-thought reasoning, and word-level timestamps for audio.

How much VRAM do I need to run it?

It depends on the precision. The 4-bit NVFP4 build (~21 GB) needs a 32GB RTX 5090 minimum; the FP8 build (~33 GB) needs a 48GB L40S; and the full BF16 build (~62 GB) needs an H100 80GB or a B200. The multimodal encoders and long context add overhead beyond the raw weight size.

Can I run it on an RTX 4090 or an 8GB GPU?

For the full Omni multimodal model, realistically no — a 24GB RTX 4090 is borderline and 8GB cards are out. If you need a Nemotron that runs on smaller hardware, use the text-only Nemotron 3 Nano (which has community GGUF builds), accepting that you lose the vision, audio, and video capabilities.

Is it better than closed multimodal models like GPT or Gemini?

On open multimodal benchmarks for documents, video, and audio — and especially on efficiency — it leads or matches much larger models in its class. But the biggest closed frontier models are still stronger at broad, open-ended reasoning. Its real advantage is doing perception tasks fast, cheap, and openly.

What is Nemotron 3 Nano Omni actually for?

NVIDIA describes it as the "multimodal perception and context sub-agent" in agentic systems — the component that reads documents, watches video, and listens to audio so a larger agent can decide what to do. Think document intelligence, media analysis, and GUI automation rather than general chat.

شرح نموذج نيفيديا نيموترون 3 نانو أومني: نموذج مفتوح واحد يرى ويسمع واقرأ (2026)

أطلقت شركة NVIDIA للتو Nemotron 3 Nano Omni، والعرض التسويقي بسيطٌ بشكل غير معتاد: نموذج مفتوح واحد قادر على الرؤية، والسماع، والمراقبة، والقراءة — ثم الاستنتاج عبر كل هذه المدخلات في عملية واحدة فقط. فلا يوجد نموذج رؤية منفصل، ولا وظيفة إضافية للتحويل من الصوت إلى نص، ولا سلسلة من واجهات برمجة التطبيقات (APIs) المختلفة الموصولة معًا. بل تُدخل النصوص والصور والصوتيات ومقاطع الفيديو جميعها إلى نفس النموذج، وتخرج إجابات منظمة.

ما يجعل هذا الأمر مثيرًا للاهتمام ليس مجرد وضع تسمية «أومني» (شامل) على النموذج — فبالفعل تطلق العديد من المختبرات حاليًّا نماذج متعددة الوسائط. بل ما يميزه هو أن نموذج Nemotron 3 Nano Omni يحقِّق ذلك باستخدام ٣ مليارات معلَّمة نشطة فقط من أصل نحو ٣٠ مليار معلَّمة إجمالية، تحت رخصة تجارية مفتوحة فعلًا، مع توفر الأوزان على منصة Hugging Face. وبعبارة أخرى: مجموعة ميزات متعددة الوسائط على مستوى الحدود التقنية، لكن بحجم ورخصة يمكن لمطوِّر فردي أو شركة صغيرة أن تُنفِّذها وتبني عليها فعليًّا.

يوضِّح هذا الدليل طبيعة النموذج، وكيف يحافظ هيكله على كفاءته العالية، وأداءه الفعلي في الاختبارات القياسية، والأهم من ذلك — السؤال الذي يهم قرّاءنا أكثر ما يهم: ما المتطلبات الفعلية لتشغيله.

أبرز النقاط المستخلصة

تصميم ٣٠B-A3B — أي نحو ٣٠ مليار معلَّمة إجمالية، لكن لا تتجاوز المعلَّمات النشطة لكل رمز ~٣ مليارات، وبالتالي فإن تكلفة تشغيله أقل بكثير مما يوحي به حجمه الظاهري.
متعدد الوسائط حقًّا — تُدخل النصوص والصور والصوتيات (حتى ساعة تقريبًا) ومقاطع الفيديو (حتى دقيقتين تقريبًا)، وتخرج النصوص فقط.
نموذج هجين يجمع بين Mamba وTransformer مع آلية خلط الخبرات (MoE) — حيث تتعامل طبقات Mamba بكفاءة مع السياقات الطويلة، بينما تُعنى طبقات Transformer ومزيج الخبرات (MoE) بالاستنتاج.
سياق بطول ٢٥٦ ألف رمز، واستدعاء الأدوات، وإخراج البيانات بصيغة JSON وسلسلة الاستنتاج (chain-of-thought)، بل وحتى الطوابع الزمنية الصوتية على مستوى الكلمة.
مفتوح وتجاري — بموجب اتفاقية NVIDIA للنماذج المفتوحة؛ والأوزان متاحة على Hugging Face، ويمكن تجربتها مجانًا عبر OpenRouter.
ليس نموذجًا موجَّهًا لوحدات معالجة الرسومات الصغيرة — إذ يتطلب الإصدار متعدد الوسائط عمليًّا بطاقة رسوميات RTX 5090 بسعة ٣٢ جيجابايت (بالتكمية ٤ بت) أو بطاقة احترافية/مركز بيانات بسعة ٤٨–٨٠ جيجابايت.

ما هو نموذج Nemotron 3 Nano Omni؟

Nemotron 3 Nano Omni هو نموذج استنتاج متعدد الوسائط مفتوح المصدر من شركة NVIDIA، وهو العضو «الشامل» (Omni) ضمن عائلة نماذج Nemotron 3 Nano. ويعكس الاسم ثلاث سمات رئيسية تميِّزه. Nemotron 3 هي سلسلة النماذج المفتوحة من الجيل الثالث التي أطلقتها شركة NVIDIA. Nano يشير إلى فئة الكفاءة — صغيرة بما يكفي لاستضافتها ذاتيًا، وليست نموذجًا ضخمًا مخصصًا لمراكز البيانات فقط. أومني هي النقطة الرئيسية: فهي تفهم أربعة أنواع من المدخلات بشكل أصلي — النصوص والصور والصوت والفيديو — داخل حلقة استدلالية موحَّدة واحدة، بدلًا من ربط نماذج متخصصة منفصلة معًا.

وتلك النقطة الأخيرة هي الحكاية الحقيقية. فالطريقة المعتادة لبناء نظام قادر على «مشاهدة فيديو والإجابة عن أسئلة تتعلق به» هي استخدام خط أنابيب (Pipeline): حيث يقوم نموذجٌ واحدٌ بتحويل الصوت إلى نص، ونموذجٌ آخر بتسمية الإطارات (Captioning)، ونموذج ثالث بقراءة النص، بينما يقوم نموذج لغوي بدمج المخرجات معًا. وكل انتقال بين هذه المراحل يضيف زمن انتظار (Latency) وتكاليف إضافية وموقعًا قد تُفقد فيه المعلومات. أما نيموترون ٣ نانو أومني فيدمِّر هذا الخط الأنابيبي كله ويحوِّله إلى نموذج واحد يدرك كل المدخلات دفعة واحدة. وتقدِّم شركة إنفيديا هذا النموذج باعتباره «عامل الإدراك المتعدد الوسائط والسياق الفرعي» داخل الأنظمة الوكيلية (Agentic Systems) الأكبر — أي الجزء المسؤول عن الرؤية والاستماع والقراءة، ليتمكَّن باقي النظام الوكيلي من التصرف.

وهو يحقِّق ذلك مع البقاء صغير الحجم عند النقاط الحرجة. فعلى الرغم من احتوائه ما يقارب ٣٠ مليار معلَّمة (Parameter) إجمالًا، فإن عدد المعلمات النشطة لأي رمز (Token) معطى لا يتجاوز تقريبًا ٣ مليارات معلَّمة. وهذه هي الخدعة التي تجعل المشروع كله عمليًّا، وهي تستحق الفهم جيدًا.

الهيكل: لماذا هو فعّالٌ جدًّا؟

وتتيح خياران تصميميان لنماذج نيموترون ٣ نانو أومني أن تتفوق على فئتها الوزنية.

هيكل عظمي هجين يجمع بين تقنيتي مامبا (Mamba) والمحوِّل (Transformer). فالنماذج اللغوية الأكثر شيوعًا تعتمد بالكامل على معمارية المحوِّل (Transformer)، والتي تمتاز بأداء ممتاز في الاستنتاج، لكنها تصبح مكلفة جدًّا كلما زاد طول السياق — إذ تزداد تكلفة الانتباه (Attention) فيها تربيعياً مع طول التسلسل. أما نيموترون ٣ نانو أومني فيدمج طبقات مامبا (وهي مبنية على تصميم فضاء الحالة الانتقائي) مع طبقات المحوِّل. فطبقات مامبا تنقل التسلسل والذاكرة بكفاءة عالية عبر المدخلات الطويلة، بينما تقوم طبقات المحوِّل بالاستنتاج الدقيق. وتذكر إنفيديا أن هذا الهجين يوفِّر كفاءة في استخدام الذاكرة والحساب تصل إلى مامبا أربعة أضعاف مقارنةً بنموذج محوِّل وحيد مكافئ — وهو أمرٌ بالغ الأهمية عندما يكون المدخل عبارةً عن ساعة من الصوت أو مستندٍ بطول ٢٥٦ ألف رمز. أربعة أضعاف أفضل كفاءة في استخدام الذاكرة والحساب من هذا الهجين مقارنةً بنموذج محوِّل وحيد مكافئ — وهو أمرٌ بالغ الأهمية عندما يكون المدخل عبارةً عن ساعة من الصوت أو مستندٍ بطول ٢٥٦ ألف رمز.

مجموعة من الشبكات الخبيرة (Mixture-of-Experts - MoE). فبدلًا من تشغيل جميع المعلمات لكل رمز، يقوم النموذج بتوجيه كل رمز إلى مجموعة صغيرة من الشبكات الفرعية «الخبيرة». وبالتالي، فإن نحو ٣ مليارات معلَّمة فقط من أصل ٣٠ مليار معلَّمة تُفعَّل لكل رمز. وبذلك تحصل على سعة المعرفة نموذج بحجم ٣٠ مليار معلَّمة، مع تكلفة استنتاج (Inference Cost) تساوي تقريبًا تلك الخاصة بنموذج بحجم ٣ مليارات معلَّمة. وهذه نفس استراتيجية الكفاءة المستخدمة في نماذج مفتوحة حديثة أخرى مثل inference cost of a 3B one. This is the same efficiency play behind other modern open models like GLM 5.2 و Kimi K2.7 Code — وإذا رغبت في فهم الآليات العميقة، فإن شرحنا المبسَّط لـ كيف تعمل نماذج المزيج من الشبكات الخبيرة (MoE) يغطي آلية التوجيه بلغة واضحة وسهلة الفهم.

وبجانب هذا الهيكل العظمي اللغوي، هناك مشفران متخصصان يمنحان النموذج حواسه:

الرؤية: أ مشفر C-RADIOv4-H المزوَّد بعمليات تلافيف ثلاثية الأبعاد للمعالجة المكانية-الزمنية (Spatiotemporal Processing)، بالإضافة إلى طبقة أخذ عينات فيديو فعَّالة (Efficient Video Sampling - EVS) لضمان ألا يؤدي الفيديو إلى استنزاف ميزانية الرموز.
الصوت: مشفر صوتي من إنفيديا باسم باركيت يتعامل مع الكلام والصوت عمومًا، بل ويُنتج طوابع زمنية على مستوى الكلمات (Word-level timestamps).

والنتيجة هي نموذج واحد يستقبل البكسلات والموجات الصوتية والنصوص، ويعمل على تحويلها إلى تمثيل داخلي مشترك يمكنه الاستنتاج عليه مجتمعًا.

ما الذي يستطيع فعله فعليًّا؟

ورغم أن مصطلح «متعدد الوسائط» قد يبدو غامضًا نظريًّا، فإليك القدرات الملموسة التي وثَّقتها إنفيديا لنماذج نيموترون ٣ نانو أومني:

المدخلات: نص؛ صور (RGB)؛ صوت بصيغة WAV أو MP3 بحد أقصى يبلغ ساعة تقريبًا؛ وفيديو بصيغة MP4 بحد أقصى دقيقتان تقريبًا.
المخرجات: نص — لكن نصٌّ غنيٌّ. ويمكنه إصدار بيانات منظمة على صيغة JSON، وإظهار سلسلة الاستدلال (Chain-of-Thought Reasoning)التي اتبعها، وإجراء استدعاءات للأدوات (Tool Calls)، وربط طوابع زمنية على مستوى الكلمات بالنص الذي يولِّده من الصوت الذي يحوِّله.
نافذة السياق: ٢٥٦ ألف رمز، مع زيادة تدريجية في طول السياق أثناء التدريب (من حوالي ١٦ ألف رمز → ٤٩ ألف رمز → ٢٦٢ ألف رمز). وهذا يكفي لاحتواء عقد طويل أو نص مترابط مطوَّل أو قاعدة كبيرة من التعليمات البرمجية في عملية واحدة — وهي نفس القدرة على التعامل مع السياقات الطويلة التي تقلل الحاجة إلى قواعد البيانات المتجهية (Vector Databases) وأنابيب الاسترجاع والتوسيع (RAG Pipelines) قواعد البيانات المتجهية و أنابيب الاسترجاع والتوسيع (RAG) للوثائق متوسطة الحجم.

وتوضِّح إنفيديا الحالات العملية للاستخدام حول ذكاء المستندات (قراءة العقود والنماذج والصفحات الممسوحة ضوئيًّا باستخدام تقنية التعرف الضوئي على الحروف OCR)، الوسائط والترفيه (تحليل الفيديو والكلام)، خدمة العملاء، و أتمتة واجهات المستخدم الرسومية (GUI) — وكيلٌ قادرٌ على النظر إلى الشاشة واتخاذ قرارٍ بشأن ما يجب النقر عليه. والخيط المشترك بين هذه المهام هو الإدراك: المهام التي يتطلّب فيها النموذج فهمَ مدخلاتٍ واقعيةٍ فوضويةٍ قبل أن يتمكّن من إنجاز أي شيءٍ مفيدٍ.

الاختبارات القياسية: ما مدى جودته حقًّا؟

تتغيّر أرقام الاختبارات القياسية مع كل إصدار، لذا عاملها على أنها لقطةٌ زمنيةٌ عابرةٌ بدلًا من وحيٍ لا يُخطئ. ومع ذلك، فإن الصورة المُرسَلة ثابتة: فيديو نيموترون ٣ نانو أومني (Nemotron 3 Nano Omni) يتقدّم أو يساوي نماذجَ أكبر بكثيرٍ في المهام التي تعتمد اعتمادًا كبيرًا على الإدراك، ويتفوّق بشكلٍ ساحقٍ على المنافسين من حيث الكفاءة.

النتائج المُنتقاة التي أبلغت عنها شركة إنفيديا لهذا النموذج:

اختبار قياسي	ما يقيسه	النتيجة
OCRBench V2	قراءة النصوص في الصور/المستندات	67.04
CV-Bench 2D	التثبيت البصري (Visual grounding)	83.95
Video-MME	فهم الفيديو	72.2
OSWorld	استخدام الحاسوب / وكلاء واجهات المستخدم الرسومية (GUI agents)	47.4
Speech IF	اتّباع التعليمات المنطوقة	89.39

وبالإضافة إلى تلك الاختبارات، تشير إنفيديا إلى أن النموذج حقّق دقةً هي الأفضل من نوعها في قوائم التصنيف الخاصة بالمستندات مثل MMLongBench-Doc ونتائج رائدة في فئتها في اختبارات الفيديو والصوت مثل WorldSense و DailyOmni واختبارات الفيديو والصوت الأخرى، وكذلك في مجموعة الاختبارات الصوتية VoiceBench .

أما ادعاءات الكفاءة فهي التي تميّزه حقًّا. وتذكر إنفيديا أن سعة النظام الفعّالة أعلى بنسبة تقريبية تبلغ ٩,٢× في مهام استنتاج الفيديو، وأعلى بنسبة تقارب ٧,٤× في المهام المتعددة المستندات، مقارنةً بالبدائل المماثلة — وفي اختبار وسم الفيديو (video-tagging)، حقّق هذا النموذج أعلى كميةٍ من الفيديو المُعالَج في الساعة، وبأقل تكلفة استنتاجٍ بين جميع النماذج المُختبرة، سواء كانت مفتوحة المصدر أو مغلقة. أما الرقم البارز الوارد في مواد إنفيديا الأخرى فهو زيادة في الإنتاجية تصل إلى ٩× و وسرعة استنتاج أسرع بنسبة ٢,٩× في التدفق الواحد في حالات الاستخدام متعددة الوسائط. وحتى لو انخفضت الأرقام في التطبيقات الواقعية، فإن الاتجاه واضح: هذا النموذج مُصمَّم ليكون رخيص التكلفة عند التشغيل على نطاق واسع، وهي بالضبط الخاصية التي يحتاجها وكيل الإدراك الذي يعمل باستمرار.

والتحذير الصادق هنا هو أن هذه الاختبارات القياسية صادرةٌ عن إنفيديا نفسها، وأن عبارة «الأفضل في فئته من حيث الأداء بين النماذج متعددة الوسائط المفتوحة المصدر ذات حجمها» ليست مكافئةً لعبارة «يتفوق على كل النماذج الحدودية المغلقة في جميع المجالات». فبالنسبة إلى الاستنتاج الواسع والمفتوح، لا تزال النماذج الحدودية المملوكة خصوصيًّا هي الأفضل. أما حجة نيموترون ٣ نانو أومني فهي الكفاءة جنبًا إلى جنب مع الانفتاح، وليس التفوّق الحدّي الخام.

هل يمكنك تشغيله محليًّا؟ متطلبات الذاكرة VRAM والأجهزة

وهنا تجب إعادة ضبط التوقعات وفق الواقع. فنموذج نيموترون ٣ نانو أومني «صغير» نسبيًّا مقارنةً بنموذج حدّي يتجاوز ١٠٠ مليار معلّمة، لكنه نموذج متعدد الوسائط يحتوي على ٣٠ مليار معلّمة، كما أن نسخة أومني (Omni) تتطلّب موارد تشغيلية أكبر من النموذج النصي فقط ذي العدد نفسه من المعلمات. وقد نشرت إنفيديا ثلاث نسخ مُكمَّنة (quantized) مع حدود مادية محددة بوضوح:

الدقة	حجم النموذج	أدنى وحدة معالجة رسومية (GPU) موصى بها من إنفيديا
BF16 (كاملة)	~٦٢ غيغابايت	وحدة واحدة من H100 بسعة ٨٠ غيغابايت أو وحدة واحدة من B200
FP8	~٣٣ جيجابايت	وحدة واحدة من L40S بسعة ٤٨ غيغابايت
NVFP4 (٤ بت)	~٢١ غيغابايت	وحدة واحدة من RTX 5090 بسعة ٣٢ غيغابايت

اقرأ الصف السفلي بعناية، لأنه الأكثر أهميةً بالنسبة لمعظم الناس. فالوزن المكمّن بـ٤ بت باستخدام دقة NVFP4 يبلغ حجمه نحو ٢١ غيغابايت — لكن الحد الأدنى المذكور من قِبل إنفيديا هو بطاقة RTX 5090 بسعة ٣٢ غيغابايت، وليس بطاقة سعة ٢٤ غيغابايت. وهذه الفجوة ناتجة عن العبء الإضافي لمتعدد الوسائط: أي مشفرات الرؤية والصوت، وذاكرة KV (KV cache)، والسياق الطويل، والتي تتطلّب جميعها هامشًا إضافيًّا فوق حجم الأوزان فقط. وبالتالي، فإن البطاقة ذات السعة ٢٤ غيغابايت تكون في أفضل الأحوال عند الحد الأدنى المقبول لتشغيل النسخة أومني، بينما تكون بطاقات الألعاب النموذجية ذات السعات ٨–١٦ غيغابايت غير مؤهلة تمامًا لتشغيل النموذج متعدد الوسائط الكامل. RTX 4090 إذا كان هدفك ببساطة «تشغيل نموذج نيموترون بكفاءة على بطاقة أصغر»، فإن الخيار الأنسب هو النسخة

النصية فقط من نيموترون ٣ نانو (وليست أومني)، والتي قام المجتمع بالفعل بتعبئتها في إصدارات GGUF خفيفة الوزن تعمل على أجهزة أقل قوةً بكثير — مع التنازل عن القدرات البصرية/الصوتية/المرئية. وللاطلاع على دليلٍ موجزٍ حول مطابقة حجم النموذج مع قدرات بطاقتك، راجع دليلنا المفصّل حول كمية الـ VRAM المطلوبة لكل نموذج لغوي رئيسي how much VRAM every major LLM needs وأفضل خياراتنا لـ أفضل وحدات معالجة الرسومات لتشغيل نماذج اللغة الكبيرة محليًّا (Local LLMs).

كيفية تشغيله — ومن أين تحصل عليه

لديك ثلاث مسارات واقعية، وتعتمد على ما إذا كنت ترغب في تجربة النموذج أو نشره .

١. جرّبه مجانًا دون الحاجة إلى أجهزة. أسرع طريقة لمعرفة ما يفعله هي استخدام منصة OpenRouter، التي تستضيف النموذج مع خطة مجانية. كما يمكنك الوصول إليه عبر واجهة برمجة التطبيقات (API) المُستضافة من شركة NVIDIA. وهي مناسبة لتقييم الجودة قبل الالتزام بالبنية التحتية.

٢. استضفه ذاتيًّا للإنتاج. توفّره شركة NVIDIA كخدمة صغيرة (microservice) تُسمى NIM، وهو مدعوم من مكدّسات الاستضافة الجادة — مثل vLLM وSGLang وTensorRT-LLM — والتي ستستخدمها لتشغيله بكفاءة على وحدات معالجة الرسومات H100 أو L40S أو RTX 5090. وهذه الطريقة مخصصة للفرق التي تحتاج إلى التحكم في بياناتها وتكاليف قابلة للتنبؤ بها عند التوسع.

٣. تشغيله محليًّا على أجهزة سطح المكتب. يدعمه حاليًّا أدوات المستهلكين مثل LM Studio, Ollama، و llama.cpp ، حيث تتقدّم هذه الدعم باطراد — فهو مباشر اليوم بالنسبة لإصدار Nemotron 3 Nano النصي فقط، بينما سيتوفر دعم كامل لنماذج Omni متعددة الوسائط فور أن تواكب هذه البيئات المحلية المشفرات الجديدة. وإذا كنت جديدًا على الاستنتاج المحلي (local inference)، فابدأ بدليلنا الشامل لبرنامج LM Studio أو مقارنتنا بين Ollama مقابل LM Studio مقابل vLLM وllama.cpp لاختيار الأداة المناسبة.

أما الأوزان نفسها فهي متاحة على منصة Hugging Face ضمن المنظمة الرسمية nvidia/ ، وبإصدارات BF16 وFP8 وNVFP4.

الرخصة والاستخدام التجاري

وهذه إحدى أقوى نقاط البيع في نموذج Nemotron 3 Nano Omni. فقد صدر بموجب اتفاقية NVIDIA للنماذج المفتوحة (ترخيص Nemotron للنماذج المفتوحة) ، والتي تتيح الاستخدام التجاري. ويمكنك استضافته ذاتيًّا وضبطه حسب احتياجاتك (fine-tune) — إذ تُرفق عائلة نماذج NVIDIA وصفات تدريب مفتوحة، وأدوات مثل Unsloth تدعم بالفعل ضبط هذا النموذج — بل ويمكنك دمجه داخل منتج تجاري، مع الحفاظ على بياناتك في بنية تحتية خاصة بك.

إن الجمع بين الأوزان المفتوحة وترخيص تجاري مرِن هو ما يجعل منه بديلًا حقيقيًّا لواجهات برمجة التطبيقات (APIs) متعددة الوسائط المغلقة أمام الشركات التي لا يمكنها أو لا ترغب في إرسال مستنداتها الحساسة أو تسجيلات المكالمات أو مقاطع الفيديو إلى نقطة نهاية تابعة لطرف ثالث.

من يجب أن يستخدمه — ومن لا ينبغي له استخدامه

أما مطورو الوكلاء (Agent builders) الذين يحتاجون طبقة إدراك رخيصة وسريعة — أي شيء قادر على قراءة المستندات أو مشاهدة مقاطع قصيرة أو تحويل المكالمات الصوتية إلى نص داخل نظام أكبر — فهم الجمهور المستهدف. وهذا هو السيناريو الذي صمّمت NVIDIA النموذج خصيصًا له.
أما الشركات التي تحتاج إلى ذكاء اصطناعي متعدد الوسائط يعمل محليًّا (on-prem) مع ضمان التحكم في البيانات، فتحصل على خيار مفتوح ومصرّح به تجاريًّا ينافس واجهات برمجة التطبيقات المغلقة في مهام الإدراك الأساسية.
أما المطوّرون الذين يمتلكون وحدات معالجة رسومات بسعة ٣٢ غيغابايت فأكثر (مثل RTX 5090 أو بطاقات المحترفين/مراكز البيانات) فيمكنهم استضافة النموذج الكامل Omni ذاتيًّا والبناء عليه.
أما الهواة الذين يستخدمون وحدات معالجة رسومات ألعاب بسعة ٨–١٦ غيغابايت فيجب أن يضبطوا توقعاتهم: فالنموذج متعدد الوسائط الكامل ليس مناسبًا لبطاقاتكم. وعليهم بدلًا من ذلك النظر في النسخة النصية فقط من Nemotron 3 Nano أو نماذج أصغر متعددة الوسائط.
أما من يبحث ببساطة عن أفضل روبوت دردشة مفتوح الانتهاء (open-ended chatbot) فقد يجد راحته في نموذج عام أكبر — إذ إن ميزة Nemotron 3 Nano Omni تكمن في الإدراك والكفاءة، وليس في التفكير التفاعلي الواسع.

الأسئلة الشائعة

هل نموذج Nemotron 3 Nano Omni مجاني؟

الأوزان متاحة علنًا بموجب اتفاقية NVIDIA للنماذج المفتوحة، التي تسمح بالاستخدام التجاري، ويمكنك تجربة النموذج مجانًا على منصة OpenRouter. أما عبارة «مجاني» فيما يتعلق بـ الاستضافة الذاتية فلا تزال تعني دفع تكلفة وحدة معالجة الرسومات التي يعمل عليها — لكن لا توجد رسوم ترخيص ولا تكلفة لكل رمز (token) إذا استضفته ذاتيًّا.

ما المدخلات التي يستطيع Nemotron 3 Nano Omni قبولها؟

النص والصور والصوت (ملفات WAV/MP3 حتى ساعة تقريبًا) والفيديو (ملفات MP4 حتى دقيقتين تقريبًا)، وكل ذلك ضمن حلقة استنتاج واحدة. أما المخرجات فهي نصية، وتتضمن تنسيق JSON المنظم وطلبات الأدوات (tool calls) ومنهجية التفكير المتسلسل (chain-of-thought reasoning) وكذلك الطوابع الزمنية على مستوى الكلمات للصوت.

كم سعة الذاكرة VRAM المطلوبة لتشغيله؟

يعتمد ذلك على دقة التمثيل العددي. فإصدار NVFP4 بعرض ٤ بت (حوالي ٢١ غيغابايت) يتطلب وحدة معالجة رسومات RTX 5090 بسعة ٣٢ غيغابايت كحد أدنى؛ بينما يتطلب إصدار FP8 (حوالي ٣٣ غيغابايت) وحدة L40S بسعة ٤٨ غيغابايت؛ أما الإصدار الكامل BF16 (حوالي ٦٢ غيغابايت) فيتطلب وحدة H100 بسعة ٨٠ غيغابايت أو وحدة B200. كما أن مشفرات الوسائط المتعددة والسياق الطويل يضيفان عبئًا إضافيًّا يتجاوز حجم الأوزان الخام.

هل يمكنني تشغيله على وحدة معالجة رسومات RTX 4090 أو بطاقة سعة ٨ غيغابايت؟

بالنسبة للنموذج الكامل Omni متعدد الوسائط، فالإجابة الواقعية هي لا — إذ تكاد وحدة RTX 4090 بسعة ٢٤ غيغابايت تلامس الحد الأدنى، بينما بطاقات الـ٨ غيغابايت غير كافية إطلاقًا. فإذا كنت بحاجة إلى نموذج Nemotron يعمل على أجهزة أقل قوة، فاستخدم الإصدار النصي فقط من Nemotron 3 Nano (والذي يتوفر له إصدارات مجتمعية بصيغة GGUF)، مع العلم أنك بذلك تتخلى عن قدرات الرؤية والصوت والفيديو.

هل هو أفضل من النماذج متعددة الوسائط المغلقة مثل GPT أو Gemini؟

في الاختبارات المرجعية المفتوحة متعددة الوسائط الخاصة بالمستندات والفيديو والصوت — وبخاصة من حيث الكفاءة — فإنه يتصدر أو يعادل نماذج أكبر كثيرًا في فئته. لكن أحدث النماذج الحدودية المغلقة لا تزال أقوى في التفكير التفاعلي الواسع. أما ميزته الحقيقية فهي أداء مهام الإدراك بسرعة وتكلفة منخفضة وبشكل مفتوح.

ما الغرض الفعلي من Nemotron 3 Nano Omni؟

تصفه شركة NVIDIA بأنه «وكيل فرعي لإدراك الوسائط المتعددة والسياق» داخل الأنظمة الوكيلية (agentic systems) — أي المكوّن المسؤول عن قراءة المستندات ومشاهدة مقاطع الفيديو والاستماع إلى التسجيلات الصوتية، ليتمكن وكيل أكبر من اتخاذ القرار بشأن الخطوة التالية. فكر في تحليل المستندات وتحليل الوسائط والأتمتة عبر واجهة المستخدم الرسومية (GUI automation)، بدلًا من الدردشة العامة.

الخلاصة

يُعد Nemotron 3 Nano Omni إصدارًا دقيقًا ومُركَّزًا. فهو لا يسعى لأن يكون أذكى نموذج في العالم؛ بل يسعى لأن يكون أكثر الطرق كفاءة لتزويد أنظمة الذكاء الاصطناعي بحواس حقيقية — البصر والسمع والقراءة — في حزمة واحدة مفتوحة وقابلة للاستضافة الذاتية. فتصميمه القائم على خليط الخبراء (MoE) بحجم ٣٠ مليار معلّمة و٣ مليارات معلّمة (30B-A3B) بالإضافة إلى هيكله الخلفي المدمج بين Mamba وTransformer يجعل خدمته فعليًّا ميسورة التكلفة، بينما يمنح الترخيص التجاري المفتوح إمكانية استخدامه فعليًّا داخل منتج تجاري.

ويجب أن تضع في اعتبارك أمرًا واحدًا بوضوح: الأجهزة. فعبارة «نانو» هنا تشير إلى مقياس النماذج الحدودية، وليس إلى مقياس أجهزة ألعاب الكمبيوتر الشخصية — إذ يتطلب الإصدار الكامل متعدد الوسائط وحدة معالجة رسومات RTX 5090 بسعة ٣٢ غيغابايت أو أفضل منها. فإذا كانت لديك هذه البطاقة وتبني شيئًا ما يحتاج إلى إدراك رخيص للعالم الحقيقي، فإن Nemotron 3 Nano Omni يُعد أحد أكثر النماذج المفتوحة إقناعًا في عام ٢٠٢٦. أما إذا كنت تبحث ببساطة عن روبوت دردشة صغير لجهاز كمبيوتر محمول بسعة ٨ غيغابايت، فهذا ليس النموذج المناسب لك — لكن شقيقه النصي فقط قد يكون كذلك.