Is the best open-source LLM actually competitive with GPT-4 in 2026?

For most workloads, yes. Llama 3.1 405B and DeepSeek V3 beat GPT-4 (legacy) on most public benchmarks and match GPT-4.5 on many. They lag GPT-5 / Claude Opus 4.7 on the hardest reasoning, math, and agentic tasks. For most users, the gap to "frontier closed" is now measured in single-digit percentage points.

Why is DeepSeek V3 so highly ranked despite being MoE?

MoE (Mixture of Experts) models activate only a subset of parameters per token. DeepSeek V3 is 236B total but only ~21B active per token. So you get the knowledge of a much bigger model at the inference speed of a much smaller one — when the memory fits. It's the most practical "frontier-quality at consumer-hardware speed" option in 2026.

Should I fine-tune one of these or just use it as-is?

Use it as-is for general tasks. Fine-tune only if you have a narrow, repetitive use case (e.g., domain-specific writing style, legal document analysis) AND you have at least 500-1000 high-quality training examples. Fine-tuning a 70B model needs serious hardware.

What about Llama 4 / new releases?

Meta confirmed Llama 4 for mid-2026 release with continued open-weight commitment. Expect a 405B+ flagship and improved smaller variants. We'll update this leaderboard when the actual benchmarks land.

Which model should I run on a Mac Studio M4 Max 128 GB?

Best fit: Qwen 2.5 72B at Q5_K_M (51 GB) — runs at ~9 t/s, leaves plenty of headroom for context. For top quality, Mistral Large 2 123B at Q4 fits comfortably. For MoE speed, Mixtral 8x22B is excellent.

Are smaller models (under 7B) worth it?

Yes, for specific use cases. Phi-4 Mini 3.8B, Gemma 2 2B, and SmolLM 1.7B all run fast on phones and edge devices. For general chat they're noticeably weaker than 8B+ models, but for narrow tasks (classification, structured extraction, simple translation) they're plenty.

Is one big GPU or two smaller GPUs better for running these models?

For pure inference, one card with enough VRAM to hold the model is simpler and avoids the overhead of splitting layers across devices. Two cards make sense when the goal is more total VRAM than any single affordable GPU offers — for example pairing two 24 GB cards to host a model that won't fit in one. The trade-offs are real: a second GPU adds power draw, heat, PCIe-bandwidth bottlenecks between cards, and more finicky configuration. If a single card can fit your target model at a quant you're happy with, buy the single card.

How much does electricity cost to run a local LLM 24/7?

Idle and light-use power is modest, but a high-end GPU under sustained load can pull a few hundred watts, and that adds up if the machine is always on. The practical move is to keep the rig asleep or the model unloaded when idle, and only spin up under real demand — most local runtimes load and unload models on request. For occasional personal use the running cost is minor; for a model serving traffic around the clock, factor electricity into your total cost of ownership alongside the hardware price.

Is it even worth running these models locally when the hosted APIs are so cheap?

It depends on why you're self-hosting. If your only goal is the lowest cost per token, the hosted APIs for these same open models are hard to beat and require zero hardware. Local hosting wins when you need data to never leave your machine, want guaranteed availability with no rate limits or per-token billing, or are doing high-volume batch work where owned hardware amortizes. For most casual users, the API is the rational choice; for privacy-driven, offline, or heavy-throughput use cases, local pays off.

لوحة التصنيف المفتوحة المصدر للنماذج اللغوية الكبيرة لعام 2026: الأجهزة المطلوبة لتشغيل كل نموذج رائد

محدّث July 11, 2026 · نُشِرت لأول مرة في 19 مايو 2026

مشهد النماذج اللغوية الكبيرة المفتوحة المصدر في عام 2026 هو الأقوى على الإطلاق. ويمكنك تحقيق أداءٍ يعادل أداء نموذج GPT-4 أو حتى تفوُّقه في مهام محددة، كما يمكنك تشغيل جميع هذه النماذج محليًّا إذا توافرت لديك الأجهزة المناسبة. والسؤال المطروح هو: أيُّ نموذجٍ هو الأفضل فعليًّا؟ وما تكلفة الأجهزة المطلوبة لتشغيله؟

هذه هي لوحة تصنيف أفضل النماذج اللغوية الكبيرة ذات الأوزان المفتوحة لعام 2026، مقترنةً بالطبقة الدقيقة من الأجهزة التي يتطلبها كل نموذج.

أبرز الاستنتاجات

أفضل نموذج مفتوح المصدر من الجيل المتقدم: لاما 3.1 بسعة 405 مليارات معلَّمة (يتطلب ذاكرة وصول عشوائي تبلغ 200 جيجابايت فأكثر).
أفضل نموذج من فئة الـ70 مليار معلَّمة: كوين 2.5 بسعة 72 مليار معلَّمة – إصدار التوجيهات، ويتفوق على لاما 3 بسعة 70 مليار معلَّمة في معظم مقاييس الأداء لعام 2026.
أفضل نموذج من فئة الـ30 مليار معلَّمة: كوين 2.5 بسعة 32 مليار معلَّمة — يعمل على وحدة معالجة رسوميات سعة 24 جيجابايت باستخدام تقنية التكميم Q5.
أفضل نموذج من فئة الـ7 إلى 14 مليار معلَّمة: فاي-4 بسعة 14 مليار معلَّمة — يتمتّع بقدرات استنتاج استثنائية بالنسبة لحجمه.
أفضل نموذج من نوع MoE (يستهلك ذاكرة كبيرة لكنه سريع في معالجة الرموز): ديب سيك الإصدار الثالث (236 مليار / 21 مليار مُفعَّلة).

لوحة التصنيف لعام 2026

درجات المقاييس المركبة (MMLU + HumanEval + MATH + IFEval)، ومتوسطها وتطبيعها:

الترتيب	النموذج	عدد المُعَلَّمات	النتيجة المركبة	تاريخ الإصدار
1	لاما 3.1 بسعة 405 مليارات معلَّمة	405 مليار معلَّمة كثيفة (Dense)	87.4	يوليو 2024
2	ديب سيك V3	236 مليار معلَّمة من نوع MoE (21 مليار معلَّمة نشطة)	86.8	ديسمبر 2024
3	ميسترال لارج 2	123 مليار معلَّمة كثيفة (Dense)	84.2	يوليو 2024
4	كوين 2.5 بسعة 72 مليار معلَّمة – إصدار التوجيهات	72 مليار معلَّمة كثيفة (Dense)	83.7	سبتمبر 2024
5	لاما 3 بسعة 70 مليار معلَّمة – إصدار التوجيهات	70 مليار معلَّمة كثيفة (Dense)	82.5	أبريل 2024
6	كوماند آر+ بسعة 104 مليارات معلَّمة	104 مليارات معلَّمة كثيفة (Dense)	81.3	أبريل 2024
7	ميكسترال 8x22B	141 مليار مُعامل (39 مليار نشط)	80.1	أبريل 2024
8	كوين 2.5 بسعة 32 مليار مُعامل مع تعليمات	32 مليار مُعامل كثيفة	79.4	سبتمبر 2024
9	فاي-4 (14 مليار مُعامل)	14 مليار مُعامل كثيفة	77.8	ديسمبر 2024
10	لاما 3 بسعة 8 مليارات معلَّمة – إصدار التوجيهات	8 مليارات مُعامل كثيفة	69.2	أبريل 2024

تُحدَّث التصنيفات ربع سنويًّا مع ظهور نماذج جديدة. وتعكس الترتيبات أعلاه الربع الثاني من عام 2026.

العتاد المطلوب لكل نموذج (كمية التكميم Q4_K_M، سياق 8 آلاف رمز)

النموذج	الذاكرة المطلوبة	أرخص عتاد استهلاكي	عدد الرموز/الثانية على هذا العتاد
لاما 3 بسعة 8 مليارات معلَّمة	4.9 جيجابايت	كارت الشاشة RTX 3060 بسعة 12 جيجابايت (بسعر 280 دولارًا أمريكيًّا)	48 معالجة/ثانية
فاي-4 بسعة 14 مليار مُعامل	8.5 جيجابايت	كارت الشاشة RTX 3060 بسعة 12 جيجابايت (بسعر 280 دولارًا أمريكيًّا)	32 ترجمة/ثانية
كوين 2.5 بسعة 14 مليار مُعامل	9.0 جيجابايت	كارت الشاشة RTX 4060 Ti بسعة 16 جيجابايت (بسعر 430 دولارًا أمريكيًّا)	55 رمزًا/ثانية
كويين 2.5 بسعة 32 مليار معلّمة	19.8 جيجابايت	كارت الشاشة RTX 4090 (باستخدام 24 جيجابايت من الذاكرة، وبسعر 1300 دولار أمريكي)	40 رمزًا/ثانية
لاما 3 بسعة 70 مليار معلَّمة	42.5 جيجابايت	كارت الشاشة RTX 5090 (باستخدام 32 جيجابايت عند مستوى التكميم Q4_K_S) أو كارتان من نوع RTX 3090	16–22 رمزًا/ثانية
كوين 2.5 بسعة 72 مليار مُعامل	43.8 جيجابايت	كارت الشاشة RTX 5090 (باستخدام 32 جيجابايت عند مستوى التكميم Q4_K_S) أو كارتان من نوع RTX 3090	15–21 رمزًا/ثانية
كوماند آر+ بسعة 104 مليارات معلَّمة	62.7 جيجابايت	كروتان من نوع RTX 4090 (بسعر 2600 دولار أمريكي) أو وحدة معالجة M4 Max بسعة 128 جيجابايت	9–12 رمزًا/ثانية
ميسترال لارج 2 بسعة 123 مليار مُعامل	74.5 جيجابايت	وحدة معالجة M4 Max بسعة 128 جيجابايت (بسعر 4999 دولارًا أمريكيًّا) أو نظام DIGITS	6–8 رموز/ثانية
ميكسترال 8x22B	85.1 جيجابايت	وحدة معالجة M4 Max بسعة 128 جيجابايت أو نظام DIGITS	11–14 رمزًا/ثانية (مع الاستفادة من بنية MoE)
ديب سيك V3 بسعة 236 مليار مُعامل	143.6 جيجابايت	نظام DIGITS (بسعر 3000 دولار أمريكي) أو وحدة معالجة M4 Ultra بسعة 256 جيجابايت	8–11 رمزًا/ثانية (مع الاستفادة من بنية MoE)
لاما 3.1 بسعة 405 مليارات معلَّمة	244.5 جيجابايت	وحدة معالجة M4 Ultra بسعة 512 جيجابايت (بسعر 12000 دولار أمريكي) أو ثمانية كروت من نوع RTX 4090	2–4 رموز/ثانية

للاطلاع على متطلبات الذاكرة العشوائية (VRAM) الكاملة عند كل مستوى تكميم، يُرجى الاطلاع على ورقة الغش الخاصة بالذاكرة العشوائية (VRAM).

ما الذي يجب تشغيله فعليًّا حسب حالة الاستخدام

الدردشة اليومية / الأسئلة والأجوبة: نموذج لاما 3 بسعة 8 مليارات مُعامل لا يزال ممتازًا حقًّا في عام 2026، ويمكن تشغيله على أي وحدة معالجة رسومية (GPU) سعتها 12 جيجابايت فأكثر. وجرب نموذج فاي-4 بسعة 14 مليار مُعامل للحصول على أداء أفضل في المهام المنطقية، مع زيادة طفيفة جدًّا في استهلاك الذاكرة.

مساعد البرمجة: يُعد نموذج كوين 2.5 بسعة 32 مليار مُعامل مع تعليمات أو نموذج ديب سيك V3 الأفضل. وإذا كانت سعة الذاكرة العشوائية (VRAM) المتاحة لا تتجاوز 24 جيجابايت، فاستخدم نموذج كوين 32 مليار مُعامل عند مستوى التكميم Q5؛ أما إذا توفرت ذاكرة أكبر، فإن أداء نموذج ديب سيك V3 يتفوق على غيره.

تحليل المستندات الطويلة (سياق 32 ألف رمز فأكثر): يتمتع نموذج كوين 2.5 بسعة 72 مليار مُعامل بأفضل أداء في التعامل مع السياقات الطويلة بين النماذج المفتوحة في عام 2026.

الترجمة / متعدد اللغات: نموذج كوين 2.5 بسعة 72 مليار مُعامل مرة أخرى — فالتدريب المكثف الذي خضع له من قِبل شركة علي بابا على اللغة الصينية واللغات الأخرى يمنحه ميزة حقيقية في هذا المجال.

الرياضيات والتفكير المنطقي: يتفوق نموذج فاي-4 (14 مليار مُعامل) على نماذج من فئته في الاختبارات التي تقيس القدرات المنطقية. أما بالنسبة لأحدث ما وصلت إليه تقنيات التفكير المنطقي، فاستخدم نموذج لاما 3.1 بسعة 405 مليارات مُعامل.

الكتابة الإبداعية / تمثيل الأدوار: يتمتّع نموذج Mistral Large 2 بأفضل «صوت» بين النماذج المفتوحة، رغم أن الاختبارات التقييمية تضعه قليلاً تحت نموذج Qwen 72B.

الاستنتاج الإنتاجي على نطاق واسع: يُعدّ نموذج DeepSeek V3 (المبني على مبدأ خليط الخبراء MoE) الفائز من حيث الكفاءة التكلفة — فهو يقدّم جودةً في طليعة المجال مع سرعة استنتاج تعتمد على عدد المعاملات النشطة.

المفاضلات المرتبطة بالتكمين (Quantization)

الأرقام أعلاه تفترض استخدام تقنية التكمين Q4_K_M، وهي أفضل توازن بين الحجم والجودة في عام 2026. للمراجعة:

FP16 (بدون تكمين): يتطلب ما يقارب ضعف الذاكرة، ويوفّر تحسّنًا طفيفًا في الجودة بنسبة ١–٢٪ فقط. ونادرًا ما يكون هذا التحسّن مستحقًّا التكلفة.
Q8_0: يتطلب ما يقارب ١٫٦ ضعف الذاكرة المطلوبة لـ Q4_K_M، ولا يمكن تمييز جودته عن تلك الخاصة بـ FP16.
Q5_K_M: يتطلب ما يقارب ١٫١٧ ضعف الذاكرة المطلوبة لـ Q4_K_M، مع تحسّن في الجودة بنسبة ٠٫٥–١٪. وهو يستحق الاختيار إذا كانت لديك هامش كافٍ من الذاكرة.
Q4_K_M: التكمين الموصى به. أفضل توازن.
Q3_K_M: يتطلب ما يقارب ٠٫٨٢ من الذاكرة المطلوبة لـ Q4_K_M، لكنه يؤدي إلى انخفاض في الجودة بنسبة ٤–٧٪، مع تراجع مرئي في الأداء.
IQ2_XXS: يتطلب ما يقارب ٠٫٥٩ من الذاكرة المطلوبة لـ Q4_K_M، لكنه يؤدي إلى انخفاض حاد في الجودة بنسبة ١٥–٢٥٪، ويُستخدم فقط في حالات الطوارئ القصوى.

الدليل الكامل للتكمين متاح في متطلبات الذاكرة العشوائية VRAM لكل نموذج رئيسي للغة (LLM).

المزايا والعيوب (النماذج المفتوحة مقابل المغلقة في عام ٢٠٢٦)

نقاط القوة في نماذج الذكاء الاصطناعي اللغوي المفتوحة المصدر في عام ٢٠٢٦

تتفق أداء أفضل النماذج المفتوحة مع أداء نماذج فئة GPT-4
خصوصية كاملة محلّيًّا + عدم وجود تكاليف اشتراك عبر واجهة برمجة التطبيقات (API)
قابل للتخصيص / والضبط الدقيق (Fine-tuning)
تنوّع في الهياكل المعمارية (كثيفة Dense، وخليط خبراء MoE) لتلبية متطلبات مختلفة ومختلفة من المفاضلات

القيود

تتراكم تكاليف الأجهزة — وتتراوح بين ٣٠٠٠ و١٢٠٠٠ دولار أمريكي لأفضل الحلول المحلية المتطورة
ما زالت أفضل النماذج المغلقة (مثل GPT-5 وClaude Opus 4.7) تتقدّم في مهام الاستنتاج والاستدلال
زمن التأخّر (Latency) على الأجهزة الاستهلاكية أبطأ منه في السحابة
عبء الصيانة (تحديثات البرمجيات، برامج التشغيل، عمليات التكمين)

عامل البرنامج: محرك الاستنتاج الخاص بك يؤثر في الإجابة

تفترض قائمة أفضل الأداء أعلاه أنك تحمِّل النموذج بالكامل في ذاكرة الفيديو (VRAM) وتشغِّله. أما في الواقع، فإن محرك الاستنتاج الذي تختاره قد يغيِّر الإنتاجية الفعلية في العالم الحقيقي بمقدار عشرة أضعاف على نفس نفس العتاد، كما أن إحدى التقنيات قد تسمح بتشغيل نموذجٍ ما على وحدة معالجة رسوميات (GPU) يُفترض أن جدول المواصفات يُظهر أنها صغيرة جدًّا لهذا الغرض. وبالتالي، فإن اختيار العتاد دون تحديد برنامج التشغيل (Runtime) يُشكِّل نصف قرار فقط.

يوجد معسكرين رئيسيين مهمين لمُستضيفي النماذج بأنفسهم. في إل إل إم (ومحركات الإنتاجية المشابهة مثل SGLang) مُصمَّمة للتشغيل المتزامن: فمجدولها الذي يعتمد على الدفع المستمر (Continuous-batching scheduler) يحافظ على تشغيل وحدة معالجة الرسوميات بكفاءة عالية، لذا يمكن لبطاقة واحدة تخدم العديد من الطلبات المتزامنة أن تُحقِّق معدل إنتاجية إجمالية من الرموز (Tokens) تفوق عدة أضعاف ما تحققه الإعدادات البدائية. فإذا كنت تبني تطبيقًا أو واجهة برمجية داخلية (API) أو أي نظام متعدد المستخدمين، فهذا هو المعسكر الأنسب لك. llama.cpp (والواجهات الأمامية المبنية عليه مثل Ollama و LM Studio) تُركِّز على مستخدم واحد وتوفير أقصى درجات المرونة: فهو يعمل على معظم الأنظمة تقريبًا، ويتعامل مع نماذج GGUF المُكمَّنة (Quants)، والأهم من ذلك أنه قادر على نقل أجزاء من النموذج إلى ذاكرة النظام (RAM). وعلى معالجات آبل Silicon، يملأ إطار عمل MLX نفس الدور الموجَّه لمستخدم واحد، ويستغل الذاكرة الموحَّدة بأقصى كفاءة ممكنة.

وهذه القدرة على النقل (Spill) هي ما يجعل تشغيل أكبر النماذج ممكنًا. فنماذج خليط الخبراء (Mixture-of-experts) مثل DeepSeek V3 تحتوي على عدد هائل من المعايير الإجمالية، لكنها تفعِّل فقط جزءًا صغيرًا منها لكل رمز. أما ميزة نقل خبراء النموذج إلى الذاكرة الخارجية (expert-offload) في llama.cpp فهي(--n-cpu-moe)التي تحتفظ بالطبقات النشطة دائمًا على وحدة معالجة الرسوميات، بينما تنقل الخبراء الذين لا تُستدعى طبقاتهم غالبًا إلى ذاكرة النظام (RAM). والنتيجة هي أن بطاقة ذات سعة 24 جيجابايت مقترنة بكمٍّ كبير من ذاكرة النظام السريعة يمكنها يُنفَّذ تشغيل نموذج حدّي (Frontier) من نوع MoE، رغم أن جدول سعات VRAM يشير إلى استحالة تشغيله بهذه البطاقة.

والتحذير الصريح هنا هو أن السرعة تتأثر سلبًا. فعملية النقل تُضحِّي بالسرعة من أجل زيادة السعة، وبذلك تزداد زمن الوصول (Latency). وباستنادٍ إلى مستوى التكمين (Quant level) وعرض نطاق نقل البيانات في ذاكرتك، يمكنك أن تتوقع معدل إنتاجية يتراوح بين أقل من رمز واحد في الثانية في الإعدادات الجريئة، وصولًا إلى منتصف العشرات، وهي سرعات تقع بوضوح ضمن منطقة «يعمل فعليًّا» وليس ضمن منطقة «الدردشة السريعة جدًّا». إن هذه الميزة حقيقية، لكنها وسيلة للوصول إلى نموذج لا يمكن تشغيله غير ذلك، وليست ترقية مجانية.

إذا كنت تبني النظام لعدة مستخدمين؟ اختر vLLM أو SGLang، واحرص على أن تكون سعة VRAM كافية لاستيعاب النموذج بالكامل.
أما إذا كان المستخدم واحدًا وترغب في تشغيل أكبر نموذج ممكن على عتاد محدود المواصفات؟ فاستخدم llama.cpp مع ميزة نقل خبراء النموذج إلى الذاكرة الخارجية (MoE offload)، وأنفق ميزانيتك على سعة وسرعة ذاكرة النظام (RAM) بدل التركيز فقط على وحدة معالجة الرسوميات.
أما على أجهزة ماك؟ فافضِّل استخدام MLX أو Ollama؛ لأن الذاكرة الموحَّدة تقوم بالفعل بمعظم مهام «النقل إلى الذاكرة الخارجية» نيابةً عنك.

الأسئلة الشائعة

Are there any open-source LLMs still available in 2026?

Yes, open-source LLMs are widely available in 2026, and several rival closed models. The leaderboard’s top picks include Llama 3.1 405B (composite 87.4, ~244.5 GB memory), Qwen 2.5 72B Instruct, Qwen 2.5 32B (19.8 GB), Phi-4 14B (77.8), and the DeepSeek V3 MoE (236B total / 21B active), all runnable locally with sufficient hardware.

هل يُعتبر أفضل نموذج مفتوح المصدر تنافسيًّا فعليًّا مع GPT-4 في عام ٢٠٢٦؟

نعم، بالنسبة لمعظم مهام الاستخدام. إذ يتفوق كلٌّ من نموذجي Llama 3.1 405B وDeepSeek V3 على GPT-4 (الإصدار القديم) في معظم الاختبارات التقييمية العامة، ويُساويان أداء GPT-4.5 في العديد منها. أما في أصعب مهام الاستنتاج والاستدلال والرياضيات والمهمات التي تتطلب وكالة (Agentic tasks)، فيتأخران قليلًا خلف GPT-5 وClaude Opus 4.7. وللغالبية العظمى من المستخدمين، أصبح الفارق بينها وبين «أفضل النماذج المغلقة» الآن يُقاس بعدد قليل من النقاط المئوية.

لماذا يحتل نموذج DeepSeek V3 مرتبة عالية جدًّا رغم كونه نموذجًا من نوع MoE؟

تعمل نماذج خليط الخبراء (MoE) على تفعيل مجموعة فرعية فقط من المعاملات لكل رمز (Token). إذ يحتوي DeepSeek V3 على ٢٣٦ مليار معامل إجمالًا، لكنه يُفعّل نحو ٢١ مليار معامل فقط لكل رمز. وبالتالي تحصل على معرفة نموذج أكبر بكثير، وبسرعة استنتاج تشبه تلك الخاصة بنموذج أصغر بكثير — شريطة أن تتسع الذاكرة لذلك. وهو الخيار الأكثر عملية في عام ٢٠٢٦ لتحقيق «أعلى جودة في طليعة المجال مع سرعة أجهزة الاستهلاك».

هل يجب أن أجري ضبطًا دقيقًا (Fine-tuning) على أحد هذه النماذج أم أستخدمه كما هو؟

استخدمه كما هو لمهمات الاستخدام العام. أما الضبط الدقيق فيجب أن تلجأ إليه فقط إذا كانت لديك حالة استخدام ضيّقة ومتكررة (مثل: أسلوب كتابة متخصص في مجال معين، أو تحليل وثائق قانونية)، ولديك ما لا يقل عن ٥٠٠–١٠٠٠ عينة تدريبية عالية الجودة. ويحتاج الضبط الدقيق لنموذج بحجم ٧٠ مليار معامل إلى أجهزة قوية جدًّا.

وماذا عن Llama 4 أو الإصدارات الجديدة؟

أكّدت شركة Meta إطلاق Llama 4 في منتصف عام ٢٠٢٦ مع التزامٍ مستمرٍ بنشر أوزان النموذج مفتوحة المصدر. ومن المتوقع أن يشمل الإصدار نموذجًا رائدًا بحجم ٤٠٥ مليار معامل وأشكالًا أصغر محسَّنة. وسنحدّث هذه القائمة التنافسية بمجرد توفر النتائج الفعلية للاختبارات التقييمية.

أي نموذج ينبغي أن أشغِّله على ماك ستوديو إم4 ماكس 128 جيجابايت؟

الخيار الأمثل: Qwen 2.5 72B بتكمين Q5_K_M (٥١ جيجابايت) — يعمل بسرعة تقارب ٩ رموز/ثانية، مع ترك هامش وافٍ للسياق. أما لأعلى جودة ممكنة، فيناسب تمامًا Mistral Large 2 بحجم ١٢٣ مليار معامل بتكمين Q4. وللحصول على سرعة فائقة في النماذج القائمة على MoE، فإن Mixtral 8x22B خيار ممتاز.

هل تستحق النماذج الأصغر (أقل من ٧ مليارات معامل) العناء؟

نعم، في حالات استخدام محددة. إذ تعمل نماذج مثل Phi-4 Mini 3.8B وGemma 2 2B وSmolLM 1.7B بسرعة عالية على الهواتف والأجهزة الطرفية (Edge devices). أما في المحادثات العامة فهي أضعف بشكل ملحوظ من النماذج التي تتجاوز ٨ مليارات معامل، لكنها كافية تمامًا لمهمات محدودة (مثل التصنيف، أو الاستخراج المنظم، أو الترجمة البسيطة).

هل من الأفضل استخدام وحدة معالجة رسوميات واحدة كبيرة أم وحدتين أصغر لتشغيل هذه النماذج؟

بالنسبة للاستنتاج البحت (Pure inference)، فإن استخدام بطاقة واحدة تمتلك سعة VRAM كافية لاستيعاب النموذج بالكامل هو الخيار الأبسط، ويتفادى التعقيدات الناتجة عن تقسيم الطبقات عبر أجهزة متعددة. أما استخدام بطاقتين فيكتسب معناه عندما يكون الهدف الحصول على سعة إجمالية أكبر من VRAM مما توفره أي بطاقة واحدة بسعر معقول — كأن تزاوج بطاقتين سعتهما 24 جيجابايت لاستضافة نموذج لا يمكن تحميله في بطاقة واحدة. لكن هناك تنازلات حقيقية: فالبطاقة الإضافية تزيد من استهلاك الطاقة والحرارة، وتخلق اختناقات في عرض نطاق نقل البيانات عبر واجهة PCIe بين البطاقتين، كما تتطلب ضبطًا أكثر تعقيدًا. ولذلك، إذا كانت بطاقة واحدة كافية لاستيعاب النموذج المستهدف عند مستوى تكمين (Quant) ترتاح إليه، فاشترِ البطاقة الواحدة.

ما تكلفة الكهرباء لتشغيل نموذج لغوي كبير محلي (local LLM) 24/7?

إن استهلاك الطاقة في وضع الخمول والاستخدام الخفيف معتدل، لكن وحدة معالجة الرسوميات عالية الأداء قد تستهلك مئات الواط تحت الحمل المستمر، وهذا يزداد تراكمًا إذا ظل الجهاز شغّالًا باستمرار. والإجراء العملي هو ترك النظام في وضع السكون أو إلغاء تحميل النموذج أثناء عدم الاستخدام، ثم تفعيله فقط عند وجود طلب فعلي — إذ يقوم معظم برامج التشغيل المحلية بتحميل النماذج وإلغاء تحميلها عند الطلب. وبذلك تكون تكلفة التشغيل ضئيلة جدًّا للاستخدام الشخصي العرضي، أما إذا كان النموذج يخدم حركة مرور مستمرة على مدار الساعة، فيجب أن تدرج تكلفة الكهرباء ضمن التكلفة الإجمالية لامتلاك النظام إلى جانب سعر العتاد.

هل يستحق تشغيل هذه النماذج محليًّا حقًّا، مع انخفاض أسعار واجهات البرمجة المُستضافة (Hosted APIs) إلى هذا الحد؟

يعتمد ذلك على سبب اختيارك للاستضافة الذاتية. فإذا كان هدفك الوحيد هو أدنى تكلفة ممكنة لكل رمز، فإن واجهات البرمجة المُستضافة لهذه النماذج المفتوحة نفسها لا يمكن منافستها من حيث التكلفة، ولا تتطلب أي عتاد على الإطلاق. أما الاستضافة المحلية فهي الأفضل عندما تحتاج إلى أن تبقى بياناتك على جهازك دون مغادرته أبدًا، أو عندما تريد ضمان توافر دائم دون قيود على معدل الاستخدام أو فوترة لكل رمز، أو عندما تقوم بمعالجة دفعات ضخمة حيث يُخفِّف امتلاك العتاد من التكلفة على المدى الطويل. وللمستخدمين العاديين، تظل واجهة البرمجة المُستضافة الخيار المنطقي، أما في حالات الخصوصية أو العمل دون اتصال أو الحاجة إلى إنتاجية عالية جدًّا، فإن الاستضافة المحلية تُحقِّق عائدًا مجزيًا.

الخلاصة

في عام ٢٠٢٦ يمكنك تشغيل إمكانيات تشبه GPT-4 محليًّا طالما توفّرت لديك الأجهزة المناسبة. والسؤال الحقيقي هو: ما مدى الإمكانيات التي تحتاجها فعليًّا، وما مستوى الأجهزة الذي يناسب تلك الحاجة؟

فئة ٨ مليارات معامل لاستخدام يومي → أي حاسوب شخصي حديث يحتوي على ١٢ جيجابايت فأكثر من ذاكرة VRAM
فئة ٣٠ مليار معامل لمساعدة جادة → بطاقة رسومية RTX 4090 أو 3090 بسعة ٢٤ جيجابايت
فئة ٧٠ مليار معامل لأعلى جودة متوفرة في النماذج المفتوحة → بطاقة رسومية RTX 5090 بسعة ٣٢ جيجابايت أو معالج M4 Max
فئة ١٠٠ مليار معامل فأكثر لنماذج طليعية مفتوحة المصدر → M4 Max بسعة ١٢٨ جيجابايت أو منصة Nvidia DIGITS أو نظام متعدد البطاقات الرسومية
فئة ٤٠٥ مليارات معامل لأعلى مستوى مطلق → معالج M4 Ultra بسعة ٥١٢ جيجابايت أو البنية التحتية المؤسسية

لقد استقر السوق أخيرًا على هيكل متكامل يجعل الذكاء الاصطناعي المحلي تنافسيًّا فعليًّا مع الذكاء الاصطناعي السحابي — حتى مع النماذج المغلقة السحابية. أما قرارك باستخدام الخيار المحلي فيعتمد في المقام الأول على ما إذا كانت معادلة التكلفة المرتبطة بالأجهزة تتوافق مع أنماط استخدامك.

لمزيد من التفاصيل المتعلقة بجانب وحدات معالجة الرسومات (GPU) في هذا القرار، راجع دليلنا الخاص بـ دليل أفضل وحدات معالجة الرسوميات لتشغيل النماذج اللغوية الكبيرة محليًّاأما بالنسبة لجانب أجهزة الحواسيب المحمولة، فدليلنا الخاص بـ الأفضل أجهزة كمبيوتر محمولة لـ التعلم الآلي 2026 ويشمل هذا التقرير الخيارات المحمولة.

أبرز الاستنتاجات

لوحة التصنيف لعام 2026

العتاد المطلوب لكل نموذج (كمية التكميم Q4_K_M، سياق 8 آلاف رمز)

ما الذي يجب تشغيله فعليًّا حسب حالة الاستخدام

المفاضلات المرتبطة بالتكمين (Quantization)

المزايا والعيوب (النماذج المفتوحة مقابل المغلقة في عام ٢٠٢٦)

نقاط القوة في نماذج الذكاء الاصطناعي اللغوي المفتوحة المصدر في عام ٢٠٢٦

القيود

عامل البرنامج: محرك الاستنتاج الخاص بك يؤثر في الإجابة

الأسئلة الشائعة

Are there any open-source LLMs still available in 2026?

هل يُعتبر أفضل نموذج مفتوح المصدر تنافسيًّا فعليًّا مع GPT-4 في عام ٢٠٢٦؟

لماذا يحتل نموذج DeepSeek V3 مرتبة عالية جدًّا رغم كونه نموذجًا من نوع MoE؟

هل يجب أن أجري ضبطًا دقيقًا (Fine-tuning) على أحد هذه النماذج أم أستخدمه كما هو؟

وماذا عن Llama 4 أو الإصدارات الجديدة؟

أي نموذج ينبغي أن أشغِّله على ماك ستوديو إم4 ماكس 128 جيجابايت؟

هل تستحق النماذج الأصغر (أقل من ٧ مليارات معامل) العناء؟

هل من الأفضل استخدام وحدة معالجة رسوميات واحدة كبيرة أم وحدتين أصغر لتشغيل هذه النماذج؟

ما تكلفة الكهرباء لتشغيل نموذج لغوي كبير محلي (local LLM) 24/7?

هل يستحق تشغيل هذه النماذج محليًّا حقًّا، مع انخفاض أسعار واجهات البرمجة المُستضافة (Hosted APIs) إلى هذا الحد؟

الخلاصة

مقالات ذات صلة