How much VRAM do I need to run Llama 3 70B locally in 2026?

Minimum 24 GB for Llama 3 70B at Q3_K_S (which is rough quality). 32 GB lets you run Q4_K_M comfortably (the recommended quant). 40+ GB is needed for Q5_K_M. With 24 GB and 8 K context, you have basically zero headroom; pushing context to 32 K requires CPU offload or a more aggressive quant.

What's the difference between Q4_K_M and Q4_K_S?

Both are 4-bit quantizations of the same model. Q4_K_M ("medium") uses 5 bits for some critical weight groups, making it slightly larger but noticeably better quality than Q4_K_S ("small"). For nearly identical VRAM, Q4_K_M is preferred. Q4_K_S only makes sense when you're trying to squeeze a model into a tight VRAM budget.

Can I run an LLM that's bigger than my VRAM?

Yes — using CPU offload, where some model layers run on the CPU using system RAM instead of GPU VRAM. The performance penalty is severe (5–10× slower), but it lets you run models that wouldn't otherwise fit. Practical for occasional use, painful as a daily driver. Both llama.cpp and Ollama support this out of the box via the n_gpu_layers setting.

Does the KV cache really matter for VRAM planning?

Yes, especially at long context. For Llama 3 70B at 32 K context, the KV cache alone is ~5 GB. If you're already at the edge of your VRAM, you'll OOM the moment a conversation gets long. Plan for KV cache and consider Q8 KV-cache quantization (option in modern inference engines) to roughly halve it.

Is there a way to run Llama 3 405B at home?

Yes, but you need 200+ GB of memory at usable quants. The realistic 2026 paths: Mac Studio M4 Ultra 512 GB ($12K, slow per-token but works), 8× RTX 4090 ($13K, complex setup), Nvidia DIGITS ($3K, purpose-built), or CPU + 256 GB DDR5 RAM with mid-range GPU for partial offload ($8K, slow). See our how-to guide on running Llama 3 405B at home.

Are there any 2026 quantization formats I should know besides GGUF?

Yes — AWQ (Activation-aware Weight Quantization) and GPTQ are both still widely used, especially for vLLM and TensorRT-LLM deployments. They're slightly better quality at the same bit count than GGUF in some cases. For consumer local-LLM use with llama.cpp/Ollama/LM Studio, GGUF remains dominant in 2026 because of its simplicity and broad tooling support.

Will Q4 quantization affect coding ability?

Less than you'd think, but yes. For straightforward code completion, Q4_K_M is essentially identical to FP16. For complex multi-step reasoning across a codebase, Q4 occasionally produces worse logic than Q5+. If you do serious coding with local models, prefer Q5_K_M and choose your hardware to support it.

VRAM Requirements for Every Major LLM in 2026 (Quantization Cheat Sheet)

محدّث July 3, 2026 · نُشِرت لأول مرة في 19 مايو 2026

إن السؤال الأكثر شيوعًا الذي نتلقاه من الوافدين الجدد في عام 2026 ليس “أي نموذج يجب أن أستخدمه” - بل “هل سيعمل هذا النموذج على وحدة معالجة الرسومات الخاصة بي؟”

هذا الدليل هو الحل. لقد اختبرنا كل LLM مفتوح رئيسي في كل قياس كمي شائع على أجهزة تتراوح من 12 جيجابايت RTX 3060 إلى 80 جيجابايت H100، وما يلي هو ورقة الغش التي تمنينا وجودها عندما بدأنا.

تذكير للمتعجلين VRAM هو قيد الربط. إذا كان النموذج الخاص بك + ذاكرة التخزين المؤقت KV + السياق لا يتناسب مع VRAM، فإن الاستدلال ينخفض إلى حد كبير. كل شيء أدناه يفترض أنك تريد استدلالًا خالصًا لوحدة معالجة الرسومات؛ إذا كنت ترغب في إلغاء تحميل وحدة المعالجة المركزية، فاقسم الإنتاجية على 5-10×.

أبرز الاستنتاجات

12 جيجابايت من ذاكرة الوصول العشوائي الافتراضية (VRAM): طرازات 7-8 B في Q5+، 13 B في Q4. Llama 3 8B، Mistral 7B، Phi-4 Mini.
16 جيجابايت من ذاكرة الوصول العشوائي الافتراضية (VRAM): 13-14 ب في Q5+. فئة غير ملائمة - أكثر من اللازم لـ 8B، ولا تكفي لـ 30B.
24 جيجابايت من ذاكرة الوصول العشوائي الافتراضية (VRAM): 30 ب عند Q5+، و70 ب عند Q3_K_S (ضيق). البقعة الحلوة.
32 جيجابايت من ذاكرة الوصول العشوائي الافتراضية (VRAM) 70 ب في Q4_K_M بشكل مريح، 30 ب في Q8.
ذاكرة وصول عشوائي افتراضية VRAM سعة 48 جيجابايت: 70 ب في Q5_K_M، 100 ب+ في Q3/Q4.
128 جيجابايت موحدة (M4 كحد أقصى): 405 B في الربع الرابع، ولكن أبطأ لكل رمز من Nvidia.

الجدول المرجعي السريع

كل وحدة LLM مفتوحة رئيسية 2026 واحتياجاتها من ذاكرة الوصول العشوائي الافتراضية بمستويات تكميم مشتركة. الأرقام الخاصة بـ أوزان الطراز فقط, في سياق 8 K. أضف 1-2 غيغابايت لمساحة رأس ذاكرة التخزين المؤقت KV لكل 8 K من السياق الذي تستخدمه بالفعل.

النموذج	FP16	Q8_0	Q5_K_M	Q4_K_M	Q3_K_M	IQ2_XXS
فاي-4 ميني (3.8 ب)	7.6 جيجابايت	4.0 جيجابايت	2.7 جيجابايت	2.3 جيجابايت	1.9 جيجابايت	1.4 جيجابايت
جيما 2 2 ب	5.0 جيجابايت	2.7 جيجابايت	1.8 جيجابايت	1.6 جيجابايت	1.3 جيجابايت	1.0 جيجابايت
لاما 3 بسعة 8 مليارات معلَّمة	16.1 جيجابايت	8.5 جيجابايت	5.7 جيجابايت	4.9 جيجابايت	4.0 جيجابايت	2.9 جيجابايت
ميسترال 7B v0.3	14.5 جيجابايت	7.7 جيجابايت	5.1 جيجابايت	4.4 جيجابايت	3.6 جيجابايت	2.6 جيجابايت
كويين 2.5 بسعة 7 مليار معلّمة	15.2 جيجابايت	8.1 جيجابايت	5.4 جيجابايت	4.7 جيجابايت	3.8 جيجابايت	2.7 جيجابايت
فاي-4 (14 مليار مُعامل)	28.0 جيجابايت	14.9 جيجابايت	10.0 جيجابايت	8.5 جيجابايت	7.0 جيجابايت	5.0 جيجابايت
كوين 2.5 بسعة 14 مليار مُعامل	29.5 جيجابايت	15.7 جيجابايت	10.5 جيجابايت	9.0 جيجابايت	7.4 جيجابايت	5.3 جيجابايت
ميسترال نيمو 12B	24.5 جيجابايت	13.0 جيجابايت	8.7 جيجابايت	7.5 جيجابايت	6.1 جيجابايت	4.4 جيجابايت
كويين 2.5 بسعة 32 مليار معلّمة	65.0 جيجابايت	34.6 جيجابايت	23.0 جيجابايت	19.8 جيجابايت	16.3 جيجابايت	11.6 جيجابايت
يي-1.5 34 ب	68.5 جيجابايت	36.4 جيجابايت	24.3 جيجابايت	20.7 جيجابايت	17.1 جيجابايت	12.2 جيجابايت
لاما 3 بسعة 70 مليار معلَّمة	141.0 جيجابايت	74.9 جيجابايت	49.9 جيجابايت	42.5 جيجابايت	34.7 جيجابايت	24.9 جيجابايت
كوين 2.5 بسعة 72 مليار مُعامل	145.0 جيجابايت	77.1 جيجابايت	51.4 جيجابايت	43.8 جيجابايت	35.7 جيجابايت	25.6 جيجابايت
كوماند آر+ بسعة 104 مليارات معلَّمة	208.0 جيجابايت	110.5 جيجابايت	73.8 جيجابايت	62.7 جيجابايت	51.6 جيجابايت	36.8 جيجابايت
ميسترال كبير 2 (123B)	247.0 جيجابايت	131.4 جيجابايت	87.5 جيجابايت	74.5 جيجابايت	61.0 جيجابايت	43.6 جيجابايت
ميكسترال 8 × 22 ب (141 ب)	282.0 جيجابايت	150.0 جيجابايت	100.0 جيجابايت	85.1 جيجابايت	69.8 جيجابايت	49.9 جيجابايت
DeepSeek V3 (236 B MoE)	475.0 جيجابايت	252.0 جيجابايت	168.5 جيجابايت	143.6 جيجابايت	117.4 جيجابايت	84.1 جيجابايت
لاما 3.1 بسعة 405 مليارات معلَّمة	810.0 جيجابايت	431.0 جيجابايت	287.0 جيجابايت	244.5 جيجابايت	200.1 جيجابايت	143.0 جيجابايت

ملاحظة عملية: للاستخدام اليومي, س4_ك_م هو الرصيد الموصى به من حيث الحجم والجودة. انخفاض الجودة مقابل FP16 ضئيل (زيادة الحيرة النموذجية < 2%) والوفورات في الذاكرة هائلة (حوالي 3.3×3 مرات أصغر). Q5_K_M بجودة أفضل بشكل هامشي مع ذاكرة أكبر بنحو 17%. Q3 و IQ2 طارئان فقط - تتدهور الجودة بشكل ملحوظ.

ذاكرة التخزين المؤقت KV - الجزء الذي ينساه الجميع

الأرقام أعلاه هي أوزان الطراز فقط. الأعداد ذاكرة KV المؤقتة - الذاكرة الجارية لجميع الرموز في محادثتك - تعيش أيضًا في VRAM وتنمو خطيًا مع طول السياق.

حجم ذاكرة التخزين المؤقت التقريبي KV، لكل 1 كيلو من الرموز من السياق، في FP16:

فئة النموذج	كيلو فولت لكل 1 ألف توكن	كيلو فولت لكل سياق 32 كيلو فولت
طرازات 7-8 ب	~حوالي 32 ميغابايت	~حوالي 1.0 جيجابايت
نماذج 13-14 ب	~حوالي 50 ميغابايت	~حوالي 1.6 جيجابايت
30-34 ب نماذج 30-34 ب	~حوالي 80 ميغابايت	~حوالي 2.6 جيجابايت
الطرازات 70-72 ب	~حوالي 160 ميغابايت	~حوالي 5.1 جيجابايت
الطرازات 100-123 ب	~حوالي 220 ميغابايت	~حوالي 7.0 جيجابايت
405 B	~حوالي 500 ميغابايت	~حوالي 16.0 جيجابايت

يقلل تكميم ذاكرة التخزين المؤقت KV (خيار في llama.cpp و vLLM في 2026) من ذلك بمقدار 2-4× تقريبًا بتكلفة جودة صغيرة. تستخدم معظم إعدادات الإنتاج الآن ذاكرة التخزين المؤقت Q8 KV - إنها مجانية تقريبًا من حيث الجودة وتوفر ذاكرة VRAM كبيرة في السياق الطويل.

إذا كنت تخطط لاستخدام سياق 32 K أو أطول, أضف ذاكرة التخزين المؤقت KV إلى حسابات ذاكرة التخزين المؤقت للذاكرة الافتراضية قبل اختيار وحدة معالجة الرسومات.

مصفوفة توافق وحدة معالجة الرسومات

ما هي النماذج التي تتناسب بشكل مريح مع كل وحدة معالجة رسومات شائعة، بالكميات الموصى بها، مع سياق 8 كيلو بايت؟ “بشكل مريح” تعني النموذج + ذاكرة تخزين مؤقت KV + مساحة رأس النظام 1 جيجابايت.

وحدة معالجة الرسوميات (GPU)	VRAM	أفضل ملاءمة (Q4_K_M)	الأنسب (Q5_K_M)	الحد الأقصى (أي كمية)
RTX 3060 بسعة 12 جيجابايت	12 جيجابايت	8 B	8 B	14 ب في الربع الثالث
RTX 4060 Ti بسعة 16 جيجابايت	16 جيجابايت	13 B	13 B	30 ب في IQ2
RTX 5080 / 5070 Ti	16 جيجابايت	13 B	13 B	30 ب في IQ2
RTX 3090/4090	24 جيجابايت	30 ب (قوين 32 ب)	30 B	70 ب في Q3_K_S
RX 7900 XTX	24 جيجابايت	30 B	30 B	70 ب في Q3_K_S
RTX 5090	32 جيجابايت	70 B	70 ب (ضيق)	70 ب في Q5_K_M
2 × RTX 3090/4090 2 × RTX 3090	48 جيجابايت	70 B	70 B	104 ب في الربع الثالث 104 ب في الربع الثالث
RTX A6000 / 6000 Ada RTX A6000 / 6000 Ada	48 جيجابايت	70 B	70 B	104 ب في الربع الثالث 104 ب في الربع الثالث
ماك ستوديو M4 ماكس M4 ماكس 64 جيجابايت	64 جيجابايت موحدة	70 B	70 B	123 ب في Q3
H100 80 جيجابايت	80 جيجابايت	70 ب (70 ب (FP16-يش)	104 B	123 ب في الربع الرابع
ماك ستوديو M4 M4 ماكس 128 جيجابايت	128 جيجابايت موحدة	104 B	123 B	405 ب في IQ2 (بطيء)
H200 / DIGITS	141 جيجابايت / 128 جيجابايت موحدة	123 B	123 B	405 B في Q3 (بطيء)
B200	192 جيجابايت	123 B	123 B	405 B في Q4 (ضيق)

الأنماط التي يجب استيعابها:

1. 12 جيجابايت هو الحد الأدنى للدخول. أما ما دون ذلك، فأنت مقيد بنماذج صغيرة لا تبرر وجود وحدة معالجة رسومات مخصصة.
2. 24 جيجابايت هي نقطة الانعطاف. إنه أرخص مستوى حيث يصبح لاما 3 70B ممكنًا (في الكوانتس المهدد بالخطر).
3. 32 GB 32 يفتح 70B بشكل صحيح. هذا هو السبب الكامل لاختيار RTX 5090 على 4090.
4. 48 جيجابايت منطقة مريحة. معظم الأشياء التي تريد القيام بها تتناسب بشكل نظيف.
5. 128 جيجابايت موحّد هو السقف الموحّد للمستهلك. فوق هذا، أنت تشتري أجهزة الخادم.

اختيار الكمية المناسبة لأجهزتك

القياس الكمي الصحيح ليس دائمًا “أكبر نموذج مناسب”. فالجودة مهمة، وأحيانًا ما يكون النموذج الأصغر بكمية أفضل من النموذج الأكبر بكمية أسوأ.

تصنيف الجودة التقريبي (على أساس الحيرة، الأقل أفضل):

FP16 / BF16 - أصلي. خط الأساس المرجعي للجودة.
Q8_0 - ~0.3% زيادة في الحيرة. لا يمكن تمييزها بشكل أساسي.
Q6_K - زيادة قدرها 0.5% تقريبًا. لا يمكن تمييزها عملياً.
Q5_K_M - زيادة بمقدار 1.0% تقريبًا. انخفاض طفيف في الجودة، ولكن لا تزال الجودة عالية جدًا.
Q4_K_M - زيادة تتراوح بين 1.5 و2.51 تيرابايت 3 تيرابايت تقريبًا. موصى به لمعظم المستخدمين.
Q4_K_S - زيادة ~3%. أسوأ بشكل ملحوظ من Q4_K_M لحجم مماثل.
Q3_K_M - زيادة ~ 5-8%. تأثر الناتج بشكل واضح.
Q3_K_S - ~10% زيادة. استخدم فقط في حالة عدم ملاءمة Q4.
IQ2_XXS - ~15-25% زيادة ~ 25%. الملاذ الأخير.

القاعدة العامة: تفضيل نموذج معيار أصغر عند Q5_K_M على نموذج أكبر عند Q3_K_S للمهام اليومية. يتفوق Qwen 32B عند Q5 بشكل عام على Llama 3 70B عند IQ2_XXS في معايير العالم الحقيقي على الرغم من أن الأخير يبدو أكثر إثارة للإعجاب على الورق.

استثناء: مهام الترميز والاستدلال حيث غالباً ما تنجو ميزة المعرفة الأولية للنموذج الأكبر من التكميم الثقيل. بالنسبة لتوليد الشفرات على وجه التحديد، حتى نموذج Q3_K_S لنموذج 70B يمكن أن يتفوق على نموذج Q5_K_M 30B.

نماذج وزارة التربية والتعليم - العلامة النجمية

نماذج خليط من الخبراء (MoE) مثل ميكسترال 8x22B و ديب سيك V3 بها عدم تناسق يربك الوافدين الجدد:

مطلوب ذاكرة وصول عشوائي افتراضية VRAM = إجمالي المعلمات (لأنه يجب عليك الاحتفاظ بجميع الخبراء)
الحوسبة المستخدمة = المعلمات النشطة لكل رمز (أقل بكثير)

ميكسترال 8x22B هو 141 ب إجمالي / 39 ب نشط. يحتاج إلى أكثر من 80 جيجابايت من ذاكرة الوصول العشوائي VRAM لتشغيله، ولكن سرعة الرمز الواحد أقرب إلى تشغيل نموذج كثيف 40 ب.

يبلغ إجمالي حجم DeepSeek V3 236 B / 21 B نشط. يحتاج إلى أكثر من 150 جيجابايت من ذاكرة الوصول العشوائي الافتراضية (VRAM)، ولكن سرعة الرمز تقترب من نموذج كثيف 20 ب. لهذا السبب ديب سيك V3 “سريع بالنسبة لحجمه” - أنت تدفع ضريبة VRAM ولكنك تحصل على خصم الحوسبة.

إذا كان بإمكان أجهزتك استيعاب نموذج MoE، فغالبًا ما يكون الخيار الأفضل. إذا لم تستطع، فإن النموذج الكثيف في نفس فئة المعلمات هو ما تريده.

إعدادات البدء السريع حسب الميزانية

بالنسبة للأشخاص الذين يرغبون في الحصول على إجابة محددة، إليك الإعدادات التي تم اختبارها في خمس نقاط للميزانية في عام 2026:

ميزانية	وحدة معالجة الرسوميات (GPU)	أفضل نموذج	الرموز/الثانية
$300	RTX 3060 بسعة 12 جيجابايت	لاما 3 8 ب 8 ب Q5_K_M	~48
$700	RTX 3090 مستعملة	كوين 2.5 2.5 32B Q5_K_M	~28
$1,300	مستعمل RTX 4090	لاما 3 70 ب 3 70 ب Q3_K_S	~13
$1,400	2 × RTX 3090 + NVLink 2 × RTX 3090 + NVLink مستعمل	لاما 3 70 ب 70 ب Q4_K_M	~15
$2,400	RTX 5090	Llama 3 70B Q5_K_M	~18
$5,000	ماك ستوديو M4 M4 ماكس 128 جيجابايت	ميسترال كبير 2 Q4 كبير 2 Q4	~6

تظل “أفضل فئة قيمة” في عام 2026 هي RTX 3090/4090 المستخدمة - هذه هي وحدات معالجة الرسومات الاستهلاكية الوحيدة التي يكون فيها السعر مقابل كل ذاكرة وصول عشوائي مواتية في الحساب، وسيظل كلاهما قادرًا حتى عام 2028 على الأقل.

لمعرفة المزيد عن وحدة معالجة الرسومات (GPU) التي يمكنك اختيارها، راجع أفضل وحدات معالجة الرسوميات للماجستير المحلي في عام 2026.

الأسئلة الشائعة

ما مقدار VRAM الذي أحتاجه لتشغيل Llama 3 70B محليًا في عام 2026؟

24 جيجابايت كحد أدنى لـ Llama 3 70B عند Q3_K_S (وهي جودة تقريبية). 32 غيغابايت تتيح لك تشغيل Q4_K_M بشكل مريح (الكمية الموصى بها). 40+ جيجابايت مطلوبة لـ Q5_K_M. مع 24 غيغابايت وسياق 8 K، لن يكون لديك أي مساحة للرأس؛ يتطلب دفع السياق إلى 32 K إلغاء تحميل وحدة المعالجة المركزية أو كمية أكثر قوة.

ما الفرق بين Q4_K_M و Q4_K_S؟

كلاهما عبارة عن تكميمات 4 بت لنفس النموذج. تستخدم Q4_K_M (“متوسط”) 5 بت لبعض مجموعات الوزن الحرجة، مما يجعلها أكبر قليلاً ولكن بجودة أفضل بشكل ملحوظ من Q4_K_S (“صغير”). بالنسبة لـ VRAM المتطابقة تقريبًا، يُفضل Q4_K_M. لا يكون Q4_K_S منطقيًا إلا عندما تحاول ضغط نموذج في ميزانية VRAM ضيقة.

هل يمكنني تشغيل ذاكرة LLM أكبر من ذاكرة VRAM الخاصة بي؟

نعم - باستخدام إلغاء تحميل وحدة المعالجة المركزية, حيث يتم تشغيل بعض طبقات النماذج على وحدة المعالجة المركزية باستخدام ذاكرة الوصول العشوائي للنظام بدلًا من ذاكرة الوصول العشوائي لوحدة معالجة الرسومات. عقوبة الأداء شديدة (أبطأ بـ 5-10 أضعاف)، ولكنها تتيح لك تشغيل نماذج لا تناسبها. عملي للاستخدام العرضي، ومؤلم كسائق يومي. تدعم كل من llama.cpp و Ollama هذا خارج الصندوق عبر الطبقات n_gpu_layers الإعداد.

هل ذاكرة التخزين المؤقت KV مهمة حقًا لتخطيط VRAM؟

نعم، خاصة في السياق الطويل. بالنسبة لـ Llama 3 70B في سياق 32 كيلوبايت، تبلغ ذاكرة التخزين المؤقت KV وحدها حوالي 5 جيجابايت. إذا كنت بالفعل على حافة ذاكرة التخزين المؤقت VRAM، ستخرج عن الخدمة في اللحظة التي تطول فيها المحادثة. خطِّط لذاكرة التخزين المؤقت KV وفكر في تكميم ذاكرة التخزين المؤقت Q8 KV (خيار في محركات الاستدلال الحديثة) لتقليلها إلى النصف تقريبًا.

هل هناك طريقة لتشغيل Llama 3 405B في المنزل؟

أجل، ولكنك تحتاج إلى أكثر من 200 جيجابايت من الذاكرة في المسارات القابلة للاستخدام. مسارات 2026 الواقعية Mac Studio M4 M4 Ultra 512 جيجابايت ($12K، بطيء في كل رمز ولكنه يعمل)، أو 8× RTX 4090 ($13K، إعداد معقد)، أو Nvidia DIGITS ($3K، مصمم لغرض معين)، أو وحدة المعالجة المركزية + 256 جيجابايت DDR5 RAM مع وحدة معالجة رسومات متوسطة المدى للتفريغ الجزئي ($8K، بطيء). اطلع على دليل إرشادي حول تشغيل Llama 3 405B في المنزل.

هل هناك أي تنسيقات تكميم 2026 يجب أن أعرفها إلى جانب GGUF؟

نعم - نعم - AWQ (التحديد الكمي للوزن المدرك للتنشيط) و GPTQ كلاهما لا يزالان مستخدمين على نطاق واسع، خاصةً في عمليات نشر vLLM و TensorRT-LLM. وهما أفضل جودة قليلاً بنفس عدد البتات من GGUF في بعض الحالات. بالنسبة لاستخدامات LLM المحلية للمستهلكين مع llama.cpp/Ollama/LM Studio، تظل GGUF مهيمنة في عام 2026 بسبب بساطتها ودعمها الواسع للأدوات.

هل سيؤثر التكميم الكمي Q4 على القدرة على الترميز؟

أقل مما تعتقد، ولكن نعم. بالنسبة لإكمال الشيفرة المباشر، فإن Q4_K_M مطابق بشكل أساسي لـ FP16. بالنسبة للتفكير المعقد متعدد الخطوات عبر قاعدة شيفرة، ينتج Q4 أحيانًا منطقًا أسوأ من Q5+. إذا كنت تقوم ببرمجة جادة مع نماذج محلية، فقم بتفضيل Q5_K_M واختر أجهزتك لدعمها.

الخلاصة

تخطيط VRAM لـ LLMs المحلية في 2026 ليس معقدًا، ولكنه يكافئ الدقة. اختر فئة المعلمة أولًا (حجم النموذج الذي يحتوي على الإمكانية التي تحتاجها)، ثم اختر أصغر كمية تعطي جودة مقبولة (Q4_K_M عادةً ما تكون صحيحة)، ثم أضف ذاكرة تخزين مؤقت KV لطول السياق الحقيقي، ثم حجم وحدة معالجة الرسومات وفقًا لذلك.

إذا كنت تتذكر ثلاثة أرقام فقط، فتذكر هذه الأرقام:

12 جيجابايت تشغيل طرازات 8 B بشكل نظيف.
24 جيجابايت يدير 30 ب في كوات الجودة و70 ب بشكل غير مريح.
32 جيجابايت يدير 70 ب في كوات الجودة.

كل شيء يتجاوز 32 جيجابايت يدخل في نطاق الخوادم، وكل شيء أقل من 12 جيجابايت يدخل في نطاق الهواتف/المضمنة. يحدث الجزء الأكبر من نشاط وحدة LLM المحلية لعام 2026 في نطاق 12-32 جيجابايت، وهو بالضبط نطاق وحدة معالجة الرسومات للمستهلك - عن طريق التصميم وليس الصدفة.

أبرز الاستنتاجات

الجدول المرجعي السريع

ذاكرة التخزين المؤقت KV - الجزء الذي ينساه الجميع

مصفوفة توافق وحدة معالجة الرسومات

اختيار الكمية المناسبة لأجهزتك

نماذج وزارة التربية والتعليم - العلامة النجمية

إعدادات البدء السريع حسب الميزانية

الأسئلة الشائعة

ما مقدار VRAM الذي أحتاجه لتشغيل Llama 3 70B محليًا في عام 2026؟

ما الفرق بين Q4_K_M و Q4_K_S؟

هل يمكنني تشغيل ذاكرة LLM أكبر من ذاكرة VRAM الخاصة بي؟

هل ذاكرة التخزين المؤقت KV مهمة حقًا لتخطيط VRAM؟

هل هناك طريقة لتشغيل Llama 3 405B في المنزل؟

هل هناك أي تنسيقات تكميم 2026 يجب أن أعرفها إلى جانب GGUF؟

هل سيؤثر التكميم الكمي Q4 على القدرة على الترميز؟

الخلاصة

مقالات ذات صلة