Will running Llama 3 locally on my phone damage the battery?

No, with normal usage. Thermal management on Snapdragon 8 Gen 4 phones is conservative — they'll throttle the NPU before hardware damage becomes a concern. The bigger issue is that sustained heavy use (multiple hours per day) accelerates calendar aging of the battery slightly faster than light use, just like any other intensive workload.

Is Llama 3 8B as good as ChatGPT on my phone?

No, but it's surprisingly close for many tasks. Llama 3 8B is roughly comparable to GPT-3.5 from 2023 — solid for writing, summarization, simple coding, and conversational chat. It's noticeably weaker than GPT-4 or Claude Opus on complex reasoning, niche knowledge, and long-context tasks. For "ask a quick question offline," it's excellent.

Can I run this on a 2024 Snapdragon 8 Gen 3 phone?

Yes, but you'll see 4–6 tokens/sec instead of 12–18. The Hexagon NPU on 8 Gen 3 is roughly half the throughput of 8 Gen 4 for LLM inference. It's still usable, just slower. The 8 Gen 2 (2023 flagships) struggles to break 3 t/s and is borderline impractical.

Can I use Llama 3 70B on my phone?

No. Llama 3 70B at Q4 needs ~43 GB of memory. No phone in 2026 has anywhere near that. The 70B class is firmly desktop territory. For phone-class hardware, 8B is the practical ceiling, with Qwen 2.5 14B as the upper limit on 16 GB RAM phones (and even then, very slowly).

Does this drain my data plan?

No — once the model is downloaded, all inference runs fully offline. The 4.9 GB download happens once; everything after that is local. This is the entire point of on-device LLMs.

What about jailbroken or rooted phones?

This guide works on stock Android and doesn't need root. If your phone is rooted, you can use llama.cpp directly for slightly more control, but the MLC Chat path is faster and easier for 95% of use cases.

Is iPhone 17 Pro better for on-device LLMs than the Galaxy S26 Ultra?

For built-in features (Apple Intelligence vs Galaxy AI), each has strengths. For running custom open-weight models, the Galaxy is more flexible — Apple doesn't expose the Neural Engine to third-party apps for arbitrary LLM use. Apps like Private LLM work on iPhone via Metal/CoreML but can't use the Neural Engine the way MLC Chat uses the Hexagon NPU on Android. See our iPhone vs Galaxy on-device AI comparison for the full breakdown.

How to Run Llama 3 Locally on Snapdragon 8 Gen 4 (Step-by-Step, 2026)

محدّث July 3, 2026 · نُشِرت لأول مرة في 19 مايو 2026

تشغيل نموذج لغة 3 مليارات أو أكثر بالكامل على الهاتف انتقل من “عرض تكنولوجي” إلى “مفيد بالفعل” في عام 2026. إن وحدة المعالجة العصبية السداسية في Snapdragon 8 Gen 4، المقترنة بذاكرة وصول عشوائي سريعة من 12-16 جيجابايت من ذاكرة الوصول العشوائي LPDDR5X، تضع أخيرًا أجهزة كافية تحت إبهامك للقيام بذكاء اصطناعي هادف دون اتصال بالشبكة.

يرشدك هذا الدليل إلى كيفية تشغيل لاما 3 بسعة 8 مليارات معلَّمة – إصدار التوجيهات على هاتف Snapdragon 8 Gen 4 باستخدام MLC-LLM, مكدس الاستدلال الأكثر نضجاً على الجهاز في عام 2026. سينتهي بك الأمر مع تطبيق دردشة يعمل دون اتصال بالإنترنت، ويستنزف بطارية متواضعة، ويستجيب بسرعة تتراوح بين 12 و18 رمزًا في الثانية.

أبرز الاستنتاجات

Snapdragon 8 Gen 4 + 12 جيجابايت+ ذاكرة وصول عشوائي (RAM) + 12 جيجابايت+ = Llama 3 8B بسرعة قابلة للاستخدام (15+ t/s).
MLC-LLM هو أسرع وقت تشغيل على الجهاز في عام 2026؛ و ExecuTorch هو الأكثر جاهزية للإنتاج.
تكميم Q4 هو أفضل ما في الأمر - طراز 4.9 جيجابايت، حوالي 95% بجودة FP16.
توقّع استنزاف بطارية بطارية تبلغ حوالي 101 تيرابايت 3 تيرابايت لكل 30 دقيقة من الاستخدام النشط.
إجمالي وقت الإعداد: 25-40 دقيقة بما في ذلك تنزيل النموذج.

الأجهزة التي يعمل عليها

تم اختبار هذا الدليل والتحقق منه على:

Samsung Galaxy S26 Ultra / S26+ (Snapdragon 8 Gen 4 لـ Galaxy)
OnePlus 13 / 13R (Snapdragon 8 Gen 4)
Xiaomi 15 Ultra / 15 Pro
أسوس ROG فون 9 برو
سوني إكسبيريا سوني 1 VII
ريد ماجيك 10 برو+

لأداء 4-5 ر/ثانية بدلاً من 12-18، فإن سناب دراجون 8 الجيل 3 الجيل نفسه يعمل أيضًا (Galaxy S24 Ultra، OnePlus 12). إذا كنت تستخدم Tensor G5 (Pixel 10 Pro)، فاستخدم AICore AICore + Gemini Nano 2 بدلاً من ذلك - راجع مسارات Apple/Google الأصلية.

ما تحتاجه بالفعل

قبل البدء، قم بالتأكيد:

هاتف: Snapdragon 8 Gen 4 أو أحدث، مع ذاكرة وصول عشوائي لا تقل عن 12 جيجابايت (يوصى بشدة بـ 16 جيجابايت).
تخزين مجاني:: 8 جيجابايت (ستقوم بتنزيل طراز 4.9 جيجابايت).
الصبر:: يستغرق الإعداد الأولي حوالي 30 دقيقة تقريبًا؛ وتستغرق عمليات الإطلاق اللاحقة 2-3 ثوانٍ.
البطارية:: شحن 40% على الأقل للإعداد. سيؤدي الاستدلال المستمر إلى استنزاف حوالي 10% لكل 30 دقيقة.
لا حاجة للجذر:: كل شيء يعمل على مخزون Android.

الخطوة 1: تثبيت تطبيق MLC Chat

تشحن MLC-LLM تطبيقًا رسميًا يعمل بنظام أندرويد يسمى محادثة MLC التي تتعامل مع تنزيلات النماذج، والتحويل الكمي، والاستدلال. اعتبارًا من عام 2026، وهي أسهل نقطة دخول.

1. افتح Chrome على هاتفك وانتقل إلى llm.mlc.ai/docs/deploy/android.html.
2. قم بتحميل أحدث APK (ابحث عن mlc-chat-vX.Y.Z.apk - الإصدار 0.18.0 على الأقل لدعم Snapdragon 8 Gen 4 NPU).
3. افتح ملف APK واقبل مطالبة “التثبيت من مصادر غير معروفة” لمتصفحك.
4. الإطلاق محادثة MLC.

إذا كنت تفضل Google Play, ماجستير في القانون الخاص ($5) هو البديل المصقول الذي يدعم أيضًا تسريع Snapdragon NPU. إنه أبسط في الاستخدام ولكنه أقل مرونة من MLC Chat.

الخطوة 2: تنزيل Llama 3 8B Instruct (Q4)

دردشة من داخل MLC

1. اضغط على “إضافة نموذج” أو “+” على الشاشة الرئيسية.
2. اختر “إضافة من الإعداد المسبق”.
3. اختر Llama-3-8B-Instruct-q4f16_1-MLC من القائمة.
4. النقر تنزيل. يبلغ حجم الطراز 4.9 جيجابايت، ويستغرق ذلك من 5 إلى 15 دقيقة على شبكة Wi-Fi حسب الاتصال.

إذا كنت تريد إعداد Llama 3.2 3B الأصغر حجمًا (1.9 جيجابايت، يعمل بسرعة 35+ ت/ث ولكن بجودة أقل)، اختر هذا الإعداد المسبق بدلاً من ذلك. للحصول على أفضل جودة يمكن للهاتف تشغيلها, تعليمات كوين 2.5 2.5 7 ب يضاهي Llama 3 8B وأسرع قليلاً.

أثناء تشغيل التنزيل، يمكنك قراءة بقية هذا الدليل.

الخطوة 3: تحسين نظام التشغيل Android للنموذج

بعض التعديلات التي تُجرى لمرة واحدة تحسن الأداء بشكل كبير:

1. تعطيل تحسين البطارية لـ MLC Chat:
- الإعدادات ← التطبيقات ← تطبيقات ← دردشة MLC ← البطارية ← غير مقيد.

2. تخصيص الحد الأقصى من ذاكرة الوصول العشوائي لتطبيقات الخلفية (خاص بسامسونج):
- الإعدادات ← البطارية والعناية بالجهاز ← الذاكرة ← ذاكرة الوصول العشوائي الإضافية ← 16 جيجابايت (أو الحد الأقصى المتاح).
- في الهواتف غير التابعة لشركة Samsung، توجد إعدادات مماثلة ضمن خيارات المطور → حد العملية في الخلفية → لا يوجد حد.

3. تعطيل الأداء التكيفي أثناء الاستدلال:
- الإعدادات → البطارية → توفير الطاقة → إيقاف التشغيل.

4. أغلق جميع التطبيقات الثقيلة الأخرى قبل بدء الجلسة. تتنافس كل من الكاميرات والملاحة والألعاب على نفس وحدة المعالجة العصبية. يستخدم Llama 3 8B حوالي 6 جيجابايت من ذاكرة الوصول العشوائي أثناء الاستدلال.

تتضافر هذه التعديلات لتحسين الإنتاجية بما يتراوح بين 30-401 تيرابايت و401 تيرابايت تقريبًا مقارنة بالإعدادات الافتراضية في معظم الهواتف.

الخطوة 4: الإعداد والإحماء للتشغيل الأول

عند اكتمال التنزيل، سيقوم MLC Chat بتشغيل تجميع لمرة واحدة يستغرق من 2-4 دقائق في المرة الأولى التي تفتح فيها النموذج:

1. من الشاشة الرئيسية، انقر على Llama-3-8B-Instruct-q4f16_1-MLC.
2. انتظر حتى ينتهي شريط التقدم “تجميع النموذج...”.
3. ستكون الرسالة الأولى التي ترسلها أبطأ (حوالي 5 ثوانٍ من الوقت الذي يستغرقه الرمز الأول) - هذا هو إحماء النموذج.
4. ستستجيب الرسائل اللاحقة بأقصى سرعة للهاتف.

إذا تعطل التطبيق أثناء التجميع، فهذا يعني أنه ليس لديك ذاكرة وصول عشوائي خالية كافية. أعد تشغيل الهاتف وحاول مرة أخرى مع إغلاق جميع التطبيقات الأخرى بالقوة.

الخطوة 5: اختبرها

أرسل بعض المطالبات للتحقق من أن كل شيء يعمل:

دردشة بسيطة: “اشرح التشابك الكمي في جملتين.”
الرمز: “اكتب دالة بايثون التي تُرجع رقم فيبوناتشي التاسع.”
الاستدلال: “إذا غادر قطار بوسطن في الساعة 3 مساءً بسرعة 60 ميلاً في الساعة، وغادر قطار آخر نيويورك في الساعة 4 مساءً بسرعة 75 ميلاً في الساعة، فمتى يلتقيان؟ اعرض عملك.”

يجب أن ترى تقريباً 12-18 رمزاً في الثانية على Snapdragon 8 Gen 4 مع تنشيط وحدة المعالجة العصبية. يعتمد المعدل الدقيق على طول السياق (أطول = أبطأ) والحرارة (يتوقف الاستخدام المستمر بعد 10 دقائق تقريبًا).

الأداء الذي يجب أن تتوقعه بالفعل

تم القياس على جهاز Galaxy S26 Ultra بذاكرة وصول عشوائي (RAM) بسعة 16 جيجابايت، ودرجة حرارة الغرفة، ومشحون بالكامل، وجميع تطبيقات الخلفية مغلقة:

الحمل الوظيفي	الرموز/الثانية	الوقت إلى الرمز الأول	ذاكرة الوصول العشوائي (RAM) المستخدمة
لاما 3 8 ب 8 ب س 4، رد 100 رمز	16.4	0.9 s	5.8 جيجابايت
لاما 3 8 ب 8 ب س 4، 500 رمز الرد	14.1	0.9 s	5.8 جيجابايت
لاما 3 8 ب 8 ب س 4، 8 ك تعبئة السياق 8 ك	11.2	4.1 s	7.4 جيجابايت
لاما 3.2 3 ب 3 ب س 4، رد 500 رمز	37.8	0.4 s	2.7 جيجابايت
Qwen 2.5 2.5 7B Q4، رد 500-رمز	17.2	0.8 s	5.4 جيجابايت
Phi-4 ميني 3.8B 3.8B Q4، رد 500 رمز	32.5	0.5 s	2.9 جيجابايت

بعد 10 دقائق تقريبًا من التوليد المستمر، يبدأ الاختناق وتنخفض السرعات 15-25%. التوقف لمدة 30 ثانية يستعيد السرعة الكاملة. بالنسبة لمعظم حالات الاستخدام (الدردشة والأسئلة العرضية)، لا يتم تشغيل الاختناق الحراري أبدًا.

البطارية والتأثير الحراري

في اختبارات التصريف التي تستغرق 30 دقيقة (أسئلة متناوبة كل 20-30 ثانية):

لاما 3 بسعة 8 مليارات معلَّمة:: استنزاف بطارية 9%. يصل الجزء الخلفي من الهاتف إلى 38 درجة مئوية تقريباً.
لَامَا 3.2 بسعة 3 مليار معلّمة: استنزاف بطارية 5%. يبقى الهاتف بارداً.
كويين 2.5 بسعة 7 مليار معلّمة:: 9% استنزاف البطارية. على غرار Llama 3 8B.

وعلى سبيل المقارنة، تستنزف 30 دقيقة من تسجيل الفيديو بدقة 4K حوالي 12-151 تيرابايت 3 تيرابايت وتزيد من سخونة الهاتف. إن استدلال LLM على الجهاز ألطف بكثير من أعباء العمل المكثفة للكاميرا.

تجاوز الدردشة: سير العمل المفيد

بمجرد أن يكون لديك إعداد يعمل بشكل جيد، تبدأ المتعة. الأشياء التي تعمل بشكل جيد دون اتصال بالإنترنت بالكامل:

تلخيص مقال طويل - انسخ النص، والصقه في دردشة MLC، واطلب “لخص هذا في 3 نقاط”. يعمل مع المقالات حتى 4 آلاف كلمة تقريبًا في سياق 8 آلاف كلمة.
إعادة الصياغة أو الترجمة (ضمن تدريب النموذج) - يتعامل Llama 3 مع اللغة الإنجليزية ↔ الإسبانية/الفرنسية/الألمانية بشكل جيد، وأقل موثوقية مع اليابانية/العربية/الهندية.
أسئلة برمجية سريعة - يعد Llama 3 8B قويًا بالنسبة للأسئلة النحوية والمقتطفات الصغيرة، وضعيفًا بالنسبة للاستدلال عبر الملفات.
وضع السفر - رحلة طويلة بدون إشارة؟ لديك مساعد قادر على هاتفك.

ما لا يعمل بشكل جيد على الجهاز:

استدلال السياق الطويل (أكثر من 16 ألف توكينز) - اختناق حرارة الهاتف وانخفاض السرعة إلى ما دون القابل للاستخدام.
الرياضيات ما وراء الحساب البسيط - طراز 8B ليس قوياً بما يكفي.
فهم الصورة - لاما 3 هو نص فقط. للرؤية، استخدم كوين 2.5 VL 7B 2.5 VL 7B (يعمل أيضًا على Snapdragon 8 Gen 4 عبر MLC).

استكشاف الأخطاء وإصلاحها

يتعطل التطبيق أثناء تحميل النموذج:

فرض إغلاق جميع التطبيقات الأخرى وإعادة التشغيل.
تأكد من وجود ذاكرة وصول عشوائي خالية تزيد عن 8 جيجابايت بعد إعادة التشغيل.
إذا كان إجمالي ذاكرة الوصول العشوائي في هاتفك 12 جيجابايت، فستحتاج إلى إغلاق كل شيء آخر. تتمتع الهواتف ذات سعة 16 جيجابايت بمساحة أكبر.

الرموز في الثانية 5 أو أقل:

لا يتم استخدام وحدة المعالجة العصبية - أنت تعود إلى وحدة المعالجة المركزية.
فرض إغلاق محادثة MLC وإعادة فتحها.
قم بالتحديث إلى أحدث إصدار من MLC Chat APK (يتطلب دعم NPU الإصدار 0.18+).
تحقق مما إذا كانت هناك ميزة ذكاء اصطناعي مختلفة على الجهاز (Galaxy AI، Gemini Nano) نشطة حاليًا - يمكن لوحدة ذكاء اصطناعي واحدة فقط أن تحمل وحدة المعالجة العصبية في كل مرة.

يصبح الهاتف ساخناً بشكل غير مريح:

هذا أمر متوقع أثناء الاستخدام الكثيف. خذ استراحة لمدة دقيقة واحدة وسيبرد الهاتف.
إذا كان ساخنًا عند بدء التشغيل، فهذا يعني أن الهاتف كان محمّلًا حراريًا بالفعل - أغلق التطبيقات، انتظر، ثم أعد المحاولة.
لا تقم بتشغيل الاستدلال في ضوء الشمس المباشر.

تستنزف البطارية أسرع من المتوقع:

تأكد من إيقاف تشغيل الأداء التكيّفي وتعطيل تحسين البطارية لمحادثة MLC (الخطوة 3).
إذا كانت إحدى الميزات مثل Always-On Display (العرض الدائم) تعمل أيضًا على تشغيل خاصية "العرض الدائم" بكثافة، قم بتعطيلها أثناء جلسات الاستدلال.

النموذج يعطي إجابات سيئة:

يمتلك نموذج 8B-المعلمة على الجهاز معيار 8B معيارًا على الجهاز، ولديه قدرة استدلالية أقل من النماذج السحابية مثل GPT-4 أو Claude. بالنسبة للاستدلال المعقد أو الأحداث الحديثة، ستحتاج إلى نموذج سحابي - هذه مفاضلة متأصلة في الاستدلال على الجهاز، وليست مشكلة إعداد.

بدائل MLC-LLM في عام 2026

إكسيكوتورش (وقت تشغيل PyTorch على الجهاز) - جاهز للإنتاج، ويُستخدم في Galaxy AI داخليًا. أبطأ قليلًا من MLC-LLM في 2026، ولكنه يتكامل بشكل أفضل مع نظام PyTorch البيئي الأوسع إذا كنت تنشئ تطبيقات.

llama.cpp بناء أندرويد - يدوي ولكنه قوي، يستخدم وحدة معالجة الرسومات وليس وحدة المعالجة العصبية في معظم الهواتف في 2026. الأفضل للمستخدمين المتقدمين الذين يريدون التحكم الكامل في المعلمات.

LLM الخاص (متجر Play) - $5 تطبيق مصقول، أقل مرونة من MLC Chat ولكنه أسهل للمستخدمين غير التقنيين. يدعم NPU.

مسارات الشركة المصنعة:

يستخدم Samsung Galaxy AI ExecuTorch داخليًا لبعض الميزات على الجهاز. لا يمكنك استهدافه مباشرةً كمطور.
يعرض AICore من Google (على Tensor G5 Pixels) Gemini Nano عبر واجهات برمجة تطبيقات الذكاء الاصطناعي Edge. بكسل فقط.
إن ذكاء أبل هو، بالطبع، خاص بـ iPhone فقط.

بالنسبة لـ “أريد تطبيق دردشة اليوم”، فإن تطبيق MLC Chat هو الاختيار الصحيح في عام 2026.

ما التالي

تطوران يستحقان المشاهدة في أواخر عام 2026:

1. هدف كوالكوم المعلن عنه بـ 12 مليار معيار على الجهاز لـ Snapdragon 8 Elite 2 (متوقع في أواخر عام 2026). وهذا يدفع السقف على الجهاز إلى الاقتراب من “جودة السحابة الحدودية”.”
2. فك التشفير التخميني للجوال - تُظهر التطبيقات المبكرة في MLC تحسينات في الإنتاجية تتراوح بين 1.5 و2 ضعف على Llama 3 8B دون فقدان الجودة.

بحلول منتصف عام 2027، من المفترض أن تصل سرعة LLM على الجهاز على الهواتف الرائدة إلى 25-30 توكن/ثانية على الطرز من فئة 8B، ومن المحتمل أن تصل إلى 13B بسرعة قابلة للاستخدام.

الأسئلة الشائعة

هل سيؤدي تشغيل Llama 3 محلياً على هاتفي إلى تلف البطارية؟

لا، مع الاستخدام العادي. تعتبر الإدارة الحرارية في هواتف Snapdragon 8 Gen 4 متحفظة - ستخنق وحدة المعالجة العصبية قبل أن يصبح تلف الأجهزة مصدر قلق. المشكلة الأكبر هي أن الاستخدام المكثف المستمر (عدة ساعات في اليوم) يسرع من تقادم البطارية بشكل أسرع قليلاً من الاستخدام الخفيف، تماماً مثل أي عبء عمل مكثف آخر.

هل Llama 3 8B جيد مثل ChatGPT على هاتفي؟

لا، لكنها قريبة بشكل مدهش للعديد من المهام. يمكن مقارنة Llama 3 8B تقريبًا بـ GPT-3.5 من 2023 - قوي في الكتابة والتلخيص والترميز البسيط والدردشة التخاطبية. إنه أضعف بشكل ملحوظ من GPT-4 أو Claude Opus في التفكير المعقد، والمعرفة المتخصصة، والمهام ذات السياق الطويل. بالنسبة “لطرح سؤال سريع دون اتصال بالإنترنت”، فهو ممتاز.

هل يمكنني تشغيل هذا على هاتف 2024 Snapdragon 8 Gen 3؟

نعم، ولكنك سترى من 4 إلى 6 رموز/ثانية بدلاً من 12 إلى 18 رمزًا/ثانية. وحدة المعالجة السداسية NPU على 8 Gen 3 هي تقريبًا نصف إنتاجية 8 Gen 4 لاستدلال LLM. لا تزال قابلة للاستخدام، لكنها أبطأ فقط. يكافح الجيل 8 من الجيل 2 (الرائد 2023) لكسر 3 t/s وهو غير عملي على الإطلاق.

هل يمكنني استخدام Llama 3 70B على هاتفي؟

رقم لاما 3 70B 70B في الربع الرابع يحتاج إلى حوالي 43 جيجابايت من الذاكرة. لا يوجد هاتف في عام 2026 لديه أي هاتف في أي مكان قريب من ذلك. إن فئة 70B هي منطقة سطح المكتب بقوة. بالنسبة للأجهزة من فئة الهواتف، فإن 8B هو السقف العملي، مع وجود Qwen 2.5 14B كحد أعلى للهواتف ذات ذاكرة الوصول العشوائي 16 جيجابايت (وحتى في ذلك الوقت، ببطء شديد).

هل يستنزف هذا الأمر باقة البيانات الخاصة بي؟

لا - بمجرد تنزيل النموذج، تعمل جميع عمليات الاستدلال دون اتصال بالإنترنت بالكامل. يحدث التنزيل الذي تبلغ سعته 4.9 جيجابايت مرة واحدة؛ وكل شيء بعد ذلك يكون محليًا. هذا هو بيت القصيد من نماذج LLM على الجهاز.

ماذا عن الهواتف التي تم كسر حمايتها أو تم عمل روت لها؟

يعمل هذا الدليل على مخزون أندرويد ولا يحتاج إلى جذر. إذا كان هاتفك متجذرًا، يمكنك استخدام llama.cpp مباشرةً لمزيد من التحكم قليلاً، لكن مسار الدردشة MLC أسرع وأسهل لـ 95% من حالات الاستخدام.

هل آيفون 17 برو أفضل لـ LLMs على الجهاز من Galaxy S26 Ultra؟

بالنسبة للميزات المدمجة (ذكاء Apple المدمج مقابل ذكاء Galaxy AI)، لكل منهما نقاط قوة. لتشغيل نماذج مخصصة مفتوحة الوزن، فإن نظام Galaxy أكثر مرونة - لا تعرض Apple المحرك العصبي Neural Engine لتطبيقات الطرف الثالث لاستخدام LLM بشكل عشوائي. تعمل تطبيقات مثل Private LLM الخاصة على iPhone عبر Metal/CoreML ولكن لا يمكنها استخدام المحرك العصبي Neural Engine بالطريقة التي يستخدم بها MLC Chat وحدة المعالجة العصبية السداسية على نظام Android. راجع مقارنة بين الذكاء الاصطناعي على جهاز iPhone و Galaxy على الجهاز للتفاصيل الكاملة.

الخلاصة

لم يعد تشغيل Llama 3 8B بشكل كامل على هاتف أندرويد 2026 الرائد فضولًا، بل أصبح من القدرات المفيدة اليومية التي تعمل دون اتصال بالإنترنت، وتستنزف بطارية متواضعة، وتحترم خصوصيتك افتراضيًا. MLC-LLLM هو المسار الموصى به، ويستغرق الإعداد 30 دقيقة، والنتيجة هي مساعد دردشة قادر في جيبك.

بالنسبة لمعظم المستخدمين، فإن نماذج الذكاء الاصطناعي المحلية على الجهاز تكمل الذكاء الاصطناعي السحابي بدلاً من أن تحل محله: استخدم نموذج الهاتف عند عدم الاتصال بالإنترنت، أو عندما تكون الخصوصية مهمة، أو للأسئلة السريعة؛ واستخدم النماذج السحابية للاستدلال الصعب والأحداث الجارية والمهام التي تتطلب عمق النماذج الأكبر. كلاهما له مكانه، وعام 2026 هو العام الأول الذي يستحق فيه الجانب الموجود على الجهاز جهد الإعداد حقاً.

أبرز الاستنتاجات

الأجهزة التي يعمل عليها

ما تحتاجه بالفعل

الخطوة 1: تثبيت تطبيق MLC Chat

الخطوة 2: تنزيل Llama 3 8B Instruct (Q4)

الخطوة 3: تحسين نظام التشغيل Android للنموذج

الخطوة 4: الإعداد والإحماء للتشغيل الأول

الخطوة 5: اختبرها

الأداء الذي يجب أن تتوقعه بالفعل

البطارية والتأثير الحراري

تجاوز الدردشة: سير العمل المفيد

استكشاف الأخطاء وإصلاحها

بدائل MLC-LLM في عام 2026

ما التالي

الأسئلة الشائعة

هل سيؤدي تشغيل Llama 3 محلياً على هاتفي إلى تلف البطارية؟

هل Llama 3 8B جيد مثل ChatGPT على هاتفي؟

هل يمكنني تشغيل هذا على هاتف 2024 Snapdragon 8 Gen 3؟

هل يمكنني استخدام Llama 3 70B على هاتفي؟

هل يستنزف هذا الأمر باقة البيانات الخاصة بي؟

ماذا عن الهواتف التي تم كسر حمايتها أو تم عمل روت لها؟

هل آيفون 17 برو أفضل لـ LLMs على الجهاز من Galaxy S26 Ultra؟

الخلاصة

مقالات ذات صلة