What are the three types of machine learning?

Supervised learning (learning from labeled examples that include correct answers), unsupervised learning (finding structure in unlabeled data), and reinforcement learning (learning by trial and error through rewards and penalties). They differ in what kind of feedback the system gets while learning.

What is the difference between supervised and unsupervised learning?

Supervised learning uses labeled data — each example includes the correct answer — and learns to predict those answers. Unsupervised learning uses unlabeled data and finds patterns or groupings on its own, with no answers provided. Supervised learning predicts; unsupervised learning discovers.

What is reinforcement learning in simple terms?

Reinforcement learning is when an AI agent learns by interacting with an environment: it takes actions and receives rewards for good ones and penalties for bad ones. Over many attempts it learns a strategy that maximizes reward — similar to learning a game by playing it.

Which type of machine learning is most common?

Supervised learning is the most widely used, because most valuable business problems are prediction problems and labeled data produces accurate, measurable models. Unsupervised learning is common for exploration and anomaly detection, while reinforcement learning is more specialized.

Can you combine different types of machine learning?

Yes. Many modern systems blend approaches — for instance, learning patterns from unlabeled data first, then refining with labeled examples. Large language models are trained with a combination, including reinforcement learning from human feedback to align them with user needs.

Is ChatGPT supervised or unsupervised learning?

Both, plus reinforcement learning. The base model is pretrained with self-supervised learning (a form of unsupervised learning where the text provides its own labels by predicting the next word). It is then refined with supervised fine-tuning on curated examples, and finally polished with reinforcement learning from human feedback. No single paradigm builds a modern chatbot — they are stacked in stages.

What is semi-supervised learning?

Semi-supervised learning combines a small amount of labeled data with a large amount of unlabeled data. You label the slice you can afford, then let the model use the structure of the unlabeled majority to generalize better than labels alone would allow. It is common in fields like medical imaging and fraud detection, where expert labeling is slow and expensive but raw data is plentiful.

Which type of machine learning should a beginner learn first?

Start with supervised learning. It is the most intuitive, the most widely used in industry, and the foundation for the clearest beginner projects — predicting a price, classifying an email as spam, recognizing a digit. Once you are comfortable with training, testing, and evaluating a supervised model, unsupervised clustering and the basics of reinforcement learning are far easier to understand because you already have the core workflow in muscle memory.

Supervised vs Unsupervised vs Reinforcement Learning Explained

محدّث 10 يونيو 2026 · نُشِر لأول مرة في ١٨ مايو ٢٠٢٦

يتعلم كل نظام تعلم آلي بإحدى ثلاث طرق أساسية: خاضع للإشراف, غير خاضع للإشراف, أو التعزيز التعلّم. هذه ليست تقنيات متنافسة - إنها ثلاث إجابات مختلفة لسؤال واحد: ما نوع التغذية الراجعة التي يحصل عليها النظام أثناء تعلمه؟ إن فهم الثلاثة هو أوضح طريقة لفهم كيفية عمل التعلم الآلي في الواقع.

أبرز الاستنتاجات

التعلّم الخاضع للإشراف - يتعلم من الأمثلة الموسومة التي تتضمن الإجابة الصحيحة. النوع الأكثر شيوعًا.
التعلم غير الخاضع للإشراف - يتعلم من البيانات غير المُسمّاة، ويجد البنية الخفية من تلقاء نفسه.
التعلّم المعزز - يتعلم بالتجربة والخطأ، مسترشدًا بالمكافآت والعقوبات.
العامل الحاسم هو ما هي البيانات التي لديك: إجابات أو لا إجابات أو بيئة للعمل فيها.

السؤال الوحيد الذي يفصل بينهما

يتعلق التعلم الآلي بالتعلم من التغذية الراجعة. تختلف الأنواع الثلاثة اختلافًا كليًا فيما نوع من التغذية الراجعة التي يتلقاها النظام:

تحت الإشراف: “إليك بعض الأمثلة بالإجابات الصحيحة. تعلم كيفية إعادة إنتاجها.”
غير خاضع للإشراف: “إليك البيانات بدون إجابات. ابحث عن الهيكل بنفسك.”
التعزيز: “هذه هي البيئة. تصرف، وسأكافئك أو أعاقبك.“

هذا هو الإطار الكامل. كل شيء أدناه هو التفاصيل.

التعلّم الخاضع للإشراف

في التعلم الخاضع للإشراف، يأتي كل مثال تدريبي مع التسمية - الإجابة الصحيحة. يقوم النموذج بدراسة آلاف أزواج المدخلات والأجوبة ويتعلم العلاقة بينها، حتى يتمكن من التنبؤ بالإجابة عن المدخلات الجديدة.

لإنشاء فلتر للبريد المزعج، تقوم بإعطاء النموذج آلاف الرسائل الإلكترونية، كل منها مصنف “بريد مزعج” أو “ليس مزعجاً”. يتعلم النموذج الأنماط التي تميزها، ويمكنه بعد ذلك تصنيف رسالة بريد إلكتروني جديدة لم يسبق له أن رآها. “الإشراف” هو التسميات - مثل المعلم الذي يقدم مفتاح الإجابة.

يحل التعلم الخاضع للإشراف نوعين من المشاكل:

التصنيف - توقع فئة. بريد مزعج أم لا؟ أي مرض؟ أي حيوان في الصورة؟
الانحدار - توقع رقم. ما هو السعر؟ ما درجة الحرارة غداً؟ كم عدد المبيعات؟

لماذا هو الأكثر شيوعاً: معظم مشاكل العمل القيّمة هي مشاكل تنبؤية، والبيانات المصنفة - على الرغم من أن إنشائها مكلف أحيانًا - تنتج نماذج دقيقة وقابلة للقياس. التكلفة الرئيسية هي بالضبط: يجب أن يقوم شخص ما بتسمية البيانات.

التعلم غير الخاضع للإشراف

في التعلم غير الخاضع للإشراف، تحتوي البيانات على لا توجد ملصقات - فقط مدخلات، لا إجابات. تتمثل مهمة النموذج في العثور على بنية أو أنماط أو تجمعات من تلقاء نفسه، دون أن يُملى عليه ما يبحث عنه.

امنح نموذجًا غير خاضع للإشراف بيانات عملائك وقد يكتشف أن العملاء ينقسمون بشكل طبيعي إلى عدة مجموعات متميزة - دون أن يحدد أي شخص هذه المجموعات مسبقًا. تكتشف البنية بدلاً من تحديدها.

الاستخدامات الشائعة:

التجميع - تجميع العناصر المتشابهة: شرائح العملاء، والمستندات ذات الصلة، والصور المتشابهة.
اكتشاف الحالات الشاذة - الإبلاغ عن نقاط البيانات التي لا تتناسب مع النمط: الاحتيال، والعيوب، وأخطاء النظام.
تقليل البُعدية - تبسيط البيانات المعقدة مع الحفاظ على بنيتها الأساسية، وغالبًا ما يكون ذلك لتصورها أو تغذية نموذج آخر بها.

لماذا يهم هذا: الغالبية العظمى من بيانات العالم الحقيقي غير مُصنَّفة، لأن التصنيف مكلف. يستخرج التعلّم غير الخاضع للإشراف قيمة من تلك البيانات - وهو ممتاز ل الاستكشاف, ، عندما لا تعرف بعد ما الذي تبحث عنه.

التعلّم المعزز

التعلم المعزز هو الأكثر اختلافًا من بين الثلاثة. لا توجد مجموعة بيانات ثابتة. بدلاً من ذلك، هناك عامل يتفاعل مع البيئة:: تتخذ إجراءات، وتستجيب البيئة مع المكافآت (للأعمال الجيدة) أو الغرامات (بالنسبة للوكلاء السيئين). على مدى عدة محاولات، يتعلم الوكيل استراتيجية تزيد من مكافأته الإجمالية.

إنه يتعلم بالطريقة التي قد تتعلم بها لعبة فيديو - ليس من دليل، ولكن من خلال اللعب، والفشل، وملاحظة ما الذي كسبت به النقاط، والتحسن. لا أحد يصنف الحركة “الصحيحة”؛ فالوكيل يكتشفها من خلال العواقب.

الاستخدامات الشائعة:

الذكاء الاصطناعي في اللعب - أنظمة تصل إلى مستوى خارق في الألعاب المعقدة.
الروبوتات - تعليم الروبوتات المشي والإمساك والتوازن.
أنظمة التحكم - تحسين استخدام الطاقة أو تدفق حركة المرور أو الخدمات اللوجستية.
صقل نماذج الذكاء الاصطناعي - يساعد التعلم المعزز من التغذية الراجعة البشرية على مواءمة النماذج اللغوية الكبيرة مع ما يريده الناس بالفعل.

لماذا هي قوية وصعبة يمكن للتعلم المعزز أن يكتشف استراتيجيات لا يفكر أي إنسان في تحديدها. ولكن الأمر صعب - فهو يحتاج إلى بيئة للتدرب عليها (غالبًا ما تكون محاكاة)، ويمكن أن يستغرق عددًا هائلًا من المحاولات، كما أن تصميم المكافأة بشكل صحيح أمر صعب حقًا.

مقارنة جنبًا إلى جنب

البعد	تحت الإشراف	غير خاضع للإشراف	التعزيز
بيانات التدريب	مصنفة (مدخلات + إجابة)	غير موسومة (الإدخال فقط)	لا توجد مجموعة بيانات - بيئة
الهدف	توقع الإجابة الصحيحة	البحث عن البنية المخفية	تعظيم المكافأة الإجمالية
الملاحظات	الإجابة الصحيحة	لا يوجد	المكافآت والعقوبات
مثال على ذلك	اكتشاف الرسائل غير المرغوب فيها	تقسيم العملاء	الذكاء الاصطناعي في اللعب
الأفضل عندما يكون لديك...	أمثلة مصنفة	الكثير من البيانات غير المصنفة	بيئة للعمل فيها

كيف تختار

يتم تحديد الاختيار حسب البيانات والمشكلة التي لديك:

لديك أمثلة مصنفة وتريد التنبؤ بشيء ما → التعلم الخاضع للإشراف.
لديك بيانات غير مصنفة وتريد اكتشاف البنية → التعلم غير الخاضع للإشراف.
لديك بيئة يمكن للوكيل أن يتصرف فيها ويسجل فيها → التعلم المعزز.

في الممارسة العملية، تتلاشى الخطوط الفاصلة. فالعديد من الأنظمة الحديثة تجمع بين الأساليب - على سبيل المثال، تعلم الأنماط المفيدة من البيانات غير المسماة أولاً، ثم التنقيح باستخدام مجموعة أصغر من التسميات. يتم تدريب النماذج اللغوية الكبيرة نفسها بمزيج من النماذج: فهي تتعلم من نص ضخم غير مُسمّى، ثم يتم تنقيحها باستخدام التغذية الراجعة البشرية عن طريق التعلم المعزز.

ما وراء الثلاثة الكبار: الأنظمة ذاتية الإشراف، وشبه المُشرفة، والهجينة

يُعد التقسيم الثلاثي النموذج الذهني المناسب للبدء به، لكن أنظمة الذكاء الاصطناعي الأهم في عام 2026 لا تندرج بشكل واضح ضمن فئة واحدة. فهناك فئتان إضافيتان تملآن الفجوات، والأنظمة التي تستخدمها فعليًّا كل يوم تجمع بينها جميعًا.

التعلم الذاتي الإشرافي هذه هي الحيلة التي جعلت إنشاء النماذج اللغوية الضخمة أمراً ممكناً. تبدو هذه الطريقة غير خاضعة للإشراف لأن لا أحد يقوم بتصنيف البيانات يدوياً، لكنها تعمل في الواقع مثل التعلم الخاضع للإشراف: حيث يقوم النموذج بإنشاء تصنيفاته الخاصة انطلاقاً من بنية البيانات الأولية. قم بإخفاء الكلمة التالية في جملة ما واطلب من النموذج توقعها؛ أو قم بإخفاء رمز في منتصف الجملة واطلب منه ملء الفراغ. الإجابة موجودة بالفعل في النص، لذا فإن “التصنيف” يأتي تلقائيًا. قم بتدريب النموذج على مليارات الجمل، وسيتعلم القواعد النحوية والحقائق وأنماط الاستدلال دون أن يقوم أي شخص بتصنيف أي شيء. كل نماذج اللغة الكبيرة (LLM) الحديثة — GPT، Claude، Gemini، Llama — يتم تدريبها مسبقًا بهذه الطريقة.

التعلم شبه المُشرف عليه تتناول هذه الطريقة مشكلة أكثر عملية: فالبيانات المصنفة باهظة الثمن، في حين أن البيانات غير المصنفة رخيصة. وهي تدمج مجموعة صغيرة من البيانات المصنفة مع مجموعة كبيرة من البيانات غير المصنفة، مستخدمة الأمثلة المصنفة لترسيخ النموذج، والأمثلة غير المصنفة لتحسين فهمه لطبيعة البيانات. وهو الأداة الأساسية كلما كان تصنيف كل شيء يدويًا مكلفًا للغاية — مثل التصوير الطبي، وكشف الاحتيال، ومراقبة المحتوى — ولكن يمكنك تحمل تكلفة تصنيف جزء ذي مغزى.

والدرس الأهم هو أن أنظمة الإنتاج هي مسارات، وليس نماذج فردية. يتم بناء روبوت الدردشة مثل ChatGPT أو Claude على مراحل تستخدم الأنواع الثلاثة الأصلية جميعها:

التدريب المسبق الذاتي الإشراف يعلم لغة النموذج الأساسي والمعرفة بالعالم من النص الخام.
الضبط الدقيق الخاضع للإشراف ثم يقوم بتشكيلها باستخدام أمثلة مختارة بعناية من الأسئلة والأجوبة بحيث تتبع التعليمات.
التعلّم المعزز — وبالتحديد التعلم المعزز القائم على ردود الفعل البشرية (RLHF) — يستخدم تصنيفات تفضيلات البشر كإشارة مكافأة لجعل الإجابات أكثر فائدة وأقل ضررًا.

لذا، عندما يسأل أحدهم عما إذا كان نموذج اللغة الكبير (LLM) “خاضعًا للإشراف أم غير خاضع للإشراف”، فإن الإجابة الصادقة هي: كل ما سبق، بالتتابع. فهذه الفئات ليست فرقًا متنافسة يتعين عليك الاختيار بينها. إنها أدوات، وتلجأ أقوى الأنظمة إلى أي منها يناسب كل مرحلة من مراحل المهمة.

الأسئلة الشائعة

ما هي الأنواع الثلاثة للتعلم الآلي؟

التعلم الخاضع للإشراف (التعلم من الأمثلة المصنفة التي تتضمن إجابات صحيحة)، والتعلم غير الخاضع للإشراف (إيجاد بنية في البيانات غير المصنفة)، والتعلم المعزز (التعلم عن طريق التجربة والخطأ من خلال المكافآت والعقوبات). وهي تختلف في نوع التغذية الراجعة التي يحصل عليها النظام أثناء التعلم.

ما الفرق بين التعلم الخاضع للإشراف والتعلم غير الخاضع للإشراف؟

يستخدم التعلّم الخاضع للإشراف بيانات مصنفة - كل مثال يتضمن الإجابة الصحيحة - ويتعلم التنبؤ بتلك الإجابات. أما التعلّم غير الخاضع للإشراف فيستخدم بيانات غير معلمة ويجد أنماطًا أو مجموعات من تلقاء نفسه، دون تقديم إجابات. يتنبأ التعلم الخاضع للإشراف؛ بينما يكتشف التعلم غير الخاضع للإشراف.

ما هو التعلم المعزز بعبارات بسيطة؟

التعلّم المعزز هو عندما يتعلم وكيل الذكاء الاصطناعي من خلال التفاعل مع البيئة: فهو يتخذ إجراءات ويتلقى مكافآت على الإجراءات الجيدة وعقوبات على الإجراءات السيئة. وعلى مدى محاولات عديدة يتعلم الوكيل استراتيجية تزيد من المكافأة - على غرار تعلم لعبة من خلال لعبها.

ما هو نوع التعلم الآلي الأكثر شيوعاً؟

التعلّم الخاضع للإشراف هو الأكثر استخدامًا على نطاق واسع، لأن معظم مشاكل العمل القيّمة هي مشاكل تنبؤية، وتنتج البيانات المصنفة نماذج دقيقة وقابلة للقياس. أما التعلّم غير الخاضع للإشراف فهو شائع في الاستكشاف والكشف عن الحالات الشاذة، في حين أن التعلّم المعزز أكثر تخصصًا.

هل يمكنك الجمع بين أنواع مختلفة من التعلم الآلي؟

نعم. تمزج العديد من الأنظمة الحديثة بين الأساليب - على سبيل المثال، تعلم الأنماط من البيانات غير المسماة أولاً، ثم تنقيحها باستخدام أمثلة مصنفة. يتم تدريب النماذج اللغوية الكبيرة باستخدام مزيج، بما في ذلك التعلّم المعزز من الملاحظات البشرية لمواءمتها مع احتياجات المستخدم.

هل يُعد ChatGPT تعلمًا خاضعًا للإشراف أم غير خاضع للإشراف؟

كلاهما، بالإضافة إلى التعلم المعزز. يتم تدريب النموذج الأساسي مسبقًا باستخدام التعلم الذاتي الإشرافي (وهو شكل من أشكال التعلم غير المُشرف عليه، حيث يوفر النص تصنيفاته بنفسه من خلال توقع الكلمة التالية). ثم يتم تحسينه من خلال الضبط الدقيق المُشرف عليه باستخدام أمثلة مختارة بعناية، وأخيرًا يتم صقله باستخدام التعلم المعزز استنادًا إلى ملاحظات المستخدمين. لا يوجد نموذج واحد لبناء روبوت الدردشة الحديث — بل يتم تجميعها على مراحل.

ما هو التعلم شبه المُشرف عليه؟

يجمع التعلم شبه المُشرف عليه بين كمية صغيرة من البيانات المُصنَّفة وكمية كبيرة من البيانات غير المصنَّفة. تقوم بتصنيف الجزء الذي يمكنك تحمل تكلفته، ثم تسمح للنموذج باستخدام بنية الأغلبية غير المصنفة للتعميم بشكل أفضل مما تسمح به التصنيفات وحدها. وهو أمر شائع في مجالات مثل التصوير الطبي وكشف الاحتيال، حيث يكون التصنيف بواسطة الخبراء بطيئًا ومكلفًا، لكن البيانات الأولية متوفرة بوفرة.

ما هو نوع التعلم الآلي الذي ينبغي للمبتدئ أن يتعلمه أولاً؟

ابدأ بالتعلم الخاضع للإشراف. فهو الأكثر بديهية، والأكثر استخدامًا في المجال الصناعي، ويشكل الأساس لمشاريع المبتدئين الأكثر وضوحًا — مثل توقع السعر، وتصنيف رسالة بريد إلكتروني على أنها بريد مزعج، والتعرف على رقم. وبمجرد أن تصبح متمكنًا من تدريب النموذج الخاضع للإشراف واختباره وتقييمه، سيصبح فهم التجميع غير الخاضع للإشراف وأساسيات التعلم المعزز أسهل بكثير، لأنك ستكون قد اكتسبت بالفعل سير العمل الأساسي في ذاكرتك الحركية.

الخلاصة

الأنواع الثلاثة للتعلم الآلي هي ببساطة ثلاث إجابات على سؤال “ما هي التغذية الراجعة التي يحصل عليها النظام؟” التعلّم الخاضع للإشراف يحصل على الإجابات الصحيحة ويتعلم التنبؤ. التعلم غير الخاضع للإشراف لا يحصل على إجابات ويتعلّم كيف يجد الهيكل. التعلّم المعزز يحصل على مكافآت وعقوبات ويتعلم استراتيجية الفوز.

أيهما تستخدمه ليس مسألة تفضيل - بل تحدده البيانات والمشكلة التي لديك. احصل على هذا الإطار مباشرةً وسيصبح من الأسهل بكثير متابعة بقية التعلم الآلي. بالنسبة للسياق الأوسع، ابدأ ب ما هو التعلم الآلي, ثم استكشف الخوارزميات التي تشغل كل نوع.