What Makes YOLO Different

See the section "What Makes YOLO Different" in this article for the full answer.

What's New in YOLO v9

See the section "What's New in YOLO v9" in this article for the full answer.

What is YOLO in object detection?

YOLO ("You Only Look Once") is a real-time object detection system. It identifies multiple objects in an image and draws a bounding box around each one — telling you both what objects are present and where they are — using a single pass through one neural network.

YOLO analyzes the entire image in a single pass through one neural network, predicting all objects and boxes at once. Older detection systems examined thousands of image regions separately, which was slow. YOLO's single-look design is what makes real-time detection possible.

Is YOLO good for beginners?

Yes. Modern YOLO libraries are well-documented and easy to use — you can run detection with a pre-trained model in just a few lines of Python. It's one of the most accessible ways to get started with practical computer vision.

What can YOLO detect?

A YOLO model can detect whatever it was trained on. Pre-trained models recognize dozens of common object types — people, vehicles, animals, everyday items — out of the box. To detect specific or custom objects, you fine-tune YOLO on your own labeled images.

Which version of YOLO should I use?

Use a recent, well-supported version. YOLO has evolved through many releases, each faster and more accurate than the last, and the newer ones come with mature tooling. Rather than focusing on the exact version number, choose a current release with good documentation.

Can I use YOLO in a commercial product for free?

Not automatically — licensing is the most overlooked trap. The original YOLOv9 repository is released under GPL-3.0, and the popular Ultralytics implementations (used to run many YOLO versions) are AGPL-3.0. Both are copyleft: if you ship a product built on that code or those weights, you must open-source your entire application under the same licence. To keep your code closed and proprietary, you need a paid Ultralytics Enterprise License. Internal R&D and customer-facing tools both count, so check the licence terms before you build, not after.

How many labelled images do I need to train YOLO on my own objects?

Far fewer than training from scratch, thanks to transfer learning. Starting from pretrained COCO weights, a usable prototype is often possible with a few hundred well-labelled images per class. For a robust production model, Ultralytics suggests aiming for around 1,500 images and roughly 10,000 labelled instances per class. Label quality and diversity — varied lighting, angles, backgrounds and occlusion — matter more than raw count, and built-in augmentation stretches a modest dataset further.

Do I need to know deep learning to fine-tune YOLO?

No. Fine-tuning on a custom dataset is mostly data preparation and a few commands, not neural-network theory. The harder work is collecting and accurately annotating images; the training step itself is largely automated. A basic grasp of Python and the command line is enough to get a custom detector running.

Real-Time Object Detection with YOLO: A Practical Guide (2026)

محدّث 10 يونيو 2026 · نُشِر لأول مرة في ١٨ مايو ٢٠٢٦

إذا كنت قد شاهدت عرضًا توضيحيًا للذكاء الاصطناعي يرسم مربعات حول الأشخاص والسيارات والأشياء في فيديو مباشر - على الفور، أثناء تشغيل الفيديو - فمن المؤكد أنك رأيت يولو. إنه أكثر أنظمة الكشف عن الأجسام في الوقت الحقيقي شيوعًا في مجال الرؤية الحاسوبية، وهو يدعم كل شيء بدءًا من الكاميرات الأمنية وحتى الروبوتات. يشرح هذا الدليل ماهية YOLO، وكيفية عمله، وكيفية البدء في استخدامه.

أبرز الاستنتاجات

يولو (“أنت تنظر مرة واحدة فقط”) يكتشف ويحدد موقع أجسام متعددة في الصورة في مسار واحد.
هذا المرور الواحد هو السبب في أنه سريع بما يكفي للفيديو في الوقت الفعلي.
وقد تطورت من خلال العديد من الإصدارات - كل منها أسرع وأدق من سابقتها.
يمكن الوصول إليها للمبتدئين - تتيح لك أدوات YOLO الحديثة تشغيل الكشف في بضعة أسطر من التعليمات البرمجية.

ما هو اكتشاف الأجسام؟

أولاً، المهمة التي يحلها YOLO. اكتشاف الأجسام يجيب عن سؤالين حول صورة ما في آن واحد:

ما هي الأشياء الموجودة؟ (التصنيف)
أين توجد كل واحدة منها؟ (التوطين - مربع محدد حوله)

هذا أصعب من تصنيف الصور العادي، الذي يقول فقط “هذه الصورة تحتوي على كلب”. يقول اكتشاف الكائن “يوجد كلب هنا, شخص هناك, وسيارتين هناك” - تحديد كل كائن وتحديد موقعه، وغالبًا ما يكون العديد منها في وقت واحد.

ما هو YOLO؟

YOLO تعني “أنت تنظر مرة واحدة فقط.” يجسد الاسم ابتكارها الرئيسي. كانت أنظمة الاكتشاف السابقة بطيئة لأنها كانت تعمل على مراحل: أولاً تقترح العديد من المناطق التي قد تحتوي على كائن ما، ثم تفحص كل منطقة على حدة. يستغرق النظر إلى آلاف المناطق واحدة تلو الأخرى وقتاً طويلاً - وهو ما يستغرق وقتاً طويلاً بالنسبة للفيديو المباشر.

تقوم YOLO بذلك بشكل مختلف. فهو ينظر إلى الصورة بأكملها مرة واحدة فقط ويتنبأ بجميع الكائنات وجميع صناديقها في تمريرة واحدة من خلال الشبكة العصبية. نظرة واحدة، كل الإجابات.

هذا التصميم هو سبب سرعة YOLO. يعني الاكتشاف في الوقت الحقيقي معالجة العديد من الإطارات في الثانية الواحدة، ونهج YOLO أحادي المرور يجعل ذلك ممكنًا حتى على الأجهزة المتواضعة - وهذا هو بالضبط السبب في أنه أصبح الخيار الافتراضي لتطبيقات الوقت الحقيقي.

كيفية عمل YOLO

النسخة المبسطة لما يحدث في الداخل:

قسّم الصورة إلى شبكة. يقسم YOLO الصورة من الناحية النظرية إلى شبكة من الخلايا.
تقوم كل خلية بعمل تنبؤات. تتنبأ كل خلية بالمربعات المحددة للأجسام المتمركزة فيها، ودرجة الثقة لكل مربع، وفئة الجسم الذي ينتمي إليه.
اجمع بين كل شيء. يتم تجميع كل التوقعات عبر الشبكة بأكملها معًا.
تنظيف التداخلات. وغالباً ما يتم التنبؤ بالكائن نفسه من قبل العديد من الخلايا القريبة. هناك خطوة تسمى الكبت غير الأقصى يزيل التكرارات، مع الاحتفاظ فقط بالمربع الأفضل لكل كائن.

والنتيجة: شبكة عصبية واحدة، وتمريرة واحدة، ومجموعة كاملة من المربعات المصنفة - بسرعة.

تطور YOLO

إن YOLO ليس نموذجًا واحدًا ثابتًا - إنها عائلة تطورت باطراد منذ إصدارها الأول. وقد دفع كل إصدار جديد (وصلت السلسلة إلى أرقام مزدوجة، بما في ذلك الإصدار 9 وما بعده) نفس الهدفين: دقة أعلى و سرعة أكبر, ، مع الحفاظ على الكفاءة الكافية للاستخدام في الوقت الفعلي.

لأغراض عملية، الدرس بسيط: استخدم إصداراً حديثاً مدعوماً بشكل جيد. الإصدارات الأحدث أسرع و أكثر دقة من الإصدارات الأقدم، وتأتي مع أدوات ناضجة وسهلة الاستخدام. لا تشغل بالك برقم الإصدار الدقيق - اختر إصدارًا حديثًا مزودًا بوثائق جيدة.

ما الذي يستخدم فيه YOLO

الكشف في الوقت الحقيقي مفيد في كل مكان تقريباً:

الأمن والمراقبة - الكشف عن الأشخاص أو المركبات أو الأجسام غير المراقبة في لقطات الكاميرا.
المركبات ذاتية القيادة - اكتشاف السيارات والمشاة والعقبات، وهو جزء من نظام إدراك القيادة الذاتية.
البيع بالتجزئة - إحصاء عدد العملاء، وتحليل حركة الزبائن، وتحليل حركة الزبائن، ومراقبة الأرفف.
التصنيع - اكتشاف العيوب والأجزاء المفقودة على خطوط الإنتاج.
الزراعة - عد المحاصيل أو الماشية أو اكتشاف الآفات من لقطات الطائرات بدون طيار.
التحليلات الرياضية - تتبع اللاعبين والكرة في الوقت الفعلي.
الروبوتات - السماح للروبوتات برؤية الأشياء من حولها والاستجابة لها.

في أي مكان يحتاج فيه الجهاز إلى فهم ما يوجد في الفيديو كما يحدث, فإن YOLO مناسب تماماً.

نقاط قوة YOLO وحدوده

المزايا	القيود
سريع جداً - يعمل في الوقت الفعلي	يمكن أن تكافح مع الأجسام الصغيرة جداً
دقة جيدة بالنسبة لسرعتها	يمكن تفويت الأجسام المكتظة بكثافة
رؤية الصورة بأكملها - عدد أقل من النتائج الإيجابية الخاطئة في الخلفية	أقل دقة بقليل من أجهزة الكشف الأبطأ والأثقل
أدوات ناضجة وملائمة للمبتدئين	لا تزال أفضل النتائج تحتاج إلى بيانات تدريب خاصة بمهمة محددة

المفاضلة الشاملة: تعمل YOLO على تحسين التوازن بين السرعة والدقة. تحقق بعض النماذج البحثية نتائج أعلى هامشيًا من حيث الدقة، لكنها بطيئة جدًا للاستخدام في الوقت الفعلي. بالنسبة للغالبية العظمى من التطبيقات العملية، فإن توازن YOLO صحيح تمامًا.

كيف تبدأ مع YOLO

حاجز الدخول منخفض في عام 2026:

استخدم مكتبة YOLO الحديثة. إن أدوات YOLO الحالية مجهزة بشكل جيد - يمكنك تثبيتها وتشغيل الكشف باستخدام نموذج مدرب مسبقاً في بضعة أسطر من Python.
ابدأ بنموذج مدرب مسبقاً. وهي تتعرف بالفعل على العشرات من أنواع الأجسام الشائعة خارج الصندوق. قم بتشغيل أحدها على صورك أو كاميرا الويب الخاصة بك لترى الاكتشاف يعمل على الفور.
تدرّب على بياناتك الخاصة عند الحاجة. للكشف عن شيء محدد - منتج معين، أو فئة مخصصة - تقوم بجمع وتسمية أمثلة للصور وضبط YOLO عليها. الأدوات الناضجة تجعل هذه العملية سهلة ومباشرة.
انتبه لأجهزتك. يعمل YOLO على جهاز كمبيوتر عادي، ولكن وحدة معالجة الرسومات تجعل كلاً من التدريب والكشف عن معدل الإطارات العالية أسرع بكثير.

ما هي الأجهزة اللازمة لتشغيل YOLO في الوقت الفعلي؟

“يُقصد بـ”الوقت الفعلي» معنى محدد: يجب أن يعالج النموذج كل إطار من إطارات الفيديو في وقت يقل عن حوالي 33 مللي ثانية, ، وهو الحد الأدنى المطلوب للحصول على معدل 30 إطارًا في الثانية. إذا حققت هذا المعدل، فستواكب عمليات الكشف أداء الكاميرا الحية؛ أما إذا لم تحققه، فستتعرض البث للتقطع أو فقدان الإطارات. ويعتمد تجاوز هذا الحد بشكل شبه كامل على الأجهزة المستخدمة، وهنا تكمن المشكلة في معظم مشاريع المبتدئين.

العامل الأهم على الإطلاق هو وحدة معالجة الرسومات (GPU). فعند استخدام وحدة المعالجة المركزية (CPU)، حتى نموذج YOLO الصغير يعمل عادةً بمعدل أقل بكثير من 30 إطارًا في الثانية عند معالجة مقاطع الفيديو، وهو ما يناسب معالجة مجلد من الصور ولكنه لا يناسب البث المباشر. أما عند نقل النموذج نفسه إلى وحدة معالجة الرسومات (GPU) من NVIDIA، فإن عملية الاستدلال تعمل عادةً أسرع بـ 10 إلى 50 مرة, ، مما يتيح تشغيلها بسلاسة في الوقت الفعلي. للتدريب أو لتشغيل سلسلة أدوات Ultralytics، ستحتاج إلى بطاقة NVIDIA تدعم تقنية CUDA (قدرة الحوسبة 6.0 أو أحدث) بذاكرة لا تقل عن 8 جيجابايت من ذاكرة الفيديو (VRAM); ؛ توفر سعة التخزين التي تتراوح بين 12 و16 جيجابايت مساحة كافية لاستخدام نماذج أكبر ودفعات تدريب أكبر.

هناك ثلاثة مستويات عملية تغطي تقريبًا كل مشروع:

التهيئة	الأفضل لـ	فيديو في الوقت الفعلي؟
وحدة المعالجة المركزية فقط (كمبيوتر محمول)	التعلم، معالجة الصور دفعة واحدة، إنشاء النماذج الأولية	نادرًا — النماذج الصغيرة فقط، بدقة منخفضة
وحدة معالجة الرسومات (GPU) من NVIDIA لأجهزة الكمبيوتر المكتبية (فئة RTX، 8 جيجابايت أو أكثر)	تدريب النماذج المخصصة، البث بمعدل إطارات في الثانية (FPS) مرتفع	نعم — غالبًا ما تتجاوز النماذج الصغيرة 60 إطارًا في الثانية
لوحة حافة (مثل Jetson Orin Nano)	الكاميرات المثبتة، والروبوتات، والاستدلال في الموقع	نعم — ما بين 30 و60 إطارًا في الثانية تقريبًا مع تحسينات TensorRT

هناك بعض الأمور التي تُحدث فرقًا أكبر من شراء بطاقة ذات سعة أكبر. حجم النموذج هو العامل الأهم: صُممت الإصدارات «نانو» و«الصغيرة» لتعمل في الوقت الفعلي على أجهزة ذات مواصفات متواضعة، في حين أن الإصدارات الأكبر تضحي بالسرعة مقابل الدقة وتتطلب وحدة معالجة رسومات (GPU) أقوى. التحسين ليس أمراً اختيارياً في بيئة الحافة: يمكن للتصدير إلى TensorRT بدقة FP16 أن يضاعف تقريبًا معدل الإنتاجية على أجهزة Jetson مقارنةً بتشغيل PyTorch في صيغته الأصلية، وهو ما يمثل غالبًا فرقًا يتراوح بين 20 و40 إطارًا في الثانية. و دقة الإدخال هو عامل مؤثر مباشر — فخفضه إلى النصف يؤدي إلى خفض الحوسبة بنسبة تقارب النصف.

الخلاصة الصريحة: لست بحاجة إلى وحدة معالجة رسومات (GPU) خاصة بمراكز البيانات لاستخدام YOLO في الوقت الفعلي. فوحدة معالجة الرسومات المخصصة للألعاب من الفئة المتوسطة قادرة على التعامل مع التدريب والاستدلال بمعدل إطارات عالٍ (FPS)، كما أن لوحة الحافة التي تقل سعتها عن $300 قادرة على التعامل مع عملية النشر. احرص على مطابقة نسخة النموذج مع أجهزتك قبل البدء، وليس بعد ذلك.

الأسئلة الشائعة

ما هو YOLO في اكتشاف الأجسام؟

YOLO (“أنت تنظر مرة واحدة فقط”) هو نظام للكشف عن الأجسام في الوقت الحقيقي. يُحدّد عدة أجسام في الصورة ويرسم مربعاً محدّداً حول كل جسم - يخبرك بالأجسام الموجودة ومكانها - باستخدام تمريرة واحدة عبر شبكة عصبية واحدة.

لماذا YOLO سريع جداً؟

يقوم YOLO بتحليل الصورة بأكملها في تمريرة واحدة من خلال شبكة عصبية واحدة، والتنبؤ بجميع الأجسام والمربعات في آن واحد. كانت أنظمة الكشف القديمة تفحص آلاف مناطق الصورة بشكل منفصل، وهو أمر بطيء. تصميم YOLO ذو النظرة الواحدة هو ما يجعل الكشف في الوقت الحقيقي ممكنًا.

هل YOLO جيد للمبتدئين؟

نعم. مكتبات YOLO الحديثة موثقة جيدًا وسهلة الاستخدام - يمكنك تشغيل الكشف باستخدام نموذج مدرب مسبقًا في بضعة أسطر من لغة بايثون. إنها واحدة من أكثر الطرق التي يمكن الوصول إليها لبدء استخدام الرؤية الحاسوبية العملية.

ما الذي يمكن لـ YOLO اكتشافه؟

يمكن لنموذج YOLO اكتشاف أي شيء تم تدريبه عليه. تتعرف النماذج المُدرّبة مسبقًا على عشرات الأنواع الشائعة من الكائنات - الأشخاص والمركبات والحيوانات والأشياء اليومية - من خارج الصندوق. لاكتشاف كائنات محددة أو مخصصة، يمكنك ضبط YOLO على صورك المصنفة الخاصة بك.

ما هو إصدار YOLO الذي يجب أن أستخدمه؟

استخدم إصدارًا حديثًا ومدعومًا بشكل جيد. لقد تطور YOLO من خلال العديد من الإصدارات، كل إصدار أسرع وأكثر دقة من الإصدار السابق، وتأتي الإصدارات الأحدث مع أدوات ناضجة. بدلًا من التركيز على رقم الإصدار الدقيق، اختر إصدارًا حديثًا مزودًا بوثائق جيدة.

هل يمكنني استخدام YOLO في منتج تجاري مجانًا؟

ليس تلقائيًا — فمسألة الترخيص هي الفخ الأكثر تجاهلًا. تم إصدار مستودع YOLOv9 الأصلي بموجب رخصة GPL-3.0، أما تطبيقات Ultralytics الشائعة (المستخدمة لتشغيل العديد من إصدارات YOLO) فهي خاضعة لرخصة AGPL-3.0. وكلاهما يخضعان لحقوق النسخ المقيدة (copyleft): إذا قمت بطرح منتج مبني على هذا الكود أو تلك الأوزان، فيجب عليك جعل تطبيقك بالكامل مفتوح المصدر بموجب نفس الترخيص. وللحفاظ على كودك مغلقًا ومملوكًا، فإنك تحتاج إلى ترخيص Ultralytics Enterprise المدفوع. ويشمل ذلك كل من أنشطة البحث والتطوير الداخلية والأدوات الموجهة للعملاء، لذا تحقق من شروط الترخيص قبل البدء في التطوير، وليس بعده.

كم عدد الصور المُصنَّفة التي أحتاجها لتدريب نموذج YOLO على الأجسام الخاصة بي؟

أقل بكثير من التدريب من الصفر، بفضل التعلم بالتحويل. انطلاقًا من أوزان COCO المُدرَّبة مسبقًا، غالبًا ما يكون من الممكن الحصول على نموذج أولي قابل للاستخدام باستخدام بضع مئات من الصور المُصنَّفة جيدًا لكل فئة. وللحصول على نموذج إنتاجي قوي، تقترح Ultralytics السعي إلى حوالي 1,500 صورة وحوالي 10,000 حالة مصنفة لكل فئة. وتعد جودة التصنيف وتنوعه — مثل الإضاءة المتنوعة والزوايا والخلفيات وحالات الحجب — أكثر أهمية من العدد الإجمالي، كما أن تقنية التعزيز المدمجة تساعد على توسيع نطاق مجموعة البيانات المتواضعة بشكل أكبر.

هل أحتاج إلى معرفة التعلم العميق لضبط YOLO؟

لا. إن عملية الضبط الدقيق على مجموعة بيانات مخصصة تتمثل في الغالب في إعداد البيانات وبعض الأوامر، وليست متعلقة بنظرية الشبكات العصبية. أما الجزء الأصعب فيكمن في جمع الصور ووضع العلامات عليها بدقة؛ أما خطوة التدريب نفسها فهي مؤتمتة إلى حد كبير. ويكفي الفهم الأساسي للغة «بايثون» و«سطر الأوامر» لتشغيل كاشف مخصص.

الخلاصة

جعل YOLO عملية اكتشاف الأجسام في الوقت الحقيقي عملية من خلال استبدال خطوط الأنابيب البطيئة متعددة المراحل بنظرة واحدة سريعة على الصورة بأكملها. هذه الفكرة الواحدة - “أنت تنظر مرة واحدة فقط” - هي السبب في أنها تشغل أنظمة الأمان والمركبات ذاتية القيادة وتحليلات البيع بالتجزئة والروبوتات وتطبيقات أخرى لا حصر لها.

إنه ليس الكاشف الوحيد الأكثر دقة في الوجود، ولكنه يقدم أفضل جهاز كشف التوازن السرعة والدقة، وهذا التوازن هو ما تحتاجه التطبيقات الحقيقية. والأفضل من ذلك كله، أنه يمكن الوصول إليه حقًا - اختر إصدارًا حديثًا، وابدأ بنموذج مدرب مسبقًا، ويمكنك تشغيل اكتشاف الكائنات اليوم. بالنسبة للمجال الأوسع، انظر كيف يتناسب الاكتشاف مع الرؤية الحاسوبية للسيارات ذاتية القيادة.