بحث التصنيف وخوارزمياته

‫بحث ‪ /‬التصنيف ‪ Classification‬وخوارزمياته‪.
‬‬
‫ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ‬
‫اشراف‪/‬‬ ‫اعداد ‪/‬‬
‫د‪/‬عبد الرقيب‬ ‫عبد الرؤوف احمد صالح‬
‫الشوافي‪.‬‬
‫ما هو التصنيف ‪Classification‬؟‬ ‫‪‬‬
‫الصفحة ‪ 1‬من ‪4‬‬

‫التصنيف هو أحد أنواع الخوارزميات المستخدمة في مجال تعلم اآللة‪.‬‬
‫تعريفه ببساطة هو فرز األشياء إلى مجموعات ذات صفات متشابهة‪.‬‬
‫وتنطوي خوارزميات التصنيف تحت مجال التعلم الموجه على عكس خوارزميات‬
‫التجميع والتعلم التعزيزي وذلك ألن البيانات مسماة (‪.)Labelled Data‬‬
‫التصنيف من أهم وأشهر وأبسط تقنيات تعلم اآللة ‪Major Machine learning‬‬
‫‪ ،techniques‬ويتفرع منه خوارزميات كثيرة كما سنشرح أدناه‪.‬‬
‫خوارزميات التصنيف‪:‬‬ ‫‪‬‬

‫خوارزمية آلة المتجهات الداعمة (‪)SVM‬‬ ‫‪)1‬‬
‫ما تفعله هذه الخوارزمية هو وضع حاجز داعم‬

‫لقرارات استبعاد قيمة أو ضّم ها للمجموعة‪،‬‬
‫وبذلك نالحظ أّن ‪ SVM‬من الممكن أن تكون‬
‫مشمولة بخوارزمية ‪ KNN‬ولكنها مزودة‬
‫بداعم ‪ ،‬وذلك يمكننا من الوصول إلى صحة‬
‫ودقة أكبرين‪.‬‬
‫خوارزمية االنحدار اللوجستي‬ ‫‪)2‬‬
‫االنحدار اللوجستي هو انحدار يعتمد على الدالة السينية (‬

‫‪ )Sigmoid Function‬ونواتجها تنحصر بين الصفر والواحد‪.‬‬
‫خوارزمية االنحدار اللوجستي تقسم البيانات إلى مجموعتين‬

‫متناقضتين وال ينفع استخدام هذه الخوارزمية إال إذا كانت‬
‫مجموعة بيانات التدريب مصنفة إلى صنفين فقط‪ .‬مثل‪ :‬ذكر‬
‫وأنثى أو نعم ال‪ ،‬أو ناجح راسب‪.‬‬
‫خوارزمية شجرة القرار (‪)Decision Tree‬‬ ‫‪)3‬‬

‫هي خوارزمية بسيطة تعتمد على سلسلة من القرارات المنطقية ‪ 0‬و‪ 1‬مثال بالطريقة‬
‫الشجرية إلجراء عمليات تحليل القرار‪.‬‬
‫يتم اعتبار مجموعة البيانات التدريبية على أنها‬

‫أسئلة تجاب بنعم أو ال وتستمر البيانات بالتفرع‬
‫إلى أن يتم الوصول إلى النتيجة النهائية‪ .‬شجرة‬
‫القرار أيضا تعتبر أنها مجموعة عمليات من‬
‫‪ .If Else‬حيث أنه كل فرع من فروع الشجرة‬
‫هو حالة شرطية‪ .‬وتكون النتيجة النهائية في‬
‫أطراف الفروع‪.‬‬
‫خوارزمية الجار القريب للعدد كي (‪.K Nearest Neighbor )KNN‬‬ ‫‪)4‬‬
‫في خوارزمية ‪ KNN‬يتم تحديد عدد‬

‫القيم (‪ )k‬والتي ستكون النقاط‬
‫المركزية في المستوى اإلحداثي‪ ،‬ثم‬
‫تحسب المسافات بين قيم العينة كاملة‬
‫وبين النقاط األساسية ‪ ،‬ويتم ضم القيم‬
‫حسب األقرب فاألقرب إلى مجموعة‬
‫‪ K1‬مثال‪.‬‬
‫يتم قياس المسافات بين كل قيمة من‬

‫قيم ‪ ،K‬عن طريق معادالت المسافة‬
‫الرياضية‪ ،‬وأشهر معادلة قياس‬
‫مسافة هي معادلة المسافة اإلقليدية (‬
‫‪.)Eucliean Distance‬‬
‫تقيس الدالة اإلقليدية (‬
‫‪ )euclidean_distance‬المسافة بين‬
‫نقطتين‪ ،‬حيث أن‬
‫‪ P‬و ‪ Q‬هما مجموعتين مختلفتين‪ ،‬ويتم تطبيق هذا القانون على جميع النقاط في العينة لنرى أي‬
‫نقطة أقرب لكل مجموعة على اعتقاد أن المجموعة األولى هي ‪ K=1‬أو المجموعة أ‪،‬‬
‫والمجموعة الثانية هي ‪ K=2‬أو المجموعة ب‪.‬‬
‫ولكن ستواجهنا مشكلة وهي أنه ستكون هنالك قيم ستكون بعيدة عن جميع المجموعات ولذلك‬
‫سنلجأ لخوارزمية ‪ SVM‬لحل هذه المشكلة‪.‬‬
‫باييز الساذج أو البسيط (‪)Naive Bayes‬‬ ‫‪)5‬‬
‫هي نظرية إحصائية تستخدم لتصنيف البيانات وتعتمد على نسبة‬

‫التشابه من عدمها‪ ،‬وهو مفهوم أقرب لإلحصاء يعتمد على دوال‬
‫التوزيع ‪ Distribution‬فمثال مصنف‪Gaussian‬‬
‫‪ aive Bayes N‬يعتمد على دالة التوزيع الطبيعي ‪Normal‬‬
‫‪ Distrebution‬ولكن يستخدم في تعلم اآللة كمصنف‬
‫لمجموعة بيانات ذات صفتين مختلفتين مثل (ذكر‪ ،‬أنثى)‪.‬‬
‫أكبر ميزة تميز خوارزمية بايز الساذج هي أنها تعطي نتائج‬
‫جيدة مع كمية بيانات قليلة على عكس باقي خوارزميات تعلم‬
‫اآللة فهي تحتاج إلى بيانات أكثر بكثير‪.‬‬
‫خوارزمية الغابة العشوائية (‪)Random Forest‬‬ ‫‪)6‬‬
‫أما خوارزمية الغابة العشوائية فهي مجموعة من أشجار القرار‪،‬‬

‫فشجرة قرار واحدة هي جزء من خوارزمية الغابة العشوائية‪.‬‬
‫ما يميز الغابة العشوائية هو أن كل شجرة قرار فيها تعتمد على‬
‫عينة من البيانات وعلى طريقة في التصنيف مختلفة عن الشجرة‬
‫األخرى وبعد أن يتم إعطاء قرار من كل شجرة في الغابة يتم‬
‫التصويت على أفضل شجرة قرار وتعتمد نتيجة تلك الشجرة‪.‬‬

بحث التصنيف وخوارزمياته

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

بحث التصنيف وخوارزمياته

Uploaded by

Copyright:

Available Formats

‫بحث ‪ /‬التصنيف ‪ Classification‬وخوارزمياته‪.

‫اشراف‪/‬‬ ‫اعداد ‪/‬‬

‫د‪/‬عبد الرقيب‬ ‫عبد الرؤوف احمد صالح‬

‫ما هو التصنيف ‪Classification‬؟‬ ‫‪‬‬

‫الصفحة ‪ 1‬من ‪4‬‬

‫خوارزميات التصنيف‪:‬‬ ‫‪‬‬

‫ما تفعله هذه الخوارزمية هو وضع حاجز داعم‬

‫خوارزمية االنحدار اللوجستي‬ ‫‪)2‬‬

‫االنحدار اللوجستي هو انحدار يعتمد على الدالة السينية (‬

‫خوارزمية االنحدار اللوجستي تقسم البيانات إلى مجموعتين‬

‫خوارزمية شجرة القرار (‪)Decision Tree‬‬ ‫‪)3‬‬

‫الصفحة ‪ 2‬من ‪4‬‬

‫يتم اعتبار مجموعة البيانات التدريبية على أنها‬

‫خوارزمية الجار القريب للعدد كي (‪.K Nearest Neighbor )KNN‬‬ ‫‪)4‬‬

‫في خوارزمية ‪ KNN‬يتم تحديد عدد‬

‫يتم قياس المسافات بين كل قيمة من‬

‫باييز الساذج أو البسيط (‪)Naive Bayes‬‬ ‫‪)5‬‬

‫هي نظرية إحصائية تستخدم لتصنيف البيانات وتعتمد على نسبة‬

‫خوارزمية الغابة العشوائية (‪)Random Forest‬‬ ‫‪)6‬‬

‫أما خوارزمية الغابة العشوائية فهي مجموعة من أشجار القرار‪،‬‬

‫الصفحة ‪ 4‬من ‪4‬‬

You might also like