التصنيف هو أحد أنواع الخوارزميات المستخدمة في مجال تعلم اآللة. تعريفه ببساطة هو فرز األشياء إلى مجموعات ذات صفات متشابهة. وتنطوي خوارزميات التصنيف تحت مجال التعلم الموجه على عكس خوارزميات التجميع والتعلم التعزيزي وذلك ألن البيانات مسماة (.)Labelled Data التصنيف من أهم وأشهر وأبسط تقنيات تعلم اآللة Major Machine learning ،techniquesويتفرع منه خوارزميات كثيرة كما سنشرح أدناه.
خوارزميات التصنيف:
خوارزمية آلة المتجهات الداعمة ()SVM )1
ما تفعله هذه الخوارزمية هو وضع حاجز داعم
لقرارات استبعاد قيمة أو ضّم ها للمجموعة، وبذلك نالحظ أّن SVMمن الممكن أن تكون مشمولة بخوارزمية KNNولكنها مزودة بداعم ،وذلك يمكننا من الوصول إلى صحة ودقة أكبرين.
خوارزمية االنحدار اللوجستي )2
االنحدار اللوجستي هو انحدار يعتمد على الدالة السينية (
)Sigmoid Functionونواتجها تنحصر بين الصفر والواحد.
خوارزمية االنحدار اللوجستي تقسم البيانات إلى مجموعتين
متناقضتين وال ينفع استخدام هذه الخوارزمية إال إذا كانت مجموعة بيانات التدريب مصنفة إلى صنفين فقط .مثل :ذكر وأنثى أو نعم ال ،أو ناجح راسب.
خوارزمية شجرة القرار ()Decision Tree )3
الصفحة 2من 4
هي خوارزمية بسيطة تعتمد على سلسلة من القرارات المنطقية 0و 1مثال بالطريقة الشجرية إلجراء عمليات تحليل القرار.
يتم اعتبار مجموعة البيانات التدريبية على أنها
أسئلة تجاب بنعم أو ال وتستمر البيانات بالتفرع إلى أن يتم الوصول إلى النتيجة النهائية .شجرة القرار أيضا تعتبر أنها مجموعة عمليات من .If Elseحيث أنه كل فرع من فروع الشجرة هو حالة شرطية .وتكون النتيجة النهائية في أطراف الفروع.
خوارزمية الجار القريب للعدد كي (.K Nearest Neighbor )KNN )4
في خوارزمية KNNيتم تحديد عدد
القيم ( )kوالتي ستكون النقاط المركزية في المستوى اإلحداثي ،ثم تحسب المسافات بين قيم العينة كاملة وبين النقاط األساسية ،ويتم ضم القيم حسب األقرب فاألقرب إلى مجموعة K1مثال.
يتم قياس المسافات بين كل قيمة من
قيم ،Kعن طريق معادالت المسافة الرياضية ،وأشهر معادلة قياس مسافة هي معادلة المسافة اإلقليدية ( .)Eucliean Distance تقيس الدالة اإلقليدية ( )euclidean_distanceالمسافة بين الصفحة 3من 4 نقطتين ،حيث أن Pو Qهما مجموعتين مختلفتين ،ويتم تطبيق هذا القانون على جميع النقاط في العينة لنرى أي نقطة أقرب لكل مجموعة على اعتقاد أن المجموعة األولى هي K=1أو المجموعة أ، والمجموعة الثانية هي K=2أو المجموعة ب. ولكن ستواجهنا مشكلة وهي أنه ستكون هنالك قيم ستكون بعيدة عن جميع المجموعات ولذلك سنلجأ لخوارزمية SVMلحل هذه المشكلة.
باييز الساذج أو البسيط ()Naive Bayes )5
هي نظرية إحصائية تستخدم لتصنيف البيانات وتعتمد على نسبة
التشابه من عدمها ،وهو مفهوم أقرب لإلحصاء يعتمد على دوال التوزيع Distributionفمثال مصنفGaussian aive Bayes Nيعتمد على دالة التوزيع الطبيعي Normal Distrebutionولكن يستخدم في تعلم اآللة كمصنف لمجموعة بيانات ذات صفتين مختلفتين مثل (ذكر ،أنثى). أكبر ميزة تميز خوارزمية بايز الساذج هي أنها تعطي نتائج جيدة مع كمية بيانات قليلة على عكس باقي خوارزميات تعلم اآللة فهي تحتاج إلى بيانات أكثر بكثير.
أما خوارزمية الغابة العشوائية فهي مجموعة من أشجار القرار،
فشجرة قرار واحدة هي جزء من خوارزمية الغابة العشوائية. ما يميز الغابة العشوائية هو أن كل شجرة قرار فيها تعتمد على عينة من البيانات وعلى طريقة في التصنيف مختلفة عن الشجرة األخرى وبعد أن يتم إعطاء قرار من كل شجرة في الغابة يتم التصويت على أفضل شجرة قرار وتعتمد نتيجة تلك الشجرة.