تعلم برمجة الذكاء الاصطناعي -مكتبة رفوف

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 150

‫ترجمة كورس من رشكة ‪ IBM‬يف موقع ‪cognitiveclass.

ai‬‬
‫عنوان الكورس‬
‫‪IBM Course with Python ML0101ENV3‬‬
‫ددد ا ق‬ ‫د د دقاقتعلي ي د د د قجمي د د ددملق قذكاءي د د د ق قذك د د ددا ق د د د ا ق‬ ‫ددد ق‬ ‫يق د د ددموقع د د د ق‬
‫قذ د د ددةق‬ ‫ا د د د قذ د د د ق‬ ‫ق ل ل د د دداقذ د د د ق د د د ق‬ ‫د د ددل‬ ‫تت د د ددةقتهاد د دداة ق هتل د د دداق بء لةل د د د ق‬
‫ق د د د د ق ذت د د د ددا قذكد د د ددا ق‬ ‫ذد د د ددمجكقها ذ لد د د د ق للد د د دقاقذكاءيد د د د ق ق قءلايد د د د ق د د د د قذد د د د ل ق د د د د‬
‫‪.‬ق ق‬ ‫كقشلا لقذكاءي قك‬ ‫ل‬

‫قج د د قشد ددلا لق‬ ‫دد‬ ‫ق ا د د ق ا د ددي ق‬ ‫ج د ددمق ءتلد ددا قذ د د قع د د ق م د د وقت ميد ددم ق د د‬
‫د د دددقذ قذتد د دداألكقعد د د ق مد د د وقت ميد د ددم ق ذ د د د ق د د د مق ذ لد د د قذد د د ق‬ ‫د د ددمقذ‬ ‫يد د ددمق أق‬
‫د د د قذ د د د ق‬ ‫ق ت‬ ‫ق‬ ‫ق عد د ددا ق د د د قذ قذ ق اد د ددت يمقذ د د د قي د د د ق‬ ‫تددد‬ ‫هد د ددالقحلد د ددا لق‬
‫ق قذ قهعم‪.‬ق ق‬

‫إعداد ‪ :‬م‪ .‬ضياء الدين أحمد األجرد‬

‫ق‬

‫‪1‬‬
‫الفهرس‬

‫الصفحة‬ ‫المحتوى‬
3 Intro : Machine learning ‫مقدمة إىل تعلم اآللة‬
5 Using Python ‫استخدام البايثون‬
7 Supervised learning ‫اف‬ ‫ر‬
‫التعلم اإلش ي‬
8 Unsupervised learning ‫اف‬ ‫ر‬
‫غي اإلش ي‬ ‫التعلم ر‬
9 Regression ‫مقدمة يف التوقع‬
12 Simple linear regression ‫الخط البسيط‬
‫ي‬ ‫التوقع‬
23 Multiple linear regression ‫الخط المتعدد‬
‫ي‬ ‫التوقع‬
26 Model Evaluation in Regression Models ‫تقييم عمل نموذج التوقع‬
31 Evaluation metrics ‫مقاييس التقييم‬
33 Nonlinear regression ‫خط‬
‫ي‬ ‫لغي‬
‫التوقع ا ر‬
45 Classification ‫التصنيف‬
48 KNN ‫خوارزمية‬
53 Evaluation metrics in Classification ‫مقاييس التقييم يف التصنيف‬
65 Decision Tree ‫خوارزمية شجرة القرار‬
67 Building Decision Tree ‫بناء شجرة القرار‬
77 Logistic regression ‫المنطق‬
‫ي‬ ‫التوقع‬
79 Logistic & Linear regression ‫المنطق‬
‫ي‬ ‫الخط و‬
‫ي‬ ‫مقارنة ربي التوقع‬
89 SVM ‫خوارزمية‬
101 Clustering ‫التجميع‬
105 K-means ‫خوارزمية‬
120 Hierarchical clustering ‫الهرم‬
‫ي‬ ‫التجميع‬
133 DBSCAN ‫خوارزمية‬
141 Recommended systems ‫أنظمة التوصية‬
142 Content-Based ‫أنظمة التوصية باالعتماد عىل المحتوى‬
146 Collaborative filtering ‫أنظمة التوصية باالعتماد عىل األفضلية‬

2
‫‪ -1‬مقدمة يف تعلم اآللة ‪:‬‬
‫ق وق يثق‬ ‫ج ق اضقذ ق م اق لي قذرلض قذ قذرلضقذاق قءرلمقذ قء م قع قه ق‬
‫قء ل قج ق ائصقع هق خلي قثكقيقا ق ي ق‬ ‫‪malignant‬قذوق ليكق‪benign‬ق‪،‬ق‬
‫يق ميمق ةلقهقا لقع هق خ ائصقذ قي م ق ا تلاق‪.‬ق ق‬
‫ثكقيك ق م اقتياءاتقك ةلق لعميمقذ ق اضق(ذئاتقذ ق ف)قءضعلاق ي اق اىمق‪dataset‬ق‬
‫اقي ق ق‪ :‬ق‬
‫‪ID‬‬ ‫‪Clean‬‬ ‫‪Unifcell‬‬ ‫‪Uni‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪Marg‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪calss‬‬
‫‪10234‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫…‬ ‫…‬ ‫‪3‬‬ ‫…‬ ‫…‬ ‫‪benign‬‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫‪20350‬‬ ‫‪7‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪malignant‬‬

‫اتق خ ياق ا ي ق م اقذ ق اضق ا تلاقع ق ي قذوق لي قق‬ ‫يضكقع ق كم قذ‬


‫اتق لي قألميملق ا جقع هق ياءاتق ااهق ق‪:‬ق ق‬ ‫ج ق اضقذتت اقذ‬
‫‪2356‬‬ ‫‪4‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫؟‬
‫ق‬
‫يجق نق ه ق آل ق ي م قهم قة يع قع هق خلي ق ق األ ق أل ق‬ ‫ع اقيأ ق ق‬
‫يجقذ كمق اذيق خ ةق‪،‬ق ع قذاقنا يمقها ت ق‪Regression‬ق‪.‬ق ق‬ ‫خ ةقذ قيك ق‬
‫ع اكقذ ا قآ اق قج ق كقج مذاقترلمقذ قتقا قإج ا ق اضق‪ loan‬ق لزب قذوق ق ق( ق‬
‫ق ءةءدقج مذاقتقموق زبائ لاق‬ ‫ج لي قتاىمق‪ approved‬قتث يدقذ قجمذم)ق‪ ،‬ق قذيضاقذ‬
‫تكاتق نقي ضل ءلاق‪.‬ق ق‬
‫ق ق تخايهق‬ ‫ق أل قتاذك قرصل‬ ‫لقإذ اءي ق تعلكق‬ ‫ا‬ ‫إي قتعرلفقتعلكق آل ق‪:‬ققيعطق‬
‫قا ق‪.‬ق ق‬
‫‪Machine Learning is the subfield of computer science that gives‬‬
‫‪computers the ability to learn without being explicitly programmed .‬‬
‫ق‬

‫‪3‬‬
‫ءاتق قءرلمق ت ةق ي اقتي لاق‪،‬قج مق‬ ‫ق‬ ‫قذ ا قآ اق‪:‬ق يك ق م اقذك ج ق‬ ‫م اقك‬
‫ءات ق(ش ق ع ق‪ ،‬ق ي ق‪ ،‬ق ي ق قة م ق‪ ،‬ق أل ق‬ ‫ي قء م ق خ ائص ق ل ه ق‬
‫أل ق ش للقاق‪..........‬قق قغةعاقذ ق خ ائص)ق‪،‬قثكقءض ق جمق‪rules‬قجميملق‪if..then‬ق‬
‫ق‪،‬ق ققع اق م اق ت ا ق‪:‬ق ق‬ ‫ت ميمقءوعق‬
‫ق‬ ‫‪ -‬إذاقناتخموقأل ق خ ائصق ت ميمق ق ت ا تقج قةرل ق ت ا لقذ قأل‬
‫د)ق ق‪.‬‬ ‫ق( ع ق تل كقك ةق ل كالق‬ ‫ة تق‪features‬ق ت ميمقءوعق‬
‫قذك ج ق جمقناتخموق لاقهعضق ة تق ل قنات قج معقاقت ميمق‬ ‫‪ -‬ذ قج مق‬
‫أل ق ا تق‪.‬ق‬
‫ق ات ق ت ا ت ق ن قتاتخمو قذعل ذات قذاتخمذ لا ق مي غا ي ق‬ ‫ك‬
‫‪ demographic‬ق تق يعلك ق‪ segment‬ق ت ميمق ي اقإي ق يات ا ق ق شة ك ق م لاقققققق‬
‫ذ ق ق‪.‬ق ق‬
‫عالق‪games‬قتاتخموقتق ياتق‬ ‫لق‪،‬ق‬ ‫ا‬ ‫ذيضاقت يقاتق‪Chabot‬ق ق ت مثقذ ق‬
‫تعلكق آل ق ق‪ .‬ق‬
‫‪ -1‬أهم تقنيات تعلم اآللة ‪: Major Machine learning techniques‬‬
‫‪ -1-1‬التوقع ‪: Regression / Estimation‬‬
‫تاتخموقع هق تق ي ق لت ق ق ياءاتق ات الق‪ continues values‬ق يثقتقاتخموق‬
‫ذ ق ت قذ عا ق اح قت ا قج قذة تلاق‪،‬قذ ق ت ق ككقغاحق‪co2‬ق عثق‪emission‬ق‬
‫اكق‪.‬ق ق‬ ‫اتق‬ ‫ذ ق ايا تقت ا قج قذ‬
‫‪ -2-1‬التصنيف ‪: Classification‬‬
‫فق اق ذ اق قذ ا ق خ ياقع ق‬ ‫قت م جقت د قذيق‬ ‫ا ق م‬ ‫اتخموق عا ق‬
‫ي قذ ق لي قق‪ .‬ق‬
‫‪ -3-1‬التجميع ‪: Clustering‬‬
‫قذك جات قكت ميم قذك جات ق اضق‬ ‫اتلا ق‬ ‫ق ا ت ق تشاتل قه‬
‫قق‪ .‬ق‬ ‫تشاتل ق قذجا لكق‪،‬قذ قتقايكقحبائ ق‬
‫ق‬
‫ق‬
‫‪4‬‬
‫‪ -4-1‬اليابط ‪: Associations‬‬
‫ق نقت اعق ق قا ي ق(بش ق‬ ‫بيكا ق ع ارصقذ ق م ثق نقتة هطق ق م ثلاقذ ق‬
‫ذة هطقذيقذتعلق قت عضلاق عض)ق لزب ق ق‪ .‬ق‬
‫‪ -5-1‬اكتشاف االختالف ‪: Anomaly detection‬‬
‫ت ميمق ا تق هةقجا ي ق(إيكا ق قيكق شايل)قذ ق كتشافق ا تق ة لاق‪fraud‬ق ق‬
‫ه ا اتق ئت ا ق ق رص فق‪credit card fraud‬قق‪ .‬ق‬
‫المتتاىل ‪: Sequence mining‬‬
‫ي‬ ‫‪ -6-1‬التنقيب‬
‫قتالا ق قا تقج ق ا و ق ق‬ ‫ا قت‬ ‫بيكا ق قت ق ا ق تا ي ق‪ :‬قج ق بي ق‬
‫ق ب مة ءي ق‪click-stream‬ق‪.‬ق ق‬
‫‪ -7-1‬تخفيض األبعاد ‪: Dimension reduction‬‬
‫اتق‪features‬ق نق ا اقه األ ق لاق‬ ‫ءق وقه فقهعضق ع ارصقغةق ل قذ قهعضق‬
‫تخ يضق ككق م تاق م اق‪.‬ق ق‬
‫‪ -8-1‬نظام التوصية ‪: Recommendation Systems‬‬
‫يقاق‬ ‫ضل قذ ق‬ ‫لك قذتعل قه ة ت ق شخاص ق تشاتل قثك قءقمو ق لك ق مت ق‬
‫ضل ق م لكق‪.‬ق ق‬
‫‪ -2‬استخدام البايثون يف تعلم اآللة ‪: Python for ML‬‬
‫يق‬ ‫ق ه ق ول ق‪ powerful‬ق ذتعم لق غا ضق‪ general-purpose‬ق ه قت‬ ‫تعتةق ا‬
‫عميمقذ ق كت اتق م ق تع ا ق ق ه ق آل ق‪:‬ق ق‬
‫اتقذتعم لق هعا ‪Numpy : numerical library‬‬ ‫لتعاذ قذ ق‬
‫‪Scipy : scientific library for numerical algorithms & domain specific‬‬
‫‪toolbox for signal processing – optimization – statistics‬‬
‫ق هعا ‪Matplotlib :‬‬ ‫لا كقث ا ق قث‬
‫قت لي ق ‪ , manipulation analysis‬عياك ق ياءات ‪Pandas : for data structure‬‬
‫إ اجق ياءاتق ت ج قه رلق قجا لاقبش للاق ا ىمق بش قذتالا قذ ق زذ ق ق‪.‬‬

‫‪5‬‬
‫حذياتقتعلكق آل ق‪Scikit-learn :‬‬ ‫قذعكقذكت قتضكق‬
‫ق تالا ق تا ق ق‪ :‬ق‬ ‫قها تخم وقذغل ق كت اتق ااهق ق‬ ‫يثق تكق ع‬

‫تهيئة البيانات ‪Pre-processing of data‬‬

‫اختيار الميزات التي نريدها ‪Feature selection‬‬

‫تخصيص مجال الميزات ‪Feature extraction‬‬

‫تقسيم البيانات إلى اختبار و تدريب ‪train/test splitting‬‬

‫تحديد نوع الخوارزمية المستخدمة ‪defining algorithms‬‬

‫تدريب النموذج ‪Fitting models‬‬

‫ضبط بارامترات النموذج ‪tuning parameters‬‬

‫حساب التوقع باستخدام النموذج ‪Prediction‬‬

‫تقييم النموذج ‪evaluation‬‬

‫‪6‬‬
‫إخراج النموذج النهائي ‪Exporting the model‬‬
‫اف ‪: supervised‬‬ ‫ر‬
‫‪ -3‬التعلم اإلش ي‬
‫ع ق تعليكق يقنشفقجليمق‪observe‬ق قء ألمق‪direct‬قت ي ق لاوق‪execute of tasks‬ق‬
‫م قع اق قء ألمقذ قنشفقج قج قشخصقذاق‪،‬قه قج قء يجقتعلكق آل ق يك ق ا ق‬
‫ق تم لقج ق‬ ‫ج ق تعاذ قذ ق ا تق هةقذتم لقجل لاق ق كميملق‪،‬ق لتكقي قذ ق‬
‫ذك ج ق ياءاتق نقء لملقاق‪:‬ق ق‬
‫‪Teaching the model by data set  that knowledge it can predict‬‬
‫‪unknown or future instances .‬‬
‫قألم ق‬ ‫اتق ياق اض ق م اق‪data set‬ق يثقتك ق‬ ‫قجمءاق ا قتياءاتقذ‬
‫يجقذ وب ق‪labeled‬ق‪:‬ق ق‬ ‫تيك قيع اقإياعاق‬
‫ق‬
‫تدعى هذه بالخصائص ‪ features or attributes‬وهنا خصائص الخاليا‬
‫‪ label‬ق‬
‫‪ed‬‬
‫‪ID‬‬ ‫‪Clean Unicell Uni‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪Marg ….‬‬ ‫‪….‬‬ ‫‪class‬‬
‫‪10234‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫…‬ ‫…‬ ‫‪3‬‬ ‫…‬ ‫…‬ ‫‪benign‬‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫‪20350‬‬ ‫‪7‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪malignant‬‬
‫ق‬

‫قيم الخصائص وتكون رقمية ‪ numerical‬أو نصية ‪categorical‬‬

‫ق‪:‬ق ق‬ ‫ق ألمقء جيق لتعليكق ب‬


‫ق‬
‫ق‬
‫ق‬

‫‪Classification‬‬ ‫ق ‪Regression‬‬
‫التصنيف‬ ‫التوقع‬
‫‪7‬‬
‫‪ -1-3‬التصنيف ‪: Classification‬‬
‫ق‬ ‫لتعاذ قذ ق ياءاتق ختل ق( ي قذ قء ي ) ق يثق تكقت نيفق ياءاتق تشاتل ق‬
‫ذك جاتق اق ذ اق قألم ق ياق اضق يثقء لاق لي قذ ق ي قق‪ .‬ق‬
‫‪Classification is the process of predicting discrete class labels or‬‬
‫‪categories.‬‬
‫‪ -2-3‬التوقع ‪: Regression‬‬
‫عثق‬ ‫قغاحق‪co2‬ق‬ ‫ق يكقألميملقذ قت‬ ‫ق قيكق تشاتل ق ي اقتي لاق ت‬ ‫قبألا ق ت ق‬
‫اتقذ ا اتلاق‪.‬ق ق‬ ‫ذ قج وق ايا تقت ا قج قذ‬
‫‪Regression is the process of predicting continues values.‬‬
‫اف ‪: unsupervised‬‬ ‫ر‬
‫غي اإلش ي‬
‫‪ -4‬التعلم ر‬
‫يجقيكتشفق عل ذاتق نقءرلمقت علاق قت أليمقذ قإ فق يثقءع يمق‬ ‫ع اقءمعق‬
‫ياءاتق ل ق تم لقج ق‪dataset‬ق ذ قثكق ا كق تيك ق‪unlabeled‬ق ع اكقجملقذء عق‬
‫ذ لاق ق‪ :‬ق‬
‫‪ -1-4‬تقليل األبعاد ‪: dimension reduction‬‬
‫الق ت هةق ك لاق تالي ق ت نيفق‪.‬ق ق‬ ‫فقهعضق ياءاتق ز ئملقذ ق‬ ‫ع اق تكق‬
‫‪ -2-4‬تحليل البيانات ‪: market basket analysis‬‬
‫تعت قمق كاتمقج قذء قتكل قذك ج قج ارصقذ قهعضلاق عضقبش قذشاهمقءق وقهكل ق‬
‫ذك ج قغةعاق‪.‬ق ق‬
‫‪ -3-4‬توقع وجود البيانات ‪: density estimation‬‬
‫قهعضق نق تشاتل ق‪.‬ق ق‬ ‫لاقء ألمق ياءاتق نقتتض‬
‫‪ -4-4‬التجميع ‪: clustering‬‬
‫ق ياءاتقها جت ا قج قجملقذذ قذتشاتل ق‬ ‫هقذكةق اقق اتخمذ ق يثق تكقتك‬
‫ي اقتي لاق ذعكق كا تق اتخمذ ق لاق‪:‬ق ق‬
‫ق‬

‫‪8‬‬
‫‪discovering structure‬ق كتشافق ياءاتق تشاتل ق‬
‫ق ياءاتق ق‬ ‫‪ summarization‬قتك‬
‫‪anomaly detection‬ق كتشافق ش ي ق‬
‫اف ‪:‬‬ ‫ر‬ ‫ر‬
‫غي اإلش ي‬
‫اف و ر‬
‫المقارنة ربي التعلم اإلش ي‬
‫‪supervised‬‬ ‫‪unsupervised‬‬
‫‪Regression, classification‬‬ ‫‪ clustering‬ق‬
‫‪ more evaluation methods‬ق‬ ‫‪ fewer evaluation methods‬ق‬
‫‪ controlled environment‬ق‬ ‫‪ less controlled environment‬ق‬
‫ق‬
‫‪ -5‬مقدمة يف التوقع ‪: Regression‬‬
‫ع قذ ق ايا تق‪:‬ق ق‬ ‫جمءاق ا قغاحق‪co2‬ق‬
‫‪ID‬‬ ‫‪Engine‬‬ ‫‪Cylinders‬‬ ‫‪Fuel‬‬ ‫‪Co2‬‬
‫‪0‬ق‬ ‫‪ 2.0‬ق‬ ‫‪4‬ق‬ ‫‪ 8.5‬ق‬ ‫‪ 198‬ق‬
‫‪1‬ق‬ ‫‪ 2.4‬ق‬ ‫‪4‬ق‬ ‫‪ 9.6‬ق‬ ‫‪ 221‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪3‬ق‬ ‫‪3‬ق‬ ‫‪ 9.2‬ق‬ ‫?‬
‫ق‬
‫ق‬ ‫ع ق كم قي ق‪ data set‬ق ءرلمقت ق ي ق هاحق ع قذ ق ايا لق كق‪ 9‬ق‬
‫إءتاأللاقها جت ا قج قتياءاتق ايا تق أل لقذا قاق؟ ق‬
‫ق م اق‬ ‫ق‪ regression‬ق ع اقيك‬ ‫يتكقع قتإنشا قء يجق تعلكق آل قيعت مقج ق ت‬
‫ء جيقذ ق تهة تق ق‪ :‬ق‬
‫ع ‪Dependent variables : Y‬‬ ‫ق قيكق خةق ع اقع ققذكي ق هاحق‬ ‫هقج‬
‫اتق ع ارصق أل لق م اق ق كم ق‪ : x‬ق‪Independent variables‬‬ ‫ق هقذ‬
‫هقذتهة تقذاتقل ق ق ي لاقغةقذات قهقيكقذ ا قءم لا‬

‫‪9‬‬
‫هة قذاتقل ق(‪ )final goal,target,state‬ق قتتعل قها تهة تق‬
‫ذذقا ق تهة ت ق ق‬
‫اتقل ق ءمقت ا قج ق ةق تكقت ق قيكق نقءرل قمقق‪ .‬ق‬
‫ا تق‪states‬ق‬ ‫إيقي ك قذ قءعتةق تهة تق اتقل قج قذءلاقذاب اتق‪causes‬ق تل ق‬
‫نقتظلاق م اق‪.‬ق ق‬
‫تا ق ق ت قع قذ ق ياءاتقذات الق‪continuous‬ق يادقذتق ع ق‪discrete‬ق‬
‫قبش للاق‬ ‫ج ق ق ا ق إ ق تهة تق‪x‬قيك ق قتك ق يكقذقا ق اهل ق لقياوق‬
‫ص ق‪ categorical‬قذ ق ا ىم ق‪ numerical‬قذيقي ك قتم لد د ق يا لاقبش قذات اق‬
‫‪continuous measurement scale‬ق‪.‬ق ق‬
‫يقءق وقهمقذء اقناتخموق ياءاتق ن قتخصق ايا تق م اق‪historical data‬ق‬ ‫إي ق‬
‫قذ قذغل ق يكق اتلاق‪features of their attributes‬ق ألمقء يألاق ت ق‬ ‫أل‬
‫ي ق‪co2‬ق ع قذ ق يا لقألميملقذ قغةقذعا ق لك قع ق قيجقغةقذةذ ق‬ ‫اق‬
‫قذ ق ق اق يق خ طق تا ق‪:‬ق ق‬ ‫رص‬
‫ق‬
‫ق‬
‫‪Histori‬‬
‫‪cal‬‬ ‫ق‬
‫‪CO2‬‬
‫‪expecte‬‬
‫‪New‬‬ ‫‪mode‬‬
‫‪car‬‬ ‫‪l‬‬
‫ق‬
‫ق‪:‬ق ق‬ ‫بش قذ اسق م اقء جا قذ قع ق ت‬
‫قبايطق‪simple regression‬‬ ‫‪ -‬ت‬
‫قذتعم ق‪multiple regression‬‬ ‫‪ -‬ت‬
‫‪:‬ق ق‬ ‫قبايطق مقش‬ ‫ق ي ق‪Y‬قج معاقيك ق م اقت‬ ‫مق‪x‬ق ت‬ ‫ج مق تخم وقذتهةقذاتق ق‬
‫إذاق‪simple linear regression‬ق ق‪simple non-linear regression‬ق‪.‬ق ق‬
‫ق نقتربطق تهة تق اتقل ق هةق‬ ‫قتعت مقج قة يع ق ع‬ ‫ي ق‪linearity‬قع ق ت‬
‫ذاتقل ق ي اقتي لاق ق‪ .‬ق‬
‫‪10‬‬
‫قذ ق وعق‪.multiple‬ق ق‬ ‫ق ي ق‪Y‬قج معاقيك ق ت‬ ‫ذتهةقذاتق ق ت‬
‫ج مق تخم وقذكةقذ ق ق‬
‫لك ق تك ق تخم و ق ت ق‪ regression‬ق ت ق يك قذات ال قذ قذاأ ق تن قها يعاتق‬
‫‪ sales forecasting‬ق‪ ،‬ق يث قي ك قت قذك وع ق يعات ق ا ول ق ل ائ قها جت ا قج ق‬
‫تق خةلق–ق شلا لق–ق ع اق‪-‬ق‪....‬ق ق‬ ‫تهة تق اتقل ق‪X‬ق ق نقت ق(ذ )ق‪:‬ق‬
‫اي ق‪stratification analysis‬قها جت ا قج ق‬ ‫ق تكق تخم وق ت ق ق ت لي تق‬ ‫ك‬
‫جملقج ذ قء اي ق ي غا ي ق ل ا ق ق‪ .‬ق‬
‫اح ق قذ ق قذاقها جت ا قج ق‬ ‫ذيضاق اتخموق ت ق تخ يقذ عا ق‪price estimation‬ق‬
‫ككق ة ق جم قغا مق ق‪....‬قق‬
‫ق–ق‬ ‫ق عاذ ق‪ Employment income‬قها جت ا قج ق اجات ق ع‬ ‫ذيضاق قتخ ي ق‬
‫تق خةلق‪...‬ق‪ .‬ق‬ ‫شاعملق–قة يع ق ع ق–ق كنسق–ق ع اق–ق‬
‫قق‬ ‫ألمق م ةقذ ق كا تق نقناتخموق لاق ت قذ ق ت لي تق ا ي ق تقايطق‬
‫ي ق… ‪ finance,health care, retail‬ق‬ ‫ا جي ق‬
‫ق ق‪ :‬ق‬ ‫حذياتق ت‬ ‫ع ا ق م ةقذ ق‬
‫‪Ordinal regression‬‬
‫‪Poisson regression‬‬
‫‪Fast forest quintile regression‬‬
‫‪Linear , Polynomial , Lasso .Stepwise , Ridge regression‬‬
‫‪Bayesian linear regression‬‬
‫‪Neural network regression‬‬
‫‪Decision forest regression‬‬
‫‪Boosted decision tree regression‬‬
‫‪K-nearest neighbors (KNN) regression‬‬

‫‪11‬‬
‫الخط البسيط ‪: simple linear regression‬‬
‫ي‬ ‫‪ -6‬التوقع‬
‫قت تاجقذيقذعا ق ق كةق خطق تتعلكق ت ق ق خطق هايطق قذاقي ق يع ي ق‬
‫ذعا قشاذل ق تات ق تعاذ قذعمقق‪ .‬ق‬
‫ق ي قغةقذ أل لقذا قاق‬ ‫كق ل اق اهقاقذء اقناتخموقذتهةق مقذ ق خ ائصق ت‬
‫ع ق ا ق هاحق عثقذ ق ايا تق‪:‬ق‬
‫ق‬
‫‪ID‬‬ ‫‪Enginesize‬‬ ‫‪Cylinders‬‬ ‫‪Fuel‬‬ ‫‪Co2‬‬
‫‪0‬ق‬ ‫‪ 2.0‬ق‬ ‫‪4‬ق‬ ‫‪ 8.5‬ق‬ ‫‪ 198‬ق‬
‫‪1‬ق‬ ‫‪ 2.4‬ق‬ ‫‪4‬ق‬ ‫‪ 9.6‬ق‬ ‫‪ 221‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪3‬ق‬ ‫‪3‬ق‬ ‫‪ 9.2‬ق‬ ‫?‬

‫قي ق‬ ‫ق ط قبايطق ت‬ ‫قء يجقت‬ ‫اكق ع‬ ‫ناتخموق قطق ا ي ق كك ق‬


‫هاحق عثق يثق م اق ق‪ :‬ق‬
‫ا ق‪state‬ق ع ق م اقع اق‪Engine size‬‬ ‫ق تهةق اتق ق ع ق‬ ‫‪x‬قي‬
‫ق تهةقغةق اتق ق ع ق لمفق‪target‬ق ع ق م اق ء عاثق‪Emission‬‬ ‫‪Y‬قي‬
‫ق)‪Y(x‬ق‪:‬ق ق‬ ‫ق تهةل قه خ طق‪scatterplot‬ق ت ي قع هق ع‬ ‫اقتا كقع‬ ‫ق‬
‫ق‬
‫‪Y‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪x‬‬ ‫ق‬
‫ق‬
‫‪12‬‬
‫قتي ل اق قء ق ظق‬ ‫ج مذاقتتهةق قي ق ق تهةق‪x‬قتتهةق ي ق‪Y‬ق با تا ق شةق أل قج‬
‫ق خ طق اات قذءلاق ي قق‪ .‬ق‬ ‫ذ ق‬
‫اكق ز ق ء عاثق‬ ‫كقع ق اتقيكق يقي قع هق ع ق يثقهاح يا قق ككق‬
‫قذ قءرلمقت نيعلاق‬ ‫هاحق‪ co2‬ق با تا قي ك اقتخ ي ق ي ق ء عاثق يق يا لقذكل‬
‫م اقهقي ق ائ لاق‪.‬ق ق‬
‫قك ةق م ق‪polynomial‬ق مق ش ق عاوق ق‪ :‬ق‬ ‫تكقت ي قع ق خطق اتقيكقه عا‬
‫‪=𝜃0 + 𝜃1 𝑥1‬ق̂𝑦‬
‫قذ ق‪fit line‬ق يثق‪:‬ق ق‬ ‫قذ ق‬ ‫ياىمقلق طق ت‬
‫‪=𝜃0 + 𝜃1 𝑥1‬ق̂𝑦‬

‫القيمة المتوقعة‬ ‫تمثل نقطة‬ ‫تمثل ميل‬


‫ق‬
‫التقاطع‬ ‫(انحدار) المستقيم‬
‫ق‬
‫قها ذة تق اتقيكق‬ ‫ق تقاة ق‪intercept‬قي‬ ‫إ ق قذ ق ي ق‪slope / gradient‬ق ءق‬
‫قج ق عا ق نا ق ن قت ق‬ ‫ل اق ل‬ ‫ذ قذعاذ تم ق‪ coefficients‬ق يث ق تك ق‬
‫ياءاتق‪data set‬ق نق م اقق‪ .‬ق‬
‫تهةق‪x1‬قهدق‪single predictor‬ق ق‬ ‫يثقناىمق قي ق ت ع قهدق‪response variable‬ق‬
‫ق ا كق يا قهأ قء ألمق‬ ‫قذ ءاقذ قءكالقهعضق قيكق ن ق م اقج قع هق عا قذ ق‬
‫هاحق عث ق ل اك قي ق كك ق‪ x1=5.4‬قءكمقذءم ق‪ 𝑦̂ = 340‬ق م قع ق ق قيق قذ ق‬
‫كم ق‪y=250‬قإي قع ا ق أق ي تمق اققتيق قي ق قيقي ق ت ع ق ي تمق‪90‬قناىمق‬
‫ع ق خ أق ت قق‪residual error‬ق ع قتياءياق اا ق ع ي قتيق ق ق قيقي ق بيق‬
‫ق ق ت ع قج ق اتقيكق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪13‬‬
‫‪The distance from the data point to the fitted regression line.‬‬

‫‪Y‬‬ ‫قق ق‬
‫ق‬
‫قيمة الخطأ‬
‫ق‬
‫ق‬
‫ق‬
‫‪x‬‬
‫ق‬
‫ذ قذ ققذت طقأل ق يكق خ أقبش قتيا قج ق خ طقءقا ق ي اقإي ق ا ق خطق اتقيكق‬
‫قذوق ق ع لي ق ت ق م اق ءعةقج مق لا ياقه عا قذت طق خ أق ‪mean square‬‬ ‫ذا‬
‫‪error‬ق ق‪ :‬ق‬

‫يثق‪n‬قجم ق قطق م اق‪.‬ق ق‬


‫ق ن غق‬ ‫لمفقإيكا ق خطق اتقيكق يقيك ق يمق خ أق‪ MSE‬قذ هاقذاقي ك ق تكقي‬
‫ق‪:‬ق ق‬ ‫قج قذ ض ق يكق ل عاذ تق ع اق م اقةرلقتيق‬
‫تخم وق رلق ق رلا ي ق‪mathematic‬‬ ‫‪-‬‬
‫تخم وقةرل ق ت ايق‪optimization‬‬ ‫‪-‬‬
‫ق‪x1‬ق ع ق ̅𝑥‬ ‫طق ع‬ ‫ي ك اق لا ياق االقذعاذ تق خطق اتقيكقج قةرل قإيكا قذت‬
‫ذت طق ع ق‪y‬ق ع ق̅𝑦قج معاقيك ق م اق‪:‬ق ق‬

‫‪𝜃1‬‬

‫‪14‬‬
‫̅𝑥 ‪𝜃0 = 𝑦̅ − 𝜃0‬‬

‫ظ قع ه ق عا ت ق ق ق هات ق ةذك ق‪ python,R,scala‬قي ك اق‬ ‫ة عا ق ا ا قه األ ق‬


‫إيكا عكقبال ق‪.‬ق ق‬
‫ق رلاضقءكمق ي قع هق عاذ تق ا تا ق‪:‬ق ق‬ ‫آل قهعمق ع‬
‫‪𝜃1 = 39 → 𝜃0 = 125.74‬‬

‫معامل انبعاث الغاز ‪co2‬‬ ‫معامل االنحياز ‪bias‬‬


‫ق‬
‫ق اتقيكق‪:‬ق ق‬ ‫حقتإذ اء اقكتاه قذعا‬ ‫ق آل قذ‬
‫‪=125.74 + 39 𝑥1‬ق̂𝑦‬
‫ق ت ع ق‬ ‫ق قي‬ ‫ق ت ع ق ن قءرلمعاق يث ق‪ x=2.4‬قتك‬ ‫با تا ق قذ ءاق اال ق قي‬
‫‪218.6‬ق‪.‬ق ق‬
‫ق‬ ‫ق اتقيكق‬ ‫ق قإيكا قذعا‬ ‫اق ذ اق ل ق تعاذ ق ق ت ق خطق هايطق يثقت‬
‫ذ ءاقكتاه قذ ا ق‪pros‬ق ت ق خطق هايطقءكمق‪:‬ق ق‬
‫لع ق ق لل ق لكق‪very fast and understand‬‬ ‫‪-‬‬
‫قت تاجق ض طقذعاذ تقذعقملقذ قةاقق‪k-nearest or NN‬‬ ‫‪-‬‬
‫لل ق ت اةق‪high interpretable‬ق‬ ‫‪-‬‬
‫قي ك اق تخم وق كت ق‪scikit-learn‬ق‪.‬ق‬ ‫قه ق ا‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪15‬‬
‫قها تخم وق‪jupyter notebook‬ق‪:‬ق‬ ‫ق م ق ق ا‬ ‫ء مذق آل قتت‬

‫‪16‬‬
17
18
19
‫ق‪Spyder‬ق ق‪ :‬ق‬ ‫اقءق وقتتكرب ق م ق‬

‫‪20‬‬
21
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪22‬‬
‫الخط المتعدد ‪: multiple linear regression‬‬
‫ي‬ ‫‪ -7‬التوقع‬
‫ا اق‬ ‫ج مقت ألمقذكةقذ قذتهةقذاتق قج معاقي حق ت ق خطقذ ق وعق تعم ق‬
‫اكق إء اقج قجملق ائصقذ ا قق‪ .‬ق‬ ‫اات قهأ ق قءعت مق قطقج ق ككق‬
‫ق‪:‬ق ق‬ ‫بش ق ئيسق ألمقء جا قذ ق ت يقاتق نقتاتخموقع ق ت‬
‫الت‬
‫تأثي ‪ the strength of effect‬ي‬
‫‪ -‬نستخدمه عندما نريد تبيان ‪ identity‬قوة ال ر‬
‫الغي مستقلة أي ‪:‬‬
‫المتغيات ر‬
‫ر‬ ‫المتغيات المستقلة عىل‬
‫ر‬ ‫تمتلكها‬
‫‪Independent variable effectiveness on prediction .‬‬
‫ق ج مءاق تهة تق اتقل ق تا ي ق‪:‬ق ق‬ ‫ا‬ ‫ذ قق م اقء يجق ت ا ق‬
‫دق ا ألع ‪revision time‬‬
‫ل ق ذت ا ‪test anxiety‬‬
‫ارص ت ‪lecture attendance‬‬ ‫ض ق‬
‫كنس ق‪gender‬‬

‫قتل هق تهة تق اتقل ق‬ ‫ا‬ ‫ق‬ ‫قذات‬ ‫ت ق خط ق تعم قع اق ي قذم قتأثاقت‬


‫ج مذاقءقاقع ق ا ق ك قذتهةق‪:‬ق ق‬
‫‪and….. have any effect on the exam performance of‬ق‪….,‬ق‪,‬ق‪…..‬ق‪Does ….,‬‬
‫?‪student‬‬
‫الت تحدث ‪predicting impacts of :‬‬
‫التغييات ي‬
‫ر‬ ‫تأثيات‬
‫‪ -‬نستخدمه لتوقع ر‬
‫‪changes‬‬
‫ذي ق لكقكيف قتتهةق تهة ت ق هةقذاتقل قج مقتهةق تهة ت ق اتقل قذيقكيف قتتهةق‬
‫قج مذاقءا قتيا قشخصقذرلضق ا ت ق خطق‬ ‫ءتيك ق ت قتتهةق تهة تق اتقل ق‬
‫تعم قي ك مقإ ا ءاقكيفق تهةق هطق موق( ع قذ قع ةاق‪)up or down‬قج مق قحلا لق‬
‫ذ قءق ا ق ق ح ق رلض ق‪ BMI‬ق ل رلضق‪ Patient’s Body mass index‬قذ قث اتقهقي ق‬
‫ع ذ ق‪holding other factors constant‬ق‪.‬ق ق‬

‫‪23‬‬
‫ةلق م قناتخمذلاقع اق با تا قت ميمق‬
‫ق اقع ق ق ت ق خط ق هايطقتك ق ع قك ق‬
‫ذيقذ قع هق تهة تقت ثاقج قءتيك ق ت قذيق ق‪ :‬ق‬
‫⋯ ‪Co2Em = 𝜃0 + 𝜃1 . 𝐸𝑛𝑔𝑖𝑛𝑒𝑆𝑖𝑧𝑒 + 𝜃2 . 𝐶𝑦𝑙𝑖𝑛𝑑𝑒𝑟𝑠 + 𝜃3 . 𝐹𝑢𝑙𝑒 +‬‬
‫اتقيك ق لاق ش ق تا ق‪:‬ق ق‬ ‫با تا ق قي ق ت ع قألم قشعاجيق‬
‫𝑥 ∗‪𝑦̂ = θ𝑇 .‬‬
‫‪dot product between parameters vector and features set vector‬‬
‫ق 𝑇‪ θ‬قشعاع ق(‪)n*1‬ق‬ ‫قذ‬ ‫ق ق ضا قذتعم ق هعا ق‪ multi-dimension space‬قتك‬
‫ل ا ذة تق كل ق شعاعق‪x‬ق‪.‬ق ق‬
‫ق لاق ش ق‪:‬ق ق‬ ‫ق ت‬ ‫تم قع هق ا ذة تقذ ح ق(‪)weight‬قشعاعقذعا‬
‫] 𝑛𝜃 … ‪θ𝑇 = [𝜃0 , 𝜃1 , 𝜃2 , 𝜃3 ,‬‬
‫شعاعق تهة تق اتقل ق ق‪ :‬ق‬
‫‪1‬‬
‫‪𝑥1‬‬
‫‪𝑥2‬‬
‫‪𝑥 = 𝑥3‬‬
‫‪.‬‬
‫‪.‬‬
‫] 𝑛𝑥[‬
‫قق ضا قذ ا يق عمقت حقذعا ق ت ق خطقذاتقيكق اق ق ت ق خطق هايطق م ق‬
‫قق ضا قذتعم ق هعا ق(ذيقذكةقذ قذتهةق‪)x‬قي حقذات يق لم قج معاق‪plane or hyper-‬‬
‫‪plane‬ق ع ق اتخموق ق ت ق خطق تعم ق‪.‬ق ق‬
‫لتكقإيكا قع ق ات يقتإيكا قذ ض ق ي ق ل عاذ تقثيتاق أل قت قذ ض ق ي ق للمفق‬
‫ق‪ dataset‬ق م اق‪،‬ق اق ذ قاق اهقاقذء اقء تاجق ت ق قي قذ ق‬ ‫‪ target‬ق ق ق اقذ ق‬
‫ء هاق خ أق م ق بذ ا ق‪.‬ق ق‬
‫أق‪،‬قإي قكيفقء م ق يكقع هق ا ذة تق؟ ق‬ ‫أ ض ق ا ذة تقهق نقتعطقذ ق ي ق‬

‫‪24‬‬
‫ق ت ع ق‬ ‫ذ اق ق ت ق هايطقكيف قء ا ق خ أق‪ residual error‬ق اق قتي ق قي‬
‫قذعا ق خ أق‪MSE‬قق‪ .‬ق‬ ‫قي ق قيقي ق ك‬
‫ذذاق ق ت ق خط ق تعم ق ألمقةرلق قذ ا ق يث قءق و قتت هة ق‪ MSE‬ق ك ق قيكق‬
‫ت ع ق قي قتتخ يقذ ض ق يكقثيتاقذ ا ق ذكةق اققش جاق قتخ يقع هق قيكق‪:‬ق‬
‫‪ The ordinary least squares -‬ق‪ :‬ق يثقتعت مقج قإيكا قذ هاق ي ق‪ MSE‬ق ك ق‬
‫ق ياءاتق‪dataset‬ق م اق م قع هق رلق قذعقملق ااتياق قتاتلل ق‬ ‫اقذ ق‬
‫ق‬ ‫ق ياءاتقذكةقذ ق‪10k‬ق اق‪،‬ق‬ ‫اقج مذاقيك ق م اق قذ‬ ‫دقك ةق‬
‫ي ك اق ت كةقها تخم ذلاقج مقذ قذ قع ق عم ق‪.‬ق‬
‫‪ Optimization approach -‬ق‪ :‬قتاتخمو قتكا قج لي قت هة ق خ أ ق ل يج قج ق‬
‫ياءاتق نقءتم لقجل لاق‬
‫‪Minimizing the error of the model on your training data .‬‬
‫حذي ق‪ Gradient Descent GD‬ق ن قت مذقهقيكقجش ئي ق دقثيتاق‬ ‫ي ك اقذ ق تخم وق‬
‫ق ق ي ق مقق‪ .‬ق‬ ‫ق قذالقء ا ق خ أق قء ا ق‬ ‫ثكقءعيمقتكا ق ااتلاق‬
‫اق ق‪ .‬ق‬ ‫قج مذاقتك ق ياءاتق خ قذيقذكةقذ ق‪10k‬ق‬ ‫رلق قذ ا‬ ‫ع هق‬
‫ل اقج ق‬ ‫ق‬ ‫ق ء ا لاق‬ ‫ق ت‬ ‫لاق قذعا‬ ‫قج قذ ض ق يكقثيتاقءع‬ ‫هعمق‬
‫قيكقق‪:‬ق ق‬
‫⋯ ‪𝑦̂ = 125 + 6.2 𝑥1 + 14 𝑥2 +‬‬

‫‪Engine Size‬‬ ‫‪Cylinder‬‬


‫اكقإي قتأثةق‬ ‫قا ء ق يكقثيتاق ك ق تهةل قءكمق ي تلاق لدق‪ Cylinder‬قذكةقذ لاق ككق‬
‫اكق‪.‬ق‬ ‫‪cylinder‬قج ق ي قغاحق‪co2‬ق عثق ت ع قذكةقذ قتأثةق ككق‬
‫ئل ق ق‪ :‬ق‬ ‫آل ق م اقهعضق‬
‫الخط البسيط ومت نستخدم المتعدد ؟‬
‫ي‬ ‫‪ -1‬مت نستخدم التوقع‬
‫اق ذ اق اهقاق ع مق تخم و قذكة قذ قذتهة قذاتق ق ت ق ي ق لمف قناتخموق‬
‫ت ق تعم قق ج مذاقيك ق م اقذتهةقذاتق ق مقناتخموق هايطقق‪ .‬ق‬
‫ق‬
‫‪25‬‬
‫الت يمكننا استخدامها يف التوقع المتعدد ؟‬‫المتغيات المستقلة ي‬ ‫ر‬ ‫‪ -2‬كم عدد‬
‫ع قناتع قأل ق تهة تق؟ق ع قءضيفقذتهة تقذ ا ق زلا لق ق ت ق؟ق ق‬
‫قي ك قذ ق اه ق‬ ‫قءظرل قذ‬ ‫بش قجاوقإ قحلا لقجم ق تهة تق اتقل ق ق‬
‫ء يجقت قغةقذ ئكق‪over-fit model‬ق ع قه مقي تمقذش ل ق قيقي ق ءمق ياه ق‬
‫تعقيم ق ل ياءاتق ااهاتق قء سق دق يسق ا ياق لت ق‪.‬ق ق‬
‫قذ ق ض قتك ق تخم وق عميمقذ ق تهة تق ذ قي ق ألمقةاقق تك ق‬
‫م ثقذش ل ق‪overfitting‬ق‪.‬ق ق‬
‫المتغيات المستقلة مستمرة ؟‬
‫ر‬ ‫ينبغ أن تكون‬
‫ي‬ ‫‪ -3‬هل‬
‫بش ق ئيس قذ قجاو قي ك ق تخم و ق تهة ت ق ي ق‪ categorical‬قهعم قت ولللاق‬
‫لش ق ا ىمقذ ق ق‪ :‬ق‬
‫م اق يا لقء جلاقذ ت ذاتي قذ قجا يقج معاقي ك اقذ قء اضقإ ق اءدق‪automatic‬قذ ق‬
‫تأ ق قي ق‪1‬ق إ ق اءدق‪manual‬قذ قتأ ق قي ق‪0‬ق‪.‬ق ق‬
‫الغي مستقلة ؟‬‫المتغيات المستقلة و ر‬ ‫ر‬ ‫ه العالقة ربي‬
‫‪ -4‬ما ي‬
‫قع هق ع قتي ق تهة تق‬ ‫ت ق تعم قع ق ا ق ا قذ ق ت ق خط ق‬
‫اتقل ق ق هةقذاتقل قتك ق ي ق ع ا قجملقةاقق ت ا ق ي قع هق ع ق‬
‫قج مق لاق تك قغةق ي قتياءياق‬ ‫ذ ق تخم وق ا كق يا ق‪scatter plots‬ق‬
‫ءنتق قج معاق لت ق هةق طق ق‪ .‬ق‬

‫‪ -8‬تقييم عمل نموذج التوقع ‪: Model Evaluation in Regression Models‬‬


‫ق ق‬ ‫لمفقذ ق ت قع قت ا قء يجق ت قهم ق ا تق كميملقذ ق كل ق‬
‫ق‬ ‫يج ق يتك قي قذ ق‬ ‫لاي قجل ا قذ قءكاي قتق يك ق‪ evaluation‬ق ل ق‬
‫ةرلقتي‪:‬ق ق‬
‫ت ا قج قء سق ياءاتق ن ق م اق ‪train and test on the same‬‬ ‫‪ -‬تم ل ق ق‬
‫‪dataset‬قق‪.‬‬
‫ت ا قج قألز قآ اق‪train/test split‬‬ ‫‪ -‬تم ل قج قألز قذ ق ياءاتق م اق‬
‫م و قذقا يس ق‪ metric‬ق م ق‬ ‫ذ قت ميمقذ ا ق‪ pros‬ق ذاا ئ ق‪ cons‬ق قةرلق ق‬
‫‪accuracy‬ق ايجق ت ق‪.‬ق ق‬
‫ق‬
‫‪26‬‬
‫‪ -1-8‬التدريب و االختبار عىل نفس البيانات لدينا ‪:‬‬
‫يجق يق ل اق‬ ‫ج مذاقءختا قةرلق قذاق تق يكقء يجقيأ ق ا ق‪:‬قكيفقءقيسق ق‬
‫إ يمق ختةهقع قع ق قأليمقذوق ق؟ق كيفقء قه اق ل اقإ يمق؟قذ مق ل قع قذ قءعطق‬
‫يجقألز ق‪portion‬قذ ق ياءاتق نق م اقذ ق ءكربددلاقجليمق ة قع ق يت قء سق‬
‫تيك ق قيقي ق م اقذوق ق!!!ق ق‬
‫قذ ا اق ت ق ء عاثقغاحق‪co2‬قذ قج وق ايا تق تخمذ اق لاقأل ق ياءاتق نق‬
‫ف قذ ق‪ 0‬قإ ق‪)9‬قذيق اقها تم ل قجل لاقأل يعلاق قكقها ت ا ق‬ ‫م اق(ذيقأل ق‬
‫يجق‪.‬ق ق‬ ‫فقذ ق‪6‬قإ ق‪9‬قه يثقناتخمذلاق لت ق قذ ق ق‬ ‫ذ قج ق‬
‫إي قذ حق م اقذك ج قتم ل ق‪train‬قذ ق‪0‬قإ ق‪9‬ق ذك ج ق ت ا ق‪test‬قذ ق‪6‬قإ ق‪9‬قق لاق‬
‫ق قه ق قيكق ق‬ ‫يكق قيقي ق م ق قناتخمذلاق ق ت ق إء اق قطق لت ق قج ق‬
‫ج ق‪EmCo2‬ق تم ق‪Actual values‬ق‪.‬ق ق‬
‫يجق يق‬ ‫آل قء ا ق دق‪ features‬ق(ذك ج ق ت ا ق ن ق ةءاعاقذ ق‪ 6‬قإ ق‪)9‬قإ ق‬
‫يجق بيق قيكق قيق ق‬ ‫ب اهق ءا قذاي ق ت ق اق‪،‬قثكقءكايقذقا ء قتيقذاق ت عمق اق‬
‫يجقذ قجمذلاق ق‪ .‬ق‬ ‫نق م اقذ ق‪،‬ق ع قذ ق م ق‬
‫يجق م قذغل لاقيعت مقج ق‬ ‫ق‬ ‫ألمق عميمقذ ق قا يسق نقءعت مقجل لاق ت ميمق‬
‫تقا لقتيق قيكق ت ع ق ق قيكق قيقي ق‪.‬ق ق‬
‫قيقي ق𝑦ق‬ ‫ط ق خ أقتي ق قيك ق‬ ‫ق تا ي ق ن قت ا قذت‬ ‫ذ مقع ه ق قا يس ق عا‬
‫ت ع ق̂𝑦ق‪.‬ق ق‬

‫ق‬
‫ت ا قج قء سقذك ج ق ياءاتق‬ ‫رلق ق ق تق يكقءكايق تم ل ق ق‬ ‫قع هق‬ ‫إي ق‬
‫قتت ةقها تا ق ق‪ :‬ق‬

‫‪27‬‬
‫قتم ل قجا ي ق‪high training accuracy‬‬ ‫‪-‬‬
‫ق‬ ‫يجقذ‬ ‫ق‬ ‫‪ -‬ق قذ خ ض ق ا جق ع اتق‪low out-of-sample accuracy‬ق‬
‫يعلكقتياءاتمق نق تخمذدق ق تم ل قق‪.‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪All‬‬ ‫‪Training‬‬ ‫‪Test‬‬ ‫ق‬


‫‪dataset‬‬ ‫‪data‬‬ ‫‪data‬‬ ‫ق‬
‫‪dataset‬‬ ‫‪datase‬‬
‫قتيقعاتيق ق تيق ق‪ :‬ق‬ ‫ل‬
‫‪t‬‬ ‫ً‬
‫أوال حالة الدقة العالية ‪:‬‬
‫يجقج مق تع ا قذك ج ق ت ا ق‬ ‫ي ق نق ألمعاق‬ ‫نا ق ئول ق لت عاتق‬
‫قذ ك ق‬ ‫ج ق ق ا ق إ ق م ق عا ي ق يادقها رص لقذ قتك قس قأليمق ذاق‪،‬ق‬
‫يجق‬ ‫أل قعك قذذاقذ ق اه ق ا ق‪ over-fit‬قذيقي حقغةقذ ئكق ل ياءاتق تعم ق‬
‫ذا ل ق ت ق قيم ق ق ا ق ك ق تشولمق ل ياءاتق ت ع ق‪.‬ق ق‬
‫ً‬
‫ثانيا حالة الدقة منخفضة ‪:‬‬
‫قء تاجق‬ ‫ع قباه قذءمق تكق ت ا قج قتياءاتقذ ق ا جقذك ج ق‪dataset‬ق م اق‬
‫يجق‪.‬ق ق‬ ‫ت ايقع هق نا ق ئول قها ءتقا ق ل رلق ق اءي ق تق يكق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪28‬‬
‫‪ -2-8‬تقسيم البيانات ‪: train/test split‬‬
‫تاق‬ ‫ع اق تكق تخم وقألز قذ ق ياءاتق لتم ل قذ قذ ق‪0‬قإ ق‪5‬ق ق قي قذ ق‪6‬قإ ق‪9‬ق‬
‫ءتات قت سقتاتي ق تالا ق ق رلق ق ااهق قذ ق االق خ أق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪All‬‬ ‫‪Training‬‬ ‫‪Test‬‬ ‫ق‬
‫‪dat‬‬ ‫‪data‬‬ ‫‪data‬‬ ‫ق‬
‫‪ase‬‬
‫ق آ ا ق ت ‪t‬ا ق‬ ‫لي قج قهعض قذ مع ا ق لتم ل‬ ‫قذ‬ ‫ع ا قتك قتقايك ق م تا ق كزذ‬
‫‪mutually exclusive‬ق‪.‬ق ق‬
‫يجقج قألز ق ءختةقج قألز قآ اقذ اق زلمق نا ق ئول ق لم ق‬ ‫تل هق رلق قءم لق‬
‫ق ا ق‪out-of-sample‬قق‪ .‬ق‬
‫يجقج قذك ج ق ت ا قء الاقتلمفقذ ق قءخشقذيقذ ق‬ ‫ذ قثكقءق وقتتم ل ق‬
‫قذ قتك قي تق ي ق‪.potentially valuable‬ق ق‬ ‫ت‬ ‫ياءاتق م اق ق‬
‫قذش ل قتقايكق ياءاتقذ لاق لتم ل قققق‬ ‫ذ قذ قع هق رلق قذ ض قذ ق اهقتلاق ق م قت‬
‫قذ لاق ت ا قق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪29‬‬
‫ق‪k=4‬ق قاكق ياءاتق‬ ‫قتم ق‪k-fold cross-validation‬ق‬ ‫قع ا قةرلق ق‬
‫ب د قذألز قه يثق ققتم قتياءاتقألز قها كز ق آل قاق اقي ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ق‬
‫األول واالختبار على البقية‬ ‫الثاني واالختبار على البقية‬
‫‪All‬‬
‫ق‬
‫‪da‬‬
‫‪tas‬‬ ‫ق‬
‫‪et‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ندرب النموذج على ‪ %25‬الجزء‬
‫الثالث واالختبار على البقية‬ ‫الرابع واالختبار على البقية‬
‫ق‬
‫ق‬
‫طق‬ ‫ق ت‬ ‫ءتيك ق م قذ قذا ل ق‪%80‬ق اءي ق‪%84‬ق ا ق‪%82‬ق ا هع ق‪%86‬قثكقءأ‬
‫قج ق م ق كلي ق ل يجق‪:‬ق ق‬ ‫اا ق لك ق‬
‫‪ AVG(80+82+84+8) = 83% = Accuracy‬ق‬
‫ءنت مقذ ق قألز ق‪fold‬قذت اجمقج ق آل اقذيق ق ألمقتياءاتقتم ل ق ق اكقتك قذ أل لق ق‬
‫اكقآ اق لتم ل ق قها تا ق ل اقج قنا قثاتت قذ ق نا ق ئول ق لم ق ققق ا ق‪out-‬‬
‫‪of-sample‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪30‬‬
‫مقاييس التقييم ‪: evaluation metrics‬‬ ‫‪-9‬‬
‫يجق هقتش ق ت يق‬ ‫نتعافقج قذقا يسق م ق‪accuracy metrics‬ق تق يكق‬
‫يج ق ق ا ق ت ق‬ ‫يج ق‪ ،‬ق ت مث قج ق قا يس ق ن قتقيك ق‬ ‫ا قذ ق‬
‫‪regression‬ق‪:‬ق ق‬
‫قذ ا قاق اات قهم لياقًق قا قتيق قيكق قيقي ق ك ج ق ت ا ق قيكق نقق‬
‫يجق م اقق‪ .‬ق‬ ‫ت علاق‬
‫قياوق م ق يقي م ق اقذيق قاة قذ ق ااوق نقت تاجق لت ولاق‪.‬ق ق‬
‫ذ قع هق اقق‪:‬ق ق‬
‫خ أق نانق ل ق‪Relative Absolute Error RAE‬‬ ‫‪-‬‬
‫ذت طق خ أق ل ق‪Mean Absolute Error MAE‬‬ ‫‪-‬‬
‫ذت طقذرب د ق خ أق‪Mean Squared Error MSE‬‬ ‫‪-‬‬
‫أل قذت طقذرب د ق خ أق‪Root Mean Squared Error RMSE‬‬ ‫‪-‬‬
‫ع ا قةاققذ ا ق‪،‬ق م قءا قذ ق قع هق اققذتعلق قهقي ق خ أق‪،‬ق اقع ق خ أق‬
‫م اق ق ت ق‪:‬قع ق اققتيق قي ق قيقي ق ق قي ق ت ع ق هق اا ق شا ي ق‬
‫ي ق ق ش ق‪:‬ق ق‬
‫ق‬
‫‪Y‬‬
‫ق‬
‫قيمة الخطأ‬
‫ق‬
‫ق‬
‫ق‬
‫‪x‬‬ ‫ق‬
‫ق‬
‫اقق نق‬ ‫ءمقيك ق م اقجملقءقاطق قها تا ق م اقجملق يكق لخ أق تكق ااتلاقتإ م ق‬
‫يكاءاعاق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫‪31‬‬
‫وه أبسط الطرق ‪:‬‬
‫‪ -1-9‬متوسط الخطأ المطلق ‪ MAE‬ي‬

‫ق‬
‫ق‬
‫ق‬
‫ق هاه ق أل ق ةب ق‬ ‫‪ -2-9‬متوسط مرب ع الخطأ ‪ MSE‬ق ه قذشلاقذ ق رلق ق‬
‫ا عا قذ ألل ق‪ geared‬قإ قذكة ق أ قذ أل ق ق ياه ق ت اع ق خ أ قبش قذسق‬
‫‪exponentially‬ق م اقذقا ء قها خ أق هةق‪:‬ق ق‬

‫ق‬
‫‪ -3-9‬جذر متوسط مربعات الخطأ ‪ RMSE‬ق ذةتلا قذ قع ه ق قي ق تك قتأ لللاق‬
‫‪interpretable‬ق ءلاقتع ق سق ملق شعاعق‪y‬قذ اق ال ق تعاذ قذعمقإ قء سق أل ق‬
‫ك ةق م ق م اق‪:‬ق ق‬

‫ق‬
‫ق‬

‫‪32‬‬
‫النست ‪ RAE‬ق ياىمقذيضا ق‪ Residual Sum of Error‬ق يثق تكق‬ ‫ي‬ ‫‪ -4-9‬الخطأ المطلق‬
‫تع ا قذت طق قيكق قيقي ق̅𝑦ق ق‪ :‬ق‬
‫| 𝑗̂𝑦 ‪∑𝑛𝑗=1|𝑦𝑗 −‬‬
‫= 𝐸𝐴𝑅‬
‫|̅𝑦 ‪∑𝑛𝑗=1|𝑦𝑗 −‬‬
‫النست ‪RSE‬‬
‫ي‬ ‫بيغ‬
‫‪ -5-9‬الخطأ الي ي‬
‫‪2‬‬
‫) 𝑗̂𝑦 ‪∑𝑛𝑗=1(𝑦𝑗 −‬‬
‫= 𝐸𝑆𝑅‬ ‫‪2‬‬
‫)̅𝑦 ‪∑𝑛𝑗=1(𝑦𝑗 −‬‬

‫ع قك ةق تخم وق قذكا قجلكق ياءاتق‪Data Science‬قبيكا قذاق اىمق‪R-squared‬ق‬


‫يجق‪:‬ق ق‬ ‫ع ق يسق خ أقه مقي تمق‪per se‬ق إء اقذقياوق م ق‬
‫𝐸𝑆𝑅 ‪𝑅 − 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 = 1 − 𝑅𝑆𝐸 ≡ 𝑅 2 = 1 −‬‬
‫ق لقيكق ت ع ق ل اق‬ ‫يثقيعةقج قذم ق الق قيكق قيقي قذ ق خطق اتقيكق‬
‫يجقذ ض ق‪.‬ق ق‬ ‫ح تق ي ق ‪𝑅 2‬ق ل اق ا ق‬
‫قع ه ق اق ق ااهق قتقيس ق م ل قء يأل قج ق ت ق ت ميم قذي قذ لا قناتخموق‬
‫يجق قءوعق ياءاتق قذكا ق عا ق مي ق ق‪ .‬ق‬ ‫ذت فقج قءوعق‬
‫خط ‪: non-linear regression‬‬
‫ي‬ ‫الغي‬
‫‪-10‬التوقع ر‬
‫ق ل ي ق‪China’s Gross Domestic GDP‬ق‬ ‫ق ا ق م قاقذ ق قتياءاتق بأل ا ق‬
‫ق ا يق‪annual gross domestic‬قهع ل ق‬ ‫ذ قجاوق‪1960‬قإ ق‪2014‬ق م ق‬
‫م ق‪US‬قذيق م ق ا يق‪income‬ق ق‪ :‬ق‬
‫‪ID‬‬ ‫‪Year‬‬ ‫‪Value‬‬
‫‪0‬ق‬ ‫‪ 1960‬ق‬ ‫‪ 5.9 e+10‬ق‬
‫‪1‬ق‬ ‫‪ 1961‬ق‬ ‫‪ 4.9 e+10‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪ 1969‬ق‬ ‫‪ 7.8 e+10‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪33‬‬
‫ج ق كقع هق ياءاتقيك ق لاقش قتات قذسق يسق طق‪:‬ق ق‬
‫ق‬
‫‪GD‬‬
‫مستقيم التوقع الخطي‬
‫‪P‬‬ ‫ق‬
‫تابع أسي‬
‫ق‬
‫ق‬
‫‪Year‬‬
‫‪2005‬‬ ‫‪2010‬‬ ‫ق‬
‫يق‪:‬ق ق‬ ‫ع اق م اق‬
‫‪ -1‬ع قي ك قت ق‪GDP‬قت دقذاق؟‬
‫‪ -2‬ع قنات قت ا قء يجقت ق طقبايطق ل هق ياءاتق؟‬
‫قيق قج مذاقءا قذ ق ياءاتقتش قذ ن قذعوجق‪ curvy trend‬ق ل قيعط ق ت ق خطق‬
‫َّ‬
‫ءتائ ق يق ق‪،‬ق ءمقي قه اتقيكق ع اق‪GDP‬قج تلاق ول قذ ق زذ ق يادق ي ق‪.‬ق ق‬
‫يثقءا قتهةقبايطق قيكق‪GDP‬ق نقجاوق‪2005‬قثكقت عمقهعمعاقبشج قثكق تهةقت ط قهعمق‬
‫قء تاجق‬ ‫جلكق‪ 2010‬ق‪،.‬ق ل ق ش مقتات قذس ق‪ logistical or exponential function‬ق‬
‫ت قغةق طقق ش مقه عا تمق ش ق تا ق ق‪ :‬ق‬
‫𝑥‪𝑦̂ = 𝜃0 + 𝜃1 𝜃2‬‬
‫تك قذل ت اقإيكا ق ا ذة تقثيتاق‪.‬ق ق‬
‫قهعمل قذء اط ق ط ق‪ linear‬قذ قتربيغ ق)‪quadratic(parabolic‬ق‬ ‫ي ك اقج قء يج ق ت‬
‫ذكعنق‪cubic‬ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫خطي‬ ‫تربيعي‬ ‫تكعيبي‬
‫ق‬

‫‪34‬‬
‫تة يمق م أل قه ا ق ياءاتق نق م اق‪.‬ق ق‬
‫ق( ض ) ق‪ in essence‬قذء اقءمج عاقأل يعلاقك ةق م ق ت ق ‪polynomial‬‬ ‫ق‬
‫قتي ق تهة ت ق اتقل ق‪ x‬ق هة قذاتقل ق‪ y‬ق أل قك ةق‬ ‫‪ regression‬ق يث قت م ق ع‬
‫م قه ا ق أل ق‪x‬ق‪.‬ق ق‬
‫م قق يق‬ ‫ق ل ياءاتق نق مي ق‪،‬قإي قذاقع قك ةق‬ ‫ا‬ ‫ق‬ ‫لك ق ءت اهق ءتقا ق‪pick‬ق ت‬
‫ا قأل قذء عق ياءاتق؟ ق‬
‫م قذ ق م أل ق ا ق‪:‬ق ق‬ ‫قك ةق‬ ‫ع قذت فقج قءوعقتياءات ق‬
‫‪𝑦̂ = 𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3‬‬
‫يجقذ ا ق ل ياءاتق ا ي ق‪underlying data‬ق با اغكق‬ ‫جل اقتخ يق يكقثيتاق يك ق‬
‫ذ قذ ق ع قغةق ي ق ي ك اقت ولللاق ع ق ي ق ق! ق‬
‫م ق اات قذ ق م أل ق ا ق ا اق تا ق‪:‬ق ق‬ ‫قجمءاق م ةق‬
‫‪𝑥1 = 𝑥, 𝑥2 = 𝑥 2 , 𝑥3 = 𝑥 3‬‬
‫ق ا تا ق‪:‬ق ق‬ ‫دق عا‬ ‫ذ‬
‫‪𝑦̂ = 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 + 𝜃3 𝑥3‬‬
‫هقك ةق م ق طقي ك اق جت ا هق ا ق ا قذ ق ت ق تعم ق تقليميق ‪traditional‬‬
‫‪ multiple regression‬ق ءع قج معاق تخم وقء س ق آل ي ق ن ق تخمذ اعاق اهقاق هق‬
‫‪ Least squares‬ق ه ق تخ ي ق ا ذة تق كل ق ق ت ق خط ق يثقناغق ت هةق‬
‫ذك وعقذربعاتق ا ققتيق ياءاتق قيقي ق نقت ع اعاقج قةرل ق تات ق خطق اات ق‬
‫ق‪Minimizing the sum of the squares of the difference between 𝑦̂, 𝑦:‬قق‪ .‬ق‬
‫ق هةق طقها ض طق؟ ق‬ ‫إي قهعمق قع قذاقع ق ت‬
‫ع قي قء يجقغةق طقتيق تهة تق اتقل ق هةقذاتقل ق لن غقذ قتك ق̂𝑦قتات قغةق‬
‫طق ل ا ذة تق 𝜃ق يسقها رص لق ل تهة تق‪x‬ق(‪)features‬ق‪.‬ق ق‬
‫ا تقتهةق̂𝑦 ق‬ ‫ق ق‬ ‫لك قش للاقذسق‪،‬ق غا لتىمقق‪،‬قجا يق‪،‬قذ قجملقذش ا قذ ا ق‬
‫ق هةق ط قع قء يجقغةق طق‬ ‫ذات طقتتهةق 𝜃 ق يسقها رص لق قطقج قتهةق‪ x‬قذيق ت‬
‫ل ا ذة تق‪.‬ق ق‬
‫‪35‬‬
‫𝑥 ‪𝑦̂ = 𝜃0 + 𝜃12‬‬
‫𝑥‪𝑦̂ = 𝜃0 + 𝜃1 𝜃2‬‬
‫) ‪𝑦̂ = log(𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3‬‬
‫‪𝜃0‬‬
‫= ̂𝑦‬ ‫) ‪(𝑥−𝜃2‬‬
‫‪1 + 𝜃1‬‬
‫ذ ق‬ ‫ها قاه ق‪ in contrast‬ق ق ت ق خط ق قي ك ا ق تخم و ق‪ least squares‬ق‬
‫ياءاتق ق ت ق هةق طق ج ذاقتخ يق ا ذة تق يسق ل ق ذاقق‪ .‬ق‬
‫قغةق ي قه رلق ق لل ق؟‬ ‫‪ -‬إي قكيفقءعلكقذ ق اأ ق ي قذ‬
‫ض ق ك قث ا ق هعا ق تهة ت ق خرج قها نا ق‬ ‫‪ o‬ك ق ياءات ق ن ق م اق‬
‫ق ي قذ قغةق ي ق‪.‬ق‬ ‫نقي ةق ع‬ ‫لم ق ا‬
‫ت اط ق‪ correlation coefficient‬قتي ق تهة تق‬ ‫‪ o‬ي ك ا ق اال قذعاذ ق‬
‫اتقل ق هةقذاتقل ق‪.‬ق‬
‫قذ الق‬ ‫‪ o‬إي ق اءد ق ي قذعاذ ق ت اط ق ك ق تهة ت ق‪ 0.7‬ق ا ق ق ق ا ع‬
‫لخ ي قتيق م ق ق خرجق ق‪.‬‬
‫‪ o‬ذ قءق وقها تخم وق ت ق خط ق إ ق اءدق تائ قغةقذا ي قءنتق ق لت ق‬
‫هةق طق‪.‬ق‬
‫‪ -‬كيفقء نقء يجقتياءا قإي ق اءدق هةق ي قذ أل لق؟قع اقناتخموقإ م ق اقق‬
‫تا ي ق ق‪:‬‬
‫‪Polynomial regression ‬‬
‫‪Non-linear regression model ‬‬
‫‪Transform your data ‬‬
‫ق تعم قج مذاقءرلمقتيا ق لقتأثةق تهة تق اتقل قج ق تهة تق‬ ‫ءتيك ق‪:‬قناتخموق ت‬
‫هةقذاتقل ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪36‬‬
‫قذ ا ق‪GPD‬ق ل يقذ قجاوق‪1964‬ق عاوق‪2010‬ق‪:‬ق ق‬
‫حذ ق ق‪ :‬ق‬ ‫ق تة ق كت اتق‬ ‫لق‬ ‫خ‬ ‫‪-‬‬

‫ق‬
‫ق‪y=2x+3‬قذ قهالق ت كالق‪:‬ق‬ ‫قباي‬ ‫ق خطق عا‬ ‫كايق كق لت‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪37‬‬
‫ق هةق طق يك قذ قك ةق م ق أل قثا ق‪:‬ق‬ ‫‪ -‬ذذاق ت‬

‫ق‬

‫ق‬

‫ق‬
‫ةبيغق مق ش ق‪:‬ق‬ ‫‪-‬‬

‫ق‬
‫‪38‬‬
‫ق‬
‫سق مق ش ق ق‪:‬‬ ‫‪-‬‬
‫ق‬

‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫‪39‬‬
‫ل غا لتىمق‪:‬ق‬ ‫‪-‬‬
‫ق‬

‫ق‬

‫قق‬
‫ق‬
‫ق‬
‫ق‬
‫اك ولمق‪Sigmoidal/Logistic‬ق‪:‬ق‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫‪40‬‬
‫ق‬
‫ق خطق هةق طقهأعكقذش ا مقق‪ .‬ق‬ ‫لع اقج ق اققتيق ت‬‫تل قءك ق‬
‫ق‬
‫ءأ ق آل ق ل ا ق يق م مق ع ق‪GPD‬ق ل يق‪:‬ق ق‬
‫ق‬
‫اقذ لاق‪:‬‬ ‫كت ا قهأ قجشقذ‬ ‫تة ق كت اتق حذ ق ت ي ق ياءاتقذ ق ا هطق‬ ‫‪-‬‬

‫ق‬
‫ق‬
‫ق‬

‫‪41‬‬
‫ي قءا لاق‪:‬ق‬ ‫ي قذوقغةق‬ ‫خاألاتقع ق‬ ‫تق‬ ‫قتيق م‬ ‫آل ق ت ميمق ع‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫ءكمقذ ق ا كق يا قذ ق ع ق ي ق با تا ق ناتخموق ت قغةق خط ق م ق‬
‫ذيقذء جمق ناتخموق‪:‬قك ةق م ق–ق سق–ق ل غا لتىمق–ق اك ولمق‪.‬ق ق‬
‫ء ظ قذ ق ا ك ق يا قذءلاقتز قت ط ق ق م ي قثك قتتاا ع ق ق ط قثك قتعا ق‬
‫ءخ اضق( مق ت ا ق ل ع ق سق م قع قذخا فق يثق سقت مذقت ط قثكقتة يمق‬
‫ق يك ق م ق اك ولمق ي ق اق ل ق ت ق قذ ب اقذ ق‬ ‫ق ءخ اض)ق‬
‫دق‪:‬ق ق‬ ‫ق قة عاقج ق االق كلمق‬ ‫ءكالق سق ءا قذ ل اقذ ض ق قهأوقه‬
‫ق‬
‫ش ق عاوق م ق‪logistic‬ق‪:‬ق ق‬

‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪42‬‬
‫ق ل ق تات ق‪:‬ق ق‬ ‫يجقذ قتعرلفق‬ ‫ء مذقتب ا ق‬

‫ق‬
‫قتمق ل ياءاتق م اق ق‪ :‬ق‬ ‫هدق تات ق ة قذم قذ‬ ‫ثكقءض ق يكقذ ي ق‬

‫ق‬

‫ق‬
‫اقءا قذءمق يسقذ ا قه ا تمق ي قإي ق ل ت اق آل قإيكا قذ ض قها ذة تق مق‪.‬ق ق‬
‫‪ -‬ءق وقهع لي قت ظيكق ياءاتق تك قت سق كا ق هقج لي ق‪normalize‬قذيق ا تق‬
‫قء ا قت ظي لاق ا تا ق‪:‬ق‬ ‫ها فقذذقاق‪GPD‬قذا ج ق لق لق‪13‬ق اقءا ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪43‬‬
‫نقناتخموق كت ق‪scipy‬ق‪:‬ق‬ ‫قل‬ ‫ا‬ ‫‪ -‬بألا ق يكقتيتاق‬

‫ق‬
‫لاق ة ق تيك ق ق‪:‬‬ ‫آل قءع‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫ل لق‬ ‫ء ظقذءمقذ ا ق م قع ق قيكقق ن غقذ قء ا ق م قها تخم وقء سق‬
‫ق ت ق خطق‪:‬‬
‫يج قثك ق اال ق قيكق‬ ‫ي قتتقايك ق ياءات ق ت ا ق تم ل ق قذ قثك قتم ل ق‬
‫ت قها جت ا قج قتياءاتق ت ا ق ذ قثكق االق م ق‪:‬ق ق‬

‫‪44‬‬
‫ق‬

‫ق‬
‫ق خطق ق هةق طقذ قذذ ل قج لاق‪.‬ق‬ ‫تل قءك ق مقذءل اق ت‬

‫‪-11‬التصنيف ‪: Classification‬‬
‫‪ -1-11‬مقدمة ‪:‬‬
‫يعتةق ت نيفق قتعلكق آل قذ ق اكق تعلكق ب قق‪supervisor‬ق يثقذ ق مق‬
‫قذك جاتقذ ل ق‬ ‫ي ك قت نيفقجملقج ارصقذكل ق(ذيق قجلكق اقج لا)ق‬
‫ف)قق‪ .‬ق‬ ‫(‬
‫ق أل ل قتي قذك ج قذتهة ت ق‪features‬ق‬ ‫ي ا ق ت نيف قذ ق تعلك ق ع‬
‫لمفق‪target‬ق‪،‬ق يثقيك ق لمفقذتهةق ه يق‪categorical variable‬قهقيكق‬
‫ذ ل ق(ذتق ع )ق‪discrete values‬ق‪،‬ق ا قج قي ق ق‪ :‬ق‬
‫ت قذ حق قا ضق‪leans‬ق لع ق قت قذ قذرصفقذاق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪45‬‬
‫م اقت ق ميمق ا قجموقتاميمق قا ضق ميمق(تخلفقج ق م ق‪)default‬ق‪:‬ق ق‬
‫م اق ياءاتق تا ي ق ق‪ :‬ق‬
‫‪age ed employ address income deb credit order default‬‬
‫‪ 3‬ق ‪ 41‬ق‬ ‫‪ 17‬ق‬ ‫‪ 12‬ق‬ ‫‪ 5,009‬ق ‪ 11.3‬ق ‪ 9.3‬ق ‪ 176‬ق‬ ‫‪1‬ق‬
‫‪ 1‬ق ‪ 27‬ق‬ ‫‪ 10‬ق‬ ‫‪6‬ق‬ ‫‪ 19.2‬ق ‪ 31‬ق‬ ‫‪ 4,0‬ق ‪ 1.6‬ق‬ ‫‪0‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪0‬ق‬
‫ق‬
‫تهةق ةقذ ق وعق‪categorical‬ق ع ق لمفق ءرلمقذ قءت قع ق يم ق زب ق‬
‫قاضق ةت قجليمقذوق قق‪ .‬ق‬
‫قذ حق‪offer‬قذ قذ ق‪decline‬ق عا ضق ا ق ميمق ل ق زب ق ق‪ .‬ق‬ ‫ج معاقي م ق‬
‫ّ‬
‫ناتخموق ياءاتق نق م اق ا قذ فق‪classifier‬قء ا ق مقتياءاتقذيقحب قألميمق‬
‫لعطق تيك قإذاق‪1‬قذيق‪defaulter‬قذ ق‪0‬قذيق‪not defaulter‬ق‪.‬ق ق‬
‫ءا قذ قءوعقع ق ت نيفقث ا ق‪ binary‬ق ءمق اتخموق ي تي ق ق خرجق‪ 1‬قذ ق‪ 0‬ق اق‬
‫ّ‬
‫ي ك اقت ا قذ فق أل قجمل قذ اف ق‪ multi-class classification‬قذيق يسقث ا ق‬
‫قطق اق قذ ا اق اات ق‪.‬ق ق‬
‫ذ قيك ق م ا قتياءات قذاض ق ءرلم قذ قءت قءوع ق عقا ق ي ق ع يم ق ل رلضق‬
‫كمي قمق‪ :‬ق‬

‫‪age‬‬ ‫‪ sex‬ق‬ ‫‪ Bp‬ق‬ ‫‪ chars‬ق‬ ‫‪ Na‬ق‬ ‫‪K‬ق‬


‫‪ Drug‬ق‬
‫‪ 18‬ق‬ ‫‪m‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugY‬ق‬
‫‪ 16‬ق‬ ‫‪f‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugC‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق ق‬
‫‪.‬‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugX‬ق‬
‫ق‬
‫قققققققع ق تهةق لمفق‪ categorical variable‬ق‬
‫يثق م اقث ثقت ني اتق لم ق ت ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫‪46‬‬
‫ذكا تق تخم وق ت نيفق قذذ قجملق‪:‬ق ق‬
‫ت ميمق يق ئ قذ قءوعق نتىمق زب‬ ‫‪-‬‬
‫ت قع ق زب ق يهةق لعتمق نق يشةلددلاق‪churn detection‬‬ ‫‪-‬‬
‫ت قع ق اتكي ق زب ق‪ respond‬ق عا ضق شك قذوق قذ ق ق ك ج قإج ءات ق‪:‬ق‬ ‫‪-‬‬
‫‪particular – advertising – camping‬ق‪.‬ق‬
‫ت ةق ك وق‪speech recognition‬قق‪.‬‬ ‫‪-‬‬
‫ت ةق طق يمق‪hand writing recognition‬‬ ‫‪-‬‬
‫ت ةقذقا يسق ول ق رلضق‪bio-metric identification‬‬ ‫‪-‬‬
‫ت نيفق ات م تق‪documents classification‬‬ ‫‪-‬‬
‫ق‬
‫ذعظكقع هق شاك قتك ق ائ قج ق تيا قتيقجملق ت ا تقذ قت نيفق تائ ق لتعاذ ق‬
‫ذعلاقذ قت نيفق ةلمق ب مة قع قع ق ‪spam‬قذ ق‪not spam‬ق(ترلمقذ ييقذوق )‪.‬ق ق‬
‫حذياتق ت نيفقذ لاق ق‪ :‬ق‬ ‫ألمق عميمقذ ق‬
‫‪-‬‬ ‫)‪Decision Tree (ID3-C4.5-C5.0‬‬
‫‪-‬‬ ‫‪Naïve Bayes‬‬
‫‪-‬‬ ‫‪Linear Discriminant Analysis‬‬
‫‪-‬‬ ‫)‪K-Nearest Neighbor (KNN‬‬
‫‪-‬‬ ‫‪Logistic Regression‬‬
‫‪-‬‬ ‫)‪Neural Network (NN‬‬
‫‪-‬‬ ‫)‪Support Vector Machine (SVM‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪47‬‬
‫‪ -2-11‬خوارزمية التصنيف ‪: K-Nearest Neighbors KNN‬‬
‫قج ق اض ق او قذز ق ت ا ت قتتقايك قحبائ م قإ ق ئات قج قذ او ق خمذات ق نق‬
‫ق كم ق تا ق ق‪ :‬ق‬ ‫يقمذلاق لكق‬
‫‪ Y : dependent‬ق‬
‫‪X : Independent‬‬
‫‪ variables‬ق‬
‫‪variables‬‬
‫‪id‬‬ ‫‪ income customer‬ق ‪ gender‬ق ‪ retire‬ق ‪ employ‬ق ‪ ed‬ق ‪ address‬ق ‪ material‬ق ‪ age‬ق ‪region‬‬
‫‪ categorial‬ق‬
‫‪0‬‬ ‫‪ 44‬ق ‪ 2‬ق‬ ‫‪1‬ق‬ ‫‪4‬ق ‪9‬ق‬ ‫‪5‬ق‬ ‫‪0‬ق‬ ‫‪m‬ق‬ ‫‪2‬ق‬ ‫‪1‬ق‬
‫‪1‬‬ ‫‪ 33‬ق ‪ 3‬ق‬ ‫‪9‬ق‬ ‫‪2‬ق ‪6‬ق‬ ‫‪3‬ق‬ ‫‪1‬ق‬ ‫‪f‬ق‬ ‫‪3‬ق‬ ‫‪4‬ق‬
‫‪..‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪0‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬
‫‪..‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬
‫‪8‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫?‬
‫ق‬
‫‪target‬‬
‫م اق مذاتق ل شةكيقتأ ق ي تلاق تهةق‪Y‬ق اقي ق‪:‬ق ق‬
‫‪Basic service -1‬‬
‫‪E-service -2‬‬
‫‪Phis-service -3‬‬
‫‪Total-service -4‬‬
‫با تا ق شك ق تاتخموق ياءاتق مي غا ي ق تت ق ة تق نق تشةكق لاقذك ج ق‬
‫شةكيق تقميكق خمذاتق‪offers‬ق لكق‪:‬ق‪ individual prospective customers‬ق‬
‫ن نق‬ ‫ع ه ق اأ قتعتة قإ م قذاائ ق ت نيف ق يث ق م اقذ ب د قذك جات ق لخرج ق‪ Y‬ق‬
‫ء يجقت ق لقيكق كميملقذ ق كل ق ناتخموق‪KNN‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪48‬‬
‫ق‪ features‬قذ ق تهة ت ق‪ x‬قذ ق‪:‬ق‬ ‫قذ مئيا قناتخمو ق قط قج‬ ‫ذ قذأل ق قياو قه‬
‫‪age,income‬ق نا لكق‪predictors‬قثكقءا كق زبائ ق ك جاتقت ا قج قع ق تهةل ق‪ :‬ق‬
‫ق‬
‫‪income‬‬
‫ق‬
‫ق‬

‫‪age‬‬

‫‪Basic‬ق‬ ‫‪Eco‬‬ ‫‪Plus‬‬ ‫قق‪Total‬‬


‫آل قءكمقذ ق زب ق كمي قمققققذ الق ل ق قققققذيق ئ ق‪Total‬ق ل قي ك اقذ قءق قذءمقذ قع هق‬
‫قي ق قع ه ق ئ قذ ق رل ق لزب ق كميم ق ‪first-nearest‬‬ ‫ئ ق؟ قءعك قنات‬
‫‪neighbor‬ق م قيأ ق ا ق تا ق‪:‬ق كقهق ث ي قع ق ت نيفق؟قة عاقع قتخ يق عيفق‬
‫اقإ ق اءدق ق ق قرل ق ا ق ا قذ قشايلق‪outlier‬ق‪.‬ق ق‬
‫إي قءع ق ل خ طق اات ق بم قذ قء م قذ قءق ق رل ق لزب قءق وقتت ميمقذ ق سق‬
‫ءقاطق رل ق مق ءا قجم ق قاطق تشاتل ق ي اقتي لاق‪majority vote‬ق ت ميمق فقحب ء اق‬
‫كميم‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق ا ق م اق‪:‬ق ق‬ ‫ق‬ ‫فق ع قذكةقذ قي ق‪more sense‬ق‬ ‫ءكمق أل قث ث قذ قء سق‬
‫حذي ق‪KNN‬ق تا ق ق‪ :‬ق‬ ‫حق م اقققق‪5-NN‬ق با تا قيك قتعافق‬ ‫‪1-NN‬قثكقذ‬
‫م لق‪labeled points‬ق‬ ‫حذياتق ت نيفق نقتأ ق زذ ق‪bunch‬قذ ق قاطق‬ ‫هقذ مق‬
‫تاتخمذلكق ت ميمقعول قهقي ق قاطق يثقتعت مقج ق تشاهمق أل قتي قع هق قاطق‬
‫قرل ق لاقق‪based on their similarity to other cases.‬ق ق‪ .‬ق‬

‫‪49‬‬
‫تاىم قع ه ق قاط ق قرل قذ قهعضلاقذ ق ق ق كميمل قهد ق‪ neighbors‬ق ه قتعت مقج ق‬
‫ا تق تشاتل قذ قء سق فق تك ق رل قج قهعضلاق عضق ق اا قتي ق ق‬
‫ا تيققهقذقياوق ت ا ق‪dissimilarity‬قق‪ .‬ق‬
‫ع ا قجملقةاقق قياوق تشاهمقذ قبش قذعاكسق ياوق ت ا قذ قةرلق ق ‪Euclidian‬‬
‫‪distance‬ق نتعافقج قع هق اقق قاق‪.‬ق ق‬
‫حذي ق‪KNN‬ق ا تا ق ق‪ :‬ق‬ ‫ق‬ ‫إي قءلخصقذا‬
‫ءض ق ي ق‪k‬قذيقجم ق قاطق تكا لقق‪pick a value for k‬‬ ‫‪-1‬‬
‫االق اا قتي ق ق ق كميملقذ ق كل ق بقي ق قاطق ق ‪hold out from‬‬ ‫‪-2‬‬
‫‪each of the cases in the dataset‬‬
‫قتياءات ق تم ل ق‪ )training data‬ق ال ق ل ق ق‬ ‫ءختا ق‪ k-observation‬ق(‬ ‫‪-3‬‬
‫كميملقذ ق كل ق‪.‬ق‬
‫ءت ق ا ق ق ق كميملقها تخم وق ا تق شائع ق الق قاطق لقاق‪.‬ق‬ ‫‪-4‬‬
‫مق ع اق ق‪ :‬ق‬ ‫ق‬ ‫ع ا قألزذ ق قع ق اا قيعطق ء اجاقذض رباق لع‬
‫‪ -‬كيفقءختا ق ي ق‪k‬ق ي ق؟‬
‫ا تقذ ق قاط‪.‬ق‬ ‫‪ -‬كيفقءقيسق تشاهمق( اا ات)قتيق‬
‫ة قذ ا قج قةرلق ق ياوق تشاهمقتيقحب ءيق(ءق تي)قذ قذ ا اق اات ق‪:‬ق ق‬
‫‪customer1 customer2‬‬
‫‪ age‬ق‬ ‫‪ age‬ق‬
‫‪ 54‬ق‬ ‫‪ 50‬ق‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 = 4‬‬
‫‪income‬‬ ‫‪income‬‬
‫‪190‬‬ ‫‪200‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 = 10.77‬‬
‫‪education education‬‬
‫‪3‬‬ ‫‪8‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 + (3 − 8)2 = 11.87‬‬
‫ق‬
‫ق‬
‫ق‬

‫‪50‬‬
‫م ا قذ ل ا ق قط قذةل ق مل ق‪ age‬ق ي ك ا ق ياو ق اا قتي ل قا قه رلق ق ‪Euclidian‬‬
‫‪distance‬ق تاىمق‪Minkowski distance‬ق ا تا ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ملقذ ق ثنتي قذ قث ث ق‬ ‫قذةلق‬ ‫ء ظقذ ق كم ق اات قكيفق تكق االق ت ا قج مقذ‬
‫لزب ءيقق‪ .‬ق‬
‫قذكا قذعيق قع ق‬ ‫ي ك اقج قي ق ك ق ياءاتق قج قتق يسق‪normalized‬ق لاق‬
‫ذعت مقج قة يع ق ياءاتق ق ت نيفق اتخموق‪.‬ق ق‬
‫اضق‬ ‫ق‬ ‫ق كل‬ ‫اق ذ اقذ قع هق خ حذي قتعت مقج قت ميمق ع ارصق كةق رباق ل ق‬
‫ق؟ ق‬ ‫ءرلمقت ميمق ا ق ا ق(؟) ج ق خ طق‪chart‬ق اقهق ي ق‪k‬ق ا‬

‫إي قهمذ قهقي ق ليل ق‪k = 1‬ق إءلاق تك قذ الق ل فق‪Basic‬قققققق م مق يا قس ق قهقي ق‬
‫قاط ق لاقذ ق ف ق ق ق قج ق خ ط قذي ق‪ Total‬ق ق أل ق خيا ق ق ق قع ق ا قشايلق‬
‫‪anomaly‬ق با تا ق تيا ق ي ق ئيل ق‪k=1‬ق يقإ ق ا ق‪over-fitting‬ق‪.‬ق ق‬
‫يج ق قيك قبش لم ق عاو قذ يم ق لع ات قذ ق ا ج ق ياءات ق‪out-of-‬‬ ‫ع قيعن قذ ق‬
‫‪ sample‬ق ه ق ن قناتخمذلا ق تم ل ق ظاو ق با تا ق ايك قغة قذ يم ق لقيك ق كميملق‬
‫( كل )ق‪،‬ق م قذاي ق ق ةءاق ي قك ةلقذ ق‪k=20‬ق؟قك ق يك قغةقذ ئكق ق! ق‬
‫تيا ق ي ق‪k‬ق؟ ق‬ ‫إي قذاقهقذ ض قةرلق ق‬
‫يجق ع ق‬ ‫ق ش قع قذ قء ت ظقذ قء كزق‪reserve‬قألز قذ ق ياءاتق ت ا ق ق‬
‫يجقها تخم وق‬ ‫قءختا ق‪k=1‬قثكقناتخموق ياءاتق نق كزءاعاق ت ا ق االق ق‬ ‫ي‬

‫‪51‬‬
‫قج قذج ق‬ ‫أل قتياءاتق ت ا ق‪ test set‬ق ءعيمق ع لي قها تيا ق يكقذ ا ق دق‪ k‬ق ن قء‬
‫ق ل يجق قذ ا اق اات ق تك قذ ض ق ي قهق‪k=4‬ق ق‬

‫‪Accuracy‬‬ ‫ق‬
‫ق‬

‫‪k‬‬ ‫ق‬
‫‪k=4‬‬
‫ق‬
‫ا ق تك ق تخم وق‬ ‫ةرلق ق‪ KNN‬قتاتخمو قذيضا ق لت قه ا ق قيك ق ات ال ق قع ه ق‬
‫ذت طق قيكق كا لق( ال)ق كتشافق ي ق ا ق كميملقق‪ .‬ق‬
‫ق‪-‬ق‪....‬ق ق‬ ‫ق–ق‬ ‫اتمق‪features‬ق‪:‬قجم ق هافق–ق اا‬ ‫ق عاقذة ق يثقذ‬ ‫ذ قت‬
‫اتلكق‬ ‫ق اا قتي لاق إء اقهاجت ا قذ‬ ‫ي ك اقع اقإيكا قذ القث ثقذ اح ق يسق قطقهأ‬
‫قذت طقذ عا ق اح ق ث ق كا لق‬ ‫قي قثكقءت ق عاق ة ق يقءرلمقت ميمهقهأ‬
‫مقق‪ .‬ق‬
‫ق لاي قي ك اق ق ق‪:‬ق ق‬
‫‪Very high (K=100) overly generalized model‬‬
‫‪Very low (K=1) highly complex model‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪52‬‬
‫‪ -‬مقاييس التقييم يف التصنيف ‪: Evaluation metrics in classification‬‬
‫اتق‬ ‫يج ق ع ق اض ق م اقذك ج قتياءات ق زبائ قإ م ق‬ ‫ق‬ ‫ت م قع ه ق قا يس قذ‬
‫ت ا تق ق‪ :‬ق‬
‫ق‬
‫‪Predicted‬‬
‫‪Data set‬‬ ‫‪model‬‬
‫𝒚(‪value‬‬‫)̂‬

‫‪Training set‬‬

‫‪Test set‬‬

‫)‪Real value(y‬‬

‫ق‬
‫قع هق شك ق ق! ق‬ ‫قءرلمقت ميمق تيك ق لائي ق‪churns‬ق ع‬
‫يجقها تخم وقتياءاتق تم ل ق‪ training set‬قءرلمق االق قج قع ق‬ ‫هعمقتم ل ق‬
‫يجقها تخم وقتياءاتق ت ا ق‪ test set‬ق ألمق قيكق ت ع ق ذ قثكقءقا قتي ق قيكق‬
‫يجق‪.‬ق ق‬ ‫قيقي ق قذك ج ق ت ا ق بيق قيكق ت ع ق ت ميمق قع ق‬
‫ق‬ ‫ي م ق اق ياوق م قذيضاق كز ق يق ن غ قد قء هق قء يأل اق ت اي قذ ئمق قع ا‬
‫ةق نتعافقج قث ث قذ لاق هق‪:‬ق ق‬
‫عميمقذ قع هق عا ق‬
‫‪Jaccard index , F1-score , Log Loss‬‬
‫‪: Jaccard index -‬‬
‫يج ق قتعاف قذيضا قهد ق ‪Jaccard similarity‬‬ ‫ق‬ ‫ه قذباط قع ه ق اق ق قياو ق‬
‫‪coefficient‬ق يثقء للاقها عا ق‪:‬ق‬
‫|̂𝑦 ∩ 𝑦|‬ ‫|̂𝑦 ∩ 𝑦|‬
‫= )̂𝑦 ‪𝐽(𝑦,‬‬ ‫=‬
‫|̂𝑦 ∪ 𝑦|‬ ‫|̂𝑦 ∩ 𝑦| ‪|𝑦| + |𝑦̂| −‬‬
‫‪53‬‬
‫قيقي قج ق ألت اجل اق‪.‬ق ق‬ ‫ذيق ا ق ككق تقاة قتيق قيكق ت ع ق ق‬
‫يج ق‬ ‫ق م اقج اتق ت ا ق قيقي ق]‪y=[0,0,0,0,0,1,1,1,1,1‬ق ذاقت عمق‬
‫اءي ق‬ ‫ق]‪ 𝑦̂ = [1,1,0,0,0,1,1,1,1,1‬قذيق تلفق قطقهأ ق ي تيق ق شةكقت ا ق قيكق‬
‫با تا ق‪:‬ق ق‬
‫‪8‬‬
‫= )̂𝑦 ‪𝐽(𝑦,‬‬ ‫‪= 0.66‬‬
‫‪10 + 10 − 8‬‬
‫يجق‪ J=1‬ق ج ق‬ ‫ق‬ ‫يكم قها كاقذءمقج مذاق ألمقتشاهمق اذ قتي قذك جن ق قيكق إ ق‬
‫خ فقج مذاق ق ألمقذيقتشاهمق ا م قذعم ذ ق‪J=0‬ق‪.‬ق ق‬
‫يج ق ع ق)‪ (cm‬ق‪ confusion matrix‬ق ع ق اض قذ ق‬ ‫ق‬ ‫ظا ق ش قآ ا ق عن ق‬
‫ق‪ cm‬قتظلاق‬ ‫قت ي ق‪ 40‬ق اقذ ق ياءاتق ل هق‬ ‫ذك ج ق ت ا ق م اقذ‬
‫قذقا ء قذ ق قيكق قيقي ق‪.‬ق ق‬ ‫ي‬ ‫ت عاتق خاةئ ق ق‬
‫ق‬
‫>>=‪Column‬‬

‫ق‬
‫ق‬
‫ق‬
‫>>=‪Row‬‬
‫‪20‬‬

‫‪Churn=1‬‬ ‫‪6‬‬ ‫‪9‬‬


‫)‪True label (y‬‬

‫‪15‬‬

‫‪10‬‬

‫‪Churn=0‬‬ ‫‪1‬‬ ‫‪2‬‬


‫‪5‬‬

‫‪Churn=1‬‬ ‫‪Churn=0‬‬

‫)̂𝑦( ‪Predicted label‬‬

‫‪54‬‬
‫تاق‬ ‫ق يق قيكق قيقي ق‪Actual/true label‬ق قذك ج ق‬ ‫ق اق قع هق‬
‫يجق ق‪ .‬ق‬ ‫‪test set‬ق قج ق يق قيكق ت ع ق‪predicted value‬قذ ق‬
‫ق ق‪ :‬ق‬ ‫ل قءظاءاق لا اق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ل قي ق زبائ ق ن ق ي ق‪ churn‬ق قيقي ق لكق قذك ج ق ت ا قتاا يق‪ 1‬ق با تا ق ق‬
‫يجقت قذ لكق‪ 6‬قهقي ق‪ 1‬ق ق‪9‬ق‬ ‫اب اق ي ق‪ churn‬ق دق‪ 15‬قحب قذ قذ ق‪ 40‬ق ألمءاقذ ق‬
‫ق ذاق لا اق ا ق ق‪ .‬ق‬ ‫هقي ق‪0‬ق ك‬
‫قيقي ق‪ 1‬ق ق‪ 25‬ق ي تمق‬ ‫ت ا قذ لك ق‪ 15‬ق ي تم ق‬ ‫اقذ قذك ج ق‬ ‫تيك ق‪ :‬ق م اق‪ 40‬ق‬
‫قيقي ق‪0‬قه يثق‪:‬ق ق‬
‫حقذيق‪ 1‬ق‬ ‫يجقبش ق‬ ‫دق‪15‬ق‪:‬ق‪6‬قذ لكقت علكق‬
‫نموذج سيء‬
‫قققققققققق‪9‬ق=ق=ق=ق=ق=ق=ق=ق=بش ق اطققذيق‪0‬ق ق‬
‫حقذيق‪ 0‬ق‬ ‫يجقبش ق‬ ‫دق‪25‬ق‪:‬ق‪24‬قذ لكقت علكق‬
‫نموذج جيد‬
‫ققققققققققق‪1‬ق=============== اطقذيق‪1‬ق ق‬
‫افقج ق‬ ‫ق‬ ‫حقت عمقذ ق‬ ‫يجقج قت‬ ‫ق‪cm‬قتعطق ء اجاقج ق م لق‬ ‫إي قذ‬
‫هعضلاق عضق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪55‬‬
‫) قي ك اقج معاق‬0‫ ق ق‬1‫ي ق قطق‬ ‫ ق(ذيق‬binary‫ا ق خاصقذ ق ت نيفق ا ق‬ ‫ذذاق ق‬
‫ ق‬:‫ق ا تا ق ق‬cm‫ق‬ ‫اوق أل لق قذ‬ ‫ت اةق‬
True positive TP (6)
6 TP 9 FP
False positive FP (9)
True negative TN (24)
1 FN 24
False negative FN (1) TN
‫حق ق‬ ‫ق‬ ‫قت‬True
‫حق‬ ‫قغةق‬ ‫قت‬False
‫ ق‬1‫قذيق ا تمق‬Positive
‫ ق‬0‫قذيق ا تمق‬Negative
‫ق ق‬:‫ق االق م ق اقي ق‬ ‫ها جت ا قج ق ي ق ق اكقنات‬
Precision = TP/(TP+FP) ( ‫ق ل ا‬ ‫ق ت‬ ‫)ت م ق‬
Recall = TP/(TP+FN) ( ‫ا‬ ‫)ت م قذم قإيكاتي ق‬
‫ ق‬:‫ء ا قعاتيق قي تيق ل ا تق نق م اق ق‬
classes ‫ ق‬precision ‫ ق‬recall ‫ ق‬F1-score
‫ق‬0 ‫ ق‬0.73 ‫ ق‬0.96 ‫ ق‬0.83
‫ق‬1 ‫ ق‬0.86 ‫ ق‬0.40 ‫ ق‬0.55
‫ق‬
F1-score = 2*(Prc*Rec)/(Prc+Rec)
‫ ق‬.‫) ق‬harmonic average of the Pre&Rec (‫طق ت قق‬ ‫ق ت‬F1‫تم ق‬
‫أسوأ دقة‬
‫أحسن دقة‬ ‫ق‬
F1-score : 0.00 0.20 ….. 0.55 …. 0.83 …. 1.00

High Accuracy
56
‫‪Avg Accuracy = (0.83+0.55)/2= 0.72‬‬
‫نتق ق وعقآ اقذ قذقا يسق م ق لت نيفق‪:‬ق ق‬
‫ّ‬
‫فقع ق ت ا ق أل ق فقج اقج ق فقآ اقذ ق‪ :‬ق ق ت ق‬ ‫ذ ياءاقيك ق رجق‬
‫اذزيق‪ logistic regression‬قيك ق خرجق ت ا ي ق أل ق زب ق ‪the probability of‬‬
‫‪customer churn‬قيعنق(‪)1 or yes‬ق ع هق ي ق ت ا ي قتيق‪0‬ق ق‪1‬قق‪ .‬ق‬
‫‪churn‬‬ ‫‪Predicted‬‬ ‫‪ log loss‬ق‬ ‫‪state‬‬
‫‪Actual labels‬‬ ‫‪churn‬‬
‫)‪(y‬‬ ‫)‪ (probability‬ق‬
‫‪1‬ق‬ ‫‪ 0.91‬ق‬ ‫‪ 0.11‬ق‬ ‫‪good‬‬
‫‪1‬ق‬ ‫‪model‬‬ ‫‪ 0.13‬ق‬ ‫‪ 2.04‬ق‬ ‫‪bad‬‬
‫‪0‬ق‬ ‫‪ 0.7‬ق‬ ‫‪ 0.04‬ق‬ ‫‪v.good‬‬
‫‪0‬ق‬ ‫ق‬ ‫‪ 0.8‬ق‬ ‫‪ 0.26‬ق‬ ‫‪good‬‬
‫‪0‬ق‬ ‫‪ 0.6‬ق‬ ‫‪ 0.56‬ق‬ ‫‪medium‬‬

‫ّ‬
‫فقج مذاقيك ق خرجق‬ ‫إي ق قةرلق ق‪Logarithmic loss‬قذ قتم ق‪Log loss‬قتقيسقذ ق‬
‫َّ‬
‫ت قع ق ي ق ت ا ي قتيق‪0‬ق ق‪1‬ق‪.‬ق ق‬
‫ق ق كم ق اات ق ق‪ :‬ق‬
‫قي ق اءي ق قيقي قهق‪1‬ق ق ت ا ي قت علاق اءدق‪0.13‬ق هق يئ ق لنت قج لاق ي قققق ‪log‬‬
‫‪loss‬قجا ي ق يثقت ا ق ا تا ق‪:‬ق ق‬
‫)̂𝑦 ‪𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −‬‬
‫قيقي ق ل اق اءدق‬ ‫تعةقع هق قي قج ق اا ق نقت عمق لاق قي ق ت ع قج ق قي ق‬
‫ك ةلق ا ق ت قس ق ق‪ .‬ق‬
‫ق‬
‫ق‬

‫‪57‬‬
‫فق ق‬ ‫اا ق ك ق‬ ‫طق‬ ‫قء ا ق ت‬ ‫اق اق‬ ‫ج قمق االق ي ق‪log loss‬ق ك ق‬
‫ذك ج ق ت ا ق ق‪:‬ق ق‬
‫‪1‬‬
‫))̂𝑦 ‪𝐿𝑜𝑔𝐿𝑜𝑠𝑠 = − ∑(𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −‬‬
‫𝑛‬
‫ع اقيك قتم جق م قجكسق رلق ق ااهق ق‪:‬ق ق‬
‫أحسن دقة‬
‫أسوأ دقة‬

‫‪Logloss : 0.00….. 0.35……0.60………..1.00‬‬


‫‪High Accuracy‬‬

‫ق‬ ‫قي‬ ‫فقذ أل ق‬ ‫قذ مق زبائ ق كم ق قذيق‬ ‫م اقذ ا قج قحبائ ق ك ق ء ا قت‬


‫تياءياق ا تا ق‪:‬ق ق‬

‫ق‬
‫ءكمقذ ق ك قهق زب ق يقءرلمقت ق مق با تا ق ذ اقج مذاق‪k=3‬ق ق‪k=6‬قكيفق تهةق‬
‫ق قتيئ ق‪ jupyter‬ق‬ ‫ق ن مذق قت قي قها تخم وق ا‬ ‫فق ك ق نقء ثقج مق‬
‫ق‬
‫ق‬
‫ق‬

‫‪58‬‬
‫حذ ق‪:‬ق ق‬ ‫ء مذقها تة ق كت اتق‬

‫ق‬

‫ق ق‪ :‬ق‬ ‫قتياءاتق ك ق ت ا تقذ ق‬ ‫ء‬

‫ق‬
‫ق‬
‫ءظلاق ياءاتقها تع ا ق‪pandas‬ق ق‪ :‬ق‬

‫ق‬
‫ق‬
‫ق‬
‫‪59‬‬
‫فق ق خرجق‪:‬ق ق‬ ‫ء م قجم ق زبائ ق ك ق‬

‫ق‬
‫ق‬
‫لاقبش قتيا ق ق‪ :‬ق‬ ‫ل ك اق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪60‬‬
‫م ق تهة تق اتقل ق‪X‬ق‪:‬ق ق‬
‫ق‬

‫ق‬

‫ق‬
‫م قذاقهق خاألاتق‪:‬ق ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪61‬‬
‫ء تاجقع اق تق يسق ياءاتق‪:‬ق ق‬

‫ت ا ق‪:‬ق ق‬ ‫ءق وقتتقايكق ياءاتق لتم ل ق ق‬

‫ق‬
‫قهخ حذي ق‪KNN‬ق‪:‬ق ق‬ ‫ق كت ق خا‬ ‫نات‬

‫ق‬
‫ق‬
‫ق‬

‫‪62‬‬
‫ءم لق ياءاتقها تيا ق‪k=4‬ق‪:‬ق ق‬

‫ق خرجق‪:‬ق ق‬ ‫ءت‬

‫ت ا ق ق تم ل ق‪:‬ق ق‬ ‫يجق ك قذ قتياءاتق‬ ‫ق‬ ‫ءختةق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪63‬‬
‫آل قءعيمق خ حذي ق أل ق يكقذختل ق دق‪k‬قذ ق‪10‬ق‪:‬ق ق‬

‫ق‬
‫قج مقذيق ي ق دق‪k‬ق‪:‬ق ق‬ ‫يجقذقا ء قهقيكق‪k‬ق ختل ق ة قذج ق‬ ‫ق‬ ‫ذ قثكقءا كق‬

‫ق‬

‫‪64‬‬
‫يجق اءدقج مذاق‪k=9‬ق‪:‬ق ق‬ ‫قل‬ ‫كمقذ قذج ق‬

‫‪ -3-11‬شجرة القرار ‪: Decision Trees‬‬


‫ك قج قش قشكالقق‪ .‬ق‬ ‫ق قا تق‬ ‫ذهز عاق ت قأل‬
‫ق‬
‫‪Decision‬‬

‫‪Decision‬‬
‫‪Decision‬‬ ‫‪Decision‬‬
‫ق‬
‫‪Decision‬‬
‫‪Decision‬‬ ‫‪Decision‬‬ ‫ق‬
‫‪Decision‬‬ ‫‪Decision‬‬

‫ق‬
‫ق‬
‫ق؟ ق‬ ‫كيفقت يمق ق ت نيفق؟ق كيفقذءىمقشكالق ا‬
‫ج ق اضقذء قها ثقةنقهك قتياءاتق اضق تا ي ق ق‪ :‬ق‬
‫‪Patient ID‬‬ ‫‪ Age‬ق‬ ‫‪ Gender‬ق‬ ‫‪ cholesterol‬ق ‪ Bp‬ق‬ ‫‪ Drug‬ق‬
‫‪ p1‬ق‬ ‫‪ young‬ق‬ ‫‪F‬ق‬ ‫‪ High‬ق‬ ‫‪ Normal‬ق‬ ‫‪A‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ p15‬ق‬ ‫‪ middle‬ق‬ ‫‪M‬ق‬ ‫‪ Low‬ق‬ ‫‪ High‬ق‬ ‫‪B‬ق‬

‫ق لم ق‪A‬ق آ ا ق لم ق‪B‬ق ت ق‬ ‫ق ت يق اق قع ا قذاضق ق اتك‬ ‫قع هق م‬


‫ت اق قإيكا قء يجق ت ق ع جق مق اضق كم ق لعا قذ قء سق اضقه يثقيك ق‬ ‫ذل‬
‫اقج مقذك ج ق خ ائص ق‪ features‬ق ااهق ق‪ Age,….‬ق لك ق لمفقع ق‪ Drug‬ق اق‬ ‫م‬
‫قع اق ءمقت نيفقث ا ق عت مقةرلق ق‪ Decision Tree‬ق ن قتاتخموقتياءاتق تم ل ق‬ ‫ءا‬
‫ق تائ ق‪.‬ق ق‬ ‫تت‬
‫ق‪ distinct nodes‬قج قهعضلاق‬ ‫تكقت ا قشكالق قا قتتقايكقتياءاتق تم ل قإ قجقمقذت ا‬
‫عضق‪.‬ق ق‬
‫‪65‬‬
‫ق‬
Age
‫ق‬
‫ق‬
young Middle- Senio ‫ق‬
Age r ‫ق‬
‫عقدة داخلية‬ Distinct node
Internal Gend Cholest ‫عقدة ق‬
‫متباينة‬
node B
er erol ‫ق‬
F M High Norm ‫ق‬
Branch ‫فرع‬
al
‫ق‬
A A
B B ‫ق‬
‫ق‬
Leaf node ‫ورقة‬
‫العقدة‬

‫ا تقها جت ا ق‬ ‫ق ت ّرعقج لاق‬Age‫قذ ق‬attribute‫اقءا قذ قشكالق قا قتختةق خا ي ق‬


‫ ق‬.‫ج قءتيك ق ت ا ق ل هق خا ي قذ ق قي لاق ق‬
‫فق‬ ‫قجقملقت م ق‬ ‫تاقق ق‬ ‫ت ا ق ق ق رعقيك قءتيك ق‬ ‫قجقملق لي قتخض ق‬
‫ق ق‬.‫رلضق(ذ قءوعقجقا ه)ق‬
‫آل قذاقهقةرلق قت ا قشكالق قا ق؟ ق‬
‫ق ق‬:‫ا قهعيق جت ا قق‬ ‫ملقتل ق‬ ‫ق‬attributes‫ق يكق خ ائصق‬ ‫تكقت اؤعاقهأ‬
1- Choose an attribute from your dataset
2- Calculate the significance of attribute in splitting of data
3- Split data based on the value of the best attribute.
4- Go step 1.

66
‫ءختا ق ملقذ ق خ ائصق ق ياءاتق م اق‪.‬ق ق‬ ‫‪-1‬‬
‫ق ن ق ةءاعاق قتقايكق ياءاتق ة قتأثةقع هق‬ ‫ء ا ق(ثق ق– ق قح ق– ق ق )ق‬ ‫‪-2‬‬
‫قع قع قذ أل قذوق قق‪.‬‬
‫تقايكق ياءاتقها جت ا قج ق ي قذ ض ق ا ي ق‪.‬ق‬ ‫‪-3‬‬
‫ءكا ق ع لي ق ق ق رعق‪branch‬ق قي ق خا ياتق‪features‬ق ت قي ق‪.‬ق‬ ‫‪-4‬‬
‫‪ -4-11‬بناء شجرة ‪: Building Decision Trees‬‬
‫تك قت ا ق شكال قتتكا ق تقايك ق‪ recursive partition‬ق ت نيف ق ياءات ق ق ق م اق‪14‬ق‬
‫ذرلض ق قذك جت ا ق ااهق ق قتختا ق خ حذي قذغل ق ة ت ق ت ع ق ‪predictive‬‬
‫اتق نقءعت مقجل لاق تقايكق‬ ‫‪features‬ق نقءقاكق ياءاتقت ا قجل لاقذيقتختا قذيقذعكق‬
‫ياءاتق قت ني لاقق‪ .‬ق‬
‫ق‪ cholesterol attribute‬ق قت ا قجل لاق يتكقتقايكق ياءاتق قا ي ق اق‬ ‫مذقذ قه‬
‫ذ اق ق كم ق قذ ا اق اات ق‪normal,high‬ق‪:‬ق ق‬
‫ق‬
‫‪Cholesterol‬‬ ‫عندما نختار الميزة‬
‫عندما نختار الميزة ‪ High‬لن نكون‬
‫‪ Normal‬لن نكون‬
‫واثقين تماما أن يكون العالج ‪ B‬ألنه لدينا‬ ‫واثقين تماما أن يكون‬
‫خمس مرضى عالجهم ‪ B‬وثالثة عالجهم‬ ‫العالج ‪ A‬أو ‪ B‬ألنه لدينا‬
‫أربع مرضى عالجهم ‪B‬‬
‫‪A‬‬ ‫‪High‬‬ ‫‪Normal‬‬ ‫واثنين عالجهم ‪A‬‬

‫با تا ق تيا قع هق ةلقس ق لتقايكق‪Bad attribute selection for split‬ق ل نتق ق آل ق‬


‫خا ي قذ ا قذ ق‪Gender‬ق‪:‬ق ق‬
‫ق‬

‫‪Gender‬‬ ‫عندما نختار الميزة ‪M‬‬


‫ليس لدينا أدلة كافية لنقرر‬
‫عندما نختار الميزة ‪ F‬سنكون واثقين أن‬
‫ما هو العالج فلدينا مريضين‬
‫يكون العالج ‪ B‬ألنه لدينا ثمان مرضى‬ ‫عالجهم ‪ A‬وأربعة عالجهم‬
‫عالجهم ‪ B‬ومريض عالجه ‪A‬‬ ‫‪F‬‬ ‫‪M‬‬ ‫‪B‬‬ ‫ق‬

‫‪67‬‬
‫ج ق ق ا قع هق خا ي ق‪ Gender‬قذ ض قذ ق اهقتلاق عت معاق قتقايك ق ياءاتق ءلاق‬
‫ذ ق كيكاق ذكةقك ا لقق‪ .‬ق‬
‫‪Gender attribute is more significant than Cholesterol or more predictive‬‬
‫)‪(Less Impurity = Lower Entropy‬‬
‫ق‪ productiveness‬قتعت م قج قإءقاص ق تش ه ق‪ impurity‬ق ق عقمق‬ ‫ا قم ل قج ق ت‬
‫اتق‪ features‬ق ن قتخ ضقذ قع ق تشولمق ق عقمق ق‬ ‫قء ثقج ق‬ ‫قء‬ ‫‪ nodes‬ق‬
‫قق‪leaves‬ق‪.‬ق ق‬
‫ا ق با تا ق‬ ‫ق ألمءاق اهقاقذ ق ةلق‪gender‬قهقذاشحقأليمق‪good candidate‬ق ل هق‬
‫ن تق ق لخ لق تا ي ق‪:‬ق ق‬
‫آل ق أل ق وعق‪M‬ق ق ةلق‪gender‬قءختا ق ةلق‪Cholesterol‬ق تقايكق ياءاتقذالقذ ا ق‬
‫قشكالق اجي ق‪subtree‬قتا ي ق‪:‬ق ق‬
‫ق‬
‫‪Gender‬‬ ‫ق‬

‫‪F‬‬ ‫‪M‬‬

‫‪impurity‬‬
‫‪Cholesterol‬‬
‫لدينا أربع مرضى‬
‫عالجهم العقار ‪A‬‬
‫وبالتالي هي عقدة‬
‫صافية ‪pure node‬‬
‫‪High‬‬ ‫‪Normal‬‬
‫لدينا مريضين عالجهم‬
‫العقار ‪ B‬فالنتائج‬
‫صافية و نقية‬

‫‪68‬‬
‫قإ يمق ق‬ ‫ءعتةقذ ق عقملق ق شكالقءقي قج مذاقتك قذ م لق قطقت وعق لمفق ا ق‬
‫قيق قناتخموقتكا ق تقايكق قتياءاتق ت ا قإ قذألز ق(ذقاة )ق ي قتلمفقتقلي ق‬
‫لق ق ن ق تكق االق‪ impurity‬قج قةرل ق االق‪ Entropy‬ق ل ياءاتق ق‬ ‫تش هق ق ق‬
‫قجقملق اقهق دق‪Entropy‬ق؟ ق‬
‫هقذقم ق عش ئي ق‪randomness‬ق ق ياءاتقذ قذقم قجموقتاتي قذ قت ظيكق‪disorder‬قع هق‬
‫ياءات ق‪ ،‬ق با تا قء قء ث قج قذ ق ي ق لا ق ق عق قم ق ه قإي قتقيس ق تكانسق‬
‫‪homogeneity‬ق ق عقمق‪.‬ق ق‬
‫ذ ق م اق آل ق‪:‬ق ق‬
‫‪1 Drug A‬‬ ‫‪ 3 Drug B‬ق‬
‫‪ & Drug A‬ق‬ ‫‪ 5 Drug B‬ق‬
‫)‪ Entropy is low (good value‬ق‬ ‫)‪ Entropy is high (bad value‬ق‬
‫عش ئي ق ليل ق ق قيك ق‬ ‫عش ئي قك ةلق ق قيك ق‬
‫‪ 0 Drug A‬ق‬ ‫‪4 Drug A‬‬
‫‪ 8 Drug B‬ق‬ ‫‪ 4 Drug B‬ق‬
‫‪ Entropy =0‬ق‬ ‫‪ Entropy = 1‬ق‬
‫ع قذ ل ل‬ ‫غةقذ ل ل‬
‫ق‬
‫إي قي ك اق ااتلاق اقي ق‪:‬ق ق‬
‫))𝐵(𝑝(‪𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = −𝑝(𝐴) log(𝑝(𝐴)) − 𝑝(𝐵)log‬‬
‫ق‬ ‫فق‪،‬ق ق وقه االق‪Entropy‬ق لكم قج مءاق‬ ‫يثق‪p‬قنا ق(‪)ratio,proportion‬ق‬
‫تقاي لاق‪:‬ق ق‬
‫‪Patient ID‬‬ ‫‪ Age‬ق‬ ‫‪ Gender‬ق‬ ‫‪ cholesterol‬ق ‪ Bp‬ق‬ ‫‪ Drug‬ق‬
‫‪ p1‬ق‬ ‫‪ young‬ق‬ ‫‪F‬ق‬ ‫‪ High‬ق‬ ‫‪ Normal‬ق‬ ‫‪A‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ p15‬ق‬ ‫‪ middle‬ق‬ ‫‪M‬ق‬ ‫‪ Low‬ق‬ ‫‪ High‬ق‬ ‫‪B‬ق‬
‫ق‬

‫‪69‬‬
‫ا قذ م ثق‪occurrences‬ق دق‪A‬ق قتاع ق دق‪B‬ق]‪S:[9B,5A‬ق ء ا ق آل ق‪:‬ق ق‬ ‫م اق‬
‫‪E = -(9/14)log(9/14) – (5/14)log(5/14) = 0.940‬‬
‫قتقايكق ياءاتق‪،‬قء مذقتتقايكق ياءاتقها تخم وق خا ي ق‪Cholesterol‬ق‪:‬ق ق‬ ‫ع ق‬
‫‪Normal : 6B,2AS[6B,2A]E=0.811‬‬
‫‪High : 3B,3AS[3A,3B]E=1.00‬‬
‫ءكايقء سق ع لي ق ك ق خا ياتق م ا…‪Age,Bp,Gender,‬ق ق‬
‫ذ ق‪Gender‬قيك ق م ا‪:‬ق ق‬
‫‪F : S[3B,4A] E=0.985‬‬
‫‪M : S[6B,1A] E=0.592‬‬
‫إي قذ ل اقذ ض ق‪Gender‬قذوق‪Cholesterol‬ق؟ ق‬
‫ق‬
‫يملق‪ Information Gain‬ق ق شكالقجا ي قهعمق‬ ‫ختا ق خا ي ق ن قتكع ق ياءاتق‬
‫تقايكق ق‪ :‬ق‬
‫‪The tree with the higher Information Gain after splitting.‬‬
‫ق‬ ‫ق اققتيق ي نق‪E‬ق‬ ‫و قهعمق تقايكق قتك ق ا‬ ‫هق عل ذاتق نقتزلمقنا ق‬
‫قهعمق تقايكق ك ق ا ي ق‪:‬ق ق‬
‫‪It is the information that can increase the level of certainty after splitting‬‬
‫‪.‬‬
‫‪Information Gain (IG) = (Entropy before split) – (Weighted entropy after‬‬
‫)‪split‬‬
‫ي ق‬ ‫ضق ق ياءاتقتز ق‪IG‬ق‬ ‫ا ت ا قتيق‪IG‬ق ق‪E‬قذتعاكسق ع مذاقتت ا صق‪E‬قذيق‬
‫حق‪.‬ق ق‬ ‫ق عكسق‬
‫ا قشكالق قا قيعت مقج قإيكا ق خا ي قي تق ربددحق ج ق‪:‬ق ق‬

‫‪70‬‬
‫– )‪G(S,gender) = 0.940(entropy before split‬‬
‫‪[((3+4)/14)*0.985 + ((6+1)/14)*0.592] = 0.151‬‬
‫ق‬
‫العقدة ‪ F‬مجموع المرضى ‪14‬‬ ‫العقدة ‪ M‬مجموع المرضى ‪14‬‬
‫ق‬
‫(‪ )3B,4A‬وقيمة ‪ E‬لهم ‪0.985‬‬ ‫(‪ )6B,1A‬وقيمة ‪ E‬لهم ‪0.592‬‬

‫ق‬
‫‪Weighted E after split‬‬

‫‪G(S, cholesterol) = 0.940 – [(8/14)*0.811 + (6/14)*1.0] = 0.048‬‬


‫ظ قذ ق خا ي ق‪ gender‬ق ب لاقذج قذ ق ا ي ق‪ cholesterol‬ق ا عت معاق لتقايكق‬ ‫ء‬
‫ق ءعيمقء سق ع لي ق قي ق خ ائصق‪attributes‬ق‪.‬ق ق‬
‫تق قيك قيم لاقة عاق إء اقءكرلددلاقع اق نقء ل لاق إء اق‬ ‫(يكم قها كاقذ قج قع هق خ‬
‫قذكت اتلاق^‪)^-‬ق ق‪ .‬ق‬ ‫ق‬ ‫ع قيك قتاذجقها ا‬
‫ق‬
‫ن قذ ا قج قذك ج ق اض ق ع ج ق ي ق ت ا م ق كيف قي ك ا قت ا قشكال ق قا ق‬
‫ق‪:‬ق ق‬ ‫ت ني لكقها تخم وق ا‬
‫حذ ق ق‪ :‬ق‬ ‫ء مذقها تة ق كت اتق‬

‫ي قتياءاتق اضق ق‪ :‬ق‬ ‫ت‬

‫ق‬

‫‪71‬‬
‫سقذاضق‪:‬ق ق‬ ‫إظلا قذ ق‬

‫ءق وقه كزقتياءاتق ا اتق‪X‬ق‪:‬ق ق‬

‫ي ق‪categorical‬قء تاجقت ولللاق ا ي ق قءرلمقإع ا لاق ق‪ :‬ق‬ ‫باه ق أل قتياءاتق‬

‫‪72‬‬
‫آل قي ك اقتاذةقتياءاتق لمفق‪y‬ق‪:‬ق ق‬

‫ء مذقج لي قتل ئ قشكالق قا قها تة ق كت ق ق‪ :‬ق‬

‫ت ا ق ق قذ ق‪X,y‬ق ق‪ :‬ق‬ ‫ءقاكق ياءاتق تم ل ق‬

‫‪73‬‬
‫ق ذاق أل ق‬ ‫نق‪X_trainset,y_trainset‬قت سق هعا ق ك‬ ‫ة عاق ن غقذ قتك قذ‬
‫نق‪X_testset,y_testset‬ق ق‪ .‬ق‬ ‫ذ‬
‫ء مذقتإءكاحقء يجق ت نيفقذ قءوعقشكالق قا قتإنشا قذ بككدقذ ق ك وق ق‪ :‬ق‬

‫ق شكالق‪4‬ق ع قي ك اقته ةهق ؤل ق ا قق قءتائ ق ت نيفق‪.‬ق ق‬ ‫ظقذء اق ةءاقج‬ ‫ء‬


‫ق‬
‫ق‬
‫يجقج قتياءاتق تم ل ق ق‪ :‬ق‬ ‫ءم لق‬

‫‪74‬‬
‫ق‪:‬ق ق‬ ‫آل قءكايق ت‬

‫ق‬
‫يجق ق‪ :‬ق‬ ‫ق‬ ‫ء ا ق آل ق‬

‫ا كقع هق شكالقي ك اقت ي ق تا ق‪:‬ق‬

‫‪75‬‬
‫ق‬

‫‪76‬‬
‫المنطق ‪: Logistic Regression‬‬
‫ي‬ ‫‪-12‬التوقع‬
‫ق اتخموق ق ت نيفق با تا ق م اقث ث قذ ئل ق ق‪ :‬ق‬ ‫قع ق وعقذ ق ت‬
‫قق؟‬ ‫‪ -‬ذاقع ق ت ق‬
‫‪ -‬ذ ق اتخموق؟‬
‫‪ -‬ذاقءوعق شاك ق نقء تاألمق لاق؟‬
‫تعتةقع هق رلق ق ق ت نيفقإ ائي ق قت نيفق اك تق‪records‬ق قذك ج ق ياءاتق‬
‫ها جت ا قج ق يكق ق ق‪fields‬ق‪.‬ق ق‬
‫‪Logistic regression is a classification algorithm for categorical variables.‬‬
‫ه اض ق م اقتياءات ق ك ق ت ا ت ق ءرلمقت ليللاق ة قع ق ي قق ق شةك قها خمذ قذو ق ق‬
‫ايق؟ ق‬
‫‪ ten‬ق ‪id‬‬ ‫‪ age‬ق‬ ‫‪ income‬ق ‪ add‬ق‬ ‫‪ churn‬ق ‪ equip‬ق ‪ employ‬ق ‪ ed‬ق‬
‫‪ 11.0‬ق ‪ 0‬ق‬ ‫‪ 33‬ق‬ ‫‪ 136.8‬ق ‪ 7‬ق‬ ‫‪4‬ق‬ ‫‪y‬ق‬ ‫‪ yes‬ق ‪ 0‬ق‬
‫‪1‬ق‬ ‫‪4‬ق‬ ‫‪ 55‬ق‬ ‫‪ 234.6‬ق ‪ 4‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ no‬ق‬
‫‪2‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ yes‬ق ‪ .‬ق‬
‫‪3‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ yes‬ق ‪ 3‬ق‬
‫‪4‬‬ ‫‪7‬ق‬ ‫‪ 35‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪8‬ق‬ ‫‪n‬ق‬ ‫‪4‬ق‬ ‫?ق‬

‫ن نق‬ ‫ع ق ةق‪ churn‬قيم قذي ق زبائ قهق ق ق شك قذ ق خمذ ق ذ لك ق غ ق شةكم ق‬


‫ء يألاق لتن قها تخم وق‪logistic reg‬ق ت ميمق ا ق زب ق اتق لي قق‪ .‬ق‬
‫ي ك اق تخم وق مقذ قجم قذ ق تهة تق اتقل ق ن ق م اق(…‪)age,income,‬ق لكم ق‬
‫ها كاقذ قع ق ت ق ش م ق ت ق خط ق م قع اقي ك اق تعاذ قذ ق تهة ت ق ي ق‬
‫‪categorical‬ق ق‪ .‬ق‬
‫قذيق ي ق‬ ‫ا ت ق خطق ت ق يكقذات القذ قث قذة ق–ق هطق وق–ق ي ق تل كق‬
‫ق يك قث ائي ق ي قذ ق(‪ )yes or no‬ق(‪)true or false‬ق‬ ‫ققت‬ ‫ق‬ ‫تي ا ق ت‬
‫(…‪)successful or un‬ق للاقت ق(‪)0 or 1‬ق‪.‬ق ق‬

‫‪77‬‬
‫ع اقتك ق تهة تق هةقذاتقل قذات الق‪continuous‬ق ب ا ق اءدق ي ق‪categorial‬ق‬
‫ن غ قذ قء لا ق قيك قذات ال قج قةرل قتاذةعا ق‪ indicator-coded‬قذ قءعتةعا ق ع ي ق‬
‫‪dummy‬قق‪ .‬ق‬
‫قجملق ا تقذ ق‪:‬ق ق‬ ‫ا قذ ق تعم ق‬ ‫ق ق ت نيفق‬ ‫اتخموقع ق وعقذ ق ت‬
‫ت ق ق ت ا ي قذ قي الق شخصقت وب ق ل ي ق‪heart-attack‬قذ قجمذلاقق‬ ‫‪-‬‬
‫=ق=ق=ق=ققذ تقذرلضقذ القه اضقجضا قذ قجمذمقق‪.‬‬ ‫‪-‬‬
‫=ق=ق=ق=قإ اه قذرلضقها اكايق‪.diabetes‬ق‬ ‫‪-‬‬
‫=ق=ق=ق=قذ ق شةيق زب قذ ت قذاق‪.‬ق‬ ‫‪-‬‬
‫=ق=ق=ق=ق ش قذ ت قذاقذ قءكا مق‪.‬ق‬ ‫‪-‬‬
‫ق ت ا ي ق م ثلقاق‪ .‬ق‬ ‫قت‬ ‫فق تائ ق قإء اقك‬ ‫ق يسق قطقي‬ ‫ظقذ قع ق وعقذ ق ت‬ ‫ء‬
‫قق م اقذ ب د ق ا تق‪:‬ق ق‬ ‫ق‬ ‫إي ق تخليصق ا تق تخم وق ت‬
‫‪ -1‬ج مذاقيك ق ت نيفقث ا ق(‪0‬قذ ق‪)1‬ق‪binary data‬‬
‫‪ -2‬ج مذقاقءرلمق االق ت ا ي ق وعق مثقذاقذ ق ت ا ي ق تن قهقي قذاق ‪probabilistic‬‬
‫ق كا ق]‪ [0,1‬ق ك ج ق‬ ‫يج ق ي ق ت ا ي ق‬ ‫‪ results‬قج معا قيعيم ق ا ق‬
‫قذ افقذقا قت ا قج ق‬ ‫ج اتقذ ق ياءاتقثكق تكقتشكي ق ا تق ت قي ق‬
‫يجق‪.‬ق‬ ‫ت ا ي ق نقذ ألمعاق‬
‫‪ -3‬إي ق اءد ق ياءات ق اهل ق لتقايك قبش قش م ق ط ق‪linear decision boundary‬ق‬
‫قع قذاتقيك ق‪ line‬قذ قذات ي ق‪ plane‬قذي ق ‪linearly‬‬ ‫يث قيك ق قا ق ا‬
‫‪separable‬ق ل ك قذ قتك قت جق‪hyper-plane‬ق‪.‬ق‬
‫ذ ق م اقذك ج قءقاطق لاق ا يتي ق ق تكقت يللاقهك ةق م ق اقك اقء للاق ق‬
‫قج قذة أل قذ ق ش ق ق‪ :‬ق‬ ‫ت ق خطقج معاقي ك اق‬
‫𝑒𝑙𝑏𝑎𝑡𝑜𝑙𝑝 𝑦𝑙𝑖𝑠𝑎𝑒 → 𝑒𝑛𝑎𝑙𝑝 ‪𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 > 0 ≡ ℎ𝑎𝑙𝑓 −‬‬
‫ق قإءكاحق‪complex decision boundary‬ق‬ ‫ذ قذءم قي ك اقها تخم و ق ت ق‬
‫ت اق ا ياق‪.‬ق ق‬ ‫ها تخم وقك ةق م ق م لاق ا جقذكا ق‬
‫‪ -4‬ج مذا قءرلم ق لك قتأثة ق‪ impact‬ق خ ائص قه يث قءرلم ق تيا ق تهة ق(‪)feature‬ق‬
‫يج ق ي قءب يم قها ت ق‬ ‫ض قها جت ا ق قج ق ع ي ق ب ائي ق ا ذة ت ق‬
‫ققق‬

‫‪78‬‬
‫‪The statistical significance‬‬ ‫‪of the logistic regression model‬‬
‫‪parameters .‬‬
‫ق ل تهةق‪X‬قي ق ح ق 𝜃ق الق ل اق تأثةق‬ ‫بعمقإيكا ق ا ذة تق ض قج معاقيك‬
‫لق ق م ةلق دق 𝜃ق مق تأثةق كةقج ق تن ق‪.‬ق ق‬ ‫قج ق تن قتي اق تهةقي ق قي ق‬
‫اتقل قج ق تهة تق هةقذاتقل قج مذاق‬ ‫ذيق يعط ق ء اجاقج قتأثةق تهة تق‬
‫ءق وقهض طقذتهة تقذاتقل قذ ا ق ق‪ .‬ق‬
‫ق‬
‫قجمءاق كم قتياءاتق شةكيقبشك ق ت ا ق ق اقتت ليللاقج معاقءكمق تا ق‪:‬ق ق‬
‫تهة تق اتقل ق‪ X‬قتنتىم ق ك ج ق جم ق قيقي ق‪n rows * m columns‬ققققق‬
‫ق تهة تق هةقذاتقل ق‪y‬قتنتىمق ل ك ج ق}‪{0,1‬قذيق ق‪ :‬ق‬
‫ق‬
‫‪𝑋 ∈ 𝑅 𝑛∗𝑚 ,‬‬ ‫}‪𝑦 ∈ {0,1‬‬
‫ق‬
‫قبش قذ ا ق إ قءتيك ق ت قهق ت ا ي قذ قتك ق ي ق خرجق‪y=1‬قذيق ق‪ :‬ق‬
‫ق‬
‫)𝑋| ‪𝑦̂ = 𝑃(𝑦 = 1‬‬
‫ق‬
‫ذل اق اءدق يكق ة تق‪X‬ق ميمق‪.‬ق ق‬
‫بش قذقاه قذ ق زب ق نتىمق ل فق‪0‬قج مذاق ق‪ :‬ق‬
‫قق‬
‫)𝑋| ‪𝑃(𝑦 = 0|𝑋) = 1 − 𝑃(𝑦 = 1‬‬
‫ق‬
‫بالمنطق ‪: logistic vs linear‬‬
‫ي‬ ‫الخط‬
‫ي‬ ‫‪-13‬مقارنة التوقع‬
‫ق‬ ‫ا ق ق نتعافقج ق‬ ‫ة قذءمق قي ك اق تخم وق ت ق خط ق قذاائ ق ت نيفق‬
‫قق‪.‬ق ق‬ ‫ايك ولمق‪sigmoid‬ق نقهق كز ق عكق ق ت ق‬
‫ق‬
‫ق‬

‫‪79‬‬
‫ق اأ قها تخم وق‬ ‫قذ ا اق اات ق عل ذاتقذشةك ق ك ق ت ا تق ة قع قي ك ق‬
‫ت ق خطق ق‪ :‬ق‬
‫‪ income‬ق ‪ add‬ق ‪ age‬ق ‪ ten‬ق ‪id‬‬ ‫‪ churn‬ق ‪ equip‬ق ‪ employ‬ق ‪ ed‬ق‬
‫‪ 11.0‬ق ‪ 0‬ق‬ ‫‪ 33‬ق‬ ‫‪7‬ق‬ ‫ق‬ ‫‪4‬ق‬ ‫‪y‬ق‬ ‫‪0‬ق‬ ‫‪1‬ق‬
‫‪1‬ق‬ ‫‪4‬ق‬ ‫‪ 55‬ق‬ ‫‪4‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪0‬ق‬
‫‪2‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪3‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪3‬ق‬ ‫‪.‬ق‬
‫‪4‬‬ ‫‪7‬ق‬ ‫‪ 35‬ق‬ ‫‪.‬ق‬ ‫ق‬ ‫‪8‬ق‬ ‫‪n‬ق‬ ‫‪4‬ق‬ ‫‪0‬ق‬
‫ق‬ ‫م ق قءق وقتت ق ق ق ةق‪churn‬قك ءلاق يكقذتق ع ق‪discrete‬ق إء اق ق وقتت‬
‫م ق‪income‬قك ءلاق يكقذات الق‪continuous‬ق‪.‬ق ق‬
‫قذتهةقغةقذاتق ق ع ق‪income‬ق‬ ‫نت‬ ‫ءختا قذتهةقذاتق ق‪independent‬ق يك ق‪age‬ق‬
‫لة كقع هقق ياءاتق ق‪ :‬ق‬
‫‪income‬‬ ‫ق‬
‫ق‬
‫ق‬

‫‪age‬‬ ‫ق‬
‫ق‪ a+bx‬ق نق‬ ‫ا قج قةرل ق عا‬ ‫ق‬ ‫ق ا ق ق‬ ‫ق خطق قت‬ ‫ي ك اقها تخم وق ت‬
‫تعا اقجل لاق اهقاق‪.‬ق ق‬
‫م قذاي ق قذ ءاقذ قناتخموقء سق ت ق خطق اات ق ت ق ا ق‪churn‬ق؟ق قكقتا كق‬
‫ياءاتق ة قكيفقتك قت أل ق اتقيكق اات ق يقيعةقج ق ت ق خطق!ق ق‬

‫‪churn‬‬
‫ق‬
‫)‪Yes (1‬‬

‫خارج المجال الذي لدينا‬

‫)‪No (0‬‬ ‫‪age‬‬

‫‪80‬‬
‫اقءعلكق يكق ق ق‪churn‬قهقإذاق‪0‬قذ ق‪1‬قذيق‪yes‬قذ ق‪no‬ق با تا ق قذ ءاقت ق ا ق ق ق‬
‫اهقاقغةق ا قج قت ميمق‬
‫ق‬ ‫ا قذ ق إ ق اتقيكق يقذ ألمءاقذعا تمق ق ت ق خطق‬
‫ي تلاق‪0‬قذ ق‪1‬ق با تا ق ق ع اق قذاأ ق ت نيفق ا قق‪ .‬ق‬
‫ق با تا قء تاجقإجا لق‬ ‫إي قذعا ق خطق اتقيكق ق ت ق خطق𝑥 ‪𝜃0 + 𝜃1‬ق كقتك قذ ا‬
‫االق قيكقثيتاق ت ا ق ا ق ت نيفق م اق‪.‬ق ق‬
‫قثيتاق] ‪𝜃 𝑇 = [𝜃0 , 𝜃1‬ق ق‬ ‫ه اقذءمق م اقهعمق مقيك ق م اق𝑥 ‪𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1‬ق ذ‬
‫ق ا قألميملق‪x1=13‬ق يثق‬ ‫ا ت اقذعا ق خطق‪:‬ق 𝑥‪𝜃 𝑇 𝑥 = −1 + 0.1‬ق با تخم ذلاق ت‬
‫‪x‬قيعةقج ق‪age‬قي حق م اق‪:‬ق ق‬
‫‪P1 = [13]  𝜃 𝑇 𝑥 = −1 + 0.1𝑥1 = 0.3‬‬
‫ق‪13‬قذ قذء اقءعلكقذءمق ن غقذ قتك ق‬ ‫ق خطق لا ياق لم‬ ‫ع هق ي ق ت ق نقذ ألمعاق ت‬
‫ي ق خرجقإذاق‪0‬قذ ق‪1‬ق‪.‬ق ق‬
‫ج ق اضق م اقجت ق‪threshold‬قتاا يق‪0.5‬قج معاقي ك اقذ قءكت ق‪:‬ق ق‬
‫‪0 𝑖𝑓 𝜃 𝑇 𝑥 < 0.5‬‬
‫{ = ̂𝑦‬
‫‪1 𝑖𝑓 𝜃 𝑇 𝑥 ≥ 0.5‬‬
‫فق(‪)0‬ق م ق‬ ‫ت ا قج ق ا ي قع هق عت ق إ ق ي ق ت ق م اق‪0.3‬قي ك اق جت ا عاقذ ق‬
‫ذاقهق ت ا ي ق ع قذ قيك قذ تىمق ل فق(‪)0‬قق‪ .‬ق‬
‫ق لا ياق قتياءياق‪ .‬ق‬ ‫ا ق اقتي اقي‬ ‫ق خطق قيققها هاضق لت نيفق‬ ‫قءكمقذ ق ت‬ ‫ذ اق‬
‫ق خطقيعطق يكق‬ ‫قتيق قيكقباه قذ ق ت‬ ‫م اق تخمذ اقذ ل وق عت ق نات ق‬
‫قتي لاقج قذ اوق عت قذ ق(‪)0.5‬ق‪:‬ق ق‬ ‫ذات الق‬
‫ق‬
‫‪1‬‬
‫ق‬
‫‪0‬‬
‫ق‬
‫‪0.5‬‬
‫ق‬

‫‪81‬‬
‫قتيق تائ قذل اق اءدقذ أل ق‬ ‫مي ق‪step‬ق ل‬ ‫با تا ق جت مءاقج قتات قيم ق خ قلق‬
‫فق(‪)1‬ق عكسقها عكسق ع ق‬ ‫ذ ق ا ق ا يق مق ي ق‪ 1‬قذ ق‪ 1000‬قذيقذ أل ق ت تىم ق ل‬
‫يسقج قذ قذ قق ق! ق‬
‫قذ قناتع ق قغةق ق‪step‬ق هق ق اك قولمق‪sigmoid‬قهم قذ قناتخموق‬ ‫ا ق‬
‫يكق‪ y‬قذ ا لقناتخموق يكق ت ا ي ق جلاقذيقهم ق عا ق⋯ ‪𝜃 𝑇 𝑥 = 𝜃0 + 𝜃1 𝑥 +‬ق‬
‫ناتخموق عا ق‪:‬ق) ⋯ ‪𝑦̂ = 𝜎(𝜃 𝑇 𝑥) = 𝜎(𝜃0 + 𝜃1 𝑥 +‬ق لاق ش ق يا ق تا ق ق‪ :‬ق‬
‫ق̂𝑦 ق‬
‫‪1‬‬

‫قققق𝑥 𝑇 𝜃‬

‫ق نقءعةقج لاق ل هق م قهق‪:‬ق ق‬ ‫عا‬


‫‪1‬‬
‫= )𝑥 𝑇 𝜃(𝜎‬ ‫𝑥𝑇‬
‫𝜃‪1 + 𝑒 −‬‬
‫𝑥𝑇‬
‫𝜃‪𝑒 −‬قذيق‪:‬ق ق‬ ‫دق قي ق‪= 0‬‬ ‫دق ي ق𝑥 𝑇 𝜃قك ةلقألم قذ‬ ‫ظقذءمق ل اقذ‬ ‫ء‬
‫‪𝜎(𝜃 𝑇 𝑥) = 1‬‬
‫ق‬
‫دق ق‪ :‬ق‬ ‫عكسق ل اقءق دق ي ق𝑥 𝑇 𝜃قذ‬
‫‪𝜎(𝜃 𝑇 𝑥) = 0‬‬
‫قي ك ق جت ا عاق‬ ‫ق كا ق]‪ [0,1‬ق تيك قع ه ق م‬ ‫إي ق ذا قءتيك ق ق ايك ولم ق‬
‫ت ا ي ق هقذ اهق ق اقءرلمق ق‪ :‬ق‬
‫)‪P(y=1 | x) P(y=0 |x) = 1- P(y=1 | x‬‬
‫مي ؟ ق‬ ‫ق ايك ولمقهم ق م ق‬ ‫إي قذاقع ق رجقء يأل اق يقتن اهق لت نيفقها تخم وق‬

‫‪82‬‬
‫ق ت ا ي قهقا قحب قذشةكقهخمذ ق ق ك ق ت ا تقذيق‪churn=1‬ق إ ق ت ا ي قي ق‬
‫ها نا ق ا تيمق‪income,age‬قهق‪:‬ق‪p(churn=1 | income,age) = 0.8‬ق با تا ق ت ا ي ق‬
‫جموقهقائمق‪p(churn=0 | income,age) = 1-0.8 = 0.2‬ق ق‬
‫ل لق‬ ‫قت سق‬ ‫يجق تك قها ذة تمقذض ة قه يثقيع‬ ‫تأ ق آل قذل ت اق قتم ل ق‬
‫لعطق تيك ق اغوب ق لع ارصق كميملق(ذيق زبائ ق كميمل)ق‪.‬ق ق‬

‫تق تا ي ق‪:‬ق ق‬ ‫ق خ‬ ‫قج لي ق تم ل ق‬ ‫لتكقي قتإيكا قذ ض ق يكق دقثيتاق‬


‫]‪1- Initialize 𝜃 : eg. 𝜃 = [−1,2‬‬
‫‪2- Calculate 𝑦̂ = 𝜎(𝜃 𝑇 𝑥) for a customer : eg.‬‬
‫‪𝑦̂ = 𝜎(𝜃 𝑇 𝑥) = 𝜎(([−1,2]𝑇 ∗ [𝑎𝑔𝑒 = 2, 𝑖𝑛𝑐𝑜𝑚𝑒 = 5]) = 0.7‬‬
‫ع هقهق ت ا ي قذ قيك ق زب ق ق فق‪1‬ق‪.‬ق ق‬
‫‪3- Compare 𝑦̂, 𝑦  Error = 1-0.7 = 0.3‬‬
‫)𝜃(‪4- Calculate Error for all customers  Cost=J‬‬
‫ع قتات ق كل ق‪Cost Fun.‬ق ل اق اءدق ي تمق هةلق ا ق ت قذ ض قق‪ .‬ق‬
‫‪5- Change the 𝜃 to reduce the Cost Fun.‬‬
‫‪6- Go back to step 2.‬‬
‫ع اقيأ ق ق يق‪:‬ق ق‬
‫‪ -‬كيفقءهةق يكق 𝜃ق نقءقل قذ ق ي قتات ق ت ل ق؟‬
‫ع ا قةاققجميملقذ لاق‪Gradient Descent GD‬‬
‫‪ -‬ذنقءت فقج قتكا ق خ تق ااهق ق؟‬
‫يجق ذ قتك ق تيك قذق ع قق‪ .‬ق‬ ‫ءت فقج قةرل ق االق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪83‬‬
‫ق ت ا ي قذ قيها ق زب ق ك ق ت ا تق؟ققها تخم وق‬ ‫ءنتق ق آل ق ت ي قذ ا اق اات قت‬
‫ق ق‪ :‬ق‬ ‫ققها ا‬ ‫ت ق‬
‫حذ ق ق‪ :‬ق‬ ‫ق كت اتق‬ ‫قنات‬

‫ق ءظلاعاقها تخم وق‪panda‬ق ق‪ :‬ق‬ ‫ق ياءاتقذ ق‬ ‫ء‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق ق لمف ق‪ churn‬ق ن قيك ق‬ ‫ي‬ ‫او ق‬ ‫ناتخمو قألز قذ ق ياءات ق ءكع ق‬
‫ت نيفقث ا ق‪0‬قذ ق‪1‬ق ق‪ :‬ق‬

‫ق‬
‫ق‬

‫‪84‬‬
‫ء م ق ا اتق‪X‬ق خرجق‪y‬ق ق‪ :‬ق‬

‫ق‬
‫قذ اوق قيقي ق‪:‬ق ق‬ ‫ثكقءق وقتتق يالقاق‪normalize‬قك قذكا ق خرجقتيق‪0‬قذ ق‪1‬ق م‬
‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫‪85‬‬
‫ت ا ق‪:‬ق ق‬ ‫تقايكق ياءاتق لتم ل ق ق‬

‫يجقها تخم وقتياءاتق تم ل ‪:‬ق ق‬ ‫ءم لق‬

‫ت ا ق‪:‬ق ق‬ ‫قها تخم وقتياءاتق‬ ‫ءكايق ت‬

‫فق‬ ‫ق ت ا ي قذ قيك قذ ق‬ ‫ق ت ا ي ق ت نيفق يثق ع قق‬ ‫ء ألمقذ‬


‫ق ا ق ت ا ي قذ قيك قذ ق فق‪0‬ق‪:‬ق ق‬ ‫‪1‬ق ق ع‬

‫‪86‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪87‬‬
‫يجقها تخم وق‪jaccard index‬ق‪:‬ق ق‬ ‫ق‬ ‫ء ا ق‬

‫ق االق‪cm‬ق ق‪ :‬ق‬ ‫ك‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪88‬‬
‫ق ي قها تخم وق‪logloss‬ق‪:‬ق ق‬ ‫ي ك اقذ قءكالقت‬

‫اقي ك اقة اج قتقرلاقج ق‪F1-score‬ق‪:‬ق ق‬

‫يثق‪:‬ق ق‬

‫ق‬
‫‪ -14‬التصنيف ‪: Support Vector Machine SVM‬‬
‫اق ب اه قه اضق شةا ق‪ :‬ق‬ ‫قي يطقتلكق‬ ‫ياق هشق‬ ‫فقذ ق‬ ‫يك ق م اقتياءاتقج ق‬
‫‪ unitshape‬ق ‪ unitsize‬ق ‪ clump‬ق ‪Id‬‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ class‬ق‬
‫‪ 100025‬ق‬ ‫‪5‬ق‬ ‫‪1‬ق‬ ‫‪1‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪benign‬‬
‫…ق‬ ‫‪5‬ق‬ ‫‪4‬ق‬ ‫‪3‬ق‬ ‫ق‬ ‫‪ malignant‬ق … ق‬
‫…ق‬ ‫‪ ….‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪ ….‬ق‬ ‫…ق‬ ‫‪ ….‬ق‬
‫‪ 1000015‬ق‬ ‫‪3‬ق‬ ‫‪4‬ق‬ ‫‪2‬ق‬ ‫…ق‬ ‫…ق‬ ‫?‬

‫يمق‪benign‬قذوق وق يثق‪)malignant‬ق م اقتياءاتق‬ ‫ءرلمقت ق ا قذرلضقألميمق(ع ق وق‬


‫ياهق ق‪ .‬ق‬

‫‪89‬‬
‫حذي قت نيفقإ ي قتعت مقج قإيكا ق‬ ‫ي ك اق تخم وق‪ SVM‬ق ل ق هاضق يثقتعتةق‬
‫افق‪ supervised algorithms by finding a separator‬ق ي قهم ي ق‬ ‫ا قتي ق‬
‫ق ق‪ :‬ق‬ ‫ذ ق‬
‫‪1- Mapping data to a high-dimensional feature space‬‬
‫ي قذ قء ي ق ق ضا قذهعا قذتعم ق( يسق قطقث ا ق اق ذ اق اهقا)ق‪.‬ق ق‬ ‫ق‬ ‫تخ يطق ياءاتق‬
‫‪2- Finding a separator‬‬
‫قت ول قء طق ياءاتقذ قتق يالاق‬ ‫تخ يق ا ق ا قتيق ياءاتق ي قذ ق‬
‫قذات يقذ قذتعرجق‪hyperplane‬ق‪.‬ق ق‬ ‫ت ك قذ ق كقذ ض ق ا قتي لاق‬
‫تي قع اق‪unitaize,clump‬ق‬ ‫ذ قإي ق اقتت حلد د قتياءاتق كم ق اات قها جت ا قج ق‬
‫ءكمقذءمق قي ك ق للاقج قهعضلاق ياق إء اقبش قذتعرجقق‪ .‬ق‬
‫‪unitsize‬‬ ‫ققق ‪Malignant‬‬
‫‪Benign‬‬

‫‪clump‬‬

‫قذهعا ق‪:‬ق ق‬ ‫قتيقق ياءاتقهعمقتاذةعاق ق ضا قث‬ ‫يك ق‬

‫ق‬
‫ق‬
‫ق هعا ق‪.‬ق ق‬ ‫آل قءنتق ق رلق قتاذةق ياءاتق ق ضا قث‬
‫‪90‬‬
‫يق‪:‬ق ق‬ ‫ع اقيخ اقت ا اق‬
‫ق ياءاتق نق م اقه رلق قذاق نق تكق للاقه ات يق؟‬ ‫‪ -‬كيفقء‬
‫قتيق ياءاتقهعمقج لي ق ت ول ق؟‬ ‫‪ -‬كيفقءكمق ات يق ض ق ل‬

‫نبدأ بعملية تحويل البيانات ‪: transforming data‬‬


‫ملق ل ياءاتق ق‪ :‬ق‬ ‫ق‬ ‫أل ق تهايطقء اضقذ ق ياءاتق نق م اقذ ا ي ق عمقذيق م اق‬
‫قء تاجقإجا لقتشكيللاق ق ضا قث ا ق هعا ق‬ ‫للاقبش ق طق‬ ‫ظقذءمق قي ك اق‬ ‫ء‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫تكقي قتزلا لقذهعا ق ياءاتق قإجا لق ق ك ق‪ x‬قها تخم وقتات ق مق األي ق] ‪∅(𝑥 ) = [𝑥, 𝑥 2‬ق‬
‫ق ياءاتق ياق ق‪ :‬ق‬ ‫ج معاق تكق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫بش قذ اس قتم قج لي قت ول ق ياءات ق هعا قذج قها ك ق‪ kernelling‬ق ق اىم ق تات ق‬
‫ق‪kernel function‬ق ل ألمق لاقجملقذء عق‪:‬ق ق‬ ‫اتخموق‬
‫‪Linear , Polynomial , Radial Basic Function RBF , Sigmoid‬‬

‫‪91‬‬
‫ق با تا ق ت ميمقذيقذ لاقناتخموقيك ق‬ ‫ة عاقع هق للاقذض ق قذكت اتقألاعزلق ق ا‬
‫تتكرب قذكةقذ قء طق تيا ق ض قذ قءا ي ق تائ ق ق م قق‪ .‬ق‬

‫ننتقل للخطوة التالية ‪ :‬كيف نجد المستوي األفضل بعد التحويل ‪:‬‬
‫بش قجاوقذعكقءق قع قذ قيك ق ات يق ا قتيقذك جنق ياءاتق اقءا قذ قع اكق‬
‫ذك جنق ياءاتق اقءا قع اكقعاذشق‪margin‬قتيقذك جنق ياءاتق اق يق ش ق‪ :‬ق‬
‫ق‬
‫ق‬
‫‪Super vectors‬‬
‫ق‬
‫ق‬
‫ي ق قتم ق قاطق القذ ق ق‬ ‫ا لمفقإيكا ق‪ hyperplane‬قي ل قذكةقعاذشقتي ق‬
‫ي ق لخط ق ات ي ق ا قهد ق‪ support vectors‬ق لم اق يم قع قع ه ق قاطق‬
‫إع ا قهقي قءقاطق تم ل قق‪ .‬ق‬
‫ايي ق‪support vectors‬قق‪.‬‬ ‫ق يقي ل قذكةقعاذشقتيق قاطق‬ ‫إي ق كمق ا‬
‫ق‪.‬ق ق‬ ‫م ق‪boundary‬قذعا تمق خا‬ ‫ق لاذشيقذ ق‬ ‫ظقذ ق ك قذ ق خطق ا‬
‫ق‬
‫‪Support vectors‬‬
‫‪margin‬‬
‫‪Boundary decision line‬‬

‫𝟏 = 𝒃 ‪𝒘𝑻 𝒙 +‬‬

‫‪Support vectors‬‬
‫‪Hyper plane‬‬

‫‪Boundary decision line‬‬ ‫𝟎 = 𝒃 ‪𝒘𝑻 𝒙 +‬‬

‫𝟏‪𝒘𝑻 𝒙 + 𝒃 = −‬‬

‫‪92‬‬
‫إي قج قةرل قتياءاتق تم ل قء ا قألع ق ا ق‪ hyperplane‬قي ل قذكةقعاذشق ل ك ق‬
‫ذذ ل قع هق ع لي قها تخم وق‪Gradient Descent GD‬ق ق‪ .‬ق‬
‫ق اتقيكق قت ميمق ي اقإي ق قاطق‬ ‫إي ق رجقع هق خ حذي قه ق ي ق‪ w,b‬قبيكا قذعا‬
‫ع القهقت دقع ق خطقذ ق مق‪.‬ق ق‬
‫قذيق قق‬ ‫اق ا ق قتنتىم ق ل فق‬ ‫ع مذاقت م قذعا ق اتقيكق ي قذكةقذ ق‬
‫اق ا ق قتنتىمق ل فق ا قذيقت دق خطق ق‬ ‫خطق قج مذاقتعطق عا ق ي قت دق‬
‫‪Find w and b such that :‬‬
‫𝑇 ‪1‬‬
‫= )𝑤(∅‬ ‫∶ 𝑑𝑒𝑧𝑖𝑚𝑖𝑛𝑖𝑚 𝑠𝑖 𝑤 𝑤‬
‫‪2‬‬
‫‪𝑎𝑛𝑑 𝑓𝑜𝑟 𝑎𝑙𝑙 {(𝑥𝑖 , 𝑦𝑖 )} ∶ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1‬‬
‫محاسن و مساوئ ‪: SVM‬‬
‫محاسنها ‪: Advantages‬‬
‫‪ -1‬م ق ق ضا تقجا ي ق هعا ق‪Accurate in high-dimensional spaces‬‬
‫‪ Memory efficient -2‬قت اق كالق ءلاقتاتخموقألز قذ قتياءاتق تم ل ق قت ميمق‬
‫تات ق قا قذ قذعا ق خطق ا ق ق‪.‬‬
‫مساوئها ‪: Disadvantages‬‬
‫‪ -1‬ع ه ق خ حذي قذعا ق ا ق‪ over-fitting‬ق ي ق ي قتك قجم ق ا اتق‬
‫‪number of features‬قذكةقذ قجم ق ع اتق‪number of sample‬قق‪.‬‬
‫ق ن قتع لا قذغل قةاق ق ت نيف ق ‪no probability‬‬ ‫‪ -2‬قتعط ق ت ا ي ق ت‬
‫‪estimation‬ق‪.‬ق‬
‫‪ -3‬تاتع ق ا ت ق ياءات ق قليل ق‪ small datasets‬ق ه ق ياد قي قك ا ل ق ااتي ق‬
‫ج مذاقتك ق ياءاتق خ قذ قذكةقذ قذ فق اقق‪.‬‬
‫ق‬
‫ق‬
‫ق‬

‫‪93‬‬
‫الت تستخدم فيها ‪: SVM‬‬
‫الحاالت ي‬
‫ق قق ق ‪- Image recognition and handwriting digit recognition .‬‬ ‫ةق‬
‫ت ق‬
‫طق يم‬
‫ثق‪- Text category assignment : text-mining tasks .‬‬ ‫ت ميمقءوعق خطق‬
‫ق ص‬
‫قكتشافقذل اتق تكاس ‪- Detecting spam‬‬
‫ت لي ق شاجا‪- Sentiment analysis .‬‬
‫ت نيفق ك ات ‪- Gene expression classification‬‬
‫ت ‪- Regression .‬‬
‫كتشافق ا تق شايل ‪- Outlier detection‬‬
‫افق تشاتل ‪- Clustering‬‬ ‫تك ق‬
‫ق‬
‫ق ق‪ :‬ق‬ ‫قذ ا قها تخم وق ا‬ ‫حذي ق‪SVM‬ق‬ ‫ق وقتت ي ق‬
‫ء مذقها تة ق كت اتق نقناتع للاق ق‪ :‬ق‬

‫سقذاضق لتالي ق‪:‬ق ق‬ ‫ي ق لفق‪cell_samples.csv‬ق اقء ع ق اهقاقء م قذ ق‬ ‫بعمقت‬

‫‪94‬‬
‫ثكقءا كقت حعق اضقه ا ق خا يتيق‪Clump,Unitsize‬ق‪:‬ق ق‬

‫ق‬
‫ي قذوقء ي ق‪:‬ق ق‬ ‫ق م ق ق تقايكقء م قذاعي ق(ء جي )ق ياءاتق‬

‫قاقء ي ق‪categorical‬قءل للاق‪:‬ق ق‬ ‫ظق أل قهعضق‬ ‫ء‬

‫‪95‬‬
‫ق‬
‫قجل لاق ق‪ :‬ق‬ ‫ق ياءاتق نق ع‬ ‫ء م ق آل قذ‬

‫لاق‪2‬قذيق‬ ‫ا تق نق‬ ‫ق‬ ‫ق قطقءرلمقذ قءت‬ ‫افقإذاق لي قذ ق ي ق ء‬ ‫اق ذ اق ق‬


‫ق‪:‬ق ق‬ ‫الي‬
‫ق‬

‫ق‬

‫‪96‬‬
‫ءق وقتتقايكق ياءاتق تم ل ق ق ت ا ق‪:‬ق ق‬

‫نق‪rbf radial basis function‬ق ق‪ :‬ق‬ ‫قها تيا ق‬ ‫ءم لق‬

‫يجقهعمق تم ل ق‪:‬ق ق‬ ‫ءكايق ت ا ق ل‬

‫‪97‬‬
‫يجقها تخم وق‪confusion matrix cm‬ق‪:‬ق ق‬ ‫آل قءكايق تق يكق ل‬

‫‪98‬‬
‫ل ك اق تخم وقةرلق ق تق يكق‪f1-score‬ق‪:‬ق ق‬

‫ق‬

‫ق‬

‫‪99‬‬
‫ق تخم وق‪jaccard index‬ق‪:‬ق ق‬ ‫ك‬

‫ق‬
‫ق‬
‫ق ختا ق‪kernel‬ق طق‪linear‬ق ءقا قها م ق‪:‬ق ق‬ ‫بألا قذقا ء قباي‬

‫لت كالق تيا تق‪kernel‬ق ق‪ :‬ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪100‬‬
‫‪ -15‬مقدمة للتجميع ‪: Intro Clustering‬‬
‫ق ئح ق ل ه ق زبائ ق ‪customer‬‬ ‫ه اض ق م ا قذك ج قتياءات قحبائ ق قءرلم قت‬
‫قذك جات ق قهق‬ ‫ات ق تشاتل ق‬ ‫ق زبائ قي ق‬ ‫‪ segmentation‬قذي قتك‬
‫ة تيكي قعاذ ق‪ significant strategy‬ق يثقت ك قذ الق ع قذ قتا لد د قذ تكاتلكق‬
‫ل ئ ق ا ق‪.‬ق ق‬
‫ذ قذك ج قذاق لاقحبائ ق يثق با قجا ي ق ق خاةاق ليل ق‪high-profit and low-risk‬ق‬
‫قألم ق عاضقذ تكاتق‪purchase products‬قذ ق شة كقهخمذ ق ‪subscribe‬‬ ‫ع قذ ا‬
‫‪for a service‬قذ اقيكع ق ألا ق قج ا قيكا ق‪devote‬ق تاقإ ا ياق ل اظق‪retaining‬ق‬
‫ج قع ق زبائ ق‪.‬ق ق‬
‫قء تاجق‬ ‫ا تك ق عاو ق يس قذ ئ ا ق‪ feasible‬ق ك يات قعائل قذ ق ياءات ق ت ج ق‬
‫رلق قت ليلي ق تخاجق‪deriving‬ق ئاتق قذك جاتقذ ق ياءاتق ضخ ق‪.‬ق ق‬
‫ق زبائ قها جت ا قج قجملقج ذ ق‪factors‬قذ ق م اقتياءاتق زبائ ق تا ي ق‪:‬ق ق‬ ‫ي ك اقتك‬
‫‪customer ID‬‬ ‫‪age edu‬‬ ‫‪years‬‬ ‫‪income‬‬ ‫‪…..‬‬ ‫‪….. defaulted‬‬
‫‪employ‬‬
‫‪1‬ق‬ ‫‪ 22‬ق‬ ‫‪2‬ق‬ ‫‪3‬ق‬ ‫‪ 190‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪1‬ق‬
‫‪2‬ق‬ ‫‪ 34‬ق‬ ‫‪1‬ق‬ ‫‪ 20‬ق‬ ‫‪ 100‬ق‬ ‫…ق‬ ‫‪ ….‬ق‬ ‫‪0‬ق‬
‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬
‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫…ق‬ ‫‪ …..‬ق‬ ‫…ق‬
‫‪9‬ق‬ ‫‪ 50‬ق‬ ‫‪1‬ق‬ ‫‪5‬ق‬ ‫‪ 60‬ق‬ ‫…ق‬ ‫…ق‬ ‫‪1‬ق‬

‫ع قتل هق ياءاتق م ق بذ ا ق ت ميمقذيق زبائ قتش مقهعضلاق آل اق قذ قإ م قع هق‬


‫اقق عت ملق‪adopted approach‬قهق تك ق‪clustering‬ق‪.‬ق ق‬
‫ق‪unsupervised‬ق نقتعت مقج ق تشاهمقتيق اتق زبائ ق‬ ‫هقذ قةاقق تعليكق هةقإ‬
‫لق‪ mutually exclusive groups‬قتاىمق‬ ‫‪،‬ق يثق تكقتقايكق زبائ قإ قذك جاتقذ‬
‫اتق‬ ‫‪clusters‬ق اقءا قع اقذ قث ث قذ ااوق‪،‬قثكقي ك اقإنشا قتعرلفق ك ق اعقذعتةل ق‬
‫عاذ ق ك ق اعقج ق م ق‪.‬ق ق‬
‫ق‬

‫‪101‬‬
‫ق‬
‫‪1‬‬ ‫ق‬
‫‪2‬‬
‫ق‬
‫‪3‬‬
‫ق‬
‫ق‬
‫ءا قذ ق خ طقث ثق اجاتق ق‪ :‬ق‬
‫‪CLUSTER‬‬ ‫‪SEGMANT NAME‬‬
‫‪ cluster-1‬ق‬ ‫‪ Affluent & Middle aged‬ق‬
‫‪ Young education & Middle income‬ق ‪ cluster-2‬ق‬
‫‪ cluster-3‬ق‬ ‫‪ Young & Low income‬ق‬
‫ق‬
‫ه يثق ق اعق ش قنا قذئول قذ ق ك وعق ك ق با تا قهاجت ا قع ق تقايكقي ك اق‬
‫إ ألاعق قحب ق قألم ق ياءاتق اات قإ ق اجمق لق نتىمقإ يمق ق‪ :‬ق‬
‫‪Customer ID‬‬ ‫‪Segment‬‬
‫‪1‬ق‬ ‫‪ Young & Low income‬ق‬
‫‪2‬ق‬ ‫‪ Affluent & Middle aged‬ق‬
‫…ق‬ ‫‪ ….‬ق‬
‫‪ Young education & Middle income‬ق ‪ 9‬ق‬

‫ق‬ ‫ق زبائ قذ ق‬ ‫قت ا‬ ‫بددل قي ك اق تلم فقذ قت أليمقإج ءاتقذ م لقذ قهضاج قذع‬
‫تقاي اتق نق نت قإ لاقق‪ .‬ق‬
‫تعرلفق ق اعق‪cluster‬قع قذك ج ق ك ءاتق تشاتل ق‪similar‬قي اقتي لاق ق قتش مق قاطق‬
‫( ياءات)ق أل لق ق اجاتقذ ا ق ع اق ت ا ق ل ع قذاق اققتيق تك ق‪clustering‬ق‬
‫ق ت نيفق‪classification‬ق؟ ق‬

‫‪102‬‬
‫ ق يثق ق ملقذ قتياءاتق تم ل ق‬supervised‫ق‬ ‫يعتةق ت نيفقذ قءوعق تعليكق ب‬
‫)قبيكا ق فق ع رصق‬Decision tree‫يجق(ذ قها تخم وق‬ ‫تنتىمق فقذعيق ءم لق‬
‫ ق‬.‫قذيقذع ء قق‬labeled‫ألميمق تك ق ياءاتق‬
‫ق ياءاتق م اقتك ق‬unsupervised‫ق‬ ‫ق ل قذ ق تعليكق هةقإ‬clustering‫ذذاق ق تك ق‬
‫)ق ك ق ياءاتق تشاتل ق ي اقتي لاقثكقءعيمعكق‬K-means(‫ ق ناتخموقذ ق‬unlabeled
‫ ق‬.‫لكم ق احق ع ارصق للاقق‬
‫ق ق‬:‫رلقتيق م اقذكا تق قةاقق احق هق‬ ‫يا ق اققذكةقتيق‬
- Retail / Marketing : Identifying buying patterns of customers ‫ق‬
‫ها تقايط‬
- Recommending new books/movies to new customers ‫ة لد د ق تكاتق‬
‫ألميملق زبائ قألم‬
- Banking : Fraud detection in credit card use Identifying clusters of
customers ‫كشفق تيا ق قت نيفق ع‬
- Insurance industry : Fraud detection in claim analysis and Insurance risk
of customers‫قكشفق تيا ق ق اعق تأذيقذ ق ق زبائ ق‬
- Publication media : Auto-categorizing news based on their content and
Recommending similar news articles to readers .‫تك ق قا تق تشاتل ق ق‬
‫ق‬.‫تقميكق ا ق لقا ق‬
- Medicine : Charactering patient behavior ‫تشخيصق ل كق اضق‬
- Biology : Clustering genetic markers to identify familyist ‫ق ك نق‬ ‫تك‬
.‫ل ق ق قا ق‬ ‫يا ق ا هطق‬
‫ق ق‬:‫ق‬clustering‫ق‬ ‫بش قجاوقذكا تق تخم وق تك‬
- Exploratory data analysis ‫قت لي ق ياءاتق كتش‬
- Summary generation = reducing the scale‫قتلخيصق ياءات ق‬
- Outlier detection for fraud detection or noise removed‫ق كتشافق قيكق ق‬
‫ق‬.‫شايلق أل ق كتشافق ا تق تيا قذ قإح ق ضك ق‬
103
- Pre-processing step for other data-mining tasks or as apart of
complex system ‫تاتخموق قذا قذاق قذلاوق ت قي قج ق ياءاتقذ قككز قذ ق‬
‫ءظ ق عقمل‬

: ‫ الخوارزميات الرئيسية يف التجميع‬-1-16


1- Partitioned-based clustering :
‫قذيق اجاتقذتكتل ق أل قهعضلاق‬sphere-like clusters‫نت قج لاق اجاتقذ ق وعق‬
‫ق ق‬.‫ق ككقذ قذ فق اق‬ ‫ق تاتخموقع هق اقق ل ياءاتق م ةلق ق ت‬،‫آل اق‬
- Relatively efficient‫عا ق ق عي ق‬
- Eg. K-means, K-median, Fuzzy c-means

2- Hierarchical clustering :
Produces trees of clusters‫ق‬
‫ ق‬.‫نت قج لاقشكالق اجاتق تاتخموق ل ياءاتق هةلق ككق ق‬
Eg . Agglomerative , Divisive ‫ق‬

To Ea
oT Mo Vb Wi

104
‫‪3- Density-based clustering :‬‬
‫‪Produces arbitrary shaped clusters‬‬
‫تكقت يمقذك جاتقجش ئي قج مق أل ق ك قذ ق‪DBSCAN‬ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪ -‬خوارزمية ‪: K-means clustering‬‬
‫ا اق م اقذك ج قتياءاتقحبائ ق قءرلمقت ي ق‪customer segment‬قذيقج لي قتكز ققج ق‬
‫اتق قذ قع هق اققه ق‪ k-means‬ق يثق‬ ‫قذك جاتقت سق‬ ‫زبائ قه يثقي‬
‫تعتة قع ه ق خ حذي قذ قءوع ق‪ partitioning‬قذي قتقايك ق ياءات قإ ق اجات قتاىمقققققققققققققققق‬
‫قتكت ت ق لي ق‬ ‫‪ k non-overlapping subsets‬قذك جات قألزئي قغة قذتم ل ق‬
‫‪ cluster-internal‬ق ك ءاتق ق اعقذتشاتل قألم ق ذختل قج ق ق اجاتق ا ق ع اق‬
‫تكقةر ق يق‪:‬ق ق‬
‫‪ -1‬كيفقءكمق ع اتق تشاتل ق؟‬
‫ق ياءاتق؟‬ ‫‪ -2‬كيفقءقيسقذقم ق تشاهمقتيقج رصل قههضق ظاقج قذ عل اق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪105‬‬
‫ء هق ءم قها اغكقذ قك ق‪ k-means‬قتك ق ياءاتق ق اجاتقها جت ا قج ق تشاهمق ي اق‬
‫تي لاق إءمقي ك اق تع ا قذقياوق ت ا ق‪dissimilarity‬قج اقج قذقياوق تشاهمقق‪ .‬ق‬

‫)‪Dis(x5,x6‬‬

‫)‪Dis(x1,x2‬‬

‫‪Intra-cluster‬‬
‫)‪Dis(C2,C3‬‬
‫‪Distances are‬‬
‫‪minimized‬‬ ‫‪Inter-cluster‬‬
‫‪Distances are‬‬
‫‪maximized‬‬

‫بش قتقليميق‪conventionally‬قتاتع ق اا قتيق ع اتق تشكي ق ق اجاتق رلق ققققق‬


‫‪k-means‬قت ا قت هةق اا قتيق ع ارصق ق ق اعقج ق م ق‪intra-cluster‬ق تك ةق‬
‫اا قتيق ق اعق آ اق‪inter-cluster‬قق‪ .‬ق‬
‫ت فقذ ق اا قتيق ا تيق(حب ءيقذ )ق؟ ق‬ ‫كيفقءقيسق‬
‫ق‬
‫ق‬
‫‪customer1 customer2‬‬
‫‪ age‬ق‬ ‫‪age‬‬
‫‪ 54‬ق‬ ‫‪50‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 = 4‬‬
‫‪income‬‬ ‫‪income‬‬ ‫ق‬
‫‪190‬‬ ‫‪200‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 = 10.77‬‬
‫‪education education‬‬
‫‪3‬‬ ‫‪8‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 + (3 − 8)2 = 11.87‬‬
‫ق‬

‫‪106‬‬
‫قم قذات قذع ا ق اهقا ق م قء كاقذءم ق ن غ قذ قءق و قهع لي قتق يس ق‪ normalize‬ق ا اتق‬
‫ق لت ا ق‪accurate dissimilarity measure‬ق ق‪ .‬ق‬ ‫قج قذقياوق‬ ‫ل‬
‫ألمقذقا يسقت ا قذ ا قتاتخموق سق لمفق م لاقتعت مقج قءوعق ياءاتقبش قك ةقققق‬
‫قناتع ق‪:‬ق ق‬ ‫قج ق كا ق يقء قجليمقج لي ق احق‬
‫‪Euclidean distance , Cosine similarity , average distance‬‬
‫إي قذقياوق تشاهمقذلكقألم قه ا قة يع ق ياءاتق ق ة تق تشكي ق ق اجاتق قج لي ق‬
‫اح‪.‬ق ق‬
‫ق‪k-means‬قذ قتهايطق ياءاتق‪:‬ق ق‬ ‫ءع ق آل ق لكقةرلق قج‬
‫‪Customer ID‬‬ ‫‪ Age‬ق‬ ‫‪ Income‬ق‬
‫‪1‬ق‬ ‫‪ 32‬ق‬ ‫‪ 450‬ق‬
‫‪2‬ق‬ ‫‪ 23‬ق‬ ‫‪ 300‬ق‬
‫‪3‬ق‬ ‫‪ 44‬ق‬ ‫‪ 120‬ق‬
‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬
‫‪ ….‬ق‬ ‫‪ ….‬ق‬ ‫‪ ….‬ق‬

‫قء تاجق تق يسق ء ظقذ ق ضا قي ق‬ ‫ء ظق م ق ي تمقها ئاتق ق ع اقها عش تق‬


‫ل ق‪:‬ق‬ ‫هعم ق‪2-dimentional‬ق ة كقذخ طق‪scatterplot‬ق ل ياءاتق ء حجلاقه‬
‫ق‬
‫‪Age‬‬ ‫‪Customer1‬‬ ‫‪Customer2‬‬ ‫ق‬

‫‪Income‬‬

‫ا ق احقع هق ياءاتق( زبائ )ق قذك جاتقذت ا زلق( اجات)قها جت ا قج قهعم ق‬


‫قطق‪.‬ق ق‬
‫ق‬

‫‪107‬‬
‫ق‬
‫هم ي ق ن غقذ قء م قجم ق ق اجاتق ققةرلق ق‪k-means‬ق تكق اضق ش قجش ق‬ ‫‪-1‬‬
‫ذاكزق ق اعقذيقء اضق ي ق‪k‬ق هقت م قجم ق ق اجاتق هقذاأ ق يادق لل ق‬
‫ن ا شلاق ي اقهعم ق‪.‬ق )‪ )Initialize k=3 centroid randomly‬ق تك قتا ي قع هق‬
‫اكزق‪ c1,c2,c3‬ق(‪)centroid of clusters‬ق ق ن غ قذ قيك ق لاقء سق ككق ة تق‬
‫لع ارصق أل لق ق ك ج قق‪.‬‬
‫ل ألمقةرلقتيق تيا قع هق اكزق‪:‬ق ق‬
‫ذ قءختا عاقجش ئياق‪3‬قذاكزق ا جقذك جاتق ياءاتقذ ق‪:‬ق‬ ‫‪-‬‬
‫]‪ C1 = [8.,5.] C2 = [5.,5.] C3 = [6.,3.‬ق‬
‫هعمق تيا ق اكزقء مذقه احق ياءات ق( زبائ ) ق ل اكزق ال ق م قج قةرل ق االق‬ ‫‪-‬‬
‫اا قتيق قج رصق ق اكزق تيا ق اكزق الق‪.‬ق‬
‫قتاىمق‪distance-matrix‬ق لاق ش ق تا ق‪:‬ق‬ ‫قج قذ‬ ‫إي ق‬ ‫‪-‬‬
‫‪𝐶1‬‬ ‫‪𝐶2‬‬ ‫‪𝐶3‬‬
‫) ‪𝑑 (𝑝1 , 𝑐1 ) 𝑑 (𝑝1 , 𝑐2 ) 𝑑 (𝑝1 , 𝑐3‬‬

‫) ‪𝑑 (𝑝2 , 𝑐1 ) 𝑑(𝑝2 , 𝑐2 ) 𝑑 (𝑝2 , 𝑐3‬‬


‫‪…………….‬‬
‫…………‬
‫) ‪𝑑 (𝑝𝑛 , 𝑐1 ) 𝑑 (𝑝𝑛 , 𝑐2 ) 𝑑 (𝑝𝑛 , 𝑐3‬‬
‫[‬
‫ق ق اكزق ق اعق يقتنتىمققإ يمق‬ ‫يك قعمفق‪k-means‬قتقلي ق اا قتيق ق‬
‫قتك ةق اا قتيق اكزق‪.‬ق ق‬

‫قذ ق م ي ق‬ ‫قجش‬ ‫قءق قذ قع هق ع لي ق يق قك اي ق ء اق ةءاق اكزقبش‬


‫ا يجق يمق أق تكق ااهمق ا تا ق ق‪ :‬ق‬
‫𝑛‬

‫‪𝑆𝑆𝐸 = ∑(𝑥𝑖 − 𝑐𝑖 )2‬‬


‫‪𝑖=1‬‬
‫𝑑𝑖𝑜𝑟𝑡𝑛𝑒𝑐 𝑠𝑡𝑖 𝑑𝑛𝑎 𝑡𝑛𝑖𝑜𝑝 ‪∶ 𝑡ℎ𝑒 𝑠𝑢𝑚 𝑜𝑓 𝑡ℎ𝑒 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 𝑑𝑖𝑓𝑓𝑒𝑟𝑒𝑛𝑐𝑒 𝑏𝑒𝑡𝑤𝑒𝑒𝑛 𝑒𝑎𝑐ℎ‬‬

‫دق‬ ‫ق قذاكزق ق اعق يقتنتىم قإ يمق آل قذ‬ ‫ا قتيق قءق‬ ‫ذك وعقذربعاتق‬
‫ذل ت اقتقلي قع ق خ أق‪.‬ق ق‬

‫‪108‬‬
‫ق‬
‫ق‬
‫طق‪mean‬قتياءاتق ق اعق يق‬ ‫‪ -‬ق خ لق اءي قءق وقتت رل ق اكزق تك ق قذت‬
‫تات طقهمق‪.‬ق‬
‫حق‬ ‫ق م ا قإ م ثيات قءق تي ق)‪ A(7.4,3.6),B(7.8,3.8‬ق ا اكز ق كميم قي‬
‫لكقذيق)‪c2((7.4+7.8)/2,(3.8+3.6)/2) = (7.6,3.7‬قق‪ .‬ق‬ ‫ذت‬
‫ق‬
‫‪C1‬‬ ‫‪C4‬‬

‫‪C3‬‬
‫‪B‬‬
‫‪A‬‬

‫ثكقءعيمق االق اا قتيقءقاطق ق اعق اكزق كميمق مقثكق االق خ أقذ ق‬


‫ألميمق قءعيمقتقايكق ق اجاتقه ا ق اا اتق كميملقق‪ .‬ق‬
‫تي قتت رل ق اك قزقققققققققققققققققققق‬ ‫حذي ق‪ k-means‬قتكا ل قه يث قءكا قآ ا ق‬ ‫نات ت قذ ق‬
‫قج قذ ض قتقايكق لق اجاتق‪most dense clusters‬ق‪.‬ق ق‬ ‫ق االق اا اتق نقء‬
‫حذياتق‪heuristic‬ق ق ألمقذيق ا قذء اق قةلق ل ق‬ ‫ج ق ق ا قج مذاقناتخموق‬
‫ذ ق‪ global optimum‬ق تيك ق تعت م قج ق ق اجات ق ي ق م قي ك ا ق جت ا ق‬
‫ق ض قءتيك ق‪ .‬ق‬ ‫قجل لاقذ ا ق‪local optimum‬ق ليسقها رص لق‬ ‫تيك ق نقء‬
‫حذي ق‬ ‫ض قك ءلاق‬ ‫ق‬ ‫قج ق‬ ‫م ق قذش ل ق قتكا ق خ حذي قك ة قههي ق‬
‫لع ق‪.‬ق ق‬
‫اتلاقبش قذل وق‪more concretely‬ق‪:‬ق ق‬ ‫قع هق خ حذي ق‬ ‫نتعافقج ق‬
‫‪1- Randomly placing k centroids ,one for each cluster‬‬
‫ءض ق اكزقجش ئياق لق اجاتق ل اقت اجمتق ق اجاتقج قهعضلاق ا قذ ض ق‪.‬ق ق‬
‫‪2- Calculate the distance of each point from each centroids .‬‬
‫اال قذاا ق قءق قج ق اكزقها تخم و ق‪ Euclidean distance‬ق ه ق كةق‬
‫ش جاقق‪ .‬ق‬

‫‪109‬‬
‫‪3- Assign each data point (object) to its closest centroid for creating a‬‬
‫‪cluster .‬‬
‫ءربطق قءق قها اكزق الق لاق قنش ق ق اعقق‪ .‬ق‬
‫‪4- Recalculate the position of the k centroids .‬‬
‫هعمقتشكي ق ق اجاتقءعيمق االقذاكزق ق اعقه يثقيك قذ عمق كميمقع ق‬
‫ق اجمقق‪ .‬ق‬ ‫ذت طق قاطق نق‬
‫‪5- Repeat 24 until the centroids no longer move .‬‬
‫ءعيمق خ تقذ ق‪2‬قإ ق‪4‬ق نق قيك قع ا قذيقت اكقذل ظق ل اكزق‪.‬ق ق‬
‫ا ق‪:‬قكيفقء م قأل لق‪goodness‬قع هق ق اجاتق نقءتكدقذ ق‪k-means‬قذيقكيفق‬
‫ء ا ق قع هق رلق ق؟ق ق‬
‫ألمقء جيق اقق االق م ق‪:‬ق ق‬
‫ةاقق ا ألي ‪- External approach :‬‬
‫‪Compare the clusters with the ground truth if it is available .‬‬
‫قإ قذذك قي ق‪،‬ق يثقع هق خ حذي قق‬ ‫ت ق قذ قأل لق ق اجاتقج قذ ضق‬
‫‪k-means‬قغةقإ ي ق‪unsupervised‬ق ع هق اققغةق عي ق عموق أل ق قائ ق‬
‫نات قذقا ءتلاق لاق‪.‬ق‬
‫ةاقق لي ‪- Internal approach :‬‬
‫‪Average the distance between data points with a cluster .‬‬
‫ق‬
‫ء ا ق ي قذت طق اا قتيق قاطق ق ق اعق‪،‬قك قيعتةقذت طق اا اتق‬
‫ل قاطقج قذاكزعكق ق ق اعقذقياوق لخ أق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫‪Mean distance data points‬‬

‫ق‬
‫‪elbow point‬‬
‫ق‬
‫‪to cluster centroid‬‬

‫‪k=5‬‬ ‫ق‬
‫ق‬
‫ق‬
‫‪K=1‬‬ ‫‪K=9‬‬ ‫ق‬
‫‪110‬‬
‫ق‬
‫ق‬
‫ ق ءم قذتعل قبش ق قت حع ق ياءاتق‬ambiguous‫ قذذاق يم ق هس ق‬k‫ق قت ميمقجم ق‬
‫قهم ي قجش ئياقثكقءقيسق‬k‫ع ا قةاقق ت ميمعاق م قذجكقع هق اققذ قء م ق ي ق‬
‫ق ق‬.‫م ق ءكا ق ع لي قجملقذا تق‬
‫ق إ ق اا قتيق اكزق ق قاطق‬k‫ش ل قذءمق قحلا لقجم ق ق اجاتقذيقحلا لق ي ق‬
‫يج ق إ قءق ق‬ ‫قج مذاقءا ك ق ق‬ ‫ قيقل ق خ أق‬k‫ت خ ض ق با تا قحلا ل ق‬
‫قذيقءق ق ءع افقتت م قج مق ق ق نق مذقج معاقذت طق‬elbow point‫ق‬ ‫ت‬
‫ق ق‬.‫ق‬elbow‫اا اتقتيق قاطق ق اكزقها ءخ اضق ع هق رلق قتاىمق‬
:‫ق ق‬ ‫لخصقذاق‬
‫ق‬
k-means is a partitioned-based clustering which is :
a- Relative efficient on Med&Large sized dataset .
b- Produces sphere-like clusters ,because the clusters are shaped
around the centroids .
c- Its drawback is that we should pre-specify the number of
clusters and this is not easy task .
‫ق ق‬:‫ق ع اق‬k-means‫قذ ا يقج ق‬ ‫أ‬
- K-means on a random generated dataset
- Using k-means for customer segmentation
‫ ق‬:‫ق ق‬ ‫ء مذقها ا ق‬

‫ق‬
111
‫ق‬
‫نش قذك ج قتياءاتقجش ئي ق ء م قذاكزعاقها تخم وق‪k-means‬ق ق‪ :‬ق‬

‫‪112‬‬
‫كايق آل قإجم تققققق‬ ‫اقتتشكي قذك جاتق ياءاتق عش ئي ق‬ ‫ق‬ ‫إ قع هق ا ل قءك‬
‫‪k-means‬ق‪:‬ق ق‬
‫يجق ق‪ :‬ق‬ ‫قهعمقتم ل ق‬ ‫ا‬ ‫تت ميمقجم ق اكزق ق ق اجاتق ةرلق قإيكا ق اكزق‬

‫ق‬

‫‪113‬‬
‫هعمق االق اقكزقء تاجق ا كق ياءاتق‪:‬ق ق‬

‫‪114‬‬
‫قذ ب د ق اجاتق‪.‬ق ق‬ ‫ظقكيفقتكقتقاي لاق‬ ‫ء‬
‫ق‬
‫‪115‬‬
‫قإجا لقت يمق ياءاتقذ قألميمق‪:‬ق ق‬ ‫قث ثق اجاتق‬ ‫ل قذ ءاقتقاي لاق‬

‫ق تخم وق‪k-means‬ق قتقايكق زبائ ق ك جاتق ق‪ :‬ق‬ ‫ءأ ق آل ق ل ا ق ا ق‬


‫ق ياءاتق ءظلاعاق‪:‬ق ق‬ ‫ء‬

‫حذي ق‪k-means‬ق قتتعاذ قذ ا لقذ ق عل ذاتق ي ق‬ ‫ع ق‪Address‬قءصق م اق‬


‫قةرلق ق‪ Euclidean distance‬ق ق االق اا اتقج ق اكزق قتتعاذ قذ ق ياءاتق‬
‫قءزللمق ق‪ :‬ق‬ ‫تق ع ق‬

‫‪116‬‬
‫اقءا قت حلد د قتياءات اق يسقذت ا قاق لاقه ئ ق عش تق ذ لاقآ ا ق ذ لاقذألز ق عش تق‬
‫قءكايقتق يالاقه ااجملق كت اتق ب ائي ق‪:‬ق ق‬

‫يجقهعمق اضقجم ق ق اجاتق بقي قها ذة تق‪k-means‬ق‪:‬ق ق‬ ‫ءم لق‬

‫ق‬

‫‪117‬‬
‫ءعيمقت حلد د ق قيكق لكم ق‪:‬ق ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪118‬‬
‫ثكقءا كق ياءاتق‪:‬ق ق‬

‫ق هعا ق ق‪ :‬ق‬ ‫بش قث‬

‫‪119‬‬
‫ق‬
‫ق‬
‫الهرم ‪: Hierarchical clustering‬‬
‫ي‬ ‫‪ -‬التجميع‬
‫قذ قذخ طق‪chart‬ق رل قجا ىمقذ ق عل ا قتاهعيق ظ قت ألي ق‪UCLA‬ق‬ ‫ق يك ق م اق قرل‬
‫ق‬ ‫ق كل قذ م لقذ ق‪85‬ق‬ ‫ق خ طقبجم قتقرلاقأل نق دق‪900‬ق‬ ‫لتكق تخم وقع‬
‫طق ق ققآ ياق‬ ‫قذذرل اق ك وبي ق قذ باق ق شقق‬ ‫ق‪200‬قيئ قتايق‬ ‫‪breeds‬ق ذكةقذ‬
‫ي )ق‪.‬ق ق‬ ‫قع ق ا ق م مق ق قألل قذاقذ ق مالق‬ ‫( ب اقتاتهالقذ‬
‫تكق تخم وق تق ياتق ثي ق كزئي ق‪molecular genetic techniques‬ق ت لي قذكةقذ ق‬
‫ءاتقها جت ا ق‬ ‫‪ 48000‬قج ذ قأل ني ق‪genetic markets‬ق ت يق اقذخ طقي احقع هق‬
‫ج ق تشاهمق قتنياتلاق ك ني ق‪،‬ق يثق تكقت اؤهقبش قعامق قجقمق قجقملقهق اعقه يثق‬
‫تتأ فق عقملقذ قجملق اجاتقذ ا قتم قذت ائلاق لتكقت ا ق تك ق لام قها جت ا قج ق‬
‫ء جيقذ ق اقق ق‪ :‬ق‬

‫‪120‬‬
‫‪ -‬تقايكق‪Divisive‬ق مق تكاهق‪top-down‬قذيقء مذقها تالا قذ ق اذوق لقاجملقذيقء مذق‬
‫ها قاكق كةقثكقءكزئمق ااوقذ هاقذ مق عك ق ن قءنته قذ ق تقايكق ‪dividing‬‬
‫‪the clusters‬ق ق‪.‬‬
‫‪ -‬تك ق‪Agglomerative‬قيع قبش قذعاكسق ااهقمق‪bottom-up‬ق يثق ق قاعق‬
‫مذق مهق ل اق ألت قذ ق اعقآ اق ش ق اجاق م ق نقء ق لق ق ل قج ق‬
‫ق‪.‬‬ ‫قع ق‬ ‫ذ مذق تك قذ ق تكم سق‪amass‬ق هق اوق ققجلكق ياءاتق ذ‬

‫‪Divisive‬‬ ‫ق‬

‫‪Agglomerative‬‬

‫ق‬
‫أ قذ ا قج ق تك ق يثقع هق رلق قت ن ق لاوقذ ق ع ارصقتإألا ق مذ ق تم لجق‬
‫‪progressively merging‬ق لق اجاتق‪.‬ق ق‬
‫م ق‬ ‫ق قءرلمقتك ق‪ 6‬قذم ق قك م قها جت ا قج قهعمق( اا )ق قذ لاقج ق ا ق‬
‫هق‪:‬ق‪Toronto,Ottawa,Vancouver,Motreal,Winnipeg,and Edmonton‬ق‪.‬ق ق‬
‫ق اا اتق)‪dis(i*j‬ق‪:‬ق ق‬ ‫نا لاقذ‬
‫‪ TO‬ق‬ ‫‪ OT‬ق‬ ‫‪ VA‬ق‬ ‫‪ MO‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO‬ق‬ ‫ق‬ ‫‪ 351‬ق‬ ‫‪ 3363‬ق‬ ‫‪ 505‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪ OT‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 3543‬ق‬ ‫‪ 167‬ق‬ ‫‪ 1676‬ق‬ ‫‪ 2840‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 3690‬ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ MO‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1824‬ق‬ ‫‪ 2976‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫‪121‬‬
‫ق اا اتق ن مذقتت أليمق قذم قإ ق اجلاق ع مءقا ق‪ 6‬قذم قذي ق‪6‬ق‬ ‫هعمق االقذ‬
‫اجاتق ق اعقي يقذم ق ملق قطق‪،‬ق تك قيعت مقج ق قالقتيق م ق ق‪ .‬ق‬
‫قءكم قذ ق اا قتي ق‪ MO,OT‬قه ق‪ 167‬ق ه قذ ها قذاا قتي قذم نتيق‬ ‫ذ ق‬
‫ك عل اق ق اعق مق‪.‬ق ق‬
‫ء ظقذءمقءعت مقج قذةلق‪feature‬ق ملق هق اا قذيقهعمق مقذ قذءمقي ك اق جت ا ق‬
‫حذيات قجميمل قذ لا ق ‪Pearson,Eucluiden,Average‬‬ ‫ج قذكة قذ قذةل قها تخم و ق‬
‫‪Distance‬ق ي قه ا قءوعق ياءاتق ذكا ق عا ق م اق‪.‬ق ق‬
‫ق‬
‫‪TO OT MO VA ED WI‬‬
‫مقءعيمقتاتي ق م قذ قألميمقق‪.‬‬ ‫هعمق ذ ق م نتيق‪OT,MO‬ق ق اعق‬
‫‪ TO‬ق‬ ‫‪OT/MO‬‬ ‫‪ VA‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO‬ق‬ ‫ق‬ ‫‪ 351‬ق‬ ‫‪ 3363‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪OT/MO‬‬ ‫ق‬ ‫ق‬ ‫‪ 3543‬ق‬ ‫‪ 1676‬ق‬ ‫‪ 2840‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫ق‬
‫اقذ ق‬ ‫مقكيفق تكق االقذاا تل اق ول قج ق م ق‬ ‫م قهعمق ذ ق‪OT/MO‬قهق اعق‬
‫‪WI‬ق هق‪1676‬ق؟ ق‬
‫قذ لاق‪:‬ق اا قتيقذاكزق اا قتيق‪OT&MO‬ق بيقذاكزق‪WI‬ق عك ق‬ ‫ع ا قجملقةاقق‬
‫ق‪:‬ق ق‬ ‫ء مثق ا قتياءاتق‬
‫ق‬
‫‪MO‬‬
‫ق‬
‫‪WI‬‬ ‫‪OT‬‬
‫ق‬
‫ق‬

‫‪122‬‬
‫ألمءاقذ قذ هاقذاا قتا ي قتي ق ق اعق كميمق‪ OT/MO‬ق ق‪ TO‬ق ه ق‪ 351‬ق با تا قءضعل اق‬
‫ق اعق مقق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬
‫ق‬
‫ق‪:‬ق ق‬ ‫ءعيمقتشكي ق‬
‫‪TO/OT/MO‬‬ ‫‪ VA‬ق‬ ‫‪ WI‬ق‬ ‫‪ ED‬ق‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 3363‬ق‬ ‫‪ 1510‬ق‬ ‫‪ 2699‬ق‬
‫‪ VA‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 1867‬ق‬ ‫‪ 819‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫‪ 1195‬ق‬
‫‪ ED‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬ ‫ق‬

‫ءكمق آل قذ القذم نتيق عضل اقع اق‪ED,VA‬ق هق‪819‬ق تش ق م اق اعقألميمقتي ل اق ق‪ :‬ق‬


‫‪ VA/ED‬ق ‪TO/OT/MO‬‬ ‫‪ WI‬ق‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 2840‬ق‬ ‫‪ 1676‬ق‬
‫‪ VA/ED‬ق‬ ‫ق‬ ‫ق‬ ‫‪ 1667‬ق‬
‫‪ WI‬ق‬ ‫ق‬ ‫ق‬ ‫ق‬
‫ثكقءكمقذ الق اجيقع اق‪WI‬ق ق‪VA/ED‬ق‪:‬ق ق‬
‫‪ VA/ED/WI‬ق ‪TO/OT/MO‬‬
‫‪ TO/OT/MO‬ق‬ ‫ق‬ ‫‪ 1676‬ق‬
‫‪VA/ED/WI‬‬ ‫ق‬ ‫ق‬
‫ق‬
‫مق ك مق‪6‬ق ق‪ .‬ق‬ ‫ل اقج ق اعق‬ ‫ق ق اجاتقها تالا ق نقق‬ ‫ظقذءمقتكق ذ قأل‬ ‫ء‬
‫ق‬
‫ق‬

‫‪123‬‬
‫لتكقت ي ق شكالق لاذي قه خ طقنا يمق‪Dendogram‬ق‪:‬ق ق‬
‫ق‬
‫ق‬

‫‪y‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬ ‫‪VA ED‬‬ ‫‪WI‬‬
‫ق‬
‫‪Dendogram‬‬
‫ق‬
‫ق‬
‫ق‬

‫‪ED‬‬ ‫ق‬
‫‪OT‬‬ ‫‪MO‬‬ ‫ق‬
‫‪WI‬‬
‫ق‬

‫‪VA‬‬ ‫ق‬
‫‪TO‬‬
‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪124‬‬
‫ي قذكةق‪:‬ق ق‬ ‫تمقتت‬ ‫ءع ق ل خ طق م‬
‫ق‬
‫‪y‬‬
‫ق‬
‫خط أفقي‬
‫ق‬
‫ق‬
‫خط قطع للشجرة الهرمية‬

‫ق‬
‫‪TO‬‬ ‫‪OT‬‬ ‫‪MO‬‬ ‫‪VA ED‬‬ ‫‪WI‬‬ ‫ق‬
‫نتيجة القطع حصلنا على ‪ 3‬قطاعات‬

‫ق‬
‫‪Dendogram‬‬ ‫ق‬
‫ق‬
‫ق‬
‫قتي ق ق اجاتقهخطقذ ق ق يثقتعتةق ب م ثياتق‪y‬ق‬ ‫تكقت ي ق ق ءمذاجق‪ merge‬قي‬
‫ذقم ق تشاهمقتيق ق اجاتق نقتكق ذكلاق ول قق‪ .‬ق‬
‫فقهاتكاهق‬ ‫ققذ ا اقهم ي قتكق جت ا ق قذم ق اعقه مقي تمق با ءتقا ق ق خ طقذ ق‬
‫ق ع ق يق‬ ‫ج ق تك قإجا ل قت ا ق‪ reconstruct‬قج ليات ق مذ ق ي قذءت قع ق تك‬
‫‪depicted clustering‬ق‪.‬ق ق‬
‫قع هق رلق ق ق ألمق ة ضقذ ق عم ق ق اجاتق قذ قي ق قهعضق ت يقاتقء تاجق‬
‫ل ق‪disjoint clusters‬ق اقع قذت ق ق تك ق ا حق ‪flat‬‬ ‫إ قتكزئ ق ق اجاتق‬
‫‪clustering‬ق‪.‬ق ق‬
‫قذعيق‬ ‫ق شكالق لاذي قج مقهعضق قاطقذ ق تشاهمق قذات‬ ‫ج مقع هق ا تق تكق‬
‫تشكي ق اجاتقذتشاتل قق‪ .‬ق‬
‫حق م قاقث ث ق اجاتقهم قذ ق اءدق‪6‬ق‬ ‫قذ‬ ‫اق مثق قذ ا اق اات قءكمقج مق طق ق‬
‫اجاتق‪.‬ق ق‬
‫ق‬

‫‪125‬‬
‫ق‬
‫ق ق‬ ‫ق‪ bottom-up‬قه اض ق م اق‪ n‬قءق‬ ‫قذ ق قاجمل ق لق‬ ‫إي ق تالا ق قج لي ق تك‬
‫ذك ج ق ياءاتق ق‪ :‬ق‬
‫‪1- Create n clustres ,one for each data point‬‬
‫‪2- Compute the proximity/Distance matrix : n*n‬‬
‫‪3- Repeat :‬‬
‫‪3-1- Merge the two closest clusters‬‬
‫‪3-2- Update the distance matrix‬‬
‫‪4- Until only a single cluster remains‬‬
‫ق ت اجمقتيق ق اجاتق ق‪ :‬ق‬ ‫لعلكقيك قش قذ‬
‫‪0‬‬
‫‪𝑑(2,1) 0‬‬
‫[‬ ‫]‬
‫)‪𝑑(3,1) 𝑑(3,2‬‬ ‫‪0‬‬
‫)‪𝑑(𝑛, 1) 𝑑(𝑛, 2‬‬ ‫‪..‬‬ ‫‪0‬‬
‫قهعمق ق اعقج قء امقق‪ .‬ق‬ ‫رل ق ق اعاق قائيسق‪0‬ق ءمقي‬
‫نت ق م اقهعضق تااؤ تق‪:‬ق ق‬
‫الق ي اقتي لاقذ قع هق‬ ‫‪ -‬كيفق تكق ياوق اا اتقتيقع هق ق اجاتق كيفقءعافق‬
‫ق اجاتق؟‬
‫‪ -‬ذاقهق قاطق نقناتخمذلاق قذك ج ق ياءاتق م اق؟‬
‫ملق‪:‬ق ق‬ ‫ق‬ ‫ة قكيفقء ا ق اا قتيق اجيق(ذرلضي)ق ك قذ ل اقءق‬
‫‪Age‬‬ ‫‪BMI‬‬ ‫‪BP‬‬
‫‪Patient1‬‬ ‫‪54‬‬ ‫‪190‬‬ ‫‪120‬‬
‫‪Patient2‬‬ ‫‪50‬‬ ‫‪200‬‬ ‫‪125‬‬

‫ق‬
‫ق‬

‫‪126‬‬
‫ت فقتيق قاطق ا تا ق‪:‬ق ق‬ ‫ه رلق ق‪Euclidean‬قء ا ق‬

‫𝑛‬

‫‪𝐷𝑖𝑠(𝑃1 , 𝑃2 ) = √∑(𝑥𝑖 − 𝑦𝑖 )2‬‬


‫‪𝑖=0‬‬

‫‪= √(54 − 50)2 + (190 − 200)2 + (120 − 125)2 = 11.87‬‬

‫ت فق‪dissimilarly-distance‬ق‪:‬ق ق‬ ‫ق‬ ‫ق(ذرلض)ق نت ق م اقذ‬ ‫اضق م اق‪n‬قءق‬

‫‪P1‬‬ ‫𝐼𝐼𝑥‬ ‫𝐹𝐼𝑥 …‬ ‫𝑃𝐼𝑥 …‬ ‫‪0‬‬


‫⋮‬ ‫⋱‬ ‫⋮‬ ‫‪𝑑(2,1) 0‬‬
‫[‬ ‫[ >= ]‬ ‫]‬
‫‪P2‬‬ ‫𝐼𝑖𝑥‬ ‫𝐹𝑖𝑥 …‬ ‫𝑃𝑖𝑥‬ ‫)‪𝑑(3,1) 𝑑(3,2‬‬ ‫‪0‬‬
‫‪𝑥𝑛1‬‬ ‫𝐹𝑖𝑥‬ ‫𝑃𝑛𝑥‬ ‫)‪𝑑(𝑛, 1) 𝑑(𝑛, 2‬‬ ‫‪..‬‬ ‫‪0‬‬
‫‪Data set‬‬ ‫‪Dissimilarity matrix‬‬

‫ق‬
‫ق‪Agglomerative‬ق اق ق‬ ‫اق ذ اقذءمقتكق مذ قتيق ق اجاتق تقا ب ققهخ حذي ق تك‬
‫ش ق ت ي ق ق‪ :‬ق‬

‫‪P1‬‬ ‫‪P3‬‬

‫‪P2‬‬

‫ق قاط ق( اض) ق تشاتل ق‬ ‫م قكيف ق تك ق اال قالمسافة ربي القطاعات ق ن قتك‬


‫لا؟ ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪127‬‬
‫ق ق‬:‫ق يثقءكمق ق اجاتق تقا ب ق ق ذكلاق‬ ‫ألمقجملقتعرل اتق‬
- Single-Linkage Clustering :
Minimum distance between clusters :
‫) ق‬a,b(‫يثقء ألمقذ هاقذاا قتيقءق تيق قذ ل اق ق اعقذ ق‬
‫ق‬
‫ق‬

- Complete-Linkage Clustering :
Maximum distance between clusters :
‫ق ق‬:‫إيكا قذة قذاا قتيقءق تيق قذ ل اق ق قاعق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

- Average Linkage Clustering :


Average distance between clusters :
‫ق ق‬mean distance‫طق اا اتقتيق قءق قذ ق ق اعقج ق قي ق‬ ‫ء ا قذت‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
- Centroid Linkage Clustering :
Distance between clusters centroids .
‫ق ق‬.‫ء ألمق اا قتيقذاكزيق ق اجيق‬
‫ق‬

128
‫تعت مق رلق ق ت ع ق االقع هق اا اتقج قءوعق ياءاتق قذهعا عاق قذعكقس قذكا ق‬
‫ياءاتق نقءتعاذ قذعلاقق‪ .‬ق‬
‫الهرم ‪:‬‬
‫ي‬ ‫‪ -‬سلبيات و إيجابيات طريقة التجميع‬
‫‪Advantages‬‬ ‫‪Disadvantages‬‬
‫قت تاجقت ميمقجم قذعيقذ ق ق اجات ق‬ ‫قق يق‬ ‫ق ع‬ ‫لق‬
‫قي ك ق ة أل قج قذيق‬
‫تكق ذ ق ق اجات ق‬
‫ق‬ ‫لل ق ت‬ ‫تأ ق تاقةول ق ل ااهات ق‬
‫ذ ياءاقي ع قت ميمقجم ق ق اجاتق ق خ طق نسق اقذخ طق‪dendogram‬قذ اق ال ق‬
‫لكقج ق خ حذي ق‬ ‫ج مذاقيك ق م اقذك ج قتياءاتق خ ق‬
‫ق‬
‫الهرم و ‪: k-means‬‬
‫ي‬ ‫‪ -‬مقارنة ربي التجميع‬
‫‪K-means‬‬ ‫‪Hierarchical‬‬
‫ذكةق عا ي ق ل ياءاتق ضخ ق‬ ‫ه ئ ق ل ياءاتق ضخ ق‬
‫قت تاج قت ميم قجم ق ق اجاتق ء م قجم ق ق اجاتق ق م ق‬
‫ت مذق ع ق‬
‫تعط قذكة قذ قتقايك قها جت ا ق تعط ق قط ق اك ق مق ل ياءات قها جت ا قج قجم ق ق اجاتق‬
‫قة ق‬ ‫ج ق م ق لوب ق‬
‫قذال قتعط قجم ق اجات قذختل قه ا قجم ق اكزق‬ ‫ذاقتعطقء سقجم ق ق اجات ق‬
‫ة قبش قجش ق يقت مذق خ حذي قها ع ق‬

‫ءأ ق ا قذشاهم ق ا ق ا قهم قج م ق تخم و ق‪ k-means‬قتت يم قذك ج قتياءات قجش ق ئي ق‬


‫ق لام ق ت ميم ق‪ Agglomerative‬ق ءم ق كة قش جا ق قق‬ ‫تك يعلا قها تخم و ق تك‬
‫تخم وق‪:‬ق ق‬
‫حذ ق‪:‬ق ق‬ ‫هم ي قءق وقها تة ق كت اتق‬

‫‪129‬‬
‫ثكقء مقذك ج قتياءاتقجش ئي ق قءا لاق‪:‬ق ق‬

‫ق‬
‫ق‬
‫يجق‪:‬ق ق‬ ‫ق لامق تم ل ق‬ ‫حذي ق تك‬ ‫ءق وقها تخم وق‬

‫ق‬
‫ق‬
‫ق‬

‫‪130‬‬
‫ل اقجل لاق‪:‬ق ق‬ ‫ءا كق تيك ق نق‬

‫ق‬
‫‪131‬‬
‫ق تقا لق‪:‬ق ق‬ ‫ء ا قذ‬

‫ق لامق‪:‬ق‬ ‫ءا كقذخ طق‪dendrogram‬ق يقيعةقج ق تك‬

‫ء ظقذء اق تخمذ اقةرلق ق‪ complete‬قج مق االق‪ Z‬قإيقي ك اق تيا قةاققذ ا قذ ق‬


‫‪average‬ق‪:‬ق ق‬

‫‪132‬‬
‫ق نقتتعل قه يع ق اأ ق ءوعق‬ ‫ع هق اقق ب ائي ق نقتعطقءتائ قذختل ق ق تك‬
‫ياءاتق تيك ق ض ق نقءاأل عاق ق‪ .‬ق‬
‫ق‬
‫‪ -‬التجميع ‪Density-Based Spatial Clustering of Applications with‬‬
‫‪: Noise DBSAN‬‬
‫ه قذ ا ق‪ appropriate‬ق تخم و ق ق ت ا ق ياءات قذي قيك ق لاق ي ق ق ياءاتق‬
‫ق جتيا ي ق ااهق ق ‪k-means,hierarchical,fuzzy‬‬ ‫شايل ق عظك قةاق ق تك‬
‫حذياتق‬ ‫‪clustering,….‬قتق وقتتك ق ياءاتقه رلق قغةقإ ي ق‪unsupervised‬ق هق‬
‫ائ قج ق تقايكق‪ partitioning-based‬ق ه قج لي ق ق لل ق لكق م ق يسق لاق ي ق‬
‫‪ notion‬قها قيكق شايلق‪ outlies‬قذيق ق قاطق ت تىم ق ق اعقذاق ن ق ق كقتك قذ مق ل هق‬
‫ذ ق مقتتاه قت عض ق شاك ق أل ق قاط ق شايل ق ياه ق قت ميمقذاكزق ق اعق‬
‫مق‪.‬ق ق‬ ‫أل لق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪133‬‬
‫ع م قتك ق قاط قيظلاقج مءا قجمل ق ء اط قذ ق‪ :‬ق‪ spherical-shape clusters‬قكا ل ق‬
‫ش قذ قكي ي ق ش ق‪arbitrary-shape clusters‬ق( جت اةي )ق ق‬
‫ق‬

‫كروية الشكل‬
‫ق‬
‫ق‬

‫قطاع ضمن قطاع‬

‫شكل عشوائي‬

‫ق‬
‫تق ياتق تك ق ااهق ق قتك قذكمي قج مذاقتك ق ع ارصق قء سق ق اعقغةقذتشا ك ق‬
‫ق عي اق‪.‬ق ق‬ ‫بش ق افقها تشاهمق ي اقتي لاق يك ق‬
‫حذي ق‪ DBSCAN‬قتق و قتتك ق قاط قذ ق يث قك ا تلاق‬ ‫ها قاه ق‪ in contrast‬ق إ ق‬
‫قك ا ق تعافقع اق‬ ‫ع مذاقتك قك ي قك اي قتك علاق ول ق ت للاقج ق ك جاتق‬
‫م ا قج قذءلاقجم ق قاطق قء فق اقذ م ق‪radius‬ق ه ق عا قألم ق ق تك ق يق‬
‫مقج قها ا قذ ق ةق(ذ ق تك عاتق اك ي ق قغةعا)ق تعتةق ةلق ا ي ق لاقهق‬
‫مق ق تأثاقها ضك قذ قها قيكق‬ ‫كتشافق ةقتك ق قاطقهأيقش قجش قذ أل لق‬
‫شايلق ق‪ .‬ق‬
‫ا ق كول ق ‪the location of weather‬‬ ‫قذ اتق‬ ‫ذ ا قج قي ق رل قت م قذ‬
‫‪station‬ق قك م قع اقي ك ق خ حذي ق‪DBSCAN‬قذ قتك ق اكزق( ا م)ق نقتعطقء سق‬
‫ا ق كول ق‪.‬ق ق‬

‫‪134‬‬
‫يثق يسق قطقتق وقع هق خ حذي قذش ا ق ق اجاتق تعم لقه قت م قك ق كز ق كةق‬
‫قك ا قذ ق نق لاق ك قذ ق يكقشايلقق‪ .‬ق‬ ‫ك ا قها ياءاتق ي قتتكاع ق اة ق‬
‫ليى كيف تعمل هذه الخوارزمية ‪:‬‬
‫ق‬ ‫حذي ق اقذ ل اقجل قك ا ق قاطق ي قهقياوقذم ق القع هق قاطقذ‬ ‫هق خ‬ ‫تعت مقع‬
‫ق‬ ‫قء س ق ق اع ق تق و قتتك يعلاق تعت مقع ه ق ع لي ق ااتي قج قذذرل‬ ‫عض ق‬ ‫هعضلاق‬
‫ق‬ ‫اق)‪R (radius of neighborhood‬قذاقهق قاطق أل لقج قهعمق‪R‬قذ‬ ‫فق ق‬ ‫ذ ل اقء‬
‫ق‬ ‫جت ا قج قجم قع هق قاطقي ك اقتا تلاقذ ق قك ي ق‪dense-area‬قذ‬ ‫يثقها‬ ‫ءق قذاق‬
‫ق‪.‬ق ق‬
‫قجم قذ ق قاطق‬ ‫ذاق ا قع ق)‪ M (minimum number of neighborhood‬قذ‬
‫كا لق ق قذاق ق وقتتك يعلكقذ قهعضق تشكي ق اعقذاتق قق‪ .‬ق‬
‫ق ئالقء فق اعاق‪2‬ق كقجم قذ ق قاطق‬ ‫اضقذ ق‪R = 2 cm‬ق ق‪M = 6‬قذيق م اق‬
‫ق‪.‬ق ق‬ ‫ع ق‪6‬قءقاطقذ ق ق ق م‬
‫صقءوعقع هق قاطق يثق م اقث ث ق ت ا تق ق‪ :‬ق‬ ‫يك قهم ي قت‬
‫ق( ا ألي ) قشايلق‬ ‫قذ ي ي ق‪ border point‬ق– قءق‬ ‫ءق قذاكزل ق‪ core point‬ق– قءق‬
‫‪outlier point‬ق‪.‬ق ق‬
‫لاقع قه قذاكزل ق يثقتعتةقذاكزل قج مذاقتك ق‬ ‫يثقءختا قءق قجش ئي ق ء مذقتت‬
‫ق(ها جت ا قج قذ ا ا) ق‬ ‫ق م ئالق‪6‬قءقاطقج ق‬ ‫ق ئالقء فق اعاق‪R‬ق‬
‫ق‬ ‫قءختةعاقع قهقذاكزل قذوق ق نقءنتهقذ قأل‬
‫ق‬ ‫ع مذاق قتك قذاكزل قءنتق ق ق قذ ا ق‬
‫قاطق لت م ق اق ق ق اكزل ق‪.‬ق ق‬
‫ق ئالق‬ ‫ع ق اضق ألمءاقج كمق ت ا قءق قذاق أل ق‪5‬قءقاطقه اق لاق ق ق ختةلق‬
‫ء فق اعاق‪R=2‬قج معاقتاىمقءق قذ ي ي ق هق ق ق نقت ت يق ئاتلاقذ قذ ق عم ق‬
‫ق ئالقذاكزعاقءق ق‬ ‫قءق قذاكزل قذ ا قذيقتك ق‬ ‫‪ M‬قذ قي ك قذ قء قإ لاقذ ق‬
‫ذاكزل ق‪.‬ق ق‬
‫ق ئالقء فق اعاق‪ R‬قذيقءقاطقذاكزل قذ قجم قءقاطق‪M‬ق‬ ‫ق‬ ‫ق ق‬ ‫ج مذاق ق ألمق‬
‫هقتك قءق قشايلقق‪ .‬ق‬

‫‪135‬‬
‫ق قاطق اكزل ق قرل قذ قهعضلاق تش ق‬ ‫ج مذاقءنته قذ ق احق قاطقءق وقج معاقت‬
‫اعقذشةكق ق‪ .‬ق‬
‫قإ لاق تتم قذ ق ق ق‬ ‫قذ قءق قذاكزل ق ق قاطق نقتكق‬ ‫ا ق اعق تش قج ق‬
‫ي ي ق‪،‬ق بددل ق تكقجز ق قاطق شايلقبش ق‬ ‫اكزل قهم ئالقء فق اعاق‪ R‬قذ ق قاطق‬
‫أليمق ق‬
‫ق‬
‫ائصق‪DBSCAN‬ق‪:‬ق ق‬ ‫ي ك اقتلخيصق‬
‫‪1- Arbitrarily shaped clusters .‬‬
‫‪2- Robust to outlier points .‬‬
‫‪3- Doesn’t require specification of the number of the clusters such as‬‬
‫‪k-means .‬‬
‫قت س قذ ا ق‪ k-means‬قتت يمق‬ ‫يتك قتبيا قذةل ق‪ DBSCAN‬ق ق ءتقا ق قاط ق شايل ق ي‬
‫ذك ج قتياءاتقجش ئي ق تك يعلاق ق‪ :‬ق‬
‫حذ ق ق‪ :‬ق‬ ‫ء مذقها تة ق كت اتق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪136‬‬
‫ء مقذك ج ق ياءاتق عش ئي ق‪:‬ق ق‬

‫يجق م اق‪:‬ق ق‬ ‫ءم لق‬

‫ق‬
‫ق‬

‫‪137‬‬
‫ق ق اجاتق‪:‬ق ق‬ ‫ق‬ ‫ء أل قمق قاطق شايلق نق قتم‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪138‬‬
‫ءا كق ياءاتق‪:‬ق ق‬

‫ق‬
‫قشايلق ق كاء ق شقتكق كتشا لاقهخ حذي ق‪DBSCAN‬ق‪.‬ق ق‬ ‫ظق أل قءق‬ ‫ء‬
‫ق‬
‫‪139‬‬
‫ا قها تخم وق‪k-means‬ق ة ق اقق ق تعاذ قذ ق قاطق شايلق‪:‬ق ق‬ ‫عيمقء سق‬

‫لاق لق اعق ا ثق ق‬ ‫ظقذ ق ق ق شايلق نقتكقإيكا عاقها تخم وق‪DBSCAN‬قتكق‬ ‫ء‬


‫حذي ق‪k-means‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪140‬‬
‫‪ -17‬أنظمة التوصية ‪: Recommended Systems‬‬
‫تلتقطقع هق ءظ ق ء اطق نقي م عاق اوق ق ل كلكق ق اتخمذلاق ت قذاي قي ك قذ ق‬
‫يختا ق قذ قذاي قي عل ق‪ ،‬ق ل اق ا ق او قذختل ي ق ق يا تلك قإ قذءلك ق ت ع ق ء اةاق‬
‫‪patterns‬قذ م لقذث ا ق ياتلكق با تا ق ل اكقتشاهمق ق شيا ق نق اغ لاق اوق‪.‬ق ق‬
‫ا اوقي يل ق‪trend‬ق تيا قذشيا ق قء سق فق‪same category‬قذ ق شيا ق نقتشةكق‬
‫ق قذء ق شةلد ق‪ purchased‬قكتاهاقج ق ه ق‬ ‫ات ق‪ same characteristics‬ق‪ ،‬ق‬ ‫ق‬
‫ق ذا قج قم ق ءتقا ق أك تق‬ ‫ق ا ل قكتال قت لي ق ياءات ق‪ ،‬قك‬ ‫ق إء ق ت‬ ‫ا‬
‫ق ل قجميمل قذ قذذاح ق‬ ‫ها ‪ ......‬يث ق تك ق تخم و قذ قع ه ق ءظ ق قذ‬
‫‪amazon‬ق قءت ليكسق‪Netflix‬ق ي قها جت ا ققج قةل اتق زبائ ق‪،‬ق ذيضاق قهعضقت يقاتق‬
‫وباي قج ق ول قق ذيضاق يسقت كق يقيقة قجلي قإ ا قذ م ا قذ ك ق قيك ء ق مق‬
‫ق‪.‬ق ق‬ ‫اتق نقذجك دقتلاقذءدقذث ا قت‬ ‫ذجك قت سق‬
‫ق لال ققققققققققققققق‬ ‫هعض قذ ا قع ه ق ءظ قه ق‪ border exposure‬ق عاض ق شاذ قذ ق‬
‫ي قذكةق م ق‪ .‬ق‬ ‫ذ ق لخمذاتقه يثقيعطقذ تكاتقذ ض ق مذاتقذ ا ق لزب ق ل م ق‬
‫ألمقبش ق ئيسقء جا ق ل هق ءظ ق ق‪ :‬ق‬
‫عىل‬ ‫‪ Content-Based‬التصفية باالعتماد‬ ‫‪ Collaborative Filtering‬التصفية باالعتماد‬
‫المحتوى‬ ‫عىل التفضيل‬
‫‪Show me the sane of what I’ve liked before‬‬ ‫‪Tell me what’s popular among my‬‬
‫‪.‬‬ ‫‪neighbors, I also might like it.‬‬
‫ع ا ق ث قج ق ع ارص ق شاتل ق ا قي م ق زب ق‬ ‫ع اق ث قج قذك ج ق شخاص ق قرل ي قذ مق‬
‫( تا هق اهقا)ق لقة لاق‪.‬ق ق‬ ‫ذاي قي ضل ق لقة لاق لزب ق‪.‬ق‬
‫ق‬
‫المقترح له‬
‫ق‬
‫ق‬
‫ق‬
‫يطلب‬ ‫ق‬
‫ما رآه اآلخرون‬ ‫ق‬
‫ق‬
‫ق‬
‫ج ارصقذتشاتل ق‪similar items‬‬ ‫ت ضي تقذتشاتل ق‪similar preferences‬‬
‫ق‬

‫‪141‬‬
‫ك ق ألمقءوعقآ اق‪Hybrid recommender Sys‬قذءظ قعك قت ت يقج قجملقتق ياتق‬
‫ذكت ع قق‪ .‬ق‬
‫ي ق ق‪ :‬ق‬ ‫قذءظ ق ت‬ ‫ع ا قذ لوبيق ت‬
‫‪: Memory-based -‬ق يثق تكق تخم وقأل قتياءاتق ع ارصق ق شخاصقق ‪entire‬‬
‫‪user-item dataset‬ق تقميكق ة اتق لتكق تخم وقجملقتق ياتقإ ائي ق‪:‬ق‬
‫‪Pearson Correlation – Cosine Similarity – Euclidean Dis…..‬‬

‫‪ : Model-based -‬تكقع اقت ولاقء يجق ل اتخمذيق قطق ا قذعا ق غ اتلكق‬


‫لتك ق تخم و قتق يات قتعلك ق آل قذ ق‪ :‬ق – ‪Regression – Clustering‬‬
‫‪Classification‬قق‪.‬‬
‫‪ -‬أنظمة التوصية باالعتماد عىل المحتوى ‪: content-based‬‬
‫تق وقع هق رلق قج قتقميكق ع رصق ض ق لزب قها جت ا قج قتا اي ق اتخموقء امق‬
‫يثق اكزق ة اي قج قذاقي مق اتخموق ع قيعت مقج قجم ق ا تق ن ق تا ق لاق‬
‫ق‪like‬ق مقق‪ .‬ق‬ ‫اتخموقج رصقذاق ذاقيم قج ق عت اوق اتخموقتل ق ع رصقك‬
‫يثقيعت مقءظاوق ت ي قج قذقم ق تشاهمقتي ق ع ارصق قع ق تشاهمقذ ق تقا لقيقاوق‬
‫قها ت ق‪ content‬ق فق‬ ‫قع ه ق ع ارصق ق‬ ‫ت ق‬ ‫ها جت ا قج قتشاهم ق‬
‫ع رصق‪category‬ق قج ذتمق‪tag‬ق ء جمق‪gender‬ق عك ق‪..‬ق‪ .‬ق‬
‫ق‬
‫‪1‬‬

‫‪2‬‬

‫‪3‬‬

‫‪4‬‬

‫ق‬

‫‪142‬‬
‫ق‬ ‫ت‬ ‫ل ق اوق اتخموقهابجكالقها ل ي ق‪ 1‬ق ق‪ 2‬ق ق ا ق لكق كق‪ 3‬قذ قء سق وعقذ ق‬
‫ت قق‪ .‬ق‬ ‫يقمذمقءظاوق ت ي ق ل اتخموق ا ة ق مق ي قذعت م قج ق تشاهمق ق‬
‫يك ق م اقذك ج قذ ق‪6‬قذ وق ذ قذ لاق اتخموقث ث ق ذج اعاقت ضي ق‪rating‬ق ءرلمقذ ق‬
‫ءظاوق ت ي قذ قيقموق لكق ض قذ ق ث ق ت قي ق ة عاق اتخموق‪.‬ق ق‬
‫)‪1 Bat vs Super (adventure, super hero‬‬ ‫ق‬
‫ق‬
‫)‪2 Galaxy (comedy, adventure, super hero,sci-fi‬‬
‫ق‬
‫)‪3 Captin (comedy, super hero‬‬
‫ق‬

‫)‪4 Hulk (comedy, adventure, sci-fi‬‬ ‫ق‬


‫ق‬
‫)‪5 Batman (super hero‬‬
‫ق‬
‫)‪6 spider (super hero, comedy‬‬ ‫ق‬
‫ق‬
‫وق‬ ‫اقء ظق م اقت نيفق ق لكق ءرلمقذ ق ظاوقذ ق ت قذاي ق يقيكق اتخموق‬
‫تاجق تعافقج قتا اي ق اتخموق‪:‬ق ق‬ ‫ت ق‬ ‫ث ق ت قي ق‪،‬قها جت ا قج ق‬
‫وق ن ق آعاق اتخموقذ ق ع ذاتق ن ق تا عاق لكق‬ ‫ذ قءنس قذتكمق(شعاع)قي يق‬
‫ياىمقع ق تكمق‪input user ratings‬قق‪ .‬ق‬
‫‪ rating‬ق ‪ mov‬ق‬
‫‪1‬ق‬ ‫‪2‬ق‬
‫‪2‬ق‬ ‫‪ 10‬ق‬
‫‪3‬ق‬ ‫‪8‬ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪143‬‬
‫ق ق‬:movies matrix‫ق تاىمق‬One Hot Encoding‫وق نق آعاقه رلق ق‬ ‫ثكقءاذزقع هق‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
1 (adventure, super hero) ‫ق‬0 ‫ق‬1 ‫ق‬1 ‫ق‬0
‫ ق‬2 (comedy, adventure, super hero,sci-fi) ‫ق‬1 ‫ق‬1 ‫ق‬1 ‫ق‬1
‫ ق‬3 (comedy, super hero) ‫ق‬1 ‫ق‬0 ‫ق‬1 ‫ق‬0

‫ق ق‬:‫يثق تكق تخم ذلاق ك ج قذة تق‬


‫ ق‬feature set (comedy,adventure,super hero,sci-fi)
weighted ‫قج قذ ح قع ه ق ا ات ق‬ ‫تي ق ااهقتي ق‬ ‫ثك قءكاي قألم قتي ق‬
‫ ق‬:‫ق ق‬weighted matrix‫ق‬ ‫قج ق‬ ‫قء‬feature set

‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi ‫ق‬


1 ‫ق‬0 ‫ق‬2 ‫ق‬2 ‫ق‬0 ‫ق‬
‫ق‬2 ‫ ق‬10 ‫ ق‬10 ‫ ق‬10 ‫ ق‬10
‫ق‬3 ‫ق‬8 ‫ق‬0 ‫ق‬8 ‫ق‬0 ‫ق‬
‫ق‬
‫ق ق‬:‫قج قتا اي ق اتخموق‬ ‫قج ق م ق‬ ‫ءك ق قج‬
‫ق‬ ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
User profile ‫ ق‬18 ‫ ق‬12 ‫ ق‬20 ‫ ق‬10
‫ق‬
‫ق ق‬:‫قج ق تق يكق‬ ‫ق‬60‫قءقاكق ق اء قج ق‬60‫ذك وعق قيكق‬
‫ق‬ ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
User profile ‫ ق‬0.3 ‫ ق‬0.2 ‫ ق‬0.33 ‫ ق‬0.16

‫ق ق‬sci-fi‫قثكق‬adventure‫قثكق‬comedy‫قثكق‬super hero‫ظقذ ةقذءمقي ض قءوعق‬ ‫ء‬


‫ق‬
‫ق‬

144
‫ق ق‬: ‫ث ق ااهق‬ ‫قتاذةق اق عل اقها‬
‫ق‬ ‫م اقث ث قذ وق كق شاعمعاق اتخموق كايق لاقذ‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi
4 (comedy, adventure, sci-fi) ‫ق‬1 ‫ق‬1 ‫ق‬0 ‫ق‬1
5 (super hero) ‫ق‬0 ‫ق‬0 ‫ق‬1 ‫ق‬0
6 (comedy, super hero) ‫ق‬1 ‫ق‬0 ‫ق‬1 ‫ق‬0
‫ق‬
‫ق ق‬:‫ق‬weighted matrix‫قج ق‬ ‫ءكايقألم قتي لاق قتيقتا اي ق اتخموق‬
‫ ق‬movie ‫ ق‬Comedy ‫ ق‬adventure ‫ ق‬Super hero ‫ ق‬Sci-fi ‫ق‬
4 ‫ ق‬0.3 ‫ ق‬0.2 ‫ ق‬0 ‫ ق‬0.16 ‫ق‬
5 ‫ق‬0 ‫ق‬0 ‫ ق‬0.33 ‫ق‬0
6 ‫ ق‬0.3 ‫ق‬0 ‫ ق‬0.33 ‫ق‬0 ‫ق‬
recommendation ‫قج ق‬ ‫ق‬10‫ق تق يكق م اقذ ق‬ ‫ق‬10‫اق ءرصبمقهدق‬ ‫ثكقءك ق ق‬
‫ق ق‬:‫ق‬matrix
‫ ق‬4 ‫ ق‬0.66 * 10 = 6.6
‫ ق‬5 ‫ ق‬0.33 * 10 = 3.3
‫ ق‬6 ‫ ق‬0.63 * 10 = 6.3
‫ق‬
1 Bat vs Super (adventure, super hero) ‫ق‬
‫ق‬
2 Galaxy (comedy, adventure, super hero,sci-fi)
‫ق‬
3 Captin (comedy, super hero)
‫ق‬

4 Hulk (comedy, adventure, sci-fi)


‫ق‬
‫ق‬
5 Batman (super hero)
‫ق‬
6 spider (super hero, comedy) ‫ق‬

145
‫ءكمقذ قءظاوق ت ي ق يقموق لكق كق‪4‬ق يشاعمهق اتخموق ذ قي ق ب اق قتعط قع هق‬
‫قتا اي ق اتخموق ذ ق‬ ‫رلق قءتيك قذا ي ق ءمق ب اق ألمق لكقآ اق يسقذ أل ق‬
‫قتا اي ق اتخموق‬ ‫وق نق‬ ‫ءوعقآ اق يك ق‪drama‬ق ل هق رلق قتعاذلدق قطقذ ق‬
‫قع اقيأ ق ق رلق ق تا ي ق هق‬ ‫وق ا ق ت ق ألملق ق‬ ‫قهعيق جت ا ق‬ ‫ق‬
‫‪collaborative filtering‬ق‪.‬ق ق‬
‫‪ -‬أنظمة التوصية باالعتماد عىل األفضلية ‪: Collaborative Filtering‬‬
‫تعت مقع هق رلق قج ق أل قج قتيق تكاتق ق عت اوق اوقتلاق أءظ ق ت ي قتعت مق‬
‫ج قإيكا قع هق ع ق قإج ا قت ي ق يق ق ل ت ق يقي مق اتخموقذ قيك قذ تعاق‬
‫مق ق ل ق طقةرلقتا ق‪:‬ق ق‬
‫‪ -‬تك ق لةقها جت ا قج ق شخاصق‪user-based collaborative filtering‬ق‬
‫تعت مقج ق تشاهمقتيق شخاصقذ قج ق تقا لق ي اقتي لكق‪.‬ق‬
‫جت ا قج ق تكاتق( ع ارص)ق‪ item-based collaborative filtering‬قتعت مق‬ ‫‪-‬‬
‫ج ق تشاهمقتيق تكاتقق‪.‬‬
‫ق‪ user-based‬ق م اقذشخاصق عا ي ق(نشي ي)قيك ء قعمفق‬ ‫لكقذق مق رلق ق‬
‫ثق ظاوقج ق شخاصق شاتليقتنشاةلكق للمفق لعت مق تشاهمق ي اق‬ ‫ءظاوق ت ي ق‬
‫تي لكقج ق‪ :‬ق تيا تق‪ choices‬ق– ق اك تق‪ history‬ق– ق ة تق‪ preferences‬ق قذ قثكق‬
‫تكقت ق تكاتق ن ق كق ت اقق لاق لمفق تكق ة لاق مق( ق يق ش لمقيك ق مق‬
‫ت اقق لاق تكق ت ا قذ قتعك مق للمف)ق‪.‬ق ق‬
‫قق‬

‫‪1‬‬

‫‪Similar‬‬
‫‪2‬‬
‫‪aim‬‬ ‫‪Similar user‬‬
‫‪3‬‬
‫‪recommends‬‬

‫ق‬
‫ق‬
‫‪146‬‬
‫يك ق م اق عل ذاتق نقتضكقذعم تقت ضي ق‪ratings‬ق ب د قحبائ ق خ سقذ وق‪:‬ق ق‬
‫‪ Movie1‬ق‬ ‫‪ Movie2‬ق‬ ‫‪ Movie4‬ق ‪ Movie3‬ق‬ ‫‪ Movie5‬ق‬
‫‪ User1‬ق‬ ‫‪9‬ق‬ ‫‪6‬ق‬ ‫‪8‬ق‬ ‫‪4‬ق‬ ‫‪-‬ق‬
‫‪ User2‬ق‬ ‫‪2‬ق‬ ‫‪ 10‬ق‬ ‫‪6‬ق‬ ‫‪-‬ق‬ ‫‪8‬ق‬
‫‪ User3‬ق‬ ‫‪5‬ق‬ ‫‪9‬ق‬ ‫‪-‬ق‬ ‫‪ 10‬ق‬ ‫‪7‬ق‬
‫‪ User4‬ق‬ ‫?ق‬ ‫‪ 10‬ق‬ ‫‪7‬ق‬ ‫‪8‬ق‬ ‫?ق‬
‫ق‪Ratings matrix‬قق‪ .‬ق‬ ‫ع هقتم قذ‬
‫وق نق‬ ‫ا ق كتشافقذيق‬ ‫اتخموق ا ت قع ق لمفق ق نشطق ا ياق‪active user‬ق ق‬
‫كق شاعمعاق(‪)1,5‬ق ن غقذ قتعاضق مق‪.‬ق ق‬
‫قءكمق اتخمذيق شاتليق للمفق لتكقي قهعمقةاققإ ائي ق‪statistical‬ق‬ ‫ا لق‬
‫قشعاجي ق‪ victor‬قذ ق‪ :‬ق ‪distance or similarity measurements , Euclidean‬‬
‫‪distance, Pearson correlation, Cosine similarity …..‬‬
‫و ق ن قشاعمعا ق ق‬ ‫ل عا قذم ق تشاهم قتي قج رصل ق تك قي قها جت ا قج ق‬
‫اتخمذي ق بهضق ظاقج ق رلق ق ت ع ق قي ق ا ياق ةضقذ قذقم ق تشاهمقتيق‬
‫ع رصق لمفق ع ق قذ ا ءاق ا ت ق ق قي ق ا تا ق‪:‬ق ق‬
‫‪ U1‬ق‬ ‫‪ U2‬ق‬ ‫‪ U3‬ق‬
‫‪ U4‬ق‬ ‫‪ 0.4‬ق‬ ‫‪ 0.9‬ق‬ ‫‪ 0.7‬ق‬
‫ق‬
‫تعةقع هق قيكقج ق‪proximity or weight‬قتيق ع رصق لمفق بقي قج ارصق ك ج قق‪ .‬ق‬
‫ق‪weighted matrix‬ق ق‪ :‬ق‬ ‫لق تا ي قهقإيكا قذ‬ ‫خ‬
‫‪Similarity index‬‬ ‫ها كم ق‬
‫‪ Mov5‬ق ‪ Mov1‬ق ق‬ ‫ق‬ ‫‪ Mov5‬ق ‪ Mov1‬ق‬
‫تي ق ق‬
‫‪U1‬‬ ‫‪9‬ق‬ ‫ق‬ ‫ق‬ ‫‪U1‬‬ ‫ي تيق ‪ 0.4‬ق‬ ‫‪ 3.6‬ق‬ ‫ق‬
‫‪ U2‬ق‬ ‫‪2‬ق‬ ‫‪8‬ق‬ ‫ق‬ ‫‪U2‬‬ ‫ء ق ‪ 0.9‬ق‬ ‫‪ 1.8‬ق‬ ‫‪ 7.2‬ق‬
‫‪ U3‬ق‬ ‫‪5‬ق‬ ‫‪7‬ق‬ ‫ق‬ ‫‪U3‬‬ ‫‪ 0.7‬ق‬ ‫ج ق‬ ‫‪ 3.5‬ق‬ ‫‪ 4.9‬ق‬
‫قق ق‬
‫‪Rating matrix subset‬‬ ‫‪Similarity matrix‬‬ ‫‪Weighted matrix‬‬
‫قق ق‬

‫‪147‬‬
‫ق ةلقج قت ضي تق اتخمذيق( شاتليق لم ا)ق أل وق نقءرلمق‬ ‫تعةقع هق‬
‫ذعا قذيقذ لاقذ ك قذ قيختا قحب ء اق ا ت ق قمذلاق مقق‪ .‬ق‬
‫قبش قذاتق ق كمق‪ rating weighted matrix‬ق ق‪:‬‬ ‫آل قءك قءتائ ق قج‬
‫ق‬ ‫‪ Mov1‬ق‬ ‫‪ Mov5‬ق‬
‫‪ U2+U3‬ق‬ ‫‪ 7.2+4.9=12.1‬ق ق‬
‫‪ 3.6+1.8+3.5=8.9‬ق ‪ U1+U2+U3‬ق‬ ‫ق‬
‫قق‬
‫ق‬
‫قج قذك وعقتشاهمق ع ارصقذيق ق‪ :‬ق‬ ‫ءقاكقءتيك قأل ق قج‬
‫ق‬ ‫‪ Mov1‬ق‬ ‫‪ Mov5‬ق‬
‫‪ 8.9/(0.4+0.9+0.7) = 4.4‬ق ‪User4‬‬ ‫‪ 12.1/(0.9+0.7)= 7.5‬ق‬
‫ق‬
‫ق‪recommendation matrix‬قء ظقذ ق لكق كق‪5‬قع ق يق قمذمق‬ ‫ع هقتم قذ‬
‫يقءت قذ قيختا هقذكةقذ ق لكق‪1‬ق ق‪ .‬ق‬ ‫ل اتخموق‪4‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪148‬‬
‫ل اق اهقاقذ قع ا قةرلقتيق ل لةلق‪item-based & user-based‬ق ة ق لعقاق اققتي ل قا‪:‬ق ق‬
‫‪User-based‬‬ ‫‪Item-based‬‬
‫ق‬
‫‪1‬‬ ‫ق‬ ‫‪1‬‬

‫ق‬
‫ق‬
‫‪2‬‬ ‫ق‬ ‫‪2‬‬

‫ق‬
‫ق‬ ‫‪3‬‬
‫‪3‬‬
‫ق‬
‫ق‬ ‫‪4‬‬
‫‪4‬‬
‫ق‬
‫ق‬
‫ق‬
‫هنا تشابه ربي العنرصين ‪ 1,3‬واختارهما كل من‬
‫ق‬
‫وبالتاىل يمكن أن يقدم المنتج ‪1‬‬
‫ي‬ ‫المستخدمي ‪1,2‬‬
‫ر‬
‫المستخدمي ‪ 1,3‬بناء عىل مشاركتهم‬
‫ر‬ ‫هنا التشابه ربي‬
‫للمستخدم ‪ 3‬ألنه استخدم من قبل المنتج ‪ 3‬الذي‬
‫وبالتاىل سنقدم المنتج ‪ 1‬للمستخدم‬
‫ي‬ ‫للمنتجي ‪3,4‬‬
‫ر‬ ‫يشبه المنتج ‪. 1‬‬
‫‪3‬‬
‫ق‬
‫ذ قذ قةرلق ق‪collaborative filtering‬ق عا ق م قت ألمقهعضق ت مياتق نقت ألللاقذ ق‬
‫ت ا ق ياءاتق‪data sparsity‬ق قع قي مثقج مق أل قجم قك ةقذ ق اتخمذيقيختا ق‬
‫جم قذ م قذ ق تكاتق با تا ق قيك ق م اقتق ي اتق‪ratings‬ق ا ي ق ك قذ ق‪user, item‬ق‬
‫ل قنات قتقميكق يا قذ ض ق ل اتخموق ع هق ا قتعةقج ق عوب ق نقت ألمقءظاوق‬
‫ت ي قج مق أل قذاتخمذي قألم ق‪ cold start‬ق يس ق م لك قتا اي ق ات ق ميم قي ك مق‬
‫قج مق أل قذ تكاتقألميملق كقيختا عاقهعمقذيقذاتخموق‪.‬ق ق‬ ‫جت ا قجليمق ك‬
‫ق ح يا ق‬ ‫ع قاقج مذاقي حق اتخمذيقذ ق نق ع ارصق م لكق اهلي ق ت ع ق‪scalability‬ق‬
‫قتيقق‬ ‫حذي ق ت ي قع ه قتق ق قذ ا قباه ق تشاهم ق ي قي‬ ‫ئك ق يض ق‬
‫قذ اق اه ق عوب ق ت ضي ق ي اقتي لكقق‪ .‬ق‬ ‫اتخمذيق ق تكاتقج ق مق‬
‫ق ‪hybrid-based‬‬ ‫قذ ا‬ ‫ق خ حذي‬ ‫قءنتق‬ ‫ا ت قذ‬ ‫قع ه ق‬ ‫ي ك ا ق قذ‬
‫‪recommendation‬ق‪.‬ق ق‬

‫‪149‬‬
‫خاتمة ‪:‬‬
‫ق لاي قذجت قج ق ق أق ه ي قذ قتاذج قذ قجلىم ق لخص ق اه ق لتعمي ق قذ ت هق‬
‫إجا لقنشهقذ قيكاقذ م هق ي ق تعكق ائملق عل ي ق م يق ق قذكت ع اقق‪.‬‬
‫تنسون من صالح دعائكم‬
‫ي‬ ‫ال‬
‫العالمي‬
‫ر‬ ‫والحمد هلل رب‬

‫‪150‬‬

You might also like