كورس تعليم الآلة بلغة البايثون الجزء الأول

‫ترجمة كورس من رشكة ‪ IBM‬يف موقع ‪cognitiveclass.
ai‬‬
‫عنوان الكورس‬
‫‪IBM Course with Python ML0101ENV3‬‬
‫ددد ا ق‬ ‫د د دقاقتعلي ي د د د قجمي د د ددملق قذكاءي د د د ق قذك د د ددا ق د د د ا ق‬ ‫ددد ق‬ ‫يق د د ددموقع د د د ق‬
‫قذ د د ددةق‬ ‫ا د د د قذ د د د ق‬ ‫ق ل ل د د دداقذ د د د ق د د د ق‬ ‫د د ددل‬ ‫تت د د ددةقتهاد د دداة ق هتل د د دداق بء لةل د د د ق‬
‫ق د د د د ق ذت د د د ددا قذكد د د ددا ق‬ ‫ذد د د ددمجكقها ذ لد د د د ق للد د د دقاقذكاءيد د د د ق ق قءلايد د د د ق د د د د قذد د د د ل ق د د د د‬
‫‪.‬ق ق‬ ‫كقشلا لقذكاءي قك‬ ‫ل‬
‫قج د د قشد ددلا لق‬ ‫دد‬ ‫ق ا د د ق ا د ددي ق‬ ‫ج د ددمق ءتلد ددا قذ د د قع د د ق م د د وقت ميد ددم ق د د‬
‫د د دددقذ قذتد د دداألكقعد د د ق مد د د وقت ميد د ددم ق ذ د د د ق د د د مق ذ لد د د قذد د د ق‬ ‫د د ددمقذ‬ ‫يد د ددمق أق‬
‫د د د قذ د د د ق‬ ‫ق ت‬ ‫ق‬ ‫ق عد د ددا ق د د د قذ قذ ق اد د ددت يمقذ د د د قي د د د ق‬ ‫تددد‬ ‫هد د ددالقحلد د ددا لق‬
‫ق قذ قهعم‪.‬ق ق‬
‫إعداد ‪ :‬م‪ .‬ضياء الدين أحمد األجرد‬
‫ق‬
‫‪1‬‬
‫الفهرس‬
‫الصفحة‬ ‫المحتوى‬
3 Intro : Machine learning ‫مقدمة إىل تعلم اآللة‬
5 Using Python ‫استخدام البايثون‬
7 Supervised learning ‫اف‬ ‫ر‬
‫التعلم اإلش ي‬
8 Unsupervised learning ‫اف‬ ‫ر‬
‫غي اإلش ي‬ ‫التعلم ر‬
9 Regression ‫مقدمة يف التوقع‬
12 Simple linear regression ‫الخط البسيط‬
‫ي‬ ‫التوقع‬
23 Multiple linear regression ‫الخط المتعدد‬
26 Model Evaluation in Regression Models ‫تقييم عمل نموذج التوقع‬
31 Evaluation metrics ‫مقاييس التقييم‬
33 Nonlinear regression ‫خط‬
‫ي‬ ‫لغي‬
‫التوقع ا ر‬
45 Classification ‫التصنيف‬
48 KNN ‫خوارزمية‬
53 Evaluation metrics in Classification ‫مقاييس التقييم يف التصنيف‬
65 Decision Tree ‫خوارزمية شجرة القرار‬
67 Building Decision Tree ‫بناء شجرة القرار‬
77 Logistic regression ‫المنطق‬
79 Logistic & Linear regression ‫المنطق‬
‫ي‬ ‫الخط و‬
‫ي‬ ‫مقارنة ربي التوقع‬
89 SVM ‫خوارزمية‬
101 Clustering ‫التجميع‬
105 K-means ‫خوارزمية‬
120 Hierarchical clustering ‫الهرم‬
‫ي‬ ‫التجميع‬
133 DBSCAN ‫خوارزمية‬
141 Recommended systems ‫أنظمة التوصية‬
142 Content-Based ‫أنظمة التوصية باالعتماد عىل المحتوى‬
146 Collaborative filtering ‫أنظمة التوصية باالعتماد عىل األفضلية‬
2
‫‪ -1‬مقدمة يف تعلم اآللة ‪:‬‬
‫ق وق يثق‬ ‫ج ق اضقذ ق م اق لي قذرلض قذ قذرلضقذاق قءرلمقذ قء م قع قه ق‬
‫قء ل قج ق ائصقع هق خلي قثكقيقا ق ي ق‬ ‫‪malignant‬قذوق ليكق‪benign‬ق‪،‬ق‬
‫يق ميمق ةلقهقا لقع هق خ ائصقذ قي م ق ا تلاق‪.‬ق ق‬
‫ثكقيك ق م اقتياءاتقك ةلق لعميمقذ ق اضق(ذئاتقذ ق ف)قءضعلاق ي اق اىمق‪dataset‬ق‬
‫اقي ق ق‪ :‬ق‬
‫‪ID‬‬ ‫‪Clean‬‬ ‫‪Unifcell‬‬ ‫‪Uni‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪Marg‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪calss‬‬
‫‪10234‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫…‬ ‫…‬ ‫‪3‬‬ ‫…‬ ‫…‬ ‫‪benign‬‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫‪20350‬‬ ‫‪7‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪malignant‬‬
‫اتق خ ياق ا ي ق م اقذ ق اضق ا تلاقع ق ي قذوق لي قق‬ ‫يضكقع ق كم قذ‬

‫اتق لي قألميملق ا جقع هق ياءاتق ااهق ق‪:‬ق ق‬ ‫ج ق اضقذتت اقذ‬
‫‪2356‬‬ ‫‪4‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫؟‬
‫ق‬
‫يجق نق ه ق آل ق ي م قهم قة يع قع هق خلي ق ق األ ق أل ق‬ ‫ع اقيأ ق ق‬
‫يجقذ كمق اذيق خ ةق‪،‬ق ع قذاقنا يمقها ت ق‪Regression‬ق‪.‬ق ق‬ ‫خ ةقذ قيك ق‬
‫ع اكقذ ا قآ اق قج ق كقج مذاقترلمقذ قتقا قإج ا ق اضق‪ loan‬ق لزب قذوق ق ق( ق‬
‫ق ءةءدقج مذاقتقموق زبائ لاق‬ ‫ج لي قتاىمق‪ approved‬قتث يدقذ قجمذم)ق‪ ،‬ق قذيضاقذ‬
‫تكاتق نقي ضل ءلاق‪.‬ق ق‬
‫ق ق تخايهق‬ ‫ق أل قتاذك قرصل‬ ‫لقإذ اءي ق تعلكق‬ ‫ا‬ ‫إي قتعرلفقتعلكق آل ق‪:‬ققيعطق‬
‫قا ق‪.‬ق ق‬
‫‪Machine Learning is the subfield of computer science that gives‬‬
‫‪computers the ability to learn without being explicitly programmed .‬‬
‫ق‬
‫‪3‬‬
‫ءاتق قءرلمق ت ةق ي اقتي لاق‪،‬قج مق‬ ‫ق‬ ‫قذ ا قآ اق‪:‬ق يك ق م اقذك ج ق‬ ‫م اقك‬
‫ءات ق(ش ق ع ق‪ ،‬ق ي ق‪ ،‬ق ي ق قة م ق‪ ،‬ق أل ق‬ ‫ي قء م ق خ ائص ق ل ه ق‬
‫أل ق ش للقاق‪..........‬قق قغةعاقذ ق خ ائص)ق‪،‬قثكقءض ق جمق‪rules‬قجميملق‪if..then‬ق‬
‫ق‪،‬ق ققع اق م اق ت ا ق‪:‬ق ق‬ ‫ت ميمقءوعق‬
‫ق‬ ‫‪ -‬إذاقناتخموقأل ق خ ائصق ت ميمق ق ت ا تقج قةرل ق ت ا لقذ قأل‬
‫د)ق ق‪.‬‬ ‫ق( ع ق تل كقك ةق ل كالق‬ ‫ة تق‪features‬ق ت ميمقءوعق‬
‫قذك ج ق جمقناتخموق لاقهعضق ة تق ل قنات قج معقاقت ميمق‬ ‫‪ -‬ذ قج مق‬
‫أل ق ا تق‪.‬ق‬
‫ق ات ق ت ا ت ق ن قتاتخمو قذعل ذات قذاتخمذ لا ق مي غا ي ق‬ ‫ك‬
‫‪ demographic‬ق تق يعلك ق‪ segment‬ق ت ميمق ي اقإي ق يات ا ق ق شة ك ق م لاقققققق‬
‫ذ ق ق‪.‬ق ق‬
‫عالق‪games‬قتاتخموقتق ياتق‬ ‫لق‪،‬ق‬ ‫ا‬ ‫ذيضاقت يقاتق‪Chabot‬ق ق ت مثقذ ق‬
‫تعلكق آل ق ق‪ .‬ق‬
‫‪ -1‬أهم تقنيات تعلم اآللة ‪: Major Machine learning techniques‬‬
‫‪ -1-1‬التوقع ‪: Regression / Estimation‬‬
‫تاتخموقع هق تق ي ق لت ق ق ياءاتق ات الق‪ continues values‬ق يثقتقاتخموق‬
‫ذ ق ت قذ عا ق اح قت ا قج قذة تلاق‪،‬قذ ق ت ق ككقغاحق‪co2‬ق عثق‪emission‬ق‬
‫اكق‪.‬ق ق‬ ‫اتق‬ ‫ذ ق ايا تقت ا قج قذ‬
‫‪ -2-1‬التصنيف ‪: Classification‬‬
‫فق اق ذ اق قذ ا ق خ ياقع ق‬ ‫قت م جقت د قذيق‬ ‫ا ق م‬ ‫اتخموق عا ق‬
‫ي قذ ق لي قق‪ .‬ق‬
‫‪ -3-1‬التجميع ‪: Clustering‬‬
‫قذك جات قكت ميم قذك جات ق اضق‬ ‫اتلا ق‬ ‫ق ا ت ق تشاتل قه‬
‫قق‪ .‬ق‬ ‫تشاتل ق قذجا لكق‪،‬قذ قتقايكقحبائ ق‬
‫ق‬
‫ق‬
‫‪4‬‬
‫‪ -4-1‬اليابط ‪: Associations‬‬
‫ق نقت اعق ق قا ي ق(بش ق‬ ‫بيكا ق ع ارصقذ ق م ثق نقتة هطق ق م ثلاقذ ق‬
‫ذة هطقذيقذتعلق قت عضلاق عض)ق لزب ق ق‪ .‬ق‬
‫‪ -5-1‬اكتشاف االختالف ‪: Anomaly detection‬‬
‫ت ميمق ا تق هةقجا ي ق(إيكا ق قيكق شايل)قذ ق كتشافق ا تق ة لاق‪fraud‬ق ق‬
‫ه ا اتق ئت ا ق ق رص فق‪credit card fraud‬قق‪ .‬ق‬
‫المتتاىل ‪: Sequence mining‬‬
‫ي‬ ‫‪ -6-1‬التنقيب‬
‫قتالا ق قا تقج ق ا و ق ق‬ ‫ا قت‬ ‫بيكا ق قت ق ا ق تا ي ق‪ :‬قج ق بي ق‬
‫ق ب مة ءي ق‪click-stream‬ق‪.‬ق ق‬
‫‪ -7-1‬تخفيض األبعاد ‪: Dimension reduction‬‬
‫اتق‪features‬ق نق ا اقه األ ق لاق‬ ‫ءق وقه فقهعضق ع ارصقغةق ل قذ قهعضق‬
‫تخ يضق ككق م تاق م اق‪.‬ق ق‬
‫‪ -8-1‬نظام التوصية ‪: Recommendation Systems‬‬
‫يقاق‬ ‫ضل قذ ق‬ ‫لك قذتعل قه ة ت ق شخاص ق تشاتل قثك قءقمو ق لك ق مت ق‬
‫ضل ق م لكق‪.‬ق ق‬
‫‪ -2‬استخدام البايثون يف تعلم اآللة ‪: Python for ML‬‬
‫يق‬ ‫ق ه ق ول ق‪ powerful‬ق ذتعم لق غا ضق‪ general-purpose‬ق ه قت‬ ‫تعتةق ا‬
‫عميمقذ ق كت اتق م ق تع ا ق ق ه ق آل ق‪:‬ق ق‬
‫اتقذتعم لق هعا ‪Numpy : numerical library‬‬ ‫لتعاذ قذ ق‬
‫‪Scipy : scientific library for numerical algorithms & domain specific‬‬
‫‪toolbox for signal processing – optimization – statistics‬‬
‫ق هعا ‪Matplotlib :‬‬ ‫لا كقث ا ق قث‬
‫قت لي ق ‪ , manipulation analysis‬عياك ق ياءات ‪Pandas : for data structure‬‬
‫إ اجق ياءاتق ت ج قه رلق قجا لاقبش للاق ا ىمق بش قذتالا قذ ق زذ ق ق‪.‬‬
‫‪5‬‬
‫حذياتقتعلكق آل ق‪Scikit-learn :‬‬ ‫قذعكقذكت قتضكق‬
‫ق تالا ق تا ق ق‪ :‬ق‬ ‫قها تخم وقذغل ق كت اتق ااهق ق‬ ‫يثق تكق ع‬
‫تهيئة البيانات ‪Pre-processing of data‬‬
‫اختيار الميزات التي نريدها ‪Feature selection‬‬
‫تخصيص مجال الميزات ‪Feature extraction‬‬
‫تقسيم البيانات إلى اختبار و تدريب ‪train/test splitting‬‬
‫تحديد نوع الخوارزمية المستخدمة ‪defining algorithms‬‬
‫تدريب النموذج ‪Fitting models‬‬
‫ضبط بارامترات النموذج ‪tuning parameters‬‬
‫حساب التوقع باستخدام النموذج ‪Prediction‬‬
‫تقييم النموذج ‪evaluation‬‬
‫‪6‬‬
‫إخراج النموذج النهائي ‪Exporting the model‬‬
‫اف ‪: supervised‬‬ ‫ر‬
‫‪ -3‬التعلم اإلش ي‬
‫ع ق تعليكق يقنشفقجليمق‪observe‬ق قء ألمق‪direct‬قت ي ق لاوق‪execute of tasks‬ق‬
‫م قع اق قء ألمقذ قنشفقج قج قشخصقذاق‪،‬قه قج قء يجقتعلكق آل ق يك ق ا ق‬
‫ق تم لقج ق‬ ‫ج ق تعاذ قذ ق ا تق هةقذتم لقجل لاق ق كميملق‪،‬ق لتكقي قذ ق‬
‫ذك ج ق ياءاتق نقء لملقاق‪:‬ق ق‬
‫‪Teaching the model by data set  that knowledge it can predict‬‬
‫‪unknown or future instances .‬‬
‫قألم ق‬ ‫اتق ياق اض ق م اق‪data set‬ق يثقتك ق‬ ‫قجمءاق ا قتياءاتقذ‬
‫يجقذ وب ق‪labeled‬ق‪:‬ق ق‬ ‫تيك قيع اقإياعاق‬
‫ق‬
‫تدعى هذه بالخصائص ‪ features or attributes‬وهنا خصائص الخاليا‬
‫‪ label‬ق‬
‫‪ed‬‬
‫‪ID‬‬ ‫‪Clean Unicell Uni‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪Marg ….‬‬ ‫‪….‬‬ ‫‪class‬‬
‫‪10234‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫…‬ ‫…‬ ‫‪3‬‬ ‫…‬ ‫…‬ ‫‪benign‬‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫‪20350‬‬ ‫‪7‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪malignant‬‬
‫ق‬
‫قيم الخصائص وتكون رقمية ‪ numerical‬أو نصية ‪categorical‬‬
‫ق‪:‬ق ق‬ ‫ق ألمقء جيق لتعليكق ب‬

‫ق‬
‫ق‬
‫ق‬
‫‪Classification‬‬ ‫ق ‪Regression‬‬
‫التصنيف‬ ‫التوقع‬
‫‪7‬‬
‫‪ -1-3‬التصنيف ‪: Classification‬‬
‫ق‬ ‫لتعاذ قذ ق ياءاتق ختل ق( ي قذ قء ي ) ق يثق تكقت نيفق ياءاتق تشاتل ق‬
‫ذك جاتق اق ذ اق قألم ق ياق اضق يثقء لاق لي قذ ق ي قق‪ .‬ق‬
‫‪Classification is the process of predicting discrete class labels or‬‬
‫‪categories.‬‬
‫‪ -2-3‬التوقع ‪: Regression‬‬
‫عثق‬ ‫قغاحق‪co2‬ق‬ ‫ق يكقألميملقذ قت‬ ‫ق قيكق تشاتل ق ي اقتي لاق ت‬ ‫قبألا ق ت ق‬
‫اتقذ ا اتلاق‪.‬ق ق‬ ‫ذ قج وق ايا تقت ا قج قذ‬
‫‪Regression is the process of predicting continues values.‬‬
‫اف ‪: unsupervised‬‬ ‫ر‬
‫غي اإلش ي‬
‫‪ -4‬التعلم ر‬
‫يجقيكتشفق عل ذاتق نقءرلمقت علاق قت أليمقذ قإ فق يثقءع يمق‬ ‫ع اقءمعق‬
‫ياءاتق ل ق تم لقج ق‪dataset‬ق ذ قثكق ا كق تيك ق‪unlabeled‬ق ع اكقجملقذء عق‬
‫ذ لاق ق‪ :‬ق‬
‫‪ -1-4‬تقليل األبعاد ‪: dimension reduction‬‬
‫الق ت هةق ك لاق تالي ق ت نيفق‪.‬ق ق‬ ‫فقهعضق ياءاتق ز ئملقذ ق‬ ‫ع اق تكق‬
‫‪ -2-4‬تحليل البيانات ‪: market basket analysis‬‬
‫تعت قمق كاتمقج قذء قتكل قذك ج قج ارصقذ قهعضلاق عضقبش قذشاهمقءق وقهكل ق‬
‫ذك ج قغةعاق‪.‬ق ق‬
‫‪ -3-4‬توقع وجود البيانات ‪: density estimation‬‬
‫قهعضق نق تشاتل ق‪.‬ق ق‬ ‫لاقء ألمق ياءاتق نقتتض‬
‫‪ -4-4‬التجميع ‪: clustering‬‬
‫ق ياءاتقها جت ا قج قجملقذذ قذتشاتل ق‬ ‫هقذكةق اقق اتخمذ ق يثق تكقتك‬
‫ي اقتي لاق ذعكق كا تق اتخمذ ق لاق‪:‬ق ق‬
‫ق‬
‫‪8‬‬
‫‪discovering structure‬ق كتشافق ياءاتق تشاتل ق‬
‫ق ياءاتق ق‬ ‫‪ summarization‬قتك‬
‫‪anomaly detection‬ق كتشافق ش ي ق‬
‫اف ‪:‬‬ ‫ر‬ ‫ر‬
‫غي اإلش ي‬
‫اف و ر‬
‫المقارنة ربي التعلم اإلش ي‬
‫‪supervised‬‬ ‫‪unsupervised‬‬
‫‪Regression, classification‬‬ ‫‪ clustering‬ق‬
‫‪ more evaluation methods‬ق‬ ‫‪ fewer evaluation methods‬ق‬
‫‪ controlled environment‬ق‬ ‫‪ less controlled environment‬ق‬
‫ق‬
‫‪ -5‬مقدمة يف التوقع ‪: Regression‬‬
‫ع قذ ق ايا تق‪:‬ق ق‬ ‫جمءاق ا قغاحق‪co2‬ق‬
‫‪ID‬‬ ‫‪Engine‬‬ ‫‪Cylinders‬‬ ‫‪Fuel‬‬ ‫‪Co2‬‬
‫‪0‬ق‬ ‫‪ 2.0‬ق‬ ‫‪4‬ق‬ ‫‪ 8.5‬ق‬ ‫‪ 198‬ق‬
‫‪1‬ق‬ ‫‪ 2.4‬ق‬ ‫‪4‬ق‬ ‫‪ 9.6‬ق‬ ‫‪ 221‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪3‬ق‬ ‫‪3‬ق‬ ‫‪ 9.2‬ق‬ ‫?‬
‫ق‬
‫ق‬ ‫ع ق كم قي ق‪ data set‬ق ءرلمقت ق ي ق هاحق ع قذ ق ايا لق كق‪ 9‬ق‬
‫إءتاأللاقها جت ا قج قتياءاتق ايا تق أل لقذا قاق؟ ق‬
‫ق م اق‬ ‫ق‪ regression‬ق ع اقيك‬ ‫يتكقع قتإنشا قء يجق تعلكق آل قيعت مقج ق ت‬
‫ء جيقذ ق تهة تق ق‪ :‬ق‬
‫ع ‪Dependent variables : Y‬‬ ‫ق قيكق خةق ع اقع ققذكي ق هاحق‬ ‫هقج‬
‫اتق ع ارصق أل لق م اق ق كم ق‪ : x‬ق‪Independent variables‬‬ ‫ق هقذ‬
‫هقذتهة تقذاتقل ق ق ي لاقغةقذات قهقيكقذ ا قءم لا‬
‫‪9‬‬
‫هة قذاتقل ق(‪ )final goal,target,state‬ق قتتعل قها تهة تق‬
‫ذذقا ق تهة ت ق ق‬
‫اتقل ق ءمقت ا قج ق ةق تكقت ق قيكق نقءرل قمقق‪ .‬ق‬
‫ا تق‪states‬ق‬ ‫إيقي ك قذ قءعتةق تهة تق اتقل قج قذءلاقذاب اتق‪causes‬ق تل ق‬
‫نقتظلاق م اق‪.‬ق ق‬
‫تا ق ق ت قع قذ ق ياءاتقذات الق‪continuous‬ق يادقذتق ع ق‪discrete‬ق‬
‫قبش للاق‬ ‫ج ق ق ا ق إ ق تهة تق‪x‬قيك ق قتك ق يكقذقا ق اهل ق لقياوق‬
‫ص ق‪ categorical‬قذ ق ا ىم ق‪ numerical‬قذيقي ك قتم لد د ق يا لاقبش قذات اق‬
‫‪continuous measurement scale‬ق‪.‬ق ق‬
‫يقءق وقهمقذء اقناتخموق ياءاتق ن قتخصق ايا تق م اق‪historical data‬ق‬ ‫إي ق‬
‫قذ قذغل ق يكق اتلاق‪features of their attributes‬ق ألمقء يألاق ت ق‬ ‫أل‬
‫ي ق‪co2‬ق ع قذ ق يا لقألميملقذ قغةقذعا ق لك قع ق قيجقغةقذةذ ق‬ ‫اق‬
‫قذ ق ق اق يق خ طق تا ق‪:‬ق ق‬ ‫رص‬
‫ق‬
‫ق‬
‫‪Histori‬‬
‫‪cal‬‬ ‫ق‬
‫‪CO2‬‬
‫‪expecte‬‬
‫‪New‬‬ ‫‪mode‬‬
‫‪car‬‬ ‫‪l‬‬
‫ق‬
‫ق‪:‬ق ق‬ ‫بش قذ اسق م اقء جا قذ قع ق ت‬
‫قبايطق‪simple regression‬‬ ‫‪ -‬ت‬
‫قذتعم ق‪multiple regression‬‬ ‫‪ -‬ت‬
‫‪:‬ق ق‬ ‫قبايطق مقش‬ ‫ق ي ق‪Y‬قج معاقيك ق م اقت‬ ‫مق‪x‬ق ت‬ ‫ج مق تخم وقذتهةقذاتق ق‬
‫إذاق‪simple linear regression‬ق ق‪simple non-linear regression‬ق‪.‬ق ق‬
‫ق نقتربطق تهة تق اتقل ق هةق‬ ‫قتعت مقج قة يع ق ع‬ ‫ي ق‪linearity‬قع ق ت‬
‫ذاتقل ق ي اقتي لاق ق‪ .‬ق‬
‫‪10‬‬
‫قذ ق وعق‪.multiple‬ق ق‬ ‫ق ي ق‪Y‬قج معاقيك ق ت‬ ‫ذتهةقذاتق ق ت‬
‫ج مق تخم وقذكةقذ ق ق‬
‫لك ق تك ق تخم و ق ت ق‪ regression‬ق ت ق يك قذات ال قذ قذاأ ق تن قها يعاتق‬
‫‪ sales forecasting‬ق‪ ،‬ق يث قي ك قت قذك وع ق يعات ق ا ول ق ل ائ قها جت ا قج ق‬
‫تق خةلق–ق شلا لق–ق ع اق‪-‬ق‪....‬ق ق‬ ‫تهة تق اتقل ق‪X‬ق ق نقت ق(ذ )ق‪:‬ق‬
‫اي ق‪stratification analysis‬قها جت ا قج ق‬ ‫ق تكق تخم وق ت ق ق ت لي تق‬ ‫ك‬
‫جملقج ذ قء اي ق ي غا ي ق ل ا ق ق‪ .‬ق‬
‫اح ق قذ ق قذاقها جت ا قج ق‬ ‫ذيضاق اتخموق ت ق تخ يقذ عا ق‪price estimation‬ق‬
‫ككق ة ق جم قغا مق ق‪....‬قق‬
‫ق–ق‬ ‫ق عاذ ق‪ Employment income‬قها جت ا قج ق اجات ق ع‬ ‫ذيضاق قتخ ي ق‬
‫تق خةلق‪...‬ق‪ .‬ق‬ ‫شاعملق–قة يع ق ع ق–ق كنسق–ق ع اق–ق‬
‫قق‬ ‫ألمق م ةقذ ق كا تق نقناتخموق لاق ت قذ ق ت لي تق ا ي ق تقايطق‬
‫ي ق… ‪ finance,health care, retail‬ق‬ ‫ا جي ق‬
‫ق ق‪ :‬ق‬ ‫حذياتق ت‬ ‫ع ا ق م ةقذ ق‬
‫‪Ordinal regression‬‬
‫‪Poisson regression‬‬
‫‪Fast forest quintile regression‬‬
‫‪Linear , Polynomial , Lasso .Stepwise , Ridge regression‬‬
‫‪Bayesian linear regression‬‬
‫‪Neural network regression‬‬
‫‪Decision forest regression‬‬
‫‪Boosted decision tree regression‬‬
‫‪K-nearest neighbors (KNN) regression‬‬
‫‪11‬‬
‫الخط البسيط ‪: simple linear regression‬‬
‫ي‬ ‫‪ -6‬التوقع‬
‫قت تاجقذيقذعا ق ق كةق خطق تتعلكق ت ق ق خطق هايطق قذاقي ق يع ي ق‬
‫ذعا قشاذل ق تات ق تعاذ قذعمقق‪ .‬ق‬
‫ق ي قغةقذ أل لقذا قاق‬ ‫كق ل اق اهقاقذء اقناتخموقذتهةق مقذ ق خ ائصق ت‬
‫ع ق ا ق هاحق عثقذ ق ايا تق‪:‬ق‬
‫ق‬
‫‪ID‬‬ ‫‪Enginesize‬‬ ‫‪Cylinders‬‬ ‫‪Fuel‬‬ ‫‪Co2‬‬
‫‪0‬ق‬ ‫‪ 2.0‬ق‬ ‫‪4‬ق‬ ‫‪ 8.5‬ق‬ ‫‪ 198‬ق‬
‫‪1‬ق‬ ‫‪ 2.4‬ق‬ ‫‪4‬ق‬ ‫‪ 9.6‬ق‬ ‫‪ 221‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪3‬ق‬ ‫‪3‬ق‬ ‫‪ 9.2‬ق‬ ‫?‬
‫قي ق‬ ‫ق ط قبايطق ت‬ ‫قء يجقت‬ ‫اكق ع‬ ‫ناتخموق قطق ا ي ق كك ق‬

‫هاحق عثق يثق م اق ق‪ :‬ق‬
‫ا ق‪state‬ق ع ق م اقع اق‪Engine size‬‬ ‫ق تهةق اتق ق ع ق‬ ‫‪x‬قي‬
‫ق تهةقغةق اتق ق ع ق لمفق‪target‬ق ع ق م اق ء عاثق‪Emission‬‬ ‫‪Y‬قي‬
‫ق)‪Y(x‬ق‪:‬ق ق‬ ‫ق تهةل قه خ طق‪scatterplot‬ق ت ي قع هق ع‬ ‫اقتا كقع‬ ‫ق‬
‫ق‬
‫‪Y‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪x‬‬ ‫ق‬
‫ق‬
‫‪12‬‬
‫قتي ل اق قء ق ظق‬ ‫ج مذاقتتهةق قي ق ق تهةق‪x‬قتتهةق ي ق‪Y‬ق با تا ق شةق أل قج‬
‫ق خ طق اات قذءلاق ي قق‪ .‬ق‬ ‫ذ ق‬
‫اكق ز ق ء عاثق‬ ‫كقع ق اتقيكق يقي قع هق ع ق يثقهاح يا قق ككق‬
‫قذ قءرلمقت نيعلاق‬ ‫هاحق‪ co2‬ق با تا قي ك اقتخ ي ق ي ق ء عاثق يق يا لقذكل‬
‫م اقهقي ق ائ لاق‪.‬ق ق‬
‫قك ةق م ق‪polynomial‬ق مق ش ق عاوق ق‪ :‬ق‬ ‫تكقت ي قع ق خطق اتقيكقه عا‬
‫‪=𝜃0 + 𝜃1 𝑥1‬ق̂𝑦‬
‫قذ ق‪fit line‬ق يثق‪:‬ق ق‬ ‫قذ ق‬ ‫ياىمقلق طق ت‬
‫‪=𝜃0 + 𝜃1 𝑥1‬ق̂𝑦‬
‫القيمة المتوقعة‬ ‫تمثل نقطة‬ ‫تمثل ميل‬

‫ق‬
‫التقاطع‬ ‫(انحدار) المستقيم‬
‫ق‬
‫قها ذة تق اتقيكق‬ ‫ق تقاة ق‪intercept‬قي‬ ‫إ ق قذ ق ي ق‪slope / gradient‬ق ءق‬
‫قج ق عا ق نا ق ن قت ق‬ ‫ل اق ل‬ ‫ذ قذعاذ تم ق‪ coefficients‬ق يث ق تك ق‬
‫ياءاتق‪data set‬ق نق م اقق‪ .‬ق‬
‫تهةق‪x1‬قهدق‪single predictor‬ق ق‬ ‫يثقناىمق قي ق ت ع قهدق‪response variable‬ق‬
‫ق ا كق يا قهأ قء ألمق‬ ‫قذ ءاقذ قءكالقهعضق قيكق ن ق م اقج قع هق عا قذ ق‬
‫هاحق عث ق ل اك قي ق كك ق‪ x1=5.4‬قءكمقذءم ق‪ 𝑦̂ = 340‬ق م قع ق ق قيق قذ ق‬
‫كم ق‪y=250‬قإي قع ا ق أق ي تمق اققتيق قي ق قيقي ق ت ع ق ي تمق‪90‬قناىمق‬
‫ع ق خ أق ت قق‪residual error‬ق ع قتياءياق اا ق ع ي قتيق ق ق قيقي ق بيق‬
‫ق ق ت ع قج ق اتقيكق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪13‬‬
‫‪The distance from the data point to the fitted regression line.‬‬
‫‪Y‬‬ ‫قق ق‬
‫ق‬
‫قيمة الخطأ‬
‫ق‬
‫ق‬
‫ق‬
‫‪x‬‬
‫ق‬
‫ذ قذ ققذت طقأل ق يكق خ أقبش قتيا قج ق خ طقءقا ق ي اقإي ق ا ق خطق اتقيكق‬
‫قذوق ق ع لي ق ت ق م اق ءعةقج مق لا ياقه عا قذت طق خ أق ‪mean square‬‬ ‫ذا‬
‫‪error‬ق ق‪ :‬ق‬
‫يثق‪n‬قجم ق قطق م اق‪.‬ق ق‬

‫ق ن غق‬ ‫لمفقإيكا ق خطق اتقيكق يقيك ق يمق خ أق‪ MSE‬قذ هاقذاقي ك ق تكقي‬
‫ق‪:‬ق ق‬ ‫قج قذ ض ق يكق ل عاذ تق ع اق م اقةرلقتيق‬
‫تخم وق رلق ق رلا ي ق‪mathematic‬‬ ‫‪-‬‬
‫تخم وقةرل ق ت ايق‪optimization‬‬ ‫‪-‬‬
‫ق‪x1‬ق ع ق ̅𝑥‬ ‫طق ع‬ ‫ي ك اق لا ياق االقذعاذ تق خطق اتقيكقج قةرل قإيكا قذت‬
‫ذت طق ع ق‪y‬ق ع ق̅𝑦قج معاقيك ق م اق‪:‬ق ق‬
‫‪𝜃1‬‬
‫‪14‬‬
‫̅𝑥 ‪𝜃0 = 𝑦̅ − 𝜃0‬‬
‫ظ قع ه ق عا ت ق ق ق هات ق ةذك ق‪ python,R,scala‬قي ك اق‬ ‫ة عا ق ا ا قه األ ق‬

‫إيكا عكقبال ق‪.‬ق ق‬
‫ق رلاضقءكمق ي قع هق عاذ تق ا تا ق‪:‬ق ق‬ ‫آل قهعمق ع‬
‫‪𝜃1 = 39 → 𝜃0 = 125.74‬‬
‫معامل انبعاث الغاز ‪co2‬‬ ‫معامل االنحياز ‪bias‬‬

‫ق‬
‫ق اتقيكق‪:‬ق ق‬ ‫حقتإذ اء اقكتاه قذعا‬ ‫ق آل قذ‬
‫‪=125.74 + 39 𝑥1‬ق̂𝑦‬
‫ق ت ع ق‬ ‫ق قي‬ ‫ق ت ع ق ن قءرلمعاق يث ق‪ x=2.4‬قتك‬ ‫با تا ق قذ ءاق اال ق قي‬
‫‪218.6‬ق‪.‬ق ق‬
‫ق‬ ‫ق اتقيكق‬ ‫ق قإيكا قذعا‬ ‫اق ذ اق ل ق تعاذ ق ق ت ق خطق هايطق يثقت‬
‫ذ ءاقكتاه قذ ا ق‪pros‬ق ت ق خطق هايطقءكمق‪:‬ق ق‬
‫لع ق ق لل ق لكق‪very fast and understand‬‬ ‫‪-‬‬
‫قت تاجق ض طقذعاذ تقذعقملقذ قةاقق‪k-nearest or NN‬‬ ‫‪-‬‬
‫لل ق ت اةق‪high interpretable‬ق‬ ‫‪-‬‬
‫قي ك اق تخم وق كت ق‪scikit-learn‬ق‪.‬ق‬ ‫قه ق ا‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪15‬‬
‫قها تخم وق‪jupyter notebook‬ق‪:‬ق‬ ‫ق م ق ق ا‬ ‫ء مذق آل قتت‬
‫‪16‬‬
17
18
19
‫ق‪Spyder‬ق ق‪ :‬ق‬ ‫اقءق وقتتكرب ق م ق‬
‫‪20‬‬
21
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪22‬‬
‫الخط المتعدد ‪: multiple linear regression‬‬
‫ي‬ ‫‪ -7‬التوقع‬
‫ا اق‬ ‫ج مقت ألمقذكةقذ قذتهةقذاتق قج معاقي حق ت ق خطقذ ق وعق تعم ق‬
‫اكق إء اقج قجملق ائصقذ ا قق‪ .‬ق‬ ‫اات قهأ ق قءعت مق قطقج ق ككق‬
‫ق‪:‬ق ق‬ ‫بش ق ئيسق ألمقء جا قذ ق ت يقاتق نقتاتخموقع ق ت‬
‫الت‬
‫تأثي ‪ the strength of effect‬ي‬
‫‪ -‬نستخدمه عندما نريد تبيان ‪ identity‬قوة ال ر‬
‫الغي مستقلة أي ‪:‬‬
‫المتغيات ر‬
‫ر‬ ‫المتغيات المستقلة عىل‬
‫ر‬ ‫تمتلكها‬
‫‪Independent variable effectiveness on prediction .‬‬
‫ق ج مءاق تهة تق اتقل ق تا ي ق‪:‬ق ق‬ ‫ا‬ ‫ذ قق م اقء يجق ت ا ق‬
‫دق ا ألع ‪revision time‬‬
‫ل ق ذت ا ‪test anxiety‬‬
‫ارص ت ‪lecture attendance‬‬ ‫ض ق‬
‫كنس ق‪gender‬‬
‫قتل هق تهة تق اتقل ق‬ ‫ا‬ ‫ق‬ ‫قذات‬ ‫ت ق خط ق تعم قع اق ي قذم قتأثاقت‬

‫ج مذاقءقاقع ق ا ق ك قذتهةق‪:‬ق ق‬
‫‪and….. have any effect on the exam performance of‬ق‪….,‬ق‪,‬ق‪…..‬ق‪Does ….,‬‬
‫?‪student‬‬
‫الت تحدث ‪predicting impacts of :‬‬
‫التغييات ي‬
‫ر‬ ‫تأثيات‬
‫‪ -‬نستخدمه لتوقع ر‬
‫‪changes‬‬
‫ذي ق لكقكيف قتتهةق تهة ت ق هةقذاتقل قج مقتهةق تهة ت ق اتقل قذيقكيف قتتهةق‬
‫قج مذاقءا قتيا قشخصقذرلضق ا ت ق خطق‬ ‫ءتيك ق ت قتتهةق تهة تق اتقل ق‬
‫تعم قي ك مقإ ا ءاقكيفق تهةق هطق موق( ع قذ قع ةاق‪)up or down‬قج مق قحلا لق‬
‫ذ قءق ا ق ق ح ق رلض ق‪ BMI‬ق ل رلضق‪ Patient’s Body mass index‬قذ قث اتقهقي ق‬
‫ع ذ ق‪holding other factors constant‬ق‪.‬ق ق‬
‫‪23‬‬
‫ةلق م قناتخمذلاقع اق با تا قت ميمق‬
‫ق اقع ق ق ت ق خط ق هايطقتك ق ع قك ق‬
‫ذيقذ قع هق تهة تقت ثاقج قءتيك ق ت قذيق ق‪ :‬ق‬
‫⋯ ‪Co2Em = 𝜃0 + 𝜃1 . 𝐸𝑛𝑔𝑖𝑛𝑒𝑆𝑖𝑧𝑒 + 𝜃2 . 𝐶𝑦𝑙𝑖𝑛𝑑𝑒𝑟𝑠 + 𝜃3 . 𝐹𝑢𝑙𝑒 +‬‬
‫اتقيك ق لاق ش ق تا ق‪:‬ق ق‬ ‫با تا ق قي ق ت ع قألم قشعاجيق‬
‫𝑥 ∗‪𝑦̂ = θ𝑇 .‬‬
‫‪dot product between parameters vector and features set vector‬‬
‫ق 𝑇‪ θ‬قشعاع ق(‪)n*1‬ق‬ ‫قذ‬ ‫ق ق ضا قذتعم ق هعا ق‪ multi-dimension space‬قتك‬
‫ل ا ذة تق كل ق شعاعق‪x‬ق‪.‬ق ق‬
‫ق لاق ش ق‪:‬ق ق‬ ‫ق ت‬ ‫تم قع هق ا ذة تقذ ح ق(‪)weight‬قشعاعقذعا‬
‫] 𝑛𝜃 … ‪θ𝑇 = [𝜃0 , 𝜃1 , 𝜃2 , 𝜃3 ,‬‬
‫شعاعق تهة تق اتقل ق ق‪ :‬ق‬
‫‪1‬‬
‫‪𝑥1‬‬
‫‪𝑥2‬‬
‫‪𝑥 = 𝑥3‬‬
‫‪.‬‬
‫‪.‬‬
‫] 𝑛𝑥[‬
‫قق ضا قذ ا يق عمقت حقذعا ق ت ق خطقذاتقيكق اق ق ت ق خطق هايطق م ق‬
‫قق ضا قذتعم ق هعا ق(ذيقذكةقذ قذتهةق‪)x‬قي حقذات يق لم قج معاق‪plane or hyper-‬‬
‫‪plane‬ق ع ق اتخموق ق ت ق خطق تعم ق‪.‬ق ق‬
‫لتكقإيكا قع ق ات يقتإيكا قذ ض ق ي ق ل عاذ تقثيتاق أل قت قذ ض ق ي ق للمفق‬
‫ق‪ dataset‬ق م اق‪،‬ق اق ذ قاق اهقاقذء اقء تاجق ت ق قي قذ ق‬ ‫‪ target‬ق ق ق اقذ ق‬
‫ء هاق خ أق م ق بذ ا ق‪.‬ق ق‬
‫أق‪،‬قإي قكيفقء م ق يكقع هق ا ذة تق؟ ق‬ ‫أ ض ق ا ذة تقهق نقتعطقذ ق ي ق‬
‫‪24‬‬
‫ق ت ع ق‬ ‫ذ اق ق ت ق هايطقكيف قء ا ق خ أق‪ residual error‬ق اق قتي ق قي‬
‫قذعا ق خ أق‪MSE‬قق‪ .‬ق‬ ‫قي ق قيقي ق ك‬
‫ذذاق ق ت ق خط ق تعم ق ألمقةرلق قذ ا ق يث قءق و قتت هة ق‪ MSE‬ق ك ق قيكق‬
‫ت ع ق قي قتتخ يقذ ض ق يكقثيتاقذ ا ق ذكةق اققش جاق قتخ يقع هق قيكق‪:‬ق‬
‫‪ The ordinary least squares -‬ق‪ :‬ق يثقتعت مقج قإيكا قذ هاق ي ق‪ MSE‬ق ك ق‬
‫ق ياءاتق‪dataset‬ق م اق م قع هق رلق قذعقملق ااتياق قتاتلل ق‬ ‫اقذ ق‬
‫ق‬ ‫ق ياءاتقذكةقذ ق‪10k‬ق اق‪،‬ق‬ ‫اقج مذاقيك ق م اق قذ‬ ‫دقك ةق‬
‫ي ك اق ت كةقها تخم ذلاقج مقذ قذ قع ق عم ق‪.‬ق‬
‫‪ Optimization approach -‬ق‪ :‬قتاتخمو قتكا قج لي قت هة ق خ أ ق ل يج قج ق‬
‫ياءاتق نقءتم لقجل لاق‬
‫‪Minimizing the error of the model on your training data .‬‬
‫حذي ق‪ Gradient Descent GD‬ق ن قت مذقهقيكقجش ئي ق دقثيتاق‬ ‫ي ك اقذ ق تخم وق‬
‫ق ق ي ق مقق‪ .‬ق‬ ‫ق قذالقء ا ق خ أق قء ا ق‬ ‫ثكقءعيمقتكا ق ااتلاق‬
‫اق ق‪ .‬ق‬ ‫قج مذاقتك ق ياءاتق خ قذيقذكةقذ ق‪10k‬ق‬ ‫رلق قذ ا‬ ‫ع هق‬
‫ل اقج ق‬ ‫ق‬ ‫ق ء ا لاق‬ ‫ق ت‬ ‫لاق قذعا‬ ‫قج قذ ض ق يكقثيتاقءع‬ ‫هعمق‬
‫قيكقق‪:‬ق ق‬
‫⋯ ‪𝑦̂ = 125 + 6.2 𝑥1 + 14 𝑥2 +‬‬
‫‪Engine Size‬‬ ‫‪Cylinder‬‬

‫اكقإي قتأثةق‬ ‫قا ء ق يكقثيتاق ك ق تهةل قءكمق ي تلاق لدق‪ Cylinder‬قذكةقذ لاق ككق‬
‫اكق‪.‬ق‬ ‫‪cylinder‬قج ق ي قغاحق‪co2‬ق عثق ت ع قذكةقذ قتأثةق ككق‬
‫ئل ق ق‪ :‬ق‬ ‫آل ق م اقهعضق‬
‫الخط البسيط ومت نستخدم المتعدد ؟‬
‫ي‬ ‫‪ -1‬مت نستخدم التوقع‬
‫اق ذ اق اهقاق ع مق تخم و قذكة قذ قذتهة قذاتق ق ت ق ي ق لمف قناتخموق‬
‫ت ق تعم قق ج مذاقيك ق م اقذتهةقذاتق ق مقناتخموق هايطقق‪ .‬ق‬
‫ق‬
‫‪25‬‬
‫الت يمكننا استخدامها يف التوقع المتعدد ؟‬‫المتغيات المستقلة ي‬ ‫ر‬ ‫‪ -2‬كم عدد‬
‫ع قناتع قأل ق تهة تق؟ق ع قءضيفقذتهة تقذ ا ق زلا لق ق ت ق؟ق ق‬
‫قي ك قذ ق اه ق‬ ‫قءظرل قذ‬ ‫بش قجاوقإ قحلا لقجم ق تهة تق اتقل ق ق‬
‫ء يجقت قغةقذ ئكق‪over-fit model‬ق ع قه مقي تمقذش ل ق قيقي ق ءمق ياه ق‬
‫تعقيم ق ل ياءاتق ااهاتق قء سق دق يسق ا ياق لت ق‪.‬ق ق‬
‫قذ ق ض قتك ق تخم وق عميمقذ ق تهة تق ذ قي ق ألمقةاقق تك ق‬
‫م ثقذش ل ق‪overfitting‬ق‪.‬ق ق‬
‫المتغيات المستقلة مستمرة ؟‬
‫ر‬ ‫ينبغ أن تكون‬
‫ي‬ ‫‪ -3‬هل‬
‫بش ق ئيس قذ قجاو قي ك ق تخم و ق تهة ت ق ي ق‪ categorical‬قهعم قت ولللاق‬
‫لش ق ا ىمقذ ق ق‪ :‬ق‬
‫م اق يا لقء جلاقذ ت ذاتي قذ قجا يقج معاقي ك اقذ قء اضقإ ق اءدق‪automatic‬قذ ق‬
‫تأ ق قي ق‪1‬ق إ ق اءدق‪manual‬قذ قتأ ق قي ق‪0‬ق‪.‬ق ق‬
‫الغي مستقلة ؟‬‫المتغيات المستقلة و ر‬ ‫ر‬ ‫ه العالقة ربي‬
‫‪ -4‬ما ي‬
‫قع هق ع قتي ق تهة تق‬ ‫ت ق تعم قع ق ا ق ا قذ ق ت ق خط ق‬
‫اتقل ق ق هةقذاتقل قتك ق ي ق ع ا قجملقةاقق ت ا ق ي قع هق ع ق‬
‫قج مق لاق تك قغةق ي قتياءياق‬ ‫ذ ق تخم وق ا كق يا ق‪scatter plots‬ق‬
‫ءنتق قج معاق لت ق هةق طق ق‪ .‬ق‬
‫‪ -8‬تقييم عمل نموذج التوقع ‪: Model Evaluation in Regression Models‬‬

‫ق ق‬ ‫لمفقذ ق ت قع قت ا قء يجق ت قهم ق ا تق كميملقذ ق كل ق‬
‫ق‬ ‫يج ق يتك قي قذ ق‬ ‫لاي قجل ا قذ قءكاي قتق يك ق‪ evaluation‬ق ل ق‬
‫ةرلقتي‪:‬ق ق‬
‫ت ا قج قء سق ياءاتق ن ق م اق ‪train and test on the same‬‬ ‫‪ -‬تم ل ق ق‬
‫‪dataset‬قق‪.‬‬
‫ت ا قج قألز قآ اق‪train/test split‬‬ ‫‪ -‬تم ل قج قألز قذ ق ياءاتق م اق‬
‫م و قذقا يس ق‪ metric‬ق م ق‬ ‫ذ قت ميمقذ ا ق‪ pros‬ق ذاا ئ ق‪ cons‬ق قةرلق ق‬
‫‪accuracy‬ق ايجق ت ق‪.‬ق ق‬
‫ق‬
‫‪26‬‬
‫‪ -1-8‬التدريب و االختبار عىل نفس البيانات لدينا ‪:‬‬
‫يجق يق ل اق‬ ‫ج مذاقءختا قةرلق قذاق تق يكقء يجقيأ ق ا ق‪:‬قكيفقءقيسق ق‬
‫إ يمق ختةهقع قع ق قأليمقذوق ق؟ق كيفقء قه اق ل اقإ يمق؟قذ مق ل قع قذ قءعطق‬
‫يجقألز ق‪portion‬قذ ق ياءاتق نق م اقذ ق ءكربددلاقجليمق ة قع ق يت قء سق‬
‫تيك ق قيقي ق م اقذوق ق!!!ق ق‬
‫قذ ا اق ت ق ء عاثقغاحق‪co2‬قذ قج وق ايا تق تخمذ اق لاقأل ق ياءاتق نق‬
‫ف قذ ق‪ 0‬قإ ق‪)9‬قذيق اقها تم ل قجل لاقأل يعلاق قكقها ت ا ق‬ ‫م اق(ذيقأل ق‬
‫يجق‪.‬ق ق‬ ‫فقذ ق‪6‬قإ ق‪9‬قه يثقناتخمذلاق لت ق قذ ق ق‬ ‫ذ قج ق‬
‫إي قذ حق م اقذك ج قتم ل ق‪train‬قذ ق‪0‬قإ ق‪9‬ق ذك ج ق ت ا ق‪test‬قذ ق‪6‬قإ ق‪9‬قق لاق‬
‫ق قه ق قيكق ق‬ ‫يكق قيقي ق م ق قناتخمذلاق ق ت ق إء اق قطق لت ق قج ق‬
‫ج ق‪EmCo2‬ق تم ق‪Actual values‬ق‪.‬ق ق‬
‫يجق يق‬ ‫آل قء ا ق دق‪ features‬ق(ذك ج ق ت ا ق ن ق ةءاعاقذ ق‪ 6‬قإ ق‪)9‬قإ ق‬
‫يجق بيق قيكق قيق ق‬ ‫ب اهق ءا قذاي ق ت ق اق‪،‬قثكقءكايقذقا ء قتيقذاق ت عمق اق‬
‫يجقذ قجمذلاق ق‪ .‬ق‬ ‫نق م اقذ ق‪،‬ق ع قذ ق م ق‬
‫يجق م قذغل لاقيعت مقج ق‬ ‫ق‬ ‫ألمق عميمقذ ق قا يسق نقءعت مقجل لاق ت ميمق‬
‫تقا لقتيق قيكق ت ع ق ق قيكق قيقي ق‪.‬ق ق‬
‫قيقي ق𝑦ق‬ ‫ط ق خ أقتي ق قيك ق‬ ‫ق تا ي ق ن قت ا قذت‬ ‫ذ مقع ه ق قا يس ق عا‬
‫ت ع ق̂𝑦ق‪.‬ق ق‬
‫ق‬
‫ت ا قج قء سقذك ج ق ياءاتق‬ ‫رلق ق ق تق يكقءكايق تم ل ق ق‬ ‫قع هق‬ ‫إي ق‬
‫قتت ةقها تا ق ق‪ :‬ق‬
‫‪27‬‬
‫قتم ل قجا ي ق‪high training accuracy‬‬ ‫‪-‬‬
‫ق‬ ‫يجقذ‬ ‫ق‬ ‫‪ -‬ق قذ خ ض ق ا جق ع اتق‪low out-of-sample accuracy‬ق‬
‫يعلكقتياءاتمق نق تخمذدق ق تم ل قق‪.‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪All‬‬ ‫‪Training‬‬ ‫‪Test‬‬ ‫ق‬

‫‪dataset‬‬ ‫‪data‬‬ ‫‪data‬‬ ‫ق‬
‫‪dataset‬‬ ‫‪datase‬‬
‫قتيقعاتيق ق تيق ق‪ :‬ق‬ ‫ل‬
‫‪t‬‬ ‫ً‬
‫أوال حالة الدقة العالية ‪:‬‬
‫يجقج مق تع ا قذك ج ق ت ا ق‬ ‫ي ق نق ألمعاق‬ ‫نا ق ئول ق لت عاتق‬
‫قذ ك ق‬ ‫ج ق ق ا ق إ ق م ق عا ي ق يادقها رص لقذ قتك قس قأليمق ذاق‪،‬ق‬
‫يجق‬ ‫أل قعك قذذاقذ ق اه ق ا ق‪ over-fit‬قذيقي حقغةقذ ئكق ل ياءاتق تعم ق‬
‫ذا ل ق ت ق قيم ق ق ا ق ك ق تشولمق ل ياءاتق ت ع ق‪.‬ق ق‬
‫ً‬
‫ثانيا حالة الدقة منخفضة ‪:‬‬
‫قء تاجق‬ ‫ع قباه قذءمق تكق ت ا قج قتياءاتقذ ق ا جقذك ج ق‪dataset‬ق م اق‬
‫يجق‪.‬ق ق‬ ‫ت ايقع هق نا ق ئول قها ءتقا ق ل رلق ق اءي ق تق يكق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪28‬‬
‫‪ -2-8‬تقسيم البيانات ‪: train/test split‬‬
‫تاق‬ ‫ع اق تكق تخم وقألز قذ ق ياءاتق لتم ل قذ قذ ق‪0‬قإ ق‪5‬ق ق قي قذ ق‪6‬قإ ق‪9‬ق‬
‫ءتات قت سقتاتي ق تالا ق ق رلق ق ااهق قذ ق االق خ أق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪All‬‬ ‫‪Training‬‬ ‫‪Test‬‬ ‫ق‬
‫‪dat‬‬ ‫‪data‬‬ ‫‪data‬‬ ‫ق‬
‫‪ase‬‬
‫ق آ ا ق ت ‪t‬ا ق‬ ‫لي قج قهعض قذ مع ا ق لتم ل‬ ‫قذ‬ ‫ع ا قتك قتقايك ق م تا ق كزذ‬
‫‪mutually exclusive‬ق‪.‬ق ق‬
‫يجقج قألز ق ءختةقج قألز قآ اقذ اق زلمق نا ق ئول ق لم ق‬ ‫تل هق رلق قءم لق‬
‫ق ا ق‪out-of-sample‬قق‪ .‬ق‬
‫يجقج قذك ج ق ت ا قء الاقتلمفقذ ق قءخشقذيقذ ق‬ ‫ذ قثكقءق وقتتم ل ق‬
‫قذ قتك قي تق ي ق‪.potentially valuable‬ق ق‬ ‫ت‬ ‫ياءاتق م اق ق‬
‫قذش ل قتقايكق ياءاتقذ لاق لتم ل قققق‬ ‫ذ قذ قع هق رلق قذ ض قذ ق اهقتلاق ق م قت‬
‫قذ لاق ت ا قق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪29‬‬
‫ق‪k=4‬ق قاكق ياءاتق‬ ‫قتم ق‪k-fold cross-validation‬ق‬ ‫قع ا قةرلق ق‬
‫ب د قذألز قه يثق ققتم قتياءاتقألز قها كز ق آل قاق اقي ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ق‬
‫األول واالختبار على البقية‬ ‫الثاني واالختبار على البقية‬
‫‪All‬‬
‫ق‬
‫‪da‬‬
‫‪tas‬‬ ‫ق‬
‫‪et‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ندرب النموذج على ‪ %25‬الجزء‬
‫الثالث واالختبار على البقية‬ ‫الرابع واالختبار على البقية‬
‫ق‬
‫ق‬
‫طق‬ ‫ق ت‬ ‫ءتيك ق م قذ قذا ل ق‪%80‬ق اءي ق‪%84‬ق ا ق‪%82‬ق ا هع ق‪%86‬قثكقءأ‬
‫قج ق م ق كلي ق ل يجق‪:‬ق ق‬ ‫اا ق لك ق‬
‫‪ AVG(80+82+84+8) = 83% = Accuracy‬ق‬
‫ءنت مقذ ق قألز ق‪fold‬قذت اجمقج ق آل اقذيق ق ألمقتياءاتقتم ل ق ق اكقتك قذ أل لق ق‬
‫اكقآ اق لتم ل ق قها تا ق ل اقج قنا قثاتت قذ ق نا ق ئول ق لم ق ققق ا ق‪out-‬‬
‫‪of-sample‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪30‬‬
‫مقاييس التقييم ‪: evaluation metrics‬‬ ‫‪-9‬‬
‫يجق هقتش ق ت يق‬ ‫نتعافقج قذقا يسق م ق‪accuracy metrics‬ق تق يكق‬
‫يج ق ق ا ق ت ق‬ ‫يج ق‪ ،‬ق ت مث قج ق قا يس ق ن قتقيك ق‬ ‫ا قذ ق‬
‫‪regression‬ق‪:‬ق ق‬
‫قذ ا قاق اات قهم لياقًق قا قتيق قيكق قيقي ق ك ج ق ت ا ق قيكق نقق‬
‫يجق م اقق‪ .‬ق‬ ‫ت علاق‬
‫قياوق م ق يقي م ق اقذيق قاة قذ ق ااوق نقت تاجق لت ولاق‪.‬ق ق‬
‫ذ قع هق اقق‪:‬ق ق‬
‫خ أق نانق ل ق‪Relative Absolute Error RAE‬‬ ‫‪-‬‬
‫ذت طق خ أق ل ق‪Mean Absolute Error MAE‬‬ ‫‪-‬‬
‫ذت طقذرب د ق خ أق‪Mean Squared Error MSE‬‬ ‫‪-‬‬
‫أل قذت طقذرب د ق خ أق‪Root Mean Squared Error RMSE‬‬ ‫‪-‬‬
‫ع ا قةاققذ ا ق‪،‬ق م قءا قذ ق قع هق اققذتعلق قهقي ق خ أق‪،‬ق اقع ق خ أق‬
‫م اق ق ت ق‪:‬قع ق اققتيق قي ق قيقي ق ق قي ق ت ع ق هق اا ق شا ي ق‬
‫ي ق ق ش ق‪:‬ق ق‬
‫ق‬
‫‪Y‬‬
‫ق‬
‫قيمة الخطأ‬
‫ق‬
‫ق‬
‫ق‬
‫‪x‬‬ ‫ق‬
‫ق‬
‫اقق نق‬ ‫ءمقيك ق م اقجملقءقاطق قها تا ق م اقجملق يكق لخ أق تكق ااتلاقتإ م ق‬
‫يكاءاعاق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫‪31‬‬
‫وه أبسط الطرق ‪:‬‬
‫‪ -1-9‬متوسط الخطأ المطلق ‪ MAE‬ي‬
‫ق‬
‫ق‬
‫ق‬
‫ق هاه ق أل ق ةب ق‬ ‫‪ -2-9‬متوسط مرب ع الخطأ ‪ MSE‬ق ه قذشلاقذ ق رلق ق‬
‫ا عا قذ ألل ق‪ geared‬قإ قذكة ق أ قذ أل ق ق ياه ق ت اع ق خ أ قبش قذسق‬
‫‪exponentially‬ق م اقذقا ء قها خ أق هةق‪:‬ق ق‬
‫ق‬
‫‪ -3-9‬جذر متوسط مربعات الخطأ ‪ RMSE‬ق ذةتلا قذ قع ه ق قي ق تك قتأ لللاق‬
‫‪interpretable‬ق ءلاقتع ق سق ملق شعاعق‪y‬قذ اق ال ق تعاذ قذعمقإ قء سق أل ق‬
‫ك ةق م ق م اق‪:‬ق ق‬
‫ق‬
‫ق‬
‫‪32‬‬
‫النست ‪ RAE‬ق ياىمقذيضا ق‪ Residual Sum of Error‬ق يثق تكق‬ ‫ي‬ ‫‪ -4-9‬الخطأ المطلق‬
‫تع ا قذت طق قيكق قيقي ق̅𝑦ق ق‪ :‬ق‬
‫| 𝑗̂𝑦 ‪∑𝑛𝑗=1|𝑦𝑗 −‬‬
‫= 𝐸𝐴𝑅‬
‫|̅𝑦 ‪∑𝑛𝑗=1|𝑦𝑗 −‬‬
‫النست ‪RSE‬‬
‫ي‬ ‫بيغ‬
‫‪ -5-9‬الخطأ الي ي‬
‫‪2‬‬
‫) 𝑗̂𝑦 ‪∑𝑛𝑗=1(𝑦𝑗 −‬‬
‫= 𝐸𝑆𝑅‬ ‫‪2‬‬
‫)̅𝑦 ‪∑𝑛𝑗=1(𝑦𝑗 −‬‬
‫ع قك ةق تخم وق قذكا قجلكق ياءاتق‪Data Science‬قبيكا قذاق اىمق‪R-squared‬ق‬

‫يجق‪:‬ق ق‬ ‫ع ق يسق خ أقه مقي تمق‪per se‬ق إء اقذقياوق م ق‬
‫𝐸𝑆𝑅 ‪𝑅 − 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 = 1 − 𝑅𝑆𝐸 ≡ 𝑅 2 = 1 −‬‬
‫ق لقيكق ت ع ق ل اق‬ ‫يثقيعةقج قذم ق الق قيكق قيقي قذ ق خطق اتقيكق‬
‫يجقذ ض ق‪.‬ق ق‬ ‫ح تق ي ق ‪𝑅 2‬ق ل اق ا ق‬
‫قع ه ق اق ق ااهق قتقيس ق م ل قء يأل قج ق ت ق ت ميم قذي قذ لا قناتخموق‬
‫يجق قءوعق ياءاتق قذكا ق عا ق مي ق ق‪ .‬ق‬ ‫ذت فقج قءوعق‬
‫خط ‪: non-linear regression‬‬
‫ي‬ ‫الغي‬
‫‪-10‬التوقع ر‬
‫ق ل ي ق‪China’s Gross Domestic GDP‬ق‬ ‫ق ا ق م قاقذ ق قتياءاتق بأل ا ق‬
‫ق ا يق‪annual gross domestic‬قهع ل ق‬ ‫ذ قجاوق‪1960‬قإ ق‪2014‬ق م ق‬
‫م ق‪US‬قذيق م ق ا يق‪income‬ق ق‪ :‬ق‬
‫‪ID‬‬ ‫‪Year‬‬ ‫‪Value‬‬
‫‪0‬ق‬ ‫‪ 1960‬ق‬ ‫‪ 5.9 e+10‬ق‬
‫‪1‬ق‬ ‫‪ 1961‬ق‬ ‫‪ 4.9 e+10‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪ 1969‬ق‬ ‫‪ 7.8 e+10‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪33‬‬
‫ج ق كقع هق ياءاتقيك ق لاقش قتات قذسق يسق طق‪:‬ق ق‬
‫ق‬
‫‪GD‬‬
‫مستقيم التوقع الخطي‬
‫‪P‬‬ ‫ق‬
‫تابع أسي‬
‫ق‬
‫ق‬
‫‪Year‬‬
‫‪2005‬‬ ‫‪2010‬‬ ‫ق‬
‫يق‪:‬ق ق‬ ‫ع اق م اق‬
‫‪ -1‬ع قي ك قت ق‪GDP‬قت دقذاق؟‬
‫‪ -2‬ع قنات قت ا قء يجقت ق طقبايطق ل هق ياءاتق؟‬
‫قيق قج مذاقءا قذ ق ياءاتقتش قذ ن قذعوجق‪ curvy trend‬ق ل قيعط ق ت ق خطق‬
‫َّ‬
‫ءتائ ق يق ق‪،‬ق ءمقي قه اتقيكق ع اق‪GDP‬قج تلاق ول قذ ق زذ ق يادق ي ق‪.‬ق ق‬
‫يثقءا قتهةقبايطق قيكق‪GDP‬ق نقجاوق‪2005‬قثكقت عمقهعمعاقبشج قثكق تهةقت ط قهعمق‬
‫قء تاجق‬ ‫جلكق‪ 2010‬ق‪،.‬ق ل ق ش مقتات قذس ق‪ logistical or exponential function‬ق‬
‫ت قغةق طقق ش مقه عا تمق ش ق تا ق ق‪ :‬ق‬
‫𝑥‪𝑦̂ = 𝜃0 + 𝜃1 𝜃2‬‬
‫تك قذل ت اقإيكا ق ا ذة تقثيتاق‪.‬ق ق‬
‫قهعمل قذء اط ق ط ق‪ linear‬قذ قتربيغ ق)‪quadratic(parabolic‬ق‬ ‫ي ك اقج قء يج ق ت‬
‫ذكعنق‪cubic‬ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫خطي‬ ‫تربيعي‬ ‫تكعيبي‬
‫ق‬
‫‪34‬‬
‫تة يمق م أل قه ا ق ياءاتق نق م اق‪.‬ق ق‬
‫ق( ض ) ق‪ in essence‬قذء اقءمج عاقأل يعلاقك ةق م ق ت ق ‪polynomial‬‬ ‫ق‬
‫قتي ق تهة ت ق اتقل ق‪ x‬ق هة قذاتقل ق‪ y‬ق أل قك ةق‬ ‫‪ regression‬ق يث قت م ق ع‬
‫م قه ا ق أل ق‪x‬ق‪.‬ق ق‬
‫م قق يق‬ ‫ق ل ياءاتق نق مي ق‪،‬قإي قذاقع قك ةق‬ ‫ا‬ ‫ق‬ ‫لك ق ءت اهق ءتقا ق‪pick‬ق ت‬
‫ا قأل قذء عق ياءاتق؟ ق‬
‫م قذ ق م أل ق ا ق‪:‬ق ق‬ ‫قك ةق‬ ‫ع قذت فقج قءوعقتياءات ق‬
‫‪𝑦̂ = 𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3‬‬
‫يجقذ ا ق ل ياءاتق ا ي ق‪underlying data‬ق با اغكق‬ ‫جل اقتخ يق يكقثيتاق يك ق‬
‫ذ قذ ق ع قغةق ي ق ي ك اقت ولللاق ع ق ي ق ق! ق‬
‫م ق اات قذ ق م أل ق ا ق ا اق تا ق‪:‬ق ق‬ ‫قجمءاق م ةق‬
‫‪𝑥1 = 𝑥, 𝑥2 = 𝑥 2 , 𝑥3 = 𝑥 3‬‬
‫ق ا تا ق‪:‬ق ق‬ ‫دق عا‬ ‫ذ‬
‫‪𝑦̂ = 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 + 𝜃3 𝑥3‬‬
‫هقك ةق م ق طقي ك اق جت ا هق ا ق ا قذ ق ت ق تعم ق تقليميق ‪traditional‬‬
‫‪ multiple regression‬ق ءع قج معاق تخم وقء س ق آل ي ق ن ق تخمذ اعاق اهقاق هق‬
‫‪ Least squares‬ق ه ق تخ ي ق ا ذة تق كل ق ق ت ق خط ق يثقناغق ت هةق‬
‫ذك وعقذربعاتق ا ققتيق ياءاتق قيقي ق نقت ع اعاقج قةرل ق تات ق خطق اات ق‬
‫ق‪Minimizing the sum of the squares of the difference between 𝑦̂, 𝑦:‬قق‪ .‬ق‬
‫ق هةق طقها ض طق؟ ق‬ ‫إي قهعمق قع قذاقع ق ت‬
‫ع قي قء يجقغةق طقتيق تهة تق اتقل ق هةقذاتقل ق لن غقذ قتك ق̂𝑦قتات قغةق‬
‫طق ل ا ذة تق 𝜃ق يسقها رص لق ل تهة تق‪x‬ق(‪)features‬ق‪.‬ق ق‬
‫ا تقتهةق̂𝑦 ق‬ ‫ق ق‬ ‫لك قش للاقذسق‪،‬ق غا لتىمقق‪،‬قجا يق‪،‬قذ قجملقذش ا قذ ا ق‬
‫ق هةق ط قع قء يجقغةق طق‬ ‫ذات طقتتهةق 𝜃 ق يسقها رص لق قطقج قتهةق‪ x‬قذيق ت‬
‫ل ا ذة تق‪.‬ق ق‬
‫‪35‬‬
‫𝑥 ‪𝑦̂ = 𝜃0 + 𝜃12‬‬
‫𝑥‪𝑦̂ = 𝜃0 + 𝜃1 𝜃2‬‬
‫) ‪𝑦̂ = log(𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3‬‬
‫‪𝜃0‬‬
‫= ̂𝑦‬ ‫) ‪(𝑥−𝜃2‬‬
‫‪1 + 𝜃1‬‬
‫ذ ق‬ ‫ها قاه ق‪ in contrast‬ق ق ت ق خط ق قي ك ا ق تخم و ق‪ least squares‬ق‬
‫ياءاتق ق ت ق هةق طق ج ذاقتخ يق ا ذة تق يسق ل ق ذاقق‪ .‬ق‬
‫قغةق ي قه رلق ق لل ق؟‬ ‫‪ -‬إي قكيفقءعلكقذ ق اأ ق ي قذ‬
‫ض ق ك قث ا ق هعا ق تهة ت ق خرج قها نا ق‬ ‫‪ o‬ك ق ياءات ق ن ق م اق‬
‫ق ي قذ قغةق ي ق‪.‬ق‬ ‫نقي ةق ع‬ ‫لم ق ا‬
‫ت اط ق‪ correlation coefficient‬قتي ق تهة تق‬ ‫‪ o‬ي ك ا ق اال قذعاذ ق‬
‫اتقل ق هةقذاتقل ق‪.‬ق‬
‫قذ الق‬ ‫‪ o‬إي ق اءد ق ي قذعاذ ق ت اط ق ك ق تهة ت ق‪ 0.7‬ق ا ق ق ق ا ع‬
‫لخ ي قتيق م ق ق خرجق ق‪.‬‬
‫‪ o‬ذ قءق وقها تخم وق ت ق خط ق إ ق اءدق تائ قغةقذا ي قءنتق ق لت ق‬
‫هةق طق‪.‬ق‬
‫‪ -‬كيفقء نقء يجقتياءا قإي ق اءدق هةق ي قذ أل لق؟قع اقناتخموقإ م ق اقق‬
‫تا ي ق ق‪:‬‬
‫‪Polynomial regression ‬‬
‫‪Non-linear regression model ‬‬
‫‪Transform your data ‬‬
‫ق تعم قج مذاقءرلمقتيا ق لقتأثةق تهة تق اتقل قج ق تهة تق‬ ‫ءتيك ق‪:‬قناتخموق ت‬
‫هةقذاتقل ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪36‬‬
‫قذ ا ق‪GPD‬ق ل يقذ قجاوق‪1964‬ق عاوق‪2010‬ق‪:‬ق ق‬
‫حذ ق ق‪ :‬ق‬ ‫ق تة ق كت اتق‬ ‫لق‬ ‫خ‬ ‫‪-‬‬
‫ق‬
‫ق‪y=2x+3‬قذ قهالق ت كالق‪:‬ق‬ ‫قباي‬ ‫ق خطق عا‬ ‫كايق كق لت‬ ‫‪-‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪37‬‬
‫ق هةق طق يك قذ قك ةق م ق أل قثا ق‪:‬ق‬ ‫‪ -‬ذذاق ت‬
‫ق‬
‫ق‬
‫ق‬
‫ةبيغق مق ش ق‪:‬ق‬ ‫‪-‬‬
‫ق‬
‫‪38‬‬
‫ق‬
‫سق مق ش ق ق‪:‬‬ ‫‪-‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪39‬‬
‫ل غا لتىمق‪:‬ق‬ ‫‪-‬‬
‫ق‬
‫ق‬
‫قق‬
‫ق‬
‫ق‬
‫ق‬
‫اك ولمق‪Sigmoidal/Logistic‬ق‪:‬ق‬ ‫‪-‬‬
‫ق‬
‫ق‬
‫‪40‬‬
‫ق‬
‫ق خطق هةق طقهأعكقذش ا مقق‪ .‬ق‬ ‫لع اقج ق اققتيق ت‬‫تل قءك ق‬
‫ق‬
‫ءأ ق آل ق ل ا ق يق م مق ع ق‪GPD‬ق ل يق‪:‬ق ق‬
‫ق‬
‫اقذ لاق‪:‬‬ ‫كت ا قهأ قجشقذ‬ ‫تة ق كت اتق حذ ق ت ي ق ياءاتقذ ق ا هطق‬ ‫‪-‬‬
‫ق‬
‫ق‬
‫ق‬
‫‪41‬‬
‫ي قءا لاق‪:‬ق‬ ‫ي قذوقغةق‬ ‫خاألاتقع ق‬ ‫تق‬ ‫قتيق م‬ ‫آل ق ت ميمق ع‬ ‫‪-‬‬
‫ق‬
‫ق‬
‫ءكمقذ ق ا كق يا قذ ق ع ق ي ق با تا ق ناتخموق ت قغةق خط ق م ق‬
‫ذيقذء جمق ناتخموق‪:‬قك ةق م ق–ق سق–ق ل غا لتىمق–ق اك ولمق‪.‬ق ق‬
‫ء ظ قذ ق ا ك ق يا قذءلاقتز قت ط ق ق م ي قثك قتتاا ع ق ق ط قثك قتعا ق‬
‫ءخ اضق( مق ت ا ق ل ع ق سق م قع قذخا فق يثق سقت مذقت ط قثكقتة يمق‬
‫ق يك ق م ق اك ولمق ي ق اق ل ق ت ق قذ ب اقذ ق‬ ‫ق ءخ اض)ق‬
‫دق‪:‬ق ق‬ ‫ق قة عاقج ق االق كلمق‬ ‫ءكالق سق ءا قذ ل اقذ ض ق قهأوقه‬
‫ق‬
‫ش ق عاوق م ق‪logistic‬ق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪42‬‬
‫ق ل ق تات ق‪:‬ق ق‬ ‫يجقذ قتعرلفق‬ ‫ء مذقتب ا ق‬
‫ق‬
‫قتمق ل ياءاتق م اق ق‪ :‬ق‬ ‫هدق تات ق ة قذم قذ‬ ‫ثكقءض ق يكقذ ي ق‬
‫ق‬
‫ق‬
‫اقءا قذءمق يسقذ ا قه ا تمق ي قإي ق ل ت اق آل قإيكا قذ ض قها ذة تق مق‪.‬ق ق‬
‫‪ -‬ءق وقهع لي قت ظيكق ياءاتق تك قت سق كا ق هقج لي ق‪normalize‬قذيق ا تق‬
‫قء ا قت ظي لاق ا تا ق‪:‬ق‬ ‫ها فقذذقاق‪GPD‬قذا ج ق لق لق‪13‬ق اقءا ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪43‬‬
‫نقناتخموق كت ق‪scipy‬ق‪:‬ق‬ ‫قل‬ ‫ا‬ ‫‪ -‬بألا ق يكقتيتاق‬
‫ق‬
‫لاق ة ق تيك ق ق‪:‬‬ ‫آل قءع‬ ‫‪-‬‬
‫ق‬
‫ق‬
‫ل لق‬ ‫ء ظقذءمقذ ا ق م قع ق قيكقق ن غقذ قء ا ق م قها تخم وقء سق‬
‫ق ت ق خطق‪:‬‬
‫يج قثك ق اال ق قيكق‬ ‫ي قتتقايك ق ياءات ق ت ا ق تم ل ق قذ قثك قتم ل ق‬
‫ت قها جت ا قج قتياءاتق ت ا ق ذ قثكق االق م ق‪:‬ق ق‬
‫‪44‬‬
‫ق‬
‫ق‬
‫ق خطق ق هةق طقذ قذذ ل قج لاق‪.‬ق‬ ‫تل قءك ق مقذءل اق ت‬
‫‪-11‬التصنيف ‪: Classification‬‬
‫‪ -1-11‬مقدمة ‪:‬‬
‫يعتةق ت نيفق قتعلكق آل قذ ق اكق تعلكق ب قق‪supervisor‬ق يثقذ ق مق‬
‫قذك جاتقذ ل ق‬ ‫ي ك قت نيفقجملقج ارصقذكل ق(ذيق قجلكق اقج لا)ق‬
‫ف)قق‪ .‬ق‬ ‫(‬
‫ق أل ل قتي قذك ج قذتهة ت ق‪features‬ق‬ ‫ي ا ق ت نيف قذ ق تعلك ق ع‬
‫لمفق‪target‬ق‪،‬ق يثقيك ق لمفقذتهةق ه يق‪categorical variable‬قهقيكق‬
‫ذ ل ق(ذتق ع )ق‪discrete values‬ق‪،‬ق ا قج قي ق ق‪ :‬ق‬
‫ت قذ حق قا ضق‪leans‬ق لع ق قت قذ قذرصفقذاق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪45‬‬
‫م اقت ق ميمق ا قجموقتاميمق قا ضق ميمق(تخلفقج ق م ق‪)default‬ق‪:‬ق ق‬
‫م اق ياءاتق تا ي ق ق‪ :‬ق‬
‫‪age ed employ address income deb credit order default‬‬
‫‪ 3‬ق ‪ 41‬ق‬ ‫‪ 17‬ق‬ ‫‪ 12‬ق‬ ‫‪ 5,009‬ق ‪ 11.3‬ق ‪ 9.3‬ق ‪ 176‬ق‬ ‫‪1‬ق‬
‫‪ 1‬ق ‪ 27‬ق‬ ‫‪ 10‬ق‬ ‫‪6‬ق‬ ‫‪ 19.2‬ق ‪ 31‬ق‬ ‫‪ 4,0‬ق ‪ 1.6‬ق‬ ‫‪0‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪0‬ق‬
‫ق‬
‫تهةق ةقذ ق وعق‪categorical‬ق ع ق لمفق ءرلمقذ قءت قع ق يم ق زب ق‬
‫قاضق ةت قجليمقذوق قق‪ .‬ق‬
‫قذ حق‪offer‬قذ قذ ق‪decline‬ق عا ضق ا ق ميمق ل ق زب ق ق‪ .‬ق‬ ‫ج معاقي م ق‬
‫ّ‬
‫ناتخموق ياءاتق نق م اق ا قذ فق‪classifier‬قء ا ق مقتياءاتقذيقحب قألميمق‬
‫لعطق تيك قإذاق‪1‬قذيق‪defaulter‬قذ ق‪0‬قذيق‪not defaulter‬ق‪.‬ق ق‬
‫ءا قذ قءوعقع ق ت نيفقث ا ق‪ binary‬ق ءمق اتخموق ي تي ق ق خرجق‪ 1‬قذ ق‪ 0‬ق اق‬
‫ّ‬
‫ي ك اقت ا قذ فق أل قجمل قذ اف ق‪ multi-class classification‬قذيق يسقث ا ق‬
‫قطق اق قذ ا اق اات ق‪.‬ق ق‬
‫ذ قيك ق م ا قتياءات قذاض ق ءرلم قذ قءت قءوع ق عقا ق ي ق ع يم ق ل رلضق‬
‫كمي قمق‪ :‬ق‬
‫‪age‬‬ ‫‪ sex‬ق‬ ‫‪ Bp‬ق‬ ‫‪ chars‬ق‬ ‫‪ Na‬ق‬ ‫‪K‬ق‬

‫‪ Drug‬ق‬
‫‪ 18‬ق‬ ‫‪m‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugY‬ق‬
‫‪ 16‬ق‬ ‫‪f‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugC‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق ق‬
‫‪.‬‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugX‬ق‬
‫ق‬
‫قققققققع ق تهةق لمفق‪ categorical variable‬ق‬
‫يثق م اقث ثقت ني اتق لم ق ت ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫‪46‬‬
‫ذكا تق تخم وق ت نيفق قذذ قجملق‪:‬ق ق‬
‫ت ميمق يق ئ قذ قءوعق نتىمق زب‬ ‫‪-‬‬
‫ت قع ق زب ق يهةق لعتمق نق يشةلددلاق‪churn detection‬‬ ‫‪-‬‬
‫ت قع ق اتكي ق زب ق‪ respond‬ق عا ضق شك قذوق قذ ق ق ك ج قإج ءات ق‪:‬ق‬ ‫‪-‬‬
‫‪particular – advertising – camping‬ق‪.‬ق‬
‫ت ةق ك وق‪speech recognition‬قق‪.‬‬ ‫‪-‬‬
‫ت ةق طق يمق‪hand writing recognition‬‬ ‫‪-‬‬
‫ت ةقذقا يسق ول ق رلضق‪bio-metric identification‬‬ ‫‪-‬‬
‫ت نيفق ات م تق‪documents classification‬‬ ‫‪-‬‬
‫ق‬
‫ذعظكقع هق شاك قتك ق ائ قج ق تيا قتيقجملق ت ا تقذ قت نيفق تائ ق لتعاذ ق‬
‫ذعلاقذ قت نيفق ةلمق ب مة قع قع ق ‪spam‬قذ ق‪not spam‬ق(ترلمقذ ييقذوق )‪.‬ق ق‬
‫حذياتق ت نيفقذ لاق ق‪ :‬ق‬ ‫ألمق عميمقذ ق‬
‫‪-‬‬ ‫)‪Decision Tree (ID3-C4.5-C5.0‬‬
‫‪-‬‬ ‫‪Naïve Bayes‬‬
‫‪-‬‬ ‫‪Linear Discriminant Analysis‬‬
‫‪-‬‬ ‫)‪K-Nearest Neighbor (KNN‬‬
‫‪-‬‬ ‫‪Logistic Regression‬‬
‫‪-‬‬ ‫)‪Neural Network (NN‬‬
‫‪-‬‬ ‫)‪Support Vector Machine (SVM‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪47‬‬
‫‪ -2-11‬خوارزمية التصنيف ‪: K-Nearest Neighbors KNN‬‬
‫قج ق اض ق او قذز ق ت ا ت قتتقايك قحبائ م قإ ق ئات قج قذ او ق خمذات ق نق‬
‫ق كم ق تا ق ق‪ :‬ق‬ ‫يقمذلاق لكق‬
‫‪ Y : dependent‬ق‬
‫‪X : Independent‬‬
‫‪ variables‬ق‬
‫‪variables‬‬
‫‪id‬‬ ‫‪ income customer‬ق ‪ gender‬ق ‪ retire‬ق ‪ employ‬ق ‪ ed‬ق ‪ address‬ق ‪ material‬ق ‪ age‬ق ‪region‬‬
‫‪ categorial‬ق‬
‫‪0‬‬ ‫‪ 44‬ق ‪ 2‬ق‬ ‫‪1‬ق‬ ‫‪4‬ق ‪9‬ق‬ ‫‪5‬ق‬ ‫‪0‬ق‬ ‫‪m‬ق‬ ‫‪2‬ق‬ ‫‪1‬ق‬
‫‪1‬‬ ‫‪ 33‬ق ‪ 3‬ق‬ ‫‪9‬ق‬ ‫‪2‬ق ‪6‬ق‬ ‫‪3‬ق‬ ‫‪1‬ق‬ ‫‪f‬ق‬ ‫‪3‬ق‬ ‫‪4‬ق‬
‫‪..‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪0‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬
‫‪..‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬
‫‪8‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫?‬
‫ق‬
‫‪target‬‬
‫م اق مذاتق ل شةكيقتأ ق ي تلاق تهةق‪Y‬ق اقي ق‪:‬ق ق‬
‫‪Basic service -1‬‬
‫‪E-service -2‬‬
‫‪Phis-service -3‬‬
‫‪Total-service -4‬‬
‫با تا ق شك ق تاتخموق ياءاتق مي غا ي ق تت ق ة تق نق تشةكق لاقذك ج ق‬
‫شةكيق تقميكق خمذاتق‪offers‬ق لكق‪:‬ق‪ individual prospective customers‬ق‬
‫ن نق‬ ‫ع ه ق اأ قتعتة قإ م قذاائ ق ت نيف ق يث ق م اقذ ب د قذك جات ق لخرج ق‪ Y‬ق‬
‫ء يجقت ق لقيكق كميملقذ ق كل ق ناتخموق‪KNN‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪48‬‬
‫ق‪ features‬قذ ق تهة ت ق‪ x‬قذ ق‪:‬ق‬ ‫قذ مئيا قناتخمو ق قط قج‬ ‫ذ قذأل ق قياو قه‬
‫‪age,income‬ق نا لكق‪predictors‬قثكقءا كق زبائ ق ك جاتقت ا قج قع ق تهةل ق‪ :‬ق‬
‫ق‬
‫‪income‬‬
‫ق‬
‫ق‬
‫‪age‬‬
‫‪Basic‬ق‬ ‫‪Eco‬‬ ‫‪Plus‬‬ ‫قق‪Total‬‬

‫آل قءكمقذ ق زب ق كمي قمققققذ الق ل ق قققققذيق ئ ق‪Total‬ق ل قي ك اقذ قءق قذءمقذ قع هق‬
‫قي ق قع ه ق ئ قذ ق رل ق لزب ق كميم ق ‪first-nearest‬‬ ‫ئ ق؟ قءعك قنات‬
‫‪neighbor‬ق م قيأ ق ا ق تا ق‪:‬ق كقهق ث ي قع ق ت نيفق؟قة عاقع قتخ يق عيفق‬
‫اقإ ق اءدق ق ق قرل ق ا ق ا قذ قشايلق‪outlier‬ق‪.‬ق ق‬
‫إي قءع ق ل خ طق اات ق بم قذ قء م قذ قءق ق رل ق لزب قءق وقتت ميمقذ ق سق‬
‫ءقاطق رل ق مق ءا قجم ق قاطق تشاتل ق ي اقتي لاق‪majority vote‬ق ت ميمق فقحب ء اق‬
‫كميم‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق ا ق م اق‪:‬ق ق‬ ‫ق‬ ‫فق ع قذكةقذ قي ق‪more sense‬ق‬ ‫ءكمق أل قث ث قذ قء سق‬
‫حذي ق‪KNN‬ق تا ق ق‪ :‬ق‬ ‫حق م اقققق‪5-NN‬ق با تا قيك قتعافق‬ ‫‪1-NN‬قثكقذ‬
‫م لق‪labeled points‬ق‬ ‫حذياتق ت نيفق نقتأ ق زذ ق‪bunch‬قذ ق قاطق‬ ‫هقذ مق‬
‫تاتخمذلكق ت ميمقعول قهقي ق قاطق يثقتعت مقج ق تشاهمق أل قتي قع هق قاطق‬
‫قرل ق لاقق‪based on their similarity to other cases.‬ق ق‪ .‬ق‬
‫‪49‬‬
‫تاىم قع ه ق قاط ق قرل قذ قهعضلاقذ ق ق ق كميمل قهد ق‪ neighbors‬ق ه قتعت مقج ق‬
‫ا تق تشاتل قذ قء سق فق تك ق رل قج قهعضلاق عضق ق اا قتي ق ق‬
‫ا تيققهقذقياوق ت ا ق‪dissimilarity‬قق‪ .‬ق‬
‫ع ا قجملقةاقق قياوق تشاهمقذ قبش قذعاكسق ياوق ت ا قذ قةرلق ق ‪Euclidian‬‬
‫‪distance‬ق نتعافقج قع هق اقق قاق‪.‬ق ق‬
‫حذي ق‪KNN‬ق ا تا ق ق‪ :‬ق‬ ‫ق‬ ‫إي قءلخصقذا‬
‫ءض ق ي ق‪k‬قذيقجم ق قاطق تكا لقق‪pick a value for k‬‬ ‫‪-1‬‬
‫االق اا قتي ق ق ق كميملقذ ق كل ق بقي ق قاطق ق ‪hold out from‬‬ ‫‪-2‬‬
‫‪each of the cases in the dataset‬‬
‫قتياءات ق تم ل ق‪ )training data‬ق ال ق ل ق ق‬ ‫ءختا ق‪ k-observation‬ق(‬ ‫‪-3‬‬
‫كميملقذ ق كل ق‪.‬ق‬
‫ءت ق ا ق ق ق كميملقها تخم وق ا تق شائع ق الق قاطق لقاق‪.‬ق‬ ‫‪-4‬‬
‫مق ع اق ق‪ :‬ق‬ ‫ق‬ ‫ع ا قألزذ ق قع ق اا قيعطق ء اجاقذض رباق لع‬
‫‪ -‬كيفقءختا ق ي ق‪k‬ق ي ق؟‬
‫ا تقذ ق قاط‪.‬ق‬ ‫‪ -‬كيفقءقيسق تشاهمق( اا ات)قتيق‬
‫ة قذ ا قج قةرلق ق ياوق تشاهمقتيقحب ءيق(ءق تي)قذ قذ ا اق اات ق‪:‬ق ق‬
‫‪customer1 customer2‬‬
‫‪ age‬ق‬ ‫‪ age‬ق‬
‫‪ 54‬ق‬ ‫‪ 50‬ق‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 = 4‬‬
‫‪income‬‬ ‫‪income‬‬
‫‪190‬‬ ‫‪200‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 = 10.77‬‬
‫‪education education‬‬
‫‪3‬‬ ‫‪8‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 + (3 − 8)2 = 11.87‬‬
‫ق‬
‫ق‬
‫ق‬
‫‪50‬‬
‫م ا قذ ل ا ق قط قذةل ق مل ق‪ age‬ق ي ك ا ق ياو ق اا قتي ل قا قه رلق ق ‪Euclidian‬‬
‫‪distance‬ق تاىمق‪Minkowski distance‬ق ا تا ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ملقذ ق ثنتي قذ قث ث ق‬ ‫قذةلق‬ ‫ء ظقذ ق كم ق اات قكيفق تكق االق ت ا قج مقذ‬
‫لزب ءيقق‪ .‬ق‬
‫قذكا قذعيق قع ق‬ ‫ي ك اقج قي ق ك ق ياءاتق قج قتق يسق‪normalized‬ق لاق‬
‫ذعت مقج قة يع ق ياءاتق ق ت نيفق اتخموق‪.‬ق ق‬
‫اضق‬ ‫ق‬ ‫ق كل‬ ‫اق ذ اقذ قع هق خ حذي قتعت مقج قت ميمق ع ارصق كةق رباق ل ق‬
‫ق؟ ق‬ ‫ءرلمقت ميمق ا ق ا ق(؟) ج ق خ طق‪chart‬ق اقهق ي ق‪k‬ق ا‬
‫إي قهمذ قهقي ق ليل ق‪k = 1‬ق إءلاق تك قذ الق ل فق‪Basic‬قققققق م مق يا قس ق قهقي ق‬
‫قاط ق لاقذ ق ف ق ق ق قج ق خ ط قذي ق‪ Total‬ق ق أل ق خيا ق ق ق قع ق ا قشايلق‬
‫‪anomaly‬ق با تا ق تيا ق ي ق ئيل ق‪k=1‬ق يقإ ق ا ق‪over-fitting‬ق‪.‬ق ق‬
‫يج ق قيك قبش لم ق عاو قذ يم ق لع ات قذ ق ا ج ق ياءات ق‪out-of-‬‬ ‫ع قيعن قذ ق‬
‫‪ sample‬ق ه ق ن قناتخمذلا ق تم ل ق ظاو ق با تا ق ايك قغة قذ يم ق لقيك ق كميملق‬
‫( كل )ق‪،‬ق م قذاي ق ق ةءاق ي قك ةلقذ ق‪k=20‬ق؟قك ق يك قغةقذ ئكق ق! ق‬
‫تيا ق ي ق‪k‬ق؟ ق‬ ‫إي قذاقهقذ ض قةرلق ق‬
‫يجق ع ق‬ ‫ق ش قع قذ قء ت ظقذ قء كزق‪reserve‬قألز قذ ق ياءاتق ت ا ق ق‬
‫يجقها تخم وق‬ ‫قءختا ق‪k=1‬قثكقناتخموق ياءاتق نق كزءاعاق ت ا ق االق ق‬ ‫ي‬
‫‪51‬‬
‫قج قذج ق‬ ‫أل قتياءاتق ت ا ق‪ test set‬ق ءعيمق ع لي قها تيا ق يكقذ ا ق دق‪ k‬ق ن قء‬
‫ق ل يجق قذ ا اق اات ق تك قذ ض ق ي قهق‪k=4‬ق ق‬
‫‪Accuracy‬‬ ‫ق‬
‫ق‬
‫‪k‬‬ ‫ق‬
‫‪k=4‬‬
‫ق‬
‫ا ق تك ق تخم وق‬ ‫ةرلق ق‪ KNN‬قتاتخمو قذيضا ق لت قه ا ق قيك ق ات ال ق قع ه ق‬
‫ذت طق قيكق كا لق( ال)ق كتشافق ي ق ا ق كميملقق‪ .‬ق‬
‫ق‪-‬ق‪....‬ق ق‬ ‫ق–ق‬ ‫اتمق‪features‬ق‪:‬قجم ق هافق–ق اا‬ ‫ق عاقذة ق يثقذ‬ ‫ذ قت‬
‫اتلكق‬ ‫ق اا قتي لاق إء اقهاجت ا قذ‬ ‫ي ك اقع اقإيكا قذ القث ثقذ اح ق يسق قطقهأ‬
‫قذت طقذ عا ق اح ق ث ق كا لق‬ ‫قي قثكقءت ق عاق ة ق يقءرلمقت ميمهقهأ‬
‫مقق‪ .‬ق‬
‫ق لاي قي ك اق ق ق‪:‬ق ق‬
‫‪Very high (K=100) overly generalized model‬‬
‫‪Very low (K=1) highly complex model‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪52‬‬
‫‪ -‬مقاييس التقييم يف التصنيف ‪: Evaluation metrics in classification‬‬
‫اتق‬ ‫يج ق ع ق اض ق م اقذك ج قتياءات ق زبائ قإ م ق‬ ‫ق‬ ‫ت م قع ه ق قا يس قذ‬
‫ت ا تق ق‪ :‬ق‬
‫ق‬
‫‪Predicted‬‬
‫‪Data set‬‬ ‫‪model‬‬
‫𝒚(‪value‬‬‫)̂‬
‫‪Training set‬‬
‫‪Test set‬‬
‫)‪Real value(y‬‬
‫ق‬
‫قع هق شك ق ق! ق‬ ‫قءرلمقت ميمق تيك ق لائي ق‪churns‬ق ع‬
‫يجقها تخم وقتياءاتق تم ل ق‪ training set‬قءرلمق االق قج قع ق‬ ‫هعمقتم ل ق‬
‫يجقها تخم وقتياءاتق ت ا ق‪ test set‬ق ألمق قيكق ت ع ق ذ قثكقءقا قتي ق قيكق‬
‫يجق‪.‬ق ق‬ ‫قيقي ق قذك ج ق ت ا ق بيق قيكق ت ع ق ت ميمق قع ق‬
‫ق‬ ‫ي م ق اق ياوق م قذيضاق كز ق يق ن غ قد قء هق قء يأل اق ت اي قذ ئمق قع ا‬
‫ةق نتعافقج قث ث قذ لاق هق‪:‬ق ق‬
‫عميمقذ قع هق عا ق‬
‫‪Jaccard index , F1-score , Log Loss‬‬
‫‪: Jaccard index -‬‬
‫يج ق قتعاف قذيضا قهد ق ‪Jaccard similarity‬‬ ‫ق‬ ‫ه قذباط قع ه ق اق ق قياو ق‬
‫‪coefficient‬ق يثقء للاقها عا ق‪:‬ق‬
‫|̂𝑦 ∩ 𝑦|‬ ‫|̂𝑦 ∩ 𝑦|‬
‫= )̂𝑦 ‪𝐽(𝑦,‬‬ ‫=‬
‫|̂𝑦 ∪ 𝑦|‬ ‫|̂𝑦 ∩ 𝑦| ‪|𝑦| + |𝑦̂| −‬‬
‫‪53‬‬
‫قيقي قج ق ألت اجل اق‪.‬ق ق‬ ‫ذيق ا ق ككق تقاة قتيق قيكق ت ع ق ق‬
‫يج ق‬ ‫ق م اقج اتق ت ا ق قيقي ق]‪y=[0,0,0,0,0,1,1,1,1,1‬ق ذاقت عمق‬
‫اءي ق‬ ‫ق]‪ 𝑦̂ = [1,1,0,0,0,1,1,1,1,1‬قذيق تلفق قطقهأ ق ي تيق ق شةكقت ا ق قيكق‬
‫با تا ق‪:‬ق ق‬
‫‪8‬‬
‫= )̂𝑦 ‪𝐽(𝑦,‬‬ ‫‪= 0.66‬‬
‫‪10 + 10 − 8‬‬
‫يجق‪ J=1‬ق ج ق‬ ‫ق‬ ‫يكم قها كاقذءمقج مذاق ألمقتشاهمق اذ قتي قذك جن ق قيكق إ ق‬
‫خ فقج مذاق ق ألمقذيقتشاهمق ا م قذعم ذ ق‪J=0‬ق‪.‬ق ق‬
‫يج ق ع ق)‪ (cm‬ق‪ confusion matrix‬ق ع ق اض قذ ق‬ ‫ق‬ ‫ظا ق ش قآ ا ق عن ق‬
‫ق‪ cm‬قتظلاق‬ ‫قت ي ق‪ 40‬ق اقذ ق ياءاتق ل هق‬ ‫ذك ج ق ت ا ق م اقذ‬
‫قذقا ء قذ ق قيكق قيقي ق‪.‬ق ق‬ ‫ي‬ ‫ت عاتق خاةئ ق ق‬
‫ق‬
‫>>=‪Column‬‬
‫ق‬
‫ق‬
‫ق‬
‫>>=‪Row‬‬
‫‪20‬‬
‫‪Churn=1‬‬ ‫‪6‬‬ ‫‪9‬‬

‫)‪True label (y‬‬
‫‪15‬‬
‫‪10‬‬
‫‪Churn=0‬‬ ‫‪1‬‬ ‫‪2‬‬

‫‪5‬‬
‫‪Churn=1‬‬ ‫‪Churn=0‬‬
‫)̂𝑦( ‪Predicted label‬‬
‫‪54‬‬
‫تاق‬ ‫ق يق قيكق قيقي ق‪Actual/true label‬ق قذك ج ق‬ ‫ق اق قع هق‬
‫يجق ق‪ .‬ق‬ ‫‪test set‬ق قج ق يق قيكق ت ع ق‪predicted value‬قذ ق‬
‫ق ق‪ :‬ق‬ ‫ل قءظاءاق لا اق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ل قي ق زبائ ق ن ق ي ق‪ churn‬ق قيقي ق لكق قذك ج ق ت ا قتاا يق‪ 1‬ق با تا ق ق‬
‫يجقت قذ لكق‪ 6‬قهقي ق‪ 1‬ق ق‪9‬ق‬ ‫اب اق ي ق‪ churn‬ق دق‪ 15‬قحب قذ قذ ق‪ 40‬ق ألمءاقذ ق‬
‫ق ذاق لا اق ا ق ق‪ .‬ق‬ ‫هقي ق‪0‬ق ك‬
‫قيقي ق‪ 1‬ق ق‪ 25‬ق ي تمق‬ ‫ت ا قذ لك ق‪ 15‬ق ي تم ق‬ ‫اقذ قذك ج ق‬ ‫تيك ق‪ :‬ق م اق‪ 40‬ق‬
‫قيقي ق‪0‬قه يثق‪:‬ق ق‬
‫حقذيق‪ 1‬ق‬ ‫يجقبش ق‬ ‫دق‪15‬ق‪:‬ق‪6‬قذ لكقت علكق‬
‫نموذج سيء‬
‫قققققققققق‪9‬ق=ق=ق=ق=ق=ق=ق=ق=بش ق اطققذيق‪0‬ق ق‬
‫حقذيق‪ 0‬ق‬ ‫يجقبش ق‬ ‫دق‪25‬ق‪:‬ق‪24‬قذ لكقت علكق‬
‫نموذج جيد‬
‫ققققققققققق‪1‬ق=============== اطقذيق‪1‬ق ق‬
‫افقج ق‬ ‫ق‬ ‫حقت عمقذ ق‬ ‫يجقج قت‬ ‫ق‪cm‬قتعطق ء اجاقج ق م لق‬ ‫إي قذ‬
‫هعضلاق عضق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪55‬‬
‫) قي ك اقج معاق‬0‫ ق ق‬1‫ي ق قطق‬ ‫ ق(ذيق‬binary‫ا ق خاصقذ ق ت نيفق ا ق‬ ‫ذذاق ق‬
‫ ق‬:‫ق ا تا ق ق‬cm‫ق‬ ‫اوق أل لق قذ‬ ‫ت اةق‬
True positive TP (6)
6 TP 9 FP
False positive FP (9)
True negative TN (24)
1 FN 24
False negative FN (1) TN
‫حق ق‬ ‫ق‬ ‫قت‬True
‫حق‬ ‫قغةق‬ ‫قت‬False
‫ ق‬1‫قذيق ا تمق‬Positive
‫ ق‬0‫قذيق ا تمق‬Negative
‫ق ق‬:‫ق االق م ق اقي ق‬ ‫ها جت ا قج ق ي ق ق اكقنات‬
Precision = TP/(TP+FP) ( ‫ق ل ا‬ ‫ق ت‬ ‫)ت م ق‬
Recall = TP/(TP+FN) ( ‫ا‬ ‫)ت م قذم قإيكاتي ق‬
‫ ق‬:‫ء ا قعاتيق قي تيق ل ا تق نق م اق ق‬
classes ‫ ق‬precision ‫ ق‬recall ‫ ق‬F1-score
‫ق‬0 ‫ ق‬0.73 ‫ ق‬0.96 ‫ ق‬0.83
‫ق‬1 ‫ ق‬0.86 ‫ ق‬0.40 ‫ ق‬0.55
‫ق‬
F1-score = 2*(Prc*Rec)/(Prc+Rec)
‫ ق‬.‫) ق‬harmonic average of the Pre&Rec (‫طق ت قق‬ ‫ق ت‬F1‫تم ق‬
‫أسوأ دقة‬
‫أحسن دقة‬ ‫ق‬
F1-score : 0.00 0.20 ….. 0.55 …. 0.83 …. 1.00
High Accuracy
56
‫‪Avg Accuracy = (0.83+0.55)/2= 0.72‬‬
‫نتق ق وعقآ اقذ قذقا يسق م ق لت نيفق‪:‬ق ق‬
‫ّ‬
‫فقع ق ت ا ق أل ق فقج اقج ق فقآ اقذ ق‪ :‬ق ق ت ق‬ ‫ذ ياءاقيك ق رجق‬
‫اذزيق‪ logistic regression‬قيك ق خرجق ت ا ي ق أل ق زب ق ‪the probability of‬‬
‫‪customer churn‬قيعنق(‪)1 or yes‬ق ع هق ي ق ت ا ي قتيق‪0‬ق ق‪1‬قق‪ .‬ق‬
‫‪churn‬‬ ‫‪Predicted‬‬ ‫‪ log loss‬ق‬ ‫‪state‬‬
‫‪Actual labels‬‬ ‫‪churn‬‬
‫)‪(y‬‬ ‫)‪ (probability‬ق‬
‫‪1‬ق‬ ‫‪ 0.91‬ق‬ ‫‪ 0.11‬ق‬ ‫‪good‬‬
‫‪1‬ق‬ ‫‪model‬‬ ‫‪ 0.13‬ق‬ ‫‪ 2.04‬ق‬ ‫‪bad‬‬
‫‪0‬ق‬ ‫‪ 0.7‬ق‬ ‫‪ 0.04‬ق‬ ‫‪v.good‬‬
‫‪0‬ق‬ ‫ق‬ ‫‪ 0.8‬ق‬ ‫‪ 0.26‬ق‬ ‫‪good‬‬
‫‪0‬ق‬ ‫‪ 0.6‬ق‬ ‫‪ 0.56‬ق‬ ‫‪medium‬‬
‫ّ‬
‫فقج مذاقيك ق خرجق‬ ‫إي ق قةرلق ق‪Logarithmic loss‬قذ قتم ق‪Log loss‬قتقيسقذ ق‬
‫َّ‬
‫ت قع ق ي ق ت ا ي قتيق‪0‬ق ق‪1‬ق‪.‬ق ق‬
‫ق ق كم ق اات ق ق‪ :‬ق‬
‫قي ق اءي ق قيقي قهق‪1‬ق ق ت ا ي قت علاق اءدق‪0.13‬ق هق يئ ق لنت قج لاق ي قققق ‪log‬‬
‫‪loss‬قجا ي ق يثقت ا ق ا تا ق‪:‬ق ق‬
‫)̂𝑦 ‪𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −‬‬
‫قيقي ق ل اق اءدق‬ ‫تعةقع هق قي قج ق اا ق نقت عمق لاق قي ق ت ع قج ق قي ق‬
‫ك ةلق ا ق ت قس ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫‪57‬‬
‫فق ق‬ ‫اا ق ك ق‬ ‫طق‬ ‫قء ا ق ت‬ ‫اق اق‬ ‫ج قمق االق ي ق‪log loss‬ق ك ق‬
‫ذك ج ق ت ا ق ق‪:‬ق ق‬
‫‪1‬‬
‫))̂𝑦 ‪𝐿𝑜𝑔𝐿𝑜𝑠𝑠 = − ∑(𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −‬‬
‫𝑛‬
‫ع اقيك قتم جق م قجكسق رلق ق ااهق ق‪:‬ق ق‬
‫أحسن دقة‬
‫أسوأ دقة‬
‫‪Logloss : 0.00….. 0.35……0.60………..1.00‬‬

‫‪High Accuracy‬‬
‫ق‬ ‫قي‬ ‫فقذ أل ق‬ ‫قذ مق زبائ ق كم ق قذيق‬ ‫م اقذ ا قج قحبائ ق ك ق ء ا قت‬

‫تياءياق ا تا ق‪:‬ق ق‬
‫ق‬
‫ءكمقذ ق ك قهق زب ق يقءرلمقت ق مق با تا ق ذ اقج مذاق‪k=3‬ق ق‪k=6‬قكيفق تهةق‬
‫ق قتيئ ق‪ jupyter‬ق‬ ‫ق ن مذق قت قي قها تخم وق ا‬ ‫فق ك ق نقء ثقج مق‬
‫ق‬
‫ق‬
‫ق‬
‫‪58‬‬
‫حذ ق‪:‬ق ق‬ ‫ء مذقها تة ق كت اتق‬
‫ق‬
‫ق ق‪ :‬ق‬ ‫قتياءاتق ك ق ت ا تقذ ق‬ ‫ء‬
‫ق‬
‫ق‬
‫ءظلاق ياءاتقها تع ا ق‪pandas‬ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪59‬‬
‫فق ق خرجق‪:‬ق ق‬ ‫ء م قجم ق زبائ ق ك ق‬
‫ق‬
‫ق‬
‫لاقبش قتيا ق ق‪ :‬ق‬ ‫ل ك اق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪60‬‬
‫م ق تهة تق اتقل ق‪X‬ق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫م قذاقهق خاألاتق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪61‬‬
‫ء تاجقع اق تق يسق ياءاتق‪:‬ق ق‬
‫ت ا ق‪:‬ق ق‬ ‫ءق وقتتقايكق ياءاتق لتم ل ق ق‬
‫ق‬
‫قهخ حذي ق‪KNN‬ق‪:‬ق ق‬ ‫ق كت ق خا‬ ‫نات‬
‫ق‬
‫ق‬
‫ق‬
‫‪62‬‬
‫ءم لق ياءاتقها تيا ق‪k=4‬ق‪:‬ق ق‬
‫ق خرجق‪:‬ق ق‬ ‫ءت‬
‫ت ا ق ق تم ل ق‪:‬ق ق‬ ‫يجق ك قذ قتياءاتق‬ ‫ق‬ ‫ءختةق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪63‬‬
‫آل قءعيمق خ حذي ق أل ق يكقذختل ق دق‪k‬قذ ق‪10‬ق‪:‬ق ق‬
‫ق‬
‫قج مقذيق ي ق دق‪k‬ق‪:‬ق ق‬ ‫يجقذقا ء قهقيكق‪k‬ق ختل ق ة قذج ق‬ ‫ق‬ ‫ذ قثكقءا كق‬
‫ق‬
‫‪64‬‬
‫يجق اءدقج مذاق‪k=9‬ق‪:‬ق ق‬ ‫قل‬ ‫كمقذ قذج ق‬
‫‪ -3-11‬شجرة القرار ‪: Decision Trees‬‬

‫ك قج قش قشكالقق‪ .‬ق‬ ‫ق قا تق‬ ‫ذهز عاق ت قأل‬
‫ق‬
‫‪Decision‬‬
‫‪Decision‬‬ ‫‪Decision‬‬
‫ق‬
‫‪Decision‬‬ ‫‪Decision‬‬ ‫ق‬
‫‪Decision‬‬ ‫‪Decision‬‬
‫ق‬
‫ق‬
‫ق؟ ق‬ ‫كيفقت يمق ق ت نيفق؟ق كيفقذءىمقشكالق ا‬
‫ج ق اضقذء قها ثقةنقهك قتياءاتق اضق تا ي ق ق‪ :‬ق‬
‫‪Patient ID‬‬ ‫‪ Age‬ق‬ ‫‪ Gender‬ق‬ ‫‪ cholesterol‬ق ‪ Bp‬ق‬ ‫‪ Drug‬ق‬
‫‪ p1‬ق‬ ‫‪ young‬ق‬ ‫‪F‬ق‬ ‫‪ High‬ق‬ ‫‪ Normal‬ق‬ ‫‪A‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ p15‬ق‬ ‫‪ middle‬ق‬ ‫‪M‬ق‬ ‫‪ Low‬ق‬ ‫‪ High‬ق‬ ‫‪B‬ق‬
‫ق لم ق‪A‬ق آ ا ق لم ق‪B‬ق ت ق‬ ‫ق ت يق اق قع ا قذاضق ق اتك‬ ‫قع هق م‬

‫ت اق قإيكا قء يجق ت ق ع جق مق اضق كم ق لعا قذ قء سق اضقه يثقيك ق‬ ‫ذل‬
‫اقج مقذك ج ق خ ائص ق‪ features‬ق ااهق ق‪ Age,….‬ق لك ق لمفقع ق‪ Drug‬ق اق‬ ‫م‬
‫قع اق ءمقت نيفقث ا ق عت مقةرلق ق‪ Decision Tree‬ق ن قتاتخموقتياءاتق تم ل ق‬ ‫ءا‬
‫ق تائ ق‪.‬ق ق‬ ‫تت‬
‫ق‪ distinct nodes‬قج قهعضلاق‬ ‫تكقت ا قشكالق قا قتتقايكقتياءاتق تم ل قإ قجقمقذت ا‬
‫عضق‪.‬ق ق‬
‫‪65‬‬
‫ق‬
Age
‫ق‬
‫ق‬
young Middle- Senio ‫ق‬
Age r ‫ق‬
‫عقدة داخلية‬ Distinct node
Internal Gend Cholest ‫عقدة ق‬
‫متباينة‬
node B
er erol ‫ق‬
F M High Norm ‫ق‬
Branch ‫فرع‬
al
‫ق‬
A A
B B ‫ق‬
‫ق‬
Leaf node ‫ورقة‬
‫العقدة‬
‫ا تقها جت ا ق‬ ‫ق ت ّرعقج لاق‬Age‫قذ ق‬attribute‫اقءا قذ قشكالق قا قتختةق خا ي ق‬

‫ ق‬.‫ج قءتيك ق ت ا ق ل هق خا ي قذ ق قي لاق ق‬
‫فق‬ ‫قجقملقت م ق‬ ‫تاقق ق‬ ‫ت ا ق ق ق رعقيك قءتيك ق‬ ‫قجقملق لي قتخض ق‬
‫ق ق‬.‫رلضق(ذ قءوعقجقا ه)ق‬
‫آل قذاقهقةرلق قت ا قشكالق قا ق؟ ق‬
‫ق ق‬:‫ا قهعيق جت ا قق‬ ‫ملقتل ق‬ ‫ق‬attributes‫ق يكق خ ائصق‬ ‫تكقت اؤعاقهأ‬
1- Choose an attribute from your dataset
2- Calculate the significance of attribute in splitting of data
3- Split data based on the value of the best attribute.
4- Go step 1.
66
‫ءختا ق ملقذ ق خ ائصق ق ياءاتق م اق‪.‬ق ق‬ ‫‪-1‬‬
‫ق ن ق ةءاعاق قتقايكق ياءاتق ة قتأثةقع هق‬ ‫ء ا ق(ثق ق– ق قح ق– ق ق )ق‬ ‫‪-2‬‬
‫قع قع قذ أل قذوق قق‪.‬‬
‫تقايكق ياءاتقها جت ا قج ق ي قذ ض ق ا ي ق‪.‬ق‬ ‫‪-3‬‬
‫ءكا ق ع لي ق ق ق رعق‪branch‬ق قي ق خا ياتق‪features‬ق ت قي ق‪.‬ق‬ ‫‪-4‬‬
‫‪ -4-11‬بناء شجرة ‪: Building Decision Trees‬‬
‫تك قت ا ق شكال قتتكا ق تقايك ق‪ recursive partition‬ق ت نيف ق ياءات ق ق ق م اق‪14‬ق‬
‫ذرلض ق قذك جت ا ق ااهق ق قتختا ق خ حذي قذغل ق ة ت ق ت ع ق ‪predictive‬‬
‫اتق نقءعت مقجل لاق تقايكق‬ ‫‪features‬ق نقءقاكق ياءاتقت ا قجل لاقذيقتختا قذيقذعكق‬
‫ياءاتق قت ني لاقق‪ .‬ق‬
‫ق‪ cholesterol attribute‬ق قت ا قجل لاق يتكقتقايكق ياءاتق قا ي ق اق‬ ‫مذقذ قه‬
‫ذ اق ق كم ق قذ ا اق اات ق‪normal,high‬ق‪:‬ق ق‬
‫ق‬
‫‪Cholesterol‬‬ ‫عندما نختار الميزة‬
‫عندما نختار الميزة ‪ High‬لن نكون‬
‫‪ Normal‬لن نكون‬
‫واثقين تماما أن يكون العالج ‪ B‬ألنه لدينا‬ ‫واثقين تماما أن يكون‬
‫خمس مرضى عالجهم ‪ B‬وثالثة عالجهم‬ ‫العالج ‪ A‬أو ‪ B‬ألنه لدينا‬
‫أربع مرضى عالجهم ‪B‬‬
‫‪A‬‬ ‫‪High‬‬ ‫‪Normal‬‬ ‫واثنين عالجهم ‪A‬‬
‫با تا ق تيا قع هق ةلقس ق لتقايكق‪Bad attribute selection for split‬ق ل نتق ق آل ق‬

‫خا ي قذ ا قذ ق‪Gender‬ق‪:‬ق ق‬
‫ق‬
‫‪Gender‬‬ ‫عندما نختار الميزة ‪M‬‬

‫ليس لدينا أدلة كافية لنقرر‬
‫عندما نختار الميزة ‪ F‬سنكون واثقين أن‬
‫ما هو العالج فلدينا مريضين‬
‫يكون العالج ‪ B‬ألنه لدينا ثمان مرضى‬ ‫عالجهم ‪ A‬وأربعة عالجهم‬
‫عالجهم ‪ B‬ومريض عالجه ‪A‬‬ ‫‪F‬‬ ‫‪M‬‬ ‫‪B‬‬ ‫ق‬
‫‪67‬‬
‫ج ق ق ا قع هق خا ي ق‪ Gender‬قذ ض قذ ق اهقتلاق عت معاق قتقايك ق ياءاتق ءلاق‬
‫ذ ق كيكاق ذكةقك ا لقق‪ .‬ق‬
‫‪Gender attribute is more significant than Cholesterol or more predictive‬‬
‫)‪(Less Impurity = Lower Entropy‬‬
‫ق‪ productiveness‬قتعت م قج قإءقاص ق تش ه ق‪ impurity‬ق ق عقمق‬ ‫ا قم ل قج ق ت‬
‫اتق‪ features‬ق ن قتخ ضقذ قع ق تشولمق ق عقمق ق‬ ‫قء ثقج ق‬ ‫قء‬ ‫‪ nodes‬ق‬
‫قق‪leaves‬ق‪.‬ق ق‬
‫ا ق با تا ق‬ ‫ق ألمءاق اهقاقذ ق ةلق‪gender‬قهقذاشحقأليمق‪good candidate‬ق ل هق‬
‫ن تق ق لخ لق تا ي ق‪:‬ق ق‬
‫آل ق أل ق وعق‪M‬ق ق ةلق‪gender‬قءختا ق ةلق‪Cholesterol‬ق تقايكق ياءاتقذالقذ ا ق‬
‫قشكالق اجي ق‪subtree‬قتا ي ق‪:‬ق ق‬
‫ق‬
‫‪Gender‬‬ ‫ق‬
‫‪F‬‬ ‫‪M‬‬
‫‪impurity‬‬
‫‪Cholesterol‬‬
‫لدينا أربع مرضى‬
‫عالجهم العقار ‪A‬‬
‫وبالتالي هي عقدة‬
‫صافية ‪pure node‬‬
‫‪High‬‬ ‫‪Normal‬‬
‫لدينا مريضين عالجهم‬
‫العقار ‪ B‬فالنتائج‬
‫صافية و نقية‬
‫‪68‬‬
‫قإ يمق ق‬ ‫ءعتةقذ ق عقملق ق شكالقءقي قج مذاقتك قذ م لق قطقت وعق لمفق ا ق‬
‫قيق قناتخموقتكا ق تقايكق قتياءاتق ت ا قإ قذألز ق(ذقاة )ق ي قتلمفقتقلي ق‬
‫لق ق ن ق تكق االق‪ impurity‬قج قةرل ق االق‪ Entropy‬ق ل ياءاتق ق‬ ‫تش هق ق ق‬
‫قجقملق اقهق دق‪Entropy‬ق؟ ق‬
‫هقذقم ق عش ئي ق‪randomness‬ق ق ياءاتقذ قذقم قجموقتاتي قذ قت ظيكق‪disorder‬قع هق‬
‫ياءات ق‪ ،‬ق با تا قء قء ث قج قذ ق ي ق لا ق ق عق قم ق ه قإي قتقيس ق تكانسق‬
‫‪homogeneity‬ق ق عقمق‪.‬ق ق‬
‫ذ ق م اق آل ق‪:‬ق ق‬
‫‪1 Drug A‬‬ ‫‪ 3 Drug B‬ق‬
‫‪ & Drug A‬ق‬ ‫‪ 5 Drug B‬ق‬
‫)‪ Entropy is low (good value‬ق‬ ‫)‪ Entropy is high (bad value‬ق‬
‫عش ئي ق ليل ق ق قيك ق‬ ‫عش ئي قك ةلق ق قيك ق‬
‫‪ 0 Drug A‬ق‬ ‫‪4 Drug A‬‬
‫‪ 8 Drug B‬ق‬ ‫‪ 4 Drug B‬ق‬
‫‪ Entropy =0‬ق‬ ‫‪ Entropy = 1‬ق‬
‫ع قذ ل ل‬ ‫غةقذ ل ل‬
‫ق‬
‫إي قي ك اق ااتلاق اقي ق‪:‬ق ق‬
‫))𝐵(𝑝(‪𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = −𝑝(𝐴) log(𝑝(𝐴)) − 𝑝(𝐵)log‬‬
‫ق‬ ‫فق‪،‬ق ق وقه االق‪Entropy‬ق لكم قج مءاق‬ ‫يثق‪p‬قنا ق(‪)ratio,proportion‬ق‬
‫تقاي لاق‪:‬ق ق‬
‫‪Patient ID‬‬ ‫‪ Age‬ق‬ ‫‪ Gender‬ق‬ ‫‪ cholesterol‬ق ‪ Bp‬ق‬ ‫‪ Drug‬ق‬
‫‪ p1‬ق‬ ‫‪ young‬ق‬ ‫‪F‬ق‬ ‫‪ High‬ق‬ ‫‪ Normal‬ق‬ ‫‪A‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ p15‬ق‬ ‫‪ middle‬ق‬ ‫‪M‬ق‬ ‫‪ Low‬ق‬ ‫‪ High‬ق‬ ‫‪B‬ق‬
‫ق‬
‫‪69‬‬
‫ا قذ م ثق‪occurrences‬ق دق‪A‬ق قتاع ق دق‪B‬ق]‪S:[9B,5A‬ق ء ا ق آل ق‪:‬ق ق‬ ‫م اق‬
‫‪E = -(9/14)log(9/14) – (5/14)log(5/14) = 0.940‬‬
‫قتقايكق ياءاتق‪،‬قء مذقتتقايكق ياءاتقها تخم وق خا ي ق‪Cholesterol‬ق‪:‬ق ق‬ ‫ع ق‬
‫‪Normal : 6B,2AS[6B,2A]E=0.811‬‬
‫‪High : 3B,3AS[3A,3B]E=1.00‬‬
‫ءكايقء سق ع لي ق ك ق خا ياتق م ا…‪Age,Bp,Gender,‬ق ق‬
‫ذ ق‪Gender‬قيك ق م ا‪:‬ق ق‬
‫‪F : S[3B,4A] E=0.985‬‬
‫‪M : S[6B,1A] E=0.592‬‬
‫إي قذ ل اقذ ض ق‪Gender‬قذوق‪Cholesterol‬ق؟ ق‬
‫ق‬
‫يملق‪ Information Gain‬ق ق شكالقجا ي قهعمق‬ ‫ختا ق خا ي ق ن قتكع ق ياءاتق‬
‫تقايكق ق‪ :‬ق‬
‫‪The tree with the higher Information Gain after splitting.‬‬
‫ق‬ ‫ق اققتيق ي نق‪E‬ق‬ ‫و قهعمق تقايكق قتك ق ا‬ ‫هق عل ذاتق نقتزلمقنا ق‬
‫قهعمق تقايكق ك ق ا ي ق‪:‬ق ق‬
‫‪It is the information that can increase the level of certainty after splitting‬‬
‫‪.‬‬
‫‪Information Gain (IG) = (Entropy before split) – (Weighted entropy after‬‬
‫)‪split‬‬
‫ي ق‬ ‫ضق ق ياءاتقتز ق‪IG‬ق‬ ‫ا ت ا قتيق‪IG‬ق ق‪E‬قذتعاكسق ع مذاقتت ا صق‪E‬قذيق‬
‫حق‪.‬ق ق‬ ‫ق عكسق‬
‫ا قشكالق قا قيعت مقج قإيكا ق خا ي قي تق ربددحق ج ق‪:‬ق ق‬
‫‪70‬‬

كورس تعليم الآلة بلغة البايثون الجزء الأول

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

كورس تعليم الآلة بلغة البايثون الجزء الأول

Uploaded by

Copyright:

Available Formats

‫ترجمة كورس من رشكة ‪ IBM‬يف موقع ‪cognitiveclass.

‫إعداد ‪ :‬م‪ .‬ضياء الدين أحمد األجرد‬

‫اتق خ ياق ا ي ق م اقذ ق اضق ا تلاقع ق ي قذوق لي قق‬ ‫يضكقع ق كم قذ‬

‫تهيئة البيانات ‪Pre-processing of data‬‬

‫اختيار الميزات التي نريدها ‪Feature selection‬‬

‫تخصيص مجال الميزات ‪Feature extraction‬‬

‫تقسيم البيانات إلى اختبار و تدريب ‪train/test splitting‬‬

‫تحديد نوع الخوارزمية المستخدمة ‪defining algorithms‬‬

‫تدريب النموذج ‪Fitting models‬‬

‫ضبط بارامترات النموذج ‪tuning parameters‬‬

‫حساب التوقع باستخدام النموذج ‪Prediction‬‬

‫تقييم النموذج ‪evaluation‬‬

‫قيم الخصائص وتكون رقمية ‪ numerical‬أو نصية ‪categorical‬‬

‫ق‪:‬ق ق‬ ‫ق ألمقء جيق لتعليكق ب‬

‫قي ق‬ ‫ق ط قبايطق ت‬ ‫قء يجقت‬ ‫اكق ع‬ ‫ناتخموق قطق ا ي ق كك ق‬

‫القيمة المتوقعة‬ ‫تمثل نقطة‬ ‫تمثل ميل‬

‫يثق‪n‬قجم ق قطق م اق‪.‬ق ق‬

‫ظ قع ه ق عا ت ق ق ق هات ق ةذك ق‪ python,R,scala‬قي ك اق‬ ‫ة عا ق ا ا قه األ ق‬

‫معامل انبعاث الغاز ‪co2‬‬ ‫معامل االنحياز ‪bias‬‬

‫قتل هق تهة تق اتقل ق‬ ‫ا‬ ‫ق‬ ‫قذات‬ ‫ت ق خط ق تعم قع اق ي قذم قتأثاقت‬

‫‪Engine Size‬‬ ‫‪Cylinder‬‬

‫‪ -8‬تقييم عمل نموذج التوقع ‪: Model Evaluation in Regression Models‬‬

‫‪All‬‬ ‫‪Training‬‬ ‫‪Test‬‬ ‫ق‬

‫ع قك ةق تخم وق قذكا قجلكق ياءاتق‪Data Science‬قبيكا قذاق اىمق‪R-squared‬ق‬

‫‪age‬‬ ‫‪ sex‬ق‬ ‫‪ Bp‬ق‬ ‫‪ chars‬ق‬ ‫‪ Na‬ق‬ ‫‪K‬ق‬

‫‪Basic‬ق‬ ‫‪Eco‬‬ ‫‪Plus‬‬ ‫قق‪Total‬‬

‫‪Churn=1‬‬ ‫‪6‬‬ ‫‪9‬‬

‫‪Churn=0‬‬ ‫‪1‬‬ ‫‪2‬‬

‫)̂𝑦( ‪Predicted label‬‬

‫‪Logloss : 0.00….. 0.35……0.60………..1.00‬‬

‫ق‬ ‫قي‬ ‫فقذ أل ق‬ ‫قذ مق زبائ ق كم ق قذيق‬ ‫م اقذ ا قج قحبائ ق ك ق ء ا قت‬

‫ق ق‪ :‬ق‬ ‫قتياءاتق ك ق ت ا تقذ ق‬ ‫ء‬

‫ت ا ق‪:‬ق ق‬ ‫ءق وقتتقايكق ياءاتق لتم ل ق ق‬

‫ت ا ق ق تم ل ق‪:‬ق ق‬ ‫يجق ك قذ قتياءاتق‬ ‫ق‬ ‫ءختةق‬

‫‪ -3-11‬شجرة القرار ‪: Decision Trees‬‬

‫ق لم ق‪A‬ق آ ا ق لم ق‪B‬ق ت ق‬ ‫ق ت يق اق قع ا قذاضق ق اتك‬ ‫قع هق م‬

‫ا تقها جت ا ق‬ ‫ق ت ّرعقج لاق‬Age‫قذ ق‬attribute‫اقءا قذ قشكالق قا قتختةق خا ي ق‬

‫با تا ق تيا قع هق ةلقس ق لتقايكق‪Bad attribute selection for split‬ق ل نتق ق آل ق‬

‫‪Gender‬‬ ‫عندما نختار الميزة ‪M‬‬

You might also like