Download as pdf or txt
Download as pdf or txt
You are on page 1of 70

‫ترجمة كورس من رشكة ‪ IBM‬يف موقع ‪cognitiveclass.

ai‬‬
‫عنوان الكورس‬
‫‪IBM Course with Python ML0101ENV3‬‬
‫ددد ا ق‬ ‫د د دقاقتعلي ي د د د قجمي د د ددملق قذكاءي د د د ق قذك د د ددا ق د د د ا ق‬ ‫ددد ق‬ ‫يق د د ددموقع د د د ق‬
‫قذ د د ددةق‬ ‫ا د د د قذ د د د ق‬ ‫ق ل ل د د دداقذ د د د ق د د د ق‬ ‫د د ددل‬ ‫تت د د ددةقتهاد د دداة ق هتل د د دداق بء لةل د د د ق‬
‫ق د د د د ق ذت د د د ددا قذكد د د ددا ق‬ ‫ذد د د ددمجكقها ذ لد د د د ق للد د د دقاقذكاءيد د د د ق ق قءلايد د د د ق د د د د قذد د د د ل ق د د د د‬
‫‪.‬ق ق‬ ‫كقشلا لقذكاءي قك‬ ‫ل‬

‫قج د د قشد ددلا لق‬ ‫دد‬ ‫ق ا د د ق ا د ددي ق‬ ‫ج د ددمق ءتلد ددا قذ د د قع د د ق م د د وقت ميد ددم ق د د‬
‫د د دددقذ قذتد د دداألكقعد د د ق مد د د وقت ميد د ددم ق ذ د د د ق د د د مق ذ لد د د قذد د د ق‬ ‫د د ددمقذ‬ ‫يد د ددمق أق‬
‫د د د قذ د د د ق‬ ‫ق ت‬ ‫ق‬ ‫ق عد د ددا ق د د د قذ قذ ق اد د ددت يمقذ د د د قي د د د ق‬ ‫تددد‬ ‫هد د ددالقحلد د ددا لق‬
‫ق قذ قهعم‪.‬ق ق‬

‫إعداد ‪ :‬م‪ .‬ضياء الدين أحمد األجرد‬

‫ق‬

‫‪1‬‬
‫الفهرس‬

‫الصفحة‬ ‫المحتوى‬
3 Intro : Machine learning ‫مقدمة إىل تعلم اآللة‬
5 Using Python ‫استخدام البايثون‬
7 Supervised learning ‫اف‬ ‫ر‬
‫التعلم اإلش ي‬
8 Unsupervised learning ‫اف‬ ‫ر‬
‫غي اإلش ي‬ ‫التعلم ر‬
9 Regression ‫مقدمة يف التوقع‬
12 Simple linear regression ‫الخط البسيط‬
‫ي‬ ‫التوقع‬
23 Multiple linear regression ‫الخط المتعدد‬
‫ي‬ ‫التوقع‬
26 Model Evaluation in Regression Models ‫تقييم عمل نموذج التوقع‬
31 Evaluation metrics ‫مقاييس التقييم‬
33 Nonlinear regression ‫خط‬
‫ي‬ ‫لغي‬
‫التوقع ا ر‬
45 Classification ‫التصنيف‬
48 KNN ‫خوارزمية‬
53 Evaluation metrics in Classification ‫مقاييس التقييم يف التصنيف‬
65 Decision Tree ‫خوارزمية شجرة القرار‬
67 Building Decision Tree ‫بناء شجرة القرار‬
77 Logistic regression ‫المنطق‬
‫ي‬ ‫التوقع‬
79 Logistic & Linear regression ‫المنطق‬
‫ي‬ ‫الخط و‬
‫ي‬ ‫مقارنة ربي التوقع‬
89 SVM ‫خوارزمية‬
101 Clustering ‫التجميع‬
105 K-means ‫خوارزمية‬
120 Hierarchical clustering ‫الهرم‬
‫ي‬ ‫التجميع‬
133 DBSCAN ‫خوارزمية‬
141 Recommended systems ‫أنظمة التوصية‬
142 Content-Based ‫أنظمة التوصية باالعتماد عىل المحتوى‬
146 Collaborative filtering ‫أنظمة التوصية باالعتماد عىل األفضلية‬

2
‫‪ -1‬مقدمة يف تعلم اآللة ‪:‬‬
‫ق وق يثق‬ ‫ج ق اضقذ ق م اق لي قذرلض قذ قذرلضقذاق قءرلمقذ قء م قع قه ق‬
‫قء ل قج ق ائصقع هق خلي قثكقيقا ق ي ق‬ ‫‪malignant‬قذوق ليكق‪benign‬ق‪،‬ق‬
‫يق ميمق ةلقهقا لقع هق خ ائصقذ قي م ق ا تلاق‪.‬ق ق‬
‫ثكقيك ق م اقتياءاتقك ةلق لعميمقذ ق اضق(ذئاتقذ ق ف)قءضعلاق ي اق اىمق‪dataset‬ق‬
‫اقي ق ق‪ :‬ق‬
‫‪ID‬‬ ‫‪Clean‬‬ ‫‪Unifcell‬‬ ‫‪Uni‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪Marg‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪calss‬‬
‫‪10234‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫…‬ ‫…‬ ‫‪3‬‬ ‫…‬ ‫…‬ ‫‪benign‬‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫‪20350‬‬ ‫‪7‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪malignant‬‬

‫اتق خ ياق ا ي ق م اقذ ق اضق ا تلاقع ق ي قذوق لي قق‬ ‫يضكقع ق كم قذ‬


‫اتق لي قألميملق ا جقع هق ياءاتق ااهق ق‪:‬ق ق‬ ‫ج ق اضقذتت اقذ‬
‫‪2356‬‬ ‫‪4‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫؟‬
‫ق‬
‫يجق نق ه ق آل ق ي م قهم قة يع قع هق خلي ق ق األ ق أل ق‬ ‫ع اقيأ ق ق‬
‫يجقذ كمق اذيق خ ةق‪،‬ق ع قذاقنا يمقها ت ق‪Regression‬ق‪.‬ق ق‬ ‫خ ةقذ قيك ق‬
‫ع اكقذ ا قآ اق قج ق كقج مذاقترلمقذ قتقا قإج ا ق اضق‪ loan‬ق لزب قذوق ق ق( ق‬
‫ق ءةءدقج مذاقتقموق زبائ لاق‬ ‫ج لي قتاىمق‪ approved‬قتث يدقذ قجمذم)ق‪ ،‬ق قذيضاقذ‬
‫تكاتق نقي ضل ءلاق‪.‬ق ق‬
‫ق ق تخايهق‬ ‫ق أل قتاذك قرصل‬ ‫لقإذ اءي ق تعلكق‬ ‫ا‬ ‫إي قتعرلفقتعلكق آل ق‪:‬ققيعطق‬
‫قا ق‪.‬ق ق‬
‫‪Machine Learning is the subfield of computer science that gives‬‬
‫‪computers the ability to learn without being explicitly programmed .‬‬
‫ق‬

‫‪3‬‬
‫ءاتق قءرلمق ت ةق ي اقتي لاق‪،‬قج مق‬ ‫ق‬ ‫قذ ا قآ اق‪:‬ق يك ق م اقذك ج ق‬ ‫م اقك‬
‫ءات ق(ش ق ع ق‪ ،‬ق ي ق‪ ،‬ق ي ق قة م ق‪ ،‬ق أل ق‬ ‫ي قء م ق خ ائص ق ل ه ق‬
‫أل ق ش للقاق‪..........‬قق قغةعاقذ ق خ ائص)ق‪،‬قثكقءض ق جمق‪rules‬قجميملق‪if..then‬ق‬
‫ق‪،‬ق ققع اق م اق ت ا ق‪:‬ق ق‬ ‫ت ميمقءوعق‬
‫ق‬ ‫‪ -‬إذاقناتخموقأل ق خ ائصق ت ميمق ق ت ا تقج قةرل ق ت ا لقذ قأل‬
‫د)ق ق‪.‬‬ ‫ق( ع ق تل كقك ةق ل كالق‬ ‫ة تق‪features‬ق ت ميمقءوعق‬
‫قذك ج ق جمقناتخموق لاقهعضق ة تق ل قنات قج معقاقت ميمق‬ ‫‪ -‬ذ قج مق‬
‫أل ق ا تق‪.‬ق‬
‫ق ات ق ت ا ت ق ن قتاتخمو قذعل ذات قذاتخمذ لا ق مي غا ي ق‬ ‫ك‬
‫‪ demographic‬ق تق يعلك ق‪ segment‬ق ت ميمق ي اقإي ق يات ا ق ق شة ك ق م لاقققققق‬
‫ذ ق ق‪.‬ق ق‬
‫عالق‪games‬قتاتخموقتق ياتق‬ ‫لق‪،‬ق‬ ‫ا‬ ‫ذيضاقت يقاتق‪Chabot‬ق ق ت مثقذ ق‬
‫تعلكق آل ق ق‪ .‬ق‬
‫‪ -1‬أهم تقنيات تعلم اآللة ‪: Major Machine learning techniques‬‬
‫‪ -1-1‬التوقع ‪: Regression / Estimation‬‬
‫تاتخموقع هق تق ي ق لت ق ق ياءاتق ات الق‪ continues values‬ق يثقتقاتخموق‬
‫ذ ق ت قذ عا ق اح قت ا قج قذة تلاق‪،‬قذ ق ت ق ككقغاحق‪co2‬ق عثق‪emission‬ق‬
‫اكق‪.‬ق ق‬ ‫اتق‬ ‫ذ ق ايا تقت ا قج قذ‬
‫‪ -2-1‬التصنيف ‪: Classification‬‬
‫فق اق ذ اق قذ ا ق خ ياقع ق‬ ‫قت م جقت د قذيق‬ ‫ا ق م‬ ‫اتخموق عا ق‬
‫ي قذ ق لي قق‪ .‬ق‬
‫‪ -3-1‬التجميع ‪: Clustering‬‬
‫قذك جات قكت ميم قذك جات ق اضق‬ ‫اتلا ق‬ ‫ق ا ت ق تشاتل قه‬
‫قق‪ .‬ق‬ ‫تشاتل ق قذجا لكق‪،‬قذ قتقايكقحبائ ق‬
‫ق‬
‫ق‬
‫‪4‬‬
‫‪ -4-1‬اليابط ‪: Associations‬‬
‫ق نقت اعق ق قا ي ق(بش ق‬ ‫بيكا ق ع ارصقذ ق م ثق نقتة هطق ق م ثلاقذ ق‬
‫ذة هطقذيقذتعلق قت عضلاق عض)ق لزب ق ق‪ .‬ق‬
‫‪ -5-1‬اكتشاف االختالف ‪: Anomaly detection‬‬
‫ت ميمق ا تق هةقجا ي ق(إيكا ق قيكق شايل)قذ ق كتشافق ا تق ة لاق‪fraud‬ق ق‬
‫ه ا اتق ئت ا ق ق رص فق‪credit card fraud‬قق‪ .‬ق‬
‫المتتاىل ‪: Sequence mining‬‬
‫ي‬ ‫‪ -6-1‬التنقيب‬
‫قتالا ق قا تقج ق ا و ق ق‬ ‫ا قت‬ ‫بيكا ق قت ق ا ق تا ي ق‪ :‬قج ق بي ق‬
‫ق ب مة ءي ق‪click-stream‬ق‪.‬ق ق‬
‫‪ -7-1‬تخفيض األبعاد ‪: Dimension reduction‬‬
‫اتق‪features‬ق نق ا اقه األ ق لاق‬ ‫ءق وقه فقهعضق ع ارصقغةق ل قذ قهعضق‬
‫تخ يضق ككق م تاق م اق‪.‬ق ق‬
‫‪ -8-1‬نظام التوصية ‪: Recommendation Systems‬‬
‫يقاق‬ ‫ضل قذ ق‬ ‫لك قذتعل قه ة ت ق شخاص ق تشاتل قثك قءقمو ق لك ق مت ق‬
‫ضل ق م لكق‪.‬ق ق‬
‫‪ -2‬استخدام البايثون يف تعلم اآللة ‪: Python for ML‬‬
‫يق‬ ‫ق ه ق ول ق‪ powerful‬ق ذتعم لق غا ضق‪ general-purpose‬ق ه قت‬ ‫تعتةق ا‬
‫عميمقذ ق كت اتق م ق تع ا ق ق ه ق آل ق‪:‬ق ق‬
‫اتقذتعم لق هعا ‪Numpy : numerical library‬‬ ‫لتعاذ قذ ق‬
‫‪Scipy : scientific library for numerical algorithms & domain specific‬‬
‫‪toolbox for signal processing – optimization – statistics‬‬
‫ق هعا ‪Matplotlib :‬‬ ‫لا كقث ا ق قث‬
‫قت لي ق ‪ , manipulation analysis‬عياك ق ياءات ‪Pandas : for data structure‬‬
‫إ اجق ياءاتق ت ج قه رلق قجا لاقبش للاق ا ىمق بش قذتالا قذ ق زذ ق ق‪.‬‬

‫‪5‬‬
‫حذياتقتعلكق آل ق‪Scikit-learn :‬‬ ‫قذعكقذكت قتضكق‬
‫ق تالا ق تا ق ق‪ :‬ق‬ ‫قها تخم وقذغل ق كت اتق ااهق ق‬ ‫يثق تكق ع‬

‫تهيئة البيانات ‪Pre-processing of data‬‬

‫اختيار الميزات التي نريدها ‪Feature selection‬‬

‫تخصيص مجال الميزات ‪Feature extraction‬‬

‫تقسيم البيانات إلى اختبار و تدريب ‪train/test splitting‬‬

‫تحديد نوع الخوارزمية المستخدمة ‪defining algorithms‬‬

‫تدريب النموذج ‪Fitting models‬‬

‫ضبط بارامترات النموذج ‪tuning parameters‬‬

‫حساب التوقع باستخدام النموذج ‪Prediction‬‬

‫تقييم النموذج ‪evaluation‬‬

‫‪6‬‬
‫إخراج النموذج النهائي ‪Exporting the model‬‬
‫اف ‪: supervised‬‬ ‫ر‬
‫‪ -3‬التعلم اإلش ي‬
‫ع ق تعليكق يقنشفقجليمق‪observe‬ق قء ألمق‪direct‬قت ي ق لاوق‪execute of tasks‬ق‬
‫م قع اق قء ألمقذ قنشفقج قج قشخصقذاق‪،‬قه قج قء يجقتعلكق آل ق يك ق ا ق‬
‫ق تم لقج ق‬ ‫ج ق تعاذ قذ ق ا تق هةقذتم لقجل لاق ق كميملق‪،‬ق لتكقي قذ ق‬
‫ذك ج ق ياءاتق نقء لملقاق‪:‬ق ق‬
‫‪Teaching the model by data set  that knowledge it can predict‬‬
‫‪unknown or future instances .‬‬
‫قألم ق‬ ‫اتق ياق اض ق م اق‪data set‬ق يثقتك ق‬ ‫قجمءاق ا قتياءاتقذ‬
‫يجقذ وب ق‪labeled‬ق‪:‬ق ق‬ ‫تيك قيع اقإياعاق‬
‫ق‬
‫تدعى هذه بالخصائص ‪ features or attributes‬وهنا خصائص الخاليا‬
‫‪ label‬ق‬
‫‪ed‬‬
‫‪ID‬‬ ‫‪Clean Unicell Uni‬‬ ‫‪….‬‬ ‫‪….‬‬ ‫‪Marg ….‬‬ ‫‪….‬‬ ‫‪class‬‬
‫‪10234‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪2‬‬ ‫…‬ ‫…‬ ‫‪3‬‬ ‫…‬ ‫…‬ ‫‪benign‬‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬ ‫…‬
‫‪20350‬‬ ‫‪7‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪1‬‬ ‫…‬ ‫…‬ ‫‪malignant‬‬
‫ق‬

‫قيم الخصائص وتكون رقمية ‪ numerical‬أو نصية ‪categorical‬‬

‫ق‪:‬ق ق‬ ‫ق ألمقء جيق لتعليكق ب‬


‫ق‬
‫ق‬
‫ق‬

‫‪Classification‬‬ ‫ق ‪Regression‬‬
‫التصنيف‬ ‫التوقع‬
‫‪7‬‬
‫‪ -1-3‬التصنيف ‪: Classification‬‬
‫ق‬ ‫لتعاذ قذ ق ياءاتق ختل ق( ي قذ قء ي ) ق يثق تكقت نيفق ياءاتق تشاتل ق‬
‫ذك جاتق اق ذ اق قألم ق ياق اضق يثقء لاق لي قذ ق ي قق‪ .‬ق‬
‫‪Classification is the process of predicting discrete class labels or‬‬
‫‪categories.‬‬
‫‪ -2-3‬التوقع ‪: Regression‬‬
‫عثق‬ ‫قغاحق‪co2‬ق‬ ‫ق يكقألميملقذ قت‬ ‫ق قيكق تشاتل ق ي اقتي لاق ت‬ ‫قبألا ق ت ق‬
‫اتقذ ا اتلاق‪.‬ق ق‬ ‫ذ قج وق ايا تقت ا قج قذ‬
‫‪Regression is the process of predicting continues values.‬‬
‫اف ‪: unsupervised‬‬ ‫ر‬
‫غي اإلش ي‬
‫‪ -4‬التعلم ر‬
‫يجقيكتشفق عل ذاتق نقءرلمقت علاق قت أليمقذ قإ فق يثقءع يمق‬ ‫ع اقءمعق‬
‫ياءاتق ل ق تم لقج ق‪dataset‬ق ذ قثكق ا كق تيك ق‪unlabeled‬ق ع اكقجملقذء عق‬
‫ذ لاق ق‪ :‬ق‬
‫‪ -1-4‬تقليل األبعاد ‪: dimension reduction‬‬
‫الق ت هةق ك لاق تالي ق ت نيفق‪.‬ق ق‬ ‫فقهعضق ياءاتق ز ئملقذ ق‬ ‫ع اق تكق‬
‫‪ -2-4‬تحليل البيانات ‪: market basket analysis‬‬
‫تعت قمق كاتمقج قذء قتكل قذك ج قج ارصقذ قهعضلاق عضقبش قذشاهمقءق وقهكل ق‬
‫ذك ج قغةعاق‪.‬ق ق‬
‫‪ -3-4‬توقع وجود البيانات ‪: density estimation‬‬
‫قهعضق نق تشاتل ق‪.‬ق ق‬ ‫لاقء ألمق ياءاتق نقتتض‬
‫‪ -4-4‬التجميع ‪: clustering‬‬
‫ق ياءاتقها جت ا قج قجملقذذ قذتشاتل ق‬ ‫هقذكةق اقق اتخمذ ق يثق تكقتك‬
‫ي اقتي لاق ذعكق كا تق اتخمذ ق لاق‪:‬ق ق‬
‫ق‬

‫‪8‬‬
‫‪discovering structure‬ق كتشافق ياءاتق تشاتل ق‬
‫ق ياءاتق ق‬ ‫‪ summarization‬قتك‬
‫‪anomaly detection‬ق كتشافق ش ي ق‬
‫اف ‪:‬‬ ‫ر‬ ‫ر‬
‫غي اإلش ي‬
‫اف و ر‬
‫المقارنة ربي التعلم اإلش ي‬
‫‪supervised‬‬ ‫‪unsupervised‬‬
‫‪Regression, classification‬‬ ‫‪ clustering‬ق‬
‫‪ more evaluation methods‬ق‬ ‫‪ fewer evaluation methods‬ق‬
‫‪ controlled environment‬ق‬ ‫‪ less controlled environment‬ق‬
‫ق‬
‫‪ -5‬مقدمة يف التوقع ‪: Regression‬‬
‫ع قذ ق ايا تق‪:‬ق ق‬ ‫جمءاق ا قغاحق‪co2‬ق‬
‫‪ID‬‬ ‫‪Engine‬‬ ‫‪Cylinders‬‬ ‫‪Fuel‬‬ ‫‪Co2‬‬
‫‪0‬ق‬ ‫‪ 2.0‬ق‬ ‫‪4‬ق‬ ‫‪ 8.5‬ق‬ ‫‪ 198‬ق‬
‫‪1‬ق‬ ‫‪ 2.4‬ق‬ ‫‪4‬ق‬ ‫‪ 9.6‬ق‬ ‫‪ 221‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪3‬ق‬ ‫‪3‬ق‬ ‫‪ 9.2‬ق‬ ‫?‬
‫ق‬
‫ق‬ ‫ع ق كم قي ق‪ data set‬ق ءرلمقت ق ي ق هاحق ع قذ ق ايا لق كق‪ 9‬ق‬
‫إءتاأللاقها جت ا قج قتياءاتق ايا تق أل لقذا قاق؟ ق‬
‫ق م اق‬ ‫ق‪ regression‬ق ع اقيك‬ ‫يتكقع قتإنشا قء يجق تعلكق آل قيعت مقج ق ت‬
‫ء جيقذ ق تهة تق ق‪ :‬ق‬
‫ع ‪Dependent variables : Y‬‬ ‫ق قيكق خةق ع اقع ققذكي ق هاحق‬ ‫هقج‬
‫اتق ع ارصق أل لق م اق ق كم ق‪ : x‬ق‪Independent variables‬‬ ‫ق هقذ‬
‫هقذتهة تقذاتقل ق ق ي لاقغةقذات قهقيكقذ ا قءم لا‬

‫‪9‬‬
‫هة قذاتقل ق(‪ )final goal,target,state‬ق قتتعل قها تهة تق‬
‫ذذقا ق تهة ت ق ق‬
‫اتقل ق ءمقت ا قج ق ةق تكقت ق قيكق نقءرل قمقق‪ .‬ق‬
‫ا تق‪states‬ق‬ ‫إيقي ك قذ قءعتةق تهة تق اتقل قج قذءلاقذاب اتق‪causes‬ق تل ق‬
‫نقتظلاق م اق‪.‬ق ق‬
‫تا ق ق ت قع قذ ق ياءاتقذات الق‪continuous‬ق يادقذتق ع ق‪discrete‬ق‬
‫قبش للاق‬ ‫ج ق ق ا ق إ ق تهة تق‪x‬قيك ق قتك ق يكقذقا ق اهل ق لقياوق‬
‫ص ق‪ categorical‬قذ ق ا ىم ق‪ numerical‬قذيقي ك قتم لد د ق يا لاقبش قذات اق‬
‫‪continuous measurement scale‬ق‪.‬ق ق‬
‫يقءق وقهمقذء اقناتخموق ياءاتق ن قتخصق ايا تق م اق‪historical data‬ق‬ ‫إي ق‬
‫قذ قذغل ق يكق اتلاق‪features of their attributes‬ق ألمقء يألاق ت ق‬ ‫أل‬
‫ي ق‪co2‬ق ع قذ ق يا لقألميملقذ قغةقذعا ق لك قع ق قيجقغةقذةذ ق‬ ‫اق‬
‫قذ ق ق اق يق خ طق تا ق‪:‬ق ق‬ ‫رص‬
‫ق‬
‫ق‬
‫‪Histori‬‬
‫‪cal‬‬ ‫ق‬
‫‪CO2‬‬
‫‪expecte‬‬
‫‪New‬‬ ‫‪mode‬‬
‫‪car‬‬ ‫‪l‬‬
‫ق‬
‫ق‪:‬ق ق‬ ‫بش قذ اسق م اقء جا قذ قع ق ت‬
‫قبايطق‪simple regression‬‬ ‫‪ -‬ت‬
‫قذتعم ق‪multiple regression‬‬ ‫‪ -‬ت‬
‫‪:‬ق ق‬ ‫قبايطق مقش‬ ‫ق ي ق‪Y‬قج معاقيك ق م اقت‬ ‫مق‪x‬ق ت‬ ‫ج مق تخم وقذتهةقذاتق ق‬
‫إذاق‪simple linear regression‬ق ق‪simple non-linear regression‬ق‪.‬ق ق‬
‫ق نقتربطق تهة تق اتقل ق هةق‬ ‫قتعت مقج قة يع ق ع‬ ‫ي ق‪linearity‬قع ق ت‬
‫ذاتقل ق ي اقتي لاق ق‪ .‬ق‬
‫‪10‬‬
‫قذ ق وعق‪.multiple‬ق ق‬ ‫ق ي ق‪Y‬قج معاقيك ق ت‬ ‫ذتهةقذاتق ق ت‬
‫ج مق تخم وقذكةقذ ق ق‬
‫لك ق تك ق تخم و ق ت ق‪ regression‬ق ت ق يك قذات ال قذ قذاأ ق تن قها يعاتق‬
‫‪ sales forecasting‬ق‪ ،‬ق يث قي ك قت قذك وع ق يعات ق ا ول ق ل ائ قها جت ا قج ق‬
‫تق خةلق–ق شلا لق–ق ع اق‪-‬ق‪....‬ق ق‬ ‫تهة تق اتقل ق‪X‬ق ق نقت ق(ذ )ق‪:‬ق‬
‫اي ق‪stratification analysis‬قها جت ا قج ق‬ ‫ق تكق تخم وق ت ق ق ت لي تق‬ ‫ك‬
‫جملقج ذ قء اي ق ي غا ي ق ل ا ق ق‪ .‬ق‬
‫اح ق قذ ق قذاقها جت ا قج ق‬ ‫ذيضاق اتخموق ت ق تخ يقذ عا ق‪price estimation‬ق‬
‫ككق ة ق جم قغا مق ق‪....‬قق‬
‫ق–ق‬ ‫ق عاذ ق‪ Employment income‬قها جت ا قج ق اجات ق ع‬ ‫ذيضاق قتخ ي ق‬
‫تق خةلق‪...‬ق‪ .‬ق‬ ‫شاعملق–قة يع ق ع ق–ق كنسق–ق ع اق–ق‬
‫قق‬ ‫ألمق م ةقذ ق كا تق نقناتخموق لاق ت قذ ق ت لي تق ا ي ق تقايطق‬
‫ي ق… ‪ finance,health care, retail‬ق‬ ‫ا جي ق‬
‫ق ق‪ :‬ق‬ ‫حذياتق ت‬ ‫ع ا ق م ةقذ ق‬
‫‪Ordinal regression‬‬
‫‪Poisson regression‬‬
‫‪Fast forest quintile regression‬‬
‫‪Linear , Polynomial , Lasso .Stepwise , Ridge regression‬‬
‫‪Bayesian linear regression‬‬
‫‪Neural network regression‬‬
‫‪Decision forest regression‬‬
‫‪Boosted decision tree regression‬‬
‫‪K-nearest neighbors (KNN) regression‬‬

‫‪11‬‬
‫الخط البسيط ‪: simple linear regression‬‬
‫ي‬ ‫‪ -6‬التوقع‬
‫قت تاجقذيقذعا ق ق كةق خطق تتعلكق ت ق ق خطق هايطق قذاقي ق يع ي ق‬
‫ذعا قشاذل ق تات ق تعاذ قذعمقق‪ .‬ق‬
‫ق ي قغةقذ أل لقذا قاق‬ ‫كق ل اق اهقاقذء اقناتخموقذتهةق مقذ ق خ ائصق ت‬
‫ع ق ا ق هاحق عثقذ ق ايا تق‪:‬ق‬
‫ق‬
‫‪ID‬‬ ‫‪Enginesize‬‬ ‫‪Cylinders‬‬ ‫‪Fuel‬‬ ‫‪Co2‬‬
‫‪0‬ق‬ ‫‪ 2.0‬ق‬ ‫‪4‬ق‬ ‫‪ 8.5‬ق‬ ‫‪ 198‬ق‬
‫‪1‬ق‬ ‫‪ 2.4‬ق‬ ‫‪4‬ق‬ ‫‪ 9.6‬ق‬ ‫‪ 221‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪3‬ق‬ ‫‪3‬ق‬ ‫‪ 9.2‬ق‬ ‫?‬

‫قي ق‬ ‫ق ط قبايطق ت‬ ‫قء يجقت‬ ‫اكق ع‬ ‫ناتخموق قطق ا ي ق كك ق‬


‫هاحق عثق يثق م اق ق‪ :‬ق‬
‫ا ق‪state‬ق ع ق م اقع اق‪Engine size‬‬ ‫ق تهةق اتق ق ع ق‬ ‫‪x‬قي‬
‫ق تهةقغةق اتق ق ع ق لمفق‪target‬ق ع ق م اق ء عاثق‪Emission‬‬ ‫‪Y‬قي‬
‫ق)‪Y(x‬ق‪:‬ق ق‬ ‫ق تهةل قه خ طق‪scatterplot‬ق ت ي قع هق ع‬ ‫اقتا كقع‬ ‫ق‬
‫ق‬
‫‪Y‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪x‬‬ ‫ق‬
‫ق‬
‫‪12‬‬
‫قتي ل اق قء ق ظق‬ ‫ج مذاقتتهةق قي ق ق تهةق‪x‬قتتهةق ي ق‪Y‬ق با تا ق شةق أل قج‬
‫ق خ طق اات قذءلاق ي قق‪ .‬ق‬ ‫ذ ق‬
‫اكق ز ق ء عاثق‬ ‫كقع ق اتقيكق يقي قع هق ع ق يثقهاح يا قق ككق‬
‫قذ قءرلمقت نيعلاق‬ ‫هاحق‪ co2‬ق با تا قي ك اقتخ ي ق ي ق ء عاثق يق يا لقذكل‬
‫م اقهقي ق ائ لاق‪.‬ق ق‬
‫قك ةق م ق‪polynomial‬ق مق ش ق عاوق ق‪ :‬ق‬ ‫تكقت ي قع ق خطق اتقيكقه عا‬
‫‪=𝜃0 + 𝜃1 𝑥1‬ق̂𝑦‬
‫قذ ق‪fit line‬ق يثق‪:‬ق ق‬ ‫قذ ق‬ ‫ياىمقلق طق ت‬
‫‪=𝜃0 + 𝜃1 𝑥1‬ق̂𝑦‬

‫القيمة المتوقعة‬ ‫تمثل نقطة‬ ‫تمثل ميل‬


‫ق‬
‫التقاطع‬ ‫(انحدار) المستقيم‬
‫ق‬
‫قها ذة تق اتقيكق‬ ‫ق تقاة ق‪intercept‬قي‬ ‫إ ق قذ ق ي ق‪slope / gradient‬ق ءق‬
‫قج ق عا ق نا ق ن قت ق‬ ‫ل اق ل‬ ‫ذ قذعاذ تم ق‪ coefficients‬ق يث ق تك ق‬
‫ياءاتق‪data set‬ق نق م اقق‪ .‬ق‬
‫تهةق‪x1‬قهدق‪single predictor‬ق ق‬ ‫يثقناىمق قي ق ت ع قهدق‪response variable‬ق‬
‫ق ا كق يا قهأ قء ألمق‬ ‫قذ ءاقذ قءكالقهعضق قيكق ن ق م اقج قع هق عا قذ ق‬
‫هاحق عث ق ل اك قي ق كك ق‪ x1=5.4‬قءكمقذءم ق‪ 𝑦̂ = 340‬ق م قع ق ق قيق قذ ق‬
‫كم ق‪y=250‬قإي قع ا ق أق ي تمق اققتيق قي ق قيقي ق ت ع ق ي تمق‪90‬قناىمق‬
‫ع ق خ أق ت قق‪residual error‬ق ع قتياءياق اا ق ع ي قتيق ق ق قيقي ق بيق‬
‫ق ق ت ع قج ق اتقيكق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪13‬‬
‫‪The distance from the data point to the fitted regression line.‬‬

‫‪Y‬‬ ‫قق ق‬
‫ق‬
‫قيمة الخطأ‬
‫ق‬
‫ق‬
‫ق‬
‫‪x‬‬
‫ق‬
‫ذ قذ ققذت طقأل ق يكق خ أقبش قتيا قج ق خ طقءقا ق ي اقإي ق ا ق خطق اتقيكق‬
‫قذوق ق ع لي ق ت ق م اق ءعةقج مق لا ياقه عا قذت طق خ أق ‪mean square‬‬ ‫ذا‬
‫‪error‬ق ق‪ :‬ق‬

‫يثق‪n‬قجم ق قطق م اق‪.‬ق ق‬


‫ق ن غق‬ ‫لمفقإيكا ق خطق اتقيكق يقيك ق يمق خ أق‪ MSE‬قذ هاقذاقي ك ق تكقي‬
‫ق‪:‬ق ق‬ ‫قج قذ ض ق يكق ل عاذ تق ع اق م اقةرلقتيق‬
‫تخم وق رلق ق رلا ي ق‪mathematic‬‬ ‫‪-‬‬
‫تخم وقةرل ق ت ايق‪optimization‬‬ ‫‪-‬‬
‫ق‪x1‬ق ع ق ̅𝑥‬ ‫طق ع‬ ‫ي ك اق لا ياق االقذعاذ تق خطق اتقيكقج قةرل قإيكا قذت‬
‫ذت طق ع ق‪y‬ق ع ق̅𝑦قج معاقيك ق م اق‪:‬ق ق‬

‫‪𝜃1‬‬

‫‪14‬‬
‫̅𝑥 ‪𝜃0 = 𝑦̅ − 𝜃0‬‬

‫ظ قع ه ق عا ت ق ق ق هات ق ةذك ق‪ python,R,scala‬قي ك اق‬ ‫ة عا ق ا ا قه األ ق‬


‫إيكا عكقبال ق‪.‬ق ق‬
‫ق رلاضقءكمق ي قع هق عاذ تق ا تا ق‪:‬ق ق‬ ‫آل قهعمق ع‬
‫‪𝜃1 = 39 → 𝜃0 = 125.74‬‬

‫معامل انبعاث الغاز ‪co2‬‬ ‫معامل االنحياز ‪bias‬‬


‫ق‬
‫ق اتقيكق‪:‬ق ق‬ ‫حقتإذ اء اقكتاه قذعا‬ ‫ق آل قذ‬
‫‪=125.74 + 39 𝑥1‬ق̂𝑦‬
‫ق ت ع ق‬ ‫ق قي‬ ‫ق ت ع ق ن قءرلمعاق يث ق‪ x=2.4‬قتك‬ ‫با تا ق قذ ءاق اال ق قي‬
‫‪218.6‬ق‪.‬ق ق‬
‫ق‬ ‫ق اتقيكق‬ ‫ق قإيكا قذعا‬ ‫اق ذ اق ل ق تعاذ ق ق ت ق خطق هايطق يثقت‬
‫ذ ءاقكتاه قذ ا ق‪pros‬ق ت ق خطق هايطقءكمق‪:‬ق ق‬
‫لع ق ق لل ق لكق‪very fast and understand‬‬ ‫‪-‬‬
‫قت تاجق ض طقذعاذ تقذعقملقذ قةاقق‪k-nearest or NN‬‬ ‫‪-‬‬
‫لل ق ت اةق‪high interpretable‬ق‬ ‫‪-‬‬
‫قي ك اق تخم وق كت ق‪scikit-learn‬ق‪.‬ق‬ ‫قه ق ا‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪15‬‬
‫قها تخم وق‪jupyter notebook‬ق‪:‬ق‬ ‫ق م ق ق ا‬ ‫ء مذق آل قتت‬

‫‪16‬‬
17
18
19
‫ق‪Spyder‬ق ق‪ :‬ق‬ ‫اقءق وقتتكرب ق م ق‬

‫‪20‬‬
21
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪22‬‬
‫الخط المتعدد ‪: multiple linear regression‬‬
‫ي‬ ‫‪ -7‬التوقع‬
‫ا اق‬ ‫ج مقت ألمقذكةقذ قذتهةقذاتق قج معاقي حق ت ق خطقذ ق وعق تعم ق‬
‫اكق إء اقج قجملق ائصقذ ا قق‪ .‬ق‬ ‫اات قهأ ق قءعت مق قطقج ق ككق‬
‫ق‪:‬ق ق‬ ‫بش ق ئيسق ألمقء جا قذ ق ت يقاتق نقتاتخموقع ق ت‬
‫الت‬
‫تأثي ‪ the strength of effect‬ي‬
‫‪ -‬نستخدمه عندما نريد تبيان ‪ identity‬قوة ال ر‬
‫الغي مستقلة أي ‪:‬‬
‫المتغيات ر‬
‫ر‬ ‫المتغيات المستقلة عىل‬
‫ر‬ ‫تمتلكها‬
‫‪Independent variable effectiveness on prediction .‬‬
‫ق ج مءاق تهة تق اتقل ق تا ي ق‪:‬ق ق‬ ‫ا‬ ‫ذ قق م اقء يجق ت ا ق‬
‫دق ا ألع ‪revision time‬‬
‫ل ق ذت ا ‪test anxiety‬‬
‫ارص ت ‪lecture attendance‬‬ ‫ض ق‬
‫كنس ق‪gender‬‬

‫قتل هق تهة تق اتقل ق‬ ‫ا‬ ‫ق‬ ‫قذات‬ ‫ت ق خط ق تعم قع اق ي قذم قتأثاقت‬


‫ج مذاقءقاقع ق ا ق ك قذتهةق‪:‬ق ق‬
‫‪and….. have any effect on the exam performance of‬ق‪….,‬ق‪,‬ق‪…..‬ق‪Does ….,‬‬
‫?‪student‬‬
‫الت تحدث ‪predicting impacts of :‬‬
‫التغييات ي‬
‫ر‬ ‫تأثيات‬
‫‪ -‬نستخدمه لتوقع ر‬
‫‪changes‬‬
‫ذي ق لكقكيف قتتهةق تهة ت ق هةقذاتقل قج مقتهةق تهة ت ق اتقل قذيقكيف قتتهةق‬
‫قج مذاقءا قتيا قشخصقذرلضق ا ت ق خطق‬ ‫ءتيك ق ت قتتهةق تهة تق اتقل ق‬
‫تعم قي ك مقإ ا ءاقكيفق تهةق هطق موق( ع قذ قع ةاق‪)up or down‬قج مق قحلا لق‬
‫ذ قءق ا ق ق ح ق رلض ق‪ BMI‬ق ل رلضق‪ Patient’s Body mass index‬قذ قث اتقهقي ق‬
‫ع ذ ق‪holding other factors constant‬ق‪.‬ق ق‬

‫‪23‬‬
‫ةلق م قناتخمذلاقع اق با تا قت ميمق‬
‫ق اقع ق ق ت ق خط ق هايطقتك ق ع قك ق‬
‫ذيقذ قع هق تهة تقت ثاقج قءتيك ق ت قذيق ق‪ :‬ق‬
‫⋯ ‪Co2Em = 𝜃0 + 𝜃1 . 𝐸𝑛𝑔𝑖𝑛𝑒𝑆𝑖𝑧𝑒 + 𝜃2 . 𝐶𝑦𝑙𝑖𝑛𝑑𝑒𝑟𝑠 + 𝜃3 . 𝐹𝑢𝑙𝑒 +‬‬
‫اتقيك ق لاق ش ق تا ق‪:‬ق ق‬ ‫با تا ق قي ق ت ع قألم قشعاجيق‬
‫𝑥 ∗‪𝑦̂ = θ𝑇 .‬‬
‫‪dot product between parameters vector and features set vector‬‬
‫ق 𝑇‪ θ‬قشعاع ق(‪)n*1‬ق‬ ‫قذ‬ ‫ق ق ضا قذتعم ق هعا ق‪ multi-dimension space‬قتك‬
‫ل ا ذة تق كل ق شعاعق‪x‬ق‪.‬ق ق‬
‫ق لاق ش ق‪:‬ق ق‬ ‫ق ت‬ ‫تم قع هق ا ذة تقذ ح ق(‪)weight‬قشعاعقذعا‬
‫] 𝑛𝜃 … ‪θ𝑇 = [𝜃0 , 𝜃1 , 𝜃2 , 𝜃3 ,‬‬
‫شعاعق تهة تق اتقل ق ق‪ :‬ق‬
‫‪1‬‬
‫‪𝑥1‬‬
‫‪𝑥2‬‬
‫‪𝑥 = 𝑥3‬‬
‫‪.‬‬
‫‪.‬‬
‫] 𝑛𝑥[‬
‫قق ضا قذ ا يق عمقت حقذعا ق ت ق خطقذاتقيكق اق ق ت ق خطق هايطق م ق‬
‫قق ضا قذتعم ق هعا ق(ذيقذكةقذ قذتهةق‪)x‬قي حقذات يق لم قج معاق‪plane or hyper-‬‬
‫‪plane‬ق ع ق اتخموق ق ت ق خطق تعم ق‪.‬ق ق‬
‫لتكقإيكا قع ق ات يقتإيكا قذ ض ق ي ق ل عاذ تقثيتاق أل قت قذ ض ق ي ق للمفق‬
‫ق‪ dataset‬ق م اق‪،‬ق اق ذ قاق اهقاقذء اقء تاجق ت ق قي قذ ق‬ ‫‪ target‬ق ق ق اقذ ق‬
‫ء هاق خ أق م ق بذ ا ق‪.‬ق ق‬
‫أق‪،‬قإي قكيفقء م ق يكقع هق ا ذة تق؟ ق‬ ‫أ ض ق ا ذة تقهق نقتعطقذ ق ي ق‬

‫‪24‬‬
‫ق ت ع ق‬ ‫ذ اق ق ت ق هايطقكيف قء ا ق خ أق‪ residual error‬ق اق قتي ق قي‬
‫قذعا ق خ أق‪MSE‬قق‪ .‬ق‬ ‫قي ق قيقي ق ك‬
‫ذذاق ق ت ق خط ق تعم ق ألمقةرلق قذ ا ق يث قءق و قتت هة ق‪ MSE‬ق ك ق قيكق‬
‫ت ع ق قي قتتخ يقذ ض ق يكقثيتاقذ ا ق ذكةق اققش جاق قتخ يقع هق قيكق‪:‬ق‬
‫‪ The ordinary least squares -‬ق‪ :‬ق يثقتعت مقج قإيكا قذ هاق ي ق‪ MSE‬ق ك ق‬
‫ق ياءاتق‪dataset‬ق م اق م قع هق رلق قذعقملق ااتياق قتاتلل ق‬ ‫اقذ ق‬
‫ق‬ ‫ق ياءاتقذكةقذ ق‪10k‬ق اق‪،‬ق‬ ‫اقج مذاقيك ق م اق قذ‬ ‫دقك ةق‬
‫ي ك اق ت كةقها تخم ذلاقج مقذ قذ قع ق عم ق‪.‬ق‬
‫‪ Optimization approach -‬ق‪ :‬قتاتخمو قتكا قج لي قت هة ق خ أ ق ل يج قج ق‬
‫ياءاتق نقءتم لقجل لاق‬
‫‪Minimizing the error of the model on your training data .‬‬
‫حذي ق‪ Gradient Descent GD‬ق ن قت مذقهقيكقجش ئي ق دقثيتاق‬ ‫ي ك اقذ ق تخم وق‬
‫ق ق ي ق مقق‪ .‬ق‬ ‫ق قذالقء ا ق خ أق قء ا ق‬ ‫ثكقءعيمقتكا ق ااتلاق‬
‫اق ق‪ .‬ق‬ ‫قج مذاقتك ق ياءاتق خ قذيقذكةقذ ق‪10k‬ق‬ ‫رلق قذ ا‬ ‫ع هق‬
‫ل اقج ق‬ ‫ق‬ ‫ق ء ا لاق‬ ‫ق ت‬ ‫لاق قذعا‬ ‫قج قذ ض ق يكقثيتاقءع‬ ‫هعمق‬
‫قيكقق‪:‬ق ق‬
‫⋯ ‪𝑦̂ = 125 + 6.2 𝑥1 + 14 𝑥2 +‬‬

‫‪Engine Size‬‬ ‫‪Cylinder‬‬


‫اكقإي قتأثةق‬ ‫قا ء ق يكقثيتاق ك ق تهةل قءكمق ي تلاق لدق‪ Cylinder‬قذكةقذ لاق ككق‬
‫اكق‪.‬ق‬ ‫‪cylinder‬قج ق ي قغاحق‪co2‬ق عثق ت ع قذكةقذ قتأثةق ككق‬
‫ئل ق ق‪ :‬ق‬ ‫آل ق م اقهعضق‬
‫الخط البسيط ومت نستخدم المتعدد ؟‬
‫ي‬ ‫‪ -1‬مت نستخدم التوقع‬
‫اق ذ اق اهقاق ع مق تخم و قذكة قذ قذتهة قذاتق ق ت ق ي ق لمف قناتخموق‬
‫ت ق تعم قق ج مذاقيك ق م اقذتهةقذاتق ق مقناتخموق هايطقق‪ .‬ق‬
‫ق‬
‫‪25‬‬
‫الت يمكننا استخدامها يف التوقع المتعدد ؟‬‫المتغيات المستقلة ي‬ ‫ر‬ ‫‪ -2‬كم عدد‬
‫ع قناتع قأل ق تهة تق؟ق ع قءضيفقذتهة تقذ ا ق زلا لق ق ت ق؟ق ق‬
‫قي ك قذ ق اه ق‬ ‫قءظرل قذ‬ ‫بش قجاوقإ قحلا لقجم ق تهة تق اتقل ق ق‬
‫ء يجقت قغةقذ ئكق‪over-fit model‬ق ع قه مقي تمقذش ل ق قيقي ق ءمق ياه ق‬
‫تعقيم ق ل ياءاتق ااهاتق قء سق دق يسق ا ياق لت ق‪.‬ق ق‬
‫قذ ق ض قتك ق تخم وق عميمقذ ق تهة تق ذ قي ق ألمقةاقق تك ق‬
‫م ثقذش ل ق‪overfitting‬ق‪.‬ق ق‬
‫المتغيات المستقلة مستمرة ؟‬
‫ر‬ ‫ينبغ أن تكون‬
‫ي‬ ‫‪ -3‬هل‬
‫بش ق ئيس قذ قجاو قي ك ق تخم و ق تهة ت ق ي ق‪ categorical‬قهعم قت ولللاق‬
‫لش ق ا ىمقذ ق ق‪ :‬ق‬
‫م اق يا لقء جلاقذ ت ذاتي قذ قجا يقج معاقي ك اقذ قء اضقإ ق اءدق‪automatic‬قذ ق‬
‫تأ ق قي ق‪1‬ق إ ق اءدق‪manual‬قذ قتأ ق قي ق‪0‬ق‪.‬ق ق‬
‫الغي مستقلة ؟‬‫المتغيات المستقلة و ر‬ ‫ر‬ ‫ه العالقة ربي‬
‫‪ -4‬ما ي‬
‫قع هق ع قتي ق تهة تق‬ ‫ت ق تعم قع ق ا ق ا قذ ق ت ق خط ق‬
‫اتقل ق ق هةقذاتقل قتك ق ي ق ع ا قجملقةاقق ت ا ق ي قع هق ع ق‬
‫قج مق لاق تك قغةق ي قتياءياق‬ ‫ذ ق تخم وق ا كق يا ق‪scatter plots‬ق‬
‫ءنتق قج معاق لت ق هةق طق ق‪ .‬ق‬

‫‪ -8‬تقييم عمل نموذج التوقع ‪: Model Evaluation in Regression Models‬‬


‫ق ق‬ ‫لمفقذ ق ت قع قت ا قء يجق ت قهم ق ا تق كميملقذ ق كل ق‬
‫ق‬ ‫يج ق يتك قي قذ ق‬ ‫لاي قجل ا قذ قءكاي قتق يك ق‪ evaluation‬ق ل ق‬
‫ةرلقتي‪:‬ق ق‬
‫ت ا قج قء سق ياءاتق ن ق م اق ‪train and test on the same‬‬ ‫‪ -‬تم ل ق ق‬
‫‪dataset‬قق‪.‬‬
‫ت ا قج قألز قآ اق‪train/test split‬‬ ‫‪ -‬تم ل قج قألز قذ ق ياءاتق م اق‬
‫م و قذقا يس ق‪ metric‬ق م ق‬ ‫ذ قت ميمقذ ا ق‪ pros‬ق ذاا ئ ق‪ cons‬ق قةرلق ق‬
‫‪accuracy‬ق ايجق ت ق‪.‬ق ق‬
‫ق‬
‫‪26‬‬
‫‪ -1-8‬التدريب و االختبار عىل نفس البيانات لدينا ‪:‬‬
‫يجق يق ل اق‬ ‫ج مذاقءختا قةرلق قذاق تق يكقء يجقيأ ق ا ق‪:‬قكيفقءقيسق ق‬
‫إ يمق ختةهقع قع ق قأليمقذوق ق؟ق كيفقء قه اق ل اقإ يمق؟قذ مق ل قع قذ قءعطق‬
‫يجقألز ق‪portion‬قذ ق ياءاتق نق م اقذ ق ءكربددلاقجليمق ة قع ق يت قء سق‬
‫تيك ق قيقي ق م اقذوق ق!!!ق ق‬
‫قذ ا اق ت ق ء عاثقغاحق‪co2‬قذ قج وق ايا تق تخمذ اق لاقأل ق ياءاتق نق‬
‫ف قذ ق‪ 0‬قإ ق‪)9‬قذيق اقها تم ل قجل لاقأل يعلاق قكقها ت ا ق‬ ‫م اق(ذيقأل ق‬
‫يجق‪.‬ق ق‬ ‫فقذ ق‪6‬قإ ق‪9‬قه يثقناتخمذلاق لت ق قذ ق ق‬ ‫ذ قج ق‬
‫إي قذ حق م اقذك ج قتم ل ق‪train‬قذ ق‪0‬قإ ق‪9‬ق ذك ج ق ت ا ق‪test‬قذ ق‪6‬قإ ق‪9‬قق لاق‬
‫ق قه ق قيكق ق‬ ‫يكق قيقي ق م ق قناتخمذلاق ق ت ق إء اق قطق لت ق قج ق‬
‫ج ق‪EmCo2‬ق تم ق‪Actual values‬ق‪.‬ق ق‬
‫يجق يق‬ ‫آل قء ا ق دق‪ features‬ق(ذك ج ق ت ا ق ن ق ةءاعاقذ ق‪ 6‬قإ ق‪)9‬قإ ق‬
‫يجق بيق قيكق قيق ق‬ ‫ب اهق ءا قذاي ق ت ق اق‪،‬قثكقءكايقذقا ء قتيقذاق ت عمق اق‬
‫يجقذ قجمذلاق ق‪ .‬ق‬ ‫نق م اقذ ق‪،‬ق ع قذ ق م ق‬
‫يجق م قذغل لاقيعت مقج ق‬ ‫ق‬ ‫ألمق عميمقذ ق قا يسق نقءعت مقجل لاق ت ميمق‬
‫تقا لقتيق قيكق ت ع ق ق قيكق قيقي ق‪.‬ق ق‬
‫قيقي ق𝑦ق‬ ‫ط ق خ أقتي ق قيك ق‬ ‫ق تا ي ق ن قت ا قذت‬ ‫ذ مقع ه ق قا يس ق عا‬
‫ت ع ق̂𝑦ق‪.‬ق ق‬

‫ق‬
‫ت ا قج قء سقذك ج ق ياءاتق‬ ‫رلق ق ق تق يكقءكايق تم ل ق ق‬ ‫قع هق‬ ‫إي ق‬
‫قتت ةقها تا ق ق‪ :‬ق‬

‫‪27‬‬
‫قتم ل قجا ي ق‪high training accuracy‬‬ ‫‪-‬‬
‫ق‬ ‫يجقذ‬ ‫ق‬ ‫‪ -‬ق قذ خ ض ق ا جق ع اتق‪low out-of-sample accuracy‬ق‬
‫يعلكقتياءاتمق نق تخمذدق ق تم ل قق‪.‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪All‬‬ ‫‪Training‬‬ ‫‪Test‬‬ ‫ق‬


‫‪dataset‬‬ ‫‪data‬‬ ‫‪data‬‬ ‫ق‬
‫‪dataset‬‬ ‫‪datase‬‬
‫قتيقعاتيق ق تيق ق‪ :‬ق‬ ‫ل‬
‫‪t‬‬ ‫ً‬
‫أوال حالة الدقة العالية ‪:‬‬
‫يجقج مق تع ا قذك ج ق ت ا ق‬ ‫ي ق نق ألمعاق‬ ‫نا ق ئول ق لت عاتق‬
‫قذ ك ق‬ ‫ج ق ق ا ق إ ق م ق عا ي ق يادقها رص لقذ قتك قس قأليمق ذاق‪،‬ق‬
‫يجق‬ ‫أل قعك قذذاقذ ق اه ق ا ق‪ over-fit‬قذيقي حقغةقذ ئكق ل ياءاتق تعم ق‬
‫ذا ل ق ت ق قيم ق ق ا ق ك ق تشولمق ل ياءاتق ت ع ق‪.‬ق ق‬
‫ً‬
‫ثانيا حالة الدقة منخفضة ‪:‬‬
‫قء تاجق‬ ‫ع قباه قذءمق تكق ت ا قج قتياءاتقذ ق ا جقذك ج ق‪dataset‬ق م اق‬
‫يجق‪.‬ق ق‬ ‫ت ايقع هق نا ق ئول قها ءتقا ق ل رلق ق اءي ق تق يكق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪28‬‬
‫‪ -2-8‬تقسيم البيانات ‪: train/test split‬‬
‫تاق‬ ‫ع اق تكق تخم وقألز قذ ق ياءاتق لتم ل قذ قذ ق‪0‬قإ ق‪5‬ق ق قي قذ ق‪6‬قإ ق‪9‬ق‬
‫ءتات قت سقتاتي ق تالا ق ق رلق ق ااهق قذ ق االق خ أق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪All‬‬ ‫‪Training‬‬ ‫‪Test‬‬ ‫ق‬
‫‪dat‬‬ ‫‪data‬‬ ‫‪data‬‬ ‫ق‬
‫‪ase‬‬
‫ق آ ا ق ت ‪t‬ا ق‬ ‫لي قج قهعض قذ مع ا ق لتم ل‬ ‫قذ‬ ‫ع ا قتك قتقايك ق م تا ق كزذ‬
‫‪mutually exclusive‬ق‪.‬ق ق‬
‫يجقج قألز ق ءختةقج قألز قآ اقذ اق زلمق نا ق ئول ق لم ق‬ ‫تل هق رلق قءم لق‬
‫ق ا ق‪out-of-sample‬قق‪ .‬ق‬
‫يجقج قذك ج ق ت ا قء الاقتلمفقذ ق قءخشقذيقذ ق‬ ‫ذ قثكقءق وقتتم ل ق‬
‫قذ قتك قي تق ي ق‪.potentially valuable‬ق ق‬ ‫ت‬ ‫ياءاتق م اق ق‬
‫قذش ل قتقايكق ياءاتقذ لاق لتم ل قققق‬ ‫ذ قذ قع هق رلق قذ ض قذ ق اهقتلاق ق م قت‬
‫قذ لاق ت ا قق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪29‬‬
‫ق‪k=4‬ق قاكق ياءاتق‬ ‫قتم ق‪k-fold cross-validation‬ق‬ ‫قع ا قةرلق ق‬
‫ب د قذألز قه يثق ققتم قتياءاتقألز قها كز ق آل قاق اقي ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ق‬
‫األول واالختبار على البقية‬ ‫الثاني واالختبار على البقية‬
‫‪All‬‬
‫ق‬
‫‪da‬‬
‫‪tas‬‬ ‫ق‬
‫‪et‬‬ ‫ق‬
‫ق‬
‫ق‬
‫ندرب النموذج على ‪ %25‬الجزء‬ ‫ندرب النموذج على ‪ %25‬الجزء‬
‫الثالث واالختبار على البقية‬ ‫الرابع واالختبار على البقية‬
‫ق‬
‫ق‬
‫طق‬ ‫ق ت‬ ‫ءتيك ق م قذ قذا ل ق‪%80‬ق اءي ق‪%84‬ق ا ق‪%82‬ق ا هع ق‪%86‬قثكقءأ‬
‫قج ق م ق كلي ق ل يجق‪:‬ق ق‬ ‫اا ق لك ق‬
‫‪ AVG(80+82+84+8) = 83% = Accuracy‬ق‬
‫ءنت مقذ ق قألز ق‪fold‬قذت اجمقج ق آل اقذيق ق ألمقتياءاتقتم ل ق ق اكقتك قذ أل لق ق‬
‫اكقآ اق لتم ل ق قها تا ق ل اقج قنا قثاتت قذ ق نا ق ئول ق لم ق ققق ا ق‪out-‬‬
‫‪of-sample‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪30‬‬
‫مقاييس التقييم ‪: evaluation metrics‬‬ ‫‪-9‬‬
‫يجق هقتش ق ت يق‬ ‫نتعافقج قذقا يسق م ق‪accuracy metrics‬ق تق يكق‬
‫يج ق ق ا ق ت ق‬ ‫يج ق‪ ،‬ق ت مث قج ق قا يس ق ن قتقيك ق‬ ‫ا قذ ق‬
‫‪regression‬ق‪:‬ق ق‬
‫قذ ا قاق اات قهم لياقًق قا قتيق قيكق قيقي ق ك ج ق ت ا ق قيكق نقق‬
‫يجق م اقق‪ .‬ق‬ ‫ت علاق‬
‫قياوق م ق يقي م ق اقذيق قاة قذ ق ااوق نقت تاجق لت ولاق‪.‬ق ق‬
‫ذ قع هق اقق‪:‬ق ق‬
‫خ أق نانق ل ق‪Relative Absolute Error RAE‬‬ ‫‪-‬‬
‫ذت طق خ أق ل ق‪Mean Absolute Error MAE‬‬ ‫‪-‬‬
‫ذت طقذرب د ق خ أق‪Mean Squared Error MSE‬‬ ‫‪-‬‬
‫أل قذت طقذرب د ق خ أق‪Root Mean Squared Error RMSE‬‬ ‫‪-‬‬
‫ع ا قةاققذ ا ق‪،‬ق م قءا قذ ق قع هق اققذتعلق قهقي ق خ أق‪،‬ق اقع ق خ أق‬
‫م اق ق ت ق‪:‬قع ق اققتيق قي ق قيقي ق ق قي ق ت ع ق هق اا ق شا ي ق‬
‫ي ق ق ش ق‪:‬ق ق‬
‫ق‬
‫‪Y‬‬
‫ق‬
‫قيمة الخطأ‬
‫ق‬
‫ق‬
‫ق‬
‫‪x‬‬ ‫ق‬
‫ق‬
‫اقق نق‬ ‫ءمقيك ق م اقجملقءقاطق قها تا ق م اقجملق يكق لخ أق تكق ااتلاقتإ م ق‬
‫يكاءاعاق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫‪31‬‬
‫وه أبسط الطرق ‪:‬‬
‫‪ -1-9‬متوسط الخطأ المطلق ‪ MAE‬ي‬

‫ق‬
‫ق‬
‫ق‬
‫ق هاه ق أل ق ةب ق‬ ‫‪ -2-9‬متوسط مرب ع الخطأ ‪ MSE‬ق ه قذشلاقذ ق رلق ق‬
‫ا عا قذ ألل ق‪ geared‬قإ قذكة ق أ قذ أل ق ق ياه ق ت اع ق خ أ قبش قذسق‬
‫‪exponentially‬ق م اقذقا ء قها خ أق هةق‪:‬ق ق‬

‫ق‬
‫‪ -3-9‬جذر متوسط مربعات الخطأ ‪ RMSE‬ق ذةتلا قذ قع ه ق قي ق تك قتأ لللاق‬
‫‪interpretable‬ق ءلاقتع ق سق ملق شعاعق‪y‬قذ اق ال ق تعاذ قذعمقإ قء سق أل ق‬
‫ك ةق م ق م اق‪:‬ق ق‬

‫ق‬
‫ق‬

‫‪32‬‬
‫النست ‪ RAE‬ق ياىمقذيضا ق‪ Residual Sum of Error‬ق يثق تكق‬ ‫ي‬ ‫‪ -4-9‬الخطأ المطلق‬
‫تع ا قذت طق قيكق قيقي ق̅𝑦ق ق‪ :‬ق‬
‫| 𝑗̂𝑦 ‪∑𝑛𝑗=1|𝑦𝑗 −‬‬
‫= 𝐸𝐴𝑅‬
‫|̅𝑦 ‪∑𝑛𝑗=1|𝑦𝑗 −‬‬
‫النست ‪RSE‬‬
‫ي‬ ‫بيغ‬
‫‪ -5-9‬الخطأ الي ي‬
‫‪2‬‬
‫) 𝑗̂𝑦 ‪∑𝑛𝑗=1(𝑦𝑗 −‬‬
‫= 𝐸𝑆𝑅‬ ‫‪2‬‬
‫)̅𝑦 ‪∑𝑛𝑗=1(𝑦𝑗 −‬‬

‫ع قك ةق تخم وق قذكا قجلكق ياءاتق‪Data Science‬قبيكا قذاق اىمق‪R-squared‬ق‬


‫يجق‪:‬ق ق‬ ‫ع ق يسق خ أقه مقي تمق‪per se‬ق إء اقذقياوق م ق‬
‫𝐸𝑆𝑅 ‪𝑅 − 𝑠𝑞𝑢𝑎𝑟𝑒𝑑 = 1 − 𝑅𝑆𝐸 ≡ 𝑅 2 = 1 −‬‬
‫ق لقيكق ت ع ق ل اق‬ ‫يثقيعةقج قذم ق الق قيكق قيقي قذ ق خطق اتقيكق‬
‫يجقذ ض ق‪.‬ق ق‬ ‫ح تق ي ق ‪𝑅 2‬ق ل اق ا ق‬
‫قع ه ق اق ق ااهق قتقيس ق م ل قء يأل قج ق ت ق ت ميم قذي قذ لا قناتخموق‬
‫يجق قءوعق ياءاتق قذكا ق عا ق مي ق ق‪ .‬ق‬ ‫ذت فقج قءوعق‬
‫خط ‪: non-linear regression‬‬
‫ي‬ ‫الغي‬
‫‪-10‬التوقع ر‬
‫ق ل ي ق‪China’s Gross Domestic GDP‬ق‬ ‫ق ا ق م قاقذ ق قتياءاتق بأل ا ق‬
‫ق ا يق‪annual gross domestic‬قهع ل ق‬ ‫ذ قجاوق‪1960‬قإ ق‪2014‬ق م ق‬
‫م ق‪US‬قذيق م ق ا يق‪income‬ق ق‪ :‬ق‬
‫‪ID‬‬ ‫‪Year‬‬ ‫‪Value‬‬
‫‪0‬ق‬ ‫‪ 1960‬ق‬ ‫‪ 5.9 e+10‬ق‬
‫‪1‬ق‬ ‫‪ 1961‬ق‬ ‫‪ 4.9 e+10‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪9‬ق‬ ‫‪ 1969‬ق‬ ‫‪ 7.8 e+10‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪33‬‬
‫ج ق كقع هق ياءاتقيك ق لاقش قتات قذسق يسق طق‪:‬ق ق‬
‫ق‬
‫‪GD‬‬
‫مستقيم التوقع الخطي‬
‫‪P‬‬ ‫ق‬
‫تابع أسي‬
‫ق‬
‫ق‬
‫‪Year‬‬
‫‪2005‬‬ ‫‪2010‬‬ ‫ق‬
‫يق‪:‬ق ق‬ ‫ع اق م اق‬
‫‪ -1‬ع قي ك قت ق‪GDP‬قت دقذاق؟‬
‫‪ -2‬ع قنات قت ا قء يجقت ق طقبايطق ل هق ياءاتق؟‬
‫قيق قج مذاقءا قذ ق ياءاتقتش قذ ن قذعوجق‪ curvy trend‬ق ل قيعط ق ت ق خطق‬
‫َّ‬
‫ءتائ ق يق ق‪،‬ق ءمقي قه اتقيكق ع اق‪GDP‬قج تلاق ول قذ ق زذ ق يادق ي ق‪.‬ق ق‬
‫يثقءا قتهةقبايطق قيكق‪GDP‬ق نقجاوق‪2005‬قثكقت عمقهعمعاقبشج قثكق تهةقت ط قهعمق‬
‫قء تاجق‬ ‫جلكق‪ 2010‬ق‪،.‬ق ل ق ش مقتات قذس ق‪ logistical or exponential function‬ق‬
‫ت قغةق طقق ش مقه عا تمق ش ق تا ق ق‪ :‬ق‬
‫𝑥‪𝑦̂ = 𝜃0 + 𝜃1 𝜃2‬‬
‫تك قذل ت اقإيكا ق ا ذة تقثيتاق‪.‬ق ق‬
‫قهعمل قذء اط ق ط ق‪ linear‬قذ قتربيغ ق)‪quadratic(parabolic‬ق‬ ‫ي ك اقج قء يج ق ت‬
‫ذكعنق‪cubic‬ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫خطي‬ ‫تربيعي‬ ‫تكعيبي‬
‫ق‬

‫‪34‬‬
‫تة يمق م أل قه ا ق ياءاتق نق م اق‪.‬ق ق‬
‫ق( ض ) ق‪ in essence‬قذء اقءمج عاقأل يعلاقك ةق م ق ت ق ‪polynomial‬‬ ‫ق‬
‫قتي ق تهة ت ق اتقل ق‪ x‬ق هة قذاتقل ق‪ y‬ق أل قك ةق‬ ‫‪ regression‬ق يث قت م ق ع‬
‫م قه ا ق أل ق‪x‬ق‪.‬ق ق‬
‫م قق يق‬ ‫ق ل ياءاتق نق مي ق‪،‬قإي قذاقع قك ةق‬ ‫ا‬ ‫ق‬ ‫لك ق ءت اهق ءتقا ق‪pick‬ق ت‬
‫ا قأل قذء عق ياءاتق؟ ق‬
‫م قذ ق م أل ق ا ق‪:‬ق ق‬ ‫قك ةق‬ ‫ع قذت فقج قءوعقتياءات ق‬
‫‪𝑦̂ = 𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3‬‬
‫يجقذ ا ق ل ياءاتق ا ي ق‪underlying data‬ق با اغكق‬ ‫جل اقتخ يق يكقثيتاق يك ق‬
‫ذ قذ ق ع قغةق ي ق ي ك اقت ولللاق ع ق ي ق ق! ق‬
‫م ق اات قذ ق م أل ق ا ق ا اق تا ق‪:‬ق ق‬ ‫قجمءاق م ةق‬
‫‪𝑥1 = 𝑥, 𝑥2 = 𝑥 2 , 𝑥3 = 𝑥 3‬‬
‫ق ا تا ق‪:‬ق ق‬ ‫دق عا‬ ‫ذ‬
‫‪𝑦̂ = 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 + 𝜃3 𝑥3‬‬
‫هقك ةق م ق طقي ك اق جت ا هق ا ق ا قذ ق ت ق تعم ق تقليميق ‪traditional‬‬
‫‪ multiple regression‬ق ءع قج معاق تخم وقء س ق آل ي ق ن ق تخمذ اعاق اهقاق هق‬
‫‪ Least squares‬ق ه ق تخ ي ق ا ذة تق كل ق ق ت ق خط ق يثقناغق ت هةق‬
‫ذك وعقذربعاتق ا ققتيق ياءاتق قيقي ق نقت ع اعاقج قةرل ق تات ق خطق اات ق‬
‫ق‪Minimizing the sum of the squares of the difference between 𝑦̂, 𝑦:‬قق‪ .‬ق‬
‫ق هةق طقها ض طق؟ ق‬ ‫إي قهعمق قع قذاقع ق ت‬
‫ع قي قء يجقغةق طقتيق تهة تق اتقل ق هةقذاتقل ق لن غقذ قتك ق̂𝑦قتات قغةق‬
‫طق ل ا ذة تق 𝜃ق يسقها رص لق ل تهة تق‪x‬ق(‪)features‬ق‪.‬ق ق‬
‫ا تقتهةق̂𝑦 ق‬ ‫ق ق‬ ‫لك قش للاقذسق‪،‬ق غا لتىمقق‪،‬قجا يق‪،‬قذ قجملقذش ا قذ ا ق‬
‫ق هةق ط قع قء يجقغةق طق‬ ‫ذات طقتتهةق 𝜃 ق يسقها رص لق قطقج قتهةق‪ x‬قذيق ت‬
‫ل ا ذة تق‪.‬ق ق‬
‫‪35‬‬
‫𝑥 ‪𝑦̂ = 𝜃0 + 𝜃12‬‬
‫𝑥‪𝑦̂ = 𝜃0 + 𝜃1 𝜃2‬‬
‫) ‪𝑦̂ = log(𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3‬‬
‫‪𝜃0‬‬
‫= ̂𝑦‬ ‫) ‪(𝑥−𝜃2‬‬
‫‪1 + 𝜃1‬‬
‫ذ ق‬ ‫ها قاه ق‪ in contrast‬ق ق ت ق خط ق قي ك ا ق تخم و ق‪ least squares‬ق‬
‫ياءاتق ق ت ق هةق طق ج ذاقتخ يق ا ذة تق يسق ل ق ذاقق‪ .‬ق‬
‫قغةق ي قه رلق ق لل ق؟‬ ‫‪ -‬إي قكيفقءعلكقذ ق اأ ق ي قذ‬
‫ض ق ك قث ا ق هعا ق تهة ت ق خرج قها نا ق‬ ‫‪ o‬ك ق ياءات ق ن ق م اق‬
‫ق ي قذ قغةق ي ق‪.‬ق‬ ‫نقي ةق ع‬ ‫لم ق ا‬
‫ت اط ق‪ correlation coefficient‬قتي ق تهة تق‬ ‫‪ o‬ي ك ا ق اال قذعاذ ق‬
‫اتقل ق هةقذاتقل ق‪.‬ق‬
‫قذ الق‬ ‫‪ o‬إي ق اءد ق ي قذعاذ ق ت اط ق ك ق تهة ت ق‪ 0.7‬ق ا ق ق ق ا ع‬
‫لخ ي قتيق م ق ق خرجق ق‪.‬‬
‫‪ o‬ذ قءق وقها تخم وق ت ق خط ق إ ق اءدق تائ قغةقذا ي قءنتق ق لت ق‬
‫هةق طق‪.‬ق‬
‫‪ -‬كيفقء نقء يجقتياءا قإي ق اءدق هةق ي قذ أل لق؟قع اقناتخموقإ م ق اقق‬
‫تا ي ق ق‪:‬‬
‫‪Polynomial regression ‬‬
‫‪Non-linear regression model ‬‬
‫‪Transform your data ‬‬
‫ق تعم قج مذاقءرلمقتيا ق لقتأثةق تهة تق اتقل قج ق تهة تق‬ ‫ءتيك ق‪:‬قناتخموق ت‬
‫هةقذاتقل ق ق‪ .‬ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪36‬‬
‫قذ ا ق‪GPD‬ق ل يقذ قجاوق‪1964‬ق عاوق‪2010‬ق‪:‬ق ق‬
‫حذ ق ق‪ :‬ق‬ ‫ق تة ق كت اتق‬ ‫لق‬ ‫خ‬ ‫‪-‬‬

‫ق‬
‫ق‪y=2x+3‬قذ قهالق ت كالق‪:‬ق‬ ‫قباي‬ ‫ق خطق عا‬ ‫كايق كق لت‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪37‬‬
‫ق هةق طق يك قذ قك ةق م ق أل قثا ق‪:‬ق‬ ‫‪ -‬ذذاق ت‬

‫ق‬

‫ق‬

‫ق‬
‫ةبيغق مق ش ق‪:‬ق‬ ‫‪-‬‬

‫ق‬
‫‪38‬‬
‫ق‬
‫سق مق ش ق ق‪:‬‬ ‫‪-‬‬
‫ق‬

‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫‪39‬‬
‫ل غا لتىمق‪:‬ق‬ ‫‪-‬‬
‫ق‬

‫ق‬

‫قق‬
‫ق‬
‫ق‬
‫ق‬
‫اك ولمق‪Sigmoidal/Logistic‬ق‪:‬ق‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫‪40‬‬
‫ق‬
‫ق خطق هةق طقهأعكقذش ا مقق‪ .‬ق‬ ‫لع اقج ق اققتيق ت‬‫تل قءك ق‬
‫ق‬
‫ءأ ق آل ق ل ا ق يق م مق ع ق‪GPD‬ق ل يق‪:‬ق ق‬
‫ق‬
‫اقذ لاق‪:‬‬ ‫كت ا قهأ قجشقذ‬ ‫تة ق كت اتق حذ ق ت ي ق ياءاتقذ ق ا هطق‬ ‫‪-‬‬

‫ق‬
‫ق‬
‫ق‬

‫‪41‬‬
‫ي قءا لاق‪:‬ق‬ ‫ي قذوقغةق‬ ‫خاألاتقع ق‬ ‫تق‬ ‫قتيق م‬ ‫آل ق ت ميمق ع‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫ءكمقذ ق ا كق يا قذ ق ع ق ي ق با تا ق ناتخموق ت قغةق خط ق م ق‬
‫ذيقذء جمق ناتخموق‪:‬قك ةق م ق–ق سق–ق ل غا لتىمق–ق اك ولمق‪.‬ق ق‬
‫ء ظ قذ ق ا ك ق يا قذءلاقتز قت ط ق ق م ي قثك قتتاا ع ق ق ط قثك قتعا ق‬
‫ءخ اضق( مق ت ا ق ل ع ق سق م قع قذخا فق يثق سقت مذقت ط قثكقتة يمق‬
‫ق يك ق م ق اك ولمق ي ق اق ل ق ت ق قذ ب اقذ ق‬ ‫ق ءخ اض)ق‬
‫دق‪:‬ق ق‬ ‫ق قة عاقج ق االق كلمق‬ ‫ءكالق سق ءا قذ ل اقذ ض ق قهأوقه‬
‫ق‬
‫ش ق عاوق م ق‪logistic‬ق‪:‬ق ق‬

‫ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪42‬‬
‫ق ل ق تات ق‪:‬ق ق‬ ‫يجقذ قتعرلفق‬ ‫ء مذقتب ا ق‬

‫ق‬
‫قتمق ل ياءاتق م اق ق‪ :‬ق‬ ‫هدق تات ق ة قذم قذ‬ ‫ثكقءض ق يكقذ ي ق‬

‫ق‬

‫ق‬
‫اقءا قذءمق يسقذ ا قه ا تمق ي قإي ق ل ت اق آل قإيكا قذ ض قها ذة تق مق‪.‬ق ق‬
‫‪ -‬ءق وقهع لي قت ظيكق ياءاتق تك قت سق كا ق هقج لي ق‪normalize‬قذيق ا تق‬
‫قء ا قت ظي لاق ا تا ق‪:‬ق‬ ‫ها فقذذقاق‪GPD‬قذا ج ق لق لق‪13‬ق اقءا ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪43‬‬
‫نقناتخموق كت ق‪scipy‬ق‪:‬ق‬ ‫قل‬ ‫ا‬ ‫‪ -‬بألا ق يكقتيتاق‬

‫ق‬
‫لاق ة ق تيك ق ق‪:‬‬ ‫آل قءع‬ ‫‪-‬‬

‫ق‬

‫ق‬
‫ل لق‬ ‫ء ظقذءمقذ ا ق م قع ق قيكقق ن غقذ قء ا ق م قها تخم وقء سق‬
‫ق ت ق خطق‪:‬‬
‫يج قثك ق اال ق قيكق‬ ‫ي قتتقايك ق ياءات ق ت ا ق تم ل ق قذ قثك قتم ل ق‬
‫ت قها جت ا قج قتياءاتق ت ا ق ذ قثكق االق م ق‪:‬ق ق‬

‫‪44‬‬
‫ق‬

‫ق‬
‫ق خطق ق هةق طقذ قذذ ل قج لاق‪.‬ق‬ ‫تل قءك ق مقذءل اق ت‬

‫‪-11‬التصنيف ‪: Classification‬‬
‫‪ -1-11‬مقدمة ‪:‬‬
‫يعتةق ت نيفق قتعلكق آل قذ ق اكق تعلكق ب قق‪supervisor‬ق يثقذ ق مق‬
‫قذك جاتقذ ل ق‬ ‫ي ك قت نيفقجملقج ارصقذكل ق(ذيق قجلكق اقج لا)ق‬
‫ف)قق‪ .‬ق‬ ‫(‬
‫ق أل ل قتي قذك ج قذتهة ت ق‪features‬ق‬ ‫ي ا ق ت نيف قذ ق تعلك ق ع‬
‫لمفق‪target‬ق‪،‬ق يثقيك ق لمفقذتهةق ه يق‪categorical variable‬قهقيكق‬
‫ذ ل ق(ذتق ع )ق‪discrete values‬ق‪،‬ق ا قج قي ق ق‪ :‬ق‬
‫ت قذ حق قا ضق‪leans‬ق لع ق قت قذ قذرصفقذاق‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪45‬‬
‫م اقت ق ميمق ا قجموقتاميمق قا ضق ميمق(تخلفقج ق م ق‪)default‬ق‪:‬ق ق‬
‫م اق ياءاتق تا ي ق ق‪ :‬ق‬
‫‪age ed employ address income deb credit order default‬‬
‫‪ 3‬ق ‪ 41‬ق‬ ‫‪ 17‬ق‬ ‫‪ 12‬ق‬ ‫‪ 5,009‬ق ‪ 11.3‬ق ‪ 9.3‬ق ‪ 176‬ق‬ ‫‪1‬ق‬
‫‪ 1‬ق ‪ 27‬ق‬ ‫‪ 10‬ق‬ ‫‪6‬ق‬ ‫‪ 19.2‬ق ‪ 31‬ق‬ ‫‪ 4,0‬ق ‪ 1.6‬ق‬ ‫‪0‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬
‫‪.‬ق ‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪0‬ق‬
‫ق‬
‫تهةق ةقذ ق وعق‪categorical‬ق ع ق لمفق ءرلمقذ قءت قع ق يم ق زب ق‬
‫قاضق ةت قجليمقذوق قق‪ .‬ق‬
‫قذ حق‪offer‬قذ قذ ق‪decline‬ق عا ضق ا ق ميمق ل ق زب ق ق‪ .‬ق‬ ‫ج معاقي م ق‬
‫ّ‬
‫ناتخموق ياءاتق نق م اق ا قذ فق‪classifier‬قء ا ق مقتياءاتقذيقحب قألميمق‬
‫لعطق تيك قإذاق‪1‬قذيق‪defaulter‬قذ ق‪0‬قذيق‪not defaulter‬ق‪.‬ق ق‬
‫ءا قذ قءوعقع ق ت نيفقث ا ق‪ binary‬ق ءمق اتخموق ي تي ق ق خرجق‪ 1‬قذ ق‪ 0‬ق اق‬
‫ّ‬
‫ي ك اقت ا قذ فق أل قجمل قذ اف ق‪ multi-class classification‬قذيق يسقث ا ق‬
‫قطق اق قذ ا اق اات ق‪.‬ق ق‬
‫ذ قيك ق م ا قتياءات قذاض ق ءرلم قذ قءت قءوع ق عقا ق ي ق ع يم ق ل رلضق‬
‫كمي قمق‪ :‬ق‬

‫‪age‬‬ ‫‪ sex‬ق‬ ‫‪ Bp‬ق‬ ‫‪ chars‬ق‬ ‫‪ Na‬ق‬ ‫‪K‬ق‬


‫‪ Drug‬ق‬
‫‪ 18‬ق‬ ‫‪m‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugY‬ق‬
‫‪ 16‬ق‬ ‫‪f‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugC‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق ق‬
‫‪.‬‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ drugX‬ق‬
‫ق‬
‫قققققققع ق تهةق لمفق‪ categorical variable‬ق‬
‫يثق م اقث ثقت ني اتق لم ق ت ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫‪46‬‬
‫ذكا تق تخم وق ت نيفق قذذ قجملق‪:‬ق ق‬
‫ت ميمق يق ئ قذ قءوعق نتىمق زب‬ ‫‪-‬‬
‫ت قع ق زب ق يهةق لعتمق نق يشةلددلاق‪churn detection‬‬ ‫‪-‬‬
‫ت قع ق اتكي ق زب ق‪ respond‬ق عا ضق شك قذوق قذ ق ق ك ج قإج ءات ق‪:‬ق‬ ‫‪-‬‬
‫‪particular – advertising – camping‬ق‪.‬ق‬
‫ت ةق ك وق‪speech recognition‬قق‪.‬‬ ‫‪-‬‬
‫ت ةق طق يمق‪hand writing recognition‬‬ ‫‪-‬‬
‫ت ةقذقا يسق ول ق رلضق‪bio-metric identification‬‬ ‫‪-‬‬
‫ت نيفق ات م تق‪documents classification‬‬ ‫‪-‬‬
‫ق‬
‫ذعظكقع هق شاك قتك ق ائ قج ق تيا قتيقجملق ت ا تقذ قت نيفق تائ ق لتعاذ ق‬
‫ذعلاقذ قت نيفق ةلمق ب مة قع قع ق ‪spam‬قذ ق‪not spam‬ق(ترلمقذ ييقذوق )‪.‬ق ق‬
‫حذياتق ت نيفقذ لاق ق‪ :‬ق‬ ‫ألمق عميمقذ ق‬
‫‪-‬‬ ‫)‪Decision Tree (ID3-C4.5-C5.0‬‬
‫‪-‬‬ ‫‪Naïve Bayes‬‬
‫‪-‬‬ ‫‪Linear Discriminant Analysis‬‬
‫‪-‬‬ ‫)‪K-Nearest Neighbor (KNN‬‬
‫‪-‬‬ ‫‪Logistic Regression‬‬
‫‪-‬‬ ‫)‪Neural Network (NN‬‬
‫‪-‬‬ ‫)‪Support Vector Machine (SVM‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪47‬‬
‫‪ -2-11‬خوارزمية التصنيف ‪: K-Nearest Neighbors KNN‬‬
‫قج ق اض ق او قذز ق ت ا ت قتتقايك قحبائ م قإ ق ئات قج قذ او ق خمذات ق نق‬
‫ق كم ق تا ق ق‪ :‬ق‬ ‫يقمذلاق لكق‬
‫‪ Y : dependent‬ق‬
‫‪X : Independent‬‬
‫‪ variables‬ق‬
‫‪variables‬‬
‫‪id‬‬ ‫‪ income customer‬ق ‪ gender‬ق ‪ retire‬ق ‪ employ‬ق ‪ ed‬ق ‪ address‬ق ‪ material‬ق ‪ age‬ق ‪region‬‬
‫‪ categorial‬ق‬
‫‪0‬‬ ‫‪ 44‬ق ‪ 2‬ق‬ ‫‪1‬ق‬ ‫‪4‬ق ‪9‬ق‬ ‫‪5‬ق‬ ‫‪0‬ق‬ ‫‪m‬ق‬ ‫‪2‬ق‬ ‫‪1‬ق‬
‫‪1‬‬ ‫‪ 33‬ق ‪ 3‬ق‬ ‫‪9‬ق‬ ‫‪2‬ق ‪6‬ق‬ ‫‪3‬ق‬ ‫‪1‬ق‬ ‫‪f‬ق‬ ‫‪3‬ق‬ ‫‪4‬ق‬
‫‪..‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪0‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬
‫‪..‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬
‫‪8‬‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق ‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪ ..‬ق‬ ‫‪.‬ق‬ ‫‪ ..‬ق‬ ‫?‬
‫ق‬
‫‪target‬‬
‫م اق مذاتق ل شةكيقتأ ق ي تلاق تهةق‪Y‬ق اقي ق‪:‬ق ق‬
‫‪Basic service -1‬‬
‫‪E-service -2‬‬
‫‪Phis-service -3‬‬
‫‪Total-service -4‬‬
‫با تا ق شك ق تاتخموق ياءاتق مي غا ي ق تت ق ة تق نق تشةكق لاقذك ج ق‬
‫شةكيق تقميكق خمذاتق‪offers‬ق لكق‪:‬ق‪ individual prospective customers‬ق‬
‫ن نق‬ ‫ع ه ق اأ قتعتة قإ م قذاائ ق ت نيف ق يث ق م اقذ ب د قذك جات ق لخرج ق‪ Y‬ق‬
‫ء يجقت ق لقيكق كميملقذ ق كل ق ناتخموق‪KNN‬ق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪48‬‬
‫ق‪ features‬قذ ق تهة ت ق‪ x‬قذ ق‪:‬ق‬ ‫قذ مئيا قناتخمو ق قط قج‬ ‫ذ قذأل ق قياو قه‬
‫‪age,income‬ق نا لكق‪predictors‬قثكقءا كق زبائ ق ك جاتقت ا قج قع ق تهةل ق‪ :‬ق‬
‫ق‬
‫‪income‬‬
‫ق‬
‫ق‬

‫‪age‬‬

‫‪Basic‬ق‬ ‫‪Eco‬‬ ‫‪Plus‬‬ ‫قق‪Total‬‬


‫آل قءكمقذ ق زب ق كمي قمققققذ الق ل ق قققققذيق ئ ق‪Total‬ق ل قي ك اقذ قءق قذءمقذ قع هق‬
‫قي ق قع ه ق ئ قذ ق رل ق لزب ق كميم ق ‪first-nearest‬‬ ‫ئ ق؟ قءعك قنات‬
‫‪neighbor‬ق م قيأ ق ا ق تا ق‪:‬ق كقهق ث ي قع ق ت نيفق؟قة عاقع قتخ يق عيفق‬
‫اقإ ق اءدق ق ق قرل ق ا ق ا قذ قشايلق‪outlier‬ق‪.‬ق ق‬
‫إي قءع ق ل خ طق اات ق بم قذ قء م قذ قءق ق رل ق لزب قءق وقتت ميمقذ ق سق‬
‫ءقاطق رل ق مق ءا قجم ق قاطق تشاتل ق ي اقتي لاق‪majority vote‬ق ت ميمق فقحب ء اق‬
‫كميم‪:‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق ا ق م اق‪:‬ق ق‬ ‫ق‬ ‫فق ع قذكةقذ قي ق‪more sense‬ق‬ ‫ءكمق أل قث ث قذ قء سق‬
‫حذي ق‪KNN‬ق تا ق ق‪ :‬ق‬ ‫حق م اقققق‪5-NN‬ق با تا قيك قتعافق‬ ‫‪1-NN‬قثكقذ‬
‫م لق‪labeled points‬ق‬ ‫حذياتق ت نيفق نقتأ ق زذ ق‪bunch‬قذ ق قاطق‬ ‫هقذ مق‬
‫تاتخمذلكق ت ميمقعول قهقي ق قاطق يثقتعت مقج ق تشاهمق أل قتي قع هق قاطق‬
‫قرل ق لاقق‪based on their similarity to other cases.‬ق ق‪ .‬ق‬

‫‪49‬‬
‫تاىم قع ه ق قاط ق قرل قذ قهعضلاقذ ق ق ق كميمل قهد ق‪ neighbors‬ق ه قتعت مقج ق‬
‫ا تق تشاتل قذ قء سق فق تك ق رل قج قهعضلاق عضق ق اا قتي ق ق‬
‫ا تيققهقذقياوق ت ا ق‪dissimilarity‬قق‪ .‬ق‬
‫ع ا قجملقةاقق قياوق تشاهمقذ قبش قذعاكسق ياوق ت ا قذ قةرلق ق ‪Euclidian‬‬
‫‪distance‬ق نتعافقج قع هق اقق قاق‪.‬ق ق‬
‫حذي ق‪KNN‬ق ا تا ق ق‪ :‬ق‬ ‫ق‬ ‫إي قءلخصقذا‬
‫ءض ق ي ق‪k‬قذيقجم ق قاطق تكا لقق‪pick a value for k‬‬ ‫‪-1‬‬
‫االق اا قتي ق ق ق كميملقذ ق كل ق بقي ق قاطق ق ‪hold out from‬‬ ‫‪-2‬‬
‫‪each of the cases in the dataset‬‬
‫قتياءات ق تم ل ق‪ )training data‬ق ال ق ل ق ق‬ ‫ءختا ق‪ k-observation‬ق(‬ ‫‪-3‬‬
‫كميملقذ ق كل ق‪.‬ق‬
‫ءت ق ا ق ق ق كميملقها تخم وق ا تق شائع ق الق قاطق لقاق‪.‬ق‬ ‫‪-4‬‬
‫مق ع اق ق‪ :‬ق‬ ‫ق‬ ‫ع ا قألزذ ق قع ق اا قيعطق ء اجاقذض رباق لع‬
‫‪ -‬كيفقءختا ق ي ق‪k‬ق ي ق؟‬
‫ا تقذ ق قاط‪.‬ق‬ ‫‪ -‬كيفقءقيسق تشاهمق( اا ات)قتيق‬
‫ة قذ ا قج قةرلق ق ياوق تشاهمقتيقحب ءيق(ءق تي)قذ قذ ا اق اات ق‪:‬ق ق‬
‫‪customer1 customer2‬‬
‫‪ age‬ق‬ ‫‪ age‬ق‬
‫‪ 54‬ق‬ ‫‪ 50‬ق‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 = 4‬‬
‫‪income‬‬ ‫‪income‬‬
‫‪190‬‬ ‫‪200‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 = 10.77‬‬
‫‪education education‬‬
‫‪3‬‬ ‫‪8‬‬ ‫‪𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 + (3 − 8)2 = 11.87‬‬
‫ق‬
‫ق‬
‫ق‬

‫‪50‬‬
‫م ا قذ ل ا ق قط قذةل ق مل ق‪ age‬ق ي ك ا ق ياو ق اا قتي ل قا قه رلق ق ‪Euclidian‬‬
‫‪distance‬ق تاىمق‪Minkowski distance‬ق ا تا ق ق‪ :‬ق‬
‫ق‬
‫ق‬
‫ملقذ ق ثنتي قذ قث ث ق‬ ‫قذةلق‬ ‫ء ظقذ ق كم ق اات قكيفق تكق االق ت ا قج مقذ‬
‫لزب ءيقق‪ .‬ق‬
‫قذكا قذعيق قع ق‬ ‫ي ك اقج قي ق ك ق ياءاتق قج قتق يسق‪normalized‬ق لاق‬
‫ذعت مقج قة يع ق ياءاتق ق ت نيفق اتخموق‪.‬ق ق‬
‫اضق‬ ‫ق‬ ‫ق كل‬ ‫اق ذ اقذ قع هق خ حذي قتعت مقج قت ميمق ع ارصق كةق رباق ل ق‬
‫ق؟ ق‬ ‫ءرلمقت ميمق ا ق ا ق(؟) ج ق خ طق‪chart‬ق اقهق ي ق‪k‬ق ا‬

‫إي قهمذ قهقي ق ليل ق‪k = 1‬ق إءلاق تك قذ الق ل فق‪Basic‬قققققق م مق يا قس ق قهقي ق‬
‫قاط ق لاقذ ق ف ق ق ق قج ق خ ط قذي ق‪ Total‬ق ق أل ق خيا ق ق ق قع ق ا قشايلق‬
‫‪anomaly‬ق با تا ق تيا ق ي ق ئيل ق‪k=1‬ق يقإ ق ا ق‪over-fitting‬ق‪.‬ق ق‬
‫يج ق قيك قبش لم ق عاو قذ يم ق لع ات قذ ق ا ج ق ياءات ق‪out-of-‬‬ ‫ع قيعن قذ ق‬
‫‪ sample‬ق ه ق ن قناتخمذلا ق تم ل ق ظاو ق با تا ق ايك قغة قذ يم ق لقيك ق كميملق‬
‫( كل )ق‪،‬ق م قذاي ق ق ةءاق ي قك ةلقذ ق‪k=20‬ق؟قك ق يك قغةقذ ئكق ق! ق‬
‫تيا ق ي ق‪k‬ق؟ ق‬ ‫إي قذاقهقذ ض قةرلق ق‬
‫يجق ع ق‬ ‫ق ش قع قذ قء ت ظقذ قء كزق‪reserve‬قألز قذ ق ياءاتق ت ا ق ق‬
‫يجقها تخم وق‬ ‫قءختا ق‪k=1‬قثكقناتخموق ياءاتق نق كزءاعاق ت ا ق االق ق‬ ‫ي‬

‫‪51‬‬
‫قج قذج ق‬ ‫أل قتياءاتق ت ا ق‪ test set‬ق ءعيمق ع لي قها تيا ق يكقذ ا ق دق‪ k‬ق ن قء‬
‫ق ل يجق قذ ا اق اات ق تك قذ ض ق ي قهق‪k=4‬ق ق‬

‫‪Accuracy‬‬ ‫ق‬
‫ق‬

‫‪k‬‬ ‫ق‬
‫‪k=4‬‬
‫ق‬
‫ا ق تك ق تخم وق‬ ‫ةرلق ق‪ KNN‬قتاتخمو قذيضا ق لت قه ا ق قيك ق ات ال ق قع ه ق‬
‫ذت طق قيكق كا لق( ال)ق كتشافق ي ق ا ق كميملقق‪ .‬ق‬
‫ق‪-‬ق‪....‬ق ق‬ ‫ق–ق‬ ‫اتمق‪features‬ق‪:‬قجم ق هافق–ق اا‬ ‫ق عاقذة ق يثقذ‬ ‫ذ قت‬
‫اتلكق‬ ‫ق اا قتي لاق إء اقهاجت ا قذ‬ ‫ي ك اقع اقإيكا قذ القث ثقذ اح ق يسق قطقهأ‬
‫قذت طقذ عا ق اح ق ث ق كا لق‬ ‫قي قثكقءت ق عاق ة ق يقءرلمقت ميمهقهأ‬
‫مقق‪ .‬ق‬
‫ق لاي قي ك اق ق ق‪:‬ق ق‬
‫‪Very high (K=100) overly generalized model‬‬
‫‪Very low (K=1) highly complex model‬‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪52‬‬
‫‪ -‬مقاييس التقييم يف التصنيف ‪: Evaluation metrics in classification‬‬
‫اتق‬ ‫يج ق ع ق اض ق م اقذك ج قتياءات ق زبائ قإ م ق‬ ‫ق‬ ‫ت م قع ه ق قا يس قذ‬
‫ت ا تق ق‪ :‬ق‬
‫ق‬
‫‪Predicted‬‬
‫‪Data set‬‬ ‫‪model‬‬
‫𝒚(‪value‬‬‫)̂‬

‫‪Training set‬‬

‫‪Test set‬‬

‫)‪Real value(y‬‬

‫ق‬
‫قع هق شك ق ق! ق‬ ‫قءرلمقت ميمق تيك ق لائي ق‪churns‬ق ع‬
‫يجقها تخم وقتياءاتق تم ل ق‪ training set‬قءرلمق االق قج قع ق‬ ‫هعمقتم ل ق‬
‫يجقها تخم وقتياءاتق ت ا ق‪ test set‬ق ألمق قيكق ت ع ق ذ قثكقءقا قتي ق قيكق‬
‫يجق‪.‬ق ق‬ ‫قيقي ق قذك ج ق ت ا ق بيق قيكق ت ع ق ت ميمق قع ق‬
‫ق‬ ‫ي م ق اق ياوق م قذيضاق كز ق يق ن غ قد قء هق قء يأل اق ت اي قذ ئمق قع ا‬
‫ةق نتعافقج قث ث قذ لاق هق‪:‬ق ق‬
‫عميمقذ قع هق عا ق‬
‫‪Jaccard index , F1-score , Log Loss‬‬
‫‪: Jaccard index -‬‬
‫يج ق قتعاف قذيضا قهد ق ‪Jaccard similarity‬‬ ‫ق‬ ‫ه قذباط قع ه ق اق ق قياو ق‬
‫‪coefficient‬ق يثقء للاقها عا ق‪:‬ق‬
‫|̂𝑦 ∩ 𝑦|‬ ‫|̂𝑦 ∩ 𝑦|‬
‫= )̂𝑦 ‪𝐽(𝑦,‬‬ ‫=‬
‫|̂𝑦 ∪ 𝑦|‬ ‫|̂𝑦 ∩ 𝑦| ‪|𝑦| + |𝑦̂| −‬‬
‫‪53‬‬
‫قيقي قج ق ألت اجل اق‪.‬ق ق‬ ‫ذيق ا ق ككق تقاة قتيق قيكق ت ع ق ق‬
‫يج ق‬ ‫ق م اقج اتق ت ا ق قيقي ق]‪y=[0,0,0,0,0,1,1,1,1,1‬ق ذاقت عمق‬
‫اءي ق‬ ‫ق]‪ 𝑦̂ = [1,1,0,0,0,1,1,1,1,1‬قذيق تلفق قطقهأ ق ي تيق ق شةكقت ا ق قيكق‬
‫با تا ق‪:‬ق ق‬
‫‪8‬‬
‫= )̂𝑦 ‪𝐽(𝑦,‬‬ ‫‪= 0.66‬‬
‫‪10 + 10 − 8‬‬
‫يجق‪ J=1‬ق ج ق‬ ‫ق‬ ‫يكم قها كاقذءمقج مذاق ألمقتشاهمق اذ قتي قذك جن ق قيكق إ ق‬
‫خ فقج مذاق ق ألمقذيقتشاهمق ا م قذعم ذ ق‪J=0‬ق‪.‬ق ق‬
‫يج ق ع ق)‪ (cm‬ق‪ confusion matrix‬ق ع ق اض قذ ق‬ ‫ق‬ ‫ظا ق ش قآ ا ق عن ق‬
‫ق‪ cm‬قتظلاق‬ ‫قت ي ق‪ 40‬ق اقذ ق ياءاتق ل هق‬ ‫ذك ج ق ت ا ق م اقذ‬
‫قذقا ء قذ ق قيكق قيقي ق‪.‬ق ق‬ ‫ي‬ ‫ت عاتق خاةئ ق ق‬
‫ق‬
‫>>=‪Column‬‬

‫ق‬
‫ق‬
‫ق‬
‫>>=‪Row‬‬
‫‪20‬‬

‫‪Churn=1‬‬ ‫‪6‬‬ ‫‪9‬‬


‫)‪True label (y‬‬

‫‪15‬‬

‫‪10‬‬

‫‪Churn=0‬‬ ‫‪1‬‬ ‫‪2‬‬


‫‪5‬‬

‫‪Churn=1‬‬ ‫‪Churn=0‬‬

‫)̂𝑦( ‪Predicted label‬‬

‫‪54‬‬
‫تاق‬ ‫ق يق قيكق قيقي ق‪Actual/true label‬ق قذك ج ق‬ ‫ق اق قع هق‬
‫يجق ق‪ .‬ق‬ ‫‪test set‬ق قج ق يق قيكق ت ع ق‪predicted value‬قذ ق‬
‫ق ق‪ :‬ق‬ ‫ل قءظاءاق لا اق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ل قي ق زبائ ق ن ق ي ق‪ churn‬ق قيقي ق لكق قذك ج ق ت ا قتاا يق‪ 1‬ق با تا ق ق‬
‫يجقت قذ لكق‪ 6‬قهقي ق‪ 1‬ق ق‪9‬ق‬ ‫اب اق ي ق‪ churn‬ق دق‪ 15‬قحب قذ قذ ق‪ 40‬ق ألمءاقذ ق‬
‫ق ذاق لا اق ا ق ق‪ .‬ق‬ ‫هقي ق‪0‬ق ك‬
‫قيقي ق‪ 1‬ق ق‪ 25‬ق ي تمق‬ ‫ت ا قذ لك ق‪ 15‬ق ي تم ق‬ ‫اقذ قذك ج ق‬ ‫تيك ق‪ :‬ق م اق‪ 40‬ق‬
‫قيقي ق‪0‬قه يثق‪:‬ق ق‬
‫حقذيق‪ 1‬ق‬ ‫يجقبش ق‬ ‫دق‪15‬ق‪:‬ق‪6‬قذ لكقت علكق‬
‫نموذج سيء‬
‫قققققققققق‪9‬ق=ق=ق=ق=ق=ق=ق=ق=بش ق اطققذيق‪0‬ق ق‬
‫حقذيق‪ 0‬ق‬ ‫يجقبش ق‬ ‫دق‪25‬ق‪:‬ق‪24‬قذ لكقت علكق‬
‫نموذج جيد‬
‫ققققققققققق‪1‬ق=============== اطقذيق‪1‬ق ق‬
‫افقج ق‬ ‫ق‬ ‫حقت عمقذ ق‬ ‫يجقج قت‬ ‫ق‪cm‬قتعطق ء اجاقج ق م لق‬ ‫إي قذ‬
‫هعضلاق عضق‪.‬ق ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬

‫‪55‬‬
‫) قي ك اقج معاق‬0‫ ق ق‬1‫ي ق قطق‬ ‫ ق(ذيق‬binary‫ا ق خاصقذ ق ت نيفق ا ق‬ ‫ذذاق ق‬
‫ ق‬:‫ق ا تا ق ق‬cm‫ق‬ ‫اوق أل لق قذ‬ ‫ت اةق‬
True positive TP (6)
6 TP 9 FP
False positive FP (9)
True negative TN (24)
1 FN 24
False negative FN (1) TN
‫حق ق‬ ‫ق‬ ‫قت‬True
‫حق‬ ‫قغةق‬ ‫قت‬False
‫ ق‬1‫قذيق ا تمق‬Positive
‫ ق‬0‫قذيق ا تمق‬Negative
‫ق ق‬:‫ق االق م ق اقي ق‬ ‫ها جت ا قج ق ي ق ق اكقنات‬
Precision = TP/(TP+FP) ( ‫ق ل ا‬ ‫ق ت‬ ‫)ت م ق‬
Recall = TP/(TP+FN) ( ‫ا‬ ‫)ت م قذم قإيكاتي ق‬
‫ ق‬:‫ء ا قعاتيق قي تيق ل ا تق نق م اق ق‬
classes ‫ ق‬precision ‫ ق‬recall ‫ ق‬F1-score
‫ق‬0 ‫ ق‬0.73 ‫ ق‬0.96 ‫ ق‬0.83
‫ق‬1 ‫ ق‬0.86 ‫ ق‬0.40 ‫ ق‬0.55
‫ق‬
F1-score = 2*(Prc*Rec)/(Prc+Rec)
‫ ق‬.‫) ق‬harmonic average of the Pre&Rec (‫طق ت قق‬ ‫ق ت‬F1‫تم ق‬
‫أسوأ دقة‬
‫أحسن دقة‬ ‫ق‬
F1-score : 0.00 0.20 ….. 0.55 …. 0.83 …. 1.00

High Accuracy
56
‫‪Avg Accuracy = (0.83+0.55)/2= 0.72‬‬
‫نتق ق وعقآ اقذ قذقا يسق م ق لت نيفق‪:‬ق ق‬
‫ّ‬
‫فقع ق ت ا ق أل ق فقج اقج ق فقآ اقذ ق‪ :‬ق ق ت ق‬ ‫ذ ياءاقيك ق رجق‬
‫اذزيق‪ logistic regression‬قيك ق خرجق ت ا ي ق أل ق زب ق ‪the probability of‬‬
‫‪customer churn‬قيعنق(‪)1 or yes‬ق ع هق ي ق ت ا ي قتيق‪0‬ق ق‪1‬قق‪ .‬ق‬
‫‪churn‬‬ ‫‪Predicted‬‬ ‫‪ log loss‬ق‬ ‫‪state‬‬
‫‪Actual labels‬‬ ‫‪churn‬‬
‫)‪(y‬‬ ‫)‪ (probability‬ق‬
‫‪1‬ق‬ ‫‪ 0.91‬ق‬ ‫‪ 0.11‬ق‬ ‫‪good‬‬
‫‪1‬ق‬ ‫‪model‬‬ ‫‪ 0.13‬ق‬ ‫‪ 2.04‬ق‬ ‫‪bad‬‬
‫‪0‬ق‬ ‫‪ 0.7‬ق‬ ‫‪ 0.04‬ق‬ ‫‪v.good‬‬
‫‪0‬ق‬ ‫ق‬ ‫‪ 0.8‬ق‬ ‫‪ 0.26‬ق‬ ‫‪good‬‬
‫‪0‬ق‬ ‫‪ 0.6‬ق‬ ‫‪ 0.56‬ق‬ ‫‪medium‬‬

‫ّ‬
‫فقج مذاقيك ق خرجق‬ ‫إي ق قةرلق ق‪Logarithmic loss‬قذ قتم ق‪Log loss‬قتقيسقذ ق‬
‫َّ‬
‫ت قع ق ي ق ت ا ي قتيق‪0‬ق ق‪1‬ق‪.‬ق ق‬
‫ق ق كم ق اات ق ق‪ :‬ق‬
‫قي ق اءي ق قيقي قهق‪1‬ق ق ت ا ي قت علاق اءدق‪0.13‬ق هق يئ ق لنت قج لاق ي قققق ‪log‬‬
‫‪loss‬قجا ي ق يثقت ا ق ا تا ق‪:‬ق ق‬
‫)̂𝑦 ‪𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −‬‬
‫قيقي ق ل اق اءدق‬ ‫تعةقع هق قي قج ق اا ق نقت عمق لاق قي ق ت ع قج ق قي ق‬
‫ك ةلق ا ق ت قس ق ق‪ .‬ق‬
‫ق‬
‫ق‬

‫‪57‬‬
‫فق ق‬ ‫اا ق ك ق‬ ‫طق‬ ‫قء ا ق ت‬ ‫اق اق‬ ‫ج قمق االق ي ق‪log loss‬ق ك ق‬
‫ذك ج ق ت ا ق ق‪:‬ق ق‬
‫‪1‬‬
‫))̂𝑦 ‪𝐿𝑜𝑔𝐿𝑜𝑠𝑠 = − ∑(𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −‬‬
‫𝑛‬
‫ع اقيك قتم جق م قجكسق رلق ق ااهق ق‪:‬ق ق‬
‫أحسن دقة‬
‫أسوأ دقة‬

‫‪Logloss : 0.00….. 0.35……0.60………..1.00‬‬


‫‪High Accuracy‬‬

‫ق‬ ‫قي‬ ‫فقذ أل ق‬ ‫قذ مق زبائ ق كم ق قذيق‬ ‫م اقذ ا قج قحبائ ق ك ق ء ا قت‬


‫تياءياق ا تا ق‪:‬ق ق‬

‫ق‬
‫ءكمقذ ق ك قهق زب ق يقءرلمقت ق مق با تا ق ذ اقج مذاق‪k=3‬ق ق‪k=6‬قكيفق تهةق‬
‫ق قتيئ ق‪ jupyter‬ق‬ ‫ق ن مذق قت قي قها تخم وق ا‬ ‫فق ك ق نقء ثقج مق‬
‫ق‬
‫ق‬
‫ق‬

‫‪58‬‬
‫حذ ق‪:‬ق ق‬ ‫ء مذقها تة ق كت اتق‬

‫ق‬

‫ق ق‪ :‬ق‬ ‫قتياءاتق ك ق ت ا تقذ ق‬ ‫ء‬

‫ق‬
‫ق‬
‫ءظلاق ياءاتقها تع ا ق‪pandas‬ق ق‪ :‬ق‬

‫ق‬
‫ق‬
‫ق‬
‫‪59‬‬
‫فق ق خرجق‪:‬ق ق‬ ‫ء م قجم ق زبائ ق ك ق‬

‫ق‬
‫ق‬
‫لاقبش قتيا ق ق‪ :‬ق‬ ‫ل ك اق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪60‬‬
‫م ق تهة تق اتقل ق‪X‬ق‪:‬ق ق‬
‫ق‬

‫ق‬

‫ق‬
‫م قذاقهق خاألاتق‪:‬ق ق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪61‬‬
‫ء تاجقع اق تق يسق ياءاتق‪:‬ق ق‬

‫ت ا ق‪:‬ق ق‬ ‫ءق وقتتقايكق ياءاتق لتم ل ق ق‬

‫ق‬
‫قهخ حذي ق‪KNN‬ق‪:‬ق ق‬ ‫ق كت ق خا‬ ‫نات‬

‫ق‬
‫ق‬
‫ق‬

‫‪62‬‬
‫ءم لق ياءاتقها تيا ق‪k=4‬ق‪:‬ق ق‬

‫ق خرجق‪:‬ق ق‬ ‫ءت‬

‫ت ا ق ق تم ل ق‪:‬ق ق‬ ‫يجق ك قذ قتياءاتق‬ ‫ق‬ ‫ءختةق‬

‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫ق‬
‫‪63‬‬
‫آل قءعيمق خ حذي ق أل ق يكقذختل ق دق‪k‬قذ ق‪10‬ق‪:‬ق ق‬

‫ق‬
‫قج مقذيق ي ق دق‪k‬ق‪:‬ق ق‬ ‫يجقذقا ء قهقيكق‪k‬ق ختل ق ة قذج ق‬ ‫ق‬ ‫ذ قثكقءا كق‬

‫ق‬

‫‪64‬‬
‫يجق اءدقج مذاق‪k=9‬ق‪:‬ق ق‬ ‫قل‬ ‫كمقذ قذج ق‬

‫‪ -3-11‬شجرة القرار ‪: Decision Trees‬‬


‫ك قج قش قشكالقق‪ .‬ق‬ ‫ق قا تق‬ ‫ذهز عاق ت قأل‬
‫ق‬
‫‪Decision‬‬

‫‪Decision‬‬
‫‪Decision‬‬ ‫‪Decision‬‬
‫ق‬
‫‪Decision‬‬
‫‪Decision‬‬ ‫‪Decision‬‬ ‫ق‬
‫‪Decision‬‬ ‫‪Decision‬‬

‫ق‬
‫ق‬
‫ق؟ ق‬ ‫كيفقت يمق ق ت نيفق؟ق كيفقذءىمقشكالق ا‬
‫ج ق اضقذء قها ثقةنقهك قتياءاتق اضق تا ي ق ق‪ :‬ق‬
‫‪Patient ID‬‬ ‫‪ Age‬ق‬ ‫‪ Gender‬ق‬ ‫‪ cholesterol‬ق ‪ Bp‬ق‬ ‫‪ Drug‬ق‬
‫‪ p1‬ق‬ ‫‪ young‬ق‬ ‫‪F‬ق‬ ‫‪ High‬ق‬ ‫‪ Normal‬ق‬ ‫‪A‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ p15‬ق‬ ‫‪ middle‬ق‬ ‫‪M‬ق‬ ‫‪ Low‬ق‬ ‫‪ High‬ق‬ ‫‪B‬ق‬

‫ق لم ق‪A‬ق آ ا ق لم ق‪B‬ق ت ق‬ ‫ق ت يق اق قع ا قذاضق ق اتك‬ ‫قع هق م‬


‫ت اق قإيكا قء يجق ت ق ع جق مق اضق كم ق لعا قذ قء سق اضقه يثقيك ق‬ ‫ذل‬
‫اقج مقذك ج ق خ ائص ق‪ features‬ق ااهق ق‪ Age,….‬ق لك ق لمفقع ق‪ Drug‬ق اق‬ ‫م‬
‫قع اق ءمقت نيفقث ا ق عت مقةرلق ق‪ Decision Tree‬ق ن قتاتخموقتياءاتق تم ل ق‬ ‫ءا‬
‫ق تائ ق‪.‬ق ق‬ ‫تت‬
‫ق‪ distinct nodes‬قج قهعضلاق‬ ‫تكقت ا قشكالق قا قتتقايكقتياءاتق تم ل قإ قجقمقذت ا‬
‫عضق‪.‬ق ق‬
‫‪65‬‬
‫ق‬
Age
‫ق‬
‫ق‬
young Middle- Senio ‫ق‬
Age r ‫ق‬
‫عقدة داخلية‬ Distinct node
Internal Gend Cholest ‫عقدة ق‬
‫متباينة‬
node B
er erol ‫ق‬
F M High Norm ‫ق‬
Branch ‫فرع‬
al
‫ق‬
A A
B B ‫ق‬
‫ق‬
Leaf node ‫ورقة‬
‫العقدة‬

‫ا تقها جت ا ق‬ ‫ق ت ّرعقج لاق‬Age‫قذ ق‬attribute‫اقءا قذ قشكالق قا قتختةق خا ي ق‬


‫ ق‬.‫ج قءتيك ق ت ا ق ل هق خا ي قذ ق قي لاق ق‬
‫فق‬ ‫قجقملقت م ق‬ ‫تاقق ق‬ ‫ت ا ق ق ق رعقيك قءتيك ق‬ ‫قجقملق لي قتخض ق‬
‫ق ق‬.‫رلضق(ذ قءوعقجقا ه)ق‬
‫آل قذاقهقةرلق قت ا قشكالق قا ق؟ ق‬
‫ق ق‬:‫ا قهعيق جت ا قق‬ ‫ملقتل ق‬ ‫ق‬attributes‫ق يكق خ ائصق‬ ‫تكقت اؤعاقهأ‬
1- Choose an attribute from your dataset
2- Calculate the significance of attribute in splitting of data
3- Split data based on the value of the best attribute.
4- Go step 1.

66
‫ءختا ق ملقذ ق خ ائصق ق ياءاتق م اق‪.‬ق ق‬ ‫‪-1‬‬
‫ق ن ق ةءاعاق قتقايكق ياءاتق ة قتأثةقع هق‬ ‫ء ا ق(ثق ق– ق قح ق– ق ق )ق‬ ‫‪-2‬‬
‫قع قع قذ أل قذوق قق‪.‬‬
‫تقايكق ياءاتقها جت ا قج ق ي قذ ض ق ا ي ق‪.‬ق‬ ‫‪-3‬‬
‫ءكا ق ع لي ق ق ق رعق‪branch‬ق قي ق خا ياتق‪features‬ق ت قي ق‪.‬ق‬ ‫‪-4‬‬
‫‪ -4-11‬بناء شجرة ‪: Building Decision Trees‬‬
‫تك قت ا ق شكال قتتكا ق تقايك ق‪ recursive partition‬ق ت نيف ق ياءات ق ق ق م اق‪14‬ق‬
‫ذرلض ق قذك جت ا ق ااهق ق قتختا ق خ حذي قذغل ق ة ت ق ت ع ق ‪predictive‬‬
‫اتق نقءعت مقجل لاق تقايكق‬ ‫‪features‬ق نقءقاكق ياءاتقت ا قجل لاقذيقتختا قذيقذعكق‬
‫ياءاتق قت ني لاقق‪ .‬ق‬
‫ق‪ cholesterol attribute‬ق قت ا قجل لاق يتكقتقايكق ياءاتق قا ي ق اق‬ ‫مذقذ قه‬
‫ذ اق ق كم ق قذ ا اق اات ق‪normal,high‬ق‪:‬ق ق‬
‫ق‬
‫‪Cholesterol‬‬ ‫عندما نختار الميزة‬
‫عندما نختار الميزة ‪ High‬لن نكون‬
‫‪ Normal‬لن نكون‬
‫واثقين تماما أن يكون العالج ‪ B‬ألنه لدينا‬ ‫واثقين تماما أن يكون‬
‫خمس مرضى عالجهم ‪ B‬وثالثة عالجهم‬ ‫العالج ‪ A‬أو ‪ B‬ألنه لدينا‬
‫أربع مرضى عالجهم ‪B‬‬
‫‪A‬‬ ‫‪High‬‬ ‫‪Normal‬‬ ‫واثنين عالجهم ‪A‬‬

‫با تا ق تيا قع هق ةلقس ق لتقايكق‪Bad attribute selection for split‬ق ل نتق ق آل ق‬


‫خا ي قذ ا قذ ق‪Gender‬ق‪:‬ق ق‬
‫ق‬

‫‪Gender‬‬ ‫عندما نختار الميزة ‪M‬‬


‫ليس لدينا أدلة كافية لنقرر‬
‫عندما نختار الميزة ‪ F‬سنكون واثقين أن‬
‫ما هو العالج فلدينا مريضين‬
‫يكون العالج ‪ B‬ألنه لدينا ثمان مرضى‬ ‫عالجهم ‪ A‬وأربعة عالجهم‬
‫عالجهم ‪ B‬ومريض عالجه ‪A‬‬ ‫‪F‬‬ ‫‪M‬‬ ‫‪B‬‬ ‫ق‬

‫‪67‬‬
‫ج ق ق ا قع هق خا ي ق‪ Gender‬قذ ض قذ ق اهقتلاق عت معاق قتقايك ق ياءاتق ءلاق‬
‫ذ ق كيكاق ذكةقك ا لقق‪ .‬ق‬
‫‪Gender attribute is more significant than Cholesterol or more predictive‬‬
‫)‪(Less Impurity = Lower Entropy‬‬
‫ق‪ productiveness‬قتعت م قج قإءقاص ق تش ه ق‪ impurity‬ق ق عقمق‬ ‫ا قم ل قج ق ت‬
‫اتق‪ features‬ق ن قتخ ضقذ قع ق تشولمق ق عقمق ق‬ ‫قء ثقج ق‬ ‫قء‬ ‫‪ nodes‬ق‬
‫قق‪leaves‬ق‪.‬ق ق‬
‫ا ق با تا ق‬ ‫ق ألمءاق اهقاقذ ق ةلق‪gender‬قهقذاشحقأليمق‪good candidate‬ق ل هق‬
‫ن تق ق لخ لق تا ي ق‪:‬ق ق‬
‫آل ق أل ق وعق‪M‬ق ق ةلق‪gender‬قءختا ق ةلق‪Cholesterol‬ق تقايكق ياءاتقذالقذ ا ق‬
‫قشكالق اجي ق‪subtree‬قتا ي ق‪:‬ق ق‬
‫ق‬
‫‪Gender‬‬ ‫ق‬

‫‪F‬‬ ‫‪M‬‬

‫‪impurity‬‬
‫‪Cholesterol‬‬
‫لدينا أربع مرضى‬
‫عالجهم العقار ‪A‬‬
‫وبالتالي هي عقدة‬
‫صافية ‪pure node‬‬
‫‪High‬‬ ‫‪Normal‬‬
‫لدينا مريضين عالجهم‬
‫العقار ‪ B‬فالنتائج‬
‫صافية و نقية‬

‫‪68‬‬
‫قإ يمق ق‬ ‫ءعتةقذ ق عقملق ق شكالقءقي قج مذاقتك قذ م لق قطقت وعق لمفق ا ق‬
‫قيق قناتخموقتكا ق تقايكق قتياءاتق ت ا قإ قذألز ق(ذقاة )ق ي قتلمفقتقلي ق‬
‫لق ق ن ق تكق االق‪ impurity‬قج قةرل ق االق‪ Entropy‬ق ل ياءاتق ق‬ ‫تش هق ق ق‬
‫قجقملق اقهق دق‪Entropy‬ق؟ ق‬
‫هقذقم ق عش ئي ق‪randomness‬ق ق ياءاتقذ قذقم قجموقتاتي قذ قت ظيكق‪disorder‬قع هق‬
‫ياءات ق‪ ،‬ق با تا قء قء ث قج قذ ق ي ق لا ق ق عق قم ق ه قإي قتقيس ق تكانسق‬
‫‪homogeneity‬ق ق عقمق‪.‬ق ق‬
‫ذ ق م اق آل ق‪:‬ق ق‬
‫‪1 Drug A‬‬ ‫‪ 3 Drug B‬ق‬
‫‪ & Drug A‬ق‬ ‫‪ 5 Drug B‬ق‬
‫)‪ Entropy is low (good value‬ق‬ ‫)‪ Entropy is high (bad value‬ق‬
‫عش ئي ق ليل ق ق قيك ق‬ ‫عش ئي قك ةلق ق قيك ق‬
‫‪ 0 Drug A‬ق‬ ‫‪4 Drug A‬‬
‫‪ 8 Drug B‬ق‬ ‫‪ 4 Drug B‬ق‬
‫‪ Entropy =0‬ق‬ ‫‪ Entropy = 1‬ق‬
‫ع قذ ل ل‬ ‫غةقذ ل ل‬
‫ق‬
‫إي قي ك اق ااتلاق اقي ق‪:‬ق ق‬
‫))𝐵(𝑝(‪𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = −𝑝(𝐴) log(𝑝(𝐴)) − 𝑝(𝐵)log‬‬
‫ق‬ ‫فق‪،‬ق ق وقه االق‪Entropy‬ق لكم قج مءاق‬ ‫يثق‪p‬قنا ق(‪)ratio,proportion‬ق‬
‫تقاي لاق‪:‬ق ق‬
‫‪Patient ID‬‬ ‫‪ Age‬ق‬ ‫‪ Gender‬ق‬ ‫‪ cholesterol‬ق ‪ Bp‬ق‬ ‫‪ Drug‬ق‬
‫‪ p1‬ق‬ ‫‪ young‬ق‬ ‫‪F‬ق‬ ‫‪ High‬ق‬ ‫‪ Normal‬ق‬ ‫‪A‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬ ‫‪.‬ق‬
‫‪ p15‬ق‬ ‫‪ middle‬ق‬ ‫‪M‬ق‬ ‫‪ Low‬ق‬ ‫‪ High‬ق‬ ‫‪B‬ق‬
‫ق‬

‫‪69‬‬
‫ا قذ م ثق‪occurrences‬ق دق‪A‬ق قتاع ق دق‪B‬ق]‪S:[9B,5A‬ق ء ا ق آل ق‪:‬ق ق‬ ‫م اق‬
‫‪E = -(9/14)log(9/14) – (5/14)log(5/14) = 0.940‬‬
‫قتقايكق ياءاتق‪،‬قء مذقتتقايكق ياءاتقها تخم وق خا ي ق‪Cholesterol‬ق‪:‬ق ق‬ ‫ع ق‬
‫‪Normal : 6B,2AS[6B,2A]E=0.811‬‬
‫‪High : 3B,3AS[3A,3B]E=1.00‬‬
‫ءكايقء سق ع لي ق ك ق خا ياتق م ا…‪Age,Bp,Gender,‬ق ق‬
‫ذ ق‪Gender‬قيك ق م ا‪:‬ق ق‬
‫‪F : S[3B,4A] E=0.985‬‬
‫‪M : S[6B,1A] E=0.592‬‬
‫إي قذ ل اقذ ض ق‪Gender‬قذوق‪Cholesterol‬ق؟ ق‬
‫ق‬
‫يملق‪ Information Gain‬ق ق شكالقجا ي قهعمق‬ ‫ختا ق خا ي ق ن قتكع ق ياءاتق‬
‫تقايكق ق‪ :‬ق‬
‫‪The tree with the higher Information Gain after splitting.‬‬
‫ق‬ ‫ق اققتيق ي نق‪E‬ق‬ ‫و قهعمق تقايكق قتك ق ا‬ ‫هق عل ذاتق نقتزلمقنا ق‬
‫قهعمق تقايكق ك ق ا ي ق‪:‬ق ق‬
‫‪It is the information that can increase the level of certainty after splitting‬‬
‫‪.‬‬
‫‪Information Gain (IG) = (Entropy before split) – (Weighted entropy after‬‬
‫)‪split‬‬
‫ي ق‬ ‫ضق ق ياءاتقتز ق‪IG‬ق‬ ‫ا ت ا قتيق‪IG‬ق ق‪E‬قذتعاكسق ع مذاقتت ا صق‪E‬قذيق‬
‫حق‪.‬ق ق‬ ‫ق عكسق‬
‫ا قشكالق قا قيعت مقج قإيكا ق خا ي قي تق ربددحق ج ق‪:‬ق ق‬

‫‪70‬‬

You might also like