Professional Documents
Culture Documents
كورس تعليم الآلة بلغة البايثون الجزء الأول
كورس تعليم الآلة بلغة البايثون الجزء الأول
ai
عنوان الكورس
IBM Course with Python ML0101ENV3
ددد ا ق د د دقاقتعلي ي د د د قجمي د د ددملق قذكاءي د د د ق قذك د د ددا ق د د د ا ق ددد ق يق د د ددموقع د د د ق
قذ د د ددةق ا د د د قذ د د د ق ق ل ل د د دداقذ د د د ق د د د ق د د ددل تت د د ددةقتهاد د دداة ق هتل د د دداق بء لةل د د د ق
ق د د د د ق ذت د د د ددا قذكد د د ددا ق ذد د د ددمجكقها ذ لد د د د ق للد د د دقاقذكاءيد د د د ق ق قءلايد د د د ق د د د د قذد د د د ل ق د د د د
.ق ق كقشلا لقذكاءي قك ل
قج د د قشد ددلا لق دد ق ا د د ق ا د ددي ق ج د ددمق ءتلد ددا قذ د د قع د د ق م د د وقت ميد ددم ق د د
د د دددقذ قذتد د دداألكقعد د د ق مد د د وقت ميد د ددم ق ذ د د د ق د د د مق ذ لد د د قذد د د ق د د ددمقذ يد د ددمق أق
د د د قذ د د د ق ق ت ق ق عد د ددا ق د د د قذ قذ ق اد د ددت يمقذ د د د قي د د د ق تددد هد د ددالقحلد د ددا لق
ق قذ قهعم.ق ق
ق
1
الفهرس
الصفحة المحتوى
3 Intro : Machine learning مقدمة إىل تعلم اآللة
5 Using Python استخدام البايثون
7 Supervised learning اف ر
التعلم اإلش ي
8 Unsupervised learning اف ر
غي اإلش ي التعلم ر
9 Regression مقدمة يف التوقع
12 Simple linear regression الخط البسيط
ي التوقع
23 Multiple linear regression الخط المتعدد
ي التوقع
26 Model Evaluation in Regression Models تقييم عمل نموذج التوقع
31 Evaluation metrics مقاييس التقييم
33 Nonlinear regression خط
ي لغي
التوقع ا ر
45 Classification التصنيف
48 KNN خوارزمية
53 Evaluation metrics in Classification مقاييس التقييم يف التصنيف
65 Decision Tree خوارزمية شجرة القرار
67 Building Decision Tree بناء شجرة القرار
77 Logistic regression المنطق
ي التوقع
79 Logistic & Linear regression المنطق
ي الخط و
ي مقارنة ربي التوقع
89 SVM خوارزمية
101 Clustering التجميع
105 K-means خوارزمية
120 Hierarchical clustering الهرم
ي التجميع
133 DBSCAN خوارزمية
141 Recommended systems أنظمة التوصية
142 Content-Based أنظمة التوصية باالعتماد عىل المحتوى
146 Collaborative filtering أنظمة التوصية باالعتماد عىل األفضلية
2
-1مقدمة يف تعلم اآللة :
ق وق يثق ج ق اضقذ ق م اق لي قذرلض قذ قذرلضقذاق قءرلمقذ قء م قع قه ق
قء ل قج ق ائصقع هق خلي قثكقيقا ق ي ق malignantقذوق ليكقbenignق،ق
يق ميمق ةلقهقا لقع هق خ ائصقذ قي م ق ا تلاق.ق ق
ثكقيك ق م اقتياءاتقك ةلق لعميمقذ ق اضق(ذئاتقذ ق ف)قءضعلاق ي اق اىمقdatasetق
اقي ق ق :ق
ID Clean Unifcell Uni …. …. Marg …. …. calss
10234 6 1 2 … … 3 … … benign
… … … … … … … … … …
… … … … … … … … … …
20350 7 5 1 … … 1 … … malignant
3
ءاتق قءرلمق ت ةق ي اقتي لاق،قج مق ق قذ ا قآ اق:ق يك ق م اقذك ج ق م اقك
ءات ق(ش ق ع ق ،ق ي ق ،ق ي ق قة م ق ،ق أل ق ي قء م ق خ ائص ق ل ه ق
أل ق ش للقاق..........قق قغةعاقذ ق خ ائص)ق،قثكقءض ق جمقrulesقجميملقif..thenق
ق،ق ققع اق م اق ت ا ق:ق ق ت ميمقءوعق
ق -إذاقناتخموقأل ق خ ائصق ت ميمق ق ت ا تقج قةرل ق ت ا لقذ قأل
د)ق ق. ق( ع ق تل كقك ةق ل كالق ة تقfeaturesق ت ميمقءوعق
قذك ج ق جمقناتخموق لاقهعضق ة تق ل قنات قج معقاقت ميمق -ذ قج مق
أل ق ا تق.ق
ق ات ق ت ا ت ق ن قتاتخمو قذعل ذات قذاتخمذ لا ق مي غا ي ق ك
demographicق تق يعلك ق segmentق ت ميمق ي اقإي ق يات ا ق ق شة ك ق م لاقققققق
ذ ق ق.ق ق
عالقgamesقتاتخموقتق ياتق لق،ق ا ذيضاقت يقاتقChabotق ق ت مثقذ ق
تعلكق آل ق ق .ق
-1أهم تقنيات تعلم اآللة : Major Machine learning techniques
-1-1التوقع : Regression / Estimation
تاتخموقع هق تق ي ق لت ق ق ياءاتق ات الق continues valuesق يثقتقاتخموق
ذ ق ت قذ عا ق اح قت ا قج قذة تلاق،قذ ق ت ق ككقغاحقco2ق عثقemissionق
اكق.ق ق اتق ذ ق ايا تقت ا قج قذ
-2-1التصنيف : Classification
فق اق ذ اق قذ ا ق خ ياقع ق قت م جقت د قذيق ا ق م اتخموق عا ق
ي قذ ق لي قق .ق
-3-1التجميع : Clustering
قذك جات قكت ميم قذك جات ق اضق اتلا ق ق ا ت ق تشاتل قه
قق .ق تشاتل ق قذجا لكق،قذ قتقايكقحبائ ق
ق
ق
4
-4-1اليابط : Associations
ق نقت اعق ق قا ي ق(بش ق بيكا ق ع ارصقذ ق م ثق نقتة هطق ق م ثلاقذ ق
ذة هطقذيقذتعلق قت عضلاق عض)ق لزب ق ق .ق
-5-1اكتشاف االختالف : Anomaly detection
ت ميمق ا تق هةقجا ي ق(إيكا ق قيكق شايل)قذ ق كتشافق ا تق ة لاقfraudق ق
ه ا اتق ئت ا ق ق رص فقcredit card fraudقق .ق
المتتاىل : Sequence mining
ي -6-1التنقيب
قتالا ق قا تقج ق ا و ق ق ا قت بيكا ق قت ق ا ق تا ي ق :قج ق بي ق
ق ب مة ءي قclick-streamق.ق ق
-7-1تخفيض األبعاد : Dimension reduction
اتقfeaturesق نق ا اقه األ ق لاق ءق وقه فقهعضق ع ارصقغةق ل قذ قهعضق
تخ يضق ككق م تاق م اق.ق ق
-8-1نظام التوصية : Recommendation Systems
يقاق ضل قذ ق لك قذتعل قه ة ت ق شخاص ق تشاتل قثك قءقمو ق لك ق مت ق
ضل ق م لكق.ق ق
-2استخدام البايثون يف تعلم اآللة : Python for ML
يق ق ه ق ول ق powerfulق ذتعم لق غا ضق general-purposeق ه قت تعتةق ا
عميمقذ ق كت اتق م ق تع ا ق ق ه ق آل ق:ق ق
اتقذتعم لق هعا Numpy : numerical library لتعاذ قذ ق
Scipy : scientific library for numerical algorithms & domain specific
toolbox for signal processing – optimization – statistics
ق هعا Matplotlib : لا كقث ا ق قث
قت لي ق , manipulation analysisعياك ق ياءات Pandas : for data structure
إ اجق ياءاتق ت ج قه رلق قجا لاقبش للاق ا ىمق بش قذتالا قذ ق زذ ق ق.
5
حذياتقتعلكق آل قScikit-learn : قذعكقذكت قتضكق
ق تالا ق تا ق ق :ق قها تخم وقذغل ق كت اتق ااهق ق يثق تكق ع
6
إخراج النموذج النهائي Exporting the model
اف : supervised ر
-3التعلم اإلش ي
ع ق تعليكق يقنشفقجليمقobserveق قء ألمقdirectقت ي ق لاوقexecute of tasksق
م قع اق قء ألمقذ قنشفقج قج قشخصقذاق،قه قج قء يجقتعلكق آل ق يك ق ا ق
ق تم لقج ق ج ق تعاذ قذ ق ا تق هةقذتم لقجل لاق ق كميملق،ق لتكقي قذ ق
ذك ج ق ياءاتق نقء لملقاق:ق ق
Teaching the model by data set that knowledge it can predict
unknown or future instances .
قألم ق اتق ياق اض ق م اقdata setق يثقتك ق قجمءاق ا قتياءاتقذ
يجقذ وب قlabeledق:ق ق تيك قيع اقإياعاق
ق
تدعى هذه بالخصائص features or attributesوهنا خصائص الخاليا
labelق
ed
ID Clean Unicell Uni …. …. Marg …. …. class
10234 6 1 2 … … 3 … … benign
… … … … … … … … … …
… … … … … … … … … …
20350 7 5 1 … … 1 … … malignant
ق
Classification ق Regression
التصنيف التوقع
7
-1-3التصنيف : Classification
ق لتعاذ قذ ق ياءاتق ختل ق( ي قذ قء ي ) ق يثق تكقت نيفق ياءاتق تشاتل ق
ذك جاتق اق ذ اق قألم ق ياق اضق يثقء لاق لي قذ ق ي قق .ق
Classification is the process of predicting discrete class labels or
categories.
-2-3التوقع : Regression
عثق قغاحقco2ق ق يكقألميملقذ قت ق قيكق تشاتل ق ي اقتي لاق ت قبألا ق ت ق
اتقذ ا اتلاق.ق ق ذ قج وق ايا تقت ا قج قذ
Regression is the process of predicting continues values.
اف : unsupervised ر
غي اإلش ي
-4التعلم ر
يجقيكتشفق عل ذاتق نقءرلمقت علاق قت أليمقذ قإ فق يثقءع يمق ع اقءمعق
ياءاتق ل ق تم لقج قdatasetق ذ قثكق ا كق تيك قunlabeledق ع اكقجملقذء عق
ذ لاق ق :ق
-1-4تقليل األبعاد : dimension reduction
الق ت هةق ك لاق تالي ق ت نيفق.ق ق فقهعضق ياءاتق ز ئملقذ ق ع اق تكق
-2-4تحليل البيانات : market basket analysis
تعت قمق كاتمقج قذء قتكل قذك ج قج ارصقذ قهعضلاق عضقبش قذشاهمقءق وقهكل ق
ذك ج قغةعاق.ق ق
-3-4توقع وجود البيانات : density estimation
قهعضق نق تشاتل ق.ق ق لاقء ألمق ياءاتق نقتتض
-4-4التجميع : clustering
ق ياءاتقها جت ا قج قجملقذذ قذتشاتل ق هقذكةق اقق اتخمذ ق يثق تكقتك
ي اقتي لاق ذعكق كا تق اتخمذ ق لاق:ق ق
ق
8
discovering structureق كتشافق ياءاتق تشاتل ق
ق ياءاتق ق summarizationقتك
anomaly detectionق كتشافق ش ي ق
اف : ر ر
غي اإلش ي
اف و ر
المقارنة ربي التعلم اإلش ي
supervised unsupervised
Regression, classification clusteringق
more evaluation methodsق fewer evaluation methodsق
controlled environmentق less controlled environmentق
ق
-5مقدمة يف التوقع : Regression
ع قذ ق ايا تق:ق ق جمءاق ا قغاحقco2ق
ID Engine Cylinders Fuel Co2
0ق 2.0ق 4ق 8.5ق 198ق
1ق 2.4ق 4ق 9.6ق 221ق
.ق .ق .ق .ق .ق
.ق .ق .ق .ق .ق
9ق 3ق 3ق 9.2ق ?
ق
ق ع ق كم قي ق data setق ءرلمقت ق ي ق هاحق ع قذ ق ايا لق كق 9ق
إءتاأللاقها جت ا قج قتياءاتق ايا تق أل لقذا قاق؟ ق
ق م اق ق regressionق ع اقيك يتكقع قتإنشا قء يجق تعلكق آل قيعت مقج ق ت
ء جيقذ ق تهة تق ق :ق
ع Dependent variables : Y ق قيكق خةق ع اقع ققذكي ق هاحق هقج
اتق ع ارصق أل لق م اق ق كم ق : xقIndependent variables ق هقذ
هقذتهة تقذاتقل ق ق ي لاقغةقذات قهقيكقذ ا قءم لا
9
هة قذاتقل ق( )final goal,target,stateق قتتعل قها تهة تق
ذذقا ق تهة ت ق ق
اتقل ق ءمقت ا قج ق ةق تكقت ق قيكق نقءرل قمقق .ق
ا تقstatesق إيقي ك قذ قءعتةق تهة تق اتقل قج قذءلاقذاب اتقcausesق تل ق
نقتظلاق م اق.ق ق
تا ق ق ت قع قذ ق ياءاتقذات القcontinuousق يادقذتق ع قdiscreteق
قبش للاق ج ق ق ا ق إ ق تهة تقxقيك ق قتك ق يكقذقا ق اهل ق لقياوق
ص ق categoricalقذ ق ا ىم ق numericalقذيقي ك قتم لد د ق يا لاقبش قذات اق
continuous measurement scaleق.ق ق
يقءق وقهمقذء اقناتخموق ياءاتق ن قتخصق ايا تق م اقhistorical dataق إي ق
قذ قذغل ق يكق اتلاقfeatures of their attributesق ألمقء يألاق ت ق أل
ي قco2ق ع قذ ق يا لقألميملقذ قغةقذعا ق لك قع ق قيجقغةقذةذ ق اق
قذ ق ق اق يق خ طق تا ق:ق ق رص
ق
ق
Histori
cal ق
CO2
expecte
New mode
car l
ق
ق:ق ق بش قذ اسق م اقء جا قذ قع ق ت
قبايطقsimple regression -ت
قذتعم قmultiple regression -ت
:ق ق قبايطق مقش ق ي قYقج معاقيك ق م اقت مقxق ت ج مق تخم وقذتهةقذاتق ق
إذاقsimple linear regressionق قsimple non-linear regressionق.ق ق
ق نقتربطق تهة تق اتقل ق هةق قتعت مقج قة يع ق ع ي قlinearityقع ق ت
ذاتقل ق ي اقتي لاق ق .ق
10
قذ ق وعق.multipleق ق ق ي قYقج معاقيك ق ت ذتهةقذاتق ق ت
ج مق تخم وقذكةقذ ق ق
لك ق تك ق تخم و ق ت ق regressionق ت ق يك قذات ال قذ قذاأ ق تن قها يعاتق
sales forecastingق ،ق يث قي ك قت قذك وع ق يعات ق ا ول ق ل ائ قها جت ا قج ق
تق خةلق–ق شلا لق–ق ع اق-ق....ق ق تهة تق اتقل قXق ق نقت ق(ذ )ق:ق
اي قstratification analysisقها جت ا قج ق ق تكق تخم وق ت ق ق ت لي تق ك
جملقج ذ قء اي ق ي غا ي ق ل ا ق ق .ق
اح ق قذ ق قذاقها جت ا قج ق ذيضاق اتخموق ت ق تخ يقذ عا قprice estimationق
ككق ة ق جم قغا مق ق....قق
ق–ق ق عاذ ق Employment incomeقها جت ا قج ق اجات ق ع ذيضاق قتخ ي ق
تق خةلق...ق .ق شاعملق–قة يع ق ع ق–ق كنسق–ق ع اق–ق
قق ألمق م ةقذ ق كا تق نقناتخموق لاق ت قذ ق ت لي تق ا ي ق تقايطق
ي ق… finance,health care, retailق ا جي ق
ق ق :ق حذياتق ت ع ا ق م ةقذ ق
Ordinal regression
Poisson regression
Fast forest quintile regression
Linear , Polynomial , Lasso .Stepwise , Ridge regression
Bayesian linear regression
Neural network regression
Decision forest regression
Boosted decision tree regression
K-nearest neighbors (KNN) regression
11
الخط البسيط : simple linear regression
ي -6التوقع
قت تاجقذيقذعا ق ق كةق خطق تتعلكق ت ق ق خطق هايطق قذاقي ق يع ي ق
ذعا قشاذل ق تات ق تعاذ قذعمقق .ق
ق ي قغةقذ أل لقذا قاق كق ل اق اهقاقذء اقناتخموقذتهةق مقذ ق خ ائصق ت
ع ق ا ق هاحق عثقذ ق ايا تق:ق
ق
ID Enginesize Cylinders Fuel Co2
0ق 2.0ق 4ق 8.5ق 198ق
1ق 2.4ق 4ق 9.6ق 221ق
.ق .ق .ق .ق .ق
.ق .ق .ق .ق .ق
9ق 3ق 3ق 9.2ق ?
x ق
ق
12
قتي ل اق قء ق ظق ج مذاقتتهةق قي ق ق تهةقxقتتهةق ي قYق با تا ق شةق أل قج
ق خ طق اات قذءلاق ي قق .ق ذ ق
اكق ز ق ء عاثق كقع ق اتقيكق يقي قع هق ع ق يثقهاح يا قق ككق
قذ قءرلمقت نيعلاق هاحق co2ق با تا قي ك اقتخ ي ق ي ق ء عاثق يق يا لقذكل
م اقهقي ق ائ لاق.ق ق
قك ةق م قpolynomialق مق ش ق عاوق ق :ق تكقت ي قع ق خطق اتقيكقه عا
=𝜃0 + 𝜃1 𝑥1ق̂𝑦
قذ قfit lineق يثق:ق ق قذ ق ياىمقلق طق ت
=𝜃0 + 𝜃1 𝑥1ق̂𝑦
13
The distance from the data point to the fitted regression line.
Y قق ق
ق
قيمة الخطأ
ق
ق
ق
x
ق
ذ قذ ققذت طقأل ق يكق خ أقبش قتيا قج ق خ طقءقا ق ي اقإي ق ا ق خطق اتقيكق
قذوق ق ع لي ق ت ق م اق ءعةقج مق لا ياقه عا قذت طق خ أق mean square ذا
errorق ق :ق
𝜃1
14
̅𝑥 𝜃0 = 𝑦̅ − 𝜃0
16
17
18
19
قSpyderق ق :ق اقءق وقتتكرب ق م ق
20
21
ق
ق
ق
ق
22
الخط المتعدد : multiple linear regression
ي -7التوقع
ا اق ج مقت ألمقذكةقذ قذتهةقذاتق قج معاقي حق ت ق خطقذ ق وعق تعم ق
اكق إء اقج قجملق ائصقذ ا قق .ق اات قهأ ق قءعت مق قطقج ق ككق
ق:ق ق بش ق ئيسق ألمقء جا قذ ق ت يقاتق نقتاتخموقع ق ت
الت
تأثي the strength of effectي
-نستخدمه عندما نريد تبيان identityقوة ال ر
الغي مستقلة أي :
المتغيات ر
ر المتغيات المستقلة عىل
ر تمتلكها
Independent variable effectiveness on prediction .
ق ج مءاق تهة تق اتقل ق تا ي ق:ق ق ا ذ قق م اقء يجق ت ا ق
دق ا ألع revision time
ل ق ذت ا test anxiety
ارص ت lecture attendance ض ق
كنس قgender
23
ةلق م قناتخمذلاقع اق با تا قت ميمق
ق اقع ق ق ت ق خط ق هايطقتك ق ع قك ق
ذيقذ قع هق تهة تقت ثاقج قءتيك ق ت قذيق ق :ق
⋯ Co2Em = 𝜃0 + 𝜃1 . 𝐸𝑛𝑔𝑖𝑛𝑒𝑆𝑖𝑧𝑒 + 𝜃2 . 𝐶𝑦𝑙𝑖𝑛𝑑𝑒𝑟𝑠 + 𝜃3 . 𝐹𝑢𝑙𝑒 +
اتقيك ق لاق ش ق تا ق:ق ق با تا ق قي ق ت ع قألم قشعاجيق
𝑥 ∗𝑦̂ = θ𝑇 .
dot product between parameters vector and features set vector
ق 𝑇 θقشعاع ق()n*1ق قذ ق ق ضا قذتعم ق هعا ق multi-dimension spaceقتك
ل ا ذة تق كل ق شعاعقxق.ق ق
ق لاق ش ق:ق ق ق ت تم قع هق ا ذة تقذ ح ق()weightقشعاعقذعا
] 𝑛𝜃 … θ𝑇 = [𝜃0 , 𝜃1 , 𝜃2 , 𝜃3 ,
شعاعق تهة تق اتقل ق ق :ق
1
𝑥1
𝑥2
𝑥 = 𝑥3
.
.
] 𝑛𝑥[
قق ضا قذ ا يق عمقت حقذعا ق ت ق خطقذاتقيكق اق ق ت ق خطق هايطق م ق
قق ضا قذتعم ق هعا ق(ذيقذكةقذ قذتهةق)xقي حقذات يق لم قج معاقplane or hyper-
planeق ع ق اتخموق ق ت ق خطق تعم ق.ق ق
لتكقإيكا قع ق ات يقتإيكا قذ ض ق ي ق ل عاذ تقثيتاق أل قت قذ ض ق ي ق للمفق
ق datasetق م اق،ق اق ذ قاق اهقاقذء اقء تاجق ت ق قي قذ ق targetق ق ق اقذ ق
ء هاق خ أق م ق بذ ا ق.ق ق
أق،قإي قكيفقء م ق يكقع هق ا ذة تق؟ ق أ ض ق ا ذة تقهق نقتعطقذ ق ي ق
24
ق ت ع ق ذ اق ق ت ق هايطقكيف قء ا ق خ أق residual errorق اق قتي ق قي
قذعا ق خ أقMSEقق .ق قي ق قيقي ق ك
ذذاق ق ت ق خط ق تعم ق ألمقةرلق قذ ا ق يث قءق و قتت هة ق MSEق ك ق قيكق
ت ع ق قي قتتخ يقذ ض ق يكقثيتاقذ ا ق ذكةق اققش جاق قتخ يقع هق قيكق:ق
The ordinary least squares -ق :ق يثقتعت مقج قإيكا قذ هاق ي ق MSEق ك ق
ق ياءاتقdatasetق م اق م قع هق رلق قذعقملق ااتياق قتاتلل ق اقذ ق
ق ق ياءاتقذكةقذ ق10kق اق،ق اقج مذاقيك ق م اق قذ دقك ةق
ي ك اق ت كةقها تخم ذلاقج مقذ قذ قع ق عم ق.ق
Optimization approach -ق :قتاتخمو قتكا قج لي قت هة ق خ أ ق ل يج قج ق
ياءاتق نقءتم لقجل لاق
Minimizing the error of the model on your training data .
حذي ق Gradient Descent GDق ن قت مذقهقيكقجش ئي ق دقثيتاق ي ك اقذ ق تخم وق
ق ق ي ق مقق .ق ق قذالقء ا ق خ أق قء ا ق ثكقءعيمقتكا ق ااتلاق
اق ق .ق قج مذاقتك ق ياءاتق خ قذيقذكةقذ ق10kق رلق قذ ا ع هق
ل اقج ق ق ق ء ا لاق ق ت لاق قذعا قج قذ ض ق يكقثيتاقءع هعمق
قيكقق:ق ق
⋯ 𝑦̂ = 125 + 6.2 𝑥1 + 14 𝑥2 +
ق
ت ا قج قء سقذك ج ق ياءاتق رلق ق ق تق يكقءكايق تم ل ق ق قع هق إي ق
قتت ةقها تا ق ق :ق
27
قتم ل قجا ي قhigh training accuracy -
ق يجقذ ق -ق قذ خ ض ق ا جق ع اتقlow out-of-sample accuracyق
يعلكقتياءاتمق نق تخمذدق ق تم ل قق.
ق
ق
ق
ق
29
قk=4ق قاكق ياءاتق قتم قk-fold cross-validationق قع ا قةرلق ق
ب د قذألز قه يثق ققتم قتياءاتقألز قها كز ق آل قاق اقي ق ق :ق
ق
ق
ق
ق
ندرب النموذج على %25الجزء ندرب النموذج على %25الجزء ق
األول واالختبار على البقية الثاني واالختبار على البقية
All
ق
da
tas ق
et ق
ق
ق
ندرب النموذج على %25الجزء ندرب النموذج على %25الجزء
الثالث واالختبار على البقية الرابع واالختبار على البقية
ق
ق
طق ق ت ءتيك ق م قذ قذا ل ق%80ق اءي ق%84ق ا ق%82ق ا هع ق%86قثكقءأ
قج ق م ق كلي ق ل يجق:ق ق اا ق لك ق
AVG(80+82+84+8) = 83% = Accuracyق
ءنت مقذ ق قألز قfoldقذت اجمقج ق آل اقذيق ق ألمقتياءاتقتم ل ق ق اكقتك قذ أل لق ق
اكقآ اق لتم ل ق قها تا ق ل اقج قنا قثاتت قذ ق نا ق ئول ق لم ق ققق ا قout-
of-sampleق.ق ق
ق
ق
ق
30
مقاييس التقييم : evaluation metrics -9
يجق هقتش ق ت يق نتعافقج قذقا يسق م قaccuracy metricsق تق يكق
يج ق ق ا ق ت ق يج ق ،ق ت مث قج ق قا يس ق ن قتقيك ق ا قذ ق
regressionق:ق ق
قذ ا قاق اات قهم لياقًق قا قتيق قيكق قيقي ق ك ج ق ت ا ق قيكق نقق
يجق م اقق .ق ت علاق
قياوق م ق يقي م ق اقذيق قاة قذ ق ااوق نقت تاجق لت ولاق.ق ق
ذ قع هق اقق:ق ق
خ أق نانق ل قRelative Absolute Error RAE -
ذت طق خ أق ل قMean Absolute Error MAE -
ذت طقذرب د ق خ أقMean Squared Error MSE -
أل قذت طقذرب د ق خ أقRoot Mean Squared Error RMSE -
ع ا قةاققذ ا ق،ق م قءا قذ ق قع هق اققذتعلق قهقي ق خ أق،ق اقع ق خ أق
م اق ق ت ق:قع ق اققتيق قي ق قيقي ق ق قي ق ت ع ق هق اا ق شا ي ق
ي ق ق ش ق:ق ق
ق
Y
ق
قيمة الخطأ
ق
ق
ق
x ق
ق
اقق نق ءمقيك ق م اقجملقءقاطق قها تا ق م اقجملق يكق لخ أق تكق ااتلاقتإ م ق
يكاءاعاق ق :ق
ق
ق
31
وه أبسط الطرق :
-1-9متوسط الخطأ المطلق MAEي
ق
ق
ق
ق هاه ق أل ق ةب ق -2-9متوسط مرب ع الخطأ MSEق ه قذشلاقذ ق رلق ق
ا عا قذ ألل ق gearedقإ قذكة ق أ قذ أل ق ق ياه ق ت اع ق خ أ قبش قذسق
exponentiallyق م اقذقا ء قها خ أق هةق:ق ق
ق
-3-9جذر متوسط مربعات الخطأ RMSEق ذةتلا قذ قع ه ق قي ق تك قتأ لللاق
interpretableق ءلاقتع ق سق ملق شعاعقyقذ اق ال ق تعاذ قذعمقإ قء سق أل ق
ك ةق م ق م اق:ق ق
ق
ق
32
النست RAEق ياىمقذيضا ق Residual Sum of Errorق يثق تكق ي -4-9الخطأ المطلق
تع ا قذت طق قيكق قيقي ق̅𝑦ق ق :ق
| 𝑗̂𝑦 ∑𝑛𝑗=1|𝑦𝑗 −
= 𝐸𝐴𝑅
|̅𝑦 ∑𝑛𝑗=1|𝑦𝑗 −
النست RSE
ي بيغ
-5-9الخطأ الي ي
2
) 𝑗̂𝑦 ∑𝑛𝑗=1(𝑦𝑗 −
= 𝐸𝑆𝑅 2
)̅𝑦 ∑𝑛𝑗=1(𝑦𝑗 −
34
تة يمق م أل قه ا ق ياءاتق نق م اق.ق ق
ق( ض ) ق in essenceقذء اقءمج عاقأل يعلاقك ةق م ق ت ق polynomial ق
قتي ق تهة ت ق اتقل ق xق هة قذاتقل ق yق أل قك ةق regressionق يث قت م ق ع
م قه ا ق أل قxق.ق ق
م قق يق ق ل ياءاتق نق مي ق،قإي قذاقع قك ةق ا ق لك ق ءت اهق ءتقا قpickق ت
ا قأل قذء عق ياءاتق؟ ق
م قذ ق م أل ق ا ق:ق ق قك ةق ع قذت فقج قءوعقتياءات ق
𝑦̂ = 𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3
يجقذ ا ق ل ياءاتق ا ي قunderlying dataق با اغكق جل اقتخ يق يكقثيتاق يك ق
ذ قذ ق ع قغةق ي ق ي ك اقت ولللاق ع ق ي ق ق! ق
م ق اات قذ ق م أل ق ا ق ا اق تا ق:ق ق قجمءاق م ةق
𝑥1 = 𝑥, 𝑥2 = 𝑥 2 , 𝑥3 = 𝑥 3
ق ا تا ق:ق ق دق عا ذ
𝑦̂ = 𝜃0 + 𝜃1 𝑥1 + 𝜃2 𝑥2 + 𝜃3 𝑥3
هقك ةق م ق طقي ك اق جت ا هق ا ق ا قذ ق ت ق تعم ق تقليميق traditional
multiple regressionق ءع قج معاق تخم وقء س ق آل ي ق ن ق تخمذ اعاق اهقاق هق
Least squaresق ه ق تخ ي ق ا ذة تق كل ق ق ت ق خط ق يثقناغق ت هةق
ذك وعقذربعاتق ا ققتيق ياءاتق قيقي ق نقت ع اعاقج قةرل ق تات ق خطق اات ق
قMinimizing the sum of the squares of the difference between 𝑦̂, 𝑦:قق .ق
ق هةق طقها ض طق؟ ق إي قهعمق قع قذاقع ق ت
ع قي قء يجقغةق طقتيق تهة تق اتقل ق هةقذاتقل ق لن غقذ قتك ق̂𝑦قتات قغةق
طق ل ا ذة تق 𝜃ق يسقها رص لق ل تهة تقxق()featuresق.ق ق
ا تقتهةق̂𝑦 ق ق ق لك قش للاقذسق،ق غا لتىمقق،قجا يق،قذ قجملقذش ا قذ ا ق
ق هةق ط قع قء يجقغةق طق ذات طقتتهةق 𝜃 ق يسقها رص لق قطقج قتهةق xقذيق ت
ل ا ذة تق.ق ق
35
𝑥 𝑦̂ = 𝜃0 + 𝜃12
𝑥𝑦̂ = 𝜃0 + 𝜃1 𝜃2
) 𝑦̂ = log(𝜃0 + 𝜃1 𝑥 + 𝜃2 𝑥 2 + 𝜃3 𝑥 3
𝜃0
= ̂𝑦 ) (𝑥−𝜃2
1 + 𝜃1
ذ ق ها قاه ق in contrastق ق ت ق خط ق قي ك ا ق تخم و ق least squaresق
ياءاتق ق ت ق هةق طق ج ذاقتخ يق ا ذة تق يسق ل ق ذاقق .ق
قغةق ي قه رلق ق لل ق؟ -إي قكيفقءعلكقذ ق اأ ق ي قذ
ض ق ك قث ا ق هعا ق تهة ت ق خرج قها نا ق oك ق ياءات ق ن ق م اق
ق ي قذ قغةق ي ق.ق نقي ةق ع لم ق ا
ت اط ق correlation coefficientقتي ق تهة تق oي ك ا ق اال قذعاذ ق
اتقل ق هةقذاتقل ق.ق
قذ الق oإي ق اءد ق ي قذعاذ ق ت اط ق ك ق تهة ت ق 0.7ق ا ق ق ق ا ع
لخ ي قتيق م ق ق خرجق ق.
oذ قءق وقها تخم وق ت ق خط ق إ ق اءدق تائ قغةقذا ي قءنتق ق لت ق
هةق طق.ق
-كيفقء نقء يجقتياءا قإي ق اءدق هةق ي قذ أل لق؟قع اقناتخموقإ م ق اقق
تا ي ق ق:
Polynomial regression
Non-linear regression model
Transform your data
ق تعم قج مذاقءرلمقتيا ق لقتأثةق تهة تق اتقل قج ق تهة تق ءتيك ق:قناتخموق ت
هةقذاتقل ق ق .ق
ق
ق
ق
36
قذ ا قGPDق ل يقذ قجاوق1964ق عاوق2010ق:ق ق
حذ ق ق :ق ق تة ق كت اتق لق خ -
ق
قy=2x+3قذ قهالق ت كالق:ق قباي ق خطق عا كايق كق لت -
ق
ق
ق
ق
ق
37
ق هةق طق يك قذ قك ةق م ق أل قثا ق:ق -ذذاق ت
ق
ق
ق
ةبيغق مق ش ق:ق -
ق
38
ق
سق مق ش ق ق: -
ق
ق
ق
ق
ق
39
ل غا لتىمق:ق -
ق
ق
قق
ق
ق
ق
اك ولمقSigmoidal/Logisticق:ق -
ق
ق
40
ق
ق خطق هةق طقهأعكقذش ا مقق .ق لع اقج ق اققتيق تتل قءك ق
ق
ءأ ق آل ق ل ا ق يق م مق ع قGPDق ل يق:ق ق
ق
اقذ لاق: كت ا قهأ قجشقذ تة ق كت اتق حذ ق ت ي ق ياءاتقذ ق ا هطق -
ق
ق
ق
41
ي قءا لاق:ق ي قذوقغةق خاألاتقع ق تق قتيق م آل ق ت ميمق ع -
ق
ق
ءكمقذ ق ا كق يا قذ ق ع ق ي ق با تا ق ناتخموق ت قغةق خط ق م ق
ذيقذء جمق ناتخموق:قك ةق م ق–ق سق–ق ل غا لتىمق–ق اك ولمق.ق ق
ء ظ قذ ق ا ك ق يا قذءلاقتز قت ط ق ق م ي قثك قتتاا ع ق ق ط قثك قتعا ق
ءخ اضق( مق ت ا ق ل ع ق سق م قع قذخا فق يثق سقت مذقت ط قثكقتة يمق
ق يك ق م ق اك ولمق ي ق اق ل ق ت ق قذ ب اقذ ق ق ءخ اض)ق
دق:ق ق ق قة عاقج ق االق كلمق ءكالق سق ءا قذ ل اقذ ض ق قهأوقه
ق
ش ق عاوق م قlogisticق:ق ق
ق
ق
ق
ق
ق
42
ق ل ق تات ق:ق ق يجقذ قتعرلفق ء مذقتب ا ق
ق
قتمق ل ياءاتق م اق ق :ق هدق تات ق ة قذم قذ ثكقءض ق يكقذ ي ق
ق
ق
اقءا قذءمق يسقذ ا قه ا تمق ي قإي ق ل ت اق آل قإيكا قذ ض قها ذة تق مق.ق ق
-ءق وقهع لي قت ظيكق ياءاتق تك قت سق كا ق هقج لي قnormalizeقذيق ا تق
قء ا قت ظي لاق ا تا ق:ق ها فقذذقاقGPDقذا ج ق لق لق13ق اقءا ق
ق
ق
ق
ق
43
نقناتخموق كت قscipyق:ق قل ا -بألا ق يكقتيتاق
ق
لاق ة ق تيك ق ق: آل قءع -
ق
ق
ل لق ء ظقذءمقذ ا ق م قع ق قيكقق ن غقذ قء ا ق م قها تخم وقء سق
ق ت ق خطق:
يج قثك ق اال ق قيكق ي قتتقايك ق ياءات ق ت ا ق تم ل ق قذ قثك قتم ل ق
ت قها جت ا قج قتياءاتق ت ا ق ذ قثكق االق م ق:ق ق
44
ق
ق
ق خطق ق هةق طقذ قذذ ل قج لاق.ق تل قءك ق مقذءل اق ت
-11التصنيف : Classification
-1-11مقدمة :
يعتةق ت نيفق قتعلكق آل قذ ق اكق تعلكق ب ققsupervisorق يثقذ ق مق
قذك جاتقذ ل ق ي ك قت نيفقجملقج ارصقذكل ق(ذيق قجلكق اقج لا)ق
ف)قق .ق (
ق أل ل قتي قذك ج قذتهة ت قfeaturesق ي ا ق ت نيف قذ ق تعلك ق ع
لمفقtargetق،ق يثقيك ق لمفقذتهةق ه يقcategorical variableقهقيكق
ذ ل ق(ذتق ع )قdiscrete valuesق،ق ا قج قي ق ق :ق
ت قذ حق قا ضقleansق لع ق قت قذ قذرصفقذاق:ق ق
ق
ق
ق
ق
45
م اقت ق ميمق ا قجموقتاميمق قا ضق ميمق(تخلفقج ق م ق)defaultق:ق ق
م اق ياءاتق تا ي ق ق :ق
age ed employ address income deb credit order default
3ق 41ق 17ق 12ق 5,009ق 11.3ق 9.3ق 176ق 1ق
1ق 27ق 10ق 6ق 19.2ق 31ق 4,0ق 1.6ق 0ق
.ق .ق .ق .ق .ق .ق .ق .ق .ق
.ق .ق .ق .ق .ق .ق .ق ..ق .ق
.ق .ق .ق .ق .ق .ق .ق .ق 0ق
ق
تهةق ةقذ ق وعقcategoricalق ع ق لمفق ءرلمقذ قءت قع ق يم ق زب ق
قاضق ةت قجليمقذوق قق .ق
قذ حقofferقذ قذ قdeclineق عا ضق ا ق ميمق ل ق زب ق ق .ق ج معاقي م ق
ّ
ناتخموق ياءاتق نق م اق ا قذ فقclassifierقء ا ق مقتياءاتقذيقحب قألميمق
لعطق تيك قإذاق1قذيقdefaulterقذ ق0قذيقnot defaulterق.ق ق
ءا قذ قءوعقع ق ت نيفقث ا ق binaryق ءمق اتخموق ي تي ق ق خرجق 1قذ ق 0ق اق
ّ
ي ك اقت ا قذ فق أل قجمل قذ اف ق multi-class classificationقذيق يسقث ا ق
قطق اق قذ ا اق اات ق.ق ق
ذ قيك ق م ا قتياءات قذاض ق ءرلم قذ قءت قءوع ق عقا ق ي ق ع يم ق ل رلضق
كمي قمق :ق
48
ق featuresقذ ق تهة ت ق xقذ ق:ق قذ مئيا قناتخمو ق قط قج ذ قذأل ق قياو قه
age,incomeق نا لكقpredictorsقثكقءا كق زبائ ق ك جاتقت ا قج قع ق تهةل ق :ق
ق
income
ق
ق
age
49
تاىم قع ه ق قاط ق قرل قذ قهعضلاقذ ق ق ق كميمل قهد ق neighborsق ه قتعت مقج ق
ا تق تشاتل قذ قء سق فق تك ق رل قج قهعضلاق عضق ق اا قتي ق ق
ا تيققهقذقياوق ت ا قdissimilarityقق .ق
ع ا قجملقةاقق قياوق تشاهمقذ قبش قذعاكسق ياوق ت ا قذ قةرلق ق Euclidian
distanceق نتعافقج قع هق اقق قاق.ق ق
حذي قKNNق ا تا ق ق :ق ق إي قءلخصقذا
ءض ق ي قkقذيقجم ق قاطق تكا لققpick a value for k -1
االق اا قتي ق ق ق كميملقذ ق كل ق بقي ق قاطق ق hold out from -2
each of the cases in the dataset
قتياءات ق تم ل ق )training dataق ال ق ل ق ق ءختا ق k-observationق( -3
كميملقذ ق كل ق.ق
ءت ق ا ق ق ق كميملقها تخم وق ا تق شائع ق الق قاطق لقاق.ق -4
مق ع اق ق :ق ق ع ا قألزذ ق قع ق اا قيعطق ء اجاقذض رباق لع
-كيفقءختا ق ي قkق ي ق؟
ا تقذ ق قاط.ق -كيفقءقيسق تشاهمق( اا ات)قتيق
ة قذ ا قج قةرلق ق ياوق تشاهمقتيقحب ءيق(ءق تي)قذ قذ ا اق اات ق:ق ق
customer1 customer2
ageق ageق
54ق 50ق 𝐷𝑖𝑠 = √(54 − 50)2 = 4
income income
190 200 𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 = 10.77
education education
3 8 𝐷𝑖𝑠 = √(54 − 50)2 + (190 − 200)2 + (3 − 8)2 = 11.87
ق
ق
ق
50
م ا قذ ل ا ق قط قذةل ق مل ق ageق ي ك ا ق ياو ق اا قتي ل قا قه رلق ق Euclidian
distanceق تاىمقMinkowski distanceق ا تا ق ق :ق
ق
ق
ملقذ ق ثنتي قذ قث ث ق قذةلق ء ظقذ ق كم ق اات قكيفق تكق االق ت ا قج مقذ
لزب ءيقق .ق
قذكا قذعيق قع ق ي ك اقج قي ق ك ق ياءاتق قج قتق يسقnormalizedق لاق
ذعت مقج قة يع ق ياءاتق ق ت نيفق اتخموق.ق ق
اضق ق ق كل اق ذ اقذ قع هق خ حذي قتعت مقج قت ميمق ع ارصق كةق رباق ل ق
ق؟ ق ءرلمقت ميمق ا ق ا ق(؟) ج ق خ طقchartق اقهق ي قkق ا
إي قهمذ قهقي ق ليل قk = 1ق إءلاق تك قذ الق ل فقBasicقققققق م مق يا قس ق قهقي ق
قاط ق لاقذ ق ف ق ق ق قج ق خ ط قذي ق Totalق ق أل ق خيا ق ق ق قع ق ا قشايلق
anomalyق با تا ق تيا ق ي ق ئيل قk=1ق يقإ ق ا قover-fittingق.ق ق
يج ق قيك قبش لم ق عاو قذ يم ق لع ات قذ ق ا ج ق ياءات قout-of- ع قيعن قذ ق
sampleق ه ق ن قناتخمذلا ق تم ل ق ظاو ق با تا ق ايك قغة قذ يم ق لقيك ق كميملق
( كل )ق،ق م قذاي ق ق ةءاق ي قك ةلقذ قk=20ق؟قك ق يك قغةقذ ئكق ق! ق
تيا ق ي قkق؟ ق إي قذاقهقذ ض قةرلق ق
يجق ع ق ق ش قع قذ قء ت ظقذ قء كزقreserveقألز قذ ق ياءاتق ت ا ق ق
يجقها تخم وق قءختا قk=1قثكقناتخموق ياءاتق نق كزءاعاق ت ا ق االق ق ي
51
قج قذج ق أل قتياءاتق ت ا ق test setق ءعيمق ع لي قها تيا ق يكقذ ا ق دق kق ن قء
ق ل يجق قذ ا اق اات ق تك قذ ض ق ي قهقk=4ق ق
Accuracy ق
ق
k ق
k=4
ق
ا ق تك ق تخم وق ةرلق ق KNNقتاتخمو قذيضا ق لت قه ا ق قيك ق ات ال ق قع ه ق
ذت طق قيكق كا لق( ال)ق كتشافق ي ق ا ق كميملقق .ق
ق-ق....ق ق ق–ق اتمقfeaturesق:قجم ق هافق–ق اا ق عاقذة ق يثقذ ذ قت
اتلكق ق اا قتي لاق إء اقهاجت ا قذ ي ك اقع اقإيكا قذ القث ثقذ اح ق يسق قطقهأ
قذت طقذ عا ق اح ق ث ق كا لق قي قثكقءت ق عاق ة ق يقءرلمقت ميمهقهأ
مقق .ق
ق لاي قي ك اق ق ق:ق ق
Very high (K=100) overly generalized model
Very low (K=1) highly complex model
ق
ق
ق
ق
ق
52
-مقاييس التقييم يف التصنيف : Evaluation metrics in classification
اتق يج ق ع ق اض ق م اقذك ج قتياءات ق زبائ قإ م ق ق ت م قع ه ق قا يس قذ
ت ا تق ق :ق
ق
Predicted
Data set model
𝒚(value)̂
Training set
Test set
)Real value(y
ق
قع هق شك ق ق! ق قءرلمقت ميمق تيك ق لائي قchurnsق ع
يجقها تخم وقتياءاتق تم ل ق training setقءرلمق االق قج قع ق هعمقتم ل ق
يجقها تخم وقتياءاتق ت ا ق test setق ألمق قيكق ت ع ق ذ قثكقءقا قتي ق قيكق
يجق.ق ق قيقي ق قذك ج ق ت ا ق بيق قيكق ت ع ق ت ميمق قع ق
ق ي م ق اق ياوق م قذيضاق كز ق يق ن غ قد قء هق قء يأل اق ت اي قذ ئمق قع ا
ةق نتعافقج قث ث قذ لاق هق:ق ق
عميمقذ قع هق عا ق
Jaccard index , F1-score , Log Loss
: Jaccard index -
يج ق قتعاف قذيضا قهد ق Jaccard similarity ق ه قذباط قع ه ق اق ق قياو ق
coefficientق يثقء للاقها عا ق:ق
|̂𝑦 ∩ 𝑦| |̂𝑦 ∩ 𝑦|
= )̂𝑦 𝐽(𝑦, =
|̂𝑦 ∪ 𝑦| |̂𝑦 ∩ 𝑦| |𝑦| + |𝑦̂| −
53
قيقي قج ق ألت اجل اق.ق ق ذيق ا ق ككق تقاة قتيق قيكق ت ع ق ق
يج ق ق م اقج اتق ت ا ق قيقي ق]y=[0,0,0,0,0,1,1,1,1,1ق ذاقت عمق
اءي ق ق] 𝑦̂ = [1,1,0,0,0,1,1,1,1,1قذيق تلفق قطقهأ ق ي تيق ق شةكقت ا ق قيكق
با تا ق:ق ق
8
= )̂𝑦 𝐽(𝑦, = 0.66
10 + 10 − 8
يجق J=1ق ج ق ق يكم قها كاقذءمقج مذاق ألمقتشاهمق اذ قتي قذك جن ق قيكق إ ق
خ فقج مذاق ق ألمقذيقتشاهمق ا م قذعم ذ قJ=0ق.ق ق
يج ق ع ق) (cmق confusion matrixق ع ق اض قذ ق ق ظا ق ش قآ ا ق عن ق
ق cmقتظلاق قت ي ق 40ق اقذ ق ياءاتق ل هق ذك ج ق ت ا ق م اقذ
قذقا ء قذ ق قيكق قيقي ق.ق ق ي ت عاتق خاةئ ق ق
ق
>>=Column
ق
ق
ق
>>=Row
20
15
10
Churn=1 Churn=0
54
تاق ق يق قيكق قيقي قActual/true labelق قذك ج ق ق اق قع هق
يجق ق .ق test setق قج ق يق قيكق ت ع قpredicted valueقذ ق
ق ق :ق ل قءظاءاق لا اق
ق
ق
ق
ق
ل قي ق زبائ ق ن ق ي ق churnق قيقي ق لكق قذك ج ق ت ا قتاا يق 1ق با تا ق ق
يجقت قذ لكق 6قهقي ق 1ق ق9ق اب اق ي ق churnق دق 15قحب قذ قذ ق 40ق ألمءاقذ ق
ق ذاق لا اق ا ق ق .ق هقي ق0ق ك
قيقي ق 1ق ق 25ق ي تمق ت ا قذ لك ق 15ق ي تم ق اقذ قذك ج ق تيك ق :ق م اق 40ق
قيقي ق0قه يثق:ق ق
حقذيق 1ق يجقبش ق دق15ق:ق6قذ لكقت علكق
نموذج سيء
قققققققققق9ق=ق=ق=ق=ق=ق=ق=ق=بش ق اطققذيق0ق ق
حقذيق 0ق يجقبش ق دق25ق:ق24قذ لكقت علكق
نموذج جيد
ققققققققققق1ق=============== اطقذيق1ق ق
افقج ق ق حقت عمقذ ق يجقج قت قcmقتعطق ء اجاقج ق م لق إي قذ
هعضلاق عضق.ق ق
ق
ق
ق
ق
ق
55
) قي ك اقج معاق0 ق ق1ي ق قطق ق(ذيقbinaryا ق خاصقذ ق ت نيفق ا ق ذذاق ق
ق:ق ا تا ق قcmق اوق أل لق قذ ت اةق
True positive TP (6)
6 TP 9 FP
False positive FP (9)
True negative TN (24)
1 FN 24
False negative FN (1) TN
حق ق ق قتTrue
حق قغةق قتFalse
ق1قذيق ا تمقPositive
ق0قذيق ا تمقNegative
ق ق:ق االق م ق اقي ق ها جت ا قج ق ي ق ق اكقنات
Precision = TP/(TP+FP) ( ق ل ا ق ت )ت م ق
Recall = TP/(TP+FN) ( ا )ت م قذم قإيكاتي ق
ق:ء ا قعاتيق قي تيق ل ا تق نق م اق ق
classes قprecision قrecall قF1-score
ق0 ق0.73 ق0.96 ق0.83
ق1 ق0.86 ق0.40 ق0.55
ق
F1-score = 2*(Prc*Rec)/(Prc+Rec)
ق.) قharmonic average of the Pre&Rec (طق ت قق ق تF1تم ق
أسوأ دقة
أحسن دقة ق
F1-score : 0.00 0.20 ….. 0.55 …. 0.83 …. 1.00
High Accuracy
56
Avg Accuracy = (0.83+0.55)/2= 0.72
نتق ق وعقآ اقذ قذقا يسق م ق لت نيفق:ق ق
ّ
فقع ق ت ا ق أل ق فقج اقج ق فقآ اقذ ق :ق ق ت ق ذ ياءاقيك ق رجق
اذزيق logistic regressionقيك ق خرجق ت ا ي ق أل ق زب ق the probability of
customer churnقيعنق()1 or yesق ع هق ي ق ت ا ي قتيق0ق ق1قق .ق
churn Predicted log lossق state
Actual labels churn
)(y ) (probabilityق
1ق 0.91ق 0.11ق good
1ق model 0.13ق 2.04ق bad
0ق 0.7ق 0.04ق v.good
0ق ق 0.8ق 0.26ق good
0ق 0.6ق 0.56ق medium
ّ
فقج مذاقيك ق خرجق إي ق قةرلق قLogarithmic lossقذ قتم قLog lossقتقيسقذ ق
َّ
ت قع ق ي ق ت ا ي قتيق0ق ق1ق.ق ق
ق ق كم ق اات ق ق :ق
قي ق اءي ق قيقي قهق1ق ق ت ا ي قت علاق اءدق0.13ق هق يئ ق لنت قج لاق ي قققق log
lossقجا ي ق يثقت ا ق ا تا ق:ق ق
)̂𝑦 𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −
قيقي ق ل اق اءدق تعةقع هق قي قج ق اا ق نقت عمق لاق قي ق ت ع قج ق قي ق
ك ةلق ا ق ت قس ق ق .ق
ق
ق
57
فق ق اا ق ك ق طق قء ا ق ت اق اق ج قمق االق ي قlog lossق ك ق
ذك ج ق ت ا ق ق:ق ق
1
))̂𝑦 𝐿𝑜𝑔𝐿𝑜𝑠𝑠 = − ∑(𝑦 ∗ log(𝑦̂) + (1 − 𝑦) ∗ log(1 −
𝑛
ع اقيك قتم جق م قجكسق رلق ق ااهق ق:ق ق
أحسن دقة
أسوأ دقة
ق
ءكمقذ ق ك قهق زب ق يقءرلمقت ق مق با تا ق ذ اقج مذاقk=3ق قk=6قكيفق تهةق
ق قتيئ ق jupyterق ق ن مذق قت قي قها تخم وق ا فق ك ق نقء ثقج مق
ق
ق
ق
58
حذ ق:ق ق ء مذقها تة ق كت اتق
ق
ق
ق
ءظلاق ياءاتقها تع ا قpandasق ق :ق
ق
ق
ق
59
فق ق خرجق:ق ق ء م قجم ق زبائ ق ك ق
ق
ق
لاقبش قتيا ق ق :ق ل ك اق
ق
ق
ق
ق
60
م ق تهة تق اتقل قXق:ق ق
ق
ق
ق
م قذاقهق خاألاتق:ق ق
ق
ق
ق
ق
ق
ق
ق
61
ء تاجقع اق تق يسق ياءاتق:ق ق
ق
قهخ حذي قKNNق:ق ق ق كت ق خا نات
ق
ق
ق
62
ءم لق ياءاتقها تيا قk=4ق:ق ق
ق خرجق:ق ق ءت
ق
ق
ق
ق
ق
ق
ق
ق
ق
63
آل قءعيمق خ حذي ق أل ق يكقذختل ق دقkقذ ق10ق:ق ق
ق
قج مقذيق ي ق دقkق:ق ق يجقذقا ء قهقيكقkق ختل ق ة قذج ق ق ذ قثكقءا كق
ق
64
يجق اءدقج مذاقk=9ق:ق ق قل كمقذ قذج ق
Decision
Decision Decision
ق
Decision
Decision Decision ق
Decision Decision
ق
ق
ق؟ ق كيفقت يمق ق ت نيفق؟ق كيفقذءىمقشكالق ا
ج ق اضقذء قها ثقةنقهك قتياءاتق اضق تا ي ق ق :ق
Patient ID Ageق Genderق cholesterolق Bpق Drugق
p1ق youngق Fق Highق Normalق Aق
.ق .ق .ق .ق .ق .ق
.ق .ق .ق .ق .ق .ق
p15ق middleق Mق Lowق Highق Bق
66
ءختا ق ملقذ ق خ ائصق ق ياءاتق م اق.ق ق -1
ق ن ق ةءاعاق قتقايكق ياءاتق ة قتأثةقع هق ء ا ق(ثق ق– ق قح ق– ق ق )ق -2
قع قع قذ أل قذوق قق.
تقايكق ياءاتقها جت ا قج ق ي قذ ض ق ا ي ق.ق -3
ءكا ق ع لي ق ق ق رعقbranchق قي ق خا ياتقfeaturesق ت قي ق.ق -4
-4-11بناء شجرة : Building Decision Trees
تك قت ا ق شكال قتتكا ق تقايك ق recursive partitionق ت نيف ق ياءات ق ق ق م اق14ق
ذرلض ق قذك جت ا ق ااهق ق قتختا ق خ حذي قذغل ق ة ت ق ت ع ق predictive
اتق نقءعت مقجل لاق تقايكق featuresق نقءقاكق ياءاتقت ا قجل لاقذيقتختا قذيقذعكق
ياءاتق قت ني لاقق .ق
ق cholesterol attributeق قت ا قجل لاق يتكقتقايكق ياءاتق قا ي ق اق مذقذ قه
ذ اق ق كم ق قذ ا اق اات قnormal,highق:ق ق
ق
Cholesterol عندما نختار الميزة
عندما نختار الميزة Highلن نكون
Normalلن نكون
واثقين تماما أن يكون العالج Bألنه لدينا واثقين تماما أن يكون
خمس مرضى عالجهم Bوثالثة عالجهم العالج Aأو Bألنه لدينا
أربع مرضى عالجهم B
A High Normal واثنين عالجهم A
67
ج ق ق ا قع هق خا ي ق Genderقذ ض قذ ق اهقتلاق عت معاق قتقايك ق ياءاتق ءلاق
ذ ق كيكاق ذكةقك ا لقق .ق
Gender attribute is more significant than Cholesterol or more predictive
)(Less Impurity = Lower Entropy
ق productivenessقتعت م قج قإءقاص ق تش ه ق impurityق ق عقمق ا قم ل قج ق ت
اتق featuresق ن قتخ ضقذ قع ق تشولمق ق عقمق ق قء ثقج ق قء nodesق
ققleavesق.ق ق
ا ق با تا ق ق ألمءاق اهقاقذ ق ةلقgenderقهقذاشحقأليمقgood candidateق ل هق
ن تق ق لخ لق تا ي ق:ق ق
آل ق أل ق وعقMق ق ةلقgenderقءختا ق ةلقCholesterolق تقايكق ياءاتقذالقذ ا ق
قشكالق اجي قsubtreeقتا ي ق:ق ق
ق
Gender ق
F M
impurity
Cholesterol
لدينا أربع مرضى
عالجهم العقار A
وبالتالي هي عقدة
صافية pure node
High Normal
لدينا مريضين عالجهم
العقار Bفالنتائج
صافية و نقية
68
قإ يمق ق ءعتةقذ ق عقملق ق شكالقءقي قج مذاقتك قذ م لق قطقت وعق لمفق ا ق
قيق قناتخموقتكا ق تقايكق قتياءاتق ت ا قإ قذألز ق(ذقاة )ق ي قتلمفقتقلي ق
لق ق ن ق تكق االق impurityقج قةرل ق االق Entropyق ل ياءاتق ق تش هق ق ق
قجقملق اقهق دقEntropyق؟ ق
هقذقم ق عش ئي قrandomnessق ق ياءاتقذ قذقم قجموقتاتي قذ قت ظيكقdisorderقع هق
ياءات ق ،ق با تا قء قء ث قج قذ ق ي ق لا ق ق عق قم ق ه قإي قتقيس ق تكانسق
homogeneityق ق عقمق.ق ق
ذ ق م اق آل ق:ق ق
1 Drug A 3 Drug Bق
& Drug Aق 5 Drug Bق
) Entropy is low (good valueق ) Entropy is high (bad valueق
عش ئي ق ليل ق ق قيك ق عش ئي قك ةلق ق قيك ق
0 Drug Aق 4 Drug A
8 Drug Bق 4 Drug Bق
Entropy =0ق Entropy = 1ق
ع قذ ل ل غةقذ ل ل
ق
إي قي ك اق ااتلاق اقي ق:ق ق
))𝐵(𝑝(𝐸𝑛𝑡𝑟𝑜𝑝𝑦 = −𝑝(𝐴) log(𝑝(𝐴)) − 𝑝(𝐵)log
ق فق،ق ق وقه االقEntropyق لكم قج مءاق يثقpقنا ق()ratio,proportionق
تقاي لاق:ق ق
Patient ID Ageق Genderق cholesterolق Bpق Drugق
p1ق youngق Fق Highق Normalق Aق
.ق .ق .ق .ق .ق .ق
.ق .ق .ق .ق .ق .ق
p15ق middleق Mق Lowق Highق Bق
ق
69
ا قذ م ثقoccurrencesق دقAق قتاع ق دقBق]S:[9B,5Aق ء ا ق آل ق:ق ق م اق
E = -(9/14)log(9/14) – (5/14)log(5/14) = 0.940
قتقايكق ياءاتق،قء مذقتتقايكق ياءاتقها تخم وق خا ي قCholesterolق:ق ق ع ق
Normal : 6B,2AS[6B,2A]E=0.811
High : 3B,3AS[3A,3B]E=1.00
ءكايقء سق ع لي ق ك ق خا ياتق م ا…Age,Bp,Gender,ق ق
ذ قGenderقيك ق م ا:ق ق
F : S[3B,4A] E=0.985
M : S[6B,1A] E=0.592
إي قذ ل اقذ ض قGenderقذوقCholesterolق؟ ق
ق
يملق Information Gainق ق شكالقجا ي قهعمق ختا ق خا ي ق ن قتكع ق ياءاتق
تقايكق ق :ق
The tree with the higher Information Gain after splitting.
ق ق اققتيق ي نقEق و قهعمق تقايكق قتك ق ا هق عل ذاتق نقتزلمقنا ق
قهعمق تقايكق ك ق ا ي ق:ق ق
It is the information that can increase the level of certainty after splitting
.
Information Gain (IG) = (Entropy before split) – (Weighted entropy after
)split
ي ق ضق ق ياءاتقتز قIGق ا ت ا قتيقIGق قEقذتعاكسق ع مذاقتت ا صقEقذيق
حق.ق ق ق عكسق
ا قشكالق قا قيعت مقج قإيكا ق خا ي قي تق ربددحق ج ق:ق ق
70