מערכות לומדות - תומר קרן סיכום למבחן

‫סיכום הרצאות ותרגולים – מערכות לומדות – ‪ – 591640‬סמסטר אביב ‪ – 0505‬נכתב ונערך ע"י תומר קרן‬
‫תוכן עניינים‬
‫חזרה על הסתברות ‪3 ..............................................................................................................................................................‬‬
‫משתנה אקראי ‪3 ...................................................................................................................................................................................‬‬
‫הסתברות משותפת (‪ ,)joint‬הסתברות שולית (‪ ,)marginal‬הסתברות מותנית (‪3 ....................................................................... .)conditional‬‬
‫נוסחת ההסתברות השלמה וכלל ‪3 ................................................................................................................................................. bayes‬‬
‫וקטור אקראי גאוסי ‪4 ...........................................................................................................................................................................‬‬
‫כופלי לגראנז' ‪4 .....................................................................................................................................................................................‬‬
‫שערוך א‪-‬פרמטרי ‪0 ...............................................................................................................................................................‬‬
‫שערוך ‪ – Cumulative Distribution Function – CDF‬משערך אמפירי ‪5 ...............................................................................................‬‬
‫שערוך ‪ - Probability Density Function – PDF‬היסטוגרמה ‪5 ..............................................................................................................‬‬
‫שערוך ‪6 ..................................................................................................................................... Kernel Density Estimation – KDE‬‬
‫שערוך פרמטרי ‪7 ...................................................................................................................................................................‬‬
‫שערוך בייסיאני ‪7 ..................................................................................................................................................................................‬‬
‫משערך התוחלת המותנית ‪7 ...................................................................................................................................................................‬‬
‫משערך )‪7 ..............................................................................................................................................Maximum a-Posteriori (MAP‬‬
‫שערוך לא בייסיאני ‪8 .............................................................................................................................................................................‬‬
‫משערך הסבירות המירבית ‪8 .......................................................................................................................................................... MLE‬‬
‫דוגמאות בסיסיות ‪8 ..............................................................................................................................................................................‬‬
‫הערכת הממוצע של פילוג נורמלי‪8 .........................................................................................................................................................:‬‬
‫פילוג ברנולי (מטבע לא מאוזן)‪8 ............................................................................................................................................................. :‬‬
‫פילוג דיסקרטי (הטלת קוביה לא מאוזנת) ‪9 ...............................................................................................................................................‬‬
‫דוגמא – תיוג עם רעש ‪9 .........................................................................................................................................................................‬‬
‫פילוג ‪9 .................................................................................................................................................................................. Rayleigh‬‬
‫אפיון טיב של משערכים ‪65 .....................................................................................................................................................‬‬
‫‪ – Bias‬היסט של משערך ‪01....................................................................................................................................................................‬‬
‫‪ – Variance‬שונות של משערך ‪01.............................................................................................................................................................‬‬
‫דוגמאות לחישובים‪11 ............................................................................................................................................................................‬‬
‫עיבוד מקדים וניתוח מידע ‪60 ...................................................................................................................................................‬‬
‫מבוא‪ ,‬סוגי נתונים‪ ,‬פעולות בסיסיות‪ ,‬מאפיינים‪01.....................................................................................................................................‬‬
‫סוגי נפוצים של מידע ‪11 .........................................................................................................................................................................‬‬
‫מאפיינים ‪11 .........................................................................................................................................................................................‬‬
‫מרכוז ונרמול ‪11 ....................................................................................................................................................................................‬‬
‫הורדת מימד ‪ : PCA‬ניתוח רכיבים עיקריים ‪01.........................................................................................................................................‬‬
‫הגדרה ותזכורות ‪11 ...............................................................................................................................................................................‬‬
‫כיוונים ורכיבים העיקריים ‪11 ...................................................................................................................................................................‬‬
‫אלגוריתם ה ‪ PCA‬להורדת המימד ‪11 ........................................................................................................................................................‬‬
‫שחזור לינארי עם שגיאה מינימלית ‪11 ......................................................................................................................................................‬‬
‫תכונת השונות המירבית ‪11 ....................................................................................................................................................................‬‬
‫בחירת המימד ‪11 .............................................................................................................................................................................. m‬‬
‫אשכול ‪60 ....................................................................................................................................................CLUSTERING‬‬
‫מדדי קרבה וחלוקה ‪11 ...........................................................................................................................................................................‬‬
‫אשכול צובר ‪11 .....................................................................................................................................................................................‬‬
‫אלגוריתם ‪11 .........................................................................................................................................................K-means Clustering‬‬
‫מבוא ללמידה מודרכת ‪61 ........................................................................................................................................................‬‬
‫בעיית הלמידה המודרכת‪ ,‬סיווג ורגרסיה ‪06..............................................................................................................................................‬‬
‫סוגי חזאים ‪06.......................................................................................................................................................................................‬‬
‫מודל למידה סטטיסטי ומדדי טיב ‪06.......................................................................................................................................................‬‬
‫הסיכון – המחיר האמיתי ‪11 ....................................................................................................................................................................‬‬
‫הסיכון האמפירי‪17 ................................................................................................................................................................................‬‬
‫בעיות יסוד בלמידה מודרכת ‪07...............................................................................................................................................................‬‬
‫הערכת ביצועים באמצעות קבוצות בוחן ‪08...............................................................................................................................................‬‬
‫סיווג בעזרת אלגוריתם ‪08........................................................................................................................ (K Nearest Neighbors) K-NN‬‬
‫דוגמא – סיווג בעזרת ‪19 .......................................................................................................................................... Ordinal Regression‬‬
‫סיווג גנרטיבי ‪05 ...................................................................................................................................................................‬‬
‫פונקציות הפסד נפוצות ‪12 .....................................................................................................................................................................‬‬
‫סיווג בייסיאני אופטימלי ‪11....................................................................................................................................................................‬‬
‫הסתברות שגיאה מינימלית ‪11 ................................................................................................................................................................‬‬
‫מסווג בייס במקרה הגאוסי ‪11 .................................................................................................................................................................‬‬
‫הכללה למדד סיכון כללי ‪11 .....................................................................................................................................................................‬‬
‫מסווג בייס נאיבי (‪11........................................................................................................................................ )Naïve Bayes Classifier‬‬
‫הגישה הגנרטיבית ‪11 ............................................................................................................................................................................‬‬
‫‪13.............................................................................................................................................Linear Discriminant Analysis –LDA‬‬
‫‪14.......................................................................................................................................... Quadric Discriminant Analysis – QDA‬‬
‫בעיית הרגרסיה ‪00 ................................................................................................................................................................‬‬
‫מאפיינים ופונקציות בסיס ‪15..................................................................................................................................................................‬‬
‫פונקציות בסיס נפוצות ‪11 ......................................................................................................................................................................‬‬
‫הגדרת ובחירת המאפיינים ‪11 .................................................................................................................................................................‬‬
‫רגרסיה לינארית ‪16................................................................................................................................................................................‬‬
‫היפוך מטריצה ‪ 1‬על ‪17 ....................................................................................................................................................................... 1‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫דוגמא לבניית מטריצת מאפיינים ‪17 .........................................................................................................................................................‬‬
‫רגולריזציה ‪17.......................................................................................................................................................................................‬‬
‫רגולריזציה ע"י נורמה ריבועית ‪17 ..................................................................................................................... Tikhonov Regulatization‬‬
‫רגולריזציה על ידי נורמת ה 𝟏𝓵 ‪18 ............................................................................................................................................................‬‬
‫דוגמא לבעיית רגרסיה עם רגולריזציה ‪19 ..................................................................................................................................................‬‬
‫אופטימיזציה ללא אילוצים ‪12................................................................................................................................................................‬‬
‫אלגוריתם הגרדיאנט ‪12............................................................................................................................................. Gradient Descent‬‬
‫חישוב הגרדיאנט למודל הלינארי ‪19 .........................................................................................................................................................‬‬
‫אלגוריתם עדכון סדרתי ‪12 ......................................................................................................................................................................‬‬
‫מודל לינארי עם פונקציית אקטיבציה ‪12 ...................................................................................................................................................‬‬
‫פרוש סטטיסטי לבעיית הרגרסיה ‪30........................................................................................................................................................‬‬
‫מודל הרגרסיה הבסיסי ופונקציית השגיאה הריבועית ‪11 .............................................................................................................................‬‬
‫מודל רגרסיה בייסאני ופונקציית הרגולריזציה ‪11 ........................................................................................................................................‬‬
‫סיווג לינארי ‪33 .....................................................................................................................................................................‬‬
‫מסווג לינארי כללי ‪33.............................................................................................................................................................................‬‬
‫פונקציות אקטיבציה שכיחות ‪33..............................................................................................................................................................‬‬
‫אלגוריתם הפרספטרון ‪34.......................................................................................................................................................................‬‬
‫אלגוריתם לימוד הפרספטרון ‪11 ...............................................................................................................................................................‬‬
‫משפט התכנסות הפרספטרון ‪11 .............................................................................................................................................................‬‬
‫רגרסיה לוגיסטית ‪34..............................................................................................................................................................................‬‬
‫כוונון הפרמטרים‪11 ...............................................................................................................................................................................‬‬
‫כוונון הפרמטרים‪ :‬גישת פונקציית מחיר ‪11 ...............................................................................................................................................‬‬
‫אלגוריתם הגרדיאנט ‪11 ..........................................................................................................................................................................‬‬
‫רשתות ניורונים מלאכותיות ‪33 ................................................................................................................................................‬‬
‫פרספטרון בודד ‪38.................................................................................................................................................................................‬‬
‫פונקציות הפעלה ‪18 ..............................................................................................................................................................................‬‬
‫רשתות היזון קדמי ‪38..........................................................................................................................Feed Forward Neural Networks‬‬
‫מבנה וסימון פרספטרון רב שכבתי‪19 .......................................................................................................................................................‬‬
‫כח ייצוג של רשת רב שכבתית ‪19 ............................................................................................................................................................‬‬
‫פונקציית השגיאה ‪32.............................................................................................................................................................................‬‬
‫ייצוג פונקציה באמצעות רשת היזון קדמית המכילה נוירונים מסוג ‪19 ................................................................................................... ReLU‬‬
‫אלגוריתם ‪95 ................................................................................................................................. BACK PROPAGATION‬‬
‫גרסא סדרתית ‪12 ..................................................................................................................................................................................‬‬
‫גרסת אצווה ( ‪11 ........................................................................................................................................................... )Batch update‬‬
‫סיכום והערות‪11 ...................................................................................................................................................................................‬‬
‫רשתות קונבולוציה ‪90 ............................................................................................................................................................‬‬
‫‪41................................................................................................................................................. Convolutional Neural Nets - CNN‬‬
‫היפר פרמטרים ‪43..................................................................................................................................................................................‬‬
‫סכמת האתחול ‪43..................................................................................................................................................................................‬‬
‫נרמול אצווה ‪43..................................................................................................................................................... batch normalization‬‬
‫‪99 ..................................................................................................................... SUPPORT VECTOR MACHINES-SVM‬‬
‫דוגמאות הניתנות להפרדה לינארית – ‪44................................................................................................................................ Hard SVM‬‬
‫בעיית האופטימיזציה הפרימאלית ‪11 .......................................................................................................................................................‬‬
‫תכונות פתרון ווקטור התמיכה ‪11 ............................................................................................................................................................‬‬
‫הבעיה הדואלית ‪11 ................................................................................................................................................................................‬‬
‫המקרה הכללי – ‪47............................................................................................................................................................... Soft SVM‬‬
‫הבעיה הדואלית של בעיית ‪17 ............................................................................................................................................... Soft - SVM‬‬
‫שילוב פונקציות בסיס ‪48........................................................................................................................................................................‬‬
‫שילוב פונקציות גרעין ‪42........................................................................................................................................................................‬‬
‫אלגוריתם למציאת ‪ w, b‬עבור בעיית ‪ SVM‬פרידה לינארית ‪42....................................................................................................................‬‬
‫עצי החלטה ‪05 ......................................................................................................................................................................‬‬
‫מדדים עובר אוסף המידע ‪51............................................................................................................................................................... D‬‬
‫חישוב פרקטי של המאפיין הטוב ביותר ‪51................................................................................................................................................‬‬
‫בעיית התאמת היתר ‪50........................................................................................................................................................Overfitting‬‬
‫שילוב של מסווגים‪00 ................................................................................................................... BOOSTING , BAGGING :‬‬
‫מודל הלומד החלש ‪51............................................................................................................................................................................‬‬
‫‪51.......................................................................................................................................................................................... Bagging‬‬
‫‪51........................................................................................................................................................................................ Adaboost‬‬
‫ניתוח שגיאת האימון ‪11 .........................................................................................................................................................................‬‬
‫ניתוח שגיאת ההכללה‪11 .......................................................................................................................................................................‬‬
‫‪2‬‬
‫חזרה על הסתברות‬
‫‪ - ‬מרח ב המדגם (אוסף התוצאות האפשריות בניסוי)‪.‬‬
‫‪ – ℱ‬מרחב המאורעות (אוסף תת הקבוצות של ‪.Ω‬‬
‫הסתברות – פונקציה ]‪ . 𝑃: ℱ → [0,1‬ההסתברות למאורע ‪ E‬היא )‪.P(E‬‬
‫משתנה אקראי‬
‫משתנה אקראי הוא פונקציה ‪.𝑃: 𝛺 → ℛ‬‬
‫עבור משתנה אקראי בדיד‪ ,‬מוגדרת פונקציית הסתברות )𝑥 = 𝑋(𝑃 = )𝑥( 𝑥𝑃‬
‫𝑏‬
‫עבור משתנה אקראי רציף‪ ,‬מוגדרת פונקציית צפיפות הסתברות 𝑥𝑑)𝑥( 𝑥𝑝 𝑎∫ = )𝑏 ≤ 𝑋 ≤ 𝑎(𝑃‬
‫∞‬
‫תוחלת של משתנה אקראי‪𝐸[𝑋] = ∑𝑖 𝑥𝑖 ⋅ 𝑝(𝑥𝑖 ) = ∫−∞ 𝑥 ⋅ 𝑓(𝑥)𝑑𝑥 = 𝜇 :‬‬
‫שונות של משתנה אקראי‪𝑉𝑎𝑟(𝑋) = 𝜎 2 = 𝐸[(𝑋 − 𝜇)2 ] = 𝐸[𝑋 2 ] − 𝜇2 :‬‬
‫שונות משותפת של שני משתנים‪𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑥 )(𝑌 − 𝜇𝑦 )] = 𝐸[𝑋𝑌] − 𝜇𝑥 𝜇𝑦 :‬‬
‫אינדיקטור שווה ל‪ 0‬אם התנאי בסוגריים מתקיים‪𝕀(𝐶) :‬‬
‫הסתברות משותפת (‪ ,)joint‬הסתברות שולית (‪ ,)marginal‬הסתברות מותנית (‪.)conditional‬‬

‫פונקציית הסתברות משותפת‪𝑝(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦) :‬‬
‫הסתברות שולית‪𝑝(𝑥) = ∑𝑖 𝑝(𝑥, 𝑦𝑖 ) :‬‬
‫)𝑦‪𝑝(𝑥,‬‬
‫= )𝑥|𝑦(𝑝‬ ‫)𝑥(𝑝‬
‫הסתברות מותנית‪:‬‬
‫אם ‪ x,y‬בלתי תלויים )𝑥(𝑝 ⋅ )𝑦(𝑝 = )𝑦 ‪𝑝(𝑥,‬‬

‫∞‬
‫תוחלת מותנית‪𝐸[𝑋|𝑌] = ∑𝑖 𝑥𝑖 𝑝(𝑥𝑖 |𝑦) = ∫−∞ 𝑥 ⋅ 𝑓(𝑥|𝑦)𝑑𝑥 :‬‬
‫נוסחת ההחלקה‪𝐸[𝑋] = 𝐸𝑌 [𝐸𝑋 [𝑋|𝑌]] = ∑𝑖 𝐸[𝑋|𝑌 = 𝑦𝑖 ] ⋅ 𝑝(𝑦𝑖 ) :‬‬
‫נוסחת ההסתברות השלמה וכלל ‪bayes‬‬

‫מהגדרת הסתברות מותנית‪𝑝(𝑥, 𝑦) = 𝑝(𝑦|𝑥)𝑝(𝑥) = 𝑝(𝑥|𝑦)𝑝(𝑦) :‬‬
‫נוסחת ההסתברות השלמה‪𝑝(𝑥) = ∑𝑖 𝑝(𝑥, 𝑦𝑖 ) = ∑𝑖 𝑝(𝑥|𝑦𝑖 )𝑝(𝑦𝑖 ) :‬‬
‫)𝑦(𝑝)𝑦| 𝑥(𝑝‬ ‫)𝑦(𝑝)𝑦| 𝑥(𝑝‬
‫= )𝑥|𝑦(𝑝‬ ‫)𝑥(𝑝‬
‫∑=‬ ‫)𝑖𝑦(𝑝) 𝑖𝑦| 𝑥‬ ‫כלל ‪:bayes‬‬
‫(𝑝 𝑖‬
‫𝑟𝑜𝑖𝑟𝑝 ⋅ 𝑑𝑜𝑜‪𝑙𝑖𝑘𝑒𝑙𝑖𝑒ℎ‬‬
‫= 𝑟𝑜𝑖𝑟𝑒𝑡𝑠𝑜𝑝‬
‫𝑒𝑐𝑛𝑒𝑑𝑖𝑣𝑒‬
‫‪3‬‬
‫וקטור אקראי גאוסי‬

‫‪−(𝑥−𝜇)2‬‬
‫‪1‬‬
‫= )𝑥(𝑓‬ ‫‪2‬‬
‫𝑒‬ ‫‪2𝜎2‬‬ ‫משתנה אקראי גאוסי ‪:‬‬
‫𝜎𝜋‪√2‬‬
‫‪1‬‬
‫‪1‬‬ ‫)𝜇‪(𝑋−𝜇)𝑇 𝛴 −1 (𝑋−‬‬
‫= ) 𝑘𝑥 ‪𝑓(𝑥1 , 𝑥2 , … ,‬‬ ‫‪𝑒 −2‬‬ ‫וקטור אקראי גאוסי‪:‬‬
‫|𝛴| 𝑘)𝜋‪√(2‬‬
‫‪𝛴11‬‬ ‫‪𝛴12‬‬ ‫‪𝜇1‬‬

‫𝑇 (=𝛴‬ ‫) ‪) , 𝜇 = (𝜇 ) ,𝑋 = (𝑥1 , 𝑥2‬‬ ‫שני וקטורים משורשרים‪:‬‬
‫‪𝛴12‬‬ ‫‪𝛴22‬‬ ‫‪2‬‬
‫‪1‬‬
‫‪1‬‬ ‫̅̅̅̅̅̅ 𝑇) ̅‬
‫𝜇‪(𝑥1 −‬‬ ‫)𝜇‪𝛴 −1 (𝑥1 −‬‬
‫= )𝑎 = ‪𝑓(𝑥1 |𝑥2‬‬ ‫‪⋅ 𝑒 −2‬‬ ‫צפיפות התפלגות מותנית ‪:‬‬
‫)| ̅‬
‫𝛴| 𝑘)𝜋‪(√(2‬‬
‫𝑎( ‪−1‬‬
‫‪𝜇̅ = 𝜇1 + 𝛴12 𝛴22‬‬ ‫‪− 𝜇2 ), 𝛴̅ = 𝛴11 − 𝛴12 𝛴22‬‬
‫‪−1‬‬
‫‪𝛴21‬‬ ‫כאשר‬
‫כופלי לגראנז'‬
‫𝐶 = )𝑥(𝑔 ‪𝑚𝑎𝑥 𝑓(𝑥) 𝑠. 𝑡.‬‬ ‫הבעיה‪:‬‬
‫נגדיר עבור האילוץ משתנה חדש ‪λ‬‬ ‫‪.0‬‬
‫)𝐶 ‪ℒ(𝑥, 𝜆) = 𝑓(𝑥) + 𝜆(𝑔(𝑥) −‬‬ ‫באמצעותו נגדיר פונקציה חדשה‬ ‫‪.1‬‬
‫נחפש נקודות קיצון עבור הפונקציה החדשה ע"י גזירה והשוואה לאפס‪.‬‬ ‫‪.3‬‬
‫הצבת הפתרונות בפונקציה המקורית‪ ,‬חיפוש אחר מקסימום ומינימום‪.‬‬ ‫‪.4‬‬
‫עבור אילוצי אי שוויון‪ ,‬נחזור על התהליך עם דרישה נוספת‪:‬‬
‫‪𝑔(𝑥) ≤ 𝐶 → 𝜆 ≥ 0‬‬
‫עבור מספר אילוצים‪ ,‬נגדיר לכל אילוץ כופל לגראנז' ונגדיר‬
‫) 𝑖𝐶 ‪ℒ(𝑥, 𝜆1 , … , 𝜆𝐾 ) = 𝑓(𝑥) + ∑𝑘𝑖=1 𝜆𝑖 (𝑔𝑖 (𝑥) −‬‬
‫‪4‬‬
‫שערוך א‪-‬פרמטרי‬
‫‪𝒟 = {𝑥𝑖 }𝑛𝑖=1‬‬ ‫אוסף מדידות בלתי תלויות מתוך הפילוג של ‪: X‬‬
‫בגישה הא‪-‬פרמטרית לא מניחים צורה מסויימת עבור הפילוג המבוקש וסיבוך המודל יכול לגדול עם מס' נקודות המידע‪.‬‬
‫‪1‬‬
‫𝑁∑ 𝑁 = 𝑋 ̂𝜇‬
‫𝑖𝑥 ‪𝑖=1‬‬ ‫משערך אמפירי של תוחלת של משתנה אקראי‪:‬‬
‫שערוך ‪ – Cumulative Distribution Function – CDF‬משערך אמפירי‬

‫}𝑥 ≤ 𝑋{𝑟𝑃 ≜ )𝑥( 𝑋𝐹‬
‫‪1‬‬
‫𝑁∑ 𝑁 = )𝑥( 𝑋̂𝐹‬
‫}𝑥 ≤ 𝑖𝑥{𝕀 ‪𝑖=1‬‬ ‫המשערך האמפירי נראה כך ‪:‬‬
‫עבור כל ארגומנט ‪ ,x‬נספור את הכמות היחסית של הנקודות מה ‪ Data‬אשר קטנות מערך זה‪.‬‬
‫שערוך ‪ - Probability Density Function – PDF‬היסטוגרמה‬

‫נעשה בעזרת היסטוגרמה‪:‬‬
‫ביצוע קוונטיזציה לסט דיסקרטי של ערכים על ידי חלוקה לסט תאים נפרדים של טווח הערכים שהמ"א יכול לקבל‪.‬‬ ‫‪‬‬
‫שערוך אמפירי של ההסתברות להיות בכל תא‪.‬‬ ‫‪‬‬
‫שימוש בהתפלגות אחידה להתפלגות הערכים בכל תא‪.‬‬ ‫‪‬‬
‫‪1‬‬ ‫‪1‬‬
‫⏝ = ) 𝑘𝑟 < 𝑥 ≤ 𝑘𝑙( 𝑋‪ℎ‬‬‫⋅ } 𝑘𝑟 < 𝑥 ≤ 𝑘𝑙{𝕀 𝑁∑‬ ‫נסמן גבולות שמאליים וימניים של התא ה ‪: k‬‬
‫‪𝑁 𝑖=1‬‬ ‫𝑟‬ ‫𝑘𝑙‪𝑘 −‬‬
‫כאשר המכפלה המסומנת מתארת את הסיכוי להיות בתא ה ‪ , k‬וכופלים בהסתברות אחידה בתוך התא‪.‬‬
‫𝐾⋃ = 𝕏‬
‫קבוצת הערכיים האפשריים מחולקת למספר תאים זרים ‪𝑗=1 𝑅𝑗 :‬‬
‫בכל תא נעריך את פונקציית הצפיפות ע"י שימוש במספר הדגימות היחסי באותו התא‪ ,‬כאשר ) 𝑗𝑅(𝑁 מספר הדגימות‬
‫שהתקבלו בתא ה ‪ 𝑉(𝑅𝑗 ) = ∫𝑅 𝑑𝑥 ,j‬נפח התא ו‪ n‬מספר הדגימות הכולל‪.‬‬
‫𝑗‬
‫𝑛‪𝑁(𝑅𝑗 )/‬‬
‫= )𝑥( 𝑥̂𝑝‬ ‫𝑗𝑅 ∈ 𝑥 ‪,‬‬
‫) 𝑗𝑅(𝑉‬
‫צפיפות הסתברות תקינה‪:‬‬
‫‪1‬‬ ‫) 𝑗𝑅(𝑁‬ ‫‪1‬‬ ‫𝑛‬
‫= 𝑥𝑑)𝑥( 𝑋̂𝑝 ∫‬ ‫∑‬ ‫‪∫ 𝑑𝑥 = ∑ 𝑁(𝑅𝑗 ) = = 1‬‬
‫𝑛‬ ‫𝑗𝑅 ) 𝑗𝑅(𝑉‬ ‫𝑛‬ ‫𝑛‬
‫𝑗‬ ‫𝑗‬
‫כלל אצבע‪ :‬חלוקת טווח הערכים ל 𝑁√ תאים בגודל אחיד‪.‬‬
‫‪5‬‬
‫שערוך ‪Kernel Density Estimation – KDE‬‬

‫‪1‬‬
‫) 𝑘𝑥 ‪.𝑝̂ 𝜙(𝑥) = 𝑛 ∑𝑛𝑘=1 𝜙(𝑥 −‬‬ ‫הערכת צפיפות ההסתברות בעזרת פונקציית גרעין‪:‬‬
‫תכונות פונקציית הגרעין‪:‬‬
‫‪𝜙(𝑧) ≥ 0,‬‬ ‫על מנת שתהיה פונקציית הסתברות תקנית תמיד אי שלילית‬
‫‪𝜙(𝑧 ≈ 0) > 0,‬‬ ‫אם הפילוג האמיתי הוא אפס‪ ,‬אז לא ייתכן שקיבלנו מדידות בסביבת ‪.1‬‬
‫‪∫ 𝜙(𝑧)𝑑𝑧 = 1,‬‬ ‫‪𝜙(||𝑧|| → ∞) → 0‬‬ ‫תכונות הנרמול‬
‫‪1‬‬ ‫𝑧‬
‫חלון פרזן מוגדר כך )‪ 𝜙ℎ(𝑧) = ℎ𝑑 𝜙(ℎ‬כאשר 𝜙 פונקצית החלון הבסיסית‪ d ,‬מימד המדידות ו 𝑑‪ 1/ℎ‬שומר על הנרמול‪.‬‬
‫‪1‬‬ ‫‪1‬‬ ‫𝑘𝑥‪𝑥−‬‬
‫( 𝜙 𝑑‪𝑝̂ 𝜙(𝑥) = 𝑛 ∑𝑛𝑘=1 ℎ‬‬ ‫‪ℎ‬‬
‫)‬ ‫נקבל‪:‬‬
‫חלונות טיפוסיים‪:‬‬
‫‪1‬‬ ‫𝛼‬
‫≤ |𝑥| ‪,‬‬
‫𝛼{ = )𝑥(‪ℎ‬‬ ‫𝛼‪2 ,‬‬ ‫‪ .0‬חלון ריבועי ‪> 0 -‬‬
‫𝑒𝑠𝑙𝑒 ‪0,‬‬
‫‪𝑥2‬‬
‫‪1‬‬ ‫‪−‬‬
‫= )𝑥(‪ℎ‬‬ ‫‪2‬‬
‫𝑒‬ ‫‪2𝜎2‬‬ ‫‪ .1‬חלון גאוסי ‪, 𝜎 2 > 0 -‬‬
‫𝜎𝜋‪√2‬‬
‫‪1‬‬ ‫}𝑥{𝑑𝑡𝑠⋅‪4‬‬
‫= 𝜎 (הערה – לעיתים מעלים בחזקת ‪ .)− 5‬עבור חלון ריבועי‪.𝑂(√𝑛) ,‬‬ ‫𝑁‪3‬‬
‫הינו‬ ‫כלל אצבע לקביעת רוחב החלון‬
‫‪6‬‬
‫שערוך פרמטרי‬
‫אנו מניחים כי הפילוג של הדגימות הינו בעל צורה ידועה‪ ,‬המוגדרת ע"י וקטור פרמטרים ‪𝑝𝑋 (𝑥) = 𝑝𝑋 (𝑥|𝜃) :‬‬
‫וקטור הפרמטרים הינו ממשי בעל מימד נתון‪ .‬סימונים נוספים הינם ‪𝑝𝑥 (𝑥|𝜃) ≝ 𝑝𝜃 (𝑥) ≝ 𝑝𝑋 (𝑥; 𝜃) :‬‬
‫משפחת הפילוגים לכל 𝛩 ∈ 𝜃 היא משפחה פרמטרית של פילוגי הסתברות‪ ,‬או מודל פרמטרי‪.‬‬
‫כעת הערכת פילוג ההסתברות שקולה להערכת הפרמטר‪ ,‬על פי סדרת המדידות‪ .‬המשערך ̂𝜃 נקבע על סמך המדידות‪.‬‬
‫ישנן שתי גישות עבור שערוכים פרמטריים‪:‬‬

‫בגישה הבייסיאנית‪ ,‬אנו מניחים כי 𝜃 הינו משתנה מקרי‪ ,‬בעל פילוג ידוע )𝜃( ‪.𝑝0‬‬ ‫‪‬‬
‫בגישה הלא בייסיאנית‪ ,‬הפרמטר 𝜃 הינו גודל דטרמיניסטי לא ידוע‪.‬‬ ‫‪‬‬
‫שערוך בייסיאני‬
‫פילוג ידוע )𝜃( ‪ 𝑝0‬נקרא הפילוג האפריורי‪ ,‬עבור ‪ D‬אוסף מדידות כלשהו‪ ,‬ונתונה פונקציית צפיפות של מדידות אלו בהינתן ערך‬
‫הפרמטר ‪ ,θ‬נקבל כי‬
‫𝑛‬
‫‪𝑝(𝐷𝑛 |𝜃) = 𝑝(𝑥1 , 𝑥2 , … , 𝑥𝑛 |𝜃) = 𝛱𝑖=1‬‬ ‫)𝜃| 𝑖𝑥( 𝑋𝑝‬
‫הפילוג )𝐷|𝜃(𝑝 נקרא הפילוג הפוסטריור (פילוג בדיעבד)‪ ,‬וניתן לחשב אותו‪:‬‬
‫)𝜃( ‪𝑝(𝜃, 𝐷) 𝑝(𝐷|𝜃)𝑝0‬‬ ‫)𝜃( ‪𝑝(𝐷|𝜃)𝑝0‬‬

‫= )𝐷|𝜃(𝑝‬ ‫=‬ ‫=‬
‫)𝐷(𝑝‬ ‫)𝐷(𝑝‬ ‫𝜃𝑑)𝜃( ‪∫ 𝑝(𝐷|𝜃)𝑝0‬‬
‫מתוך זה‪ ,‬נגזור משערכים שונים עבור ‪: θ‬‬
‫משערך התוחלת המותנית‬

‫)𝐷|𝜃(𝐸 ≜ 𝐸𝑆𝑀𝑀̂𝜃‬
‫משערך זה הינו התוחלת של הפרמטר לפי הפילוג בדיעבד‪ ,‬והוא מביא את השגיאה הריבועית הממוצעת למינימום‪ ,‬ועל כן‬
‫נקרא גם ‪.Minimum Mean Square Error (MMSE) Estimator‬‬
‫‪2‬‬ ‫‪2‬‬
‫)𝐷| |)𝐷|𝜃(𝐸 ‪𝜃𝑀𝑀𝑆𝐸 = 𝐸(𝜃|𝐷) = 𝐸 (|𝜃 − 𝜃| |𝐷) = 𝐸 (|𝜃̂ − 𝜃 + 𝐸(𝜃|𝐷) −‬‬
‫̂‬ ‫̂‬
‫ע"י המשך פיתוח ביטוי זה נגיע שעבור הבחירה הזו של ̂𝜃 השגיאה מגיעה למינימום ועל כן זה המשערך הטוב ביותר‪.‬‬
‫משערך )‪Maximum a-Posteriori (MAP‬‬
‫)𝐷|𝜃(𝑝 ‪𝜃̂𝑀𝐴𝑃 ≜ arg max‬‬

‫‪𝜃∈Θ‬‬
‫משערך זה בוחר את הפרמטר שהסתברותו מקסימלית לפי הפילוג בדיעבד‪.‬‬
‫בהצבת נוסחת בייס נקבל‬
‫)𝜃( ‪𝜃̂𝑀𝐴𝑃 ≜ arg max 𝑝(𝐷|𝜃) ⋅ 𝑝0‬‬

‫‪𝜃∈Θ‬‬
‫משערך זה ממזג את השפעת המדידות עם ההנחה הראשונית לגבי ערכי הפרמטר‪.‬‬
‫אם הפילוג בדיעבד הוא גאוסי‪ ,‬אז המשערכים 𝐸𝑆𝑀𝑀 ‪ 𝑀𝐴𝑃,‬מתלכדים‪.‬‬ ‫‪‬‬
‫חסרונות גישה זו הם הקושי בחישוב האנליטי של הפילוג הפוסטריור‪ ,‬והקושי העקרוני בבחירת הפילוג הראשוני‪,‬‬
‫שלעיתים אף חסרת משמעות‪.‬‬
‫‪7‬‬
‫שערוך לא בייסיאני‬
‫כעת לא נגדיר פילוג אפריורי‪ ,‬אלא נניח כי ‪ θ‬הינו גודל דטרמיניסטי כלשהו‪.‬‬
‫משערך הסבירות המירבית ‪MLE‬‬

‫)𝜃|𝐷(𝑝 ‪𝜃̂𝑀𝐿𝐸 ≜ arg max‬‬
‫‪𝜃∈Θ‬‬
‫ערך המשערך הינו הפרמטר עבורו הסתברות המדידות הינה המקסימלית‪.‬‬
‫‪ ‬אם ניקח 𝑐 = )𝜃( ‪( 𝑝0‬פילוג ראשוני קבוע)‪ ,‬אז המשערך ‪ MAP‬יתלכד עם משערך ה ‪.MLE‬‬
‫‪ ‬לשים לב שאם הפילוג הפריורי הוא אחיד בתחום מסוים (!) יכול להיות שלא יתלכד עם ה ‪ MAP‬בגלל איפה שהמידע‬
‫חי ואיפה שהפרמטרים חיים‪ .‬יכול להיות שבעקבות כך המידע שנקבל יהיה לא מהימן לפילוג הראשוני‪.‬‬
‫תכונות המשערך‪:‬‬
‫‪ .0‬התכנסות לפרמטר הנכון כאשר מספר המדידות גדל‪.‬‬
‫‪ .1‬חישוב פשוט יחסית למשערכים האחרים‪.‬‬
‫‪ .3‬תוצאות המתיישבות עם האינטואיציה‪.‬‬
‫)𝜃|𝐷(𝑝 ≜ )𝜃(𝐿‬ ‫פונקציית הסבירות ‪ Likelihood Function‬מוגדרת כך‪:‬‬
‫))𝜃|𝐷(𝑝(𝑔𝑜𝑙 = )𝜃(𝐿 𝑔𝑜𝑙 ≜ )𝜃(‪ℓ‬‬ ‫פונקציית הסבירות הלוגריתמית ‪ Log-Likelihood Function‬מוגדרת כך‪:‬‬
‫)𝜃(𝐿 ‪𝜃̂𝑀𝐿𝐸 = arg max ℓ(𝜃)  𝜃̂𝑀𝐿𝐸 = arg max‬‬ ‫לכן נגדיר‪:‬‬
‫‪𝜃∈Θ‬‬ ‫‪𝜃∈Θ‬‬
‫כיוון שהמדידות בלתי תלויות‪:‬‬
‫𝑛‬ ‫𝑛‬
‫‪1‬‬
‫)𝜃(‪𝜃̂𝑀𝐿𝐸 = arg max ℓ‬‬ ‫=‬
‫⏟‬ ‫))𝜃| 𝑖𝑥( 𝑥‪arg max 𝐿𝑜𝑔 (∏ 𝑝𝑋 (𝑥𝑖 |𝜃)) = arg max ∑ Log(p‬‬
‫‪𝜃∈Θ‬‬ ‫‪𝜃∈Θ‬‬ ‫𝑛 ‪𝜃∈Θ‬‬
‫𝑥𝑃‬ ‫𝑑‪𝑖𝑠 𝑖.𝑖.‬‬ ‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫דוגמאות בסיסיות‬
‫הערכת הממוצע של פילוג נורמלי‪:‬‬
‫עבור וקטור )‪ 𝑋~𝑁(𝜇, Σ‬עם ‪ d‬מימדים‪ ,‬כאשר מט' הקווריאנס חיובית ממש וידועה‪.𝜃 = 𝜇 ∈ ℝ𝑑 .‬‬
‫𝑛‬
‫)𝜇 ‪∇𝜇 ℓ(𝜃) = ∑ Σ−1 (𝑥𝑖 −‬‬

‫‪𝑖=1‬‬
‫‪1‬‬
‫𝑖𝑥 ‪.𝜇̂ 𝑀𝐿𝐸 = 𝑛 ∑𝑛𝑖=1‬‬ ‫מהשוואה לאפס נקבל‬
‫𝑛 ‪1‬‬
‫= 𝐸𝐿𝑀̂‪.Σ‬‬ ‫𝑖𝑥() 𝐸𝐿𝑀 ̂𝜇 ‪∑ (𝑥 −‬‬
‫𝑖 ‪𝑛 𝑖=1‬‬
‫אם מט' הקווריאנס אינה ידועה‪ ,‬נקבל 𝑇) 𝐸𝐿𝑀 ̂𝜇 ‪−‬‬
‫פילוג ברנולי (מטבע לא מאוזן)‪:‬‬
‫‪𝑝,‬‬ ‫‪𝑥=1‬‬
‫= 𝑥‪𝑃𝑋 (𝑥|𝑝) = 𝑝 𝑥 (1 − 𝑝)1−‬‬
‫‪1 − 𝑝, 𝑥 = 0‬‬
‫ומתקיים )𝜃| 𝑖𝑥( 𝑋𝑃 𝑖𝑛∏ = )𝜃(𝐿‪ .‬לכן‪:‬‬
‫𝑛‬ ‫𝑛‬
‫𝑛‬ ‫𝑛‬
‫𝑖𝑥‪𝑃̂𝑀𝐿𝐸 = arg max ∏ 𝑃𝑋 (𝑥𝑖 |𝑝) = arg max ∏ 𝑝 𝑥 (1 − 𝑝)1−𝑥 = arg max 𝑝∑𝑖=1 𝑥𝑖 ⋅ (1 − 𝑝)𝑝∑𝑖=1 1−‬‬
‫‪0<𝑝<1‬‬ ‫‪0<𝑝<1‬‬ ‫‪0<𝑝<1‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫𝑛‬ ‫𝑛‬
‫) 𝑖𝑥 ‪= arg max log(𝑝) ∑ 𝑥𝑖 + log(1 − 𝑝) ∑(1 −‬‬

‫‪0<𝑝<1‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫‪1‬‬
‫כשנגזור ונשווה לאפס נקבל 𝑖𝑥 ‪.𝑝̂𝑀𝐿𝐸 = 𝑛 ∑𝑛𝑖=1‬‬
‫‪8‬‬
‫פילוג דיסקרטי (הטלת קוביה לא מאוזנת)‬
‫) 𝑚𝑝 ‪ 𝑝 = (𝑝1 , . . ,‬וקטור ההסתברויות (סכומו ‪.)0‬‬

‫‪ X‬מקבל ‪ m‬ערכים אפשריים } 𝑚𝑎 ‪ 𝑋 ∈ {𝑎1 , . . ,‬בעלי הסתברויות 𝑗𝑝 = ) 𝑗𝑎 = 𝑥(𝑃‪.‬‬
‫נרצה לחשב את וקטור ההסתברויות ונקבל‪:‬‬
‫𝑛‬
‫‪1‬‬ ‫)𝑗( 𝑛𝑁‬
‫≜ } 𝑗𝛼 = 𝑖𝑥{𝕀 ∑ = 𝑗] 𝐸𝐿𝑀 ̂𝑝[‬
‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬
‫מגיעים לכך משתי משוואות‪ ,‬הראשונה היא דרישת הנרמול‪:‬‬
‫‪𝑚=1‬‬ ‫𝑚‬
‫‪𝑝𝑚 = 1 − ∑ 𝑝𝑟 ⇒ ∑ 𝑝𝑚 = 1‬‬
‫‪𝑟=1‬‬ ‫‪𝑟=1‬‬
‫גזירה והשוואה לאפס‪.‬‬ ‫הצבה בפונק' הסבירות הלוגריתמית‪,‬‬
‫דוגמא – תיוג עם רעש‬
‫‪𝑦𝑖 = 𝜃 𝑇 𝑥𝑖 + 𝜀𝑖 ,‬‬ ‫) ‪𝜀𝑖 ~𝑁(0, 𝜎𝑖2‬‬
‫‪2‬‬
‫𝑁‬ ‫)𝜃 𝑇𝑖𝑥‪(𝑦𝑖 −‬‬ ‫𝑛‬ ‫‪2‬‬
‫‪1‬‬ ‫‪−‬‬
‫) ‪2(𝜎𝑖2‬‬
‫)𝜃 𝑇𝑖𝑥 ‪(𝑦𝑖 −‬‬
‫∏ 𝑔𝑜𝐿 = )𝜃(‪ℓ‬‬ ‫𝑒‬ ‫[ ∑ ‪= 𝐶2 −‬‬ ‫‪] = 𝐶2 − ‖Σ−1 𝑌 − Σ−1 𝑋𝜃‖2 ,‬‬
‫‪(2𝜎𝑖 )2‬‬
‫‪𝑖=1 √2𝜋𝜎 2‬‬ ‫‪𝑖=1‬‬
‫(‬ ‫𝑖‬ ‫)‬
‫‪−𝑥1 −‬‬ ‫‪σ1‬‬ ‫…‬ ‫‪0‬‬

‫‪𝑋 = ( ⋮ ) ∈ ℝ𝑛×𝑑 , 𝑌 ∈ ℝ𝑛×1 ,‬‬ ‫⋮(=‪Σ‬‬ ‫𝑛×𝑛‪⋮ ) ∈ ℝ‬‬
‫‪−𝑥𝑛 −‬‬ ‫‪0‬‬ ‫…‬ ‫𝑛𝜎‬
‫𝑌 ‪𝜃̂𝑀𝐿𝐸 = (𝑋 𝑇 Σ −2 𝑋)−1 𝑋 𝑇 Σ−2‬‬
‫‪𝑏(𝜃̂𝑀𝐿𝐸 ) = 0‬‬
‫‪2‬‬ ‫‪2‬‬
‫𝑖𝜁 ‪𝑦𝑖 = 𝜃 𝑇 𝑥̃𝑖 + 𝜀𝑖 , 𝑥𝑖 = 𝑥̃𝑖 +‬‬ ‫𝑖‪𝜁𝑖 ~𝑁(0, 𝜎𝜁,‬‬ ‫‪),‬‬ ‫𝑖‪𝜀𝑖 ~𝑁(0, 𝜎𝜀,‬‬ ‫כעת נניח שגם לדגימות יש רעש‪ ,‬כלומר מתקיים )‬
‫𝑛‬
‫‪𝜎𝜀2‬‬
‫‪𝜃̂𝑀𝐿𝐸 , (𝑥̂1∗ , … , 𝑥̂𝑛∗ ) = arg max‬‬ ‫= 𝛿 ‪∑((𝑦𝑖 − 𝑥𝑖∗ 𝜃)2 + 𝛿(𝑥𝑖 − 𝑥𝑖∗ )2 ) ,‬‬
‫∗‬
‫𝑖𝑥‪𝜃,‬‬ ‫‪𝜎𝜁2‬‬
‫‪𝑖=1‬‬
‫𝑖𝑦 ∗ 𝑖̂𝑥 ‪∑𝑛𝑖=1‬‬

‫= 𝐸𝐿𝑀̂𝜃‬
‫‪∑𝑛𝑖=1 𝑥̂𝑖∗ 2‬‬
‫𝑘𝑥𝛿 ‪𝜃̂𝑀𝐿𝐸 𝑦𝑘 +‬‬

‫= ∗𝑘̂𝑥‬ ‫‪,‬‬ ‫𝑛 ‪𝑘 = 1, … ,‬‬
‫𝐸𝐿𝑀̂𝜃‬
‫‪2‬‬
‫𝛿‪+‬‬
‫פילוג ‪Rayleigh‬‬
‫‪0‬‬ ‫‪2‬‬
‫𝜎[ ‪ ,𝑍~ 𝑁 ([ ] ,‬פילוג ריילי מתאר את פילוג האורך האוקלידי של הוקטור‪:‬‬ ‫בהינתן וקטור גאוסי המפולג כך )] ‪0‬‬
‫‪0‬‬ ‫‪0‬‬ ‫‪𝜎2‬‬
‫‪1 𝑧2‬‬
‫𝑧‬ ‫(⋅ ‪−‬‬ ‫)‬
‫= )𝑧( ‪𝑝𝑅𝑎𝑦𝑙𝑒𝑖𝑔ℎ‬‬ ‫‪𝜎2‬‬
‫𝑒⋅‬ ‫‪2 2𝜎2‬‬ ‫‪ . ‖𝑍‖2 = √𝑍𝑥2 + 𝑍𝑦2‬פונקצית צפיפות ההסתברות של הפילוג‪, 𝑧 ≥ 0 :‬‬
‫‪9‬‬
‫אפיון טיב של משערכים‬

‫כל אחד מהמשערכים הוא משתנה אקראי‪ ,‬שכן הוא פונקציה של ה ‪ Data‬שהינו אוסף של משתנים אקראיים‪.‬‬
‫𝐷𝑑)𝜃|𝐷(𝑝)𝐷(̂𝜃 ∫ = ])𝐷(̂𝜃[𝔼 = ̂𝜃𝜇‬ ‫נבחן את התוחלת של המשערך‬
‫תכונה רצויה של משערך היא כי התוחלת תהיה שווה לפרמטר האמיתי ‪ .θ‬ההפרש בין הגדלים הוא ההטיה של המשערך‪:‬‬
‫‪ – Bias‬היסט של משערך‬
‫𝜃 ‪𝑏𝑖𝑎𝑠 (𝜃̂ (𝐷)) = 𝔼𝐷|𝜃 [𝜃̂(𝐷)] − 𝜃 = 𝜇𝜃̂ −‬‬
‫ההפרש בין התוחלת של המשערך ביחס לפילוג לבין הערך האמיתי שברצוננו לשערך‪.‬‬
‫היסט גבוה נקבל בנקודות בהן יש עקמומיות גבוהה לפונקציית הצפיפות‪.‬‬
‫משערך הסבירות המרבית‪ ,‬לדוגמא‪ ,‬יכול להיות מוטה‪ ,‬אך הטיה זו שואפת לאפס אסימפטוטית כשמספר הדוגמאות הולך‬
‫לאינסוף‪.‬‬
‫‪ – Variance‬שונות של משערך‬
‫‪2‬‬
‫̂‪𝑉𝑎𝑟 (𝜃̂(𝐷)) = 𝔼 [(𝜃̂(𝐷) − 𝔼𝜃̂) ] = 𝔼𝐷|𝜃 [𝜃̂ 2 (𝐷)] − 𝜇𝜃2‬‬
‫המרחק הממוצע של ‪ N‬דגימות מהתוחלת שלהן‪.‬‬
‫השגיאה הריבועית הממוצעת זו תוחלת השגיאה הריבועית של המשערך ביחס לערך האמיתי של הפרמטר‪.‬‬
‫‪2‬‬
‫נגדיר שגיאה ריבועית ממוצעת } )𝜃 ‪ .𝑀𝑆𝐸 ≜ 𝐸𝜃 {(𝜃̂ −‬ע"י הוספה והחסרת של תוחלת המשערך לביטוי הנ"ל‪ ,‬יתקיים‬
‫הביטוי הבא‪ .𝑴𝑺𝑬 = 𝒃(𝜽)𝟐 + 𝒗𝒂𝒓(𝜽) :‬זה הגודל המרכזי המודד את טיב המשערך‪ .‬פרוק בעל אופי דומה נראה בהמשך‬
‫בתכונות החזאים‪ ,‬במקרה זה הפרוק ייצור שני גורמים בעלי תלות מנוגדת בסיבוכיות מודל החיזוי‪ ,‬תופעה יסודית המכונה‬
‫בשם ‪.Bias-Variance Tradeoff‬‬
‫‪01‬‬
‫דוגמאות לחישובים‬
‫‪𝔼[𝐹̂𝑋 (𝑥0 )] = 𝐹𝑋 (𝑥0 ) → 𝐵𝑖𝑎𝑠𝐹̂𝑋 (𝐹̂𝑋 (𝑥0 )) = 0 - Bias of CDF‬‬

‫‪1‬‬ ‫)) ‪(𝑑 2 𝑝𝑋 (𝑥0‬‬ ‫)‪(2‬‬
‫‪𝐵𝑖𝑎𝑠𝑃𝑋 (𝑝̂𝑋 (𝑥0 )) = 2 𝛼 2‬‬ ‫‪𝑑𝑥 2‬‬
‫‪⋅ 𝜇ℎ + 𝑜(𝛼 2 ) - Bias of KDE‬‬
‫)‪(2‬‬
‫כאשר ‪ 𝜇ℎ‬המומנט השני של ה‪ kernel‬המנורמל ‪ 𝛼 ,h‬רוחב החלון‪.‬‬
‫כאשר רוחב החלון שואף לאפס‪ ,‬ההיסט מתכווץ בקצב של רוחב החלון בריבוע‪ ,‬ודועך לאפס‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫‪𝑉𝑎𝑟𝑃𝑋 (𝑝̂𝑋 (𝑥0 )) ≤ 𝑝𝑋 (𝑥0 )𝜎𝐻2 + 𝑜 ( ) - Variance of KDE‬‬
‫𝛼𝑁‬ ‫𝑁‬
‫השונות של משערך ‪ KDE‬מתנהגת לפי הקצב של אחד חלקי מס' הדגימות כפול רוחב החלון‪.‬‬
‫יש כאן ‪ ,tradeoff‬כאשר רוחב החלון שואף לאפס‪ ,‬ההיסט קטן אך השונות גדלה‪ .‬במילים אחרות‪ ,‬תוחלת הדיוק של השערוך‬
‫תגדל אבל עבור מס' סופי של דגימות השערוך ישתנה מאוד כתלות בדגימות שקיבלנו‪ ,‬ועל כן עלול להיות לא מדוייק‪ .‬מצד שני‬
‫ככל שנגדיל את רוחב החלון‪ ,‬נקבל שהשונות תקטן‪ ,‬כלומר השערוך פחות ישתנה כתלות בדגימות שנקבל‪ ,‬אך נשלם בהיסט‬
‫גבוה – תהיה שגיאה ביחס לתוחלת‪.‬‬
‫עבור פילוג נורמלי (מוצג בדוגמאות בפרק שערוך פרמטרי)‪ ,‬נחשב הטיה‪ ,‬שונות ושגיאה ריבועית‪:‬‬
‫𝑛‬ ‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫𝜇 = 𝜇 𝑛 = 𝑖𝑥 𝜇𝐸 ∑ = ) 𝑖𝑥 ∑ ( 𝜇𝐸 = ) 𝐸𝐿𝑀 ̂𝜇( 𝜇𝐸‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫‪𝑏(𝜇) = 𝜇 − 𝜇 = 0‬‬
‫לכן משערך זה אינו מוטה‪ .‬השגיאה הריבועית תהיה השונות‪ ,‬ולאחר הצבה וחישובים (בת"ס‪ ,‬לינאריות תוחלת) נקבל כי‬
‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫‪𝑣𝑎𝑟(𝜇̂ 𝑀𝐿𝐸 ) = ⋯ = 2 ∑ 𝐸𝜇 ((𝑥𝑖 − 𝜇)2 ) = 𝑣𝑎𝑟(𝑋) = Σ‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬
‫הערכת ממוצע ושונות נוספת ‪:‬‬
‫קיבלנו משערך מוטה ולכן לעיתים מתקנים בעזרת חלוקה ב ‪ n-1‬במקום ב ‪.n‬‬
‫‪00‬‬
‫עיבוד מקדים וניתוח מידע‬

‫מבוא‪ ,‬סוגי נתונים‪ ,‬פעולות בסיסיות‪ ,‬מאפיינים‬
‫𝕏 ∈ 𝑖𝑥 ‪𝐷𝑋 = {𝑥𝑖 }𝑛𝑖=1 ,‬‬ ‫נתבונן באוסף נתונים או פריטי מידע‪:‬‬
‫סוגי נפוצים של מידע‬

‫וקטור גדלים מספריים‪ ,‬מידע סימנטי מחולק לרשומות(למשל שם‪ ,‬כתובת‪ ,‬מספר‪ ,)..‬קובץ טקסט‪ ,‬אות דגום‪ ,‬תמונות (בייצוג‬
‫מטריצי)‪ ,‬גרף קישוריות‪..‬‬
‫דוגמאות לפעולות מקדימות של טיפול בנתונים‪ :‬ניקוי‪ ,‬אחסון‪ ,‬דגימה ודילול‪ ,‬נרמול‪ ,‬התמרות‪ ,‬הורדת מימדיות‪.‬‬
‫𝑇‬ ‫𝑑‬
‫𝑑‪𝑥𝑖 = (𝑥𝑖 (1), … , 𝑥𝑖 (𝑑)) = (𝑥𝑖 (𝑗))𝑗=1 ∈ ℝ‬‬ ‫נתעסק בעיקר בנתונים בצורת וקטור מספרי בעל מימד קבוע‬
‫האינדקס בסוגריים מסמן את הרכיב ה ‪ j‬בדוגמא‪ ,‬בעוד האינדקס מסמן את מספר הדוגמא‪.‬‬
‫מאפיינים‬
‫וקטור מאפיינים )𝑥(𝜙 הינו גודל הנגזר מפריט מידע המקורי‪,‬אשר עשוי להועיל בהמשך בפעולות של זיהוי וסיווג‪.‬‬
‫באופן כללי‪ ,‬מאפיין הינו גודל (מספרי לרוב) הנגזר מפריט המידע המקורי‪ ,‬ואשר עשוי להועיל בפעולות המשך כגון זיהוי וסיווג‪.‬‬
‫בחירת מאפיינים מתאימים לייצוג והעשרת מידע הקלט הינה בעלת חישובת קריטית במשימות של למידה מודרכת‪.‬‬
‫מרכוז ונרמול‬
‫‪1‬‬
‫𝑒𝑟𝑒‪𝑥𝑖 → 𝑥𝑖 − 𝑥̅ 𝑤ℎ‬‬ ‫𝑖𝑥 ‪𝑥̅ = 𝑛 ∑𝑛𝑖=1‬‬ ‫מרכוז מתבצע בעזרת‪:‬‬
‫)𝑗( ̅𝑥‪𝑥𝑖 (𝑗)−‬‬ ‫‪1‬‬ ‫‪1‬‬
‫( → )𝑗( 𝑖𝑥‬ ‫)‬ ‫= )𝑗(𝜎 𝑒𝑟𝑒‪𝑤ℎ‬‬ ‫𝑖𝑥‖‬ ‫‪− 𝑥̅ ‖ = √ ∑𝑛𝑖=1(𝑥𝑖 (𝑗) − 𝑥̅ (𝑗))2‬‬ ‫מירכוז ונירמול לפי שונות‪:‬‬
‫)𝑗(𝜎‬ ‫𝑛√‬ ‫𝑛‬
‫𝑗𝑛𝑖𝑀‪𝑥𝑖 (𝑗)−‬‬
‫𝑥𝑎𝑀 → )𝑗( 𝑖𝑥‬ ‫מירכוז ונירמול משערת‪∈ [0,1] :‬‬
‫𝑗𝑛𝑖𝑀‪𝑗 −‬‬
‫הורדת מימד ‪ : PCA‬ניתוח רכיבים עיקריים‬

‫‪PCA – Principle Component Analysis‬‬
‫הגדרה ותזכורות‬
‫עבור וקטורים רב מימדיים במימד ‪ ,𝑑 ≫ 1‬נרצה לייצג את אותם וקטורים במימד נמוך יותר תוך שמירה על תכונות רצויות‬
‫מסוימות של אוסף זה‪.‬‬
‫שיטת ‪ PCA‬הינה התמרה (או הטלה) לינארית של המידע למרחב במימד נמוך יותר‪ .‬בבסיס הגישה ההנחה כי נקודות המידע‬
‫מרוכזות על או קרוב לתת מרחב לינארי כלשהו של המרחב הראשוני‪.‬‬
‫באופן כללי‪ ,‬שיטה זו מבטיחה שונות מירבית ושגיאת שחזור מינימלית‪.‬‬
‫עבור אוסף נקודות ‪ {𝑥𝑖 }𝑛𝑖=1‬כאשר 𝑑‪ ,𝑥𝑖 ∈ ℝ‬נגדיר מטריצת שונות מדגם‬
‫𝑛‬
‫‪1‬‬
‫≜ 𝑛𝑃‬ ‫𝑑 𝑥 𝑑‪∑(𝑥𝑖 − 𝑥̅ )(𝑥𝑖 − 𝑥̅ )𝑇 ∈ ℝ‬‬
‫𝑛‬
‫‪𝑖=1‬‬
‫‪1‬‬
‫כאשר כרגיל 𝑖𝑥 ‪ 𝑥̅ = 𝑛 ∑𝑛𝑖=1‬הינו וקטור הממוצעים‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫הערה‪ :‬לעיתים מחליפים את המקדם 𝑛 במקדם ‪ 0‬או ‪ . 𝑛−1‬לא משנה כיוון שאנו מעוניינים רק בערכים העצמיים והוקטורים‬
‫העצמאיים של המטריצה‪.‬‬
‫𝑛 ‪1‬‬ ‫𝑇‬
‫𝑖𝑥 𝑖𝑥 ‪.𝑃𝑛 = 𝑛 ∑𝑖=1‬‬ ‫הערה‪ :‬בחישובי ‪ PCA‬מקובל ראשית למרכז את הנתונים‪ ,‬נקבל‬
‫𝑇‪𝑥1‬‬
‫𝑇‬
‫הערה‪ :‬מטריצת הנתונים ‪ .𝑿 = 𝑥2‬במונחים אלו נקבל‬
‫‪1‬‬
‫𝑋 𝑇 𝑋 𝑛 = 𝑛𝑃‪.‬‬
‫…‬
‫] 𝑇𝑛𝑥[‬
‫≥ ‪𝜆1‬‬ ‫מטריצת שונות המדגם הינה ממשית‪ ,‬סימטרית‪ ,‬אי שלילית מוגדרת‪ .‬לכן בעלת ‪ d‬ערכים עצמיים ממשיים שיסומנו‬
‫‪ ,𝜆2 ≥ ⋯ ≥ 𝜆𝑑 ≥ 0‬ובעלת ‪ d‬וקטורים עצמיים אורתונורמליים שיסומנו 𝑑𝑣 ‪ .𝑣1 , 𝑣2 , … ,‬נקבל‪:‬‬
‫‪02‬‬
‫‪𝑣𝑘𝑇 𝑣𝑗 = 𝛿𝑘𝑗 ,‬‬ ‫𝑘𝑣 𝑘𝜆 = 𝑘𝑣 𝑛𝑃‬
‫סדר הוקטורים העצמיים הוא לפי סדר הערכים העצמיים‪.‬‬
‫𝑛‬
‫𝑢∀ ‪𝑢𝑇 𝑃𝑛 𝑢 = 𝑢𝑇 𝑋𝑋 𝑇 𝑢 = ‖𝑢𝑇 𝑥‖2 = ∑(𝑢𝑇 𝑥𝑖 )2 ≥ 0 ,‬‬

‫‪𝑖=1‬‬
‫𝑇𝑘𝑣 𝑘𝑣 𝑘𝜆 ‪𝑃𝑛 = 𝑉𝛬𝑉 𝑇 = ∑𝑑𝑘=1‬‬ ‫מתקיים גם כן‪:‬‬
‫‪𝜆1‬‬ ‫‪… 0‬‬

‫⋮(=𝛬‬ ‫)⋮ ⋰‬ ‫] 𝑑𝑣 ‪ 𝑉 −1 = 𝑉 𝑇 , 𝑉 = [𝑣1 , … ,‬וכן‬ ‫כאשר‬
‫‪0‬‬ ‫𝑑𝜆 …‬
‫כיוונים ורכיבים העיקריים‬

‫הווקטורים העצמיים נקראים גם הכיוונים העיקריים של מטריצת שונות המדגם‪ .‬וקטורים אלו מהווים בסיס למרחב המדגם‬
‫‪ ℝd‬וניתן להציג כל וקטור במרחב (בפרט את אוסף הנקודות שלנו) בעזרת בסיס זה‪ .‬ברישום מטריצי‪:‬‬
‫‪𝑥𝑖 = 𝑉𝑧𝑖 ,‬‬ ‫𝑖𝑥 𝑇 𝑉 = 𝑖𝑧‬
‫‪𝑥𝑖 = ∑𝑑𝑘=1 𝑧𝑖𝑘 𝑣𝑘 ,‬‬ ‫או ברישום לפי רכיבים‪𝑧𝑖 (𝑘) ≜ 𝑣𝑘𝑇 𝑥𝑖 = ∑𝑑𝑗=1 𝑥𝑖 (𝑗)𝑣𝑘 (𝑗) :‬‬
‫הווקטור 𝑖𝑧 הוא ייצוג של 𝑖𝑥 בעזרת הבסיס החדש‪.‬‬
‫המקדמים )𝑘( 𝑖𝑧 הם הרכיבים העיקריים של הוקטור 𝑖𝑥 ‪ ,‬כאשר )‪ 𝑧𝑖 (1‬הוא הרכיב העיקרי הראשון וכו‪.‬‬
‫ייצוג רכיבים עיקריים (‪ )PCA‬ממימד ‪ m‬מתקבל ע"י לקיחת ‪ m‬הרכיבים העיקריים הראשונים עבור כל נקודה 𝑖𝑥 והשמטת‬
‫)𝑚(‬
‫יתר הרכיבים‪ .‬כלומר ברישום מטריצי אם נסמן ] 𝑚𝑣 ‪ 𝑉𝑚 = [𝑣1 , … ,‬אז‪.𝑧𝑖 ≜ 𝑉𝑚𝑇 𝑥𝑖 :‬‬
‫אלגוריתם ה ‪ PCA‬להורדת המימד‬

‫‪1‬‬
‫‪ .0‬מרכוז אוסף וקטורי העמודה 𝑛𝑥 ‪ 𝑥1 , … ,‬כך ש 𝑖𝑥 ‪𝑥𝑖 → 𝑥𝑖 − 𝑥̅ = 𝑥𝑖 − 𝑛 ∑𝑛𝑖=1‬‬
‫‪1‬‬
‫‪ .1‬חישוב ‪( m‬מימד רצוי) הוקטורים העצמיים הראשונים של מטריצת שונות המדגם 𝑇𝑖𝑥 𝑖𝑥 ‪𝑃𝑛 = ∑𝑛𝑖=1‬‬
‫𝑛‬
‫𝑇‪𝑣1‬‬
‫)𝑚(‬
‫𝑖𝑧‬ ‫‪= [ ⋮ ],‬‬ ‫𝑛 ‪𝑥𝑖 ≡ 𝑉𝑚𝑇 𝑥𝑖 , 𝑖 = 1, … ,‬‬ ‫‪ .3‬חישוב וקטורי הרכיבים העיקריים במימד ‪:m‬‬
‫𝑇‬
‫𝑚𝑣‬
‫אינטואיציה גיאומטרית‪ PCA :‬מתקבל על ידי התאמת אליפסואיד במימד ‪d‬‬

‫סביב הדוגמאות‪ ,‬כאשר הכיוונים העיקריים הם כיווני הצירים הראשיים של‬
‫האליפסואיד (המאונכים זה לזה)‪ ,‬בסדר יורד של אורכם‪ .‬הרכיבים הראשיים‬
‫מתקבלים כהטלת הנקודות על צירים אלה‪ .‬למשל‪ ,‬בציור‪ ,‬אם ‪ , m=1‬עבור כל‬
‫נקודה 𝑖𝑥 נשמור רק את )ד‪ 𝑧𝑖 (1‬ההטלה של 𝑖𝑥 על הכיוון העיקרי הראשון ‪.𝑣1‬‬
‫כך נוריד את המימדיות מ‪ 1-‬ל‪.0-‬‬
‫שחזור לינארי עם שגיאה מינימלית‬

‫תחילה נניח שהנתונים ממורכזים כך ש ‪ .𝑥̅ = 0‬עבור 𝑑 < 𝑚‪ ,‬תהיינה 𝑚 𝑥 𝑑‪ 𝐴 ∈ ℝ𝑚 𝑥 𝑑 , 𝐵 ∈ ℝ‬מטריצת הפחתת מימד(‪)A‬‬
‫ומטריצת שחזור (‪ .)B‬נגדיר‪:‬‬
‫‪𝑢𝑖 = 𝐴𝑥𝑖 ∈ ℝ𝑚 ,‬‬ ‫𝑑‪𝑥̂𝑖 = 𝐵𝑢𝑖 ∈ ℝ‬‬
‫𝑖𝑥)𝐴𝐵 ‪.𝑒𝑖 = 𝑥𝑖 − 𝑥̂𝑖 = (𝐼 −‬‬ ‫שגיאת השחזור של ‪ x‬הינה‬
‫= )̂𝑥(𝐸‬ ‫‪∑𝑛𝑖=1‖𝑒𝑖 ‖2‬‬ ‫שגיאת השחזור תוגדר כסכום הנורמות הריבועיות של השגיאה‪:‬‬
‫הערך המינימלי האפשרי של שגיאת השחזור הריבועית מתקבל עבור‪:‬‬
‫=𝐴‬ ‫‪𝑉𝑚𝑇 ,‬‬ ‫] 𝑚𝑣 ‪𝐵 = 𝑉𝑚 ≡ [𝑣1 , … ,‬‬
‫‪03‬‬
‫)‪(m‬‬
‫‪.z i‬‬ ‫והווקטור ‪ ui‬כולל את ‪ m‬הרכיכים העיקריים הראשונים ושווה ל‬ ‫𝑖𝑥 𝑇𝑚𝑉 𝑚𝑉 = 𝑖̂𝑥‬ ‫כלומר‬
‫בנוסף הערך המינימלי של שגיאת השחזור הינו 𝑑𝜆 ‪.𝐸𝑚𝑖𝑛 = 𝜆𝑚+1 + ⋯ +‬‬
‫אינטואיציה גיאומטרית‪ :‬הקווים בין הנק' לכיוון העיקרי הם וקטורי שגיאת השחזור‬
‫𝑖𝑒‪ .‬שגיאת השחזור הריבועית היא סכום הנורמות הריבועיות שלהם – כלומר סכום‬
‫המרחקים בריבוע של הנקודות מכיוון ההטלה‪ .‬מהציור קל לראות שבחירה טובה של‬
‫הכיוון היא בכיוון העיקרי‪ ,‬בו השונות בנתונים היא מקסימלית‪.‬‬
‫תכונת השונות המירבית‬

‫עבור אוסף כלשהו של וקטורים ‪ qi‬נגדיר את שונות המדגם כממוצע ריבועי המרחקים מהערך ממוצע‪:‬‬
‫‪1‬‬
‫𝑛‬ ‫𝑇‪𝑢1‬‬
‫)𝑚(‬
‫‪𝑉𝑎𝑟(𝑞1 , … , 𝑞𝑛 ) = ∑‖𝑞𝑖 − 𝑞̅ ‖2 ,‬‬ ‫𝑖𝑧‬ ‫𝑇‬
‫𝑚𝑈 ≜ 𝑖𝑥 ‪= [ ⋮ ] ,‬‬ ‫𝑖𝑥‬
‫𝑛‬ ‫𝑇‬
‫‪𝑖=1‬‬ ‫𝑚𝑢‬
‫שונות המדגם של הווקטורים ‪ zi‬היא מקסימלית כאשר כיווני ההטלה הינם ‪ m‬הכיוונים העיקריים‪:‬‬
‫𝑚𝑣 = 𝑚𝑢 … ‪𝑢1 = 𝑣1 ,‬‬
‫)𝑚(‬ ‫)𝑚(‬
‫‪𝑉𝑎𝑟 (𝑧1‬‬ ‫𝑚𝜆 ‪, … , 𝑧𝑛 ) = 𝜆1 + ⋯ +‬‬
‫)‪(1‬‬
‫𝑖𝑧 = 𝑖𝑧‪ .‬נניח כי הנתונים ממורכזים לכן ‪.𝑧̅ = 0‬‬ ‫הוכחה‪ :‬עבור ‪ ,m=1‬וקטור יחידה כלשהו ‪ u‬נסמן 𝑖𝑥 𝑇𝑢 =‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫𝑢 𝑛𝑃 𝑇𝑢 = 𝑢 𝑇𝑖𝑥 𝑖𝑥 𝑇𝑢 ∑ = 𝑇𝑖𝑧 𝑖𝑧 ∑ = ‪𝑉𝑎𝑟(𝑧1 , … , 𝑧𝑛 ) = ∑(𝑧𝑖 )2‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫‪max 𝑢𝑇 𝑃𝑛 𝑢 = max (𝑉𝑢)𝑇 Λ(𝑉𝑢) = max 𝑧 𝑇 Λ𝑧 = 𝜆𝑀𝑎𝑥 (𝑃𝑛 ) = 𝜆1‬‬

‫‪||𝑢||=1‬‬ ‫‪||𝑢||=1‬‬ ‫‪||𝑧||=1‬‬
‫כאשר מקסימום זה מתקבל עבור הווקטור העצמי המתאים ‪.𝑢 = 𝑣1‬‬

‫𝑚𝜆 ‪𝜆1 +⋯+‬‬
‫≜ 𝑚𝑔‪ .‬ככל שיחס זה קרוב ל‪ ,0‬אנו מתקראים לשונות הסדרה המקורית‪.‬‬ ‫𝑑𝜆‪𝜆1 +⋯+‬‬
‫יחס השונות מוגדר כך‬
‫בחירת המימד ‪m‬‬

‫) 𝑛𝑖𝑚𝐸(‬ ‫𝑛𝑖𝑚𝐸‬
‫= 𝑚𝑔 ‪( 1 −‬כאן ) ̅𝑥(𝐸 זו שגיאת המשחזר הטריוויאלי)‪.‬‬ ‫=‬ ‫מתקיים הקשר‬
‫) 𝑛𝑥‪𝑉𝑎𝑟(𝑥1 ,…,‬‬ ‫) ̅𝑥(𝐸‬
‫זוהי שגיאת השחזור היחסית ‪ :‬היחס בין שגיאת השחזור של ה‪ PCA‬ביחס לשונות המדגם המקורית‪ .‬לכן נרצה שיחס זה‬
‫יהיה קרוב ל‪ 0‬ככל היותר‪.‬‬
‫לדוגמא‪ ,‬נרצה להוריד את ממד הדוגמאות ל ‪ m‬כך ששגיאות השחזור הממוצעת במובן של שגיאה ריבועית תהיה לכל היותר‬
‫𝜀 ‪ .‬המספר המינימלי של ווקטורים ‪ M‬הוא ‪:‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑑‬
‫‪1‬‬ ‫‪1‬‬
‫= 𝑖𝑧‬ ‫𝑖𝑥 𝑇𝑀𝑉‬ ‫= ‪⟹ ℒ = ∑‖𝑥𝑖 − 𝑉𝑀 𝑧𝑖 ‖2 ⟹ ∑‖𝑥𝑖 − 𝑉𝑀 𝑧𝑖 ‖2‬‬ ‫𝜀 ≤ 𝑚𝜆 ∑‬
‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬ ‫‪𝑚=𝑀+1‬‬
‫‪04‬‬
‫אשכול ‪Clustering‬‬
‫חלוקת אוסף נתונים לתת קבוצות‪ ,‬כך שלחברים בכל תת קבוצה יש קשר‪.‬‬
‫מדדי קרבה וחלוקה‬

‫‪2‬‬
‫‖ 𝑗𝑥 ‪.𝑑(𝑥𝑖 , 𝑥𝑗 ) = ‖𝑥𝑖 −‬‬ ‫קיים מדד מרחק כלשהו בין פריטים‪ ,‬מדד נפוץ עבורינו יהיה המרחק הריבועי‪:‬‬
‫אנחנו רוצים לחלק את הנתונים ל‪ K -‬קבוצות או מחלקות‪ .‬מדד מרחק סביר עבור קבוצת פריטים הוא סכום המרחקים בין‬
‫האיברים בקבוצה‪ ,‬מנורמל במספר האיברים בקבוצה‪:‬‬
‫‪1‬‬
‫= )𝐶( 𝑘𝑊‬ ‫∑‬ ‫) 𝑗𝑥 ‪𝑑(𝑥𝑖 ,‬‬
‫𝑘𝑛‪2‬‬
‫𝑘=)𝑗(𝐶=)𝑖(𝐶‪𝑖,𝑗:‬‬
‫𝐾∑ = )𝐶(𝑊‬
‫)𝐶( 𝑘𝑊 ‪𝑘=1‬‬ ‫אם נסכם על כל המחלקות נקבל את ממד המרחק הכולל עבור שיוך נתון ‪:C‬‬
‫נרצה למצוא שיוך ‪ C‬אשר מביא למינימום את הביטוי הזה‪ .‬אין אלגוריתם יעיל לפתרון זה‪ ,‬אי אפשר לבדוק את כל החלוקות‬
‫האפשריות כיוון שזה מעריכי בגודל הקלט‪.‬‬
‫אשכול צובר‬
‫בונים את המחלקות בהדרגה (‪ ,)bottom up‬כאשר בתחילה כל פריט נמצא במחלקה נפרדת משלו‪ .‬בכל שלב מאחדים שתי‬
‫מחלקות ‪ ,‬עד שכל הפריטים אוחדו למחלקה אחת‪ .‬הקבוצות המאוחדות בכל שלב הן השתיים הקרובות ביותר‪ .‬יש מספר‬
‫אפשרויות לכך‪ ,‬כמו מרחק ממוצע‪ ,‬השכן הקרוב‪ ,‬השכן הרחוק וכדומה‪.‬‬
‫אלגוריתם ‪K-means Clustering‬‬

‫אלגוריתם נפוץ במיוחד המשתמש במדד המרחק הריבועי‪.‬‬
‫נגדיר‪ 𝐺𝑖 :‬אוסף האינדקסים של האשכול ה ‪ |𝐺𝑖 | , i‬מס' האיברים באשכול‪ {𝐺𝑖 } ,‬חלוקה מסויימת לאשכולות‪.‬‬
‫בנוסף נגדיר את 𝑘𝜇 כמרכז המסה של האשכול‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫≜ )𝐶( 𝑘𝑊‬ ‫∑‬ ‫) 𝑗𝑥 ‪𝑑(𝑥𝑖 ,‬‬ ‫‪= ∑𝑥𝑖∈𝐺𝑘‖𝑥𝑖 − 𝜇𝑘 ‖2 ,‬‬ ‫= 𝑘𝜇‬ ‫∑‬ ‫𝑥‬ ‫מתקיים‪:‬‬
‫𝑘𝐺∈ 𝑗𝑥‪2|𝐺𝑖 | 𝑥𝑖 ,‬‬ ‫𝑖 𝑘𝐺∈ 𝑖𝑥 | 𝑖𝐺|‬
‫זהו אלגוריתם איטרטיבי המביא למינימום את המרחק הכולל‪:‬‬
‫𝐾‬ ‫𝐾‬
‫‪𝑊(𝐶) = ∑ 𝑊𝑘 (𝐶) = ∑ ∑ ‖𝑥𝑖 − 𝜇𝑘 ‖2‬‬

‫‪𝑘=1‬‬ ‫𝑘𝐺∈ 𝑖𝑥 ‪𝑘=1‬‬
‫האלגוריתם מתייחס לממוצעים כמשתנים נפרדים‪ ,‬ומבצע צעדים של‪:‬‬
‫‪ .0‬מינימיליזציה על פני השיוך ל 𝑘𝐺 (כאשר הממוצעים קבועים) – שלב ראשון באלגוריתם‪.‬‬
‫‪ .1‬מינימליזציה על פני הממוצעים (כאשר 𝑘𝐺 קבוע) – שלב שני באלגוריתם‪.‬‬
‫‪ .3‬האלגוריתם מבטיח שפונקציית המטרה תקטן בכל צעד‪.‬‬
‫תאור האלגוריתם‪:‬‬
‫איתחול‪ :‬בחירת מרכזים 𝑑‪𝑘 = 1, … , 𝐾, 𝜇𝑘 ∈ ℝ‬‬ ‫‪‬‬
‫חזרו על הצעדים הבאים עד להתכנסות (אין עוד שינוי באף שיוך)‪:‬‬ ‫‪‬‬
‫‪𝐺𝑘 = arg min ‖𝑥𝑖 − 𝜇𝑘 ‖2‬‬ ‫‪ ‬חישוב השיוך 𝑖∀ ‪ 𝑥𝑖 ∈ 𝐺𝑘 ,‬בהתאם לממוצע הקרוב ביותר‪:‬‬
‫𝐾…‪𝑘=1,‬‬
‫‪1‬‬
‫= 𝑘𝜇‬ ‫∑‬ ‫𝑥‬
‫𝑖 𝑘𝐺∈ 𝑖𝑥 | 𝑖𝐺|‬
‫חישוב הממוצעים בכל מחלקה לפי השיוך הקיים‪:‬‬ ‫‪‬‬
‫התכנסות‪ :‬ניתן לראות כי כל שלב באלגוריתם שבו מתבצע שינוי מקטין את מדד המרחק )𝐶(𝑊‪ ,‬ולפיכך מובטחת התכנסות‬
‫במספר צעדים סופי‪ .‬עם זאת‪ ,‬ההתכנסות תהיה למינימום מקומי ולא גלובאלי‪.‬‬
‫)‪𝐸(𝐾+1‬‬
‫‪1−‬‬ ‫)𝐾(𝐸‬
‫שינוי יחסי קטן ב‪< 𝜖 :K‬‬ ‫תנאי אפשרי לבחירת ‪: K‬‬
‫𝐾‬ ‫𝐾‬
‫‪1‬‬
‫‪𝑀𝑆𝐸 = ∑ ∑ ‖(𝑥𝑗 − 𝜇𝑖 ‖2‬‬ ‫‪, 𝐸(𝐾) = √ ∑ ∑ ‖(𝑥𝑗 − 𝜇𝑖 ‖2‬‬
‫𝑁‬
‫)𝑡( 𝐺∈ 𝑥 ‪𝑖=1‬‬ ‫)𝑡(‬ ‫𝐺∈ 𝑥 ‪𝑖=1‬‬
‫𝑗‬ ‫𝑖‬ ‫𝑗‬ ‫𝑖‬
‫‪05‬‬
‫מבוא ללמידה מודרכת‬

‫בעיית הלמידה המודרכת‪ ,‬סיווג ורגרסיה‬
‫כאשר נתון אוסף דוגמאות מתוייגות‪ ,‬המטרה היא ללמוד מיפוי (פונקציה‪ ,‬אלגוריתם) אשר מאפשר חישוב פלט מתאים לכל‬
‫קלט אפשרי‪ .‬למיפוי נקרא פונקציית החיזוי או החזאי‪.‬‬
‫נבחין בין שני סוגים בסיסיים של בעיות חיזוי‪ ,‬לפי אופי משתנה הפלט‪:‬‬
‫א‪ .‬בעיית רגרסיה – הפלט ‪ y‬הינו מספר ממשי‪𝑦 ∈ 𝒴 ∈ ℝ :‬‬
‫ב‪ .‬בעיית סיווג (קלסיפיקציה) – הפלט הינו משתנה קטגורי בעל מספר סופי של ערכים‪ ,‬נקראים גם מחלקות‪.‬‬
‫הקלט הוא משתנה כללי‪ ,‬במקרה הפשוט ביותר הוא וקטור ממשי בעל מימד קבוע‪ .‬במקרה זה פריט הקלט ‪ xI‬הוא וקטור‬
‫עמודה עם רכיבים סקלריים שיסומנו )𝑗( 𝑖𝑥‪ ,‬כאשר עבור מימד ‪ d‬ומס' רכיבים ‪𝑖 ∈ 1, … , 𝑛 , 𝑗 ∈ 1, … , 𝑑 n‬‬
‫חיזוי לעומת קירוב – בבעיית הקירוב‪ ,‬אנו מעוניים למצוא פונקציה 𝑓 אשר מתארת את הקשר בין הקלט לפלט על גבי קבוצת‬
‫נקודות נתונה‪ .𝑦𝑖 ≈ 𝑓(𝑥𝑖 ), 𝑖 = 1, … , 𝑛 :‬זוהי בעיה חשובה בהקשרים של ניתוח והבנת מידע‪.‬‬
‫בבעיית החיזוי‪ ,‬אנו מעוניינים למצוא פלט מתאים ‪ y‬עבור קלט חדש ‪ ,x‬כלומר כזה שלא נמצא בסדרת הדוגמאות‪ .‬זוהי לפיכך‬
‫בעיה של הסקה אינדוקטיבית‪ :‬הסקה מהפרט אל הכלל‪.‬‬
‫מובן שנדרש להגדיר קריטריון או מודל כלשהו שלפיו ניתן לשפוט האם החזאי הנלמד 𝑓 אכן מקיים את הנדרש‪.‬‬
‫סוגי חזאים‬
‫פונקציית החיזוי המבוקשת‪ ,‬נקראת גם מחלקת ההשערות‪ ,‬או המודל‪ .‬לדוגמא‪ ,‬חזאי לינארי‪ ,SVM ,‬רשת ניורונים‪ ,‬עץ‬
‫החלטה‪ ,‬חזאי מסוג ‪.k-NN‬‬
‫מרבית המודלים בהם נתעניין הינם מהסוג של מודל פרמטרי }𝛩 ∈ 𝜃 ‪ , 𝐹 = {𝑓𝜃 :‬פונקציות החיזוי תלויות בוקטור של‬
‫פרמטרים ממשיים בעלי מימד נתון 𝑇) 𝑚𝜃 ‪ .𝜃 = (𝜃1 , … ,‬הלמידה מסתכמת בכוונון וקטור הפרמטרים 𝜃‪.‬‬
‫מודל לא פרמטרי כאשר מספר הפרמטרים של המודל אינו מוגבל‪ .‬לדוגמא‪ ,‬אלגוריתם השכן הקרוב ביותר‪ ,‬בו אנחנו קודם‬
‫מוצאים את הדוגמא 𝑖𝑥 שהכי קרובה ל 𝑥 ואז החזאי ייתן את התיוג של דוגמא זו‪ .‬לדוגמא‪ ,‬אלגוריתם 𝑁𝑁 ‪.𝑘 −‬‬
‫מודל למידה סטטיסטי ומדדי טיב‬

‫נגדיר מרחק קלט 𝒳 ומרחב פלט (תגיות) 𝒴‪ .‬פילוג הסתברות 𝑥𝑝 על מרחב הקלט יהיה "פילוג האמת" של הקלט‪.‬‬
‫נגדיר פונקציית חיזוי 𝒴 → 𝒳 ∶ ‪ 𝑓0‬אשר מגדירה את התווית הנכונה לכל קלט‪ .‬נקרא לה פונקציית המטרה ואותה נלמד‪.‬‬
‫פילוג האמת ופונקציית החיזוי הרצויה אינם ידועים לאלגוריתם הלמידה‪ .‬לפיכך‪ ,‬בחירת החזאי מסתמכת על למידה בעזרת‬
‫סדרת דוגמאות מתויגות 𝐷 כאשר אנו מניחים כי‪:‬‬
‫סדרת הקלט ‪ {𝑥𝑖 }𝑛𝑖=1‬מתקבלת על ידי דגימות בלתי תלויות מתוך פילוג האמת‪.‬‬ ‫‪‬‬
‫התגיות 𝑖𝑦 הן הנכונות‪.𝑦𝑖 = 𝑓0 (𝑥𝑖 ) :‬‬ ‫‪‬‬
‫לצורך הגדרת מדדי ביצועים‪ ,‬נגדיר פונקציית הפסד על מרחב הפלט‪ ,‬אשר מציינת את המחיר של שגיאת חיזוי‪.‬‬
‫‪ .ℓ(ŷ, y) ≥ 0,‬למשל הפסד ריבועי או הפסד ‪.1-0‬‬ ‫פונקציה זו נדרשת לקיים ‪ℓ(𝑦, y) = 0‬‬
‫נגדיר שני סוגים של מדדי ביצועים‪:‬‬
‫הסיכון – המחיר האמיתי‬

‫)))𝑥( ‪ . 𝐿(𝑓) = 𝐸𝑋~𝑝𝑋 (ℓ(𝑓(𝑥), 𝑓0‬כלומר מחשבים את‬
‫תוחלת פונקציית ההפסד עבור חזאי נתון ביחס לחזאי האמת‪,‬‬
‫כאשר פילוג הקלט 𝑥 נלקח לפי פילוג האמת‪ .‬זה הגודל אותו אנו‬
‫שואפים למזער‪ .𝑓 ∗ = arg min 𝐿(𝑓) .‬זה יהיה החזאי המיטבי‬
‫𝐹∈𝑓‬
‫מתוך מחלקת ההשערות 𝐹‪ .‬כמובן שלא ניתן לעשות זאת במדויק כל עוד ‪ 𝑝𝑥 , 𝑓0‬אינם ידועים‪.‬‬
‫‪06‬‬
‫הסיכון האמפירי‬
‫= )𝑓( 𝑛̂𝐿‬ ‫מחושב על גבי סדרת דוגמאות נתונה‪ .‬זהו ההפסד הממוצע על פני דוגמאות אלו‬
‫‪1‬‬
‫) 𝑖𝑦 ‪.𝑛 ∑𝑛𝑖=1 ℓ(𝑓(𝑥𝑖 ),‬‬
‫הסיכון האמפירי ניתן לחישוב מפורש‪ ,‬בניגוד למחיר האמיתי‪ ,‬בעזרת סדרת לימוד‪ ,‬עבור כל חזאי‪ ,‬וניתן לראות בו קירוב‬
‫לסיכון האמיתי‪ .‬מזעור הסיכון האמפירי ‪ , ERM - Empirical Risk Minimization‬הוא החזאי שמביא למינימום את‬
‫)𝑓( 𝑛̂𝐿 ‪ , 𝑓̂𝐸𝑅𝑀 = arg min‬יכול לגרום להתאמת יתר‪.‬‬ ‫הסיכון ביחס לדוגמאות‬
‫𝐹∈𝑓‬
‫בעיות יסוד בלמידה מודרכת‬

‫א‪ .‬בחירת מודל החזאי – בחירת סוג המודל תעשה על סמך ניסיון קודם‪ ,‬השוואת מודלים‪ ,‬השוואת ביצועים‪ ,‬נוחות וכו'‪.‬‬
‫ב‪ .‬בחירת סדר המודל – מספר הפרמטרים במודל פרמטרי למשל‪ .‬קובע כעיקרון את גודל קבוצת הפונקציות הכלולות‬
‫במודל‪ .‬ככל סדר המודל גבוה יותר‪ ,‬כך קבוצה זו עשירה יותר‪ ,‬מכירה פונקציות מסובכות יותר‪ .‬הניגוד‪:‬‬
‫‪ ‬מודל פשוט מדי לא יאפשר תיאור מדויק של הקשר האמיתי בין הקלט לפלט‪.‬‬
‫‪ ‬מודל מסובך בעל מספר גדול של דרגות חופש‪ ,‬לכן ידרוש מספר רב של דוגמאות על מנת לבצע הכללה סבירה‪.‬‬
‫פירוק השגיאה‪ :‬כדי להבין את הניגוד נבצע את הפרוק הבא של סיכון החזאי הנלמד‪:‬‬
‫)𝐹 ‪𝐿(𝑓̂) = 𝐸𝑎𝑝𝑝 (𝐹) + 𝐸𝑒𝑠𝑡 (𝑓̂,‬‬
‫)𝑓(𝐿 ‪𝑤ℎ𝑒𝑟𝑒 𝐸𝑎𝑝𝑝 (𝐹) = min 𝐿(𝑓) ≜ 𝐿(𝑓 ∗ ) 𝑤𝑖𝑡ℎ 𝑓 ∗ ≜ arg min‬‬
‫𝐹∈𝑓‬ ‫𝐹∈𝑓‬
‫) ∗ 𝑓(𝐿 ‪𝐸𝑒𝑠𝑡 (𝑓̂, 𝐹) = 𝐿(𝑓̂) −‬‬
‫)𝐹( 𝑝𝑝𝑎𝐸 שגיאת הקירוב‪ .approximation error ,‬מציינת סיכון מינימלי שחזאי כלשהו מתוך המודל יכול להשיג‪ .‬גודל זה‬
‫הינו דטרמיניסטי ואינו תלוי בסדרת הלימוד‪.‬‬
‫)𝐹 ‪ 𝐸𝑒𝑠𝑡 (𝑓̂,‬שגיאת השיערוך‪ .estimation error ,‬הפרש הסיכון עבור החזאי האופטימלי מתוך המודל – דהיינו ∗ ‪ ,f‬לבין‬
‫החזאי שנבחר על ידי אלגוריתם הלימוד‪.‬‬
‫אינטואיציה גיאומטרית‬
‫בהינתן פונקציית מטרה ‪ ,𝑓0‬משפחת הפונקציות ‪ F‬וחזאי נלמד ̂𝑓 ‪ ,‬הפונקציה‬
‫∗ 𝑓 היא הופנקציה שהכי דומה לפונקציית המטרה בתוך ‪ , F‬שגיאת הקירוב‬
‫היא השגיאה בין ∗ 𝑓 ל ‪ 𝑓0‬ושגיאת השיערוך היא השגיאה בין ∗ 𝑓 ל ̂𝑓‪.‬‬
‫התלות של הסיכון ומרכיביו בסיבוכיות המודל הינה שככל שסדר המודל נמוך‬
‫יותר‪ ,‬כך שגיאת הקירוב גבוהה יותר‪ ,‬ושגיאת השיערוך נמוכה יותר‪ .‬ככל‬
‫שמעלים את סדר המודל‪ ,‬שגיאת הקירוב יורדת ושגיאת השיערוך עולה‪ .‬סדר‬
‫המודל המינימלי הוא בנקודת המינימום של הסיכון הכולל (הסכום שלהם)‪.‬‬
‫דרך נוספת להסתכל על הניגוד בבחירת סדר המודל הינה בעזרת ההשפעה‬
‫הסטטיסטית המכונה ‪.Bias-Variance Tradeoff‬‬
‫במקרה זה אנחנו מניחים שה ‪ Data‬נוצר מתוך מודל סטטיסטי מהצורה‬
‫הבאה 𝜖 ‪ 𝑌 = 𝑓(𝑋) +‬כאשר 𝜖 הוא רעש אקראי במדידות שאינו תלוי‬
‫ב ‪ Y,X‬בעלת תוחלת ‪.1‬‬
‫ה ‪ tradeoff‬מתייחס לשגיאה הסטטיסטית שנובעת מפירוק ה ‪ . MSE‬גודל זה‬
‫מתאר את תוחלת השגיאה של החזאי הנלמד ביחס לערכים האמיתיים שאותם הוא אמור‬
‫‪2‬‬
‫לחזות ] ))𝑋(̂𝑓 ‪. 𝑀𝑆𝐸 = 𝔼 [(𝑌 −‬‬
‫‪2‬‬
‫)𝜖(𝑟𝑎𝑉 ‪.𝑀𝑆𝐸 = (𝐵𝑖𝑎𝑠 (𝑓̂(𝑥; 𝐷))) + 𝑉𝑎𝑟[𝑓̂(𝑥; 𝐷)] +‬‬ ‫מתקיים כי‬
‫השגיאה מתפרקת לשלושה איברים‪ .‬היסט גבוה מתקבל עבור מודל פשוט מדי‪.‬‬
‫שונות גבוהה תתקבל בעקבות מודל מסובך מדי‪ .‬רעש גבוה במדידות זו שגיאה מובנית ואין‬
‫איך להקטין אותה‪.‬‬
‫‪07‬‬
‫התאמת יתר ‪ ,over fitting -‬קורית במודלים בעלי סדר גבוה‪ .‬התאמה "גבוהה מדי" של החזאי הנלמד לסדרת הלימוד‬ ‫ג‪.‬‬
‫עלולה להוביל לתוצאה גרועה עבור דוגמאות חדשות‪ .‬כלומר הקטנת הסיכון האמפירי לאו דוקא תוביל להקטנת הסיכון‬
‫האמיתי‪ .‬תופעה זו נעוצה בשגיאת שערוך גבוהה המתקבלת עבור מודלים בעלי סדר גבוה‪.‬‬
‫ד‪ .‬רגולריזציה – נשתמש במודל בעל סדר גבוה אך נגביל את הסיבוכיות האפקטיבית של החזאי הנלמד‪ ,‬על ידי שינוי‬
‫מתאים של אלגוריתם הלמידה‪ .‬למשל‪ ,‬הוספת "קנס" על גודל הפרמטרים הנלמדים‪.‬‬
‫הערכת ביצועים באמצעות קבוצות בוחן‬

‫נרצה להערך ביצועי מודל על מנת שנוכל לבחור מודל מבין מספר אפשרויות‪ ,‬לבחור סדר המודל ולהימנע מ‪.over fitting‬‬
‫נעריך את היכון על סדרת בוחן‪ .‬נחלק את סדרת הדוגמאות הקימת למספר תת‪-‬קבוצות‪ ,‬כאשר חלקן ישמשו לבחירת וכיוונון‬
‫המודל ולבדיקת ביצועים סופית‪ .‬חלוקה מקובלת‪:‬‬
‫סדרת האימון ‪ – training set‬משמשת לכיוונון הפרמטרים במודל נתון‪.‬‬ ‫‪‬‬
‫סדרת האימות ‪ – validation set‬משמשת להשוואת ביצועי מודלים שונים‪ ,‬כיוונון סדר המודל‪ ,‬בחירת פרמטר‬ ‫‪‬‬
‫רגולריזציה וכו'‪.‬‬
‫סדרת הבוחן ‪ – test set‬משמשת להערכת ביצועים סופית‪.‬‬ ‫‪‬‬
‫יש להקפיד על הפרדה בין קבוצות אלו‪ .‬אסור "לזהם" את קבוצת הבוחן‪.‬‬
‫חלוקת הדוגמאות הקיימות לקבוצות שונות תתבצע באופן אקראי‪ .‬כלל אצבע לבחירת גודל הקבוצות הינו ‪( 61%‬אימון)‪,‬‬
‫‪( 11%‬אימות)‪( 11% ,‬בוחן)‪.‬‬
‫בהינתן מספר דוגמאות קטן‪ ,‬ניתן לוותר על סדרת האימות הנפרדת ולהשתמש באימות צולב ‪Cross Validation -‬‬
‫שיטה זו מאפשרת בחירת מודל ללא שימוש בסדרת אימות נפרדת‪ .‬פה סדרת האימון מחולקת באופן אקראי ל ‪ K‬קבוצות‬
‫זרות ושוות גודל‪ .‬עבור כל אחת מהקבוצות האלו מתבצע ההליך הבא‪:‬‬
‫‪ .0‬שלב הלימוד מתבצע על סט הדוגמאות הכולל‪ ,‬פרט לקבוצה ה ‪. k‬‬
‫‪ .1‬הסיכון האמפירי של החזאי שהתקבל מחושב על פני הקבוצה ה ‪. k‬‬
‫בסיום התהליך מחושב הסיכון הכולל בממוצע ‪ K‬מדדי הסיכון האמפירי שהתקבלו‪ .‬את המודל שנבחר (כולל סדר ומידת‬
‫רגולריזציה) נאמן בעזרת כל נקודות המידע‪ .‬בחירה אופיינית של ‪ K‬היא ‪ 5‬עד ‪.01‬‬
‫סיווג בעזרת אלגוריתם ‪(K Nearest Neighbors) K-NN‬‬

‫‪ .0‬מצא את ‪ K‬השכנים הקרובים ביותר לנקודה החדשה‪.‬‬
‫‪ .1‬מצא לאיזו קבוצה שייכים רוב השכנים‪ .‬הנקודה החדשה שייכת לקבוצה זו‪.‬‬
‫‪ .0‬במקרה של שוויון בשלב ‪ ,1‬השווה סכום מרחקים‪ .‬הנקודה החדשה שייכת לקבוצה בעלת הסכום המינימלי‪.‬‬
‫‪ .0‬במקרה של שוויון בשלב ‪ , 1.0‬בחר אקראית‪.‬‬
‫שיפור ביצועים‬
‫ניתן לשנות את ההיפר פרמטרים‪ ,‬כלומר את מספר השכנים ‪ . K‬כוונון ע"י‪ ,Brute force :‬ניסוי וטעיה‪.Cross-Validation ,‬‬
‫‪Problem Definition:‬‬
‫‪a. the Underlying‬‬
‫‪System‬‬ ‫‪Model & Learning‬‬ ‫‪Hyper Parameters‬‬ ‫‪Performance‬‬
‫‪Data Collection‬‬ ‫‪Data Inspection‬‬ ‫‪Learning‬‬ ‫‪Validation‬‬
‫‪b. The task & goal‬‬ ‫‪Method Selection‬‬ ‫‪selection‬‬ ‫‪Evaluation‬‬
‫‪c. the Evaluation‬‬
‫‪Method‬‬
‫‪08‬‬
‫דוגמא – סיווג בעזרת ‪Ordinal Regression‬‬
‫נניח כי מתקיים 𝜀 ‪ ,𝑦 ∗ = 𝑤 𝑇 𝑥 +‬כאשר 𝜖 מפולג נורמלי תקני‪ .‬בחירת המחלקה תעשה באופן הבא‪:‬‬
‫𝑥‬‫‪2‬‬ ‫𝑣‬‫‪2‬‬
‫‪1‬‬ ‫𝑣‬ ‫‪−‬‬ ‫)𝑣(‪𝑑Φ‬‬ ‫‪1‬‬ ‫‪−‬‬
‫= )𝑣(‪.𝑃(𝑦 ≤ 𝑖|𝑥) = Φ(𝜃𝑖 − 𝑤 𝑇 𝑥) , Φ‬‬ ‫∫‬ ‫𝑒‬ ‫‪2‬‬ ‫‪𝑑𝑥 ,‬‬ ‫= )𝑣(𝜙 =‬ ‫𝑒‬ ‫‪2‬‬ ‫מודל‬
‫∞‪√2𝜋 −‬‬ ‫𝑣𝑑‬ ‫𝜋‪√2‬‬
‫)𝑥 𝑇 𝑤 ‪𝑝(𝑦 = 𝑘|𝑥) = 𝑃(𝜃𝑘−1 < 𝑦 ∗ ≤ 𝜃𝑘 |𝑥) = Φ(𝜃𝑘 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘−1 −‬‬
‫)𝐷|𝜃 ‪log 𝑙𝑖𝑘𝑒𝑙𝑦ℎ𝑜𝑜𝑑 ∶ ℓ(𝑤,‬‬

‫𝑛‬ ‫𝐾‬
‫))𝑥 𝑇 𝑤 ‪= ∑ ∑ 𝕀[𝑦𝑖 = 𝑘]Log (Φ(θyi − 𝑤 𝑇 𝑥𝑖 ) − Φ(𝜃𝑦𝑖−1 −‬‬

‫‪𝑖=1 𝑘=1‬‬
‫𝐾‬
‫)) 𝑖𝑥 𝑇 𝑤 ‪(𝜙(𝜃𝑘−1 − 𝑤 𝑇 𝑥𝑖 ) − 𝜙(𝜃𝑘 −‬‬
‫]𝑘 = 𝑖𝑦[𝕀 ∑ = ) 𝑖𝑦 ‪∇𝑤 log 𝐿(𝑤, 𝜃|𝑥𝑖 ,‬‬
‫)𝑥 𝑇 𝑤 ‪Φ(𝜃𝑘 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘−1 −‬‬
‫‪𝑘=1‬‬
‫) 𝑖𝑥 𝑇 𝑤 ‪𝜙(𝜃𝑘 −‬‬ ‫) 𝑖𝑥 𝑇 𝑤 ‪𝜙(𝜃𝑘 −‬‬

‫⋅ ]𝑘 = 𝑖𝑦[𝕀 = 𝑘𝜃∇‬ ‫‪−‬‬ ‫𝑦[𝕀‬‫𝑖‬ ‫=‬ ‫𝑘‬ ‫‪+‬‬ ‫]‪1‬‬
‫)𝑥 𝑇 𝑤 ‪Φ(𝜃𝑘 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘−1 −‬‬ ‫)𝑥 𝑇 𝑤 ‪Φ(𝜃𝑘+1 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘 −‬‬
‫‪1‬‬
‫‪min‬‬ ‫‪‖𝑤‖2 + 𝐶 ∑𝑀−1‬‬
‫בעיית ה ‪ Soft SVM‬השקולה‪𝑗=1 (∑𝑖:𝑦𝑖 =𝑗 𝜁𝑖 + ∑𝑖:𝑦𝑖 =𝑗 𝜉𝑖 ):‬‬
‫‪𝜉,𝜁,𝑤,𝑏 2‬‬
‫נדרוש אילוצים על כל משתנה עזר כרגיל‪ ,‬ואילוץ על הסידור ‪.𝜃𝑗−1 ≤ 𝜃𝑗 ∀𝑗 = 2, … , 𝑀 − 1‬‬
‫‪09‬‬
‫סיווג גנרטיבי‬
‫נבחין בין שתי גישות לבעיית הסיווג‪:‬‬
‫‪ .0‬גישה גנרטיבית – המידע משמש ללמידת הפילוג המשותף )𝑦 ‪ .𝑝̂𝑋,𝑌 (𝑥,‬פילוג זה נקרא מודל גנרטיבי עבור הדוגמאות‪,‬‬
‫מהמילה 𝑒𝑡𝑎𝑟𝑒𝑛𝑒𝑔 ‪ .‬זהו הפילוג אשר יצר את הדוגמאות הנתונות לנו‪ .‬מהפילוג המשותף נחשב את הפילוג המותנה‬
‫)𝑥|𝑦( )𝑋|𝑌( ̂𝑝 ממנו ייגזר החזאי 𝑓 ‪.‬‬
‫‪ .1‬גישה דיסקרימינטיבית (מבחינה) – בגישה זו נלמד ישירות מודל עבור המסווג )𝑥(𝑓 = 𝑦‪ .‬אין ניסיון ללמוד את פילוג‬
‫הקלט ‪.x‬‬
‫פילוג הקלט של המודל הגנרטיבי נלמד עבור כל מחלקה בנפרד‪ .‬לימוד פילוג הקלט הוא המשימה הקשה פה‪ ,‬אשר מבדילה בין‬
‫שתי הגישות‪.‬‬
‫בפרק זה נדבר על סיווג גנרטיבי בלבד‪ ,‬בשאר הקורס נתמקד בגישה הדיסקרימינטיבית‪.‬‬
‫פונקציות הפסד נפוצות‬
‫הפסד אפס‪-‬אחד (‪)zero-one loss‬‬ ‫‪‬‬

‫}𝑦 ≠ ̂𝑦{𝕀 = )𝑦 ‪ℓ(𝑦̂,‬‬
‫ההפסד הנפוץ בבעיות סיווג‪.‬‬
‫פונקציית הסיכון שלו נקראת 𝑒𝑡𝑎𝑟 𝑛𝑜𝑖𝑡𝑎𝑐𝑖𝑓𝑖𝑠𝑠𝑎𝑙𝑐𝑠𝑠𝑖𝑚‪.‬‬
‫החזאי האופטימלי תחת הפסד זה הוא‪:‬‬
‫)𝑥|𝑦(𝑝 𝑥𝑎𝑚 𝑔𝑟𝑎 = )𝑥(‪ℎ‬‬
‫𝑦‬
‫הפסד מרחק ריבועי (‪) l2 loss‬‬ ‫‪‬‬
‫‪ℓ(𝑦̂, 𝑦) = (𝑦̂ − 𝑦)2‬‬
‫ההפסד הנפוץ בבעיות רגרסיה‪.‬‬
‫פונקציית הסיכון שלו נקראית ‪MSE – Mean Square Error‬‬
‫החזאי האופטימלי תחת הפסד זה הינו משערך התוחלת המותנית‪. ℎ(𝑥) = 𝔼[𝑌|𝑥]:‬‬
‫סיווג בייסיאני אופטימלי‬

‫אנו מניחים כי נתון הפילוג המשותף )𝐶 ‪ 𝑝𝑋,𝑌 (𝑥,‬ולכן אין מדובר בלמידה‪ .‬אנו מקבלים קלט מסוים ‪ ,x‬ומעוניינים להעריך את‬
‫המחלקה ‪ C‬אליה שייך קלט זה‪ .‬הפילוג המשותף נתון בד"כ ע"י מרכיביו‪ ,‬הפילוגים )𝐶( 𝑌𝑝 ‪ .𝑝𝑋|𝑌 (𝑥|𝐶),‬נזכיר כי זו‬
‫פונקציית הסבירות מתורת השערוך‪ .‬גם באמצעות נוסחת בייס ניתן לחשב את ההסתברות המותנית‪.‬‬
‫)𝐶( 𝑌𝑝 )𝑐| 𝑥(𝑝‬ ‫)𝐶( 𝑌𝑝 )𝑐| 𝑥(𝑝‬
‫= )𝑥|𝐶( 𝑥|𝑦𝑝‬ ‫=‬
‫)𝑥( 𝑋𝑝‬ ‫)𝐶( 𝑌𝑝)𝐶|𝑥( )𝑌|𝑋(𝑝 𝑦∈𝐶∑‬
‫‪21‬‬
‫הסתברות שגיאה מינימלית‬

‫עבור מסווג )𝑥(𝑓 נגדיר את הסתברות השגיאה המותנית (ההסתברות לבחור פלט שגוי‪ ,‬בהינתן הקלט)‪:‬‬
‫)𝐶 ‪𝑃𝑒 (𝑓|𝑥) ≜ 𝑝𝑟𝑜𝑏(𝑓(𝑋) ≠ 𝑌|𝑋 = 𝑥) = ∑ 𝐼{𝑓(𝑥) ≠ 𝐶} 𝑝𝑋,𝑌 (𝑥,‬‬

‫𝑌∈𝐶‬
‫כלומר סוכמים פה את מספר הפעמים שהמסווג טעה‪ .‬הסתברות השגיאה הממוצעת‪ ,‬כלומר הסתברות לבחור פלט שגוי‪,‬‬
‫בממוצע על פני כל הפלטים‪𝑃𝑒 (𝑓) ≜ 𝑝𝑟𝑜𝑏(𝑓(𝑋) ≠ 𝑌) = ∑𝐶∈𝑌 ∫𝑥 𝕀{𝑓(𝑥) ≠ 𝐶}𝑝𝑋,𝑌 (𝑥, 𝐶)𝑑𝑥 :‬‬
‫משפט מסווג בייס מיטבי – המסווג אשר מביא למינימום את הסתברות השגיאה המותנית לכל קלט 𝑥 וכן את הסתברות‬
‫השגיאה הממוצעת הינו משערך ההסתברות בדיעבד המירבית ‪:MAP‬‬
‫)𝐶( 𝑌𝑝 ⋅ )𝐶|𝑥( 𝑌|𝑋𝑝 ‪𝑓 ∗ (𝑥) = 𝑓𝑀𝐴𝑃 (𝑥) ≜ arg max 𝑝𝑌|𝑋 (𝑌 = 𝐶|𝑥) = arg max‬‬
‫𝑌∈𝐶‬ ‫𝑌∈𝐶‬
‫משערך זה נקרא גם משערך בייס‪ .‬נשים לב שפה משערך בייס הוא של המחלקה (החלטת הסיווג) בהתבסס על הפילוגים‬
‫האמיתיים‪ ,‬בעוד שפרק עלש ערוך פרמטרים‪ ,‬השתמשנו בנוסחת בייס כדי למצוא את הפרמטרים של מודל לא ידוע בהינתן‬
‫מספר סופי של דוגמאות מהפילוג‪ .‬למרות שבשני מקרים השתמשנו בחוק בייס‪ ,‬המטרה היא שונה‪.‬‬
‫)𝑥| 𝑘𝐶( )𝑋|𝑌(𝑝} 𝑘𝐶 = )𝑥(𝑓{𝕀 ∑ ‪𝑃𝑒 (𝑓|𝑥) ≜ 𝑝𝑟𝑜𝑏(𝑓(𝑥) ≠ 𝑌|𝑋 = 𝑥) = 1 − 𝑝𝑟𝑜𝑏(𝑓(𝑥) = 𝑌|𝑋 = 𝑥) = 1 −‬‬
‫𝑘‬
‫מכאן שמזעור )𝑥|𝑓( 𝑒𝑃 שקול לבחירת )𝑥(𝑓 שמביאה למקסימום את הסכום האחרון‪ .‬כזכור‪ 𝑝(𝑌|𝑋) (𝐶𝑘 |𝑥) ,‬הוא גודל נתון‬
‫קבוע וידוע‪ .‬בנוסף‪ ,‬עבור כל קלט הפונקציה )𝑥(𝑓 בוחרת מחלקה אחת 𝑘𝐶‪ .‬לכן‪ ,‬ברור כי נדרש לבחור אתה מחלקה 𝑘𝐶‬
‫שעבורה )𝑋| 𝑘𝐶( )𝑋|𝑌(𝑝 מקסימלי‪ .‬אבל זו בדיוק הגדרת )𝑥( 𝑃𝐴𝑀𝑓‪.‬‬
‫בנוסף‪ ,‬הסתברות השגיאה הממוצעת היא 𝑥𝑑)𝑥( 𝑋𝑝)𝑥|𝑓( 𝑒𝑃 𝑋∫ = )𝑓( 𝑒𝑃 וראינו כי 𝑃𝐴𝑀𝑓 מביא למינימום את הסתברות‬
‫השגיאה לכל קלט בנרפד‪ ,‬ומכאן נובע מיידית שהוא מביא למינימום את האינטגרל האחרון‪.‬‬
‫שימוש ביחס הסבירות – נשווה בין שתי מחלקות‪ ,‬ולבחור את העדיפה לפי ) 𝑗𝐶( 𝑌𝑝) 𝑗𝐶|𝑥( 𝑌|𝑋𝑃 ? ) 𝑘𝐶( 𝑌𝑝) 𝑘𝐶|𝑥( 𝑌|𝑋𝑃‪.‬‬
‫תנאי זה בעצם מפשט לנו את בחירת ה 𝑥𝑎𝑚 ‪ arg‬הידוע משיערוכים – נבחן את ההסתברות לקבל קבוצה או מצב 𝐶 מסויים‪,‬‬
‫ובעזרתו נבחר כל פעם את ההסתברות הגדולה ביותר‪.‬‬
‫כך לדוגמא נוכל לדעת מה הם התנאים לקבל סיווג כלשהו רצוי‪ ,‬בהינתן החלטה ע"פ סיווג בייסיאני‪.‬‬
‫מסווג בייס במקרה הגאוסי‬

‫אם פילוג הקלט בכל מחלקה הינו גאוסי‪ ,‬כלומר ) 𝑘𝛴 ‪ ,𝑃𝑋|𝑌 (𝑥|𝐶𝑘 )~𝑁(𝜇𝑘 ,‬אז כמו שראינו משערך בייס לאחר הוצאת‬
‫לוגריתם‪:‬‬
‫‪1‬‬ ‫) 𝑘𝐶(𝑝‬
‫})𝑥( 𝑘𝑔{‪𝑓 ∗ (𝑥) = arg max‬‬ ‫𝑘𝛼 ‪, 𝑔𝑘 (𝑥) ≜ − (𝑥 − 𝜇𝑘 )𝑇 𝛴𝑘−1 (𝑥 − 𝜇𝑘 ) +‬‬ ‫{ 𝑛𝑙 ≜ 𝑘𝛼 ‪,‬‬ ‫}‬
‫𝑌∈𝑘‬ ‫‪2‬‬ ‫| 𝑘‪√(2𝜋)𝑑 |Σ‬‬
‫כעת בהשוואה בין שתי מחלקות נבחר את העדיפה לפי )𝑥( 𝑗𝑔 ∶ )𝑥( 𝑘𝑔 ? ‪𝑔𝑘𝑗 (𝑥) ≜ 𝑔𝑘 (𝑥) − 𝑔𝑗 (𝑥) > 0‬‬
‫הפונקציה )𝑥( 𝑗𝑘𝑔 קרויה פונקציית האבחנה בין המחלקות‪ .‬במקרה‬

‫הגאוסי זו פונקציה ריבועית באיברי וקטור הקלט ‪ .x‬המשטח המוגדר ע"י‬
‫השוויון ‪ 𝑔𝑘𝑗 (𝑥) = 0‬קרוי משטח ההפרדה בין המחלקות‪.‬‬
‫במקרה החד מימדי (‪ x‬סקאלר או ‪ ,)d=1‬כאשר ) ‪ 𝑝𝑌 (𝐶1 ) = 𝑝𝑌 (𝐶2‬נקבל שמשטח‬

‫ההפרדה הוא נקודה או שתי נקודות‪ .‬במקרה הדו מימדי נקבל אליפסה‪ ,‬היפרבולה‪ ,‬או שתי‬
‫היפרבולות‪.‬‬
‫קווריאנסים זהים – פונקציית הפרדה לינארית‪ :‬במקרה המיוחד בו מטריצות הקווריאנס‬
‫זהות‪ ,‬האיברים הריבועיים מתבטלים וניתן לבטא את הבחינה האופטימאלית לפי‬
‫פונקציית הבחנה לינארית‪.‬‬
‫})𝑥( 𝑗̃𝑔{‪𝑓 ∗ (𝑥) = arg max‬‬
‫𝒴∈ 𝑗𝐶‬
‫‪20‬‬
‫‪1‬‬
‫}) 𝑘𝐶(𝑝{‪𝑔̃𝑘 (𝑥) ≜ − (𝑥 − 𝜇𝑘 )𝑇 Σ−1 (𝑥 − 𝜇𝑘 ) + ln‬‬
‫‪2‬‬
‫𝑑‬ ‫‪1‬‬
‫הורדנו את הקבוע }) ‪ ln {((2𝜋)2 |𝛴𝑘 |2‬שהיה קודם‪ ,‬הזהה עבור שתי המחלקות‪ ,‬ולכן לא משפיע על הביטוי‪ .‬כלל זה נקרא‬
‫𝑎𝑙𝑢𝑚𝑟𝑜𝐹 𝑠𝑖𝑠𝑦𝑙𝑎𝑛𝐴 𝑡𝑛𝑎𝑛𝑖𝑚𝑖𝑟𝑐𝑠𝑖𝐷 𝑟𝑎𝑒𝑛𝑖𝐿 ‪ .‬ניתן לראות כי משטח ההפרדה במקרה זה הינו ‪-‬‬
‫= )𝑥( 𝑗̃𝑔 ‪𝑔𝑘𝑗 (𝑥) = 𝑔̃𝑘 (𝑥) −‬‬
‫לפיכך משטח ההפרדה ‪ 𝑔𝑘𝑗 (𝑥) = 0‬הינו עתה משטח לינארי (על‪-‬מישור)‪.‬‬
‫הכללה למדד סיכון כללי‬

‫במקרים מסוימים לשגיאות מסוימות עשויה להיות משמעות שונה‪ ,‬ולכן מחיר שונה‪ .‬כמו כן‪ ,‬ייתכן כי מרחב ההחלטות 𝒴‬
‫כולל אפשרויות שונות פרט למחלקות‪ .‬למשל אופציה של אי‪-‬קבלת החלטה במקרה ספק‪.‬‬
‫במקרה זה נגדיר פונקציית הפסד )𝐶 ‪ ℓ: 𝑌 × 𝑌0 → ℝ, ℓ(𝑦,‬אשר מקיימת את התנאים הבאים‪:‬‬
‫‪ℓ(𝑦, 𝐶) ≥ 0‬‬ ‫‪‬‬
‫‪ ℓ(𝑦, 𝐶) = 0‬אם 𝐶 = 𝑦‪.‬‬ ‫‪‬‬
‫ניתן עתה להגדיר כמדד הביצועים את הסיכון המותנה (בדומה לאיך שהגדרנו הסתברות שגיאה מותנית‪ ,‬רק עם פונקציית‬
‫הפסד כללית במקום פונקציית אינדיקטור‪:‬‬
‫)𝑥 = 𝑋|)𝑌 ‪𝐿(𝑓|𝑥) = 𝐸(ℓ(𝑓(𝑋),‬‬
‫ואת הסיכון הממוצע 𝑘𝑠𝑖𝑅 𝑑𝑒𝑡𝑐𝑒𝑝𝑥𝐸 ‪:‬‬
‫))𝑌 ‪𝐿(𝑓) = 𝐸(ℓ(𝑓(𝑋),‬‬
‫נשים לב כי מדד השגיאה הבסיסי אליו התייחסנו עד כה מתקבל במקרה פרטי‪ ,‬כאשר‬
‫מסווג בייס נאיבי (‪)Naïve Bayes Classifier‬‬
‫הגישה הגנרטיבית‬
‫נגדיר גישה כללית הבאה לבניית מסווג גנרטיבי‪:‬‬
‫‪ .0‬בעזרת סדרת הדוגמאות המתויגות‪ ,‬נערך את פילוגי ההסתברות ) 𝑘𝐶( 𝑌 ̂𝑝 ‪.𝑝̂𝑥|𝐶𝑘 (𝑥|𝐶𝑘 ) , 𝑝̂𝑌 (𝐶1 ), … ,‬‬
‫‪ .1‬החזאי יוגדר כמסווג בייס המיטבי ביחס לפילוגים מקורבים אלה })𝐶( 𝑌̂𝑝)𝐶|𝑥( 𝑌|𝑋̂𝑝{𝑥𝑎𝑚𝑔𝑟𝑎 = )𝑥(̂𝑓‬
‫את ההסתברויות ניתן להעריך בקלות יחסית מתוך ידע מוקדם‪ ,‬או ע"י השכיחות היחסית בדרת הדוגמאות‬
‫𝑛‬
‫𝑘𝑛‬ ‫‪1‬‬
‫= ) 𝑘𝐶( ̂𝑝‬ ‫} 𝑘𝐶 = 𝑖𝑦{𝕀 ∑ =≜‬
‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬
‫את פילוגי הקלט ניתן עקרונית להעריך בשיטות פרמטריות לשערוך מודל‪ ,‬לדוגמא עבור קלט רציף נניח פילוג גאוסי ונעריך‬
‫את הפרמטרים בעזרת משערך ‪.MLE‬‬
‫עבור קלט בדיד נחשב לכל ערך אפשרי של ‪ x‬את השכיחות היחסית בקבוצה המתאימה‪.‬‬
‫דוגמא‪ :‬עבור }𝑏 ‪ 𝒳 = 𝐵𝑑 , 𝐵 = {1,2, … ,‬נחשב לכל ערך אפשרי של 𝑥 את השכיחות היחסית בקבוצה המתאימה (זהו כזכור‬
‫משערך ‪ MLE‬להסתברות בדידה)‪:‬‬
‫‪22‬‬
‫𝑛‬
‫‪1‬‬
‫= ) 𝑘𝐶|𝛼( )𝑌|𝑋( ̂𝑝‬ ‫𝒳 ∈ 𝛼∀ ‪∑ 𝕀{𝑥𝑖 = 𝛼, 𝑦𝑖 = 𝐶𝑘 } ,‬‬
‫𝑘𝑛‬
‫‪𝑖=1‬‬
‫ע"מ להעריך זאת‪ ,‬נאלץ לעשות מספר חישובים מעריכי לפי מס' הדוגמאות‪ ,‬לכן גישה זו לא ישימה עבורנו‪ .‬לכן נשתמש‬
‫במסווג הבייס הנאיבי‪.‬‬
‫מסווג בייס נאיבי‪ :‬גישה מועילה לעקיפת הקושי בהערכת מודל רב‪-‬מימדי זה היא הנחת אי‪-‬תלות בין רכיבי הווקטור 𝑥‪.‬‬
‫הנחה מפשטת זו לא תתקיים בפועל במרבית המקרים‪ ,‬והיא מהווה לפיכך קירוב בלבד לצורך בניית המודל‪.‬‬
‫𝑇‬
‫נניח אי תלות בין רכיבי הווקטור ))𝑑(𝑥 ‪ ,𝑥 = (𝑥(1), … ,‬נתבסס על הקרוב הבא לפילוג ‪:x‬‬
‫𝑑‬
‫)𝐶|)𝑗(𝑥( 𝑗𝑝 ∏ ≈ )𝐶|𝑥( 𝑌|𝑋𝑝‬

‫‪𝑗=1‬‬
‫כל אחד מהפילוגים במכפלה הוא פילוג חד מימדי‪ ,‬שניתן להערכה בקלות מתוך המידע‪ .‬למשל עבור פילוג רציף נניח פילוג‬
‫גאוסי סקלרי ונרעך את הפרמטרים בעזרת משערך ‪ MLE‬מתאים‪.‬‬
‫עבור רכיב בדיד }𝑏 ‪ 𝑥(𝑗) ∈ {1,2, … ,‬נניח פילוג קטגורי ונעריך את ההסתברויות על ידי השכיחות היחסית‪:‬‬
‫𝑛‬
‫‪1‬‬
‫= ) 𝑘𝐶|𝛼 = )𝑗(𝑥( ̂𝑝 ≡ )𝛼( )𝑘|𝑗( ̂𝑝‬ ‫}𝑏 ‪∑ 𝕀{𝑥𝑖 (𝑗) = 𝛼, 𝑦𝑖 = 𝐶𝑘 } , ∀𝛼 ∈ {1,2, … ,‬‬
‫𝑘𝑛‬
‫‪𝑖=1‬‬
‫המסווג הנאיבי יבחר כרגיל את המחלקה שעבורה הערכת ההסתברות בדיעבד היא מקסימלית‪:‬‬
‫}) 𝑘𝐶( 𝑌 ̂𝑝) 𝑘𝐶|𝑥( )𝑌|𝑋( ̂𝑝{ ‪𝑓̂(𝑥) = arg max‬‬

‫𝒴∈ 𝑘𝐶‬
‫𝑑‬
‫) 𝑘𝐶|)𝑗(𝑥( 𝑗̂𝑝 ∏ = ) 𝑘𝐶|𝑥( )𝑌|𝑋( ̂𝑝 𝑛𝑒‪𝑤ℎ‬‬

‫‪𝑗=1‬‬
‫למרות שמסווג בייס נאיבי מבוסס על הנחה בלתי מבוססת (ובלתי נכונה ככלל) לגבי הפילוג‪ ,‬הוא נותן תוצאות סיווג סבירות‬
‫במספר יישומים ‪ ,‬כגון סיווג מסמכים‪.‬‬
‫יתרונות מסווג בייס נאיבי‪:‬‬
‫חישוב מהיר גם למספר רב של דגימות‪.‬‬ ‫‪‬‬
‫חישוב מפורש‪ ,‬האלגוריתם אינו כרוך באופטימיזציית פרמטרים (כמו רשתות ניורונים למשל)‪.‬‬ ‫‪‬‬
‫ישים בקלות גם לבעיות סיווג מרובות מחלקות‪.‬‬ ‫‪‬‬
‫תוצאות סבירות במקרים רבים – אך לא תמיד‪.‬‬ ‫‪‬‬
‫‪Linear Discriminant Analysis –LDA‬‬

‫נניח 𝑌|𝑋𝑝 מפולגים נורמלית וגם נניח לכל הפילוגים אותה מטריצת ‪.covariance‬‬
‫נניח כי ‪ Y‬מקבל את סט הערכים }𝑀 ‪ {1, … ,‬ונשתמש בסימונים הבאים‪:‬‬
‫תת המדגים המקיים 𝑗 = 𝑖𝑦 הוא }𝑗 = 𝑖𝑦 ‪ – 𝐺𝑗 = {𝑖:‬כלומר קבוצת הדגימות מתוך ה ‪ Data‬אשר תוייגו כקבוצה ‪.j‬‬
‫| 𝑗𝐺|‬
‫= 𝑗𝑝‪.‬‬ ‫𝑛‬
‫נחשב את הפילוג הא‪-‬פריורי של כל קבוצה ‪, 𝑗 ∈ {1, … 𝑀} : j‬‬
‫‪1‬‬
‫= 𝑗𝜇‪.‬‬ ‫תוחלת הפילוגים הנורמלים היא‪∑𝑥𝑗∈𝐺𝑗 𝑥𝑗 :‬‬
‫| 𝑗𝐺|‬
‫‪1‬‬ ‫𝑇‬
‫𝑁∑ 𝑁 = ‪ Σ‬כך שהתוחלת של הקבוצה אליה 𝑖𝑥 שייך‪.‬‬
‫מטריצת קווארינס היא‪𝑖=1(𝑥𝑖 − 𝜇𝑦𝑖 )(𝑥𝑖 − 𝜇𝑦𝑖 ) :‬‬
‫‪−𝑥1 −‬‬ ‫‪−𝜇𝑦1 −‬‬

‫‪1‬‬
‫בכתיב מטריצי נקבל‪ Σ = 𝑁 𝑋̃ 𝑇 𝑋̃ :‬כאשר ) ⋮ ( ‪.𝑋̃ = ( ⋮ ) −‬‬
‫𝑛𝑥‪−‬‬ ‫𝑛𝑦𝜇‪−‬‬
‫כדי לסווג לקבוצה מסוימת‪ ,‬נדרוש כי ההסתברות לסיווג לאותה קבוצה תהיה הכי גדולה מההסתברות לסיווג לקבוצה‬
‫‪𝑃𝑌|𝑋 (𝑦 = 𝑗|𝑥) > 𝑃𝑌|𝑋 (𝑦 = 𝑖|𝑥),‬‬ ‫אחרת ‪ ,‬עבור כל הקבוצות בנפרד ‪∀𝑖 ≠ 𝑗 -‬‬
‫שערוך ‪ MLE‬של פרמטרי המודלים נותן הפרדה לינארית‪.‬‬
‫‪23‬‬
‫בעבור המקרה של סיווג בינארי (סיווג לשתי מחלקות) ו ‪ zero one loss‬מתקבל‪:‬‬
‫‪1 , 𝛼𝑇𝑥 + 𝑏 > 0‬‬
‫= )𝑥(‪ℎ‬‬
‫𝑒𝑠𝑖𝑤𝑟𝑒‪0 , 𝑜𝑡ℎ‬‬
‫‪1‬‬ ‫)‪𝑝 (1‬‬
‫) ‪.𝛼 = 𝛴 −1 (𝜇1 − 𝜇0‬‬ ‫)))‪, 𝑏 = 2 (𝜇0𝑇 𝛴 −1 𝜇0 − 𝜇1𝑇 𝛴 −1 𝜇1 ) + 𝑙𝑜𝑔 ((𝑝𝑌 (0‬‬ ‫כאשר‬
‫𝑌‬
‫נשים לב כי תנאי ההחלטה שבין שני התחומים הינו לינארי‪ ,‬ומכאן מקבל האלגוריתם את שמו‪.‬‬
‫‪Quadric Discriminant Analysis – QDA‬‬

‫דומה מאוד ל ‪ LDA‬אך ללא ההנחה על מטריצות הקוואריאנס‪.‬‬
‫כעת עבור המקרה של סיווג בינארי ו ‪ zero one loss‬נקבל משטח הפרדה ריבועי‪:‬‬
‫‪1‬‬ ‫‪0, 𝑥 𝑇 𝐶𝑥 + 𝑎𝑇 𝑥 + 𝑏 > 0‬‬
‫כאשר ‪ 𝐶 = 2 (𝛴0−1 − 𝛴1−1 ), 𝛼 = 𝛴1−1 𝜇1 − 𝛴0−1 𝜇0‬ו ‪ b‬בהתאם‪.‬‬ ‫= )𝑥(‪ℎ‬‬
‫‪1‬‬ ‫𝑒𝑠𝑖𝑤𝑟𝑒‪, 𝑜𝑡ℎ‬‬
‫‪24‬‬
‫בעיית הרגרסיה‬
‫בבעית הלמידה המודרכת‪ ,‬נתון אוסף דוגמאות מתויגות‪ .‬אנו מעוניינים ללמוד פונקציית חיזוי אשר מחשבת פלט מתאים‬
‫עבור כל קלט אפשרי‪ .‬בבעיית רגרסיה הפלט הינו מספר ממשי‪.‬‬
‫למידה פרמטרית‬
‫החזאי הנלמד ‪ f‬הוא מהצורה ‪ . 𝐹 = {𝑓𝜃 : 𝜃 ∈ 𝛩 ⊂ ℝ𝑀 }:‬כלומר פונקציית החיזוי נקבעת על ידי וקטור של פרמטרים‬
‫ממשיים בעלי מימד נתון‪ .‬הלמידה מתמקדת בכוונון וקטור הפרמטרים 𝜽‪.‬‬
‫המודל הלינארי מוגדר כך‪:‬‬
‫𝑏‬
‫𝑑‪𝑓𝜃 (𝑥) = 𝑏 + 𝑤 𝑇 𝑥 ≡ 𝑏 + 𝑤1 𝑥(1) + ⋯ + 𝑤𝑑 𝑥(𝑑) , 𝑥 ∈ ℝ‬‬ ‫‪𝜃 = (𝑏, 𝑤1 , … , 𝑤𝑑 )𝑇 ≜ ( ) ∈ ℝ𝑑+1‬‬
‫𝑤‬
‫התאמת הפרמטרים לסדרת הלימוד מתבצעת לרוב על ידי מיזעור של פונקציית מחיר מתאימה‪:‬‬
‫𝑛‬
‫‪2‬‬
‫)) 𝑖𝑥( 𝜃𝑓 ‪𝐸(𝜃) = ∑(𝑦𝑖 −‬‬
‫‪𝑖=1‬‬
‫‪1‬‬
‫≡ ) 𝜃𝑓( 𝑛̂𝐿‪.‬‬ ‫𝑛‬
‫הריבועי‪ ,‬עד כדי נרמול במספר הדגימות )𝜃(𝐸‬ ‫פונקציית מחיר זו היא הסיכון האמפירי‪ ,‬עם פונקציית ההפסד‬
‫מזעור פונקציית מחיר מעין זו יכול להתבצע בשתי גישות‪:‬‬
‫‪ .0‬פתרון אנליטי סגור עבור וקטור הפרמטרים האופטימלי‪ :‬קיים כמעט רק עבור המודל הלינארי‪.‬‬
‫‪ .1‬אלגוריתמים איטרטיביים לאופטימיזציה – כגון אלגוריתם מורד הגרדיאנט‪.‬‬
‫מאפיינים ופונקציות בסיס‬

‫וקטור הקלט 𝑥 המופיע במודל הלינארי אינו הקלט הבסיסי של הבעיה‪ ,‬אלא מאפיינים כלשהם שמופקים מהקלט הבסיסי‪.‬‬
‫𝑀‬
‫)𝑥( 𝑚𝜙 𝑚𝜃 ∑ = )𝑥( 𝑀𝜙 𝑀𝜃 ‪𝑓𝜃 (𝑥) = 𝜃1 𝜙1 (𝑥) + ⋯ +‬‬

‫‪𝑚=1‬‬
‫נערכים הממשיים )‪ ϕm (x‬הינם המאפיינים (תכונות) של הקלט‪ .‬הפונקציה ‪ ϕm‬נקראת פונקציית הבסיס‪.‬‬
‫אנו מניחים פה כי המאפיינים נבחרו מראש על ידי המתכנן כחלק מהגדרת המודל‪.‬‬
‫‪𝜃1‬‬ ‫)𝑥( ‪𝜙1‬‬
‫‪.𝑓𝜃 (𝑥) = 𝜃 𝑇 𝜙(𝑥),‬‬ ‫‪𝜃 = ( ⋮ ),‬‬ ‫מודל זה עדיין לינארי בפרמטרים ‪ .θ‬נרשום‪𝜙(𝑥) = ( ⋮ ) :‬‬
‫𝑀𝜃‬ ‫)𝑥( 𝑀𝜙‬
‫וקטור הפרמטרים ‪ θ‬נקרא גם פה וקטור המשקלים ולעיתים מסומן ע"י ‪ .w‬הוקטור )‪ ϕ(x‬הינו וקטור המאפיינים‪.‬‬
‫חישוב )‪ fθ (x‬מתבצע בשני שלבים‪:‬‬
‫‪ ,x‬יתקבל‬ ‫המודל הלינארי הבסיסי‪ ,‬לינארי גם ברכיבי הקלט‬
‫= )𝑥( 𝑜𝜙 ‪, 𝜃 = (𝑏, 𝑤 𝑇 )𝑇 ≡ (𝜃0 , 𝜃1 , … , 𝜃𝑑 )𝑇 ,‬‬ ‫כמקרה פרטי ע"י הבחירה 𝑇) 𝑇 𝑥 ‪ ,𝜙(𝑥) = (1,‬ובהתאמה‬
‫)𝑑(𝑥 = )𝑥( 𝑑𝜙 ‪1, 𝜙1 (𝑥) = 𝑥(1), … ,‬‬
‫פונקציות בסיס נפוצות‬

‫שינוי סקלה של משתנה בודד ))‪ 𝜙2 (𝑥) = √𝑥(8) ,𝜙1 (𝑥) = 𝑙𝑜𝑔(𝑥(2‬וכדומה‪.‬‬ ‫‪‬‬
‫מודל פולינומיאלי‪ :‬רכיבים מהצורה )‪𝜙1 (𝑥) = 𝑥(17)𝑥 4 (7)𝑥 6 (1), 𝜙2 (𝑥) = 𝑥(4)𝑥 2 (12)𝑥 5 (2‬‬ ‫‪‬‬
‫פונקציות הרמונית ( טור פוריה)‪ 𝜙𝑚 (𝑥) = cos(𝜔𝑚 𝑥(𝑗) + 𝛼𝑚 ) :‬כאשר האינדקס 𝑗 הוא פונקציה של 𝑚‪.‬‬ ‫‪‬‬
‫פונקציות בסיס מקומיות‪ ,‬כלומר תמך מוגבל במרחב הכניסה לדוגמת מודל לינארי למקוטעין (אינדיקטורים בתמך מסויים)‪,‬‬
‫פולינומים מקומיים‪ ,‬אנליזת מרחב‪-‬תדר לפונקציות זמניות‪ ,‬פונקציות בסיס רדיאליות וכו'‪.‬‬
‫שימוש בפונקציות לוקליות מאפשר הפרדה של ערכי הפרמטרים הנלמדים באזורים שונים של מרחב הכניסה‪.‬‬
‫‪25‬‬
‫הגדרת ובחירת המאפיינים‬

‫נרצה לבחור סט מאפיינים אינפורמטיביים (כוללים את מירב המידע הדרוש לבעיית החיזוי‪ ,‬בצורה מפורשת ונוחה ללמידה)‪,‬‬
‫חסרי יתירות (‪ .)non redundant‬ישנן טכניקות רבות ל"הינדוס המאפיינים" לדוגמא‪:‬‬
‫הגדרה ידנית של מאפיינים (למשל‪ ,‬אם ידועה מחזוריות)‪.‬‬ ‫‪‬‬
‫בחירת סט מצומצם של מאפיינים מתוך סט גדול‪ ,‬ע"י תהליך מתאים של ניפוי (למשל‪ PCA ,‬ושאר הורדות‬ ‫‪‬‬
‫מימד)‪ .‬מטרת ההורדה היא הקטנת עומס החישוב או מניעת התאמת יתר‪.‬‬
‫למידת מאפיינים – ע"י תהליך לימוד מקדים או חלק מאלגוריתם הלימוד הספציפי‪.‬‬ ‫‪‬‬
‫רגרסיה לינארית‬
‫עבור מודל לינארי בפרמטרים )𝑥(𝜙 𝑇 𝜃 = )𝑥( 𝜃𝑓 ‪ ,‬כאשר וקטור המאפיינים (פונקציות הבסיס) נקבע מראש‪ ,‬נרצה למצוא‬
‫‪𝑦1‬‬ ‫𝑇) ‪𝜙(𝑥1‬‬
‫𝑀 𝑥 𝑛‪𝑌 = [ ⋮ ] , 𝛷 = [ ⋮ ] ∈ ℝ‬‬ ‫ערך מתאים לפרמטרים ‪ θ‬בעזרת סדרת הלימוד‪ .‬נגדיר‪:‬‬
‫𝑛𝑦‬ ‫𝑇) 𝑛𝑥(𝜙‬
‫המטריצה ‪ Φ‬נקראת מטריצת המאפיינים ו‪ Y‬הוא וקטור התגיות‪.‬‬
‫נניח כי קיים פתרון אופטימלי 𝜀 ‪ 𝑦 = 𝑓0 (𝑥) +‬שאותו אנו רוצים לשערך‪.‬‬
‫נרצה ללמוד את )𝑥(𝜙 𝑇 𝜃 = )𝜃 ‪.𝑓̂(𝑥,‬‬
‫עבור המודל הלינארי‪ ,‬מתקבלת בעיית הריבועים הפחותים הלינארית ‪ Linear Least Squars‬הבאה‪:‬‬
‫𝑛‬
‫‪2‬‬
‫‪𝑚𝑖𝑛 𝐸(𝜃) = min𝑀 ∑(𝑦𝑖 − 𝜃 𝑇 𝜙(𝑥𝑖 )) = min𝑀‖𝑌 − Φθ‖2‬‬
‫𝑀‪𝜃∈ℝ‬‬ ‫‪𝜃∈ℝ‬‬ ‫‪𝜃∈ℝ‬‬
‫‪𝑖=1‬‬
‫ע"י פתיחת הסוגריים וקיבוץ איברים נקבל כי‪:‬‬
‫𝑇‬ ‫𝑇‬
‫𝐶 ‪𝐸(𝜃) = 𝜃 𝑄𝜃 − 2𝜃 𝐵 +‬‬
‫‪𝑄 = 𝛷𝑇 Φ = ∑𝑛𝑖=1 𝜙(𝑥𝑖 )𝜙(𝑥𝑖 )𝑇 ,‬‬ ‫‪𝐵 = 𝛷𝑇 𝑌 = ∑𝑛𝑖=1 𝜙(𝑥𝑖 )𝑦𝑖 ,‬‬ ‫כאשר ‪𝐶 = 𝑌 𝑇 𝑌 = ∑𝑛𝑖=1 𝑦𝑖2‬‬
‫קיבלנו כי פונקציית השגיאה הינה תבנית ריבועית בוקטור הפרמטרים ‪ .θ‬לפני שנגזור אותה‪ ,‬נסתכל על תכונות של ‪:Q‬‬
‫‪ Q .0‬הינה מטריצה ריבועית‪ ,‬בגודל 𝑀 × 𝑀 וסימטרית 𝑄 = 𝑇 𝑄‪.‬‬
‫‪ Q .1‬אי‪-‬שלילית מוגדרת כלומר ‪∀𝑣 ∈ ℝ𝑀 : 𝑣 𝑇 𝑄𝑣 = ∑𝑛𝑖=1|𝑣 𝑇 𝜙(𝑥𝑖 )|2 ≥ 0‬‬
‫‪ Q .3‬חיובית מוגדרת ולכן הפיכה‪ ,‬אם ורק אם 𝑀 = )𝛷(𝑘𝑛𝑎𝑟‪ .‬תנאי הכרחי לכך הוא 𝑀 ≥ 𝑛‪.‬‬
‫כעת כדי להגיע למינימום של השגיאה‪ ,‬נגזור ונגיע לתוצאה‪:‬‬
‫)𝜃(𝐸𝜕‬
‫𝜕‬ ‫‪𝜕𝜃1‬‬
‫= )𝜃(𝐸‬ ‫⋮‬ ‫𝐵‪= (𝑄 + 𝑄 𝑇 )𝜃 − 2𝐵 = 2𝑄𝜃 − 2‬‬
‫𝜃𝜕‬ ‫)𝜃(𝐸𝜕‬
‫) 𝑀𝜃𝜕 (‬
‫כאשר המטריצה ‪ Q‬הפיכה‪ ,‬נקבל כי הערך האופטימלי של וקטור הפרמטרים הינו‪:‬‬
‫𝑛‬ ‫𝑛 ‪−1‬‬
‫∗‬ ‫‪−1‬‬ ‫𝑇‪(Φ‬‬ ‫𝑇‪−1 (Φ‬‬ ‫𝑇)‬
‫𝑄= 𝜃‬ ‫=𝐵‬ ‫)‪Φ‬‬ ‫) 𝑘𝑥(𝜙) 𝑘𝑥(𝜙 ∑( = )𝑌‬ ‫𝑘𝑦) 𝑘𝑥(𝜙 ∑‬
‫‪𝑘=1‬‬ ‫‪𝑘=1‬‬
‫כאשר המטריצה אינה הפיכה‪ ,‬קיימים אינסוף פתרונות‪.‬‬
‫כדי שזו אכן תהיה נקודת מינימום גלובאלי‪ ,‬על הפונקציה )𝜃(𝐸 להיות פונקציה קמורה ‪ convex‬בוקטור המשתנים 𝜃‪.‬‬
‫ניתן לבדוק זאת ע"י חישוב מטריצת ההסיאן ‪ .𝐻𝐸 (𝜃) = 2𝑄 ≥ 0‬מתכונות פונקציה קמורה‪ ,‬כל נק' מינימום מקומי היא‬
‫נקודת מינימום גלובלית‪.‬‬
‫‪26‬‬
‫לכן‪:‬‬
‫קיבלנו נוסחה סגורה לחישוב המשקלים האופטימליים ביחס לשגיאה הריבועית‪ .‬קיום נוסחא סגורה כזו נובע‬ ‫‪‬‬
‫מהשילוב של מודל לינארי בפרמטרים‪ ,‬עם השימוש במדד השגיאה הריבועית‪.‬‬
‫‪ Q‬הינה הפיכה אם ורק אם ווקטורי המאפיינים פורשים את כל המרחב ה ‪ M‬מימדי‪ .‬לכך נדרש מספר מספיק‬ ‫‪‬‬
‫של דוגמאות מגוונות (אינן תלויות לינארית)‪.‬‬
‫כאשר המטריצה אינה הפיכה‪ ,‬קיימים אינסוף פתרונות למשוואה‪ ,‬וכולם אופטימליים‪.‬‬ ‫‪‬‬
‫היפוך מטריצה ‪ 2‬על ‪2‬‬
‫𝑎‬ ‫‪𝑏 −1‬‬ ‫‪1‬‬ ‫𝑑‬ ‫𝑏‪−‬‬

‫(‬ ‫= )‬ ‫(‬ ‫)‬
‫𝑐‬ ‫𝑑‬ ‫𝑐‪𝑎𝑑 − 𝑏𝑐 −‬‬ ‫𝑎‬
‫‪1‬‬
‫𝑎‬ ‫𝑛𝑎‬
‫(=𝐴‬ ‫‪),‬‬ ‫‪𝐴−1‬‬ ‫𝑎( =‬ ‫‪),‬‬ ‫( = 𝑛𝐴‬ ‫)‬
‫𝑎‬ ‫‪1‬‬ ‫𝑛𝑎‬
‫𝑎‬
‫דוגמא לבניית מטריצת מאפיינים‬
‫נניח כי קיים פתרון אופטימלי ) 𝑖𝑥( 𝑑𝜙 𝑑𝑤 ‪.𝑦̂𝑖 = 𝑤0 𝜙0 (𝑥𝑖 ) + 𝑤1 𝜙1 (𝑥𝑖 ) + ⋯ +‬‬
‫את המאפיינים נבחר ע"פ מודל הרגרסיה הרצוי‪ ,‬לדוגמא עבור מודל לינארי נבחר 𝑖𝑥 = ) 𝑖𝑥(𝜙 ‪ ,𝜙𝑜 = 1,‬עבור מודל‬
‫פולינומיאלי מסדר ‪ 3‬נבחר ‪ 𝜙0 = 1, 𝜙1 = 𝑥, 𝜙2 = 𝑥 2 , 𝜙3 = 𝑥 3‬ובמקרה זה הפתרון יתקבל עבור‪:‬‬
‫‪𝑦̂𝑖 = 𝑤0 + 𝑤1 𝑥𝑖 + 𝑤2 𝑥𝑖2 + 𝑤3 𝑥𝑖3‬‬
‫‪1‬‬ ‫‪𝑥1‬‬ ‫‪𝑥12‬‬ ‫‪𝑥13‬‬

‫⋮ ( = ‪ , Φ‬נציב בפתרון הכללי הסגור ונקבל חיזוי סיווג לכל דוגמא‪.‬‬ ‫⋮‬ ‫⋮‬ ‫כעת נחשב את מטריצת המאפיינים ‪⋮ ) :‬‬
‫‪1‬‬ ‫𝑛𝑥‬ ‫‪𝑥𝑛2‬‬ ‫‪𝑥𝑛3‬‬
‫‪(𝑥−𝜇𝑚 )2‬‬
‫‪−‬‬
‫𝑒 = )𝑥( 𝑚𝜙 כאשר הממוצעים ימוקמו בנקודות של סדרת‬ ‫𝑚𝜎‬ ‫עבור מודל עם פונקציות בסיס רדיאליות‪,‬‬ ‫‪‬‬
‫הלימוד‪ ,‬נקבע ‪ 0‬באלכסון של מט' המאפיינים‪.‬‬
‫רגולריזציה‬
‫כאשר מספר הפרמטרים בווקטור ‪ θ‬גדול יחסית למספר הדוגמאות (או גיוונן)‪ ,‬המטריצה ‪ Q‬הינה ‪( ill-conditioned‬יחס גדול‬
‫בין הערך העצמי הגדול והקטן)‪ .‬המקרה כזה חלק מאיברי וקטור הפרמטרים עלולים לקבל ערכים גדולים‪ ,‬והפונקציה ‪fθ‬‬
‫תהיה מפותלת וקופצנית מעבר לדרוש‪.‬‬
‫כדי לפתור את הבעיה נבצע רגולריזציה (הסדרה‪ ,‬החלקה) של הבעיה‪ ,‬על ידי הוספת איבר מתאים בבעיית המינימיזציה‪.‬‬
‫‪2‬‬
‫הצורה הכללית של הקריטריון המתקבל היא‪𝐸𝜆 (𝜃) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) + 𝜆𝑔(𝜃):‬‬
‫)𝜃(𝑔 הינה פונקצייה מסוימת של הפרמטרים (פונקציית הרגולריזציה)‪ ,‬ו‪ λ‬פרמטר סקלרי השולט על המשקל היחסי של איבר‬
‫הרגולריזציה לעומת איבר השגיאה‪.‬‬
‫רגולריזציה ע"י נורמה ריבועית ‪Tikhonov Regulatization‬‬

‫רגולריזציה ריבועית בסיסית מתקבלת עבור הבחירה‪:‬‬
‫‪2‬‬
‫= ‪𝑔(𝜃) = ‖𝜃‖2‬‬ ‫‪𝜃12‬‬ ‫𝑀𝜃 ‪+ ⋯ +‬‬‫‪2‬‬
‫איבר זה מטיל קנס על גודל המקדמים‪ ,‬ולפיכך יגרום להקטנתם בפתרון האופטימלי‪.‬‬
‫מקרה כללי יותר מתקבל עבור הבחירה‪:‬‬
‫𝜃𝑅 𝑇 𝜃 = )𝜃(𝑔‬
‫כאשר ‪ R‬מט' סימטרית אי שלילית מוגדרת‪ .‬בחירת המטריצה ‪ R‬מאפשרת גמישות נוספת בהגדרת איבר הרגולריזציה‪.‬‬
‫‪27‬‬
‫‪2‬‬
‫𝐼 = 𝑅‪ :‬במקרה זה נקבל ||𝜃|| = )𝜃(𝑔 כלומר המקרה הריבועי הבסיסי‪.‬‬ ‫‪‬‬
‫𝑀∑ = )𝜃(𝑔‪ ,‬כלומר סכום ריבועים משוקלל‪.‬‬ ‫‪2‬‬
‫} 𝑀𝑟 ‪ 𝑅 = 𝑑𝑖𝑎𝑔{𝑟1 , … ,‬במקרה זה נקבל ) 𝑚𝜃( 𝑚𝑟 ‪𝑚=1‬‬ ‫‪‬‬
‫במקרה המיוחד של רגרסיה לינראית‪ ,‬כלומר )𝑑(𝑥 𝑑𝜃 ‪ ,𝑓𝜃 (𝑥) = 𝜃0 + 𝜃1 𝑥(1) + ⋯ +‬מקובל לא להטיל קנס‬ ‫‪‬‬
‫או מגבלה על ערכו של פרמטר ההטיה ‪ ,𝑏 = 𝜃0‬כך שנקבע ‪ 𝑔(𝜃) = 𝜃12 + ⋯ + 𝜃𝑑2‬ללא איבר ה‪ .1-‬מקרה זה‬
‫מתאים לבחירת }‪.𝑅 = 𝑑𝑖𝑎𝑔{0,1, … ,1‬‬
‫אופטימיזציה עם רגולריזציה ריבועית‪:‬‬

‫עבור בעיית המינימיזציה של השגיאה הריבועית עבור מודל לינארי‪ ,‬עם איבר הרגולריזציה הריבועי ‪:‬‬
‫𝑛‬
‫‪2‬‬
‫𝜃𝑅 𝑇 𝜃𝜆 ‪𝐸𝜆 (𝜃) = ∑(𝑦𝑖 − 𝜃 𝑇 𝜙(𝑥𝑖 )) +‬‬
‫‪𝑖=1‬‬
‫נקבל ע"י גזירה והשוואת הגרדיאנט לאפס‪:‬‬
‫𝑌 𝑇 𝛷 ‪𝛻𝜃 𝐸𝜆 (𝜃) = 2(𝑄𝜃 − 𝐵 + 𝜆𝑅𝜃) = 0 ⟹ 𝜃𝜆∗ = (𝑄 + 𝜆𝑅)−1 𝐵 = (𝛷𝑇 𝛷 + 𝜆𝑅)−1‬‬
‫לפרמטר המשקל ‪ λ‬חשיבות מרובה בקביעת יכולת ההכללה של המודל‪ ,‬וגודלו קובע את ה 𝑓𝑓𝑜𝑒𝑑𝑎𝑟𝑇 בין פשטות הפונקציה‬
‫(מדקמים קטנים‪" :‬ווריאנס" קטן)‪ ,‬לבין התאמת המודל המתקבל לדוגמאות ("הטיה" – ‪ .)bias‬תכונה זו בולטת במיוחד‬
‫כאשר הנתונים מכילים ”‪ , “outliers‬כלומר דוגמאות לא מייצגות שרק הורסות את סט האימון (כתוצאה מרעש‪ ,‬בעיות‬
‫במדידה וכו')‪ .‬במקרה זה‪ ,‬הגדלת משקל הרגולריזציה מאפשרת למודל לתת משקל נמוך יותר לדוגמאות הלא מייצגות‪,‬‬
‫מכיוון שמחירן גבוה מדי‪ ,‬כפי שניתן לראות בגרף‪ .‬מחירן של הנקודות החריגות גבוה‪ ,‬כי כדי שהפונקציה תתאים יותר טוב‬
‫לנקודות החריגות היא צריכה להיות עם פיתול כולל גבוה‪ ,‬וזה גורר מחיר רגולריזציה גבוה‪.‬‬
‫בחירה מיטבית של הפרמטר 𝜆 קשורה כמובןב אופי הבעיה‪ ,‬במאפיינים שנבחרו‪ ,‬ובסדרת הדוגמאות‪ .‬קיימות לשם כך גישות‬
‫תיאורטיות שונות‪ .‬שיטות מעשיות יותר מבוססות על שימוש בסדרת האימות 𝑡𝑒𝑠 𝑛𝑜𝑖𝑡𝑎𝑑𝑖𝑙𝑎𝑉 במהלך תהליך הלמידה כדי‬
‫לזהות את הערך המיטבי‪.‬‬
‫רגולריזציה על ידי נורמת ה 𝟏𝓵‬

‫כאשר אנחנו עם מספר רב של מאפיינים‪ ,‬ניתן להפעיל את אלגוריתם מינימום ריבועים עם כל המאפיינים ולמחוק‬
‫מאפיינים שמקדמיהם בפתרון האופטימלי הם קטנים‪ .‬הבעיה היא שבד"כ יש מספר רב של מקדמים קטנים‪ ,‬אך לא‬
‫בהכרח זניחים‪.‬‬
‫פונקציית רגולריזציה אפקטיבית יותר לצורך זה היא נורמת ‪ ℓ1‬של וקטור הפרמטרים‪:‬‬
‫𝑀‬
‫| 𝑚𝜃| ∑ ≜ ‪𝑔(𝜃) = ‖𝜃‖1‬‬

‫‪𝑚=1‬‬
‫בעיית האופטימיזציה המתקבלת למודל לינארי היא מינימיזציה של פונקציית המחיר הבאה‪:‬‬
‫𝑛‬
‫‪2‬‬
‫‪𝐸𝜆 (𝜃) = ∑(𝑦𝑖 − 𝜃 𝑇 𝜙(𝑥𝑖 )) + 𝜆‖𝜃‖1‬‬
‫‪𝑖=1‬‬
‫האיבר הראשון יהיה עדיין ריבועי‪ .‬במקרה זה מקדמים רבים יהיו אפס ממש‪ ,‬כיוון שמקדמים קטנים משפיעים על‬
‫האיבר השני יותר מאשר על הראשון‪ .‬במקרה זה לא ניתן לקבל ביטוי אנליטי עבור וקטור הפרמטרים האופטימלי‪ ,‬אולם‬
‫קיימים אלגוריתמים יעילים לפתרון נומרי של הבעיה‪.‬‬
‫‪28‬‬
‫דוגמא לבעיית רגרסיה עם רגולריזציה‬
‫‪1‬‬ ‫‪1‬‬
‫עבור פונק' מחיר ריבועי ואיבר רגולריזציה ‪.𝐿(𝑤) = 2 𝑤 𝑇 (𝑋𝑋 𝑇 + 𝜆𝐼)𝑤 − 𝑤 𝑇 𝑋𝑦 + 2 𝑦 𝑇 𝑦 :ℓ2‬‬
‫אחרי גזירה נקבל 𝑦𝑋 ‪̂ = (𝑋𝑋 𝑇 + 𝜆𝐼)−1‬‬

‫𝑤‪ .‬כיוון שפונק' המחיר קמורה‪ ,‬נקבל נק' מינימום‪.‬‬
‫אם קיים וקטור מאפיינים 𝑚‪ Φ: ℝ𝑑 → ℝ‬נקבל מאותו חישוב 𝑚‪̂ = (ΦΦ𝑇 + 𝜆𝐼)−1 Φ𝑦 ∈ ℝ‬‬
‫𝑤‪.‬‬
‫עבור משערך )𝑥(‪ , 𝑦̂ = 𝑓(𝑤, 𝑥) = 𝑤 𝑇 Φ‬הערך של ‪ m‬יכול להיות מאוד גדול ונקבל סיבוכיות חישוב גדולה מאוד‪ .‬לכן‬
‫נשתמש בפונקציית גרעין )𝑧(‪ 𝐾(𝑥, 𝑧) = Φ(𝑥)𝑇 Φ‬ונקבל‪:‬‬
‫𝑛‬ ‫… ) ‪𝐾(𝑥1 , 𝑥1‬‬ ‫) 𝑛𝑥 ‪𝐾(𝑥1 ,‬‬

‫𝑇‪𝑇 (Φ‬‬ ‫𝑇‪−‬‬ ‫𝑇‬ ‫⋮‬ ‫⋮‬
‫𝑤‬
‫‪̂ = ∑ 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥) ,‬‬ ‫𝑦=𝛼‬ ‫)𝐼𝜆 ‪Φ +‬‬ ‫( = ‪,Φ Φ‬‬ ‫)‬
‫‪𝑖=1‬‬ ‫… ) ‪𝐾(𝑥𝑛 , 𝑥1‬‬ ‫) 𝑛𝑥 ‪𝐾(𝑥𝑛 ,‬‬
‫אם כל המשקולות חיוביות‪ ,‬מגדירים 𝑤 = ‪̃ 2‬‬

‫𝑤‪ ,‬ונבצע אופטימזיציה עבור הפרמטר החדש‪ .‬על מנת לחזור לצורה המקורית‪,‬‬
‫נציב חזרה בסוף הריצה‪ .‬ניתן לחזור על הטריק במקרה של רגולריזציה‪.‬‬
‫אופטימיזציה ללא אילוצים‬

‫נרצה למצוא את הערך ‪ x‬עבורו הפונקציה )𝑥(𝑓מינימאלית‪ .‬כלומר יש למצוא ∗ 𝑥 המקיים 𝛺 ∈ 𝑥∀)𝑥(𝑓 ≤ ) ∗ 𝑥(𝑓‪.‬‬
‫תנאים לאופטימאליות לבעיית האופטימיזציה‬
‫)𝑤(𝑓 𝑛𝑛𝑖𝑚 𝑔𝑟𝑎 ∈ ∗ 𝑤 קיים פתרון אם ‪ f‬גזירה אז ‪ , 𝛻𝑓(𝑤 ∗ ) = 0‬בנוסף אם גזירה פעמיים אז נדרוש גם ≻ ) ∗ 𝑤(𝐻‬
‫‪𝑤∈ℝ‬‬
‫‪( 0‬הסיאן מוגדרת חיובית‪ ,‬כלומר כל ערכיה העצמיים חיוביים)‪.‬‬
‫𝑓 ‪𝜕2‬‬ ‫𝑓 ‪𝜕2‬‬
‫‪𝜕𝑤 2‬‬
‫…‬ ‫𝑛𝑤𝜕 ‪𝜕𝑤1‬‬
‫≡ )𝑤(𝑓 ‪𝛻(𝑓(𝑤)𝑇 ⋅ 𝑔(𝑤)) = (𝛻𝑓 𝑇 )𝑔 + (𝛻𝑔𝑇 )𝑓 , 𝐻 ≜ 𝛻 2‬‬ ‫⋮‬ ‫⋮‬ ‫כזכור‪,‬‬
‫𝑓 ‪𝜕2‬‬ ‫𝑓 ‪𝜕2‬‬
‫‪[𝜕𝑤𝑛 𝜕𝑤1‬‬ ‫…‬ ‫𝑛𝑤𝜕‬‫‪2‬‬ ‫]‬
‫אלגוריתם הגרדיאנט ‪Gradient Descent‬‬
‫האלגוריתם האיטרטיבי הפשוט ביותר לבעיית האופטימיזציה של בעיות למידה הינו אלגוריתם הגרדיאנט‪.‬‬
‫כזכור‪ ,‬הגרדיאנט ‪ ∇𝜃 ℎ‬מציין את הכיוון (במרחב הפרמטרים) בו הפונקציה עולה בשיפוע מרבי‪ .‬עבור פונקציה גזירה‪:‬‬
‫… ‪𝜃(𝑡 + 1) = 𝜃(𝑡) − 𝜂𝛻𝜃 ℎ(𝜃(𝑡)), 𝑡 = 0,1,‬‬

‫)‪ 𝜃(0‬הוא ערך התחלתי נבחר ו ‪ 𝜂 > 0‬נקרא גודל הצעד‪ ,‬או קצב הלימוד‪.‬‬
‫גודל הצעד עשוי להיות קבוע או משתנה‪ .‬חישוב האלגוריתם ממשיך עד לקיום תנאי עצירה מתאים – למשל שינוי קטן‬
‫בפרמטרים במשך מספר צעדים‪ .‬אלגוריתם הגרדיאנט מבטיח התכנסות למינימום מקומי‪.‬‬
‫אם הפונקציה ‪( convex‬קמורה)‪ ,‬זהו גם המינימום הגלובלי‪.‬‬
‫חישוב הגרדיאנט למודל הלינארי‬

‫נתבונן שוב בבעיית הריבועים הפחותים עם רגולריזציה ריבועית (נחלק ב‪ 1‬לשם נוחיות הגזירה)‪.‬‬
‫לבעיה זו פתרון סגור‪ ,‬אולם הוא כרוך בהפיכת המטריצה 𝑅𝜆 ‪ . 𝛷𝑇 𝛷 +‬זו מטריצה ריבועית במימד זהה למספר הפרמטרים‪.‬‬
‫כאשר המספר גדול (אלפים ויותר)‪ ,‬ההיפוך אינו מעשי ויש להיעזר בשיטות איטרטיביות לאופטימיזציה‪.‬‬
‫𝑛‬
‫𝜃𝑅𝜆 ‪𝛻𝐸𝜆 = − ∑ 𝜙(𝑥𝑖 )(𝑦𝑖 − 𝜙(𝑥𝑖 )𝑇 𝜃) +‬‬

‫‪𝑖=1‬‬
‫‪29‬‬
‫אלגוריתם הגרדיאנט הינו בהתאם לכך‪:‬‬
‫𝑛‬
‫)𝜃 𝑇) 𝑖𝑥(𝜙 ‪𝜃(𝑡 + 1) = (𝐼 − 𝜂𝜆𝑅)𝜃(𝑡) + 𝜂 ∑ 𝜙(𝑥𝑖 )(𝑦𝑖 −‬‬

‫‪𝑖=1‬‬
‫ניתן לראות כי איבר הגולריזציה שואף לכווץ במעט את )𝑡(𝜃 בכל איטרציה‪.‬‬
‫נרשום את האלגוריתם שקיבלנו באופן סקלרי‪:‬‬
‫} 𝑀𝑟 ‪.𝑅 = 𝑑𝑖𝑎𝑔{𝑟1 , … ,‬‬ ‫נניח כי ‪ R‬הינה מטריצה אלכסונית‬
‫)𝑡(𝜃 𝑇) 𝑖𝑥(𝜙 ‪𝑒𝑖 (𝑡) = 𝑦𝑖 −‬‬ ‫נסמן שגיאת חיזוי של דוגמא ‪ i‬עבור פרמטר )𝑡(𝜃‬
‫ניתן לראות כי רכיב ‪ m‬של 𝜃 מתעדכן באופן הבא‪:‬‬
‫𝑛‬
‫)𝑡( 𝑖𝑒) 𝑖𝑥( 𝑚𝜙 ∑ 𝜂 ‪𝜃𝑚 (𝑡 + 1) = (𝐼 − 𝜂𝜆𝑟𝑚 )𝜃𝑚 (𝑡) +‬‬

‫‪𝑖=1‬‬
‫כלומר העדכון הוא לפי סכום מכפלת השגיאה עדכון שגיאות החיזוי בערך המאפיין המתאים לפרמטר‪.‬‬
‫נוסחת העדכון לעיל עושה שימוש בו זמני בכל סדרת הדוגמאות‪ .‬עדכון מסוג זה נקרא עדכוון אצווה (‪.)batch‬‬
‫אלגוריתם עדכון סדרתי‬

‫במקום עדכון אצווה ( ‪ )batch‬המתואר למעלה‪ ,‬ניתן לעדכן את וקטור הפרמטרים ע"י בחירה סידרתית של דוגמאות‪ .‬כלומר‬
‫באיטרציה ‪ t‬של האלגוריתם אנו בוחרים דוגמא בודדת ומחשבים בעזרתה‪ .‬את פעולת הרגולריזציה ניתן לבצע בכל מספר‬
‫צעדים‪.‬‬
‫אלגוריתם הגרדיאנט הסטוכסטי ‪SGD: stochastic gradient descent‬‬
‫בגרסא זו נעשה שימוש חוזר בסדרת הדוגמאות‪ ,‬כאשר בכל סבב עוברים על כל הדוגמאות בסדר אקראי‪ .‬אלגוריתם זה יכול‬
‫להאיץ משמעותית חישוב של כל איטרציה באלגוריתם‪ ,‬למשל כאשר יש הרבה דוגמאות והגרדיאנטים שלכולם לא נכנסים‬
‫לזיכרון המחשב‪ .‬בנוסך‪ ,‬אמפירים נראה שאלגוריתם זה משפר את איכות הפתרון בבעיות אופטימיזציה לא קמורות‬
‫מסוימות‪ ,‬ונעשה בו שימוש נרחב ביישומי למידה כגון אימון רשתות ניורונים‪.‬‬
‫בחירת גודל הצעד‬
‫אבחנה כללית לגבי גודל הצעד של האלגוריתם היא כי הוא צריך להיות גדול בתחילת הלימוד‪ ,‬ולקטון ככל שמתקרבים‬
‫לפתרון כדי לשפר את הדיוק‪ .‬אלגוריתם נפוץ – ‪ADAM – adaptive Moment Estimation‬‬
‫מודל לינארי עם פונקציית אקטיבציה‬
‫לעתים נדרש להוסיף למודל הלינארי הבסיסי‪ 𝑓𝜃 (𝑥) = 𝜃 𝑇 𝜙(𝑥) ,‬פונקציה לא‪-‬לינארית ביציאה‪ ,‬דהיינו‪:‬‬
‫))𝑥(𝜙 𝑇 𝜃(𝑔 = )𝑥( 𝜃𝑓‬
‫הפונקציה 𝑔 היא באופן טיפוסי פונקציה עולה‪ ,‬גזירה‪ ,‬ובעלת צורת סיגמואיד‪ .‬מודל זה משמש גם כאבן הבניין היסודית‬
‫ברשת נוירונים מלאכותית‪ .‬השגיאה הריבועית הכוללת תהיה עתה‪:‬‬
‫𝑛‬ ‫𝑛‬
‫‪1‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫‪2‬‬
‫) )) 𝑖𝑥(𝜙 𝑇 𝜃(𝑔 ‪𝐸(𝜃) ≜ ∑(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) = ∑(𝑦𝑖 −‬‬
‫‪2‬‬ ‫‪2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫במקרה זה לא ניתן לחשב אנליטית את הפרמטר האופטימלי הממזער את השגיאה‪ ,‬אך ניתן עדיין להפעיל את אלגוריתם‬
‫הגרדיאנט לקבלת נקודת מינימום מקומי‪ .‬הגרדיאנט המתקבל פה‪:‬‬
‫𝑛‬
‫))𝜃 𝑇) 𝑘𝑥(𝜙(𝑔 ‪∇𝜃 𝐸(𝜃) = − ∑ 𝑔′ (𝜃 𝑇 𝜙(𝑥𝑘 )) ⋅ 𝜙(𝑥𝑘 )(𝑦𝑘 −‬‬

‫‪𝑘=1‬‬
‫‪31‬‬
‫פרוש סטטיסטי לבעיית הרגרסיה‬
‫בסעיפים הקודמים נעזרנו לצורך התאמת הפרמטרים בפונקציית מחיר מסוימת – השגיאה הריבועית הכוללת‪ ,‬וכן הוספנו‬
‫איבר רגולריזציה ריבועי‪ .‬פונקציות אלו לא נבעו משיקולים יסודיים‪ ,‬אלא בעיקר משיקולי נוחות חישובית‪ .‬בסעיף זה נראה‬
‫כי ניתן להצדיק בחירות אלו בעזרת מודל סטטיסטי מתאים‪.‬‬
‫מודל הרגרסיה הבסיסי ופונקציית השגיאה הריבועית‬
‫המודל הבסיסי לבעיית הרגרסיה מניח כי הקשר בין הקלט לפלט בסדרת הדוגמאות הנתונה הינו 𝑖𝜀 ‪𝑦𝑖 = 𝑓0 (𝑥𝑖 ) +‬‬
‫‪ 𝑓0‬היא פונקציה לא ידועה‪ ,‬הקרויה פונקציית הרגרסיה‪ .‬בגרסא הפרמטרית‪ ,‬נניח כי שייכת למשפחה פרמטרית‬ ‫‪‬‬
‫נתונה }‪ ℱ = {𝑓𝜃 (𝑥), 𝜃 ∈ Θ‬כלומר עבור 𝜃 כלשהיא‪.𝑓𝜃 = 𝑓0 ,‬‬
‫𝑖𝜀 הינה סדרת רעש אשר מייצגת את ההפרש בין הערך האמיתי לערך הנמדד‪ .‬אנו מניחים כי זו סדרה של‬ ‫‪‬‬
‫משתנים אקראיים בעלי תוחלת ‪ ,1‬ובלתי תלויים בקלט‪.‬‬
‫מתאור זה נובע כי ) 𝑖𝑥( 𝜃𝑓 = )𝜃 ‪ . 𝐸(𝑦𝑖 |𝑥𝑖 ,‬נראה עתה כי בהנחת רעש גאוסי‪ ,‬משערך הסבירות המירבית של 𝐸𝐿𝑀̂𝜃 מתקבל‬
‫ע"י מינימיזציה של שגיאה הריבועית הכוללת‪.‬‬
‫נזכיר כי משערך הסבירות המירבית מתקבל על ידי מקסימיזציה של פונקציית הסבירות‪ .‬את פונקציית הסבירות נהוג להגדיר‬
‫בבעיות רגרסיה כך‪:‬‬
‫)𝜃 ‪𝐿(𝜃) = 𝑝(𝑦1 , … , 𝑦𝑛 |𝑥1 , … , 𝑥𝑛 ,‬‬
‫כלומר‪ :‬זו סבירות התגיות בהינתן ערכי קלט נתונים ופרמטר לא ידוע 𝜃‪.‬‬
‫טענה ‪ :6‬נניח כי ) ‪ ,𝜀𝑖 ~𝑁(0, 𝜎 2‬משתנים גאוסיים בת"ס בעלי ממוצע ‪ 1‬ושונות נתונה ‪ .𝜎 2‬אזי משערך הסבירות המירבית של‬
‫וקטור הפרמטרים 𝜃 נתון על ידי‪:‬‬
‫𝑛‬
‫‪2‬‬
‫)) 𝑖𝑥( 𝜃𝑓 ‪𝜃̂𝑀𝐿𝐸 = arg min ∑(𝑦𝑖 −‬‬
‫‪𝜃∈Θ‬‬
‫‪𝑖=1‬‬
‫הוכחה‪ :‬בהתאים להנחות אי התלות המותנית של הדוגמאות‪ ,‬פונקציית הסבירות הינה‪:‬‬
‫𝑛‬ ‫𝑛‬
‫)𝜃 ‪𝐿(𝜃) ≜ 𝑝(𝑦1 , … , 𝑦𝑛 |𝑥1 , … , 𝑥𝑛 , 𝜃) = ∏ 𝑝(𝑦𝑖 |𝑥𝑖 , 𝜃) = ∏ 𝑝(𝑦𝑖 = 𝑓𝜃 (𝑥𝑖 ) + 𝜀𝑖 |𝑥𝑖 ,‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫𝑛‬ ‫𝑛‬ ‫‪2‬‬ ‫𝑛‬ ‫‪2‬‬
‫‪1‬‬ ‫)) 𝑥( 𝑓‪(𝑦 −‬‬
‫𝑖 ‪− 𝑖 𝜃2‬‬ ‫))𝑖𝑥( 𝜃‪1 𝑛 −∑𝑖=1(𝑦𝑖−𝑓2‬‬
‫∏ = )𝜃 ‪= ∏ 𝑝(𝜀𝑖 = 𝑓𝜃 (𝑥𝑖 ) − 𝑦𝑖 |𝑥𝑖 ,‬‬ ‫𝑒‬ ‫𝜎‪2‬‬ ‫=‬ ‫(‬ ‫𝑒 )‬ ‫𝜎‪2‬‬
‫‪2𝜋𝜎 2‬‬ ‫‪2𝜋𝜎 2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫הטענה מתקבלת כיוון שמיקסום )𝜃(𝐿 שקול למיזעור הסכום בחזקה‪.‬‬
‫מודל רגרסיה בייסאני ופונקציית הרגולריזציה‬
‫נתבונן עתה בבעיית השערוך של 𝜃 במסגרת בייסיאנית‪ :‬בפרט‪ ,‬נניח כי 𝑀‪ 𝜃 ∈ ℝ‬הוא וקטור אקראי גאוסי עם ממוצע אפס‬
‫ומטריצת קווריאנס ידועה ‪ .θ~N(0, Σ) :Σ > 0‬זהו הפילוג פריור של 𝜃‪ .‬יתר המודל ללא שינוי‪ ,‬בפרט הרעש הגאוסי‪.‬‬
‫טענה ‪ :0‬משערך ההסתברות המירבית בדיעבד ‪ MAP‬עבור הפרמטר ‪ θ‬נתון על ידי‪:‬‬
‫𝑛‬
‫‪1‬‬ ‫‪2‬‬ ‫‪1‬‬
‫‪𝜃̂𝑀𝐴𝑃 = arg min‬‬ ‫‪2‬‬
‫𝜃 ‪∑(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) + 𝜃 𝑇 Σ−1‬‬
‫𝜎‪𝜃∈Θ 2‬‬ ‫‪2‬‬
‫‪𝑖=1‬‬
‫‪30‬‬
‫הוכחה‪ :‬נראה ראשית כי )𝜃( 𝑜𝑝)𝜃(𝐿 𝑀‪𝜃̂𝑀𝐴𝑃 ≜ arg max𝑀 𝑝(𝜃|𝑑) = arg max‬‬
‫‪𝜃∈ℝ‬‬ ‫‪𝜃∈ℝ‬‬
‫נסמן לשם קיצור ) 𝑛𝑥 ‪ .𝑦1:𝑛 = (𝑦1 , . . , 𝑦𝑛 ), 𝑥1:𝑛 = (𝑥1 , . . ,‬לפי משפט בייס‪:‬‬
‫)𝜃| 𝑛‪𝑝(𝑦1:𝑛 |𝑥1:𝑛 , 𝜃) ⋅ 𝑝0 (𝜃) ⋅ 𝑝(𝑥1:‬‬ ‫) 𝑛‪𝑝(𝑥1:‬‬

‫= ) 𝑛‪𝑝(𝜃|𝐷) = 𝑝(𝜃|𝑥1:𝑛 , 𝑦1:‬‬ ‫)𝜃( ‪= 𝐿(𝜃)𝑝0‬‬
‫)𝐷(𝑝‬ ‫)𝐷(𝑝‬
‫כאשר השוויון האחרון נובע מהגדרת פונקציית הסבירות למעלה‪ ,‬ומאי התלות של 𝑛‪ 𝑥1:‬ב𝜃‪ .‬הטענה לעיל מתקבלת כיוון‬
‫שהשבר האחרון אינו תלוי ב 𝜃‪ .‬עתה‪ ,‬הצבת הביטוי שקיבלנו קודם עבור פונקציית הסבירות והצבת הפילוג הגאוסי‬
‫‪1 𝑇 −1‬‬
‫𝜃‪𝑝0 (𝜃) = 𝐶0 𝑒 −2‬‬ ‫𝜃 ‪Σ‬‬
‫נותנים את הנדרש באופן דומה לקודם‪.‬‬
‫האיבר הריבועי הנוסף בטענה ‪ 1‬זהה בצורתו לאיבר הרגולריזציה הריבועי 𝜃𝑅 𝑇 𝜃 = )𝜃(𝑔 מהסעיפים הקודמים‪ .‬איבר זה‬
‫מתקבל פה מתוך הפילוג הראשוני של הפרמטר 𝜃‪ .‬בפרט‪ ,‬איבר זה בעל משקל יחסי גדול יותר ככל שהקווריאנס ‪ Σ‬קטן יותר‪,‬‬
‫כלומר ככל שההנחה לגבי הפילוג הראשוני של 𝜃 הדוקה יותר‪.‬‬
‫‪32‬‬
‫סיווג לינארי‬
‫במסגרת הגישה הגנרטיבית לסיווג‪ ,‬פיתחנו חוקי החלטה בייסיאניים אופטימליים עבור פילוגים גאוסיים וקיבלנו מודלים‬
‫לינאריים לסיווג‪.‬‬
‫כעת נתמקד בגישה הדיסקרימינטיבית‪ ,‬בה אנחנו קובעים מראש משפחה פרמטרית מסוימת של מסווגים (משפחה לינארית‬
‫במקרה הנוכחי) ומכווננים את הפרמטרים בהתאם לסדרת הלימוד‪.‬‬
‫עבור בעיית הסיווג הבינארית‪ ,‬מסווג לינארי יהיה מהצורה ‪∑𝑑𝑗=1 𝑤(𝑗)𝑥(𝑗) + 𝑏 ≡ 𝑤 𝑇 𝑥 + 𝑏 > 0 ? 𝐶1 ∶ 𝐶2:‬‬
‫כלומר‪ ,‬הסיווג הוא לפי הסימן של הפונקציה הלינארית )𝑏 ‪.𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬‬
‫נתאר אלגוריתמים שונים לכוונון הפרמטרים } 𝑘𝑏 ‪ {𝑤𝑘 ,‬לתיאור סיווג ‪ K‬מחלקות בעזרת סדרת הלימוד‪.‬‬
‫גיאומטריה של הפרדה לינארית‬
‫חוק ההחלטה הבינארי מחלק את מרחב הקלט 𝑑‪ 𝑥 ∈ ℝ‬לשני חצאי מרחב‪ ,‬לפי הסימן‪ ,‬אשר מופרדים ע"י משטח ההפרדה‬
‫הלינארי‪ .‬זהו ‪ hyperplane‬במרחב הקלט‪.‬‬
‫כיוון העל‪-‬מישור 𝑏 ‪ 𝑤 𝑇 𝑥 +‬נקבע על ידי הוקטור 𝑤 והוא מאונך אליו‪.‬‬
‫כלומר ‪ 𝑤 𝑇 (𝑥𝑎 − 𝑥𝑏 ) = 0‬לכל שתי נקודות 𝑏𝑥 ‪ 𝑥𝑎 ,‬בעל מישור זה‪.‬‬
‫סדרת דוגמאות מתויגות ניתנת להפרדה לינארית אם קיים על‪-‬מישור במרחב ‪ x‬אשר מפריד באופן מלא בין הדוגמאות‬
‫בהתאם לסימנן‪ ,‬כלומר קיימים פרמטרים )‪ (w,b‬המקיימים 𝑛 ‪.𝑦𝑖 = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 + 𝑏), ∀𝑖 = 1, … ,‬‬
‫עבור סדרה שאינה ניתנת להפרדה לינארית (לדוגמא‪ ,)XOR ,‬ניתן לפתור באופן חלקי על ידי שימוש בוקטור מאפיינים‬
‫מתאים במקום הקלט הגולמי )‪.yi = sign(w T ϕ(xi ) + b‬‬
‫מסווג לינארי כללי‬

‫רכיב בעל ‪ d‬כניסות ויציאה בודדת‪𝑦 = 𝜑(∑𝑑𝑘=1 𝑤𝑘 𝑥𝑘 + 𝑏) = 𝜑(𝑤 𝑇 𝑥) + 𝑏 :‬‬
‫אופי המסווג נקבע לפי פונקציית האקטיבציה‪.‬‬
‫כדי לשמור על הסימטריה בין המשקולות ואיבר ההיסט‪ ,‬נהוג להגדיר כניסה נוספת ‪ 𝑥(0) = 1‬כך ש‪-‬‬
‫)𝑘(𝑥 𝑘𝑤 ‪.∑𝑑𝑘=1 𝑤𝑘 𝑥(𝑘) + 𝑏 = ∑𝑑𝑘=0‬‬
‫פונקציות אקטיבציה שכיחות‬

‫פרספטרון לינארי ))‪φ(v) = v, sign(φ(v‬‬ ‫‪‬‬
‫‪1‬‬ ‫‪1‬‬
‫= )‪φ(v‬‬ ‫‪1+e−v‬‬
‫)‪, φ(v‬‬
‫פונקצית אקטיבציה לוגיסטית ‪≥ 2‬‬ ‫‪‬‬
‫‪c2v −1‬‬
‫פונקציית אקטיבציה טנגנס היפרבולי ))‪φ(v) = tanh(v) = c2v +1 , sign(φ(v‬‬ ‫‪‬‬
‫‪33‬‬
‫אלגוריתם הפרספטרון‬
‫לצורך פשטות התאור‪ ,‬נבצע את המעבר הבא‪:‬‬
‫𝑇‬ ‫𝑇‬
‫))𝑑(𝑥 ‪𝑥 = (𝑥(1), … , 𝑥(𝑑)) → 𝑥 = (1, 𝑥(1), . . ,‬‬
‫𝑇‬ ‫𝑇‬
‫))𝑑(𝑤 ‪𝑤 = (𝑤(1), … , 𝑤(𝑑)) → 𝑤 = (𝑏, 𝑤(1), . . ,‬‬
‫כך שמתקבל )𝑥 𝑇 𝜃(𝑛𝑔𝑖𝑠 = )𝑥(̂𝑦‬
‫אנו מניחים כי סדרת הלימוד שלנו ניתנת להפרדה לינארית‪ .‬מטרתנו למצוא וקטור פרמטרים שמקיים הפרדה זו‪.‬‬
‫אלגוריתם לימוד הפרספטרון‬

‫אתחול )‪ 𝜃(0‬כלשהוא‪.‬‬ ‫‪‬‬
‫בכל צעד ‪ t‬של האלגוריתם‪:‬‬ ‫‪‬‬
‫‪ o‬נבחר דוגמא כלשהי‪ ,‬ונחשב ) 𝑡𝑥 𝑇𝑡𝜃(𝑛𝑔𝑖𝑠 = 𝑡̂𝑦‬
‫‪1‬‬
‫‪ o‬עדכון המשקלים 𝑡𝑥) 𝑡̂𝑦 ‪𝜃𝑡+1 = 𝜃𝑡 + (𝑦𝑡 −‬‬
‫‪2‬‬
‫כאשר 𝑡𝑦 = 𝑡̂𝑦 הסיווג של הדוגמא בזמן ‪ t‬נכון ובמקרה זה לא מתבצע עדכון משקלים‪.‬‬
‫כאשר ‪ ,𝑦𝑡 = 1, 𝑦̂𝑡 = −1‬ערך המסווג קטן מדי‪ ,‬וכדי להגדילו יש להגדיל את 𝑡𝑥 𝑇𝑡𝜃‪ .‬האלגוריתם מוסיף לו את הווקטור‬
‫𝑇‬
‫‪ .𝜃𝑡+1‬כאשר הערכים הפוכים‪ ,‬נחסיר נורמה זו‪.‬‬ ‫ומתקבל ‪𝑥𝑡 = (𝜃𝑡 + 𝑥𝑡 )𝑇 = 𝜃𝑡𝑇 𝑥𝑡 + ‖𝑥𝑡 ‖2‬‬
‫משפט התכנסות הפרספטרון‬
‫נניח כי אוסף הדוגמאות ‪ {𝑥𝑖 , 𝑦𝑖 }𝑛𝑖=1‬ניתן להפרדה לינארית‪ .‬נניח גם כי כל דוגמה באוסף נבחרת מספר בלתי חסום של‬
‫פעמים‪ .‬אזי אלגוריתם לימוד הפרפסטרון מתכנס בתוך מספר סופי של צעדים לוקטור פרמטרים ∗ 𝜃 שמסווג נכונה את כל‬
‫הדוגמאות‪.‬‬
‫רגרסיה לוגיסטית‬
‫מסגרת נפוצה ללימוד מסווג פרמטרי‪.‬‬
‫נלמד מודל פרמטרי להסתברויות הסיווג ]‪ . 𝑝(𝐶𝑘 |𝑥) ≈ 𝑔𝑘 (𝑥; 𝜃) ∈ [0,1‬הפונקציה 𝑔 נלקחת מתוך מודל פרמטרי מתאים‬
‫לתיאור הסתברויות‪.‬‬
‫מסווג שבמוצאו הסתברויות לחלוקה למחלקות נקרא "מסווג רך"‪ ,‬והמסווג עם ההסתברות המקסימלית נקרא "מסווג‬
‫קשיח"‪.‬‬
‫)𝜃 ;𝑥( 𝑘𝑔 𝑥𝑎𝑚 𝑔𝑟𝑎 = )𝑥( ̂𝐶‬
‫𝐾‪𝑘=1,…,‬‬
‫המודל הלוגיסטי מוגדר כך באופן כללי‪:‬‬
‫) 𝑘𝜃;𝑥( 𝑘𝑓 𝑒‬
‫= )𝜃 ;𝑥( 𝑘𝑔‬ ‫𝐾 ‪, 𝑘 = 1, … ,‬‬
‫𝐾∑‬ ‫) 𝑗𝜃;𝑥( 𝑗𝑓‬
‫𝑒 ‪𝑗=1‬‬
‫הפונקציה ) 𝑘𝜃 ;𝑥( 𝑘𝑓 שייכת למשפחה פרמטרית כלשהיא בעלת וקטור פרמטרים‪ ,‬ומקבל ערכים ממשיים‪ .‬עבור ערכים שונים‬
‫של 𝑘𝑓 מתקיים‪:‬‬
‫𝐾‬
‫]‪∑ 𝑔𝑘 = 1 , 𝑔𝑘 ∈ [0,1‬‬
‫‪𝑘=1‬‬
‫המעבר מערכי 𝑓 לערכי 𝑔 נקרא התמרה לוגיסטית‪.‬‬

‫איפוס מחלקה 𝑲‪ :‬ניתן לראות כי ערכי 𝑔 תלויים רק בהפרשים בין ערכי 𝑓‪ .‬ע"מ למנוע כפילות‪ ,‬מקובל לקבע‬
‫‪ .𝑓𝐾 (𝑥; 𝜃𝐾 ) ≡ 0‬לכן הפרמטרים הנלמדים הם ‪ .𝜃1 , … 𝜃𝐾−1‬כעת ההתמרה הלוגיסטית היא חח"ע‪.‬‬
‫) ‪𝑒 𝑓1 (𝑥;𝜃1‬‬ ‫‪1‬‬
‫‪𝑔1 (𝑥; 𝜃1 ) = 𝑒 𝑓1(𝑥;𝜃1) +1 = 1+𝑒 −𝑓1 (𝑥;𝜃1 ) ,‬‬ ‫= ) ‪𝑔2 (𝑥; 𝜃2‬‬ ‫המקרה הבינארי‪ :‬עבור המקרה הבינארי עם ‪ 𝑓2 ≡ 0‬נקבל‬
‫‪1‬‬
‫) ‪1+𝑒 𝑓1(𝑥;𝜃1‬‬
‫‪34‬‬
‫ניתן לראות כי ) ‪ .𝑔2 (𝑥; 𝜃2 ) = 1 − 𝑔1 (𝑥; 𝜃1‬במקרה זה נדרש ללמוד רק פונקציה יחידה‪ 𝑓 ,‬או 𝑔‪.‬‬
‫המודל הלוגיסטי הלינארי‪ :‬זהו המקרה המיוחד שבו ) 𝑘𝜃 ;𝑥( 𝑘𝑓 נבחרת במשפחה הלינארית בפרמטרים‪:‬‬
‫)𝑥(𝜙 𝑇𝑘𝜃 = ) 𝑘𝜃 ;𝑥( 𝑘𝑓‬
‫לפיכך‪,‬‬
‫𝑇‬
‫)𝑥(𝜙 𝑘𝜃 𝑒‬
‫= )𝜃 ;𝑥( 𝑘𝑔‬ ‫𝑇‬ ‫𝐾 ‪, 𝑘 = 1, … ,‬‬
‫)𝑥(𝜙 𝑗𝜃‬
‫𝐾∑‬
‫𝑒 ‪𝑗=1‬‬
‫נציין כי הקביעה הרגילה ‪ 𝑓𝐾 ≡ 0‬שקולה פה לבחירה ‪.𝜃𝐾 ≡ 0‬‬

‫המחלקה הנבחרת (מוצא החזאי) נקבעת כרגיל על ידי )𝜃 ;𝑥( 𝑘𝑔 ‪ .𝐶̂ (𝑥) = arg max‬במקרה הלינארי מתקבל באופן שקול‬
‫𝐾‪𝑘=1,…,‬‬
‫)𝑥(𝜙 𝑇𝑘𝜃 ‪𝐶̂ (𝑥) = arg max‬‬

‫𝐾‪𝑘=1,…,‬‬
‫כלומר‪ :‬משטחי ההפרדה הם לינאריים (במרחק המאפיינים)‪.‬‬
‫כוונון הפרמטרים‬
‫נזכיר כי )𝑥|𝑘 = 𝑌( 𝑋|𝑌𝑝 ≈ )𝜃 ;𝑥( 𝑘𝑔‪ .‬נרשום את פונקציית הסבירות המותנית בקלט‪:‬‬
‫𝑛‬
‫)𝜃 ; 𝑖𝑥| 𝑖𝑦( 𝑋|𝑌𝑝 ∏ = )𝜃 ; 𝑛𝑥 ‪𝐿(𝜃) = 𝑝𝑟𝑜𝑏(𝑦1 , … , 𝑦𝑛 |𝑥1 , . . ,‬‬

‫‪𝑖=1‬‬
‫בהצבת ‪ g‬בלוג‪-‬הסבירות ‪:‬‬

‫𝑛‬
‫))𝜃 ; 𝑖𝑥( 𝑖𝑦𝑔( 𝑛𝑙 ∑ = )𝜃(‪ℓ‬‬

‫‪𝑖=1‬‬
‫משערך הסבירות המירבית מוגדר כרגיל ע"י משערך ‪ ,MLE‬חישוב המקסימום מתבצע ע"י חישוב איטרטיבי‪.‬‬
‫נשים לב כי‪:‬‬
‫𝐾‬
‫))𝜃 ; 𝑖𝑥( 𝑘𝑔(𝑛𝑙 }𝑘 = 𝑖𝑦{𝕀 ∑ = ))𝜃 ; 𝑖𝑥( 𝑖𝑦𝑔( 𝑛𝑙‬

‫‪𝑘=1‬‬
‫ולכן‪:‬‬
‫𝑛‬ ‫𝐾‬
‫))𝜃 ; 𝑖𝑥( 𝑘𝑔(𝑛𝑙 }𝑘 = 𝑖𝑦{𝕀 ∑ ∑ = )𝜃(‪ℓ‬‬

‫‪𝑖=1 𝑘=1‬‬
‫𝑇‬
‫אם נגדיר }𝑘 = 𝑖𝑦{𝕀 = 𝑖̃𝑦‪ ,‬נקבל כי הוקטור ))𝐾( 𝑖̃𝑦 ‪ 𝑦̃𝑖 = (𝑦̃𝑖 (1), … ,‬הוא וקטור הסתברות המייצג את התוויות‬
‫כהסתברויות‪ ,‬שכולו ‪ 1‬פרט ל‪ 0‬במקום ה ‪ .𝑘 -‬כלומר וקטור היחידה 𝑘𝑒 ‪.‬‬
‫)‪ ,𝑦̃(2‬ונוכל לרשום‪:‬‬
‫𝑖‬ ‫)‪= 1 − 𝑦̃(1‬‬
‫𝑖‬ ‫במקרה הבינארי‪𝑔2 = 1 − 𝑔1 ,‬‬
‫‪n‬‬
‫}))‪ℓ(θ) = ∑{ỹi (1) ln(g1 (xi ; θ)) + (1 − ỹi (1)) ln(1 − g1 (xi ; θ‬‬
‫‪i=1‬‬
‫כוונון הפרמטרים‪ :‬גישת פונקציית מחיר‬

‫ניתן להבין את המשערך ‪ MLE‬גם באופן של מינימליזציה של פונקציית מחיר מתאימה‪.‬‬
‫נזכור כי במוצע המסווג הלוגיסטי וקטור ההסתברות הבא‪:‬‬
‫𝑇‬
‫))𝜃 ;𝑥( 𝐾𝑔 ‪𝑔(𝑥; 𝜃) = (𝑔1 (𝑥; 𝜃), . . ,‬‬
‫נגדיר פונקציית שגיאה על פני סדרת הלימוד אותה נרצה להביא למינימום‪:‬‬
‫‪35‬‬
‫𝑛‬
‫))𝜃 ; 𝑖𝑥(𝑔 ‪𝐸(𝜃) = ∑ 𝑑(𝑦̃𝑖 ,‬‬

‫‪𝑖=1‬‬
‫פונקציית ההפסד )𝑔 ‪ 𝑑(𝑦̃,‬היא עתה פונקציית מרחק בין שני וקטורי הסתברות‪ .‬ישנן כמה אפשרויות מתאימות לפונקציות‬
‫מרחק מתאימות‪:‬‬
‫א‪ .‬המרחק הריבועי‪:‬‬
‫𝐾‬
‫‪2‬‬
‫))𝑘(𝑞 ‪𝑑2 (𝑞, 𝑝) = ∑(𝑝(𝑘) −‬‬
‫‪𝑘=1‬‬
‫זו בחירה אפשרית אך חסרונה בכך שהיא רגישה רק להפרשי הסתברויות אך לא ליחסי הסתברויות‪ ,‬שעשויים להיות‬
‫בעלי חשיבות רבה‪.‬‬
‫ב‪ .‬מרחק ‪:Kulback-Leibler‬‬
‫𝐾‬
‫)𝑘(𝑝‬
‫( ‪𝑑𝐾𝐿 (𝑝, 𝑞) = ∑ 𝑝(𝑘) ln‬‬ ‫)‬
‫)𝑘(𝑞‬
‫‪𝑘=1‬‬
‫זו מידת מרחק מקובלת יותר בין וקטורי הסתברות‪ .‬תכונותיה‪:‬‬
‫‪( 𝑑𝐾𝐿 (𝑝, 𝑞) ≥ 0 ‬אי שוויון גיבס)‬
‫‪𝑑𝐾𝐿 (𝑝, 𝑞) = 0 ‬אם ורק אם 𝑞 = 𝑝‬
‫בחישוב 𝐿𝐾𝑑 נגדיר ‪.0 ln(0) = 0‬‬
‫הצבת המרחק הזה בנוסחת השגיאה הכללית נותן‪:‬‬
‫𝑁‬ ‫𝐾‬
‫)𝑘( 𝑖̃𝑦‬
‫(( ‪𝐸𝐾𝐿 (𝜃) = ∑ ∑ 𝑦̃𝑖 (𝑘) ln‬‬ ‫))‬
‫)𝜃 ; 𝑖𝑥( 𝑘𝑔‬
‫‪𝑖=1 𝑘=1‬‬
‫זו פונקציית השגיאה אותה נרצה להביא למינימום‪.‬‬
‫𝐾∑ ‪. ℓ(𝜃) = ∑𝑛𝑖=1‬‬ ‫הקשר לפונקציית הסבירות‪ :‬פונקציית לוג הסבירות שקיבלנו הייתה ))𝜃 ; 𝑖𝑥( 𝑘𝑔(‪̃𝑖 (𝑘) ln‬‬
‫𝑦 ‪𝑘=1‬‬
‫כיוון שהתגיות קבועות‪ ,‬ניתן לראות כי מיזעור 𝐿𝐾𝐸 שקול למיקסום )𝜃(‪ . ℓ‬כלומר שתי הגישותש תיארנו מתלכדות‪.‬‬
‫𝜆‬
‫רגולריזציה‪ :‬גם פה מקובל להוסיף איבר רגולריזציה ריבועית לפונקציית המחיר כך ש ‪.𝐸𝜆 (𝜃) = 𝐸𝐾𝐿 (𝜃) + 2 ‖𝜃‖2‬‬
‫במודל ההסתברותי‪ ,‬איבר הרגולריזציה מתקבל על ידי הנחת הפילוג האפריורי מסוים על 𝜃 ושימוש במשערך ‪ MAP‬במקום‬
‫‪1‬‬
‫‪ .MLE‬למשל‪ ,‬עבור )𝐼𝜌 ‪ 𝜃~𝑁(0,‬נקבל ‪.𝜃̂𝑀𝐴𝑃 = 𝑎𝑟𝑔 𝑚𝑎𝑥{ℓ(𝜃) − 𝜌−1 ‖𝜃‖2‬‬
‫𝜃‬ ‫‪2‬‬
‫אלגוריתם הגרדיאנט‬
‫פונקציית המשערך שהגדרנו עבור רגרסיה לוגיסטית הינה לא‪-‬לינארית‪ ,‬ולא ניתן לקבל ביטוי סגור עבור וקטור הפרמטרים‬
‫האופטימלי‪ .‬לפיכך יש להיעזר באלגוריתמי אופטימיזציה איטרטיביים‪.‬‬
‫עלינו למצוא את נקודת המקסימום של )𝜃(‪ . ℓ‬לשם פשטות נתאר את הגרסה הסדרתית של אלגוריתם הגרדיאנט‪ .‬בצעד ‪t‬‬
‫אנו בוחרים דוגמא ) 𝑡̃𝑦 ‪ (𝑥𝑡 ,‬ומחשבים‪:‬‬
‫𝐾‬
‫)) 𝑡𝜃 ; 𝑡𝑥( 𝑘𝑔(‪𝜃𝑡+1 = 𝜃𝑡 + 𝜂∇𝜃 ∑ 𝑦̃𝑡 (𝑘) ln‬‬

‫‪𝑘=1‬‬
‫ניתן להראות כי לכל 𝑡̃𝑦 = ̃𝑦 מתקיים‪:‬‬
‫𝐾‬
‫𝜕‬ ‫) 𝑘𝜃 ;𝑥( 𝑘𝑓𝜕‬
‫( ))𝜃 ;𝑥( 𝑘𝑔 ‪∑ 𝑦̃𝑡 (𝑘) ln(𝑔𝑘 (𝑥𝑡 ; 𝜃𝑡 )) = (𝑦̃(𝑘) −‬‬ ‫)‬
‫𝑘𝜃𝜕‬ ‫𝑘𝜃𝜕‬
‫‪𝑘=1‬‬
‫נגזור לפי 𝑘𝜃‪ ,‬ונקבל‪:‬‬
‫‪36‬‬
‫)) 𝑘𝜃 ;𝑥( 𝑘𝑓𝜕(‬

‫⋅ )) 𝑡𝜃 ; 𝑡𝑥( 𝑘𝑔 ‪𝜃𝑘,𝑡+1 = 𝜃𝑘,𝑡 + 𝜂(𝑦̃𝑡 (𝑘) −‬‬
‫𝑘𝜃𝜕‬
‫‪1‬‬ ‫‪2‬‬
‫בהוספת איבר רגולריזציה יתווסף איבר מתאים בפונקציית העדכון‪ .‬למשל‪ ,‬מיקסום של ||𝜃||𝜆 ‪ ℓ(𝜃) −‬גורר הוספת איבר‬
‫‪2‬‬
‫𝑡‪ −𝜂𝜆𝜃𝑘,‬בנוסחת עדכון 𝑡‪.𝜃𝑘,‬‬
‫בגרסת האצווה ‪ batch‬של האלגוריתם נסכם כמובן בכל שלב עדכון על פני כל הדוגמאות‪.‬‬
‫במקרה הלינארי‪ :‬במודל הלוגיסטי הלינארי‪ 𝑓𝑘 (𝑥; 𝜃𝑘 ) = 𝜃𝑘𝑇 𝜙(𝑥) ,‬כאשר ‪ .𝜃𝑘 ≡ 0‬לפיכך‬
‫) 𝑘𝜃 ; 𝑡𝑥( 𝑘𝑓𝜕‬
‫) 𝑡𝑥(𝜙 =‬
‫𝑘𝜃𝜕‬
‫במקרה זה ניתן להראות כי )𝜃(‪ ℓ‬היא פונקציה קעורה של הפרמטרים ולכן כל נקודת מקסימום מקומית היא מקסימום‬
‫גולבאלי‪ .‬לכן‪ ,‬התכנסות אלגוריתם הגרדיאנט תהיה לנקודת המקסימום הגלובלית (ייתכן כי נקודה זו תהיה באינסוף‪ ,‬אם‬
‫למשל הנתונים פרידים לינארית)‪.‬‬
‫באופן שקול פונקציית המחיר )𝜃( 𝐿𝐾𝐸 היא קמורה ולכן כל נקודת מינימום מקומית היא מינימום גלובאלי‪.‬‬
‫‪37‬‬
‫רשתות ניורונים מלאכותיות‬

‫𝑛‬
‫סימונים‪ :‬סדרת הדוגמאות ‪ {𝑋 (𝑖) , 𝑌 (𝑖) }𝑖=1‬כאשר וקטורים ומטריצות באותיות גדולות‪ ,‬סקלרים באותיות קטנות‪.‬‬
‫אינדקס תחתון על אות גדולה הוא מס' המט'\וקטור‪ ,‬אינדקס קטן על אות קטנה הינו מס' רכיב הוקטור‪.‬‬
‫רשתות ניורונים מלאכותיות ‪ ,ANN – Articial Neural Network‬הינן צירוף של רכיבים חישוביים פשוטים אשר צירופם‬
‫יוצר מיפוי לא לינארי בין משתני הכניסה והיציאה‪ .‬לרשתות אלה מבנה מודולרי ויכולת גידול‪ ,‬חישוב במקביליות גבוהה‬
‫ויכולת לימוד בעזרת דוגמאות‪.‬‬
‫פרספטרון בודד‬
‫המרכיב הבסיסי ברשת ניורונים מלאכותית הינו הניורון הבודד‪ ,‬המכונה פרוספטרון‪ .‬נזכיר כי מתקיים‬
‫𝑑‬
‫𝑇‬
‫‪𝑣 = 𝜑(𝑢),‬‬ ‫𝑏 ‪𝑢 = 𝑊 𝑋 + 𝑏 = ∑ 𝑤𝑗 𝑥𝑗 +‬‬
‫‪𝑗=1‬‬
‫כאשר ‪ X‬הינם משתני הכניסה‪ W ,‬הינו וקטור הפרמטרים (משקלים)‪,‬‬

‫‪ b‬הינו איבר ההטיה‪ 𝜑 ,‬פונקציית ההפעלה (אקטיבציה)‪ u ,‬הכניסה‬
‫לפונקציית ההפעלה ו ‪ v‬ערך היציאה‪.‬‬
‫לפי הגדרתו‪ ,‬הפרספטרון הבודד מוגבל לפונקציה לינארית של‬
‫הכניסות‪ ,‬בתוספת פונקצית ההפעלה הלא‪-‬לינארית ביציאה‪ .‬בהקשר‬
‫של סיווג‪ ,‬משטח ההפרדה ההפרדה במרחק ‪ X‬המתקבל ע"י = )𝑋(𝑣‬
‫𝐶 הוא על‪-‬מישור כאשר 𝜑פונקציה מונוטונית‪.‬‬
‫פונקציות הפעלה‬
‫בפרק על סיווג לינארי הזכרנו את פונקציות האקטיבציה‬

‫השכיחות‪.‬‬
‫ניתן לראות בקלות כי ‪.𝜙2 = 2𝜙1 − 1‬‬
‫הנגזרות נתונות ע"י‪:‬‬
‫רשתות היזון קדמי ‪Feed Forward Neural Networks‬‬

‫רשתות אלו כוללות מס' שכבות של ניורונים מסוג פרספטרון‪ ,‬כאשר כל שכבה מזינה את הבאה אחריה‪ .‬בפרט‪ ,‬אין היזון חוזר‬
‫לשכבות קודמות‪ .‬כאשר קיימת קישוריות מלאה בין כל שתי שכבות עוקבות‪ ,‬רשתות אלו נקראות גם פרספטרון רב שכבתי‬
‫‪ .Multi Layer Perceptron‬רשתות אלו פותרות את בעיית כח הייצוג המוגבל של פרספטרון‪.‬‬
‫‪38‬‬
‫מבנה וסימון פרספטרון רב שכבתי‬

‫שכבת הכניסה הינה הכניסות לרשת‪.‬‬ ‫‪‬‬
‫‪𝑉𝑙 = 𝜑𝑙 (𝑈𝑙 ),‬‬ ‫𝑙𝐵 ‪𝑈 = 𝑊𝑙 𝑉𝑙−1 +‬‬ ‫שאר השכבות כוללות פרוספטרונים‪ .‬יציאת שכבה נתונה ע"י‬ ‫‪‬‬
‫מתקיים 𝑂 = 𝐿𝑉 ‪( 𝑉0 = 𝑋,‬עבור רשת בעלת ‪ L‬שכבות)‪.‬‬ ‫‪‬‬
‫הערות‪:‬‬
‫לרוב פונקציית האקטיבציה זהה בכל הניורונים בכל שכבה‪ ,‬למעט השכבה האחרונה‪.‬‬
‫כאשר קיים קשר בין כל זוג ניורונים בשכבות סמוכות‪ ,‬נקראת הרשת ‪.Fully Connected‬‬
‫כח ייצוג של רשת רב שכבתית‬

‫ראינו שפרפסטרון בודד מוגבל ביציאה שלו ע"י כך שהיא תמיד בכיוון המאונך ל ‪, w‬ובבעיות סיווג הוא משרה משטח הפרדה‬
‫לינארי‪ .‬לעומת זאת‪ ,‬רשת רב שכבתית מאפשרת קירוב לפונקציה רציפה כלשהי‪.‬‬
‫משפט הקירוב האוניברסלי ‪ -‬נניח כי פונקציית ההפעלה היא פונקציה לא פולינומיאלית‪ ,‬ורציפה (או חסומה ואינטגרבילית)‪.‬‬
‫תהיי ) 𝑑𝑥 ‪ 𝑓0 : [0,1]𝑑 → 𝑋, 𝑋 = (𝑥1 , … ,‬פונקציה רציפה על קוביית היחידה‪ .‬אז ניתן לקרב את 𝑓 בקרוב טוב כרצוננו על‬
‫𝑑‬
‫𝑀∑ = )𝐵 ‪𝑓(𝑋) = 𝑊2 𝜑(𝑊1 𝑋 +‬‬ ‫) 𝑚𝑏 ‪𝑚=1 𝑤𝑚,2 𝜑(∑𝑗=1 𝑤𝑚𝑗,1 𝑥𝑗 +‬‬ ‫ידי הביטוי‪:‬‬
‫כלומר לכל ‪ ,𝜀 > 0‬ניתן למצוא קבוע 𝑀 ומשקולות ‪ 𝑏, 𝑊1 , 𝑊2‬כך שיתקיים 𝜀 ≤ |)𝑋( ‪ |𝑓(𝑋) − 𝑓0‬לכל 𝑑]‪.𝑋 ∈ [0,1‬‬
‫נשים לב כי הביטוי מתאר רשת עצבית בעלת שכבה נסתרת אחת‪ ,‬ושכבת יציאה בעלת נוירון לינארי בודד‪ .‬תוצאה זו מראה‬
‫כי רשת עצבית בעלת שכבה נסתרת אחת היא מקרב אוניברסלי לפונקציות רציפות‪ .‬בפרט‪ ,‬רשת עצבית כזו מאפשרת מימוש‬
‫תחומי החלטה (רציפים) כלשהם על ידי חוק החלטה מהצורה 𝟎 <> )𝑿(𝒇‪.‬‬
‫הערה‪ :‬הפונקציה 𝝓 יכולה להיות כל פונקציה כל עוד היא מקיימת את דרישות המשפט‪ .‬לדוגמא‪ ,‬פונק' האקטיבציה‬
‫הלוגיסטית‪ ,‬פונקציית 𝑛𝑔𝑖𝑠 ועוד‪ .‬הפונקציה ‪ 𝝓(𝑣) = 𝑣 3‬אינה מקיימת את דרישות המשפט‪.‬‬
‫פונקציית השגיאה‬
‫‪1‬‬
‫עבור בעיית רגרסיה‪ ,‬מספיק ניורון יציאה בודד לכל מימד‪ .‬פונקציית שגיאה טיפוסית‪.𝐸(𝑌, 𝑂) = 2 ∑𝐾𝑘=1(𝑦𝑘 − 𝑜𝑘 )2 :‬‬
‫יש להקפיד כי פונקציית האקטיבציה בשכבת היציאה תהיה בעלת טווח תואם לטווח הנדרש עבור משתני היציאה‪.‬‬
‫עבור בעיית סיווג‪ ,‬ניורון יציאה לכל מחלקה‪ ,‬כאשר הסיווג מתבצע לפי הניורון בעל הערך המקסימלי‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫𝐾∑ ‪𝐸(𝑌, 𝑂) = 2 ‖𝑌 − 𝑂‖2 = 2‬‬ ‫‪̃𝑘 − 𝑜𝑘 )2‬‬
‫𝑦(‪𝑘=1‬‬ ‫𝐾∑ ‪, 𝐸 = −‬‬ ‫) 𝑘𝑜(𝑔𝑜𝑙 𝑘̃‬
‫𝑦 ‪𝑘=1‬‬ ‫שתי פונקציות שגיאה רלוונטיות‪:‬‬
‫עבור האנטרופיה הצולבת נקבל את הגרדיאנט‪:‬‬
‫𝐸𝜕‬ ‫𝐸𝜕‬
‫‪= (𝑂 − 𝑌̃)𝑉𝐿−1‬‬
‫𝑇‬
‫→‬ ‫‪= (𝑜𝑘 − 𝑦̃𝑘 )𝑣𝑟,𝐿−1‬‬
‫𝐿𝑊𝜕‬ ‫𝑟𝑘 𝐿𝑊𝜕‬
‫אפשרות מקובלת יותר הינה רגרסיה לוגיסטית‪ .‬פונקציית האקטיבציה הרגילה בשכבת היציאה מוחלפת בנרמול הבא‪:‬‬
‫𝐿𝑈 𝑒‬ ‫𝐿𝐵‪𝑒 𝑊𝐿 𝑉𝐿−1 +‬‬
‫= ) 𝐿𝑈(𝜑 ≡ 𝑂‬ ‫=‬ ‫‪, 𝟏𝑻 = (1,1, … ,1)𝑇 ,‬‬ ‫𝐿‪𝟏𝑇 𝑒 𝑈𝐿 = ∑ 𝑒 𝑢𝑘,‬‬
‫𝐿𝐵‪𝟏𝑇 𝑒 𝑈𝐿 𝟏𝑇 𝑒 𝑊𝐿 𝑉𝐿−1 +‬‬
‫𝑘‬
‫ופונקציית השגיאה תהיה‪𝐸(𝑌, 𝑂) = 𝑌𝐿 − 𝑂 :‬‬
‫ייצוג פונקציה באמצעות רשת היזון קדמית המכילה נוירונים מסוג ‪ReLU‬‬
‫שימוש ב ‪ MLP‬עם שכבה נסתרת אחת אשר תדאג לחלוקה למקטעים‪ ,‬ושכבת המוצא תדאג לשיפועים‪ .‬נשתמש במס'‬
‫נוירונים כמס' המקומות בהם הפונקציה משנה את השיפוע שלה‪ ,‬ונתאם את השבירה של ה ‪ ReLU‬באמצעות איבר ההיסט‪.‬‬
‫‪39‬‬
‫אלגוריתם ‪Back Propagation‬‬
‫זהו האלגוריתם הנפוץ ביותר לכוונון רשת עצבית רב – שכבתית‪ .‬כעיקרון מדובר באלגוריתם גרדיאנט לעדכון משקלים‬
‫ברשת‪ .‬אופן חישוב הגרדיאנט מתבצע באמצעות כלל השרשרת בצורה יעילה‪.‬‬
‫נתייחס לשגיאה הריבועית במוצא‪ ,‬ונרצה לחשב את הגרדיאנט של השגיאה‪.‬‬
‫א‪ .‬חישוב מוצאי הנוירונים – נחשב ראשית את ערכי כל המשתנים ברשת עבור הכניסה )𝑖( 𝑋‪ ,‬נסמנה ‪ .X‬חישוב זה‬
‫מתבצע באופן טבעי מהכניסה לכיוון היציאה וקרוי לפיכך חישוב קדמי‪.‬‬
‫ב‪ .‬חישוב הגרדיאנט – נשים לב כי הנוירונים בשכבות הפנימיות אינם משפיעים ישירות על השגיאה אלא דרק נוירונים‬
‫אחרים‪ .‬חישוב הגרדיאנט עבור פרמטריהם ייעשה בעזרת כלל השרשרת של הנגזרת‪ ,‬כאשר החישוב מתבצע בצורה‬
‫רקורסיבית מכיוון היציאה לכיוון הכניסה‪:‬‬
‫)𝜃( )𝑖( 𝐸𝜕 𝑙𝑉𝜕 )𝜃( )𝑖( 𝐸𝜕‬ ‫)𝜃( )𝑖( 𝐸𝜕‬
‫=‬ ‫⋅‬ ‫⋅ ) 𝑙𝑈( ‪= 𝜑𝑙′‬‬
‫𝑙𝑈𝜕‬ ‫𝑙𝑈𝜕‬ ‫𝑙𝑉𝜕‬ ‫𝑙𝑉𝜕‬
‫)𝑖(‬ ‫)𝑖(‬ ‫)𝑖(‬
‫𝑇 )𝜃( 𝐸𝜕 𝑙𝑈𝜕 )𝜃( 𝐸𝜕 )𝜃( 𝐸𝜕‬
‫=‬ ‫⋅‬ ‫=‬ ‫‪𝑉𝑙−1‬‬
‫𝑙𝑊𝜕‬ ‫𝑙𝑈𝜕‬ ‫𝑙𝑊𝜕‬ ‫𝑙𝑈𝜕‬
‫)𝜃( )𝑖( 𝐸𝜕 𝑇𝑙𝑊 )𝜃( )𝑖( 𝐸𝜕 ‪𝜕𝐸 (𝑖) (𝜃) 𝜕𝑈𝑙−1‬‬
‫=‬ ‫⋅‬ ‫=‬
‫‪𝜕𝑉𝑙−1‬‬ ‫‪𝜕𝑉𝑙−1 𝜕𝑈𝑙−1‬‬ ‫𝑙𝑈𝜕‬
‫זה נקרא חישוב אחורי או ‪.BackPropagation‬‬
‫)𝜃( )𝑖( 𝐸𝜕‬
‫≜ 𝑙𝐺‪.‬‬ ‫נסמן את הגרדיאנט לכל שכבת נוירונים‬
‫𝑙𝑈𝜕‬
‫כך שעבור כל השכבות מלבד שכבת היציאה ניתן לרשום את החישוב האחורי בצורה וקטורית‪:‬‬
‫𝑈( ‪′‬‬ ‫𝑇‬
‫‪𝐺𝑙−1 = 𝜑𝑙−1‬‬ ‫𝑙𝐺 𝑙𝑊 ⋅ ) ‪𝑙−1‬‬
‫)𝜃( )𝑖( 𝐸𝜕‬ ‫𝑇‬
‫‪= 𝐺𝑙 𝑉𝑙−1‬‬
‫𝑙𝑊𝜕‬
‫איתחול הרקורסיה מתבצע ע"י חישוב בשכבת היציאה ‪ ,‬בו נקבל ישירות על ידי הצבת ‪E (i) (θ):‬‬
‫)𝜃( )𝑖( 𝐸𝜕‬
‫= 𝐿𝐺‬ ‫𝑌 ‪= 𝑅 ⋅ 𝜑𝐿′ (𝑈𝐿 ), 𝑅 = 𝑂 −‬‬
‫𝐿𝑈𝜕‬
‫אלגוריתם הגרדיאנט מתקבל עתה ע"י הצבת הגרדיאנטים במשוואת עדכון הפרמטרים‪:‬‬
‫)𝜃(𝐸𝜕 𝑡𝜂‬
‫‪𝜃𝑡+1 = 𝜃𝑡 −‬‬ ‫𝑡𝜃=𝜃|‬
‫𝜃𝜕‬
‫גרסא סדרתית‬
‫מבצעים עדכון לכל דוגמה בנפרד‪ ,‬כאשר בצעד 𝑡 נבחרת דוגמה מסוימת ) 𝑖 𝑌 ‪ (𝑋 𝑖 ,‬ומתבצע העדכון‪ .‬לפיכך‪ ,‬בכתיבה וקטורית‪:‬‬
‫)𝜃( 𝑖 𝐸𝜕‬ ‫𝑇‬

‫𝑡𝜂 ‪𝑊ℓ = 𝑊ℓ −‬‬ ‫‪= 𝑊ℓ − 𝜂𝑡 𝐺ℓ𝑖 (𝑉ℓ𝑖 ) ,‬‬ ‫‪∀𝑊ℓ‬‬
‫‪𝜕𝑊ℓ‬‬
‫או‪ ,‬אם נכתוב לפי רכיבים‪:‬‬
‫)𝜃( 𝑖 𝐸𝜕‬ ‫𝑖‬ ‫𝑖‬

‫𝑡𝜂 ‪𝑤𝑗𝑘,ℓ = 𝑤𝑗𝑘,ℓ −‬‬ ‫‪= 𝑤𝑗𝑘,ℓ − 𝜂𝑡 𝑔𝑗,ℓ‬‬ ‫‪𝑣𝑘,ℓ‬‬ ‫‪,‬‬ ‫‪∀𝑤𝑗𝑘,ℓ‬‬
‫‪𝜕𝑤𝑗𝑘,ℓ‬‬
‫𝑖‬ ‫𝑖‬
‫‪ 𝑔𝑗,ℓ‬מחושבים עבור הקלט 𝑖 𝑋 ווקטור הפרמטרים 𝑡𝜃 = 𝜃‪.‬‬ ‫‪, 𝑣𝑘,ℓ‬‬ ‫כאן ‪ 𝑤𝑗𝑘,ℓ‬הוא הרכיב המתאים של 𝑡𝜃 = 𝜃 ואילו‬
‫‪41‬‬
‫גרסת אצווה ( ‪)Batch update‬‬
‫)𝜃( 𝑖 𝐸𝜕‬
‫‪𝜃 = 𝜃 − 𝜂𝑡 ∑𝑛𝑖=1‬‬ ‫𝜃𝜕‬
‫לכל הדוגמאות במשותף‪:‬‬ ‫פה נבצע עדכון‬
‫את הגרדיאנט נחשב בנפרד לכל דוגמה (עם אותו וקטור פרמטרים) ונסכם‪ .‬האלגוריתם המתקבל‪:‬‬
‫𝑛‬
‫)𝜃( 𝑖 𝐸𝜕‬ ‫𝑇‬
‫𝑡𝜂 ‪𝑊ℓ = 𝑊ℓ −‬‬ ‫‪= 𝑊ℓ − 𝜂𝑡 ∑ 𝐺ℓ𝑖 (𝑉ℓ𝑖 ) , ∀𝑊ℓ‬‬
‫‪𝜕𝑊ℓ‬‬
‫‪𝑖=1‬‬
‫סיכום והערות‬
‫‪ .0‬עדכון המשקלים של נוירון בשכבה נסתרת מתבצע בהתאם לסכום משוקלל של השגיאות 𝑘𝑟 בנוירונים בשכבת המוצע‬
‫שמושפעים על ידו‪ .‬ניתן לראות שקלול זה כמבטא את מידת "אחריותו" של נוירון ביניים לשגיאה ביציאה‪.‬‬
‫‪ .1‬חישוב הגדלים המופיעים באלגוריתם שפותח מתבצע בשני שלבים‪:‬‬
‫א‪ .‬חישוב קדמי‪ :‬עבור כל כניסה נחשב את מוצאי הנוירונים‪:‬‬
‫) ‪𝑢𝑗,ℓ = ∑ 𝑤𝑗𝑘,ℓ 𝑣𝑘ℓ−1 + 𝑏𝑗,ℓ , 𝑣𝑗,ℓ = 𝜙ℓ (𝑢𝑗,ℓ‬‬
‫𝑘‬
‫ב‪ .‬חישוב אחורי‪ :‬נחשב את ערך הגרדיאנטים בכל נוירון‪ ,‬כלהלן‪:‬‬
‫𝑗𝑟) 𝐿‪𝑟𝑗 = 𝑦𝑗 − 𝑜𝑗 , 𝑔𝑗,𝐿 = 𝜙 ′ (𝑢𝑗,‬‬ ‫‪ .0‬בשכבת היציאה‪:‬‬
‫‪ .1‬בשכבות הפנימיות‪" :‬פעפוע אחורי" של השגיאה‪ ,‬לפי‬
‫‪′‬‬
‫‪𝑔𝑗,ℓ−1 = 𝜙ℓ−1‬‬ ‫‪(𝑢𝑗,ℓ−1 ) ∑ 𝑤𝑘𝑗,ℓ 𝑔𝑘,ℓ‬‬
‫𝑘‬
‫עבור רגרסיה לוגיסטית‪ ,‬יש לעדכן את נוסחת 𝑙‪ 𝑔𝑘,‬עבור שכבת היציאה בלבד‪ .‬נתבונן בפרט בעיית הסיווג ל 𝐾 מחלקות עם‬
‫שכבת יציאה לוגיסטית ופונקציית מחיר של אנטרופיה צולבת‪ ,‬כלומר‪:‬‬
‫‪40‬‬
‫רשתות קונבולוציה‬
‫קונבולוציה חד מימדית‬
‫∞} ‪X = {xn‬נגדיר‪:‬‬ ‫∞‬
‫לכל שני תהליכים ממשיים ∞‪n=−∞ , Y = {yn }n=−‬‬
‫∞∑ = 𝑘𝑧‬
‫קונבולוציה 𝑌 ∗ 𝑋 = 𝑍 ‪𝑛=−∞ 𝑥𝑛 𝑦𝑘−𝑛 :‬‬ ‫‪‬‬
‫∞∑ = 𝑘𝑤‪.‬‬‫קרוס קורלציה 𝑌 ⋆ 𝑋 = 𝑊 ‪𝑛=−∞ 𝑥𝑛 𝑦𝑘+𝑛 :‬‬ ‫‪‬‬
‫רשתות קונבולוציה עושות בעצם פעולה של קרוס קורלציה‪.‬‬
‫∞} 𝜏‪ 𝑋 = {𝑥𝑛+‬תגרום להזזה ב ‪ Z‬וב ‪.W‬‬
‫ההזזה ∞‪𝑛=−‬‬
‫קונבולוציה דו מימדית‬
‫𝑚‪𝑤𝑘,𝑟 = ∑ 𝑥𝑛,𝑚 𝑦𝑘+𝑛,𝑟+‬‬

‫‪𝑛,𝑚∈ℤ2‬‬
‫במודל רשת ‪ ,)fully connected( MLP‬אין רגישות לסדר בכניסה‪ .‬לפעמים תכונה זו רצויה‪ ,‬אך באה במחיר של מספר רב של‬
‫פרמטרים‪ .‬במקרים בהם למידע יש מבנה מרחבי (תמונות)‪ ,‬נרצה לנצל את זה‪ .‬רשתות קונבולוציה עושות זאת‪.‬‬
‫ייצוג היררכי מרחבי‬
‫ברשתות רב שכבתיות רגילות‪ ,‬כל נוירון מחובר לכל נוירון בשכבה הבאה‪.‬‬
‫ברשתות קונבולוציה יש חיבוריות מקומית‪ :‬כל נוירון מחובר רק לאיזור מסוים בשכבה הקודמת‪.‬‬
‫לכן‪ ,‬בשכבות עמוקות יותר כל נוירון מושפע מאיזור גדול יותר בקלט‪.‬‬
‫חוסר רגישות להזזות גלובליות ‪ ,‬כלומר הזזת תמונה בד"כ לא משנה את התוכן שלה‪.‬‬
‫חוסר רגישות להזזות מקומיות‪ ,‬בהרבה איזורים בתמונה‪ ,‬הזזות לא משנות את תוכן האיזור‪.‬‬
‫נרצה לבנות רשת שאין לה רגישות להזזות גלובליות‪.‬‬
‫‪Convolutional Neural Nets - CNN‬‬

‫רשתות אלו הינן רשתות נוירונים בעלות מס' שכבות‪ ,‬אשר תכונותיהן הן‪:‬‬
‫‪ .0‬שכבות עמוקות יותר מייצגות מושגים "עמוקים" יותר‪.‬‬
‫‪ .1‬מוצא הרשת לא רגיש להזזות (בקירוב)‪.‬‬
‫‪ .3‬כל היציאות מופקות מאותן משקולות‪.‬‬
‫שכבת קונבולוציה חד ממדית מבצעת פעולת קרוס קורלציה בין וקטור הכניסה ‪ X‬ווקטור‬
‫‪ .𝑦[𝑛] = ∑𝐾−1‬וקטור המשקולות נקרא גרעין הקונבולוציה‪.‬‬
‫משקולות ‪ W‬באורך ‪𝑚=0 𝑥[𝑛 + 𝑚]𝑤[𝑚] :K‬‬
‫עקב ההנחה כי הקשר בין כניסות קרובות הוא יותר חזק ומשמעותי מאשר כניסות רחוקות‪ ,‬ושאזורים שונים בכניסה‬
‫מתנהגים באופן דומה‪ ,‬נקבל רשת עם חוסר רגישות להזזות‪ ,‬כמו ‪ ,FC‬רק שבמקום 𝑠𝑡𝑢𝑝𝑡𝑢𝑜𝑁 × 𝑡𝑢𝑝𝑛𝑖𝑁 משקולות נקבל רק‬
‫‪ K‬משקולות‪.‬‬
‫בדומה לשכבות ‪ ,FC‬נעשה שימוש בפונקציות אקטיבציה לא לינאריות‪ .‬הנפוצה שבהן תהיה ‪.ReLU‬‬
‫נרצה לרוב ששכבת הקונבולוציה תקבל קלט רב ערוצי (לדוגמא‪ ,‬תמונה בעלת שלושה ערוצי צבע)‪ .‬במקרים אלו הנוירון יהיה‬
‫פונקציה של כל ערוצי הקלט‪ ,‬ונשתמש ביותר מגרעין קונבולוציה אחד – לקבלת מספר ערוצים במוצא‪.‬‬
‫עבור ‪.𝑑𝑖𝑙𝑎𝑡𝑖𝑜𝑛 = 1, 𝑠𝑡𝑟𝑖𝑑𝑒 = 1 , 𝑝𝑎𝑑𝑑𝑖𝑛𝑔 = 0‬‬
‫בשכבות אלו אין שיתוף של משקולות בין ערוצי הפלט השונים‪ ,‬ומס' הפרמטרים יהיה‪:‬‬
‫𝑡𝑢𝑜𝐶 ‪𝐶𝑖𝑛 × 𝐶𝑜𝑢𝑡 × 𝐾 +‬‬
‫כאשר 𝐶 הוא מס' הערוצים בכניסה או ביציאה בהתאם‪ K ,‬הוא גודל גרעין הקונב' בין השכבות והאיבר החיבורי מסמן את‬
‫התוספת שנותן ההיסט‪.‬‬
‫חישוב גודל שכבה (רק ערוץ אחד בכל שכבה) מחושב ע"י ‪𝑑𝑖 = 𝑑𝑖−1 − 𝐾 + 1 :‬‬
‫מס' המכפלות בין כל שכבה ‪ 𝑖 − 1‬לשכבה הבאה הוא ‪𝑁 = 𝐶𝑖𝑛 × 𝐶𝑜𝑢𝑡 ⋅ 𝐾 ⋅ 𝑑𝑜𝑢𝑡 :‬‬
‫‪42‬‬
‫היפר פרמטרים‬
‫גודל הגרעין הינו היפר פרמטר‪.‬‬ ‫‪‬‬
‫מספר ערוצי הפלט‬ ‫‪‬‬
‫‪ -Padding‬ריפוד – ניתן לרפד את וקטור הכניסה באפסים על מנת לשמור את אורך הוקטור במוצא‪.‬‬ ‫‪‬‬
‫‪ – Stride‬צעד – ניתן לבצע את הקונבולוציה בדילוגים על מנת לדלל את המוצא‪ .‬לרוב גודל הצעד מסומן ב ‪.s‬‬ ‫‪‬‬
‫‪ – Dilation‬התרחבות – ניתן לדלל את המשקולות בגרעין הקונבולוציה על מנת להקטין עוד את מספר המשקולות‪.‬‬ ‫‪‬‬
‫‪ – Max pooling‬איגום‬
‫לרוב ברשתות קונבולוציה נעשה שימוש בשכבה נוספת על מנת לצמצם את גודל הקלט‪.‬‬
‫שכבת ‪ Max Pooling‬לוקחת את המקסימום מבין ערכי הכניסה‪ .‬המוטיבציה לפעולה זאת הינה שהערכים הגבוהים מייצגים‬
‫מאפיינים בעלי יותר אינפורמציה‪.‬‬
‫‪Data augmentation‬‬
‫כדי לאמן על כמה שיותר דוגמאות‪ ,‬ולפעמים אין לנו הרבה‪ .‬לכן נוכל לקחת דוגמא קיימת (נניח‪ ,‬תמונה כלשהיא) ולבצע עליה‬
‫מניפולציות שעקב אופייה של הרשת היא תחשב כמו דוגמא מעט שונה אך רלוונטית‪ .‬למשל‪ :‬הפיכה (‪ )flipping‬של תמונה‪,‬‬
‫‪ ,rotating‬שינוי צבעים וכדומה‪ .‬נשים לב כי תמונות חדשות צריכות להיות הגיוניות לסט האימון‪.‬‬
‫סכמת האתחול‬
‫אתחול לא נכון של המשקולות יכול להביא את פונקציות האקטיבציה לרוויה ולעדכון משקולות איטי ולא אפקטיבי‪.‬‬
‫בעבור משקולות קטנות‪ ,‬האות דועך בין שכבה לשכבה ולא מחלחל לשכבות הראשונות )‪.(vanishing gradient‬‬
‫בעבור משקולות גדולות‪ ,‬האות גדל בין שכבה לשכבה מה שיכול לגרום לחריגה מתחום ייצוג )‪.(exploding gradient‬‬
‫נרצה לשמור על תכונות המרכוז והנרמול של הכניסה לכל נוירון ברשת‪.‬‬
‫בדרך כלל‪ ,‬מגרילים את כל המשקולות בצורה בלתי תלויה‪ .‬כדי למרכז נבחר פילוג משקולות עם ממוצע אפס ‪ ,𝔼𝑤 = 0‬מה‬
‫שגורר שגם הכניסה לשכבה הבאה היא עם ממוצע אפס ‪ .𝔼𝑤 = 𝔼𝑤𝑥 = 0‬ניתן לבחור שכל משקולת תהיה אפס‪.‬‬
‫כדי לנרמל‪ ,‬נדרוש ‪ 𝑉𝑎𝑟(𝑣) = 1‬כאשר 𝑣 הינה הכניסה לפונקציית האקטיבציה‪ .‬עבור ‪𝑉𝑎𝑟(𝑥𝑖 ) = 1‬‬
‫𝑑‬
‫𝑇‬
‫‪1‬‬
‫= ) 𝑖𝑤(𝑟𝑎𝑉 ⇒ ) ‪1 = 𝑉𝑎𝑟(𝑣) = 𝑉𝑎𝑟(𝑤 𝑥) = ∑ 𝑉𝑎𝑟(𝑥𝑖 )𝑉𝑎𝑟(𝑤𝑖 ) = 𝑑 ⋅ 𝑉𝑎𝑟(𝑤1‬‬
‫𝑑‬
‫‪𝑖=1‬‬
‫‪1‬‬
‫כדי לנרמל‪ ,‬נבחר פילוג משקולות עם שונות 𝑠𝑡𝑢𝑝𝑛𝑖‪.𝑉𝑎𝑟(𝑤) ∝ #‬‬
‫לכן נהוג להשתמש בפילוג גאוסי או פילוג אחיד‪.‬‬
‫נרמול אצווה ‪batch normalization‬‬

‫⟩𝑢⟨‪𝑢𝑖 −‬‬
‫= 𝑖̂𝑢 כאשר 𝛽 ‪ 𝛾,‬הם הפרמטרים הנלמדים‪.‬‬ ‫𝛽‪⋅𝛾+‬‬
‫𝜀‪√(⟨𝑢−⟨𝑢⟩)2 ⟩+‬‬
‫‪1‬‬
‫כאשר 𝑖𝑢 ‪ .⟨𝑢⟩ = 𝐵 ∑𝐵𝑖=1‬מאפשר לשמור על מרכוז ונרמול כניסות לכל הנוירונים ברשת‪ ,‬גם אחרי האתחול‪.‬‬
‫ברשתות קונבולוציה בדר"כ מאיץ את מהירות ההתכנסות ומשפר הכללה (סוג של רגולריזציה)‪.‬‬
‫כשמשתמשים בחיבורי קפיצה בד"כ צריך את הנרמול הנ"ל‪ .‬חיבורי קפיצה עוזרים ללמוד רשתות עמוקות‪.‬‬
‫‪43‬‬
‫גאומטריה של המישור‬
‫משוואה של מישור ב 𝑑‪ ,𝑤 𝑇 𝑥 + 𝑏 = 0 :ℝ‬עבור ‪ 𝑤 ∈ ℝ𝑑 , 𝑏 ∈ ℝ‬קבועים המגדירים את המישור‪.‬‬

‫𝑏‪𝑤 𝑇 𝑥0 +‬‬
‫= ‪ ,𝑑±‬כאשר המרחק יהיה חיובי אם ‪ x‬בכיוון הוקטור ‪ w‬יחסית לעל‪-‬‬ ‫‖𝑤‖‬
‫מרחק אוקלידי של נקודה ‪ x0‬מהמישור הינו‬
‫מישור‪ ,‬ושלילי במקרה הנגדי‪.‬‬
‫הערה‬
‫הפרק הבא מדבר על מסווגים לינארים בלבד‪ .‬ניתן להכליל למסווגים לא לינאריים‪ ,‬ע"י שימוש בפונקציות מאפיינים )𝑥(𝜑‪.‬‬
‫‪Support Vector Machines -SVM‬‬

‫דוגמאות הניתנות להפרדה לינארית – ‪Hard SVM‬‬
‫אנו דנים בבעיית הסיווג הבינארי‪ .‬נתון אוסף דוגמאות כך שכל קלט הוא בגודל 𝑑 ויש שתי מחלקות‪ ,‬נסמנן‪.𝑦𝑖 ∈ {−1,1} :‬‬
‫מטרתנו ללמוד מסווג בינארי מהצורה )𝑏 ‪ .𝑦(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬כפי שראינו‪ ,‬משוואה זו מגדירה שני אזורים (חצאי‪-‬‬
‫מרחב) המופרדים ע"י על‪-‬מישור המוגדר על ידי השוויון ‪ .𝑤 𝑇 𝑥 + 𝑏 = 0‬על ‪-‬מישור זה יקרא פה גם משטח הפרדה לינארי‪.‬‬
‫במקרה של דוגמאות פרידות לינארית‪ ,‬יהיה רצף של משטחי הפרדה שונים אשר מקיימים את דרישת ההפרדה‪.‬‬
‫נבחר במשטח ההפרדה אשר נותן את "מרווח ההפרדה" הגדול ביותר‪.‬‬
‫בעיית האופטימיזציה הפרימאלית‬
‫משפט ‪ :6‬הבעיה הפרימאלית של ‪Hard-SVM‬‬
‫נניח כי הדוגמאות ניתנות להפרידה לינארית‪ .‬אזי‪ ,‬על מישור ‪ 𝑤 𝑇 𝑥 + 𝑏 = 0‬אשר מביא למקסימום את מרווח ההפרדה‬
‫מתקבל כפיתרון של בעיית האופטימיזציה הבאה‪:‬‬
‫‪1‬‬ ‫‪2‬‬
‫‪min ||𝑤|| ,‬‬ ‫‪𝑠. 𝑡. 𝑦𝑖 (𝑤 𝑇 𝑥 + 𝑏) ≥ 1 ,‬‬ ‫𝑛 ‪𝑖 = 1, … ,‬‬
‫‪𝑤,𝑏 2‬‬
‫הבעיה הפרימאלית היא בעיית מינימיזציה של מחיר ריבועי‪ ,‬כפוך לאילוצי אי שוויון לינאריים‪ .‬בעיות אופטימיזציה מסוג זה‬
‫קרויות בעיות תכנות ריבועי קמור‪ .‬כאשר הדוגמאות אינן ניתנות להפרדה לינארית‪ ,‬לא ניתן לקיים את כל האילוצים בו‬
‫זמנית‪ ,‬ולכן לבעיית האופטימיזציה לא יהיה פתרון‪.‬‬
‫טענה (מרחק בין נקודה לעל‪-‬מישור)‪ :‬המרחק האוקלידי בין נקודה 𝑑‪ 𝑥0 ∈ ℝ‬לעל המישור ‪ 𝑤 𝑇 𝑥 + 𝑏 = 0‬נתון ע"י‬
‫𝑏‪𝑤 𝑇 𝑥+‬‬
‫= ) ‪ .𝑑± (𝑥0‬זה המרחק המסומן של ‪ 𝑥0‬לעל המישור‪ .‬למרחק סימן חיובי אם ‪ 𝑥0‬בכיווןה וקטור 𝑤‬ ‫|) ‪ |𝑑± (𝑥0‬כאשר‬
‫||𝑤||‬
‫יחסית לעל המישור‪ ,‬וסימן שלילי במקרה הנגדי‪.‬‬
‫הוכחה‪ :‬נניח כי ‪ 𝑥0‬אינה על העל‪-‬מישור ונסמן ב 𝑥 את הנקודה הקרובה ביותר ל ‪ 𝑥0‬בעל‪-‬המישור‪ .‬כזכור‪ ,‬ההפרש 𝑥 ‪𝑥0 −‬‬
‫ניצב לעל‪-‬מישור‪ ,‬וגם הוקטור 𝑤‪ .‬לכן‪ ,‬שניהם באותו כיוון‪ ,‬או בכיוון מנוגד‪.‬‬
‫𝑤‬ ‫𝑥 ‪𝑥0 −‬‬

‫‪= ±‬‬
‫||𝑤||‬ ‫||𝑥 ‪||𝑥0 −‬‬
‫כאשר הסימן נקבע לפי הסימן של )𝑥 ‪.𝑤 𝑇 (𝑥0 −‬‬
‫נקבל‪:‬‬
‫‪44‬‬
‫‪2‬‬
‫||𝑥 ‪||𝑥0 −‬‬ ‫)𝑥 ‪(𝑥0 − 𝑥)𝑇 (𝑥0 −‬‬ ‫𝑇𝑤‬ ‫‪1‬‬
‫‪𝑑± (𝑥0 ) ≜ ±||𝑥0 − 𝑥|| = ±‬‬ ‫‪=±‬‬ ‫=‬ ‫= )𝑥 ‪(𝑥0 −‬‬ ‫)𝑥 𝑇 𝑤 ‪(𝑤 𝑇 𝑥0 −‬‬
‫||𝑥 ‪||𝑥0 −‬‬ ‫||𝑥 ‪||𝑥0 −‬‬ ‫||𝑤||‬ ‫||𝑤||‬
‫‪1‬‬
‫=‬ ‫)𝑏 ‪(𝑤 𝑇 𝑥0 +‬‬
‫||𝑤||‬
‫כאשר המעבר האחרון נובע מכך ש 𝑥 היא נקודה על העל מישור ומקיימת את משוואתו‪.‬‬
‫ננסח מתמטית את בעיית האופטימיזציה שפתרונה נותן את משטח ההפרדה האופטימאלי במובן של רוחב השוליים‪.‬‬
‫עבור על‪-‬מישור מפריד כלשהו‪ ,‬המרחק לנקודה הקרובה ביותר הוא |) 𝑖𝑥( ‪ . 𝑚𝑖𝑛 |𝑑±‬אנו מעוניינים למצוא על מישור‬
‫𝑛‪𝑖=1,…,‬‬
‫שעבורו מרחק זה גדול ככל האפשר‪ .𝑚𝑎𝑥 { 𝑚𝑖𝑛 |𝑑± (𝑥𝑖 )|} :‬את דרישת ההפרדה ניתן לנסח כך בעזרת ‪: d±‬‬
‫𝑏‪𝑤,‬‬ ‫𝑛‪𝑖=1,…,‬‬
‫‪.𝑦𝑖 = +1 ⇒ 𝑑± (𝑥𝑖 ) > 0 ,‬‬ ‫‪𝑦𝑖 = −1 ⇒ 𝑑± (𝑥𝑖 ) < 0‬‬

‫קבענו שרירותית שדוגמאות עם סימן חיוביות יהיו בכיוון ‪ w‬ביחס למשטח ההפרדה‪ .‬ניתן לבטא דרישה זו גם עם‬
‫})𝑏‪𝑚𝑖𝑛 {𝑦𝑖 (𝑤 𝑇 𝑥𝑖 +‬‬
‫𝑛‪𝑖=1,…,‬‬
‫{ 𝑥𝑎𝑚‪ .‬הביטוי‬ ‫‖𝑤‖‬
‫‪ 𝑦𝑖 𝑑± (𝑥𝑖 ) > 0‬ונקבל כי ) 𝑖𝑥( ‪ .|𝑑± (𝑥𝑖 )| = 𝑦𝑖 𝑑±‬הבעיה שברצוננו לפתור היא }‬
‫𝑏‪𝑤,‬‬
‫בסוגריים הוא מרווח ההפרדה‪ ,‬אותו אנחנו רוצים למקסם‪.‬‬
‫נירמול המקדמים – נזכור כי וקטור הפרמטרים ניתן לנרמול בקבוע כלשהו ללא שינוי על‪-‬המישור המפריד‪ .‬נרמול נוח יהיה‬
‫הפרמטרים לפי סדרת הדוגמאות כך ש ‪ . 𝑚𝑖𝑛 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1‬נרמול זה מוביל לבעיית האופטימיזציה המאולצת‬
‫𝑛≤𝑖≤‪1‬‬
‫‪1‬‬ ‫‪1‬‬
‫הבאה‪ ,𝑚𝑎𝑥 {‖𝑤‖} :‬עם הנירמול כאילוץ‪ ,‬כאשר מיקסום ‖𝑤‖ הוא גם מינימליזציה של ‖𝑤‖ וזו מינימלזציה של ‪.‖𝑤‖2‬‬
‫𝑏‪𝑤,‬‬
‫לכן נוכל לתאר את הבעיה הזו כבעיה הבאה‪ ,‬שנקראת בעיית אופטימיזציה פרימאלית‪:‬‬
‫‪1‬‬
‫‪𝑚𝑖𝑛 ‖𝑤‖2‬‬ ‫𝑛 ‪𝑠. 𝑡. 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1 , 𝑖 = 1, … ,‬‬
‫‪𝑤,𝑏 2‬‬
‫לכאורה החלשנו את אילוץ השוויון לאילוץ אי שוויון‪ ,‬אך ניתן לראות שבמקרה של אי שוויון חריף ניתן לכפול את )𝑏 ‪(𝑤,‬‬
‫בקבוע קטן מ‪ 0‬עד לקבלת השוויון‪ ,‬ובכך להקטין את ‪ , ‖𝑤‖2‬ולפיכך הפתרון האופטימלי של הבעיה הפרימאלית תמיד יקיים‬
‫שוויון‪ ,‬גם אם לא נדרוש זאת במפורש‪.‬‬
‫תכונות פתרון ווקטור התמיכה‬

‫משפט ‪ :0‬עבור פתרון )𝑏 ‪ (𝑤,‬אופטימאלי עבור הבעיה הפרימאלית‪ ,‬אפשר לבטא את הוקטור ‪ w‬בצורה הבאה‪:‬‬
‫𝑛‬
‫𝑖𝑦 𝑖𝑥 𝑖𝛼 ∑ = 𝑤‬
‫‪𝑖=1‬‬
‫כאשר ‪ ,𝛼𝑖 ≥ 0‬מקדמים המקיימים ‪ 𝛼𝑖 ≠ 0‬רק אם ‪𝑦𝑖 (𝑤 𝑇 𝑥 + 𝑏) = 1‬‬

‫בנוסף מתקיים ‪.∑𝑛(𝑖=1) 𝑦𝑖 𝑎𝑖 = 0‬‬
‫המשפט מסתמך על הכללת תנאי כופלי לגרנז' והמקדמים הם למעשה כופלי לגרנז' הנגזרים מתנאים אלה‪.‬‬
‫וקטורי הקלט עבורם מתקיים ‪ 𝑦𝑖 (𝑤 𝑇 𝑥 + 𝑏) = 1‬נקראים וקטורי התמיכה‪ .‬אלה הנקודות‬
‫הקרובות ביותר למשטח ההפרדה‪ ,‬אשר מגדירות את שולי ההפרדה‪.‬‬
‫|𝑏‪|𝑤 𝑇 𝑥𝑖 +‬‬ ‫‪1‬‬
‫= |) 𝑖𝑥( ‪ .|𝑑±‬כל שאר‬ ‫‖𝑤‖‬
‫מרחק וקטורי התמיכה ממשטח ההפרדה הוא ‖𝑤‖ =‬
‫הנקודות נמצאות במרחק גדול יותר‪.‬‬
‫משתי תכונות אלו‪ ,‬נובע כי הפתרון האופטימאלי עבור ‪ w‬הוא צרוף לינארי של וקטורי תמיכה‬
‫בלבד (שמספרם לרוב קטן)‪.‬‬
‫יתר על כן‪ ,‬הזזה (מוגבלת) של נקודות שאינן וקטורי תמיכה לא תשנה את הפתרון האופטימלי‪.‬‬
‫נציין בנוסף כי הצבה מפורשת של ערכי התגיות 𝑖𝑦 בנוסחת 𝑤 האופטימאלי נותנת‪:‬‬
‫‪45‬‬
‫𝑖𝑥 𝑖𝛼 ∑ ‪𝑤 = ∑ 𝛼𝑖 𝑥𝑖 −‬‬
‫‪𝑖,𝑦𝑖 =+1‬‬ ‫‪𝑖,𝑦𝑖 =−1‬‬
‫כלומר לוקטורי התמיכה של מחלקה ‪ +‬יש משקל חיובי‪ ,‬ולאלה של מחלקה – משקל שלילי‪ .‬באופן דומה‪ ,‬נקבל כי סכום‬
‫המשקלים של שתי המחלקות זהה ‪:‬‬
‫𝑖𝛼 ∑ = 𝑖𝛼 ∑‬
‫‪𝑖,𝑦𝑖 =+1‬‬ ‫‪𝑖,𝑦𝑖 =−1‬‬
‫הבעיה הדואלית‬
‫נתאר בעיית אופטימיזציה אשר תאפשר את חישוב המקדמים (כופלי לגרנז')‪ .‬בעיה זו הינה הבעיה הדואלית לבעיית ה‪SVM‬‬
‫הפרימאלית‪.‬‬
‫תכונה חשובה שלה היא שהתלות בנקודות הקלט היא אך ורק דרך מכפלותיהן הפנימיות ⟩ 𝑘𝑥 ‪.⟨𝑥𝑖 ,‬‬
‫הבעיה מתוארת על פני וקטור משתנים ) 𝑛𝛼 ‪:𝛼 = (𝛼1 , … ,‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪1‬‬
‫⟩ 𝑗𝑥 ‪𝑚𝑎𝑥 ∑ 𝛼𝑖 − ∑ ∑ 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗 ⟨𝑥𝑖 ,‬‬ ‫‪𝑠. 𝑡. 𝛼𝑖 ≥ 0, ∀𝑖 = 1,2, … , 𝑛 , ∑ 𝛼𝑖 𝑦𝑖 = 0‬‬
‫𝛼‬ ‫‪2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1 𝑗=1‬‬ ‫‪𝑖=1‬‬
‫= ‪ w‬אשר השתמשנו בבעיה‬ ‫‪∑ni=1 αi yi xi‬‬ ‫הסכום השני בפונקציית המטרה הוא ביטוי חליפי לנורמה הריבועית של הצירוף‬
‫הפרימאלית‪:‬‬
‫𝑛‬ ‫‪2‬‬ ‫𝑛‬ ‫𝑛‬
‫‪‖𝑤‖2‬‬ ‫⟩ 𝑗𝑥 ‪= ‖∑ 𝛼𝑖 𝑦𝑖 𝑥𝑖 ‖ ≡ ∑ ∑ 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗 ⟨𝑥𝑖 ,‬‬

‫‪𝑖=1‬‬ ‫‪𝑖=1 𝑗=1‬‬
‫משפט ‪ :3‬המקדמים 𝑛𝑎 ‪ 𝛼1 , … ,‬מתקבלים על ידי כל פתרון אופטימלי של הבעיה הדואלית‪ .‬פתרון זה מאפשר לפיכך את‬
‫חישוב הוקטור ‪ w‬של מסווג ‪ ,SVM‬לפי הביטוי הנ"ל 𝑖𝑥 𝑖𝑦 𝑖𝛼 ‪.𝑤 = ∑𝑛𝑖=1‬‬
‫גם הבעיה הדואלית היא בעיית תכנות ריבועי‪ .‬וקטורי הקלט מופיעים פה רק דרך המכפלה הפנימית שלהם‪.‬‬
‫הבעיה הפרימאלית היא בעיית אופטימיזציה מאולצת בעלת ‪ d+1‬משתנים (כמימד הקלט) ו ‪ n‬אילוצים (בגודל סדרת‬
‫הלימוד)‪ .‬הבעיה הדואלית בעלת ‪ n‬משתנים ו ‪ n‬אילוצים‪ .‬לפיכך‪ ,‬בהינתן חישוב יעיל של המכפלות הפנימיות של הקלט‪ ,‬גודל‬
‫הבעיה הדואלית אינו תלוי במימד הקלט ‪.d‬‬
‫המסווג האופטימלי‪ :‬לאחר חישוב וקטור המקדמים ‪ , α‬ניתן כאמור לחשב את הוקטור המיטבי ‪ w‬עבור מסווג ‪ SVM‬לינארי‬
‫)𝑏 ‪ ,𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬לפי 𝑖𝑦 𝑖𝑥 𝑖𝛼 ‪ .𝑤 = ∑𝑛𝑖=1‬את הקבוע ‪ b‬של המסווג ניתן לחלץ מתוך השוויון המתקיים עבור כל‬
‫וקטור תמיכה‪𝛼𝑖 ≠ 0 ⇒ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1 ⇒ 𝑏 = 𝑦𝑖−1 − 𝑤 𝑇 𝑥𝑖 :‬‬
‫סיכום ביניים‪:‬‬
‫בעיית ‪ Hard SVM‬תהיה הבעיה שהצגנו – בעיית אופטימיזציה‪ ,‬פתרונה נותן מקדמים 𝑏 ‪ 𝑤,‬אופטימליים במובן של‬ ‫‪‬‬
‫שולי הפרדה מירביים‪ ,‬עבור המסווג הלינארי )𝑏 ‪ 𝑦(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬ודוגמאות ניתנות להפרדה לינארית‪.‬‬
‫את חישוב המקדמים ניתן לחשב בשתי דרכים‪:‬‬ ‫‪‬‬
‫‪ ‬באמצעות פתרון נומרי ישיר של הבעיה הפרימאלית‬
‫‪ ‬באמצעות פתרון נומרי של הבעיה הדואלית לחישוב המקדמים 𝑖𝛼 ובעזרת חישוב 𝑏 ‪.𝑤,‬‬
‫‪46‬‬
‫המקרה הכללי – ‪Soft SVM‬‬

‫כעת נניח שהדוגמאות שלנו אינן ניתנות להפרדה לינארית‪ .‬על מנת לקבל פתרון כעת‪ ,‬נחליש את אילוצי ההפרדה הקשיחים‬
‫של הבעיה הפרימאלית ‪ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1‬בעזרת משתני עזר‪.‬‬
‫המשתנים החדשים הם משתני עזר )‪ ,(slack variables‬אשר מאפשרים החלשה מסוימת של האילוץ‪ .‬ככל שמשתנים אלה‬
‫גדולים יותר‪ ,‬כך האילוץ חלש יותר‪ .‬על מנת להגביל את גודלם נוסיף את סכומם לפונקציית המחיר‪.‬‬
‫הבעיה הפרימאלית של ‪ soft svm‬תהיה בהתאם‪:‬‬
‫𝑛‬
‫‪1‬‬
‫𝑖𝜉 ∑ 𝐶 ‪𝑚𝑖𝑛 ‖𝑤‖2 +‬‬ ‫‪𝑠. 𝑡.‬‬ ‫𝑛 ‪𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1 − 𝜉𝑖 , 𝜉𝑖 ≥ 0, 𝑖 = 1, … ,‬‬
‫‪𝑤,𝑏,𝜉 2‬‬
‫‪𝑖=1‬‬
‫‪ C‬הינו הקבוע השולט על החשיבות היחסית של גודל השוליים (המתבטא באיבר הראשון) לעומת האפשרות לחרוג משוליים‬
‫(האיבר השני)‪ .‬את ‪ 𝐶 −1‬אפשר גם לפרש כקבוע רגולריזציה‪ .‬כלומר‪ ,‬עבור ‪ C‬גדול‪ ,‬כך גודל השוליים יהיה יותר מוגבל‪ ,‬כלומר‬
‫עבור 𝐶 שואף לאינסוף‪ ,‬השוליים יהיו אפסיים‪ .‬עבור ‪ ,𝐶 = 0‬השוליים יוכלו להיות מאוד גדולים על מנת לפתור את בעיית‬
‫האופטימיזציה‪.‬‬
‫האופטימלי עבור‬ ‫משפט ‪ :9‬תכונות הפתרון‬

‫‪:Soft SVM‬‬
‫הוקטור 𝑤 האופטימלי ניתן לביטוי כך ‪. w = ∑ni=1 αi xi yi , 0 ≤ αi ≤ C:‬‬
‫א‪ αi = 0 .‬אם ‪.yi (w T xi + b) > 1‬‬
‫ב‪ αi = C .‬אם ‪.yi (w T xi + b) < 1‬‬
‫ג‪∑ni=1 yi αi = 0 .‬‬
‫נקודות אשר מקיימות ‪ yi (w T xi + b) > 1, αi = 0‬הן נקודות ללא מספור‪.‬‬
‫נקודות אשר מקיימות ]‪ yi (w T xi + b) = 1, αi ∈ [0, C‬הן נקודות עם מספור '‪.'0‬‬
‫נקודות אשר מקיימות ‪ 0 < yi (w T xi + b) < 1, αi = C‬הן בעלות המספור '‪.'1‬‬
‫נקודות אשר מקיימות ‪ yi (w T xi + b) ≤ 0, αi = C‬הן בעלות המספור '‪.'3‬‬
‫הנקודות הממוספרות עתה '‪ '3' ,'1' ,'0‬הן עתה וקטורי התמיכה‪ :‬הן התורמות לסכום ‪.w = ∑ni=1 αi yi xi‬‬
‫נקודות '‪ '3‬הן הנקודות אשר אינן מתויגות נכון‪.‬‬
‫הבעיה הדואלית של בעיית ‪Soft - SVM‬‬

‫בעיה זו נשארת ללא שינוי פרט להחלפת האילוץ ‪ 𝛼𝑖 ≥ 0‬באילוץ 𝐶 ≤ 𝑖𝛼 ≤ ‪.0‬‬
‫לאחר חישוב המקדמים 𝑖𝛼 ‪ ,‬ניתן כמו קודם לחשב את הוקטור המיטבי 𝑤 לפי 𝑖𝑥 𝑖𝑦 𝑖𝛼 ‪𝑤 = ∑𝑛𝑖=1‬‬
‫את ההיסט ‪ b‬ניתן לחשב פה מתוך השוויון המתקבל עבור נקודות הנמצאות על שולי ההפרדה‪.‬‬
‫𝐶 < 𝑖𝛼 < ‪0‬‬ ‫→‬ ‫‪𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1‬‬ ‫→‬ ‫𝑖𝑥 𝑇 𝑤 ‪𝑏 = 𝑦𝑖−1 −‬‬
‫ניסוח חליפי באמצעות פונקציית הפסד‪-‬צירי )‪:(Hingle- loss‬‬

‫את הבעיה לעיל ניתן לראות גם בעיית מינימיזציה של סכום הפסדים מסוימת‪ ,‬עם רגולריזציה ריבועית על גודל הפרמטרים‪.‬‬
‫𝑖𝜉 ‪𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1 −‬‬ ‫מתוך הבעיה הפרימאלית‪ ,‬ניתן להסיק כי הפתרון האופטימלי חייב לקיים את השוויון‬
‫כאשר ‪( 𝜉𝑖 > 0‬אחרת‪ ,‬ניתן פשוט להקטין את 𝑖𝜉 מבלי להפר את האילוץ‪ ,‬ובכך להקטין את איבר הקנס‪.‬‬
‫})𝑏 ‪.𝜉𝑖 = 𝑚𝑎𝑥{0,1 − 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 +‬‬ ‫מכאן ניתן להסיק כי‬
‫לפיכך‪ ,‬בעיית האופטימיזציה שקולה לבעיה הלא מאולצת הבאה‪:‬‬
‫‪47‬‬
‫𝑛‬
‫‪1‬‬
‫})𝑏 ‪𝑚𝑖𝑛 ‖𝑤‖2 + 𝐶 ∑ 𝑚𝑎𝑥{0,1 − 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 +‬‬
‫‪𝑤,𝑏 2‬‬
‫‪𝑖=1‬‬
‫נגדיר עתה פונקציית הפסד הידועה בשם הפסד צירי ‪ .ℓℎ𝑖𝑛𝑔𝑒 (𝑦̂, 𝑦) = 𝑚𝑎𝑥{0,1 − 𝑦𝑦̂} :‬הצבה בבעית האופטימיזציה‬
‫האחרונה‪ ,‬חלוקה בקבוע ‪ C‬וסימון ‪ 𝜌 = 𝐶 −1‬מובילים לכתיבה של הבעיה הבאה‪:‬‬
‫𝑛‬
‫‪1‬‬
‫)𝑏 ‪𝑚𝑖𝑛 𝜌‖𝑤‖2 + ∑ ℓℎ𝑖𝑛𝑔𝑒 (𝑦𝑖 , 𝑤 𝑇 𝑥 +‬‬
‫‪𝑤,𝑏 2‬‬
‫‪𝑖=1‬‬
‫ניתן לראות את האיבר השני בסכום הפסדים על גבי הדוגמאות בעוד האיבר הראשון הוא קנס על גודל המקדמים ‪ ,‬כאשר‬
‫‪ ρ = C −1‬הינו קבוע הרגולריזציה‪.‬‬
‫שילוב פונקציות בסיס‬

‫שילוב פונקציות בסיס‪ ,‬או מאפיינים‪ ,‬במימד גבוה ממימד הקלט ‪ ,x‬גורם לשיפור משמעותי של יכולת ההפרדה בעזרת‬
‫משטחים לינאריים‪ .‬דהיינו‪ ,‬נתמיר את 𝑇) 𝑑𝑥 ‪ 𝑥 = (𝑥1 , … ,‬בוקטור מאפיינים 𝑇))𝑥( 𝑀𝜙 ‪ 𝜙(𝑥) = (𝜙1 (𝑥), … ,‬כאשר‬
‫𝑑 ≫ 𝑀‪ .‬את ההפרדה הלינארית נבצע במרחב המאפיינים‪ ,‬ולא הקלט‪.‬‬
‫ניתן לחזור כעת על כל הפיתוחים עם ההחלפות הבאות‪:‬‬
‫א‪ X .‬יוחלף בווקטור )𝑥(𝜙‪.‬‬
‫ב‪ ⟨𝑥, 𝑧⟩ .‬יוחלף ב ‪.𝐾(𝑥, 𝑧) ≜ ⟨𝜙(𝑥), 𝜙(𝑧)⟩ -‬‬
‫הבעיה הדואלית המתקבלת‪:‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪1‬‬
‫) 𝑗𝑥 ‪𝑚𝑎𝑥 ∑ 𝛼𝑖 − ∑ ∑ 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗 𝐾(𝑥𝑖 ,‬‬ ‫‪𝑠. 𝑡. 𝛼𝑖 ≥ 0, ∀𝑖 = 1,2, … , 𝑛 , ∑ 𝛼𝑖 𝑦𝑖 = 0‬‬
‫𝛼‬ ‫‪2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1 𝑗=1‬‬ ‫‪𝑖=1‬‬
‫אם נחליט לוותר על הקבוע המפורש ‪ ,b‬אותו ניתן להכיל באחד המאפיינים‪ ,‬האילוץ של הסכום יתבטל‪.‬‬
‫לאחר מציאת המקדמים ניתן למצוא את פונקציית המסווג‪:‬‬
‫𝑛‬
‫)𝑏 ‪𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖 𝑦𝑖 𝐾(𝑥𝑖 , 𝑥) +‬‬

‫‪𝑖=1‬‬
‫נציין כי מימד הבעיה הדואלית לא השתנה למרות הגדלת מרחב המאפיינים‪ ,‬ווקטור המקדמים צפוי להיות דליל‪ :‬יתקבל רק‬
‫אם המאפיין הוא וקטור תמיכה או אם הסיווג לא נכון‪.‬‬
‫‪48‬‬
‫שילוב פונקציות גרעין‬
‫עבור וקטור מאפיינים עם מימד גדול מאוד‪ ,‬ואף אינסופי‪ ,‬נוסיף גורם שיאפשר ליישם את עיקרון השוליים המרביים‪.‬‬
‫הרעיון הוא כי עבור אוספים מסוימים של פונקציות בסיס‪ ,‬למכפלה הפנימית יש צורה אנליטית סגורה כך שהפונקציה‬
‫)‪ K(x, z‬ניתנת לחישוב ישיר‪.‬‬
‫הבסיס תיאורטי הוא שפונקציית הגרעין ‪ K‬על מרחב ‪ X‬היא פונקציה רציפה שהינה סימטרית‪ ,‬חיובית מוגדרת‪ .‬לכן היא‬
‫𝑀∑ = )𝑧 ‪ ,𝐾(𝑥,‬כאשר ‪ M‬עשוי להיות אינסופי ו })𝑥( 𝑚𝜙{ פונקציות בסיס מתאימות‪.‬‬‫ניתנת לביטוי ע"י )𝑧( 𝑚𝜙)𝑥( 𝑚𝜙 ‪𝑚=1‬‬
‫מכאן כי כל פונקציית גרעין )𝑧 ‪ 𝐾(𝑥,‬מגדירה מכפלה פנימית בין פונקציות בסיס‪.‬‬

‫כדי לדעת מהן פונקציות הבסיס המתאימות לפונקציית גרעין נתונה‪ ,‬נחשוב מהו המרחב הנפרש על ידי פונקציות בסיס אלה‪.‬‬
‫ניתן לוודא כי זהו לפחות המרחב הנפרש על ידי אוסף הפונקציות }𝑋 ∈ ‪.{𝐾(𝑥, 𝑧0 ): 𝑧0‬‬
‫המסווג המתקבל פה יהיה‪ ,‬בדומה לסעיף הקודם‪ ,‬מהצורה‬
‫𝑛‬
‫𝑇‬
‫)𝑏 ‪𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝜙(𝑥) + 𝑏) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖 𝑦𝑖 𝐾(𝑥𝑖 , 𝑥) +‬‬
‫‪𝑖=1‬‬
‫פונקציות גרעין נפוצות‪:‬‬
‫‪‖𝑥−𝑧‖2‬‬
‫גרעין גאוסי‪ .𝐾𝜆 (𝑥, 𝑧) = 𝑒 − 𝜆 :‬הפונקציות ) ‪ 𝐾(𝑥, 𝑧0‬הן גאוסיאנים רדיאליים בעלי רוחב נתון‪ .‬מרחב פונקציות‬ ‫‪‬‬
‫הבסיס הוא המרחב הנפרש ע"י כל הגאוסיאנים האלה (מרחב אינסוף‪-‬מימדי)‪.‬‬
‫המסווג המתקבל במקרה זה יהיה מהצורה‪:‬‬
‫𝑛‬
‫‪‖𝑥−𝑧‖2‬‬
‫‪−‬‬
‫𝑒 𝑖𝑦 𝑖𝛼 ∑ ‪𝑦̂ = 𝑠𝑖𝑔𝑛 (𝑏 +‬‬ ‫) 𝜆‬
‫‪𝑖=1‬‬
‫גרעין פולינומיאלי‪ 𝐾(𝑥, 𝑧) = (1 + 𝑥 𝑇 𝑧)𝐿 :‬כאשר ‪.L ≥ 1‬‬ ‫‪‬‬
‫הפונקציות ) ‪ 𝐾(𝑥, 𝑧0‬פה הן פולינומים רבי משתנים מסדר ‪ L‬ברכיבי הוקטור ‪ .x‬לדוגמא עבור ‪ L=2‬נקבל‪:‬‬
‫‪1‬‬ ‫‪1‬‬
‫⟩)𝑧‪𝐾(𝑥, 𝑧) = (1 + 𝑥 𝑇 𝑧)2 = 1 + 2𝑥𝑧 + 𝑥 2 𝑧 2 = ⟨(√2𝑥 ) , (√2‬‬
‫‪𝑥2‬‬ ‫‪𝑧2‬‬
‫והמסווג יהיה מהצורה‪:‬‬
‫𝑛‬
‫𝐿‬
‫)𝑧 𝑇𝑖𝑥 ‪𝑦̂ = 𝑠𝑖𝑔𝑛(∑ 𝛼𝑖 𝑦𝑖 (1 +‬‬
‫‪𝑖=1‬‬
‫שימוש מעין זה בפונקציית גרעין לחישוב מכפלות פנימיות במימד גבוה מכונה ה ‪ .Kernel Trick‬הוא שימושי גם לבעיות‬
‫נוספות בלמידה חישובית כגון ‪ PCA‬ועוד‪.‬‬
‫אלגוריתם למציאת ‪ w, b‬עבור בעיית ‪ SVM‬פרידה לינארית‬

‫ראשית‪ ,‬יש להבין אם ה ‪ Data‬פריד לינארית או לא‪ .‬אם הוא לא פריד לינארית‪ ,‬נשתמש ב ‪ .Soft SVM‬אחרת ‪.Hard‬‬
‫כעת יש להבין מהמידע כמה ‪ SV‬קיימים – אפס אם קיימת מחלקה אחת בלבד‪ ,‬אחד בלתי אפשרי ולכן ‪ 1‬יהיה המס'‬
‫המינימלי‪ ,‬איתו ננסה לפתור‪.‬‬
‫מהמידע ננסה להבין מי הנקודות אשר הן ה ‪ ,SV‬בעבור ‪ n‬וקטורי תמיכה‪.‬‬
‫נקבל תנאי על ‪ .∑𝑛𝑖=1 𝛼𝑖 𝑦𝑖 = 0‬אם הבעיה בינארית‪ ,‬ניתן להניח כי תיוג ‪ 𝑦1 = 1‬ו ‪.𝑦2 = −1‬‬
‫כעת מתקיים לכל ‪ SV‬כי ‪.𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1‬‬
‫בנוסף מתקיים כי 𝑖𝑦 𝑖𝑥 𝑖𝛼 ‪.𝑤 = ∑𝑛𝑖=1‬‬
‫סה"כ נקבל משוואה אחת עבור ‪ n‬משתני 𝛼‪ n ,‬משוואות עבור ‪ n‬משתני ‪ w‬ועוד ‪ n‬משוואות עבור הקשר בין 𝑤 ל 𝛼 ‪.‬‬
‫סה"כ נקבל עבור ‪ 2n‬משתנים ‪ 2n+1‬משוואות‪ ,‬נפתור ונקבל את 𝑤 ו 𝑏‪.‬‬
‫נשים לב כששואלים על מספר וקטורי התמיכה‪ ,‬שלא התווסף לנו וקטור תמיכה שפספסנו בחישוב – כלומר נק' שהנחנו‬
‫שאינה מזיזה את השוליים אך כיוון שנמצאת על המרחק המינימלי של השוליים תיחשב כוקטור תמיכה גם כן‪.‬‬
‫‪49‬‬
‫עצי החלטה‬
‫עצי החלטה הם כלי נפוץ ופשוט יחסית לסיווג ורגרסיה‪ .‬בבסיסו‪ ,‬עץ החלטה הינו מימוש מסוים של פונקציות לוגיות (כניסה‬
‫ויציאה דיסקרטית)‪ ,‬אולם ניתן ליישמו גם עבור משתנים רציפים על ידי דיסקרטיזציה‪.‬‬
‫בבניית עץ החלטה‪ ,‬נרצה ליצור סיווג נכון של מרבית הדוגמאות ושיהיה קצר ופשוט ככל הניתן‪ .‬באופן זה‪ ,‬המימוש עצמו‬
‫יהיה פשוט ותהיה יכולת הכללה‪ :‬מניעת התאמת יתר לאוסף הדוגמאות הנתון‪.‬‬
‫השכיחות היחסית או "הפילוג האמפירי" של כל אחד מהסיווגים האפשריים בקבוצת הדוגמאות נתונה ע"י‪:‬‬
‫𝑁‬
‫‪1‬‬
‫𝐾 ‪𝑝̂𝑗 = ∑ 𝕀{𝑦𝑖 = 𝑗} , ∀𝑗 = 1, … ,‬‬
‫𝑁‬
‫‪𝑖=1‬‬
‫𝑁} 𝑖𝑦 ‪𝐷 = {𝑥𝑖 ,‬‬

‫עבור ‪ D‬אוסף של ‪ N‬דוגמאות מסווגות ‪𝑖=1‬‬
‫מדדים עובר אוסף המידע ‪D‬‬

‫מדדי אחידות של ‪:D‬‬
‫𝑗̂𝑝 𝑥𝑎𝑚 ‪𝑄(𝐷) = 1 −‬‬ ‫שגיאת הסיווג‪:‬‬ ‫‪‬‬
‫}𝐾‪𝑗∈{1,…,‬‬
‫) 𝑗̂𝑝 ‪𝑄(𝐷) = ∑𝑗∈{1,…,𝐾} 𝑝̂𝑗 (1 −‬‬ ‫אינדקס ‪: Gini‬‬ ‫‪‬‬
‫‪1‬‬
‫= )𝐷(𝐻 = )𝐷(𝑄‬ ‫) ( 𝑔𝑜𝑙 𝑗̂𝑝 }𝐾‪∑𝑗∈{1,…,‬‬
‫𝑗̂𝑝‬
‫) 𝑗̂𝑝(𝑔𝑜𝑙 𝑗̂𝑝 }𝐾‪= − ∑𝑗∈{1,…,‬‬ ‫אנטרופיה‪:‬‬ ‫‪‬‬
‫תכונות של )‪:Q(D‬‬
‫‪ 𝑄(𝐷) = 0‬עבור פילוג חד‪-‬ערכי ( ‪ 𝑝̂𝑗 = 1‬עבור ‪ j‬כלשהוא)‪.‬‬
‫‪1‬‬
‫)𝐷(𝑄 מקבל את ערכו המקסימלי עבור פילוג אחיד ) = 𝑗̂𝑝(‬
‫𝐾‬
‫מדד אחידות של ‪ D‬אשר אינו מקיים את תכונות אלו אינו יכול להיות‬
‫מדד לעץ החלטה‪.‬‬
‫נתון כי מאפיין ‪ A‬כלשהו מחלק את ‪ D‬למספר תת קבוצות‪ .‬נסמן תת קבוצות אלו על ידי }𝑀 ‪ {𝐷𝑚 , 𝑚 ∈ 1, … ,‬כאשר ‪ M‬הינו‬
‫אוסף הערכים האפשריים של ‪.A‬‬
‫מדד האחידות המשוקלל עבור האוסף } 𝒎𝑫{ יוגדר עתה על ידי‪:‬‬
‫| 𝑚𝐷|‬
‫𝑀∑ = )𝐴|𝐷(𝑄 כאשר ) 𝑚𝐷(𝑄 הינו מדד האחידות של תת הקבוצה ‪.Dm‬‬
‫‪𝑚=1‬‬ ‫) 𝑚𝐷(𝑄‬
‫𝑁‬
‫מדד טיב של מאפיין ‪ A‬ביחס לקבוצת הדוגמאות ‪ D‬יוגדר עתה על ידי‪𝛥𝑄(𝐷|𝐴) = 𝑄(𝐷) − 𝑄(𝐷|𝐴) :‬‬
‫ניתן לראות כי זהו הגידול באחידות (או הקטנה בחוסר האחידות) של האוסף } ‪ {Dm‬לעומת קבוצת הדוגמאות המקורית ‪.D‬‬
‫כאשר ‪ Q‬הינה האנטרופיה‪ ΔQ(D|A) ,‬נקרא גם תוספת המידע ‪ information gain‬של המאפיין ‪.A‬‬
‫המאפיין ‪ A‬שנבחר הוא (כעיקרון) זה שעבורו השיפור בתוספת המידע הינו המקסימלי כלומר )𝐴|𝐷(𝑄 מינימלי‪.‬‬
‫חישוב פרקטי של המאפיין הטוב ביותר‬

‫עבור טבלת מאפיינים והחלטות (תוצאות)‪ ,‬נבחן את המאפיין הטוב ביותר בצורה הבאה‪:‬‬
‫א‪ .‬לכל מאפיין בטבלת המאפיינים‪:‬‬
‫‪ .a‬לכל תת קבוצה של המאפיין בטבלת המאפיינים‪:‬‬
‫‪ .i‬נחשב שכיחות יחסית של המאפיין לגבי כ"א מהתוצאות האפשריות – עבור סיווג בינארי‪,‬‬
‫נסכום כך ש ‪ N‬הוא גודל תת הקבוצה והאינדיקטורים פעם אחת עבור האופציה ש ‪y =1‬‬
‫ופעם אחת עבור האופציה ש ‪.y=0‬‬
‫‪ .ii‬נחשב מדד אחידות רלוונטי (ג'יני‪ ,‬אנטרופיה‪ ,‬שגיאת סיווג) לפי תת קבוצה זו בלבד‪.‬‬
‫‪ .b‬נחשב את מדד האחידות המשוקלל לגבי כל תת הקבוצות של המאפיין‪ ,‬כאשר ‪ N‬הוא מס' הדוגמאות‬
‫הכולל בטבלה ו | 𝑚𝐷| הוא גודל תת הקבוצה של המאפיין‪ Q ,‬הוא הרלוונטי לתת הקבוצה משלב ‪.a.ii.‬‬
‫‪51‬‬
‫ב‪ .‬נבחר את המאפיין אשר מדד האחידות המשוקלל שלו הוא המינימלי‪.‬‬
‫ג‪ .‬נחלק את השורש לפי המאפיין הנבחר‪ .‬נסתכל על האופציות שקיבלנו‪ ,‬ונפעיל שוב את שלב א'‪.‬‬
‫בעיית התאמת היתר ‪Overfitting‬‬

‫לדוגמא‪ ,‬עבור מידע בו יש שם לכל אדם‪ ,‬גובה‪ ,‬שיער וכדומה‪ .‬ניתן יהיה לסווג את הדוגמאות באופן מושלם רק על סמך‬
‫"מאפיין" השם‪ ,‬ולכן מאפיין זה בוודאי ייבחר בצומת הראשונה לפי קריטריון תוספת המידע‪ .‬אולם לקריטריון זה ערך מועט‬
‫לצורך חיזוי‪.‬‬
‫מקור הבעיה‪ :‬בקריטריון שבו השתמשנו קיימת העדפה מובנית למאפיינים בעלי מספר ערכים רב‪.‬‬
‫פתרון אפשרי לבעיה יהיה נרמול תוספת המידע של מאפיין ‪ A‬באופן הבא‪:‬‬
‫)𝐴| 𝐷(𝑄𝛥‬
‫)𝐴‪𝛥𝑄̃ (𝐷|𝐴) = 𝑆𝑝𝑙𝑖𝑡(𝐷,‬‬
‫כאשר )𝐴 ‪ 𝑆𝑝𝑙𝑖𝑡(𝐷,‬הינו מקדם פיצול מתאים‪ .‬הגדרה מקובלת תהיה )𝐴(𝑛𝑔𝑜𝑙 = )𝐴 ‪𝑆𝑝𝑙𝑖𝑡(𝐷,‬‬
‫כאשר )‪ n(A‬הינו מספר הערכים השונים של המאפיין ‪ ,A‬המתקבלים על פני איברי הקבוצה ‪.D‬‬
‫מאפיינים רציפים‬
‫במקרה הרציף‪ ,‬המבחן המקובל לגבי ‪ x‬יהיה מהצורה של אי שוויון‪ .‬לפיכך‪ ,‬לבחירת המאפיין בכל צומת יש להוסיף את‬
‫בחירת ערך הסף 𝑗𝑡 כך שהמאפיין יהיה 𝑗𝑡 ≤ 𝑗𝑥‪ .‬עבור כל מבחן ‪ A‬ניתן להגדיר את תוספת המידע באופן הרגיל‬
‫)𝐴|𝑆(𝑄𝛥 = ) 𝑗𝑡 ‪𝛥𝑄(𝑆|𝑥𝑗 ,‬‬
‫השלב הבא הוא מקסימיזציה על הסף 𝑗𝑡‪𝛥𝑄(𝑆|𝑥𝑗 , 𝑡𝑗∗ ) = 𝑚𝑎𝑥 𝛥𝑄(𝑆|𝑥𝑗 , 𝑡𝑗 ) :‬‬
‫𝑗𝑡‬
‫ולאחר מכן בחירת המאפיין 𝑗𝑥 שעבורו ערך זה הינו מקסימלי‪.‬‬
‫‪50‬‬
‫שילוב של מסווגים‪Boosting , Bagging :‬‬

‫המטרה הבסיסית היא שימוש במספר מסווגים הנלמדים על אותו ‪ data‬ומשולבים על מנת לקבל ביצועים משופרים ויציבות‬
‫עדיפה‪.‬‬
‫בפרק זה נעסוק בבעיית הסיווג הבינארי בלבד‪.‬‬
‫מודל הלומד החלש‬

‫בבעיית הלמידה המודרכת אנו נדרשים ללמוד פונקציה 𝑌 → 𝑋 ‪ 𝑓0 :‬בעזרת אוסף דוגמאות‪ .‬המודל הבסיסי בו נעסוק כולל את‬
‫המרכיבים הבאים‪:‬‬
‫א‪ .‬פונקציית מטרה – נניח בעיית סיווג בינארי }‪ 𝑌 = {−1, 1‬כאשר 𝑌 → 𝑋 ‪𝑓0 :‬‬
‫ב‪ .‬לומדים חלשים – אוסף 𝑌 → 𝑋 ‪ ℋ:‬פונקציות שמתוכו נבחר את הפונ' 𝑡‪ ℎ‬לכל ‪ .t‬קב' זו היא מחלקת ההשערות החלשות‪.‬‬
‫ג‪ .‬פונקציית השערוך – פונקציית השערוך של ההשערה תהיה מהצורה ))𝑥( 𝑡‪ ,𝐻(𝑥) = 𝑠𝑖𝑔𝑛(∑𝑇𝑡=1 𝛼𝑡 ℎ‬כאשר בחירת‬
‫ההשערות 𝑡‪ ℎ‬והפרמטרים 𝑡𝛼 תלויית אלגוריתם‪.‬‬
‫נאמר שאלגוריתם לומד (חזק) אם לכל ‪ , 𝜀, 𝛿 > 0‬האלגוריתם ילמד בעזרת מספיק מידע השערה עם סיכון ]𝑦 ≠ )𝑥(‪𝑃𝑟[ℎ‬‬
‫קטן מ 𝜀 בהסתברות לפחות 𝛿 ‪.1 −‬‬
‫אלגוריתם לומד חלש אם לכל פילוג 𝑡𝐷 על הנקודות (בפרט) השגיאה‬
‫= ] 𝑖𝑦 ≠ ) 𝑖𝑥( 𝑡‪𝜀𝑡 = 𝑃𝑟 [ℎ‬‬ ‫∑‬ ‫)𝑖( 𝑡𝐷‬

‫𝑡𝐷~𝑖‬
‫𝑖𝑦≠) 𝑖𝑥( 𝑡‪𝑖:ℎ‬‬
‫‪1‬‬
‫מקיימת כי 𝛾 ‪ .𝜀𝑡 < 2 −‬נשים לב כי המשמעות היא מסווג הטוב במעט ממסווג אקראי‪.‬‬
‫אם ‪ 𝛾 > 0‬אז למידה חלשה תגרור למידה חזקה‪.‬‬
‫הרעיון הבסיסי מאחורי כל אלגוריתמי ה ‪ boosting‬הוא שמובטח לנו כי הלומד החלש יכול ללמוד (במשהו) ביחס לכל פילוג‪.‬‬
‫זו הנחה חזקה למדי‪ .‬ישנן כמה טכניקות לשילוב מסווגים‪ ,‬למשל ‪ re-weighting ,Sampling‬ו‪.Bagging‬‬
‫‪Bagging‬‬
‫מקור השם ‪ .Bootstrap aggregating‬הרעיון הוא לקחת את האוסף של ‪ n‬הדוגמאות ולדגום מתוכו ‪ n‬דוגמאות (עם החלפה‪:‬‬
‫אותה דגימה יכולה להידגם פעמיים) ‪ m‬פעמים‪.‬‬
‫לדוגמא‪ ,‬נניח שאנו מקבלים ‪ n=10‬הטלות של קוביה }‪ {1,1,2,5,3,2,4,1,6,4‬כאשר לכל הטלה יש גם תגית כלשהי‪.‬‬
‫אז ממדגם זה יוצרים ‪ m=4‬מדגמים חדשים‬
‫}‪{5,6,3,3,4,2,1,1,5,3}, {1,1,3,1,4,1,3,3,1,5}, {1,1,5,3,1,2,2,2,1}, {3,1,2,4,1,6,3,4,1,3‬‬
‫כאשר לכל דוגמא יהיה את התגית המקורית שלה‪ .‬מספר הפעמים שכל דוגמא מופיע במדגמים החדשים יכול להיות שונה‬
‫ממספר הפעמים שהדוגמא הופיעה במדגם המקורי‪.‬‬
‫לאחר מכן‪ ,‬מאמנים חזאי לכל אחד מ – ‪ m‬המדגמים כדי לחזות את התגיות של כל דוגמא‪ .‬לאחר האימון‪ ,‬בהינתן דוגמא‬
‫חדשה‪ ,‬לוקחים את ה ‪( majority vote‬סיווג) או ממוצע (רגרסיה) של ‪ m‬החזאים השונים‪.‬‬
‫יתרונות השיטה הינם יציבות‪ ,‬הורדת שונות ומניעת התאמת יתר‪ ,‬התגברות על ‪( outliers‬דוגמאות שקריות)‪.‬‬
‫נשים לב שעבור מודלים ליניאריים (רגרסייה) הממוצע ישאר לינארי ולכן שיטה זו פחות אפקטיבית‪.‬‬
‫‪Adaboost‬‬
‫הרעיון‪:‬‬
‫שמירת משקל לדגימות (פילוג ( 𝑡𝐷‬ ‫‪.0‬‬
‫מציאת מסווג חלש ביחס לפילוג 𝑡𝐷 הנוכחי‬ ‫‪.1‬‬
‫שינוי המשקל תוך הדגשת דוגמאות שסווגו לא נכון‬ ‫‪.3‬‬
‫חזרה ל‪.0-‬‬ ‫‪.4‬‬
‫המסווג הסופי הוא קומבינציה לינארית של המסווגים החלשים‪.‬‬
‫אלגוריתם ה ‪ Adaboost‬מאופיין על ידי בחירה מסוימת המאפשרת לו להיות אדאפטיבי‬
‫‪52‬‬
‫(‪ .) Adaptive Boosting – Adaboost‬ניתן לרשום את האלגוריתם בצורה הבאה‪:‬‬
‫‪ .0‬לכל ‪ , t=1,…T‬פתרו את בעיית האופטימיזציה הבאה‪:‬‬
‫𝑛‬
‫‪1‬‬ ‫𝑡‬
‫)𝑖𝑥(𝜏‪(𝛼𝑡 , ℎ𝑡 ) = 𝑎𝑟𝑔 𝑚𝑖𝑛 ∑ 𝑒 −𝑦𝑖 ∑𝜏=1 𝛼𝜏ℎ‬‬
‫𝑛 ‪𝛼𝑡 ,ℎ𝑡 ∈ℋ‬‬
‫‪𝑖=1‬‬
‫‪ .1‬המסווג הסופי הוא ‪:‬‬
‫𝑇‬
‫))𝑥( 𝑡‪𝐻(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑡 ℎ‬‬

‫‪𝑡=1‬‬
‫𝑛 ‪1‬‬
‫האמפירי ) 𝑖𝑦 ‪∑ ℓ(∑𝑡𝜏=1 𝛼𝜏 ℎ𝜏 (𝑥𝑖 ),‬‬ ‫שלב ‪ 0‬באלגוריתם ממזער בצורה סידרתית ‪ coordinate descent‬את הסיכון‬
‫‪𝑛 𝑖=1‬‬
‫עם פונקציית מחיר אקספוננציאלית 𝑦̂𝑦‪ℓ(𝑦̂, 𝑦) = 𝑒 −‬על אוסף הדוגמאות‪.‬‬

‫פונקציה זו חוסמת מלמעלה את שגיאת הסיווג (מחיר ‪ )1-0‬כפי שניתן לראות‪.‬‬
‫שלב ‪ 0‬של האלגוריתם מורכב‪ ,‬לכן נהוג לפרק אותו לכמה שלבים‪ .‬אם נפתור חלקית‬
‫את בעיית האופטימיזציה‪ ,‬ונוסיף תנאי עצירה‪ ,‬נקבל את האלגוריתם הפשוט הבא‪:‬‬
‫‪1‬‬
‫𝑛 = )𝑖( ‪∀𝑖: 𝐷1‬‬ ‫‪ .0‬אתחול‪ :‬פילוג אחיד‬
‫)𝑖( 𝑡𝐷 𝑖𝑦≠)𝑖𝑥( 𝑡‪𝜀𝑡 = 𝑃𝑟 [ℎ𝑡 (𝑥𝑖 ) ≠ 𝑦𝑖 ] = ∑𝑖:ℎ‬‬ ‫‪ .1‬נסמן את השגיאה‪:‬‬

‫𝑡𝐷~𝑖‬
‫‪ .3‬בהינתן ‪ Dt‬מצאו מסווג חלק }‪ ℎ𝑡 : 𝑋 → {1, −1‬עם שגיאה ממוצעת נמוכה (קטנה מחצי)‪.‬‬
‫‪1‬‬ ‫) 𝑡𝜀‪(1−‬‬
‫( 𝑛𝑙 ‪𝛼𝑡 = 2‬‬ ‫𝑡𝜀‬
‫)‬ ‫‪ .4‬קבעו‬
‫) ‪e−αtyt ht (xi‬‬
‫‪.∑ni=1 Dt+1 (i) = 1‬‬ ‫כאשר ‪ Zt‬מנרמל כך ש‬ ‫( )‪Dt+1 (i) = Dt (i‬‬ ‫‪Zt‬‬
‫)‬ ‫‪ .5‬עדכון‪:‬‬
‫‪ .6‬חזרו לשלב ‪ 1‬עד שאיזשהו תנאי עצירה מסופק‪.‬‬

‫‪ .7‬ההשערה הסופית היא‪:‬‬
‫‪T‬‬
‫))‪H(x) = sign (∑ αt ht (x‬‬

‫‪t=1‬‬
‫האלגוריתם אדפטיבי כי אין צורך לדעת מראש את ‪( T‬מספר האיטרציות) או את השגיאות או חסם עליהן‪.‬‬
‫‪1‬‬ ‫𝑡𝜀‪1−‬‬
‫( ‪ 𝛼𝑡 = 2 ln‬ויחס הצלחת האימון לשגיאתו‪.‬‬ ‫𝑡𝜀‬
‫הקבוע )‬ ‫נשים לב כי קיים יחס לינארי בין‬
‫כמו כן‪ ,‬אם השגיאה גדולה מחצי וקרובה לאחד‪ ,‬נוכל להפוך את החיזוי של האלגוריתם ולקבל שגיאה קטנה מחצי וקרובה ל‪-‬‬
‫‪ .1‬במקרה כזה ערך הקבוע ‪ αt‬יהיה שלילי‪.‬‬
‫ניתוח שגיאת האימון‬

‫כזכור ))𝑥( 𝑡‪.𝐻(𝑥) = 𝑠𝑖𝑔𝑛(∑𝑇𝑖=1 𝛼𝑡 ℎ‬‬
‫𝑇‬ ‫‪2‬‬ ‫‪1‬‬
‫𝜏𝛾 ‪.𝐿̂𝑛 (𝐻) ≤ 𝑒 −2 ∑𝜏=1‬‬ ‫טענה‪ :‬אם נסמן 𝑡𝛾 ‪ 𝜀𝑡 = 2 −‬ואת הסיכון האמפירי ב )𝐻( 𝑛̂𝐿 אזי‬
‫‪2‬‬
‫𝛾𝑇‪.𝐿̂𝑛 (𝐻) ≤ 𝑒 −2‬‬ ‫מכאן אם ‪ γt > γ > 0‬שגיאת האימון תלך ל‪:1‬‬
‫הוכחה‪ :‬מכיוון ש 𝑥 𝑒 ≤ ]‪ ,𝐼[𝑥 > 0‬כאשר ‪ I‬היא פונקציית האינדיקטור‪ ,‬נקבל‬
‫𝑛‬ ‫𝑛‬ ‫𝑇‬ ‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫𝑇‬
‫= )𝐻( 𝑛̂𝐿‬ ‫)𝑖𝑥(𝑡‪∑ 𝐼[−𝑦𝑖 𝐻(𝑥𝑖 ) > 0] = ∑ 𝐼 [−𝑦𝑖 ∑ 𝛼𝑡 ℎ𝑡 (𝑥𝑖 ) > 0] ≤ ∑ 𝑒 −𝑦𝑖 ∑𝑡=1 𝛼𝑡 ℎ‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬ ‫‪𝑡=1‬‬ ‫‪𝑖=1‬‬
‫‪53‬‬
‫𝑇‬ ‫‪2‬‬
‫נראה כי הגודל מצד ימין חסום מלמעלה ע"י 𝜏𝛾 ‪ 𝑒 −2 ∑𝜏=1‬וכך נוכיח‪.‬‬
‫כזכור 𝑡‪ 𝑍𝑡 = ∑𝑛𝑖=1 𝐷𝑡 (𝑖)𝑒 −𝑦𝑖𝛼𝑡ℎ‬ולכן‪:‬‬
‫מכאן ניזכר כי 𝑛 = ‪ 𝑍0‬ולכן‪:‬‬
‫‪1‬‬
‫כאשר בשוויון הראשון השתמשנו בתוצאה *‪ ,‬בשוויון השני השתמשנו בתוצאה **‪ ,‬בשלישי הצבנו 𝑡𝜀 ‪ 𝛾𝑡 = 2 −‬ובאי‬
‫‪2‬‬
‫שוויון בסוף הצבנו 𝑥‪.√1 − 4𝑥 2 ≤ 𝑒 −2‬‬
‫כדי שהאלגוריתם יגיע לשגיאות אימון ‪ ,1‬נדרוש עבור משפחת המסווגים החלשים שתפרוס את המרחב (מהוכחת‬ ‫‪‬‬
‫התכנסות האלגוריתם)‪ .‬תמיד יהיה קיים לנו מסווג חלש שמאפשר שגיאה קטנה ממש מחצי‪ .‬לדוגמא‪ ,‬משפחת‬
‫המסווגים הלינארים‪.‬‬
‫שגיאת הבוחן לא בהכרח תגיע לאפס‪ ,‬ולא בהכרח לא תגיע לאפס‪ ,‬כיוון שהאלגוריתם עוצר כאשר שגיאת האימון‬ ‫‪‬‬
‫מגיעה לאפס‪ .‬למשל‪ ,‬עבור סט אימון של דוגמא אחת‪ ,‬כל מסווג חלש יסווג אותה נכון‪ ,‬ובהינתן סט בוחן של דוגמא‬
‫בצד השני של המסווג הוא יטעה בדוגמא זו‪.‬‬
‫ניתוח שגיאת ההכללה‬

‫הרגולריזציה מתבטאת במספר דרכים‪:‬‬
‫‪ .0‬בחירת מסווג "חלש" (מסווג חזק מדי יגרום ל‪.)over fitting‬‬
‫‪ .1‬בחירת ‪.T‬‬
‫שגיאת ההכללה (הסיכון האמיתי) היא בהסתברות גבוהה חסומה ע"י ‪:‬‬
‫‪n‬‬
‫‪1‬‬ ‫‪Td‬‬
‫√‪L(H) ≤ ∑ 𝕀[H(xi ) ≠ yi ] + C‬‬
‫‪n‬‬ ‫‪n‬‬
‫‪i=1‬‬
‫כאשר התעלמנו מהגורמים ההסתברותיים‪ d ,‬הוא גודל המודד את מורכבות הלומד החלש ו‪ T‬הוא מספר האיטרציות‪.‬‬
‫במקרים רבים ביצועי אלגוריתם ה‪ Adaboost‬ישתפרו אם נמשיך לאמן גם אחרי ששגיאת האימון היא ‪.1‬‬
‫‪54‬‬

מערכות לומדות - תומר קרן סיכום למבחן

Uploaded by

Copyright:

Available Formats

You might also like

מערכות לומדות - תומר קרן סיכום למבחן

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

מערכות לומדות - תומר קרן סיכום למבחן

Uploaded by

Copyright:

Available Formats

‫סיכום הרצאות ותרגולים – מערכות לומדות – ‪ – 591640‬סמסטר אביב ‪ – 0505‬נכתב ונערך ע"י תומר קרן‬

‫הסתברות משותפת (‪ ,)joint‬הסתברות שולית (‪ ,)marginal‬הסתברות מותנית (‪.)conditional‬‬

‫אם ‪ x,y‬בלתי תלויים )𝑥(𝑝 ⋅ )𝑦(𝑝 = )𝑦 ‪𝑝(𝑥,‬‬

‫נוסחת ההסתברות השלמה וכלל ‪bayes‬‬

‫וקטור אקראי גאוסי‬

‫‪𝛴11‬‬ ‫‪𝛴12‬‬ ‫‪𝜇1‬‬

‫שערוך ‪ – Cumulative Distribution Function – CDF‬משערך אמפירי‬

‫שערוך ‪ - Probability Density Function – PDF‬היסטוגרמה‬

‫כלל אצבע‪ :‬חלוקת טווח הערכים ל 𝑁√ תאים בגודל אחיד‪.‬‬

‫שערוך ‪Kernel Density Estimation – KDE‬‬

‫ישנן שתי גישות עבור שערוכים פרמטריים‪:‬‬

‫)𝜃( ‪𝑝(𝜃, 𝐷) 𝑝(𝐷|𝜃)𝑝0‬‬ ‫)𝜃( ‪𝑝(𝐷|𝜃)𝑝0‬‬

‫מתוך זה‪ ,‬נגזור משערכים שונים עבור ‪: θ‬‬

‫משערך התוחלת המותנית‬

‫משערך )‪Maximum a-Posteriori (MAP‬‬

‫)𝐷|𝜃(𝑝 ‪𝜃̂𝑀𝐴𝑃 ≜ arg max‬‬

‫משערך זה בוחר את הפרמטר שהסתברותו מקסימלית לפי הפילוג בדיעבד‪.‬‬

‫בהצבת נוסחת בייס נקבל‬

‫)𝜃( ‪𝜃̂𝑀𝐴𝑃 ≜ arg max 𝑝(𝐷|𝜃) ⋅ 𝑝0‬‬

‫משערך זה ממזג את השפעת המדידות עם ההנחה הראשונית לגבי ערכי הפרמטר‪.‬‬

‫משערך הסבירות המירבית ‪MLE‬‬

‫ערך המשערך הינו הפרמטר עבורו הסתברות המדידות הינה המקסימלית‪.‬‬

‫הערכת הממוצע של פילוג נורמלי‪:‬‬

‫)𝜇 ‪∇𝜇 ℓ(𝜃) = ∑ Σ−1 (𝑥𝑖 −‬‬

‫פילוג ברנולי (מטבע לא מאוזן)‪:‬‬

‫ומתקיים )𝜃| 𝑖𝑥( 𝑋𝑃 𝑖𝑛∏ = )𝜃(𝐿‪ .‬לכן‪:‬‬

‫) 𝑖𝑥 ‪= arg max log(𝑝) ∑ 𝑥𝑖 + log(1 − 𝑝) ∑(1 −‬‬

‫פילוג דיסקרטי (הטלת קוביה לא מאוזנת)‬

‫) 𝑚𝑝 ‪ 𝑝 = (𝑝1 , . . ,‬וקטור ההסתברויות (סכומו ‪.)0‬‬

‫גזירה והשוואה לאפס‪.‬‬ ‫הצבה בפונק' הסבירות הלוגריתמית‪,‬‬

‫דוגמא – תיוג עם רעש‬

‫‪𝑦𝑖 = 𝜃 𝑇 𝑥𝑖 + 𝜀𝑖 ,‬‬ ‫) ‪𝜀𝑖 ~𝑁(0, 𝜎𝑖2‬‬

‫‪−𝑥1 −‬‬ ‫‪σ1‬‬ ‫…‬ ‫‪0‬‬

‫𝑌 ‪𝜃̂𝑀𝐿𝐸 = (𝑋 𝑇 Σ −2 𝑋)−1 𝑋 𝑇 Σ−2‬‬

‫𝑖𝑦 ∗ 𝑖̂𝑥 ‪∑𝑛𝑖=1‬‬

‫𝑘𝑥𝛿 ‪𝜃̂𝑀𝐿𝐸 𝑦𝑘 +‬‬

‫אפיון טיב של משערכים‬

‫‪𝔼[𝐹̂𝑋 (𝑥0 )] = 𝐹𝑋 (𝑥0 ) → 𝐵𝑖𝑎𝑠𝐹̂𝑋 (𝐹̂𝑋 (𝑥0 )) = 0 - Bias of CDF‬‬

‫הערכת ממוצע ושונות נוספת ‪:‬‬

‫עיבוד מקדים וניתוח מידע‬

‫סוגי נפוצים של מידע‬

‫הורדת מימד ‪ : PCA‬ניתוח רכיבים עיקריים‬

‫‪𝑣𝑘𝑇 𝑣𝑗 = 𝛿𝑘𝑗 ,‬‬ ‫𝑘𝑣 𝑘𝜆 = 𝑘𝑣 𝑛𝑃‬

‫סדר הוקטורים העצמיים הוא לפי סדר הערכים העצמיים‪.‬‬

‫𝑢∀ ‪𝑢𝑇 𝑃𝑛 𝑢 = 𝑢𝑇 𝑋𝑋 𝑇 𝑢 = ‖𝑢𝑇 𝑥‖2 = ∑(𝑢𝑇 𝑥𝑖 )2 ≥ 0 ,‬‬

‫𝑇𝑘𝑣 𝑘𝑣 𝑘𝜆 ‪𝑃𝑛 = 𝑉𝛬𝑉 𝑇 = ∑𝑑𝑘=1‬‬ ‫מתקיים גם כן‪:‬‬

‫‪𝜆1‬‬ ‫‪… 0‬‬

‫כיוונים ורכיבים העיקריים‬

‫אלגוריתם ה ‪ PCA‬להורדת המימד‬

‫אינטואיציה גיאומטרית‪ PCA :‬מתקבל על ידי התאמת אליפסואיד במימד ‪d‬‬

‫שחזור לינארי עם שגיאה מינימלית‬

‫תכונת השונות המירבית‬

‫‪max 𝑢𝑇 𝑃𝑛 𝑢 = max (𝑉𝑢)𝑇 Λ(𝑉𝑢) = max 𝑧 𝑇 Λ𝑧 = 𝜆𝑀𝑎𝑥 (𝑃𝑛 ) = 𝜆1‬‬

‫כאשר מקסימום זה מתקבל עבור הווקטור העצמי המתאים ‪.𝑢 = 𝑣1‬‬

‫בחירת המימד ‪m‬‬

‫מדדי קרבה וחלוקה‬

‫אלגוריתם ‪K-means Clustering‬‬

‫‪𝑊(𝐶) = ∑ 𝑊𝑘 (𝐶) = ∑ ∑ ‖𝑥𝑖 − 𝜇𝑘 ‖2‬‬

‫מבוא ללמידה מודרכת‬