מערכות לומדות - תומר קרן סיכום למבחן

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 54

‫סיכום הרצאות ותרגולים – מערכות לומדות – ‪ – 591640‬סמסטר אביב ‪ – 0505‬נכתב ונערך ע"י תומר קרן‬

‫תוכן עניינים‬
‫חזרה על הסתברות ‪3 ..............................................................................................................................................................‬‬
‫משתנה אקראי ‪3 ...................................................................................................................................................................................‬‬
‫הסתברות משותפת (‪ ,)joint‬הסתברות שולית (‪ ,)marginal‬הסתברות מותנית (‪3 ....................................................................... .)conditional‬‬
‫נוסחת ההסתברות השלמה וכלל ‪3 ................................................................................................................................................. bayes‬‬
‫וקטור אקראי גאוסי ‪4 ...........................................................................................................................................................................‬‬
‫כופלי לגראנז' ‪4 .....................................................................................................................................................................................‬‬
‫שערוך א‪-‬פרמטרי ‪0 ...............................................................................................................................................................‬‬
‫שערוך ‪ – Cumulative Distribution Function – CDF‬משערך אמפירי ‪5 ...............................................................................................‬‬
‫שערוך ‪ - Probability Density Function – PDF‬היסטוגרמה ‪5 ..............................................................................................................‬‬
‫שערוך ‪6 ..................................................................................................................................... Kernel Density Estimation – KDE‬‬
‫שערוך פרמטרי ‪7 ...................................................................................................................................................................‬‬
‫שערוך בייסיאני ‪7 ..................................................................................................................................................................................‬‬
‫משערך התוחלת המותנית ‪7 ...................................................................................................................................................................‬‬
‫משערך )‪7 ..............................................................................................................................................Maximum a-Posteriori (MAP‬‬
‫שערוך לא בייסיאני ‪8 .............................................................................................................................................................................‬‬
‫משערך הסבירות המירבית ‪8 .......................................................................................................................................................... MLE‬‬
‫דוגמאות בסיסיות ‪8 ..............................................................................................................................................................................‬‬
‫הערכת הממוצע של פילוג נורמלי‪8 .........................................................................................................................................................:‬‬
‫פילוג ברנולי (מטבע לא מאוזן)‪8 ............................................................................................................................................................. :‬‬
‫פילוג דיסקרטי (הטלת קוביה לא מאוזנת) ‪9 ...............................................................................................................................................‬‬
‫דוגמא – תיוג עם רעש ‪9 .........................................................................................................................................................................‬‬
‫פילוג ‪9 .................................................................................................................................................................................. Rayleigh‬‬
‫אפיון טיב של משערכים ‪65 .....................................................................................................................................................‬‬
‫‪ – Bias‬היסט של משערך ‪01....................................................................................................................................................................‬‬
‫‪ – Variance‬שונות של משערך ‪01.............................................................................................................................................................‬‬
‫דוגמאות לחישובים‪11 ............................................................................................................................................................................‬‬
‫עיבוד מקדים וניתוח מידע ‪60 ...................................................................................................................................................‬‬
‫מבוא‪ ,‬סוגי נתונים‪ ,‬פעולות בסיסיות‪ ,‬מאפיינים‪01.....................................................................................................................................‬‬
‫סוגי נפוצים של מידע ‪11 .........................................................................................................................................................................‬‬
‫מאפיינים ‪11 .........................................................................................................................................................................................‬‬
‫מרכוז ונרמול ‪11 ....................................................................................................................................................................................‬‬
‫הורדת מימד ‪ : PCA‬ניתוח רכיבים עיקריים ‪01.........................................................................................................................................‬‬
‫הגדרה ותזכורות ‪11 ...............................................................................................................................................................................‬‬
‫כיוונים ורכיבים העיקריים ‪11 ...................................................................................................................................................................‬‬
‫אלגוריתם ה ‪ PCA‬להורדת המימד ‪11 ........................................................................................................................................................‬‬
‫שחזור לינארי עם שגיאה מינימלית ‪11 ......................................................................................................................................................‬‬
‫תכונת השונות המירבית ‪11 ....................................................................................................................................................................‬‬
‫בחירת המימד ‪11 .............................................................................................................................................................................. m‬‬
‫אשכול ‪60 ....................................................................................................................................................CLUSTERING‬‬
‫מדדי קרבה וחלוקה ‪11 ...........................................................................................................................................................................‬‬
‫אשכול צובר ‪11 .....................................................................................................................................................................................‬‬
‫אלגוריתם ‪11 .........................................................................................................................................................K-means Clustering‬‬
‫מבוא ללמידה מודרכת ‪61 ........................................................................................................................................................‬‬
‫בעיית הלמידה המודרכת‪ ,‬סיווג ורגרסיה ‪06..............................................................................................................................................‬‬
‫סוגי חזאים ‪06.......................................................................................................................................................................................‬‬
‫מודל למידה סטטיסטי ומדדי טיב ‪06.......................................................................................................................................................‬‬
‫הסיכון – המחיר האמיתי ‪11 ....................................................................................................................................................................‬‬
‫הסיכון האמפירי‪17 ................................................................................................................................................................................‬‬
‫בעיות יסוד בלמידה מודרכת ‪07...............................................................................................................................................................‬‬
‫הערכת ביצועים באמצעות קבוצות בוחן ‪08...............................................................................................................................................‬‬
‫סיווג בעזרת אלגוריתם ‪08........................................................................................................................ (K Nearest Neighbors) K-NN‬‬
‫דוגמא – סיווג בעזרת ‪19 .......................................................................................................................................... Ordinal Regression‬‬
‫סיווג גנרטיבי ‪05 ...................................................................................................................................................................‬‬
‫פונקציות הפסד נפוצות ‪12 .....................................................................................................................................................................‬‬
‫סיווג בייסיאני אופטימלי ‪11....................................................................................................................................................................‬‬
‫הסתברות שגיאה מינימלית ‪11 ................................................................................................................................................................‬‬
‫מסווג בייס במקרה הגאוסי ‪11 .................................................................................................................................................................‬‬
‫הכללה למדד סיכון כללי ‪11 .....................................................................................................................................................................‬‬
‫מסווג בייס נאיבי (‪11........................................................................................................................................ )Naïve Bayes Classifier‬‬
‫הגישה הגנרטיבית ‪11 ............................................................................................................................................................................‬‬
‫‪13.............................................................................................................................................Linear Discriminant Analysis –LDA‬‬
‫‪14.......................................................................................................................................... Quadric Discriminant Analysis – QDA‬‬
‫בעיית הרגרסיה ‪00 ................................................................................................................................................................‬‬
‫מאפיינים ופונקציות בסיס ‪15..................................................................................................................................................................‬‬
‫פונקציות בסיס נפוצות ‪11 ......................................................................................................................................................................‬‬
‫הגדרת ובחירת המאפיינים ‪11 .................................................................................................................................................................‬‬
‫רגרסיה לינארית ‪16................................................................................................................................................................................‬‬
‫היפוך מטריצה ‪ 1‬על ‪17 ....................................................................................................................................................................... 1‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫דוגמא לבניית מטריצת מאפיינים ‪17 .........................................................................................................................................................‬‬
‫רגולריזציה ‪17.......................................................................................................................................................................................‬‬
‫רגולריזציה ע"י נורמה ריבועית ‪17 ..................................................................................................................... Tikhonov Regulatization‬‬
‫רגולריזציה על ידי נורמת ה 𝟏𝓵 ‪18 ............................................................................................................................................................‬‬
‫דוגמא לבעיית רגרסיה עם רגולריזציה ‪19 ..................................................................................................................................................‬‬
‫אופטימיזציה ללא אילוצים ‪12................................................................................................................................................................‬‬
‫אלגוריתם הגרדיאנט ‪12............................................................................................................................................. Gradient Descent‬‬
‫חישוב הגרדיאנט למודל הלינארי ‪19 .........................................................................................................................................................‬‬
‫אלגוריתם עדכון סדרתי ‪12 ......................................................................................................................................................................‬‬
‫מודל לינארי עם פונקציית אקטיבציה ‪12 ...................................................................................................................................................‬‬
‫פרוש סטטיסטי לבעיית הרגרסיה ‪30........................................................................................................................................................‬‬
‫מודל הרגרסיה הבסיסי ופונקציית השגיאה הריבועית ‪11 .............................................................................................................................‬‬
‫מודל רגרסיה בייסאני ופונקציית הרגולריזציה ‪11 ........................................................................................................................................‬‬
‫סיווג לינארי ‪33 .....................................................................................................................................................................‬‬
‫מסווג לינארי כללי ‪33.............................................................................................................................................................................‬‬
‫פונקציות אקטיבציה שכיחות ‪33..............................................................................................................................................................‬‬
‫אלגוריתם הפרספטרון ‪34.......................................................................................................................................................................‬‬
‫אלגוריתם לימוד הפרספטרון ‪11 ...............................................................................................................................................................‬‬
‫משפט התכנסות הפרספטרון ‪11 .............................................................................................................................................................‬‬
‫רגרסיה לוגיסטית ‪34..............................................................................................................................................................................‬‬
‫כוונון הפרמטרים‪11 ...............................................................................................................................................................................‬‬
‫כוונון הפרמטרים‪ :‬גישת פונקציית מחיר ‪11 ...............................................................................................................................................‬‬
‫אלגוריתם הגרדיאנט ‪11 ..........................................................................................................................................................................‬‬
‫רשתות ניורונים מלאכותיות ‪33 ................................................................................................................................................‬‬
‫פרספטרון בודד ‪38.................................................................................................................................................................................‬‬
‫פונקציות הפעלה ‪18 ..............................................................................................................................................................................‬‬
‫רשתות היזון קדמי ‪38..........................................................................................................................Feed Forward Neural Networks‬‬
‫מבנה וסימון פרספטרון רב שכבתי‪19 .......................................................................................................................................................‬‬
‫כח ייצוג של רשת רב שכבתית ‪19 ............................................................................................................................................................‬‬
‫פונקציית השגיאה ‪32.............................................................................................................................................................................‬‬
‫ייצוג פונקציה באמצעות רשת היזון קדמית המכילה נוירונים מסוג ‪19 ................................................................................................... ReLU‬‬
‫אלגוריתם ‪95 ................................................................................................................................. BACK PROPAGATION‬‬
‫גרסא סדרתית ‪12 ..................................................................................................................................................................................‬‬
‫גרסת אצווה ( ‪11 ........................................................................................................................................................... )Batch update‬‬
‫סיכום והערות‪11 ...................................................................................................................................................................................‬‬
‫רשתות קונבולוציה ‪90 ............................................................................................................................................................‬‬
‫‪41................................................................................................................................................. Convolutional Neural Nets - CNN‬‬
‫היפר פרמטרים ‪43..................................................................................................................................................................................‬‬
‫סכמת האתחול ‪43..................................................................................................................................................................................‬‬
‫נרמול אצווה ‪43..................................................................................................................................................... batch normalization‬‬
‫‪99 ..................................................................................................................... SUPPORT VECTOR MACHINES-SVM‬‬
‫דוגמאות הניתנות להפרדה לינארית – ‪44................................................................................................................................ Hard SVM‬‬
‫בעיית האופטימיזציה הפרימאלית ‪11 .......................................................................................................................................................‬‬
‫תכונות פתרון ווקטור התמיכה ‪11 ............................................................................................................................................................‬‬
‫הבעיה הדואלית ‪11 ................................................................................................................................................................................‬‬
‫המקרה הכללי – ‪47............................................................................................................................................................... Soft SVM‬‬
‫הבעיה הדואלית של בעיית ‪17 ............................................................................................................................................... Soft - SVM‬‬
‫שילוב פונקציות בסיס ‪48........................................................................................................................................................................‬‬
‫שילוב פונקציות גרעין ‪42........................................................................................................................................................................‬‬
‫אלגוריתם למציאת ‪ w, b‬עבור בעיית ‪ SVM‬פרידה לינארית ‪42....................................................................................................................‬‬
‫עצי החלטה ‪05 ......................................................................................................................................................................‬‬
‫מדדים עובר אוסף המידע ‪51............................................................................................................................................................... D‬‬
‫חישוב פרקטי של המאפיין הטוב ביותר ‪51................................................................................................................................................‬‬
‫בעיית התאמת היתר ‪50........................................................................................................................................................Overfitting‬‬
‫שילוב של מסווגים‪00 ................................................................................................................... BOOSTING , BAGGING :‬‬
‫מודל הלומד החלש ‪51............................................................................................................................................................................‬‬
‫‪51.......................................................................................................................................................................................... Bagging‬‬
‫‪51........................................................................................................................................................................................ Adaboost‬‬
‫ניתוח שגיאת האימון ‪11 .........................................................................................................................................................................‬‬
‫ניתוח שגיאת ההכללה‪11 .......................................................................................................................................................................‬‬

‫‪2‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫חזרה על הסתברות‬
‫‪ - ‬מרח ב המדגם (אוסף התוצאות האפשריות בניסוי)‪.‬‬
‫‪ – ℱ‬מרחב המאורעות (אוסף תת הקבוצות של ‪.Ω‬‬
‫הסתברות – פונקציה ]‪ . 𝑃: ℱ → [0,1‬ההסתברות למאורע ‪ E‬היא )‪.P(E‬‬

‫משתנה אקראי‬
‫משתנה אקראי הוא פונקציה ‪.𝑃: 𝛺 → ℛ‬‬
‫עבור משתנה אקראי בדיד‪ ,‬מוגדרת פונקציית הסתברות )𝑥 = 𝑋(𝑃 = )𝑥( 𝑥𝑃‬
‫𝑏‬
‫עבור משתנה אקראי רציף‪ ,‬מוגדרת פונקציית צפיפות הסתברות 𝑥𝑑)𝑥( 𝑥𝑝 𝑎∫ = )𝑏 ≤ 𝑋 ≤ 𝑎(𝑃‬
‫∞‬
‫תוחלת של משתנה אקראי‪𝐸[𝑋] = ∑𝑖 𝑥𝑖 ⋅ 𝑝(𝑥𝑖 ) = ∫−∞ 𝑥 ⋅ 𝑓(𝑥)𝑑𝑥 = 𝜇 :‬‬
‫שונות של משתנה אקראי‪𝑉𝑎𝑟(𝑋) = 𝜎 2 = 𝐸[(𝑋 − 𝜇)2 ] = 𝐸[𝑋 2 ] − 𝜇2 :‬‬
‫שונות משותפת של שני משתנים‪𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑥 )(𝑌 − 𝜇𝑦 )] = 𝐸[𝑋𝑌] − 𝜇𝑥 𝜇𝑦 :‬‬
‫אינדיקטור שווה ל‪ 0‬אם התנאי בסוגריים מתקיים‪𝕀(𝐶) :‬‬

‫הסתברות משותפת (‪ ,)joint‬הסתברות שולית (‪ ,)marginal‬הסתברות מותנית (‪.)conditional‬‬


‫פונקציית הסתברות משותפת‪𝑝(𝑥, 𝑦) = 𝑃(𝑋 = 𝑥, 𝑌 = 𝑦) :‬‬
‫הסתברות שולית‪𝑝(𝑥) = ∑𝑖 𝑝(𝑥, 𝑦𝑖 ) :‬‬
‫)𝑦‪𝑝(𝑥,‬‬
‫= )𝑥|𝑦(𝑝‬ ‫)𝑥(𝑝‬
‫הסתברות מותנית‪:‬‬

‫אם ‪ x,y‬בלתי תלויים )𝑥(𝑝 ⋅ )𝑦(𝑝 = )𝑦 ‪𝑝(𝑥,‬‬


‫∞‬
‫תוחלת מותנית‪𝐸[𝑋|𝑌] = ∑𝑖 𝑥𝑖 𝑝(𝑥𝑖 |𝑦) = ∫−∞ 𝑥 ⋅ 𝑓(𝑥|𝑦)𝑑𝑥 :‬‬
‫נוסחת ההחלקה‪𝐸[𝑋] = 𝐸𝑌 [𝐸𝑋 [𝑋|𝑌]] = ∑𝑖 𝐸[𝑋|𝑌 = 𝑦𝑖 ] ⋅ 𝑝(𝑦𝑖 ) :‬‬

‫נוסחת ההסתברות השלמה וכלל ‪bayes‬‬


‫מהגדרת הסתברות מותנית‪𝑝(𝑥, 𝑦) = 𝑝(𝑦|𝑥)𝑝(𝑥) = 𝑝(𝑥|𝑦)𝑝(𝑦) :‬‬
‫נוסחת ההסתברות השלמה‪𝑝(𝑥) = ∑𝑖 𝑝(𝑥, 𝑦𝑖 ) = ∑𝑖 𝑝(𝑥|𝑦𝑖 )𝑝(𝑦𝑖 ) :‬‬
‫)𝑦(𝑝)𝑦| 𝑥(𝑝‬ ‫)𝑦(𝑝)𝑦| 𝑥(𝑝‬
‫= )𝑥|𝑦(𝑝‬ ‫)𝑥(𝑝‬
‫∑=‬ ‫)𝑖𝑦(𝑝) 𝑖𝑦| 𝑥‬ ‫כלל ‪:bayes‬‬
‫(𝑝 𝑖‬

‫𝑟𝑜𝑖𝑟𝑝 ⋅ 𝑑𝑜𝑜‪𝑙𝑖𝑘𝑒𝑙𝑖𝑒ℎ‬‬
‫= 𝑟𝑜𝑖𝑟𝑒𝑡𝑠𝑜𝑝‬
‫𝑒𝑐𝑛𝑒𝑑𝑖𝑣𝑒‬

‫‪3‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫וקטור אקראי גאוסי‬


‫‪−(𝑥−𝜇)2‬‬
‫‪1‬‬
‫= )𝑥(𝑓‬ ‫‪2‬‬
‫𝑒‬ ‫‪2𝜎2‬‬ ‫משתנה אקראי גאוסי ‪:‬‬
‫𝜎𝜋‪√2‬‬
‫‪1‬‬
‫‪1‬‬ ‫)𝜇‪(𝑋−𝜇)𝑇 𝛴 −1 (𝑋−‬‬
‫= ) 𝑘𝑥 ‪𝑓(𝑥1 , 𝑥2 , … ,‬‬ ‫‪𝑒 −2‬‬ ‫וקטור אקראי גאוסי‪:‬‬
‫|𝛴| 𝑘)𝜋‪√(2‬‬

‫‪𝛴11‬‬ ‫‪𝛴12‬‬ ‫‪𝜇1‬‬


‫𝑇 (=𝛴‬ ‫) ‪) , 𝜇 = (𝜇 ) ,𝑋 = (𝑥1 , 𝑥2‬‬ ‫שני וקטורים משורשרים‪:‬‬
‫‪𝛴12‬‬ ‫‪𝛴22‬‬ ‫‪2‬‬
‫‪1‬‬
‫‪1‬‬ ‫̅̅̅̅̅̅ 𝑇) ̅‬
‫𝜇‪(𝑥1 −‬‬ ‫)𝜇‪𝛴 −1 (𝑥1 −‬‬
‫= )𝑎 = ‪𝑓(𝑥1 |𝑥2‬‬ ‫‪⋅ 𝑒 −2‬‬ ‫צפיפות התפלגות מותנית ‪:‬‬
‫)| ̅‬
‫𝛴| 𝑘)𝜋‪(√(2‬‬

‫𝑎( ‪−1‬‬
‫‪𝜇̅ = 𝜇1 + 𝛴12 𝛴22‬‬ ‫‪− 𝜇2 ), 𝛴̅ = 𝛴11 − 𝛴12 𝛴22‬‬
‫‪−1‬‬
‫‪𝛴21‬‬ ‫כאשר‬

‫כופלי לגראנז'‬
‫𝐶 = )𝑥(𝑔 ‪𝑚𝑎𝑥 𝑓(𝑥) 𝑠. 𝑡.‬‬ ‫הבעיה‪:‬‬
‫נגדיר עבור האילוץ משתנה חדש ‪λ‬‬ ‫‪.0‬‬
‫)𝐶 ‪ℒ(𝑥, 𝜆) = 𝑓(𝑥) + 𝜆(𝑔(𝑥) −‬‬ ‫באמצעותו נגדיר פונקציה חדשה‬ ‫‪.1‬‬
‫נחפש נקודות קיצון עבור הפונקציה החדשה ע"י גזירה והשוואה לאפס‪.‬‬ ‫‪.3‬‬
‫הצבת הפתרונות בפונקציה המקורית‪ ,‬חיפוש אחר מקסימום ומינימום‪.‬‬ ‫‪.4‬‬
‫עבור אילוצי אי שוויון‪ ,‬נחזור על התהליך עם דרישה נוספת‪:‬‬
‫‪𝑔(𝑥) ≤ 𝐶 → 𝜆 ≥ 0‬‬
‫עבור מספר אילוצים‪ ,‬נגדיר לכל אילוץ כופל לגראנז' ונגדיר‬
‫) 𝑖𝐶 ‪ℒ(𝑥, 𝜆1 , … , 𝜆𝐾 ) = 𝑓(𝑥) + ∑𝑘𝑖=1 𝜆𝑖 (𝑔𝑖 (𝑥) −‬‬

‫‪4‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫שערוך א‪-‬פרמטרי‬

‫‪𝒟 = {𝑥𝑖 }𝑛𝑖=1‬‬ ‫אוסף מדידות בלתי תלויות מתוך הפילוג של ‪: X‬‬
‫בגישה הא‪-‬פרמטרית לא מניחים צורה מסויימת עבור הפילוג המבוקש וסיבוך המודל יכול לגדול עם מס' נקודות המידע‪.‬‬
‫‪1‬‬
‫𝑁∑ 𝑁 = 𝑋 ̂𝜇‬
‫𝑖𝑥 ‪𝑖=1‬‬ ‫משערך אמפירי של תוחלת של משתנה אקראי‪:‬‬

‫שערוך ‪ – Cumulative Distribution Function – CDF‬משערך אמפירי‬


‫}𝑥 ≤ 𝑋{𝑟𝑃 ≜ )𝑥( 𝑋𝐹‬
‫‪1‬‬
‫𝑁∑ 𝑁 = )𝑥( 𝑋̂𝐹‬
‫}𝑥 ≤ 𝑖𝑥{𝕀 ‪𝑖=1‬‬ ‫המשערך האמפירי נראה כך ‪:‬‬
‫עבור כל ארגומנט ‪ ,x‬נספור את הכמות היחסית של הנקודות מה ‪ Data‬אשר קטנות מערך זה‪.‬‬

‫שערוך ‪ - Probability Density Function – PDF‬היסטוגרמה‬


‫נעשה בעזרת היסטוגרמה‪:‬‬
‫ביצוע קוונטיזציה לסט דיסקרטי של ערכים על ידי חלוקה לסט תאים נפרדים של טווח הערכים שהמ"א יכול לקבל‪.‬‬ ‫‪‬‬
‫שערוך אמפירי של ההסתברות להיות בכל תא‪.‬‬ ‫‪‬‬
‫שימוש בהתפלגות אחידה להתפלגות הערכים בכל תא‪.‬‬ ‫‪‬‬
‫‪1‬‬ ‫‪1‬‬
‫⏝ = ) 𝑘𝑟 < 𝑥 ≤ 𝑘𝑙( 𝑋‪ℎ‬‬‫⋅ } 𝑘𝑟 < 𝑥 ≤ 𝑘𝑙{𝕀 𝑁∑‬ ‫נסמן גבולות שמאליים וימניים של התא ה ‪: k‬‬
‫‪𝑁 𝑖=1‬‬ ‫𝑟‬ ‫𝑘𝑙‪𝑘 −‬‬

‫כאשר המכפלה המסומנת מתארת את הסיכוי להיות בתא ה ‪ , k‬וכופלים בהסתברות אחידה בתוך התא‪.‬‬
‫𝐾⋃ = 𝕏‬
‫קבוצת הערכיים האפשריים מחולקת למספר תאים זרים ‪𝑗=1 𝑅𝑗 :‬‬

‫בכל תא נעריך את פונקציית הצפיפות ע"י שימוש במספר הדגימות היחסי באותו התא‪ ,‬כאשר ) 𝑗𝑅(𝑁 מספר הדגימות‬
‫שהתקבלו בתא ה ‪ 𝑉(𝑅𝑗 ) = ∫𝑅 𝑑𝑥 ,j‬נפח התא ו‪ n‬מספר הדגימות הכולל‪.‬‬
‫𝑗‬

‫𝑛‪𝑁(𝑅𝑗 )/‬‬
‫= )𝑥( 𝑥̂𝑝‬ ‫𝑗𝑅 ∈ 𝑥 ‪,‬‬
‫) 𝑗𝑅(𝑉‬
‫צפיפות הסתברות תקינה‪:‬‬
‫‪1‬‬ ‫) 𝑗𝑅(𝑁‬ ‫‪1‬‬ ‫𝑛‬
‫= 𝑥𝑑)𝑥( 𝑋̂𝑝 ∫‬ ‫∑‬ ‫‪∫ 𝑑𝑥 = ∑ 𝑁(𝑅𝑗 ) = = 1‬‬
‫𝑛‬ ‫𝑗𝑅 ) 𝑗𝑅(𝑉‬ ‫𝑛‬ ‫𝑛‬
‫𝑗‬ ‫𝑗‬

‫כלל אצבע‪ :‬חלוקת טווח הערכים ל 𝑁√ תאים בגודל אחיד‪.‬‬

‫‪5‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫שערוך ‪Kernel Density Estimation – KDE‬‬


‫‪1‬‬
‫) 𝑘𝑥 ‪.𝑝̂ 𝜙(𝑥) = 𝑛 ∑𝑛𝑘=1 𝜙(𝑥 −‬‬ ‫הערכת צפיפות ההסתברות בעזרת פונקציית גרעין‪:‬‬
‫תכונות פונקציית הגרעין‪:‬‬
‫‪𝜙(𝑧) ≥ 0,‬‬ ‫על מנת שתהיה פונקציית הסתברות תקנית תמיד אי שלילית‬
‫‪𝜙(𝑧 ≈ 0) > 0,‬‬ ‫אם הפילוג האמיתי הוא אפס‪ ,‬אז לא ייתכן שקיבלנו מדידות בסביבת ‪.1‬‬
‫‪∫ 𝜙(𝑧)𝑑𝑧 = 1,‬‬ ‫‪𝜙(||𝑧|| → ∞) → 0‬‬ ‫תכונות הנרמול‬
‫‪1‬‬ ‫𝑧‬
‫חלון פרזן מוגדר כך )‪ 𝜙ℎ(𝑧) = ℎ𝑑 𝜙(ℎ‬כאשר 𝜙 פונקצית החלון הבסיסית‪ d ,‬מימד המדידות ו 𝑑‪ 1/ℎ‬שומר על הנרמול‪.‬‬
‫‪1‬‬ ‫‪1‬‬ ‫𝑘𝑥‪𝑥−‬‬
‫( 𝜙 𝑑‪𝑝̂ 𝜙(𝑥) = 𝑛 ∑𝑛𝑘=1 ℎ‬‬ ‫‪ℎ‬‬
‫)‬ ‫נקבל‪:‬‬
‫חלונות טיפוסיים‪:‬‬
‫‪1‬‬ ‫𝛼‬
‫≤ |𝑥| ‪,‬‬
‫𝛼{ = )𝑥(‪ℎ‬‬ ‫𝛼‪2 ,‬‬ ‫‪ .0‬חלון ריבועי ‪> 0 -‬‬
‫𝑒𝑠𝑙𝑒 ‪0,‬‬
‫‪𝑥2‬‬
‫‪1‬‬ ‫‪−‬‬
‫= )𝑥(‪ℎ‬‬ ‫‪2‬‬
‫𝑒‬ ‫‪2𝜎2‬‬ ‫‪ .1‬חלון גאוסי ‪, 𝜎 2 > 0 -‬‬
‫𝜎𝜋‪√2‬‬
‫‪1‬‬ ‫}𝑥{𝑑𝑡𝑠⋅‪4‬‬
‫= 𝜎 (הערה – לעיתים מעלים בחזקת ‪ .)− 5‬עבור חלון ריבועי‪.𝑂(√𝑛) ,‬‬ ‫𝑁‪3‬‬
‫הינו‬ ‫כלל אצבע לקביעת רוחב החלון‬

‫‪6‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫שערוך פרמטרי‬
‫אנו מניחים כי הפילוג של הדגימות הינו בעל צורה ידועה‪ ,‬המוגדרת ע"י וקטור פרמטרים ‪𝑝𝑋 (𝑥) = 𝑝𝑋 (𝑥|𝜃) :‬‬

‫וקטור הפרמטרים הינו ממשי בעל מימד נתון‪ .‬סימונים נוספים הינם ‪𝑝𝑥 (𝑥|𝜃) ≝ 𝑝𝜃 (𝑥) ≝ 𝑝𝑋 (𝑥; 𝜃) :‬‬

‫משפחת הפילוגים לכל 𝛩 ∈ 𝜃 היא משפחה פרמטרית של פילוגי הסתברות‪ ,‬או מודל פרמטרי‪.‬‬

‫כעת הערכת פילוג ההסתברות שקולה להערכת הפרמטר‪ ,‬על פי סדרת המדידות‪ .‬המשערך ̂𝜃 נקבע על סמך המדידות‪.‬‬

‫ישנן שתי גישות עבור שערוכים פרמטריים‪:‬‬


‫בגישה הבייסיאנית‪ ,‬אנו מניחים כי 𝜃 הינו משתנה מקרי‪ ,‬בעל פילוג ידוע )𝜃( ‪.𝑝0‬‬ ‫‪‬‬
‫בגישה הלא בייסיאנית‪ ,‬הפרמטר 𝜃 הינו גודל דטרמיניסטי לא ידוע‪.‬‬ ‫‪‬‬

‫שערוך בייסיאני‬
‫פילוג ידוע )𝜃( ‪ 𝑝0‬נקרא הפילוג האפריורי‪ ,‬עבור ‪ D‬אוסף מדידות כלשהו‪ ,‬ונתונה פונקציית צפיפות של מדידות אלו בהינתן ערך‬
‫הפרמטר ‪ ,θ‬נקבל כי‬
‫𝑛‬
‫‪𝑝(𝐷𝑛 |𝜃) = 𝑝(𝑥1 , 𝑥2 , … , 𝑥𝑛 |𝜃) = 𝛱𝑖=1‬‬ ‫)𝜃| 𝑖𝑥( 𝑋𝑝‬
‫הפילוג )𝐷|𝜃(𝑝 נקרא הפילוג הפוסטריור (פילוג בדיעבד)‪ ,‬וניתן לחשב אותו‪:‬‬

‫)𝜃( ‪𝑝(𝜃, 𝐷) 𝑝(𝐷|𝜃)𝑝0‬‬ ‫)𝜃( ‪𝑝(𝐷|𝜃)𝑝0‬‬


‫= )𝐷|𝜃(𝑝‬ ‫=‬ ‫=‬
‫)𝐷(𝑝‬ ‫)𝐷(𝑝‬ ‫𝜃𝑑)𝜃( ‪∫ 𝑝(𝐷|𝜃)𝑝0‬‬

‫מתוך זה‪ ,‬נגזור משערכים שונים עבור ‪: θ‬‬

‫משערך התוחלת המותנית‬


‫)𝐷|𝜃(𝐸 ≜ 𝐸𝑆𝑀𝑀̂𝜃‬
‫משערך זה הינו התוחלת של הפרמטר לפי הפילוג בדיעבד‪ ,‬והוא מביא את השגיאה הריבועית הממוצעת למינימום‪ ,‬ועל כן‬
‫נקרא גם ‪.Minimum Mean Square Error (MMSE) Estimator‬‬
‫‪2‬‬ ‫‪2‬‬
‫)𝐷| |)𝐷|𝜃(𝐸 ‪𝜃𝑀𝑀𝑆𝐸 = 𝐸(𝜃|𝐷) = 𝐸 (|𝜃 − 𝜃| |𝐷) = 𝐸 (|𝜃̂ − 𝜃 + 𝐸(𝜃|𝐷) −‬‬
‫̂‬ ‫̂‬
‫ע"י המשך פיתוח ביטוי זה נגיע שעבור הבחירה הזו של ̂𝜃 השגיאה מגיעה למינימום ועל כן זה המשערך הטוב ביותר‪.‬‬

‫משערך )‪Maximum a-Posteriori (MAP‬‬

‫)𝐷|𝜃(𝑝 ‪𝜃̂𝑀𝐴𝑃 ≜ arg max‬‬


‫‪𝜃∈Θ‬‬

‫משערך זה בוחר את הפרמטר שהסתברותו מקסימלית לפי הפילוג בדיעבד‪.‬‬

‫בהצבת נוסחת בייס נקבל‬

‫)𝜃( ‪𝜃̂𝑀𝐴𝑃 ≜ arg max 𝑝(𝐷|𝜃) ⋅ 𝑝0‬‬


‫‪𝜃∈Θ‬‬

‫משערך זה ממזג את השפעת המדידות עם ההנחה הראשונית לגבי ערכי הפרמטר‪.‬‬

‫אם הפילוג בדיעבד הוא גאוסי‪ ,‬אז המשערכים 𝐸𝑆𝑀𝑀 ‪ 𝑀𝐴𝑃,‬מתלכדים‪.‬‬ ‫‪‬‬
‫חסרונות גישה זו הם הקושי בחישוב האנליטי של הפילוג הפוסטריור‪ ,‬והקושי העקרוני בבחירת הפילוג הראשוני‪,‬‬
‫שלעיתים אף חסרת משמעות‪.‬‬

‫‪7‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫שערוך לא בייסיאני‬
‫כעת לא נגדיר פילוג אפריורי‪ ,‬אלא נניח כי ‪ θ‬הינו גודל דטרמיניסטי כלשהו‪.‬‬

‫משערך הסבירות המירבית ‪MLE‬‬


‫)𝜃|𝐷(𝑝 ‪𝜃̂𝑀𝐿𝐸 ≜ arg max‬‬
‫‪𝜃∈Θ‬‬

‫ערך המשערך הינו הפרמטר עבורו הסתברות המדידות הינה המקסימלית‪.‬‬

‫‪ ‬אם ניקח 𝑐 = )𝜃( ‪( 𝑝0‬פילוג ראשוני קבוע)‪ ,‬אז המשערך ‪ MAP‬יתלכד עם משערך ה ‪.MLE‬‬
‫‪ ‬לשים לב שאם הפילוג הפריורי הוא אחיד בתחום מסוים (!) יכול להיות שלא יתלכד עם ה ‪ MAP‬בגלל איפה שהמידע‬
‫חי ואיפה שהפרמטרים חיים‪ .‬יכול להיות שבעקבות כך המידע שנקבל יהיה לא מהימן לפילוג הראשוני‪.‬‬
‫תכונות המשערך‪:‬‬
‫‪ .0‬התכנסות לפרמטר הנכון כאשר מספר המדידות גדל‪.‬‬
‫‪ .1‬חישוב פשוט יחסית למשערכים האחרים‪.‬‬
‫‪ .3‬תוצאות המתיישבות עם האינטואיציה‪.‬‬
‫)𝜃|𝐷(𝑝 ≜ )𝜃(𝐿‬ ‫פונקציית הסבירות ‪ Likelihood Function‬מוגדרת כך‪:‬‬
‫))𝜃|𝐷(𝑝(𝑔𝑜𝑙 = )𝜃(𝐿 𝑔𝑜𝑙 ≜ )𝜃(‪ℓ‬‬ ‫פונקציית הסבירות הלוגריתמית ‪ Log-Likelihood Function‬מוגדרת כך‪:‬‬
‫)𝜃(𝐿 ‪𝜃̂𝑀𝐿𝐸 = arg max ℓ(𝜃)  𝜃̂𝑀𝐿𝐸 = arg max‬‬ ‫לכן נגדיר‪:‬‬
‫‪𝜃∈Θ‬‬ ‫‪𝜃∈Θ‬‬
‫כיוון שהמדידות בלתי תלויות‪:‬‬
‫𝑛‬ ‫𝑛‬
‫‪1‬‬
‫)𝜃(‪𝜃̂𝑀𝐿𝐸 = arg max ℓ‬‬ ‫=‬
‫⏟‬ ‫))𝜃| 𝑖𝑥( 𝑥‪arg max 𝐿𝑜𝑔 (∏ 𝑝𝑋 (𝑥𝑖 |𝜃)) = arg max ∑ Log(p‬‬
‫‪𝜃∈Θ‬‬ ‫‪𝜃∈Θ‬‬ ‫𝑛 ‪𝜃∈Θ‬‬
‫𝑥𝑃‬ ‫𝑑‪𝑖𝑠 𝑖.𝑖.‬‬ ‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬

‫דוגמאות בסיסיות‬

‫הערכת הממוצע של פילוג נורמלי‪:‬‬

‫עבור וקטור )‪ 𝑋~𝑁(𝜇, Σ‬עם ‪ d‬מימדים‪ ,‬כאשר מט' הקווריאנס חיובית ממש וידועה‪.𝜃 = 𝜇 ∈ ℝ𝑑 .‬‬
‫𝑛‬

‫)𝜇 ‪∇𝜇 ℓ(𝜃) = ∑ Σ−1 (𝑥𝑖 −‬‬


‫‪𝑖=1‬‬
‫‪1‬‬
‫𝑖𝑥 ‪.𝜇̂ 𝑀𝐿𝐸 = 𝑛 ∑𝑛𝑖=1‬‬ ‫מהשוואה לאפס נקבל‬
‫𝑛 ‪1‬‬
‫= 𝐸𝐿𝑀̂‪.Σ‬‬ ‫𝑖𝑥() 𝐸𝐿𝑀 ̂𝜇 ‪∑ (𝑥 −‬‬
‫𝑖 ‪𝑛 𝑖=1‬‬
‫אם מט' הקווריאנס אינה ידועה‪ ,‬נקבל 𝑇) 𝐸𝐿𝑀 ̂𝜇 ‪−‬‬

‫פילוג ברנולי (מטבע לא מאוזן)‪:‬‬

‫‪𝑝,‬‬ ‫‪𝑥=1‬‬
‫= 𝑥‪𝑃𝑋 (𝑥|𝑝) = 𝑝 𝑥 (1 − 𝑝)1−‬‬
‫‪1 − 𝑝, 𝑥 = 0‬‬

‫ומתקיים )𝜃| 𝑖𝑥( 𝑋𝑃 𝑖𝑛∏ = )𝜃(𝐿‪ .‬לכן‪:‬‬

‫𝑛‬ ‫𝑛‬
‫𝑛‬ ‫𝑛‬
‫𝑖𝑥‪𝑃̂𝑀𝐿𝐸 = arg max ∏ 𝑃𝑋 (𝑥𝑖 |𝑝) = arg max ∏ 𝑝 𝑥 (1 − 𝑝)1−𝑥 = arg max 𝑝∑𝑖=1 𝑥𝑖 ⋅ (1 − 𝑝)𝑝∑𝑖=1 1−‬‬
‫‪0<𝑝<1‬‬ ‫‪0<𝑝<1‬‬ ‫‪0<𝑝<1‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫𝑛‬ ‫𝑛‬

‫) 𝑖𝑥 ‪= arg max log(𝑝) ∑ 𝑥𝑖 + log(1 − 𝑝) ∑(1 −‬‬


‫‪0<𝑝<1‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬

‫‪1‬‬
‫כשנגזור ונשווה לאפס נקבל 𝑖𝑥 ‪.𝑝̂𝑀𝐿𝐸 = 𝑛 ∑𝑛𝑖=1‬‬

‫‪8‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫פילוג דיסקרטי (הטלת קוביה לא מאוזנת)‬

‫) 𝑚𝑝 ‪ 𝑝 = (𝑝1 , . . ,‬וקטור ההסתברויות (סכומו ‪.)0‬‬


‫‪ X‬מקבל ‪ m‬ערכים אפשריים } 𝑚𝑎 ‪ 𝑋 ∈ {𝑎1 , . . ,‬בעלי הסתברויות 𝑗𝑝 = ) 𝑗𝑎 = 𝑥(𝑃‪.‬‬
‫נרצה לחשב את וקטור ההסתברויות ונקבל‪:‬‬
‫𝑛‬
‫‪1‬‬ ‫)𝑗( 𝑛𝑁‬
‫≜ } 𝑗𝛼 = 𝑖𝑥{𝕀 ∑ = 𝑗] 𝐸𝐿𝑀 ̂𝑝[‬
‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬
‫מגיעים לכך משתי משוואות‪ ,‬הראשונה היא דרישת הנרמול‪:‬‬
‫‪𝑚=1‬‬ ‫𝑚‬

‫‪𝑝𝑚 = 1 − ∑ 𝑝𝑟 ⇒ ∑ 𝑝𝑚 = 1‬‬
‫‪𝑟=1‬‬ ‫‪𝑟=1‬‬

‫גזירה והשוואה לאפס‪.‬‬ ‫הצבה בפונק' הסבירות הלוגריתמית‪,‬‬

‫דוגמא – תיוג עם רעש‬

‫‪𝑦𝑖 = 𝜃 𝑇 𝑥𝑖 + 𝜀𝑖 ,‬‬ ‫) ‪𝜀𝑖 ~𝑁(0, 𝜎𝑖2‬‬

‫‪2‬‬
‫𝑁‬ ‫)𝜃 𝑇𝑖𝑥‪(𝑦𝑖 −‬‬ ‫𝑛‬ ‫‪2‬‬
‫‪1‬‬ ‫‪−‬‬
‫) ‪2(𝜎𝑖2‬‬
‫)𝜃 𝑇𝑖𝑥 ‪(𝑦𝑖 −‬‬
‫∏ 𝑔𝑜𝐿 = )𝜃(‪ℓ‬‬ ‫𝑒‬ ‫[ ∑ ‪= 𝐶2 −‬‬ ‫‪] = 𝐶2 − ‖Σ−1 𝑌 − Σ−1 𝑋𝜃‖2 ,‬‬
‫‪(2𝜎𝑖 )2‬‬
‫‪𝑖=1 √2𝜋𝜎 2‬‬ ‫‪𝑖=1‬‬
‫(‬ ‫𝑖‬ ‫)‬

‫‪−𝑥1 −‬‬ ‫‪σ1‬‬ ‫…‬ ‫‪0‬‬


‫‪𝑋 = ( ⋮ ) ∈ ℝ𝑛×𝑑 , 𝑌 ∈ ℝ𝑛×1 ,‬‬ ‫⋮(=‪Σ‬‬ ‫𝑛×𝑛‪⋮ ) ∈ ℝ‬‬
‫‪−𝑥𝑛 −‬‬ ‫‪0‬‬ ‫…‬ ‫𝑛𝜎‬

‫𝑌 ‪𝜃̂𝑀𝐿𝐸 = (𝑋 𝑇 Σ −2 𝑋)−1 𝑋 𝑇 Σ−2‬‬

‫‪𝑏(𝜃̂𝑀𝐿𝐸 ) = 0‬‬

‫‪2‬‬ ‫‪2‬‬
‫𝑖𝜁 ‪𝑦𝑖 = 𝜃 𝑇 𝑥̃𝑖 + 𝜀𝑖 , 𝑥𝑖 = 𝑥̃𝑖 +‬‬ ‫𝑖‪𝜁𝑖 ~𝑁(0, 𝜎𝜁,‬‬ ‫‪),‬‬ ‫𝑖‪𝜀𝑖 ~𝑁(0, 𝜎𝜀,‬‬ ‫כעת נניח שגם לדגימות יש רעש‪ ,‬כלומר מתקיים )‬

‫𝑛‬
‫‪𝜎𝜀2‬‬
‫‪𝜃̂𝑀𝐿𝐸 , (𝑥̂1∗ , … , 𝑥̂𝑛∗ ) = arg max‬‬ ‫= 𝛿 ‪∑((𝑦𝑖 − 𝑥𝑖∗ 𝜃)2 + 𝛿(𝑥𝑖 − 𝑥𝑖∗ )2 ) ,‬‬
‫∗‬
‫𝑖𝑥‪𝜃,‬‬ ‫‪𝜎𝜁2‬‬
‫‪𝑖=1‬‬

‫𝑖𝑦 ∗ 𝑖̂𝑥 ‪∑𝑛𝑖=1‬‬


‫= 𝐸𝐿𝑀̂𝜃‬
‫‪∑𝑛𝑖=1 𝑥̂𝑖∗ 2‬‬

‫𝑘𝑥𝛿 ‪𝜃̂𝑀𝐿𝐸 𝑦𝑘 +‬‬


‫= ∗𝑘̂𝑥‬ ‫‪,‬‬ ‫𝑛 ‪𝑘 = 1, … ,‬‬
‫𝐸𝐿𝑀̂𝜃‬
‫‪2‬‬
‫𝛿‪+‬‬

‫פילוג ‪Rayleigh‬‬
‫‪0‬‬ ‫‪2‬‬
‫𝜎[ ‪ ,𝑍~ 𝑁 ([ ] ,‬פילוג ריילי מתאר את פילוג האורך האוקלידי של הוקטור‪:‬‬ ‫בהינתן וקטור גאוסי המפולג כך )] ‪0‬‬
‫‪0‬‬ ‫‪0‬‬ ‫‪𝜎2‬‬
‫‪1 𝑧2‬‬
‫𝑧‬ ‫(⋅ ‪−‬‬ ‫)‬
‫= )𝑧( ‪𝑝𝑅𝑎𝑦𝑙𝑒𝑖𝑔ℎ‬‬ ‫‪𝜎2‬‬
‫𝑒⋅‬ ‫‪2 2𝜎2‬‬ ‫‪ . ‖𝑍‖2 = √𝑍𝑥2 + 𝑍𝑦2‬פונקצית צפיפות ההסתברות של הפילוג‪, 𝑧 ≥ 0 :‬‬

‫‪9‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫אפיון טיב של משערכים‬


‫כל אחד מהמשערכים הוא משתנה אקראי‪ ,‬שכן הוא פונקציה של ה ‪ Data‬שהינו אוסף של משתנים אקראיים‪.‬‬
‫𝐷𝑑)𝜃|𝐷(𝑝)𝐷(̂𝜃 ∫ = ])𝐷(̂𝜃[𝔼 = ̂𝜃𝜇‬ ‫נבחן את התוחלת של המשערך‬

‫תכונה רצויה של משערך היא כי התוחלת תהיה שווה לפרמטר האמיתי ‪ .θ‬ההפרש בין הגדלים הוא ההטיה של המשערך‪:‬‬
‫‪ – Bias‬היסט של משערך‬
‫𝜃 ‪𝑏𝑖𝑎𝑠 (𝜃̂ (𝐷)) = 𝔼𝐷|𝜃 [𝜃̂(𝐷)] − 𝜃 = 𝜇𝜃̂ −‬‬
‫ההפרש בין התוחלת של המשערך ביחס לפילוג לבין הערך האמיתי שברצוננו לשערך‪.‬‬
‫היסט גבוה נקבל בנקודות בהן יש עקמומיות גבוהה לפונקציית הצפיפות‪.‬‬
‫משערך הסבירות המרבית‪ ,‬לדוגמא‪ ,‬יכול להיות מוטה‪ ,‬אך הטיה זו שואפת לאפס אסימפטוטית כשמספר הדוגמאות הולך‬
‫לאינסוף‪.‬‬

‫‪ – Variance‬שונות של משערך‬
‫‪2‬‬
‫̂‪𝑉𝑎𝑟 (𝜃̂(𝐷)) = 𝔼 [(𝜃̂(𝐷) − 𝔼𝜃̂) ] = 𝔼𝐷|𝜃 [𝜃̂ 2 (𝐷)] − 𝜇𝜃2‬‬
‫המרחק הממוצע של ‪ N‬דגימות מהתוחלת שלהן‪.‬‬
‫השגיאה הריבועית הממוצעת זו תוחלת השגיאה הריבועית של המשערך ביחס לערך האמיתי של הפרמטר‪.‬‬
‫‪2‬‬
‫נגדיר שגיאה ריבועית ממוצעת } )𝜃 ‪ .𝑀𝑆𝐸 ≜ 𝐸𝜃 {(𝜃̂ −‬ע"י הוספה והחסרת של תוחלת המשערך לביטוי הנ"ל‪ ,‬יתקיים‬
‫הביטוי הבא‪ .𝑴𝑺𝑬 = 𝒃(𝜽)𝟐 + 𝒗𝒂𝒓(𝜽) :‬זה הגודל המרכזי המודד את טיב המשערך‪ .‬פרוק בעל אופי דומה נראה בהמשך‬
‫בתכונות החזאים‪ ,‬במקרה זה הפרוק ייצור שני גורמים בעלי תלות מנוגדת בסיבוכיות מודל החיזוי‪ ,‬תופעה יסודית המכונה‬
‫בשם ‪.Bias-Variance Tradeoff‬‬

‫‪01‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫דוגמאות לחישובים‬

‫‪𝔼[𝐹̂𝑋 (𝑥0 )] = 𝐹𝑋 (𝑥0 ) → 𝐵𝑖𝑎𝑠𝐹̂𝑋 (𝐹̂𝑋 (𝑥0 )) = 0 - Bias of CDF‬‬


‫‪1‬‬ ‫)) ‪(𝑑 2 𝑝𝑋 (𝑥0‬‬ ‫)‪(2‬‬
‫‪𝐵𝑖𝑎𝑠𝑃𝑋 (𝑝̂𝑋 (𝑥0 )) = 2 𝛼 2‬‬ ‫‪𝑑𝑥 2‬‬
‫‪⋅ 𝜇ℎ + 𝑜(𝛼 2 ) - Bias of KDE‬‬
‫)‪(2‬‬
‫כאשר ‪ 𝜇ℎ‬המומנט השני של ה‪ kernel‬המנורמל ‪ 𝛼 ,h‬רוחב החלון‪.‬‬
‫כאשר רוחב החלון שואף לאפס‪ ,‬ההיסט מתכווץ בקצב של רוחב החלון בריבוע‪ ,‬ודועך לאפס‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫‪𝑉𝑎𝑟𝑃𝑋 (𝑝̂𝑋 (𝑥0 )) ≤ 𝑝𝑋 (𝑥0 )𝜎𝐻2 + 𝑜 ( ) - Variance of KDE‬‬
‫𝛼𝑁‬ ‫𝑁‬

‫השונות של משערך ‪ KDE‬מתנהגת לפי הקצב של אחד חלקי מס' הדגימות כפול רוחב החלון‪.‬‬
‫יש כאן ‪ ,tradeoff‬כאשר רוחב החלון שואף לאפס‪ ,‬ההיסט קטן אך השונות גדלה‪ .‬במילים אחרות‪ ,‬תוחלת הדיוק של השערוך‬
‫תגדל אבל עבור מס' סופי של דגימות השערוך ישתנה מאוד כתלות בדגימות שקיבלנו‪ ,‬ועל כן עלול להיות לא מדוייק‪ .‬מצד שני‬
‫ככל שנגדיל את רוחב החלון‪ ,‬נקבל שהשונות תקטן‪ ,‬כלומר השערוך פחות ישתנה כתלות בדגימות שנקבל‪ ,‬אך נשלם בהיסט‬
‫גבוה – תהיה שגיאה ביחס לתוחלת‪.‬‬
‫עבור פילוג נורמלי (מוצג בדוגמאות בפרק שערוך פרמטרי)‪ ,‬נחשב הטיה‪ ,‬שונות ושגיאה ריבועית‪:‬‬
‫𝑛‬ ‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫𝜇 = 𝜇 𝑛 = 𝑖𝑥 𝜇𝐸 ∑ = ) 𝑖𝑥 ∑ ( 𝜇𝐸 = ) 𝐸𝐿𝑀 ̂𝜇( 𝜇𝐸‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫‪𝑏(𝜇) = 𝜇 − 𝜇 = 0‬‬
‫לכן משערך זה אינו מוטה‪ .‬השגיאה הריבועית תהיה השונות‪ ,‬ולאחר הצבה וחישובים (בת"ס‪ ,‬לינאריות תוחלת) נקבל כי‬
‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫‪𝑣𝑎𝑟(𝜇̂ 𝑀𝐿𝐸 ) = ⋯ = 2 ∑ 𝐸𝜇 ((𝑥𝑖 − 𝜇)2 ) = 𝑣𝑎𝑟(𝑋) = Σ‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬

‫הערכת ממוצע ושונות נוספת ‪:‬‬

‫קיבלנו משערך מוטה ולכן לעיתים מתקנים בעזרת חלוקה ב ‪ n-1‬במקום ב ‪.n‬‬

‫‪00‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫עיבוד מקדים וניתוח מידע‬


‫מבוא‪ ,‬סוגי נתונים‪ ,‬פעולות בסיסיות‪ ,‬מאפיינים‬
‫𝕏 ∈ 𝑖𝑥 ‪𝐷𝑋 = {𝑥𝑖 }𝑛𝑖=1 ,‬‬ ‫נתבונן באוסף נתונים או פריטי מידע‪:‬‬

‫סוגי נפוצים של מידע‬


‫וקטור גדלים מספריים‪ ,‬מידע סימנטי מחולק לרשומות(למשל שם‪ ,‬כתובת‪ ,‬מספר‪ ,)..‬קובץ טקסט‪ ,‬אות דגום‪ ,‬תמונות (בייצוג‬
‫מטריצי)‪ ,‬גרף קישוריות‪..‬‬
‫דוגמאות לפעולות מקדימות של טיפול בנתונים‪ :‬ניקוי‪ ,‬אחסון‪ ,‬דגימה ודילול‪ ,‬נרמול‪ ,‬התמרות‪ ,‬הורדת מימדיות‪.‬‬
‫𝑇‬ ‫𝑑‬
‫𝑑‪𝑥𝑖 = (𝑥𝑖 (1), … , 𝑥𝑖 (𝑑)) = (𝑥𝑖 (𝑗))𝑗=1 ∈ ℝ‬‬ ‫נתעסק בעיקר בנתונים בצורת וקטור מספרי בעל מימד קבוע‬
‫האינדקס בסוגריים מסמן את הרכיב ה ‪ j‬בדוגמא‪ ,‬בעוד האינדקס מסמן את מספר הדוגמא‪.‬‬

‫מאפיינים‬
‫וקטור מאפיינים )𝑥(𝜙 הינו גודל הנגזר מפריט מידע המקורי‪,‬אשר עשוי להועיל בהמשך בפעולות של זיהוי וסיווג‪.‬‬
‫באופן כללי‪ ,‬מאפיין הינו גודל (מספרי לרוב) הנגזר מפריט המידע המקורי‪ ,‬ואשר עשוי להועיל בפעולות המשך כגון זיהוי וסיווג‪.‬‬
‫בחירת מאפיינים מתאימים לייצוג והעשרת מידע הקלט הינה בעלת חישובת קריטית במשימות של למידה מודרכת‪.‬‬

‫מרכוז ונרמול‬
‫‪1‬‬
‫𝑒𝑟𝑒‪𝑥𝑖 → 𝑥𝑖 − 𝑥̅ 𝑤ℎ‬‬ ‫𝑖𝑥 ‪𝑥̅ = 𝑛 ∑𝑛𝑖=1‬‬ ‫מרכוז מתבצע בעזרת‪:‬‬
‫)𝑗( ̅𝑥‪𝑥𝑖 (𝑗)−‬‬ ‫‪1‬‬ ‫‪1‬‬
‫( → )𝑗( 𝑖𝑥‬ ‫)‬ ‫= )𝑗(𝜎 𝑒𝑟𝑒‪𝑤ℎ‬‬ ‫𝑖𝑥‖‬ ‫‪− 𝑥̅ ‖ = √ ∑𝑛𝑖=1(𝑥𝑖 (𝑗) − 𝑥̅ (𝑗))2‬‬ ‫מירכוז ונירמול לפי שונות‪:‬‬
‫)𝑗(𝜎‬ ‫𝑛√‬ ‫𝑛‬
‫𝑗𝑛𝑖𝑀‪𝑥𝑖 (𝑗)−‬‬
‫𝑥𝑎𝑀 → )𝑗( 𝑖𝑥‬ ‫מירכוז ונירמול משערת‪∈ [0,1] :‬‬
‫𝑗𝑛𝑖𝑀‪𝑗 −‬‬

‫הורדת מימד ‪ : PCA‬ניתוח רכיבים עיקריים‬


‫‪PCA – Principle Component Analysis‬‬

‫הגדרה ותזכורות‬
‫עבור וקטורים רב מימדיים במימד ‪ ,𝑑 ≫ 1‬נרצה לייצג את אותם וקטורים במימד נמוך יותר תוך שמירה על תכונות רצויות‬
‫מסוימות של אוסף זה‪.‬‬
‫שיטת ‪ PCA‬הינה התמרה (או הטלה) לינארית של המידע למרחב במימד נמוך יותר‪ .‬בבסיס הגישה ההנחה כי נקודות המידע‬
‫מרוכזות על או קרוב לתת מרחב לינארי כלשהו של המרחב הראשוני‪.‬‬
‫באופן כללי‪ ,‬שיטה זו מבטיחה שונות מירבית ושגיאת שחזור מינימלית‪.‬‬

‫עבור אוסף נקודות ‪ {𝑥𝑖 }𝑛𝑖=1‬כאשר 𝑑‪ ,𝑥𝑖 ∈ ℝ‬נגדיר מטריצת שונות מדגם‬
‫𝑛‬
‫‪1‬‬
‫≜ 𝑛𝑃‬ ‫𝑑 𝑥 𝑑‪∑(𝑥𝑖 − 𝑥̅ )(𝑥𝑖 − 𝑥̅ )𝑇 ∈ ℝ‬‬
‫𝑛‬
‫‪𝑖=1‬‬
‫‪1‬‬
‫כאשר כרגיל 𝑖𝑥 ‪ 𝑥̅ = 𝑛 ∑𝑛𝑖=1‬הינו וקטור הממוצעים‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫הערה‪ :‬לעיתים מחליפים את המקדם 𝑛 במקדם ‪ 0‬או ‪ . 𝑛−1‬לא משנה כיוון שאנו מעוניינים רק בערכים העצמיים והוקטורים‬
‫העצמאיים של המטריצה‪.‬‬
‫𝑛 ‪1‬‬ ‫𝑇‬
‫𝑖𝑥 𝑖𝑥 ‪.𝑃𝑛 = 𝑛 ∑𝑖=1‬‬ ‫הערה‪ :‬בחישובי ‪ PCA‬מקובל ראשית למרכז את הנתונים‪ ,‬נקבל‬
‫𝑇‪𝑥1‬‬
‫𝑇‬
‫הערה‪ :‬מטריצת הנתונים ‪ .𝑿 = 𝑥2‬במונחים אלו נקבל‬
‫‪1‬‬
‫𝑋 𝑇 𝑋 𝑛 = 𝑛𝑃‪.‬‬
‫…‬
‫] 𝑇𝑛𝑥[‬
‫≥ ‪𝜆1‬‬ ‫מטריצת שונות המדגם הינה ממשית‪ ,‬סימטרית‪ ,‬אי שלילית מוגדרת‪ .‬לכן בעלת ‪ d‬ערכים עצמיים ממשיים שיסומנו‬
‫‪ ,𝜆2 ≥ ⋯ ≥ 𝜆𝑑 ≥ 0‬ובעלת ‪ d‬וקטורים עצמיים אורתונורמליים שיסומנו 𝑑𝑣 ‪ .𝑣1 , 𝑣2 , … ,‬נקבל‪:‬‬

‫‪02‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫‪𝑣𝑘𝑇 𝑣𝑗 = 𝛿𝑘𝑗 ,‬‬ ‫𝑘𝑣 𝑘𝜆 = 𝑘𝑣 𝑛𝑃‬

‫סדר הוקטורים העצמיים הוא לפי סדר הערכים העצמיים‪.‬‬

‫𝑛‬

‫𝑢∀ ‪𝑢𝑇 𝑃𝑛 𝑢 = 𝑢𝑇 𝑋𝑋 𝑇 𝑢 = ‖𝑢𝑇 𝑥‖2 = ∑(𝑢𝑇 𝑥𝑖 )2 ≥ 0 ,‬‬


‫‪𝑖=1‬‬

‫𝑇𝑘𝑣 𝑘𝑣 𝑘𝜆 ‪𝑃𝑛 = 𝑉𝛬𝑉 𝑇 = ∑𝑑𝑘=1‬‬ ‫מתקיים גם כן‪:‬‬

‫‪𝜆1‬‬ ‫‪… 0‬‬


‫⋮(=𝛬‬ ‫)⋮ ⋰‬ ‫] 𝑑𝑣 ‪ 𝑉 −1 = 𝑉 𝑇 , 𝑉 = [𝑣1 , … ,‬וכן‬ ‫כאשר‬
‫‪0‬‬ ‫𝑑𝜆 …‬

‫כיוונים ורכיבים העיקריים‬


‫הווקטורים העצמיים נקראים גם הכיוונים העיקריים של מטריצת שונות המדגם‪ .‬וקטורים אלו מהווים בסיס למרחב המדגם‬
‫‪ ℝd‬וניתן להציג כל וקטור במרחב (בפרט את אוסף הנקודות שלנו) בעזרת בסיס זה‪ .‬ברישום מטריצי‪:‬‬
‫‪𝑥𝑖 = 𝑉𝑧𝑖 ,‬‬ ‫𝑖𝑥 𝑇 𝑉 = 𝑖𝑧‬
‫‪𝑥𝑖 = ∑𝑑𝑘=1 𝑧𝑖𝑘 𝑣𝑘 ,‬‬ ‫או ברישום לפי רכיבים‪𝑧𝑖 (𝑘) ≜ 𝑣𝑘𝑇 𝑥𝑖 = ∑𝑑𝑗=1 𝑥𝑖 (𝑗)𝑣𝑘 (𝑗) :‬‬
‫הווקטור 𝑖𝑧 הוא ייצוג של 𝑖𝑥 בעזרת הבסיס החדש‪.‬‬
‫המקדמים )𝑘( 𝑖𝑧 הם הרכיבים העיקריים של הוקטור 𝑖𝑥 ‪ ,‬כאשר )‪ 𝑧𝑖 (1‬הוא הרכיב העיקרי הראשון וכו‪.‬‬
‫ייצוג רכיבים עיקריים (‪ )PCA‬ממימד ‪ m‬מתקבל ע"י לקיחת ‪ m‬הרכיבים העיקריים הראשונים עבור כל נקודה 𝑖𝑥 והשמטת‬
‫)𝑚(‬
‫יתר הרכיבים‪ .‬כלומר ברישום מטריצי אם נסמן ] 𝑚𝑣 ‪ 𝑉𝑚 = [𝑣1 , … ,‬אז‪.𝑧𝑖 ≜ 𝑉𝑚𝑇 𝑥𝑖 :‬‬

‫אלגוריתם ה ‪ PCA‬להורדת המימד‬


‫‪1‬‬
‫‪ .0‬מרכוז אוסף וקטורי העמודה 𝑛𝑥 ‪ 𝑥1 , … ,‬כך ש 𝑖𝑥 ‪𝑥𝑖 → 𝑥𝑖 − 𝑥̅ = 𝑥𝑖 − 𝑛 ∑𝑛𝑖=1‬‬
‫‪1‬‬
‫‪ .1‬חישוב ‪( m‬מימד רצוי) הוקטורים העצמיים הראשונים של מטריצת שונות המדגם 𝑇𝑖𝑥 𝑖𝑥 ‪𝑃𝑛 = ∑𝑛𝑖=1‬‬
‫𝑛‬
‫𝑇‪𝑣1‬‬
‫)𝑚(‬
‫𝑖𝑧‬ ‫‪= [ ⋮ ],‬‬ ‫𝑛 ‪𝑥𝑖 ≡ 𝑉𝑚𝑇 𝑥𝑖 , 𝑖 = 1, … ,‬‬ ‫‪ .3‬חישוב וקטורי הרכיבים העיקריים במימד ‪:m‬‬
‫𝑇‬
‫𝑚𝑣‬

‫אינטואיציה גיאומטרית‪ PCA :‬מתקבל על ידי התאמת אליפסואיד במימד ‪d‬‬


‫סביב הדוגמאות‪ ,‬כאשר הכיוונים העיקריים הם כיווני הצירים הראשיים של‬
‫האליפסואיד (המאונכים זה לזה)‪ ,‬בסדר יורד של אורכם‪ .‬הרכיבים הראשיים‬
‫מתקבלים כהטלת הנקודות על צירים אלה‪ .‬למשל‪ ,‬בציור‪ ,‬אם ‪ , m=1‬עבור כל‬
‫נקודה 𝑖𝑥 נשמור רק את )ד‪ 𝑧𝑖 (1‬ההטלה של 𝑖𝑥 על הכיוון העיקרי הראשון ‪.𝑣1‬‬
‫כך נוריד את המימדיות מ‪ 1-‬ל‪.0-‬‬

‫שחזור לינארי עם שגיאה מינימלית‬


‫תחילה נניח שהנתונים ממורכזים כך ש ‪ .𝑥̅ = 0‬עבור 𝑑 < 𝑚‪ ,‬תהיינה 𝑚 𝑥 𝑑‪ 𝐴 ∈ ℝ𝑚 𝑥 𝑑 , 𝐵 ∈ ℝ‬מטריצת הפחתת מימד(‪)A‬‬
‫ומטריצת שחזור (‪ .)B‬נגדיר‪:‬‬
‫‪𝑢𝑖 = 𝐴𝑥𝑖 ∈ ℝ𝑚 ,‬‬ ‫𝑑‪𝑥̂𝑖 = 𝐵𝑢𝑖 ∈ ℝ‬‬
‫𝑖𝑥)𝐴𝐵 ‪.𝑒𝑖 = 𝑥𝑖 − 𝑥̂𝑖 = (𝐼 −‬‬ ‫שגיאת השחזור של ‪ x‬הינה‬
‫= )̂𝑥(𝐸‬ ‫‪∑𝑛𝑖=1‖𝑒𝑖 ‖2‬‬ ‫שגיאת השחזור תוגדר כסכום הנורמות הריבועיות של השגיאה‪:‬‬
‫הערך המינימלי האפשרי של שגיאת השחזור הריבועית מתקבל עבור‪:‬‬
‫=𝐴‬ ‫‪𝑉𝑚𝑇 ,‬‬ ‫] 𝑚𝑣 ‪𝐵 = 𝑉𝑚 ≡ [𝑣1 , … ,‬‬

‫‪03‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫)‪(m‬‬
‫‪.z i‬‬ ‫והווקטור ‪ ui‬כולל את ‪ m‬הרכיכים העיקריים הראשונים ושווה ל‬ ‫𝑖𝑥 𝑇𝑚𝑉 𝑚𝑉 = 𝑖̂𝑥‬ ‫כלומר‬
‫בנוסף הערך המינימלי של שגיאת השחזור הינו 𝑑𝜆 ‪.𝐸𝑚𝑖𝑛 = 𝜆𝑚+1 + ⋯ +‬‬
‫אינטואיציה גיאומטרית‪ :‬הקווים בין הנק' לכיוון העיקרי הם וקטורי שגיאת השחזור‬
‫𝑖𝑒‪ .‬שגיאת השחזור הריבועית היא סכום הנורמות הריבועיות שלהם – כלומר סכום‬
‫המרחקים בריבוע של הנקודות מכיוון ההטלה‪ .‬מהציור קל לראות שבחירה טובה של‬
‫הכיוון היא בכיוון העיקרי‪ ,‬בו השונות בנתונים היא מקסימלית‪.‬‬

‫תכונת השונות המירבית‬


‫עבור אוסף כלשהו של וקטורים ‪ qi‬נגדיר את שונות המדגם כממוצע ריבועי המרחקים מהערך ממוצע‪:‬‬

‫‪1‬‬
‫𝑛‬ ‫𝑇‪𝑢1‬‬
‫)𝑚(‬
‫‪𝑉𝑎𝑟(𝑞1 , … , 𝑞𝑛 ) = ∑‖𝑞𝑖 − 𝑞̅ ‖2 ,‬‬ ‫𝑖𝑧‬ ‫𝑇‬
‫𝑚𝑈 ≜ 𝑖𝑥 ‪= [ ⋮ ] ,‬‬ ‫𝑖𝑥‬
‫𝑛‬ ‫𝑇‬
‫‪𝑖=1‬‬ ‫𝑚𝑢‬
‫שונות המדגם של הווקטורים ‪ zi‬היא מקסימלית כאשר כיווני ההטלה הינם ‪ m‬הכיוונים העיקריים‪:‬‬
‫𝑚𝑣 = 𝑚𝑢 … ‪𝑢1 = 𝑣1 ,‬‬
‫)𝑚(‬ ‫)𝑚(‬
‫‪𝑉𝑎𝑟 (𝑧1‬‬ ‫𝑚𝜆 ‪, … , 𝑧𝑛 ) = 𝜆1 + ⋯ +‬‬
‫)‪(1‬‬
‫𝑖𝑧 = 𝑖𝑧‪ .‬נניח כי הנתונים ממורכזים לכן ‪.𝑧̅ = 0‬‬ ‫הוכחה‪ :‬עבור ‪ ,m=1‬וקטור יחידה כלשהו ‪ u‬נסמן 𝑖𝑥 𝑇𝑢 =‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬
‫𝑢 𝑛𝑃 𝑇𝑢 = 𝑢 𝑇𝑖𝑥 𝑖𝑥 𝑇𝑢 ∑ = 𝑇𝑖𝑧 𝑖𝑧 ∑ = ‪𝑉𝑎𝑟(𝑧1 , … , 𝑧𝑛 ) = ∑(𝑧𝑖 )2‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬

‫‪max 𝑢𝑇 𝑃𝑛 𝑢 = max (𝑉𝑢)𝑇 Λ(𝑉𝑢) = max 𝑧 𝑇 Λ𝑧 = 𝜆𝑀𝑎𝑥 (𝑃𝑛 ) = 𝜆1‬‬


‫‪||𝑢||=1‬‬ ‫‪||𝑢||=1‬‬ ‫‪||𝑧||=1‬‬

‫כאשר מקסימום זה מתקבל עבור הווקטור העצמי המתאים ‪.𝑢 = 𝑣1‬‬


‫𝑚𝜆 ‪𝜆1 +⋯+‬‬
‫≜ 𝑚𝑔‪ .‬ככל שיחס זה קרוב ל‪ ,0‬אנו מתקראים לשונות הסדרה המקורית‪.‬‬ ‫𝑑𝜆‪𝜆1 +⋯+‬‬
‫יחס השונות מוגדר כך‬

‫בחירת המימד ‪m‬‬


‫) 𝑛𝑖𝑚𝐸(‬ ‫𝑛𝑖𝑚𝐸‬
‫= 𝑚𝑔 ‪( 1 −‬כאן ) ̅𝑥(𝐸 זו שגיאת המשחזר הטריוויאלי)‪.‬‬ ‫=‬ ‫מתקיים הקשר‬
‫) 𝑛𝑥‪𝑉𝑎𝑟(𝑥1 ,…,‬‬ ‫) ̅𝑥(𝐸‬
‫זוהי שגיאת השחזור היחסית ‪ :‬היחס בין שגיאת השחזור של ה‪ PCA‬ביחס לשונות המדגם המקורית‪ .‬לכן נרצה שיחס זה‬
‫יהיה קרוב ל‪ 0‬ככל היותר‪.‬‬
‫לדוגמא‪ ,‬נרצה להוריד את ממד הדוגמאות ל ‪ m‬כך ששגיאות השחזור הממוצעת במובן של שגיאה ריבועית תהיה לכל היותר‬
‫𝜀 ‪ .‬המספר המינימלי של ווקטורים ‪ M‬הוא ‪:‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑑‬
‫‪1‬‬ ‫‪1‬‬
‫= 𝑖𝑧‬ ‫𝑖𝑥 𝑇𝑀𝑉‬ ‫= ‪⟹ ℒ = ∑‖𝑥𝑖 − 𝑉𝑀 𝑧𝑖 ‖2 ⟹ ∑‖𝑥𝑖 − 𝑉𝑀 𝑧𝑖 ‖2‬‬ ‫𝜀 ≤ 𝑚𝜆 ∑‬
‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬ ‫‪𝑚=𝑀+1‬‬

‫‪04‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫אשכול ‪Clustering‬‬
‫חלוקת אוסף נתונים לתת קבוצות‪ ,‬כך שלחברים בכל תת קבוצה יש קשר‪.‬‬

‫מדדי קרבה וחלוקה‬


‫‪2‬‬
‫‖ 𝑗𝑥 ‪.𝑑(𝑥𝑖 , 𝑥𝑗 ) = ‖𝑥𝑖 −‬‬ ‫קיים מדד מרחק כלשהו בין פריטים‪ ,‬מדד נפוץ עבורינו יהיה המרחק הריבועי‪:‬‬
‫אנחנו רוצים לחלק את הנתונים ל‪ K -‬קבוצות או מחלקות‪ .‬מדד מרחק סביר עבור קבוצת פריטים הוא סכום המרחקים בין‬
‫האיברים בקבוצה‪ ,‬מנורמל במספר האיברים בקבוצה‪:‬‬
‫‪1‬‬
‫= )𝐶( 𝑘𝑊‬ ‫∑‬ ‫) 𝑗𝑥 ‪𝑑(𝑥𝑖 ,‬‬
‫𝑘𝑛‪2‬‬
‫𝑘=)𝑗(𝐶=)𝑖(𝐶‪𝑖,𝑗:‬‬

‫𝐾∑ = )𝐶(𝑊‬
‫)𝐶( 𝑘𝑊 ‪𝑘=1‬‬ ‫אם נסכם על כל המחלקות נקבל את ממד המרחק הכולל עבור שיוך נתון ‪:C‬‬
‫נרצה למצוא שיוך ‪ C‬אשר מביא למינימום את הביטוי הזה‪ .‬אין אלגוריתם יעיל לפתרון זה‪ ,‬אי אפשר לבדוק את כל החלוקות‬
‫האפשריות כיוון שזה מעריכי בגודל הקלט‪.‬‬

‫אשכול צובר‬
‫בונים את המחלקות בהדרגה (‪ ,)bottom up‬כאשר בתחילה כל פריט נמצא במחלקה נפרדת משלו‪ .‬בכל שלב מאחדים שתי‬
‫מחלקות ‪ ,‬עד שכל הפריטים אוחדו למחלקה אחת‪ .‬הקבוצות המאוחדות בכל שלב הן השתיים הקרובות ביותר‪ .‬יש מספר‬
‫אפשרויות לכך‪ ,‬כמו מרחק ממוצע‪ ,‬השכן הקרוב‪ ,‬השכן הרחוק וכדומה‪.‬‬

‫אלגוריתם ‪K-means Clustering‬‬


‫אלגוריתם נפוץ במיוחד המשתמש במדד המרחק הריבועי‪.‬‬
‫נגדיר‪ 𝐺𝑖 :‬אוסף האינדקסים של האשכול ה ‪ |𝐺𝑖 | , i‬מס' האיברים באשכול‪ {𝐺𝑖 } ,‬חלוקה מסויימת לאשכולות‪.‬‬
‫בנוסף נגדיר את 𝑘𝜇 כמרכז המסה של האשכול‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫≜ )𝐶( 𝑘𝑊‬ ‫∑‬ ‫) 𝑗𝑥 ‪𝑑(𝑥𝑖 ,‬‬ ‫‪= ∑𝑥𝑖∈𝐺𝑘‖𝑥𝑖 − 𝜇𝑘 ‖2 ,‬‬ ‫= 𝑘𝜇‬ ‫∑‬ ‫𝑥‬ ‫מתקיים‪:‬‬
‫𝑘𝐺∈ 𝑗𝑥‪2|𝐺𝑖 | 𝑥𝑖 ,‬‬ ‫𝑖 𝑘𝐺∈ 𝑖𝑥 | 𝑖𝐺|‬
‫זהו אלגוריתם איטרטיבי המביא למינימום את המרחק הכולל‪:‬‬
‫𝐾‬ ‫𝐾‬

‫‪𝑊(𝐶) = ∑ 𝑊𝑘 (𝐶) = ∑ ∑ ‖𝑥𝑖 − 𝜇𝑘 ‖2‬‬


‫‪𝑘=1‬‬ ‫𝑘𝐺∈ 𝑖𝑥 ‪𝑘=1‬‬
‫האלגוריתם מתייחס לממוצעים כמשתנים נפרדים‪ ,‬ומבצע צעדים של‪:‬‬
‫‪ .0‬מינימיליזציה על פני השיוך ל 𝑘𝐺 (כאשר הממוצעים קבועים) – שלב ראשון באלגוריתם‪.‬‬
‫‪ .1‬מינימליזציה על פני הממוצעים (כאשר 𝑘𝐺 קבוע) – שלב שני באלגוריתם‪.‬‬
‫‪ .3‬האלגוריתם מבטיח שפונקציית המטרה תקטן בכל צעד‪.‬‬
‫תאור האלגוריתם‪:‬‬
‫איתחול‪ :‬בחירת מרכזים 𝑑‪𝑘 = 1, … , 𝐾, 𝜇𝑘 ∈ ℝ‬‬ ‫‪‬‬
‫חזרו על הצעדים הבאים עד להתכנסות (אין עוד שינוי באף שיוך)‪:‬‬ ‫‪‬‬
‫‪𝐺𝑘 = arg min ‖𝑥𝑖 − 𝜇𝑘 ‖2‬‬ ‫‪ ‬חישוב השיוך 𝑖∀ ‪ 𝑥𝑖 ∈ 𝐺𝑘 ,‬בהתאם לממוצע הקרוב ביותר‪:‬‬
‫𝐾…‪𝑘=1,‬‬
‫‪1‬‬
‫= 𝑘𝜇‬ ‫∑‬ ‫𝑥‬
‫𝑖 𝑘𝐺∈ 𝑖𝑥 | 𝑖𝐺|‬
‫חישוב הממוצעים בכל מחלקה לפי השיוך הקיים‪:‬‬ ‫‪‬‬

‫התכנסות‪ :‬ניתן לראות כי כל שלב באלגוריתם שבו מתבצע שינוי מקטין את מדד המרחק )𝐶(𝑊‪ ,‬ולפיכך מובטחת התכנסות‬
‫במספר צעדים סופי‪ .‬עם זאת‪ ,‬ההתכנסות תהיה למינימום מקומי ולא גלובאלי‪.‬‬
‫)‪𝐸(𝐾+1‬‬
‫‪1−‬‬ ‫)𝐾(𝐸‬
‫שינוי יחסי קטן ב‪< 𝜖 :K‬‬ ‫תנאי אפשרי לבחירת ‪: K‬‬

‫𝐾‬ ‫𝐾‬
‫‪1‬‬
‫‪𝑀𝑆𝐸 = ∑ ∑ ‖(𝑥𝑗 − 𝜇𝑖 ‖2‬‬ ‫‪, 𝐸(𝐾) = √ ∑ ∑ ‖(𝑥𝑗 − 𝜇𝑖 ‖2‬‬
‫𝑁‬
‫)𝑡( 𝐺∈ 𝑥 ‪𝑖=1‬‬ ‫)𝑡(‬ ‫𝐺∈ 𝑥 ‪𝑖=1‬‬
‫𝑗‬ ‫𝑖‬ ‫𝑗‬ ‫𝑖‬

‫‪05‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫מבוא ללמידה מודרכת‬


‫בעיית הלמידה המודרכת‪ ,‬סיווג ורגרסיה‬
‫כאשר נתון אוסף דוגמאות מתוייגות‪ ,‬המטרה היא ללמוד מיפוי (פונקציה‪ ,‬אלגוריתם) אשר מאפשר חישוב פלט מתאים לכל‬
‫קלט אפשרי‪ .‬למיפוי נקרא פונקציית החיזוי או החזאי‪.‬‬
‫נבחין בין שני סוגים בסיסיים של בעיות חיזוי‪ ,‬לפי אופי משתנה הפלט‪:‬‬
‫א‪ .‬בעיית רגרסיה – הפלט ‪ y‬הינו מספר ממשי‪𝑦 ∈ 𝒴 ∈ ℝ :‬‬
‫ב‪ .‬בעיית סיווג (קלסיפיקציה) – הפלט הינו משתנה קטגורי בעל מספר סופי של ערכים‪ ,‬נקראים גם מחלקות‪.‬‬
‫הקלט הוא משתנה כללי‪ ,‬במקרה הפשוט ביותר הוא וקטור ממשי בעל מימד קבוע‪ .‬במקרה זה פריט הקלט ‪ xI‬הוא וקטור‬
‫עמודה עם רכיבים סקלריים שיסומנו )𝑗( 𝑖𝑥‪ ,‬כאשר עבור מימד ‪ d‬ומס' רכיבים ‪𝑖 ∈ 1, … , 𝑛 , 𝑗 ∈ 1, … , 𝑑 n‬‬
‫חיזוי לעומת קירוב – בבעיית הקירוב‪ ,‬אנו מעוניים למצוא פונקציה 𝑓 אשר מתארת את הקשר בין הקלט לפלט על גבי קבוצת‬
‫נקודות נתונה‪ .𝑦𝑖 ≈ 𝑓(𝑥𝑖 ), 𝑖 = 1, … , 𝑛 :‬זוהי בעיה חשובה בהקשרים של ניתוח והבנת מידע‪.‬‬
‫בבעיית החיזוי‪ ,‬אנו מעוניינים למצוא פלט מתאים ‪ y‬עבור קלט חדש ‪ ,x‬כלומר כזה שלא נמצא בסדרת הדוגמאות‪ .‬זוהי לפיכך‬
‫בעיה של הסקה אינדוקטיבית‪ :‬הסקה מהפרט אל הכלל‪.‬‬
‫מובן שנדרש להגדיר קריטריון או מודל כלשהו שלפיו ניתן לשפוט האם החזאי הנלמד 𝑓 אכן מקיים את הנדרש‪.‬‬

‫סוגי חזאים‬
‫פונקציית החיזוי המבוקשת‪ ,‬נקראת גם מחלקת ההשערות‪ ,‬או המודל‪ .‬לדוגמא‪ ,‬חזאי לינארי‪ ,SVM ,‬רשת ניורונים‪ ,‬עץ‬
‫החלטה‪ ,‬חזאי מסוג ‪.k-NN‬‬
‫מרבית המודלים בהם נתעניין הינם מהסוג של מודל פרמטרי }𝛩 ∈ 𝜃 ‪ , 𝐹 = {𝑓𝜃 :‬פונקציות החיזוי תלויות בוקטור של‬
‫פרמטרים ממשיים בעלי מימד נתון 𝑇) 𝑚𝜃 ‪ .𝜃 = (𝜃1 , … ,‬הלמידה מסתכמת בכוונון וקטור הפרמטרים 𝜃‪.‬‬
‫מודל לא פרמטרי כאשר מספר הפרמטרים של המודל אינו מוגבל‪ .‬לדוגמא‪ ,‬אלגוריתם השכן הקרוב ביותר‪ ,‬בו אנחנו קודם‬
‫מוצאים את הדוגמא 𝑖𝑥 שהכי קרובה ל 𝑥 ואז החזאי ייתן את התיוג של דוגמא זו‪ .‬לדוגמא‪ ,‬אלגוריתם 𝑁𝑁 ‪.𝑘 −‬‬

‫מודל למידה סטטיסטי ומדדי טיב‬


‫נגדיר מרחק קלט 𝒳 ומרחב פלט (תגיות) 𝒴‪ .‬פילוג הסתברות 𝑥𝑝 על מרחב הקלט יהיה "פילוג האמת" של הקלט‪.‬‬
‫נגדיר פונקציית חיזוי 𝒴 → 𝒳 ∶ ‪ 𝑓0‬אשר מגדירה את התווית הנכונה לכל קלט‪ .‬נקרא לה פונקציית המטרה ואותה נלמד‪.‬‬
‫פילוג האמת ופונקציית החיזוי הרצויה אינם ידועים לאלגוריתם הלמידה‪ .‬לפיכך‪ ,‬בחירת החזאי מסתמכת על למידה בעזרת‬
‫סדרת דוגמאות מתויגות 𝐷 כאשר אנו מניחים כי‪:‬‬
‫סדרת הקלט ‪ {𝑥𝑖 }𝑛𝑖=1‬מתקבלת על ידי דגימות בלתי תלויות מתוך פילוג האמת‪.‬‬ ‫‪‬‬
‫התגיות 𝑖𝑦 הן הנכונות‪.𝑦𝑖 = 𝑓0 (𝑥𝑖 ) :‬‬ ‫‪‬‬
‫לצורך הגדרת מדדי ביצועים‪ ,‬נגדיר פונקציית הפסד על מרחב הפלט‪ ,‬אשר מציינת את המחיר של שגיאת חיזוי‪.‬‬
‫‪ .ℓ(ŷ, y) ≥ 0,‬למשל הפסד ריבועי או הפסד ‪.1-0‬‬ ‫פונקציה זו נדרשת לקיים ‪ℓ(𝑦, y) = 0‬‬
‫נגדיר שני סוגים של מדדי ביצועים‪:‬‬

‫הסיכון – המחיר האמיתי‬


‫)))𝑥( ‪ . 𝐿(𝑓) = 𝐸𝑋~𝑝𝑋 (ℓ(𝑓(𝑥), 𝑓0‬כלומר מחשבים את‬
‫תוחלת פונקציית ההפסד עבור חזאי נתון ביחס לחזאי האמת‪,‬‬
‫כאשר פילוג הקלט 𝑥 נלקח לפי פילוג האמת‪ .‬זה הגודל אותו אנו‬
‫שואפים למזער‪ .𝑓 ∗ = arg min 𝐿(𝑓) .‬זה יהיה החזאי המיטבי‬
‫𝐹∈𝑓‬
‫מתוך מחלקת ההשערות 𝐹‪ .‬כמובן שלא ניתן לעשות זאת במדויק כל עוד ‪ 𝑝𝑥 , 𝑓0‬אינם ידועים‪.‬‬

‫‪06‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫הסיכון האמפירי‬
‫= )𝑓( 𝑛̂𝐿‬ ‫מחושב על גבי סדרת דוגמאות נתונה‪ .‬זהו ההפסד הממוצע על פני דוגמאות אלו‬
‫‪1‬‬
‫) 𝑖𝑦 ‪.𝑛 ∑𝑛𝑖=1 ℓ(𝑓(𝑥𝑖 ),‬‬
‫הסיכון האמפירי ניתן לחישוב מפורש‪ ,‬בניגוד למחיר האמיתי‪ ,‬בעזרת סדרת לימוד‪ ,‬עבור כל חזאי‪ ,‬וניתן לראות בו קירוב‬
‫לסיכון האמיתי‪ .‬מזעור הסיכון האמפירי ‪ , ERM - Empirical Risk Minimization‬הוא החזאי שמביא למינימום את‬
‫)𝑓( 𝑛̂𝐿 ‪ , 𝑓̂𝐸𝑅𝑀 = arg min‬יכול לגרום להתאמת יתר‪.‬‬ ‫הסיכון ביחס לדוגמאות‬
‫𝐹∈𝑓‬

‫בעיות יסוד בלמידה מודרכת‬


‫א‪ .‬בחירת מודל החזאי – בחירת סוג המודל תעשה על סמך ניסיון קודם‪ ,‬השוואת מודלים‪ ,‬השוואת ביצועים‪ ,‬נוחות וכו'‪.‬‬
‫ב‪ .‬בחירת סדר המודל – מספר הפרמטרים במודל פרמטרי למשל‪ .‬קובע כעיקרון את גודל קבוצת הפונקציות הכלולות‬
‫במודל‪ .‬ככל סדר המודל גבוה יותר‪ ,‬כך קבוצה זו עשירה יותר‪ ,‬מכירה פונקציות מסובכות יותר‪ .‬הניגוד‪:‬‬
‫‪ ‬מודל פשוט מדי לא יאפשר תיאור מדויק של הקשר האמיתי בין הקלט לפלט‪.‬‬
‫‪ ‬מודל מסובך בעל מספר גדול של דרגות חופש‪ ,‬לכן ידרוש מספר רב של דוגמאות על מנת לבצע הכללה סבירה‪.‬‬
‫פירוק השגיאה‪ :‬כדי להבין את הניגוד נבצע את הפרוק הבא של סיכון החזאי הנלמד‪:‬‬
‫)𝐹 ‪𝐿(𝑓̂) = 𝐸𝑎𝑝𝑝 (𝐹) + 𝐸𝑒𝑠𝑡 (𝑓̂,‬‬
‫)𝑓(𝐿 ‪𝑤ℎ𝑒𝑟𝑒 𝐸𝑎𝑝𝑝 (𝐹) = min 𝐿(𝑓) ≜ 𝐿(𝑓 ∗ ) 𝑤𝑖𝑡ℎ 𝑓 ∗ ≜ arg min‬‬
‫𝐹∈𝑓‬ ‫𝐹∈𝑓‬

‫) ∗ 𝑓(𝐿 ‪𝐸𝑒𝑠𝑡 (𝑓̂, 𝐹) = 𝐿(𝑓̂) −‬‬

‫)𝐹( 𝑝𝑝𝑎𝐸 שגיאת הקירוב‪ .approximation error ,‬מציינת סיכון מינימלי שחזאי כלשהו מתוך המודל יכול להשיג‪ .‬גודל זה‬
‫הינו דטרמיניסטי ואינו תלוי בסדרת הלימוד‪.‬‬
‫)𝐹 ‪ 𝐸𝑒𝑠𝑡 (𝑓̂,‬שגיאת השיערוך‪ .estimation error ,‬הפרש הסיכון עבור החזאי האופטימלי מתוך המודל – דהיינו ∗ ‪ ,f‬לבין‬
‫החזאי שנבחר על ידי אלגוריתם הלימוד‪.‬‬
‫אינטואיציה גיאומטרית‬
‫בהינתן פונקציית מטרה ‪ ,𝑓0‬משפחת הפונקציות ‪ F‬וחזאי נלמד ̂𝑓 ‪ ,‬הפונקציה‬
‫∗ 𝑓 היא הופנקציה שהכי דומה לפונקציית המטרה בתוך ‪ , F‬שגיאת הקירוב‬
‫היא השגיאה בין ∗ 𝑓 ל ‪ 𝑓0‬ושגיאת השיערוך היא השגיאה בין ∗ 𝑓 ל ̂𝑓‪.‬‬
‫התלות של הסיכון ומרכיביו בסיבוכיות המודל הינה שככל שסדר המודל נמוך‬
‫יותר‪ ,‬כך שגיאת הקירוב גבוהה יותר‪ ,‬ושגיאת השיערוך נמוכה יותר‪ .‬ככל‬
‫שמעלים את סדר המודל‪ ,‬שגיאת הקירוב יורדת ושגיאת השיערוך עולה‪ .‬סדר‬
‫המודל המינימלי הוא בנקודת המינימום של הסיכון הכולל (הסכום שלהם)‪.‬‬
‫דרך נוספת להסתכל על הניגוד בבחירת סדר המודל הינה בעזרת ההשפעה‬
‫הסטטיסטית המכונה ‪.Bias-Variance Tradeoff‬‬
‫במקרה זה אנחנו מניחים שה ‪ Data‬נוצר מתוך מודל סטטיסטי מהצורה‬
‫הבאה 𝜖 ‪ 𝑌 = 𝑓(𝑋) +‬כאשר 𝜖 הוא רעש אקראי במדידות שאינו תלוי‬
‫ב ‪ Y,X‬בעלת תוחלת ‪.1‬‬
‫ה ‪ tradeoff‬מתייחס לשגיאה הסטטיסטית שנובעת מפירוק ה ‪ . MSE‬גודל זה‬
‫מתאר את תוחלת השגיאה של החזאי הנלמד ביחס לערכים האמיתיים שאותם הוא אמור‬
‫‪2‬‬
‫לחזות ] ))𝑋(̂𝑓 ‪. 𝑀𝑆𝐸 = 𝔼 [(𝑌 −‬‬
‫‪2‬‬
‫)𝜖(𝑟𝑎𝑉 ‪.𝑀𝑆𝐸 = (𝐵𝑖𝑎𝑠 (𝑓̂(𝑥; 𝐷))) + 𝑉𝑎𝑟[𝑓̂(𝑥; 𝐷)] +‬‬ ‫מתקיים כי‬
‫השגיאה מתפרקת לשלושה איברים‪ .‬היסט גבוה מתקבל עבור מודל פשוט מדי‪.‬‬
‫שונות גבוהה תתקבל בעקבות מודל מסובך מדי‪ .‬רעש גבוה במדידות זו שגיאה מובנית ואין‬
‫איך להקטין אותה‪.‬‬

‫‪07‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫התאמת יתר ‪ ,over fitting -‬קורית במודלים בעלי סדר גבוה‪ .‬התאמה "גבוהה מדי" של החזאי הנלמד לסדרת הלימוד‬ ‫ג‪.‬‬
‫עלולה להוביל לתוצאה גרועה עבור דוגמאות חדשות‪ .‬כלומר הקטנת הסיכון האמפירי לאו דוקא תוביל להקטנת הסיכון‬
‫האמיתי‪ .‬תופעה זו נעוצה בשגיאת שערוך גבוהה המתקבלת עבור מודלים בעלי סדר גבוה‪.‬‬
‫ד‪ .‬רגולריזציה – נשתמש במודל בעל סדר גבוה אך נגביל את הסיבוכיות האפקטיבית של החזאי הנלמד‪ ,‬על ידי שינוי‬
‫מתאים של אלגוריתם הלמידה‪ .‬למשל‪ ,‬הוספת "קנס" על גודל הפרמטרים הנלמדים‪.‬‬

‫הערכת ביצועים באמצעות קבוצות בוחן‬


‫נרצה להערך ביצועי מודל על מנת שנוכל לבחור מודל מבין מספר אפשרויות‪ ,‬לבחור סדר המודל ולהימנע מ‪.over fitting‬‬
‫נעריך את היכון על סדרת בוחן‪ .‬נחלק את סדרת הדוגמאות הקימת למספר תת‪-‬קבוצות‪ ,‬כאשר חלקן ישמשו לבחירת וכיוונון‬
‫המודל ולבדיקת ביצועים סופית‪ .‬חלוקה מקובלת‪:‬‬
‫סדרת האימון ‪ – training set‬משמשת לכיוונון הפרמטרים במודל נתון‪.‬‬ ‫‪‬‬
‫סדרת האימות ‪ – validation set‬משמשת להשוואת ביצועי מודלים שונים‪ ,‬כיוונון סדר המודל‪ ,‬בחירת פרמטר‬ ‫‪‬‬
‫רגולריזציה וכו'‪.‬‬
‫סדרת הבוחן ‪ – test set‬משמשת להערכת ביצועים סופית‪.‬‬ ‫‪‬‬
‫יש להקפיד על הפרדה בין קבוצות אלו‪ .‬אסור "לזהם" את קבוצת הבוחן‪.‬‬
‫חלוקת הדוגמאות הקיימות לקבוצות שונות תתבצע באופן אקראי‪ .‬כלל אצבע לבחירת גודל הקבוצות הינו ‪( 61%‬אימון)‪,‬‬
‫‪( 11%‬אימות)‪( 11% ,‬בוחן)‪.‬‬
‫בהינתן מספר דוגמאות קטן‪ ,‬ניתן לוותר על סדרת האימות הנפרדת ולהשתמש באימות צולב ‪Cross Validation -‬‬
‫שיטה זו מאפשרת בחירת מודל ללא שימוש בסדרת אימות נפרדת‪ .‬פה סדרת האימון מחולקת באופן אקראי ל ‪ K‬קבוצות‬
‫זרות ושוות גודל‪ .‬עבור כל אחת מהקבוצות האלו מתבצע ההליך הבא‪:‬‬
‫‪ .0‬שלב הלימוד מתבצע על סט הדוגמאות הכולל‪ ,‬פרט לקבוצה ה ‪. k‬‬
‫‪ .1‬הסיכון האמפירי של החזאי שהתקבל מחושב על פני הקבוצה ה ‪. k‬‬
‫בסיום התהליך מחושב הסיכון הכולל בממוצע ‪ K‬מדדי הסיכון האמפירי שהתקבלו‪ .‬את המודל שנבחר (כולל סדר ומידת‬
‫רגולריזציה) נאמן בעזרת כל נקודות המידע‪ .‬בחירה אופיינית של ‪ K‬היא ‪ 5‬עד ‪.01‬‬

‫סיווג בעזרת אלגוריתם ‪(K Nearest Neighbors) K-NN‬‬


‫‪ .0‬מצא את ‪ K‬השכנים הקרובים ביותר לנקודה החדשה‪.‬‬
‫‪ .1‬מצא לאיזו קבוצה שייכים רוב השכנים‪ .‬הנקודה החדשה שייכת לקבוצה זו‪.‬‬
‫‪ .0‬במקרה של שוויון בשלב ‪ ,1‬השווה סכום מרחקים‪ .‬הנקודה החדשה שייכת לקבוצה בעלת הסכום המינימלי‪.‬‬
‫‪ .0‬במקרה של שוויון בשלב ‪ , 1.0‬בחר אקראית‪.‬‬
‫שיפור ביצועים‬
‫ניתן לשנות את ההיפר פרמטרים‪ ,‬כלומר את מספר השכנים ‪ . K‬כוונון ע"י‪ ,Brute force :‬ניסוי וטעיה‪.Cross-Validation ,‬‬

‫‪Problem Definition:‬‬
‫‪a. the Underlying‬‬
‫‪System‬‬ ‫‪Model & Learning‬‬ ‫‪Hyper Parameters‬‬ ‫‪Performance‬‬
‫‪Data Collection‬‬ ‫‪Data Inspection‬‬ ‫‪Learning‬‬ ‫‪Validation‬‬
‫‪b. The task & goal‬‬ ‫‪Method Selection‬‬ ‫‪selection‬‬ ‫‪Evaluation‬‬
‫‪c. the Evaluation‬‬
‫‪Method‬‬

‫‪08‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫דוגמא – סיווג בעזרת ‪Ordinal Regression‬‬

‫נניח כי מתקיים 𝜀 ‪ ,𝑦 ∗ = 𝑤 𝑇 𝑥 +‬כאשר 𝜖 מפולג נורמלי תקני‪ .‬בחירת המחלקה תעשה באופן הבא‪:‬‬

‫𝑥‬‫‪2‬‬ ‫𝑣‬‫‪2‬‬
‫‪1‬‬ ‫𝑣‬ ‫‪−‬‬ ‫)𝑣(‪𝑑Φ‬‬ ‫‪1‬‬ ‫‪−‬‬
‫= )𝑣(‪.𝑃(𝑦 ≤ 𝑖|𝑥) = Φ(𝜃𝑖 − 𝑤 𝑇 𝑥) , Φ‬‬ ‫∫‬ ‫𝑒‬ ‫‪2‬‬ ‫‪𝑑𝑥 ,‬‬ ‫= )𝑣(𝜙 =‬ ‫𝑒‬ ‫‪2‬‬ ‫מודל‬
‫∞‪√2𝜋 −‬‬ ‫𝑣𝑑‬ ‫𝜋‪√2‬‬

‫)𝑥 𝑇 𝑤 ‪𝑝(𝑦 = 𝑘|𝑥) = 𝑃(𝜃𝑘−1 < 𝑦 ∗ ≤ 𝜃𝑘 |𝑥) = Φ(𝜃𝑘 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘−1 −‬‬

‫)𝐷|𝜃 ‪log 𝑙𝑖𝑘𝑒𝑙𝑦ℎ𝑜𝑜𝑑 ∶ ℓ(𝑤,‬‬


‫𝑛‬ ‫𝐾‬

‫))𝑥 𝑇 𝑤 ‪= ∑ ∑ 𝕀[𝑦𝑖 = 𝑘]Log (Φ(θyi − 𝑤 𝑇 𝑥𝑖 ) − Φ(𝜃𝑦𝑖−1 −‬‬


‫‪𝑖=1 𝑘=1‬‬

‫𝐾‬
‫)) 𝑖𝑥 𝑇 𝑤 ‪(𝜙(𝜃𝑘−1 − 𝑤 𝑇 𝑥𝑖 ) − 𝜙(𝜃𝑘 −‬‬
‫]𝑘 = 𝑖𝑦[𝕀 ∑ = ) 𝑖𝑦 ‪∇𝑤 log 𝐿(𝑤, 𝜃|𝑥𝑖 ,‬‬
‫)𝑥 𝑇 𝑤 ‪Φ(𝜃𝑘 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘−1 −‬‬
‫‪𝑘=1‬‬

‫) 𝑖𝑥 𝑇 𝑤 ‪𝜙(𝜃𝑘 −‬‬ ‫) 𝑖𝑥 𝑇 𝑤 ‪𝜙(𝜃𝑘 −‬‬


‫⋅ ]𝑘 = 𝑖𝑦[𝕀 = 𝑘𝜃∇‬ ‫‪−‬‬ ‫𝑦[𝕀‬‫𝑖‬ ‫=‬ ‫𝑘‬ ‫‪+‬‬ ‫]‪1‬‬
‫)𝑥 𝑇 𝑤 ‪Φ(𝜃𝑘 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘−1 −‬‬ ‫)𝑥 𝑇 𝑤 ‪Φ(𝜃𝑘+1 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘 −‬‬

‫‪1‬‬
‫‪min‬‬ ‫‪‖𝑤‖2 + 𝐶 ∑𝑀−1‬‬
‫בעיית ה ‪ Soft SVM‬השקולה‪𝑗=1 (∑𝑖:𝑦𝑖 =𝑗 𝜁𝑖 + ∑𝑖:𝑦𝑖 =𝑗 𝜉𝑖 ):‬‬
‫‪𝜉,𝜁,𝑤,𝑏 2‬‬

‫נדרוש אילוצים על כל משתנה עזר כרגיל‪ ,‬ואילוץ על הסידור ‪.𝜃𝑗−1 ≤ 𝜃𝑗 ∀𝑗 = 2, … , 𝑀 − 1‬‬

‫‪09‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫סיווג גנרטיבי‬
‫נבחין בין שתי גישות לבעיית הסיווג‪:‬‬
‫‪ .0‬גישה גנרטיבית – המידע משמש ללמידת הפילוג המשותף )𝑦 ‪ .𝑝̂𝑋,𝑌 (𝑥,‬פילוג זה נקרא מודל גנרטיבי עבור הדוגמאות‪,‬‬
‫מהמילה 𝑒𝑡𝑎𝑟𝑒𝑛𝑒𝑔 ‪ .‬זהו הפילוג אשר יצר את הדוגמאות הנתונות לנו‪ .‬מהפילוג המשותף נחשב את הפילוג המותנה‬
‫)𝑥|𝑦( )𝑋|𝑌( ̂𝑝 ממנו ייגזר החזאי 𝑓 ‪.‬‬
‫‪ .1‬גישה דיסקרימינטיבית (מבחינה) – בגישה זו נלמד ישירות מודל עבור המסווג )𝑥(𝑓 = 𝑦‪ .‬אין ניסיון ללמוד את פילוג‬
‫הקלט ‪.x‬‬
‫פילוג הקלט של המודל הגנרטיבי נלמד עבור כל מחלקה בנפרד‪ .‬לימוד פילוג הקלט הוא המשימה הקשה פה‪ ,‬אשר מבדילה בין‬
‫שתי הגישות‪.‬‬
‫בפרק זה נדבר על סיווג גנרטיבי בלבד‪ ,‬בשאר הקורס נתמקד בגישה הדיסקרימינטיבית‪.‬‬

‫פונקציות הפסד נפוצות‬

‫הפסד אפס‪-‬אחד (‪)zero-one loss‬‬ ‫‪‬‬


‫}𝑦 ≠ ̂𝑦{𝕀 = )𝑦 ‪ℓ(𝑦̂,‬‬
‫ההפסד הנפוץ בבעיות סיווג‪.‬‬
‫פונקציית הסיכון שלו נקראת 𝑒𝑡𝑎𝑟 𝑛𝑜𝑖𝑡𝑎𝑐𝑖𝑓𝑖𝑠𝑠𝑎𝑙𝑐𝑠𝑠𝑖𝑚‪.‬‬
‫החזאי האופטימלי תחת הפסד זה הוא‪:‬‬
‫)𝑥|𝑦(𝑝 𝑥𝑎𝑚 𝑔𝑟𝑎 = )𝑥(‪ℎ‬‬
‫𝑦‬
‫הפסד מרחק ריבועי (‪) l2 loss‬‬ ‫‪‬‬

‫‪ℓ(𝑦̂, 𝑦) = (𝑦̂ − 𝑦)2‬‬

‫ההפסד הנפוץ בבעיות רגרסיה‪.‬‬

‫פונקציית הסיכון שלו נקראית ‪MSE – Mean Square Error‬‬

‫החזאי האופטימלי תחת הפסד זה הינו משערך התוחלת המותנית‪. ℎ(𝑥) = 𝔼[𝑌|𝑥]:‬‬

‫סיווג בייסיאני אופטימלי‬


‫אנו מניחים כי נתון הפילוג המשותף )𝐶 ‪ 𝑝𝑋,𝑌 (𝑥,‬ולכן אין מדובר בלמידה‪ .‬אנו מקבלים קלט מסוים ‪ ,x‬ומעוניינים להעריך את‬
‫המחלקה ‪ C‬אליה שייך קלט זה‪ .‬הפילוג המשותף נתון בד"כ ע"י מרכיביו‪ ,‬הפילוגים )𝐶( 𝑌𝑝 ‪ .𝑝𝑋|𝑌 (𝑥|𝐶),‬נזכיר כי זו‬
‫פונקציית הסבירות מתורת השערוך‪ .‬גם באמצעות נוסחת בייס ניתן לחשב את ההסתברות המותנית‪.‬‬
‫)𝐶( 𝑌𝑝 )𝑐| 𝑥(𝑝‬ ‫)𝐶( 𝑌𝑝 )𝑐| 𝑥(𝑝‬
‫= )𝑥|𝐶( 𝑥|𝑦𝑝‬ ‫=‬
‫)𝑥( 𝑋𝑝‬ ‫)𝐶( 𝑌𝑝)𝐶|𝑥( )𝑌|𝑋(𝑝 𝑦∈𝐶∑‬

‫‪21‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫הסתברות שגיאה מינימלית‬


‫עבור מסווג )𝑥(𝑓 נגדיר את הסתברות השגיאה המותנית (ההסתברות לבחור פלט שגוי‪ ,‬בהינתן הקלט)‪:‬‬

‫)𝐶 ‪𝑃𝑒 (𝑓|𝑥) ≜ 𝑝𝑟𝑜𝑏(𝑓(𝑋) ≠ 𝑌|𝑋 = 𝑥) = ∑ 𝐼{𝑓(𝑥) ≠ 𝐶} 𝑝𝑋,𝑌 (𝑥,‬‬


‫𝑌∈𝐶‬
‫כלומר סוכמים פה את מספר הפעמים שהמסווג טעה‪ .‬הסתברות השגיאה הממוצעת‪ ,‬כלומר הסתברות לבחור פלט שגוי‪,‬‬
‫בממוצע על פני כל הפלטים‪𝑃𝑒 (𝑓) ≜ 𝑝𝑟𝑜𝑏(𝑓(𝑋) ≠ 𝑌) = ∑𝐶∈𝑌 ∫𝑥 𝕀{𝑓(𝑥) ≠ 𝐶}𝑝𝑋,𝑌 (𝑥, 𝐶)𝑑𝑥 :‬‬
‫משפט מסווג בייס מיטבי – המסווג אשר מביא למינימום את הסתברות השגיאה המותנית לכל קלט 𝑥 וכן את הסתברות‬
‫השגיאה הממוצעת הינו משערך ההסתברות בדיעבד המירבית ‪:MAP‬‬
‫)𝐶( 𝑌𝑝 ⋅ )𝐶|𝑥( 𝑌|𝑋𝑝 ‪𝑓 ∗ (𝑥) = 𝑓𝑀𝐴𝑃 (𝑥) ≜ arg max 𝑝𝑌|𝑋 (𝑌 = 𝐶|𝑥) = arg max‬‬
‫𝑌∈𝐶‬ ‫𝑌∈𝐶‬
‫משערך זה נקרא גם משערך בייס‪ .‬נשים לב שפה משערך בייס הוא של המחלקה (החלטת הסיווג) בהתבסס על הפילוגים‬
‫האמיתיים‪ ,‬בעוד שפרק עלש ערוך פרמטרים‪ ,‬השתמשנו בנוסחת בייס כדי למצוא את הפרמטרים של מודל לא ידוע בהינתן‬
‫מספר סופי של דוגמאות מהפילוג‪ .‬למרות שבשני מקרים השתמשנו בחוק בייס‪ ,‬המטרה היא שונה‪.‬‬

‫)𝑥| 𝑘𝐶( )𝑋|𝑌(𝑝} 𝑘𝐶 = )𝑥(𝑓{𝕀 ∑ ‪𝑃𝑒 (𝑓|𝑥) ≜ 𝑝𝑟𝑜𝑏(𝑓(𝑥) ≠ 𝑌|𝑋 = 𝑥) = 1 − 𝑝𝑟𝑜𝑏(𝑓(𝑥) = 𝑌|𝑋 = 𝑥) = 1 −‬‬
‫𝑘‬

‫מכאן שמזעור )𝑥|𝑓( 𝑒𝑃 שקול לבחירת )𝑥(𝑓 שמביאה למקסימום את הסכום האחרון‪ .‬כזכור‪ 𝑝(𝑌|𝑋) (𝐶𝑘 |𝑥) ,‬הוא גודל נתון‬
‫קבוע וידוע‪ .‬בנוסף‪ ,‬עבור כל קלט הפונקציה )𝑥(𝑓 בוחרת מחלקה אחת 𝑘𝐶‪ .‬לכן‪ ,‬ברור כי נדרש לבחור אתה מחלקה 𝑘𝐶‬
‫שעבורה )𝑋| 𝑘𝐶( )𝑋|𝑌(𝑝 מקסימלי‪ .‬אבל זו בדיוק הגדרת )𝑥( 𝑃𝐴𝑀𝑓‪.‬‬

‫בנוסף‪ ,‬הסתברות השגיאה הממוצעת היא 𝑥𝑑)𝑥( 𝑋𝑝)𝑥|𝑓( 𝑒𝑃 𝑋∫ = )𝑓( 𝑒𝑃 וראינו כי 𝑃𝐴𝑀𝑓 מביא למינימום את הסתברות‬
‫השגיאה לכל קלט בנרפד‪ ,‬ומכאן נובע מיידית שהוא מביא למינימום את האינטגרל האחרון‪.‬‬

‫שימוש ביחס הסבירות – נשווה בין שתי מחלקות‪ ,‬ולבחור את העדיפה לפי ) 𝑗𝐶( 𝑌𝑝) 𝑗𝐶|𝑥( 𝑌|𝑋𝑃 ? ) 𝑘𝐶( 𝑌𝑝) 𝑘𝐶|𝑥( 𝑌|𝑋𝑃‪.‬‬
‫תנאי זה בעצם מפשט לנו את בחירת ה 𝑥𝑎𝑚 ‪ arg‬הידוע משיערוכים – נבחן את ההסתברות לקבל קבוצה או מצב 𝐶 מסויים‪,‬‬
‫ובעזרתו נבחר כל פעם את ההסתברות הגדולה ביותר‪.‬‬
‫כך לדוגמא נוכל לדעת מה הם התנאים לקבל סיווג כלשהו רצוי‪ ,‬בהינתן החלטה ע"פ סיווג בייסיאני‪.‬‬

‫מסווג בייס במקרה הגאוסי‬


‫אם פילוג הקלט בכל מחלקה הינו גאוסי‪ ,‬כלומר ) 𝑘𝛴 ‪ ,𝑃𝑋|𝑌 (𝑥|𝐶𝑘 )~𝑁(𝜇𝑘 ,‬אז כמו שראינו משערך בייס לאחר הוצאת‬
‫לוגריתם‪:‬‬
‫‪1‬‬ ‫) 𝑘𝐶(𝑝‬
‫})𝑥( 𝑘𝑔{‪𝑓 ∗ (𝑥) = arg max‬‬ ‫𝑘𝛼 ‪, 𝑔𝑘 (𝑥) ≜ − (𝑥 − 𝜇𝑘 )𝑇 𝛴𝑘−1 (𝑥 − 𝜇𝑘 ) +‬‬ ‫{ 𝑛𝑙 ≜ 𝑘𝛼 ‪,‬‬ ‫}‬
‫𝑌∈𝑘‬ ‫‪2‬‬ ‫| 𝑘‪√(2𝜋)𝑑 |Σ‬‬
‫כעת בהשוואה בין שתי מחלקות נבחר את העדיפה לפי )𝑥( 𝑗𝑔 ∶ )𝑥( 𝑘𝑔 ? ‪𝑔𝑘𝑗 (𝑥) ≜ 𝑔𝑘 (𝑥) − 𝑔𝑗 (𝑥) > 0‬‬

‫הפונקציה )𝑥( 𝑗𝑘𝑔 קרויה פונקציית האבחנה בין המחלקות‪ .‬במקרה‬


‫הגאוסי זו פונקציה ריבועית באיברי וקטור הקלט ‪ .x‬המשטח המוגדר ע"י‬
‫השוויון ‪ 𝑔𝑘𝑗 (𝑥) = 0‬קרוי משטח ההפרדה בין המחלקות‪.‬‬

‫במקרה החד מימדי (‪ x‬סקאלר או ‪ ,)d=1‬כאשר ) ‪ 𝑝𝑌 (𝐶1 ) = 𝑝𝑌 (𝐶2‬נקבל שמשטח‬


‫ההפרדה הוא נקודה או שתי נקודות‪ .‬במקרה הדו מימדי נקבל אליפסה‪ ,‬היפרבולה‪ ,‬או שתי‬
‫היפרבולות‪.‬‬
‫קווריאנסים זהים – פונקציית הפרדה לינארית‪ :‬במקרה המיוחד בו מטריצות הקווריאנס‬
‫זהות‪ ,‬האיברים הריבועיים מתבטלים וניתן לבטא את הבחינה האופטימאלית לפי‬
‫פונקציית הבחנה לינארית‪.‬‬
‫})𝑥( 𝑗̃𝑔{‪𝑓 ∗ (𝑥) = arg max‬‬
‫𝒴∈ 𝑗𝐶‬

‫‪20‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫‪1‬‬
‫}) 𝑘𝐶(𝑝{‪𝑔̃𝑘 (𝑥) ≜ − (𝑥 − 𝜇𝑘 )𝑇 Σ−1 (𝑥 − 𝜇𝑘 ) + ln‬‬
‫‪2‬‬
‫𝑑‬ ‫‪1‬‬
‫הורדנו את הקבוע }) ‪ ln {((2𝜋)2 |𝛴𝑘 |2‬שהיה קודם‪ ,‬הזהה עבור שתי המחלקות‪ ,‬ולכן לא משפיע על הביטוי‪ .‬כלל זה נקרא‬
‫𝑎𝑙𝑢𝑚𝑟𝑜𝐹 𝑠𝑖𝑠𝑦𝑙𝑎𝑛𝐴 𝑡𝑛𝑎𝑛𝑖𝑚𝑖𝑟𝑐𝑠𝑖𝐷 𝑟𝑎𝑒𝑛𝑖𝐿 ‪ .‬ניתן לראות כי משטח ההפרדה במקרה זה הינו ‪-‬‬
‫= )𝑥( 𝑗̃𝑔 ‪𝑔𝑘𝑗 (𝑥) = 𝑔̃𝑘 (𝑥) −‬‬

‫לפיכך משטח ההפרדה ‪ 𝑔𝑘𝑗 (𝑥) = 0‬הינו עתה משטח לינארי (על‪-‬מישור)‪.‬‬

‫הכללה למדד סיכון כללי‬


‫במקרים מסוימים לשגיאות מסוימות עשויה להיות משמעות שונה‪ ,‬ולכן מחיר שונה‪ .‬כמו כן‪ ,‬ייתכן כי מרחב ההחלטות 𝒴‬
‫כולל אפשרויות שונות פרט למחלקות‪ .‬למשל אופציה של אי‪-‬קבלת החלטה במקרה ספק‪.‬‬
‫במקרה זה נגדיר פונקציית הפסד )𝐶 ‪ ℓ: 𝑌 × 𝑌0 → ℝ, ℓ(𝑦,‬אשר מקיימת את התנאים הבאים‪:‬‬
‫‪ℓ(𝑦, 𝐶) ≥ 0‬‬ ‫‪‬‬
‫‪ ℓ(𝑦, 𝐶) = 0‬אם 𝐶 = 𝑦‪.‬‬ ‫‪‬‬
‫ניתן עתה להגדיר כמדד הביצועים את הסיכון המותנה (בדומה לאיך שהגדרנו הסתברות שגיאה מותנית‪ ,‬רק עם פונקציית‬
‫הפסד כללית במקום פונקציית אינדיקטור‪:‬‬
‫)𝑥 = 𝑋|)𝑌 ‪𝐿(𝑓|𝑥) = 𝐸(ℓ(𝑓(𝑋),‬‬
‫ואת הסיכון הממוצע 𝑘𝑠𝑖𝑅 𝑑𝑒𝑡𝑐𝑒𝑝𝑥𝐸 ‪:‬‬
‫))𝑌 ‪𝐿(𝑓) = 𝐸(ℓ(𝑓(𝑋),‬‬
‫נשים לב כי מדד השגיאה הבסיסי אליו התייחסנו עד כה מתקבל במקרה פרטי‪ ,‬כאשר‬

‫מסווג בייס נאיבי (‪)Naïve Bayes Classifier‬‬

‫הגישה הגנרטיבית‬
‫נגדיר גישה כללית הבאה לבניית מסווג גנרטיבי‪:‬‬
‫‪ .0‬בעזרת סדרת הדוגמאות המתויגות‪ ,‬נערך את פילוגי ההסתברות ) 𝑘𝐶( 𝑌 ̂𝑝 ‪.𝑝̂𝑥|𝐶𝑘 (𝑥|𝐶𝑘 ) , 𝑝̂𝑌 (𝐶1 ), … ,‬‬
‫‪ .1‬החזאי יוגדר כמסווג בייס המיטבי ביחס לפילוגים מקורבים אלה })𝐶( 𝑌̂𝑝)𝐶|𝑥( 𝑌|𝑋̂𝑝{𝑥𝑎𝑚𝑔𝑟𝑎 = )𝑥(̂𝑓‬
‫את ההסתברויות ניתן להעריך בקלות יחסית מתוך ידע מוקדם‪ ,‬או ע"י השכיחות היחסית בדרת הדוגמאות‬
‫𝑛‬
‫𝑘𝑛‬ ‫‪1‬‬
‫= ) 𝑘𝐶( ̂𝑝‬ ‫} 𝑘𝐶 = 𝑖𝑦{𝕀 ∑ =≜‬
‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬
‫את פילוגי הקלט ניתן עקרונית להעריך בשיטות פרמטריות לשערוך מודל‪ ,‬לדוגמא עבור קלט רציף נניח פילוג גאוסי ונעריך‬
‫את הפרמטרים בעזרת משערך ‪.MLE‬‬
‫עבור קלט בדיד נחשב לכל ערך אפשרי של ‪ x‬את השכיחות היחסית בקבוצה המתאימה‪.‬‬
‫דוגמא‪ :‬עבור }𝑏 ‪ 𝒳 = 𝐵𝑑 , 𝐵 = {1,2, … ,‬נחשב לכל ערך אפשרי של 𝑥 את השכיחות היחסית בקבוצה המתאימה (זהו כזכור‬
‫משערך ‪ MLE‬להסתברות בדידה)‪:‬‬

‫‪22‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫𝑛‬
‫‪1‬‬
‫= ) 𝑘𝐶|𝛼( )𝑌|𝑋( ̂𝑝‬ ‫𝒳 ∈ 𝛼∀ ‪∑ 𝕀{𝑥𝑖 = 𝛼, 𝑦𝑖 = 𝐶𝑘 } ,‬‬
‫𝑘𝑛‬
‫‪𝑖=1‬‬
‫ע"מ להעריך זאת‪ ,‬נאלץ לעשות מספר חישובים מעריכי לפי מס' הדוגמאות‪ ,‬לכן גישה זו לא ישימה עבורנו‪ .‬לכן נשתמש‬
‫במסווג הבייס הנאיבי‪.‬‬
‫מסווג בייס נאיבי‪ :‬גישה מועילה לעקיפת הקושי בהערכת מודל רב‪-‬מימדי זה היא הנחת אי‪-‬תלות בין רכיבי הווקטור 𝑥‪.‬‬
‫הנחה מפשטת זו לא תתקיים בפועל במרבית המקרים‪ ,‬והיא מהווה לפיכך קירוב בלבד לצורך בניית המודל‪.‬‬
‫𝑇‬
‫נניח אי תלות בין רכיבי הווקטור ))𝑑(𝑥 ‪ ,𝑥 = (𝑥(1), … ,‬נתבסס על הקרוב הבא לפילוג ‪:x‬‬
‫𝑑‬

‫)𝐶|)𝑗(𝑥( 𝑗𝑝 ∏ ≈ )𝐶|𝑥( 𝑌|𝑋𝑝‬


‫‪𝑗=1‬‬
‫כל אחד מהפילוגים במכפלה הוא פילוג חד מימדי‪ ,‬שניתן להערכה בקלות מתוך המידע‪ .‬למשל עבור פילוג רציף נניח פילוג‬
‫גאוסי סקלרי ונרעך את הפרמטרים בעזרת משערך ‪ MLE‬מתאים‪.‬‬
‫עבור רכיב בדיד }𝑏 ‪ 𝑥(𝑗) ∈ {1,2, … ,‬נניח פילוג קטגורי ונעריך את ההסתברויות על ידי השכיחות היחסית‪:‬‬
‫𝑛‬
‫‪1‬‬
‫= ) 𝑘𝐶|𝛼 = )𝑗(𝑥( ̂𝑝 ≡ )𝛼( )𝑘|𝑗( ̂𝑝‬ ‫}𝑏 ‪∑ 𝕀{𝑥𝑖 (𝑗) = 𝛼, 𝑦𝑖 = 𝐶𝑘 } , ∀𝛼 ∈ {1,2, … ,‬‬
‫𝑘𝑛‬
‫‪𝑖=1‬‬
‫המסווג הנאיבי יבחר כרגיל את המחלקה שעבורה הערכת ההסתברות בדיעבד היא מקסימלית‪:‬‬

‫}) 𝑘𝐶( 𝑌 ̂𝑝) 𝑘𝐶|𝑥( )𝑌|𝑋( ̂𝑝{ ‪𝑓̂(𝑥) = arg max‬‬


‫𝒴∈ 𝑘𝐶‬
‫𝑑‬

‫) 𝑘𝐶|)𝑗(𝑥( 𝑗̂𝑝 ∏ = ) 𝑘𝐶|𝑥( )𝑌|𝑋( ̂𝑝 𝑛𝑒‪𝑤ℎ‬‬


‫‪𝑗=1‬‬
‫למרות שמסווג בייס נאיבי מבוסס על הנחה בלתי מבוססת (ובלתי נכונה ככלל) לגבי הפילוג‪ ,‬הוא נותן תוצאות סיווג סבירות‬
‫במספר יישומים ‪ ,‬כגון סיווג מסמכים‪.‬‬
‫יתרונות מסווג בייס נאיבי‪:‬‬
‫חישוב מהיר גם למספר רב של דגימות‪.‬‬ ‫‪‬‬
‫חישוב מפורש‪ ,‬האלגוריתם אינו כרוך באופטימיזציית פרמטרים (כמו רשתות ניורונים למשל)‪.‬‬ ‫‪‬‬
‫ישים בקלות גם לבעיות סיווג מרובות מחלקות‪.‬‬ ‫‪‬‬
‫תוצאות סבירות במקרים רבים – אך לא תמיד‪.‬‬ ‫‪‬‬

‫‪Linear Discriminant Analysis –LDA‬‬


‫נניח 𝑌|𝑋𝑝 מפולגים נורמלית וגם נניח לכל הפילוגים אותה מטריצת ‪.covariance‬‬
‫נניח כי ‪ Y‬מקבל את סט הערכים }𝑀 ‪ {1, … ,‬ונשתמש בסימונים הבאים‪:‬‬
‫תת המדגים המקיים 𝑗 = 𝑖𝑦 הוא }𝑗 = 𝑖𝑦 ‪ – 𝐺𝑗 = {𝑖:‬כלומר קבוצת הדגימות מתוך ה ‪ Data‬אשר תוייגו כקבוצה ‪.j‬‬
‫| 𝑗𝐺|‬
‫= 𝑗𝑝‪.‬‬ ‫𝑛‬
‫נחשב את הפילוג הא‪-‬פריורי של כל קבוצה ‪, 𝑗 ∈ {1, … 𝑀} : j‬‬
‫‪1‬‬
‫= 𝑗𝜇‪.‬‬ ‫תוחלת הפילוגים הנורמלים היא‪∑𝑥𝑗∈𝐺𝑗 𝑥𝑗 :‬‬
‫| 𝑗𝐺|‬

‫‪1‬‬ ‫𝑇‬
‫𝑁∑ 𝑁 = ‪ Σ‬כך שהתוחלת של הקבוצה אליה 𝑖𝑥 שייך‪.‬‬
‫מטריצת קווארינס היא‪𝑖=1(𝑥𝑖 − 𝜇𝑦𝑖 )(𝑥𝑖 − 𝜇𝑦𝑖 ) :‬‬

‫‪−𝑥1 −‬‬ ‫‪−𝜇𝑦1 −‬‬


‫‪1‬‬
‫בכתיב מטריצי נקבל‪ Σ = 𝑁 𝑋̃ 𝑇 𝑋̃ :‬כאשר ) ⋮ ( ‪.𝑋̃ = ( ⋮ ) −‬‬
‫𝑛𝑥‪−‬‬ ‫𝑛𝑦𝜇‪−‬‬
‫כדי לסווג לקבוצה מסוימת‪ ,‬נדרוש כי ההסתברות לסיווג לאותה קבוצה תהיה הכי גדולה מההסתברות לסיווג לקבוצה‬
‫‪𝑃𝑌|𝑋 (𝑦 = 𝑗|𝑥) > 𝑃𝑌|𝑋 (𝑦 = 𝑖|𝑥),‬‬ ‫אחרת ‪ ,‬עבור כל הקבוצות בנפרד ‪∀𝑖 ≠ 𝑗 -‬‬
‫שערוך ‪ MLE‬של פרמטרי המודלים נותן הפרדה לינארית‪.‬‬

‫‪23‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫בעבור המקרה של סיווג בינארי (סיווג לשתי מחלקות) ו ‪ zero one loss‬מתקבל‪:‬‬
‫‪1 , 𝛼𝑇𝑥 + 𝑏 > 0‬‬
‫= )𝑥(‪ℎ‬‬
‫𝑒𝑠𝑖𝑤𝑟𝑒‪0 , 𝑜𝑡ℎ‬‬
‫‪1‬‬ ‫)‪𝑝 (1‬‬
‫) ‪.𝛼 = 𝛴 −1 (𝜇1 − 𝜇0‬‬ ‫)))‪, 𝑏 = 2 (𝜇0𝑇 𝛴 −1 𝜇0 − 𝜇1𝑇 𝛴 −1 𝜇1 ) + 𝑙𝑜𝑔 ((𝑝𝑌 (0‬‬ ‫כאשר‬
‫𝑌‬

‫נשים לב כי תנאי ההחלטה שבין שני התחומים הינו לינארי‪ ,‬ומכאן מקבל האלגוריתם את שמו‪.‬‬

‫‪Quadric Discriminant Analysis – QDA‬‬


‫דומה מאוד ל ‪ LDA‬אך ללא ההנחה על מטריצות הקוואריאנס‪.‬‬
‫כעת עבור המקרה של סיווג בינארי ו ‪ zero one loss‬נקבל משטח הפרדה ריבועי‪:‬‬
‫‪1‬‬ ‫‪0, 𝑥 𝑇 𝐶𝑥 + 𝑎𝑇 𝑥 + 𝑏 > 0‬‬
‫כאשר ‪ 𝐶 = 2 (𝛴0−1 − 𝛴1−1 ), 𝛼 = 𝛴1−1 𝜇1 − 𝛴0−1 𝜇0‬ו ‪ b‬בהתאם‪.‬‬ ‫= )𝑥(‪ℎ‬‬
‫‪1‬‬ ‫𝑒𝑠𝑖𝑤𝑟𝑒‪, 𝑜𝑡ℎ‬‬

‫‪24‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫בעיית הרגרסיה‬
‫בבעית הלמידה המודרכת‪ ,‬נתון אוסף דוגמאות מתויגות‪ .‬אנו מעוניינים ללמוד פונקציית חיזוי אשר מחשבת פלט מתאים‬
‫עבור כל קלט אפשרי‪ .‬בבעיית רגרסיה הפלט הינו מספר ממשי‪.‬‬
‫למידה פרמטרית‬
‫החזאי הנלמד ‪ f‬הוא מהצורה ‪ . 𝐹 = {𝑓𝜃 : 𝜃 ∈ 𝛩 ⊂ ℝ𝑀 }:‬כלומר פונקציית החיזוי נקבעת על ידי וקטור של פרמטרים‬
‫ממשיים בעלי מימד נתון‪ .‬הלמידה מתמקדת בכוונון וקטור הפרמטרים 𝜽‪.‬‬
‫המודל הלינארי מוגדר כך‪:‬‬
‫𝑏‬
‫𝑑‪𝑓𝜃 (𝑥) = 𝑏 + 𝑤 𝑇 𝑥 ≡ 𝑏 + 𝑤1 𝑥(1) + ⋯ + 𝑤𝑑 𝑥(𝑑) , 𝑥 ∈ ℝ‬‬ ‫‪𝜃 = (𝑏, 𝑤1 , … , 𝑤𝑑 )𝑇 ≜ ( ) ∈ ℝ𝑑+1‬‬
‫𝑤‬
‫התאמת הפרמטרים לסדרת הלימוד מתבצעת לרוב על ידי מיזעור של פונקציית מחיר מתאימה‪:‬‬
‫𝑛‬
‫‪2‬‬
‫)) 𝑖𝑥( 𝜃𝑓 ‪𝐸(𝜃) = ∑(𝑦𝑖 −‬‬
‫‪𝑖=1‬‬
‫‪1‬‬
‫≡ ) 𝜃𝑓( 𝑛̂𝐿‪.‬‬ ‫𝑛‬
‫הריבועי‪ ,‬עד כדי נרמול במספר הדגימות )𝜃(𝐸‬ ‫פונקציית מחיר זו היא הסיכון האמפירי‪ ,‬עם פונקציית ההפסד‬
‫מזעור פונקציית מחיר מעין זו יכול להתבצע בשתי גישות‪:‬‬
‫‪ .0‬פתרון אנליטי סגור עבור וקטור הפרמטרים האופטימלי‪ :‬קיים כמעט רק עבור המודל הלינארי‪.‬‬
‫‪ .1‬אלגוריתמים איטרטיביים לאופטימיזציה – כגון אלגוריתם מורד הגרדיאנט‪.‬‬

‫מאפיינים ופונקציות בסיס‬


‫וקטור הקלט 𝑥 המופיע במודל הלינארי אינו הקלט הבסיסי של הבעיה‪ ,‬אלא מאפיינים כלשהם שמופקים מהקלט הבסיסי‪.‬‬
‫𝑀‬

‫)𝑥( 𝑚𝜙 𝑚𝜃 ∑ = )𝑥( 𝑀𝜙 𝑀𝜃 ‪𝑓𝜃 (𝑥) = 𝜃1 𝜙1 (𝑥) + ⋯ +‬‬


‫‪𝑚=1‬‬

‫נערכים הממשיים )‪ ϕm (x‬הינם המאפיינים (תכונות) של הקלט‪ .‬הפונקציה ‪ ϕm‬נקראת פונקציית הבסיס‪.‬‬
‫אנו מניחים פה כי המאפיינים נבחרו מראש על ידי המתכנן כחלק מהגדרת המודל‪.‬‬
‫‪𝜃1‬‬ ‫)𝑥( ‪𝜙1‬‬
‫‪.𝑓𝜃 (𝑥) = 𝜃 𝑇 𝜙(𝑥),‬‬ ‫‪𝜃 = ( ⋮ ),‬‬ ‫מודל זה עדיין לינארי בפרמטרים ‪ .θ‬נרשום‪𝜙(𝑥) = ( ⋮ ) :‬‬
‫𝑀𝜃‬ ‫)𝑥( 𝑀𝜙‬
‫וקטור הפרמטרים ‪ θ‬נקרא גם פה וקטור המשקלים ולעיתים מסומן ע"י ‪ .w‬הוקטור )‪ ϕ(x‬הינו וקטור המאפיינים‪.‬‬
‫חישוב )‪ fθ (x‬מתבצע בשני שלבים‪:‬‬
‫‪ ,x‬יתקבל‬ ‫המודל הלינארי הבסיסי‪ ,‬לינארי גם ברכיבי הקלט‬
‫= )𝑥( 𝑜𝜙 ‪, 𝜃 = (𝑏, 𝑤 𝑇 )𝑇 ≡ (𝜃0 , 𝜃1 , … , 𝜃𝑑 )𝑇 ,‬‬ ‫כמקרה פרטי ע"י הבחירה 𝑇) 𝑇 𝑥 ‪ ,𝜙(𝑥) = (1,‬ובהתאמה‬
‫)𝑑(𝑥 = )𝑥( 𝑑𝜙 ‪1, 𝜙1 (𝑥) = 𝑥(1), … ,‬‬

‫פונקציות בסיס נפוצות‬


‫שינוי סקלה של משתנה בודד ))‪ 𝜙2 (𝑥) = √𝑥(8) ,𝜙1 (𝑥) = 𝑙𝑜𝑔(𝑥(2‬וכדומה‪.‬‬ ‫‪‬‬
‫מודל פולינומיאלי‪ :‬רכיבים מהצורה )‪𝜙1 (𝑥) = 𝑥(17)𝑥 4 (7)𝑥 6 (1), 𝜙2 (𝑥) = 𝑥(4)𝑥 2 (12)𝑥 5 (2‬‬ ‫‪‬‬
‫פונקציות הרמונית ( טור פוריה)‪ 𝜙𝑚 (𝑥) = cos(𝜔𝑚 𝑥(𝑗) + 𝛼𝑚 ) :‬כאשר האינדקס 𝑗 הוא פונקציה של 𝑚‪.‬‬ ‫‪‬‬

‫פונקציות בסיס מקומיות‪ ,‬כלומר תמך מוגבל במרחב הכניסה לדוגמת מודל לינארי למקוטעין (אינדיקטורים בתמך מסויים)‪,‬‬
‫פולינומים מקומיים‪ ,‬אנליזת מרחב‪-‬תדר לפונקציות זמניות‪ ,‬פונקציות בסיס רדיאליות וכו'‪.‬‬
‫שימוש בפונקציות לוקליות מאפשר הפרדה של ערכי הפרמטרים הנלמדים באזורים שונים של מרחב הכניסה‪.‬‬

‫‪25‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫הגדרת ובחירת המאפיינים‬


‫נרצה לבחור סט מאפיינים אינפורמטיביים (כוללים את מירב המידע הדרוש לבעיית החיזוי‪ ,‬בצורה מפורשת ונוחה ללמידה)‪,‬‬
‫חסרי יתירות (‪ .)non redundant‬ישנן טכניקות רבות ל"הינדוס המאפיינים" לדוגמא‪:‬‬
‫הגדרה ידנית של מאפיינים (למשל‪ ,‬אם ידועה מחזוריות)‪.‬‬ ‫‪‬‬
‫בחירת סט מצומצם של מאפיינים מתוך סט גדול‪ ,‬ע"י תהליך מתאים של ניפוי (למשל‪ PCA ,‬ושאר הורדות‬ ‫‪‬‬
‫מימד)‪ .‬מטרת ההורדה היא הקטנת עומס החישוב או מניעת התאמת יתר‪.‬‬
‫למידת מאפיינים – ע"י תהליך לימוד מקדים או חלק מאלגוריתם הלימוד הספציפי‪.‬‬ ‫‪‬‬

‫רגרסיה לינארית‬

‫עבור מודל לינארי בפרמטרים )𝑥(𝜙 𝑇 𝜃 = )𝑥( 𝜃𝑓 ‪ ,‬כאשר וקטור המאפיינים (פונקציות הבסיס) נקבע מראש‪ ,‬נרצה למצוא‬
‫‪𝑦1‬‬ ‫𝑇) ‪𝜙(𝑥1‬‬
‫𝑀 𝑥 𝑛‪𝑌 = [ ⋮ ] , 𝛷 = [ ⋮ ] ∈ ℝ‬‬ ‫ערך מתאים לפרמטרים ‪ θ‬בעזרת סדרת הלימוד‪ .‬נגדיר‪:‬‬
‫𝑛𝑦‬ ‫𝑇) 𝑛𝑥(𝜙‬
‫המטריצה ‪ Φ‬נקראת מטריצת המאפיינים ו‪ Y‬הוא וקטור התגיות‪.‬‬
‫נניח כי קיים פתרון אופטימלי 𝜀 ‪ 𝑦 = 𝑓0 (𝑥) +‬שאותו אנו רוצים לשערך‪.‬‬
‫נרצה ללמוד את )𝑥(𝜙 𝑇 𝜃 = )𝜃 ‪.𝑓̂(𝑥,‬‬

‫עבור המודל הלינארי‪ ,‬מתקבלת בעיית הריבועים הפחותים הלינארית ‪ Linear Least Squars‬הבאה‪:‬‬
‫𝑛‬
‫‪2‬‬
‫‪𝑚𝑖𝑛 𝐸(𝜃) = min𝑀 ∑(𝑦𝑖 − 𝜃 𝑇 𝜙(𝑥𝑖 )) = min𝑀‖𝑌 − Φθ‖2‬‬
‫𝑀‪𝜃∈ℝ‬‬ ‫‪𝜃∈ℝ‬‬ ‫‪𝜃∈ℝ‬‬
‫‪𝑖=1‬‬
‫ע"י פתיחת הסוגריים וקיבוץ איברים נקבל כי‪:‬‬
‫𝑇‬ ‫𝑇‬
‫𝐶 ‪𝐸(𝜃) = 𝜃 𝑄𝜃 − 2𝜃 𝐵 +‬‬

‫‪𝑄 = 𝛷𝑇 Φ = ∑𝑛𝑖=1 𝜙(𝑥𝑖 )𝜙(𝑥𝑖 )𝑇 ,‬‬ ‫‪𝐵 = 𝛷𝑇 𝑌 = ∑𝑛𝑖=1 𝜙(𝑥𝑖 )𝑦𝑖 ,‬‬ ‫כאשר ‪𝐶 = 𝑌 𝑇 𝑌 = ∑𝑛𝑖=1 𝑦𝑖2‬‬

‫קיבלנו כי פונקציית השגיאה הינה תבנית ריבועית בוקטור הפרמטרים ‪ .θ‬לפני שנגזור אותה‪ ,‬נסתכל על תכונות של ‪:Q‬‬
‫‪ Q .0‬הינה מטריצה ריבועית‪ ,‬בגודל 𝑀 × 𝑀 וסימטרית 𝑄 = 𝑇 𝑄‪.‬‬
‫‪ Q .1‬אי‪-‬שלילית מוגדרת כלומר ‪∀𝑣 ∈ ℝ𝑀 : 𝑣 𝑇 𝑄𝑣 = ∑𝑛𝑖=1|𝑣 𝑇 𝜙(𝑥𝑖 )|2 ≥ 0‬‬
‫‪ Q .3‬חיובית מוגדרת ולכן הפיכה‪ ,‬אם ורק אם 𝑀 = )𝛷(𝑘𝑛𝑎𝑟‪ .‬תנאי הכרחי לכך הוא 𝑀 ≥ 𝑛‪.‬‬
‫כעת כדי להגיע למינימום של השגיאה‪ ,‬נגזור ונגיע לתוצאה‪:‬‬
‫)𝜃(𝐸𝜕‬
‫𝜕‬ ‫‪𝜕𝜃1‬‬
‫= )𝜃(𝐸‬ ‫⋮‬ ‫𝐵‪= (𝑄 + 𝑄 𝑇 )𝜃 − 2𝐵 = 2𝑄𝜃 − 2‬‬
‫𝜃𝜕‬ ‫)𝜃(𝐸𝜕‬
‫) 𝑀𝜃𝜕 (‬
‫כאשר המטריצה ‪ Q‬הפיכה‪ ,‬נקבל כי הערך האופטימלי של וקטור הפרמטרים הינו‪:‬‬
‫𝑛‬ ‫𝑛 ‪−1‬‬
‫∗‬ ‫‪−1‬‬ ‫𝑇‪(Φ‬‬ ‫𝑇‪−1 (Φ‬‬ ‫𝑇)‬
‫𝑄= 𝜃‬ ‫=𝐵‬ ‫)‪Φ‬‬ ‫) 𝑘𝑥(𝜙) 𝑘𝑥(𝜙 ∑( = )𝑌‬ ‫𝑘𝑦) 𝑘𝑥(𝜙 ∑‬
‫‪𝑘=1‬‬ ‫‪𝑘=1‬‬
‫כאשר המטריצה אינה הפיכה‪ ,‬קיימים אינסוף פתרונות‪.‬‬
‫כדי שזו אכן תהיה נקודת מינימום גלובאלי‪ ,‬על הפונקציה )𝜃(𝐸 להיות פונקציה קמורה ‪ convex‬בוקטור המשתנים 𝜃‪.‬‬
‫ניתן לבדוק זאת ע"י חישוב מטריצת ההסיאן ‪ .𝐻𝐸 (𝜃) = 2𝑄 ≥ 0‬מתכונות פונקציה קמורה‪ ,‬כל נק' מינימום מקומי היא‬
‫נקודת מינימום גלובלית‪.‬‬

‫‪26‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫לכן‪:‬‬
‫קיבלנו נוסחה סגורה לחישוב המשקלים האופטימליים ביחס לשגיאה הריבועית‪ .‬קיום נוסחא סגורה כזו נובע‬ ‫‪‬‬
‫מהשילוב של מודל לינארי בפרמטרים‪ ,‬עם השימוש במדד השגיאה הריבועית‪.‬‬
‫‪ Q‬הינה הפיכה אם ורק אם ווקטורי המאפיינים פורשים את כל המרחב ה ‪ M‬מימדי‪ .‬לכך נדרש מספר מספיק‬ ‫‪‬‬
‫של דוגמאות מגוונות (אינן תלויות לינארית)‪.‬‬
‫כאשר המטריצה אינה הפיכה‪ ,‬קיימים אינסוף פתרונות למשוואה‪ ,‬וכולם אופטימליים‪.‬‬ ‫‪‬‬

‫היפוך מטריצה ‪ 2‬על ‪2‬‬

‫𝑎‬ ‫‪𝑏 −1‬‬ ‫‪1‬‬ ‫𝑑‬ ‫𝑏‪−‬‬


‫(‬ ‫= )‬ ‫(‬ ‫)‬
‫𝑐‬ ‫𝑑‬ ‫𝑐‪𝑎𝑑 − 𝑏𝑐 −‬‬ ‫𝑎‬

‫‪1‬‬
‫𝑎‬ ‫𝑛𝑎‬
‫(=𝐴‬ ‫‪),‬‬ ‫‪𝐴−1‬‬ ‫𝑎( =‬ ‫‪),‬‬ ‫( = 𝑛𝐴‬ ‫)‬
‫𝑎‬ ‫‪1‬‬ ‫𝑛𝑎‬
‫𝑎‬

‫דוגמא לבניית מטריצת מאפיינים‬

‫נניח כי קיים פתרון אופטימלי ) 𝑖𝑥( 𝑑𝜙 𝑑𝑤 ‪.𝑦̂𝑖 = 𝑤0 𝜙0 (𝑥𝑖 ) + 𝑤1 𝜙1 (𝑥𝑖 ) + ⋯ +‬‬

‫את המאפיינים נבחר ע"פ מודל הרגרסיה הרצוי‪ ,‬לדוגמא עבור מודל לינארי נבחר 𝑖𝑥 = ) 𝑖𝑥(𝜙 ‪ ,𝜙𝑜 = 1,‬עבור מודל‬
‫פולינומיאלי מסדר ‪ 3‬נבחר ‪ 𝜙0 = 1, 𝜙1 = 𝑥, 𝜙2 = 𝑥 2 , 𝜙3 = 𝑥 3‬ובמקרה זה הפתרון יתקבל עבור‪:‬‬

‫‪𝑦̂𝑖 = 𝑤0 + 𝑤1 𝑥𝑖 + 𝑤2 𝑥𝑖2 + 𝑤3 𝑥𝑖3‬‬

‫‪1‬‬ ‫‪𝑥1‬‬ ‫‪𝑥12‬‬ ‫‪𝑥13‬‬


‫⋮ ( = ‪ , Φ‬נציב בפתרון הכללי הסגור ונקבל חיזוי סיווג לכל דוגמא‪.‬‬ ‫⋮‬ ‫⋮‬ ‫כעת נחשב את מטריצת המאפיינים ‪⋮ ) :‬‬
‫‪1‬‬ ‫𝑛𝑥‬ ‫‪𝑥𝑛2‬‬ ‫‪𝑥𝑛3‬‬

‫‪(𝑥−𝜇𝑚 )2‬‬
‫‪−‬‬
‫𝑒 = )𝑥( 𝑚𝜙 כאשר הממוצעים ימוקמו בנקודות של סדרת‬ ‫𝑚𝜎‬ ‫עבור מודל עם פונקציות בסיס רדיאליות‪,‬‬ ‫‪‬‬
‫הלימוד‪ ,‬נקבע ‪ 0‬באלכסון של מט' המאפיינים‪.‬‬

‫רגולריזציה‬
‫כאשר מספר הפרמטרים בווקטור ‪ θ‬גדול יחסית למספר הדוגמאות (או גיוונן)‪ ,‬המטריצה ‪ Q‬הינה ‪( ill-conditioned‬יחס גדול‬
‫בין הערך העצמי הגדול והקטן)‪ .‬המקרה כזה חלק מאיברי וקטור הפרמטרים עלולים לקבל ערכים גדולים‪ ,‬והפונקציה ‪fθ‬‬
‫תהיה מפותלת וקופצנית מעבר לדרוש‪.‬‬
‫כדי לפתור את הבעיה נבצע רגולריזציה (הסדרה‪ ,‬החלקה) של הבעיה‪ ,‬על ידי הוספת איבר מתאים בבעיית המינימיזציה‪.‬‬
‫‪2‬‬
‫הצורה הכללית של הקריטריון המתקבל היא‪𝐸𝜆 (𝜃) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) + 𝜆𝑔(𝜃):‬‬
‫)𝜃(𝑔 הינה פונקצייה מסוימת של הפרמטרים (פונקציית הרגולריזציה)‪ ,‬ו‪ λ‬פרמטר סקלרי השולט על המשקל היחסי של איבר‬
‫הרגולריזציה לעומת איבר השגיאה‪.‬‬

‫רגולריזציה ע"י נורמה ריבועית ‪Tikhonov Regulatization‬‬


‫רגולריזציה ריבועית בסיסית מתקבלת עבור הבחירה‪:‬‬
‫‪2‬‬
‫= ‪𝑔(𝜃) = ‖𝜃‖2‬‬ ‫‪𝜃12‬‬ ‫𝑀𝜃 ‪+ ⋯ +‬‬‫‪2‬‬

‫איבר זה מטיל קנס על גודל המקדמים‪ ,‬ולפיכך יגרום להקטנתם בפתרון האופטימלי‪.‬‬
‫מקרה כללי יותר מתקבל עבור הבחירה‪:‬‬
‫𝜃𝑅 𝑇 𝜃 = )𝜃(𝑔‬
‫כאשר ‪ R‬מט' סימטרית אי שלילית מוגדרת‪ .‬בחירת המטריצה ‪ R‬מאפשרת גמישות נוספת בהגדרת איבר הרגולריזציה‪.‬‬

‫‪27‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫‪2‬‬
‫𝐼 = 𝑅‪ :‬במקרה זה נקבל ||𝜃|| = )𝜃(𝑔 כלומר המקרה הריבועי הבסיסי‪.‬‬ ‫‪‬‬
‫𝑀∑ = )𝜃(𝑔‪ ,‬כלומר סכום ריבועים משוקלל‪.‬‬ ‫‪2‬‬
‫} 𝑀𝑟 ‪ 𝑅 = 𝑑𝑖𝑎𝑔{𝑟1 , … ,‬במקרה זה נקבל ) 𝑚𝜃( 𝑚𝑟 ‪𝑚=1‬‬ ‫‪‬‬
‫במקרה המיוחד של רגרסיה לינראית‪ ,‬כלומר )𝑑(𝑥 𝑑𝜃 ‪ ,𝑓𝜃 (𝑥) = 𝜃0 + 𝜃1 𝑥(1) + ⋯ +‬מקובל לא להטיל קנס‬ ‫‪‬‬
‫או מגבלה על ערכו של פרמטר ההטיה ‪ ,𝑏 = 𝜃0‬כך שנקבע ‪ 𝑔(𝜃) = 𝜃12 + ⋯ + 𝜃𝑑2‬ללא איבר ה‪ .1-‬מקרה זה‬
‫מתאים לבחירת }‪.𝑅 = 𝑑𝑖𝑎𝑔{0,1, … ,1‬‬

‫אופטימיזציה עם רגולריזציה ריבועית‪:‬‬


‫עבור בעיית המינימיזציה של השגיאה הריבועית עבור מודל לינארי‪ ,‬עם איבר הרגולריזציה הריבועי ‪:‬‬
‫𝑛‬
‫‪2‬‬
‫𝜃𝑅 𝑇 𝜃𝜆 ‪𝐸𝜆 (𝜃) = ∑(𝑦𝑖 − 𝜃 𝑇 𝜙(𝑥𝑖 )) +‬‬
‫‪𝑖=1‬‬
‫נקבל ע"י גזירה והשוואת הגרדיאנט לאפס‪:‬‬
‫𝑌 𝑇 𝛷 ‪𝛻𝜃 𝐸𝜆 (𝜃) = 2(𝑄𝜃 − 𝐵 + 𝜆𝑅𝜃) = 0 ⟹ 𝜃𝜆∗ = (𝑄 + 𝜆𝑅)−1 𝐵 = (𝛷𝑇 𝛷 + 𝜆𝑅)−1‬‬
‫לפרמטר המשקל ‪ λ‬חשיבות מרובה בקביעת יכולת ההכללה של המודל‪ ,‬וגודלו קובע את ה 𝑓𝑓𝑜𝑒𝑑𝑎𝑟𝑇 בין פשטות הפונקציה‬
‫(מדקמים קטנים‪" :‬ווריאנס" קטן)‪ ,‬לבין התאמת המודל המתקבל לדוגמאות ("הטיה" – ‪ .)bias‬תכונה זו בולטת במיוחד‬
‫כאשר הנתונים מכילים ”‪ , “outliers‬כלומר דוגמאות לא מייצגות שרק הורסות את סט האימון (כתוצאה מרעש‪ ,‬בעיות‬
‫במדידה וכו')‪ .‬במקרה זה‪ ,‬הגדלת משקל הרגולריזציה מאפשרת למודל לתת משקל נמוך יותר לדוגמאות הלא מייצגות‪,‬‬
‫מכיוון שמחירן גבוה מדי‪ ,‬כפי שניתן לראות בגרף‪ .‬מחירן של הנקודות החריגות גבוה‪ ,‬כי כדי שהפונקציה תתאים יותר טוב‬
‫לנקודות החריגות היא צריכה להיות עם פיתול כולל גבוה‪ ,‬וזה גורר מחיר רגולריזציה גבוה‪.‬‬

‫בחירה מיטבית של הפרמטר 𝜆 קשורה כמובןב אופי הבעיה‪ ,‬במאפיינים שנבחרו‪ ,‬ובסדרת הדוגמאות‪ .‬קיימות לשם כך גישות‬
‫תיאורטיות שונות‪ .‬שיטות מעשיות יותר מבוססות על שימוש בסדרת האימות 𝑡𝑒𝑠 𝑛𝑜𝑖𝑡𝑎𝑑𝑖𝑙𝑎𝑉 במהלך תהליך הלמידה כדי‬
‫לזהות את הערך המיטבי‪.‬‬

‫רגולריזציה על ידי נורמת ה 𝟏𝓵‬


‫כאשר אנחנו עם מספר רב של מאפיינים‪ ,‬ניתן להפעיל את אלגוריתם מינימום ריבועים עם כל המאפיינים ולמחוק‬
‫מאפיינים שמקדמיהם בפתרון האופטימלי הם קטנים‪ .‬הבעיה היא שבד"כ יש מספר רב של מקדמים קטנים‪ ,‬אך לא‬
‫בהכרח זניחים‪.‬‬
‫פונקציית רגולריזציה אפקטיבית יותר לצורך זה היא נורמת ‪ ℓ1‬של וקטור הפרמטרים‪:‬‬
‫𝑀‬

‫| 𝑚𝜃| ∑ ≜ ‪𝑔(𝜃) = ‖𝜃‖1‬‬


‫‪𝑚=1‬‬
‫בעיית האופטימיזציה המתקבלת למודל לינארי היא מינימיזציה של פונקציית המחיר הבאה‪:‬‬
‫𝑛‬
‫‪2‬‬
‫‪𝐸𝜆 (𝜃) = ∑(𝑦𝑖 − 𝜃 𝑇 𝜙(𝑥𝑖 )) + 𝜆‖𝜃‖1‬‬
‫‪𝑖=1‬‬
‫האיבר הראשון יהיה עדיין ריבועי‪ .‬במקרה זה מקדמים רבים יהיו אפס ממש‪ ,‬כיוון שמקדמים קטנים משפיעים על‬
‫האיבר השני יותר מאשר על הראשון‪ .‬במקרה זה לא ניתן לקבל ביטוי אנליטי עבור וקטור הפרמטרים האופטימלי‪ ,‬אולם‬
‫קיימים אלגוריתמים יעילים לפתרון נומרי של הבעיה‪.‬‬

‫‪28‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫דוגמא לבעיית רגרסיה עם רגולריזציה‬

‫‪1‬‬ ‫‪1‬‬
‫עבור פונק' מחיר ריבועי ואיבר רגולריזציה ‪.𝐿(𝑤) = 2 𝑤 𝑇 (𝑋𝑋 𝑇 + 𝜆𝐼)𝑤 − 𝑤 𝑇 𝑋𝑦 + 2 𝑦 𝑇 𝑦 :ℓ2‬‬

‫אחרי גזירה נקבל 𝑦𝑋 ‪̂ = (𝑋𝑋 𝑇 + 𝜆𝐼)−1‬‬


‫𝑤‪ .‬כיוון שפונק' המחיר קמורה‪ ,‬נקבל נק' מינימום‪.‬‬

‫אם קיים וקטור מאפיינים 𝑚‪ Φ: ℝ𝑑 → ℝ‬נקבל מאותו חישוב 𝑚‪̂ = (ΦΦ𝑇 + 𝜆𝐼)−1 Φ𝑦 ∈ ℝ‬‬
‫𝑤‪.‬‬

‫עבור משערך )𝑥(‪ , 𝑦̂ = 𝑓(𝑤, 𝑥) = 𝑤 𝑇 Φ‬הערך של ‪ m‬יכול להיות מאוד גדול ונקבל סיבוכיות חישוב גדולה מאוד‪ .‬לכן‬
‫נשתמש בפונקציית גרעין )𝑧(‪ 𝐾(𝑥, 𝑧) = Φ(𝑥)𝑇 Φ‬ונקבל‪:‬‬

‫𝑛‬ ‫… ) ‪𝐾(𝑥1 , 𝑥1‬‬ ‫) 𝑛𝑥 ‪𝐾(𝑥1 ,‬‬


‫𝑇‪𝑇 (Φ‬‬ ‫𝑇‪−‬‬ ‫𝑇‬ ‫⋮‬ ‫⋮‬
‫𝑤‬
‫‪̂ = ∑ 𝛼𝑖 𝐾(𝑥𝑖 , 𝑥) ,‬‬ ‫𝑦=𝛼‬ ‫)𝐼𝜆 ‪Φ +‬‬ ‫( = ‪,Φ Φ‬‬ ‫)‬
‫‪𝑖=1‬‬ ‫… ) ‪𝐾(𝑥𝑛 , 𝑥1‬‬ ‫) 𝑛𝑥 ‪𝐾(𝑥𝑛 ,‬‬

‫אם כל המשקולות חיוביות‪ ,‬מגדירים 𝑤 = ‪̃ 2‬‬


‫𝑤‪ ,‬ונבצע אופטימזיציה עבור הפרמטר החדש‪ .‬על מנת לחזור לצורה המקורית‪,‬‬
‫נציב חזרה בסוף הריצה‪ .‬ניתן לחזור על הטריק במקרה של רגולריזציה‪.‬‬

‫אופטימיזציה ללא אילוצים‬


‫נרצה למצוא את הערך ‪ x‬עבורו הפונקציה )𝑥(𝑓מינימאלית‪ .‬כלומר יש למצוא ∗ 𝑥 המקיים 𝛺 ∈ 𝑥∀)𝑥(𝑓 ≤ ) ∗ 𝑥(𝑓‪.‬‬
‫תנאים לאופטימאליות לבעיית האופטימיזציה‬
‫)𝑤(𝑓 𝑛𝑛𝑖𝑚 𝑔𝑟𝑎 ∈ ∗ 𝑤 קיים פתרון אם ‪ f‬גזירה אז ‪ , 𝛻𝑓(𝑤 ∗ ) = 0‬בנוסף אם גזירה פעמיים אז נדרוש גם ≻ ) ∗ 𝑤(𝐻‬
‫‪𝑤∈ℝ‬‬
‫‪( 0‬הסיאן מוגדרת חיובית‪ ,‬כלומר כל ערכיה העצמיים חיוביים)‪.‬‬
‫𝑓 ‪𝜕2‬‬ ‫𝑓 ‪𝜕2‬‬
‫‪𝜕𝑤 2‬‬
‫…‬ ‫𝑛𝑤𝜕 ‪𝜕𝑤1‬‬
‫≡ )𝑤(𝑓 ‪𝛻(𝑓(𝑤)𝑇 ⋅ 𝑔(𝑤)) = (𝛻𝑓 𝑇 )𝑔 + (𝛻𝑔𝑇 )𝑓 , 𝐻 ≜ 𝛻 2‬‬ ‫⋮‬ ‫⋮‬ ‫כזכור‪,‬‬
‫𝑓 ‪𝜕2‬‬ ‫𝑓 ‪𝜕2‬‬
‫‪[𝜕𝑤𝑛 𝜕𝑤1‬‬ ‫…‬ ‫𝑛𝑤𝜕‬‫‪2‬‬ ‫]‬

‫אלגוריתם הגרדיאנט ‪Gradient Descent‬‬

‫האלגוריתם האיטרטיבי הפשוט ביותר לבעיית האופטימיזציה של בעיות למידה הינו אלגוריתם הגרדיאנט‪.‬‬

‫כזכור‪ ,‬הגרדיאנט ‪ ∇𝜃 ℎ‬מציין את הכיוון (במרחב הפרמטרים) בו הפונקציה עולה בשיפוע מרבי‪ .‬עבור פונקציה גזירה‪:‬‬

‫… ‪𝜃(𝑡 + 1) = 𝜃(𝑡) − 𝜂𝛻𝜃 ℎ(𝜃(𝑡)), 𝑡 = 0,1,‬‬


‫)‪ 𝜃(0‬הוא ערך התחלתי נבחר ו ‪ 𝜂 > 0‬נקרא גודל הצעד‪ ,‬או קצב הלימוד‪.‬‬
‫גודל הצעד עשוי להיות קבוע או משתנה‪ .‬חישוב האלגוריתם ממשיך עד לקיום תנאי עצירה מתאים – למשל שינוי קטן‬
‫בפרמטרים במשך מספר צעדים‪ .‬אלגוריתם הגרדיאנט מבטיח התכנסות למינימום מקומי‪.‬‬
‫אם הפונקציה ‪( convex‬קמורה)‪ ,‬זהו גם המינימום הגלובלי‪.‬‬

‫חישוב הגרדיאנט למודל הלינארי‬


‫נתבונן שוב בבעיית הריבועים הפחותים עם רגולריזציה ריבועית (נחלק ב‪ 1‬לשם נוחיות הגזירה)‪.‬‬
‫לבעיה זו פתרון סגור‪ ,‬אולם הוא כרוך בהפיכת המטריצה 𝑅𝜆 ‪ . 𝛷𝑇 𝛷 +‬זו מטריצה ריבועית במימד זהה למספר הפרמטרים‪.‬‬
‫כאשר המספר גדול (אלפים ויותר)‪ ,‬ההיפוך אינו מעשי ויש להיעזר בשיטות איטרטיביות לאופטימיזציה‪.‬‬
‫𝑛‬

‫𝜃𝑅𝜆 ‪𝛻𝐸𝜆 = − ∑ 𝜙(𝑥𝑖 )(𝑦𝑖 − 𝜙(𝑥𝑖 )𝑇 𝜃) +‬‬


‫‪𝑖=1‬‬

‫‪29‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫אלגוריתם הגרדיאנט הינו בהתאם לכך‪:‬‬
‫𝑛‬

‫)𝜃 𝑇) 𝑖𝑥(𝜙 ‪𝜃(𝑡 + 1) = (𝐼 − 𝜂𝜆𝑅)𝜃(𝑡) + 𝜂 ∑ 𝜙(𝑥𝑖 )(𝑦𝑖 −‬‬


‫‪𝑖=1‬‬

‫ניתן לראות כי איבר הגולריזציה שואף לכווץ במעט את )𝑡(𝜃 בכל איטרציה‪.‬‬
‫נרשום את האלגוריתם שקיבלנו באופן סקלרי‪:‬‬
‫} 𝑀𝑟 ‪.𝑅 = 𝑑𝑖𝑎𝑔{𝑟1 , … ,‬‬ ‫נניח כי ‪ R‬הינה מטריצה אלכסונית‬
‫)𝑡(𝜃 𝑇) 𝑖𝑥(𝜙 ‪𝑒𝑖 (𝑡) = 𝑦𝑖 −‬‬ ‫נסמן שגיאת חיזוי של דוגמא ‪ i‬עבור פרמטר )𝑡(𝜃‬
‫ניתן לראות כי רכיב ‪ m‬של 𝜃 מתעדכן באופן הבא‪:‬‬
‫𝑛‬

‫)𝑡( 𝑖𝑒) 𝑖𝑥( 𝑚𝜙 ∑ 𝜂 ‪𝜃𝑚 (𝑡 + 1) = (𝐼 − 𝜂𝜆𝑟𝑚 )𝜃𝑚 (𝑡) +‬‬


‫‪𝑖=1‬‬
‫כלומר העדכון הוא לפי סכום מכפלת השגיאה עדכון שגיאות החיזוי בערך המאפיין המתאים לפרמטר‪.‬‬
‫נוסחת העדכון לעיל עושה שימוש בו זמני בכל סדרת הדוגמאות‪ .‬עדכון מסוג זה נקרא עדכוון אצווה (‪.)batch‬‬

‫אלגוריתם עדכון סדרתי‬


‫במקום עדכון אצווה ( ‪ )batch‬המתואר למעלה‪ ,‬ניתן לעדכן את וקטור הפרמטרים ע"י בחירה סידרתית של דוגמאות‪ .‬כלומר‬
‫באיטרציה ‪ t‬של האלגוריתם אנו בוחרים דוגמא בודדת ומחשבים בעזרתה‪ .‬את פעולת הרגולריזציה ניתן לבצע בכל מספר‬
‫צעדים‪.‬‬
‫אלגוריתם הגרדיאנט הסטוכסטי ‪SGD: stochastic gradient descent‬‬
‫בגרסא זו נעשה שימוש חוזר בסדרת הדוגמאות‪ ,‬כאשר בכל סבב עוברים על כל הדוגמאות בסדר אקראי‪ .‬אלגוריתם זה יכול‬
‫להאיץ משמעותית חישוב של כל איטרציה באלגוריתם‪ ,‬למשל כאשר יש הרבה דוגמאות והגרדיאנטים שלכולם לא נכנסים‬
‫לזיכרון המחשב‪ .‬בנוסך‪ ,‬אמפירים נראה שאלגוריתם זה משפר את איכות הפתרון בבעיות אופטימיזציה לא קמורות‬
‫מסוימות‪ ,‬ונעשה בו שימוש נרחב ביישומי למידה כגון אימון רשתות ניורונים‪.‬‬
‫בחירת גודל הצעד‬
‫אבחנה כללית לגבי גודל הצעד של האלגוריתם היא כי הוא צריך להיות גדול בתחילת הלימוד‪ ,‬ולקטון ככל שמתקרבים‬
‫לפתרון כדי לשפר את הדיוק‪ .‬אלגוריתם נפוץ – ‪ADAM – adaptive Moment Estimation‬‬

‫מודל לינארי עם פונקציית אקטיבציה‬

‫לעתים נדרש להוסיף למודל הלינארי הבסיסי‪ 𝑓𝜃 (𝑥) = 𝜃 𝑇 𝜙(𝑥) ,‬פונקציה לא‪-‬לינארית ביציאה‪ ,‬דהיינו‪:‬‬

‫))𝑥(𝜙 𝑇 𝜃(𝑔 = )𝑥( 𝜃𝑓‬

‫הפונקציה 𝑔 היא באופן טיפוסי פונקציה עולה‪ ,‬גזירה‪ ,‬ובעלת צורת סיגמואיד‪ .‬מודל זה משמש גם כאבן הבניין היסודית‬
‫ברשת נוירונים מלאכותית‪ .‬השגיאה הריבועית הכוללת תהיה עתה‪:‬‬

‫𝑛‬ ‫𝑛‬
‫‪1‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫‪2‬‬
‫) )) 𝑖𝑥(𝜙 𝑇 𝜃(𝑔 ‪𝐸(𝜃) ≜ ∑(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) = ∑(𝑦𝑖 −‬‬
‫‪2‬‬ ‫‪2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬

‫במקרה זה לא ניתן לחשב אנליטית את הפרמטר האופטימלי הממזער את השגיאה‪ ,‬אך ניתן עדיין להפעיל את אלגוריתם‬
‫הגרדיאנט לקבלת נקודת מינימום מקומי‪ .‬הגרדיאנט המתקבל פה‪:‬‬

‫𝑛‬

‫))𝜃 𝑇) 𝑘𝑥(𝜙(𝑔 ‪∇𝜃 𝐸(𝜃) = − ∑ 𝑔′ (𝜃 𝑇 𝜙(𝑥𝑘 )) ⋅ 𝜙(𝑥𝑘 )(𝑦𝑘 −‬‬


‫‪𝑘=1‬‬

‫‪31‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫פרוש סטטיסטי לבעיית הרגרסיה‬

‫בסעיפים הקודמים נעזרנו לצורך התאמת הפרמטרים בפונקציית מחיר מסוימת – השגיאה הריבועית הכוללת‪ ,‬וכן הוספנו‬
‫איבר רגולריזציה ריבועי‪ .‬פונקציות אלו לא נבעו משיקולים יסודיים‪ ,‬אלא בעיקר משיקולי נוחות חישובית‪ .‬בסעיף זה נראה‬
‫כי ניתן להצדיק בחירות אלו בעזרת מודל סטטיסטי מתאים‪.‬‬

‫מודל הרגרסיה הבסיסי ופונקציית השגיאה הריבועית‬

‫המודל הבסיסי לבעיית הרגרסיה מניח כי הקשר בין הקלט לפלט בסדרת הדוגמאות הנתונה הינו 𝑖𝜀 ‪𝑦𝑖 = 𝑓0 (𝑥𝑖 ) +‬‬

‫‪ 𝑓0‬היא פונקציה לא ידועה‪ ,‬הקרויה פונקציית הרגרסיה‪ .‬בגרסא הפרמטרית‪ ,‬נניח כי שייכת למשפחה פרמטרית‬ ‫‪‬‬
‫נתונה }‪ ℱ = {𝑓𝜃 (𝑥), 𝜃 ∈ Θ‬כלומר עבור 𝜃 כלשהיא‪.𝑓𝜃 = 𝑓0 ,‬‬
‫𝑖𝜀 הינה סדרת רעש אשר מייצגת את ההפרש בין הערך האמיתי לערך הנמדד‪ .‬אנו מניחים כי זו סדרה של‬ ‫‪‬‬
‫משתנים אקראיים בעלי תוחלת ‪ ,1‬ובלתי תלויים בקלט‪.‬‬

‫מתאור זה נובע כי ) 𝑖𝑥( 𝜃𝑓 = )𝜃 ‪ . 𝐸(𝑦𝑖 |𝑥𝑖 ,‬נראה עתה כי בהנחת רעש גאוסי‪ ,‬משערך הסבירות המירבית של 𝐸𝐿𝑀̂𝜃 מתקבל‬
‫ע"י מינימיזציה של שגיאה הריבועית הכוללת‪.‬‬

‫נזכיר כי משערך הסבירות המירבית מתקבל על ידי מקסימיזציה של פונקציית הסבירות‪ .‬את פונקציית הסבירות נהוג להגדיר‬
‫בבעיות רגרסיה כך‪:‬‬

‫)𝜃 ‪𝐿(𝜃) = 𝑝(𝑦1 , … , 𝑦𝑛 |𝑥1 , … , 𝑥𝑛 ,‬‬

‫כלומר‪ :‬זו סבירות התגיות בהינתן ערכי קלט נתונים ופרמטר לא ידוע 𝜃‪.‬‬

‫טענה ‪ :6‬נניח כי ) ‪ ,𝜀𝑖 ~𝑁(0, 𝜎 2‬משתנים גאוסיים בת"ס בעלי ממוצע ‪ 1‬ושונות נתונה ‪ .𝜎 2‬אזי משערך הסבירות המירבית של‬
‫וקטור הפרמטרים 𝜃 נתון על ידי‪:‬‬

‫𝑛‬
‫‪2‬‬
‫)) 𝑖𝑥( 𝜃𝑓 ‪𝜃̂𝑀𝐿𝐸 = arg min ∑(𝑦𝑖 −‬‬
‫‪𝜃∈Θ‬‬
‫‪𝑖=1‬‬

‫הוכחה‪ :‬בהתאים להנחות אי התלות המותנית של הדוגמאות‪ ,‬פונקציית הסבירות הינה‪:‬‬

‫𝑛‬ ‫𝑛‬

‫)𝜃 ‪𝐿(𝜃) ≜ 𝑝(𝑦1 , … , 𝑦𝑛 |𝑥1 , … , 𝑥𝑛 , 𝜃) = ∏ 𝑝(𝑦𝑖 |𝑥𝑖 , 𝜃) = ∏ 𝑝(𝑦𝑖 = 𝑓𝜃 (𝑥𝑖 ) + 𝜀𝑖 |𝑥𝑖 ,‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫𝑛‬ ‫𝑛‬ ‫‪2‬‬ ‫𝑛‬ ‫‪2‬‬
‫‪1‬‬ ‫)) 𝑥( 𝑓‪(𝑦 −‬‬
‫𝑖 ‪− 𝑖 𝜃2‬‬ ‫))𝑖𝑥( 𝜃‪1 𝑛 −∑𝑖=1(𝑦𝑖−𝑓2‬‬
‫∏ = )𝜃 ‪= ∏ 𝑝(𝜀𝑖 = 𝑓𝜃 (𝑥𝑖 ) − 𝑦𝑖 |𝑥𝑖 ,‬‬ ‫𝑒‬ ‫𝜎‪2‬‬ ‫=‬ ‫(‬ ‫𝑒 )‬ ‫𝜎‪2‬‬
‫‪2𝜋𝜎 2‬‬ ‫‪2𝜋𝜎 2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬

‫הטענה מתקבלת כיוון שמיקסום )𝜃(𝐿 שקול למיזעור הסכום בחזקה‪.‬‬

‫מודל רגרסיה בייסאני ופונקציית הרגולריזציה‬

‫נתבונן עתה בבעיית השערוך של 𝜃 במסגרת בייסיאנית‪ :‬בפרט‪ ,‬נניח כי 𝑀‪ 𝜃 ∈ ℝ‬הוא וקטור אקראי גאוסי עם ממוצע אפס‬
‫ומטריצת קווריאנס ידועה ‪ .θ~N(0, Σ) :Σ > 0‬זהו הפילוג פריור של 𝜃‪ .‬יתר המודל ללא שינוי‪ ,‬בפרט הרעש הגאוסי‪.‬‬

‫טענה ‪ :0‬משערך ההסתברות המירבית בדיעבד ‪ MAP‬עבור הפרמטר ‪ θ‬נתון על ידי‪:‬‬

‫𝑛‬
‫‪1‬‬ ‫‪2‬‬ ‫‪1‬‬
‫‪𝜃̂𝑀𝐴𝑃 = arg min‬‬ ‫‪2‬‬
‫𝜃 ‪∑(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) + 𝜃 𝑇 Σ−1‬‬
‫𝜎‪𝜃∈Θ 2‬‬ ‫‪2‬‬
‫‪𝑖=1‬‬

‫‪30‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫הוכחה‪ :‬נראה ראשית כי )𝜃( 𝑜𝑝)𝜃(𝐿 𝑀‪𝜃̂𝑀𝐴𝑃 ≜ arg max𝑀 𝑝(𝜃|𝑑) = arg max‬‬
‫‪𝜃∈ℝ‬‬ ‫‪𝜃∈ℝ‬‬

‫נסמן לשם קיצור ) 𝑛𝑥 ‪ .𝑦1:𝑛 = (𝑦1 , . . , 𝑦𝑛 ), 𝑥1:𝑛 = (𝑥1 , . . ,‬לפי משפט בייס‪:‬‬

‫)𝜃| 𝑛‪𝑝(𝑦1:𝑛 |𝑥1:𝑛 , 𝜃) ⋅ 𝑝0 (𝜃) ⋅ 𝑝(𝑥1:‬‬ ‫) 𝑛‪𝑝(𝑥1:‬‬


‫= ) 𝑛‪𝑝(𝜃|𝐷) = 𝑝(𝜃|𝑥1:𝑛 , 𝑦1:‬‬ ‫)𝜃( ‪= 𝐿(𝜃)𝑝0‬‬
‫)𝐷(𝑝‬ ‫)𝐷(𝑝‬

‫כאשר השוויון האחרון נובע מהגדרת פונקציית הסבירות למעלה‪ ,‬ומאי התלות של 𝑛‪ 𝑥1:‬ב𝜃‪ .‬הטענה לעיל מתקבלת כיוון‬
‫שהשבר האחרון אינו תלוי ב 𝜃‪ .‬עתה‪ ,‬הצבת הביטוי שקיבלנו קודם עבור פונקציית הסבירות והצבת הפילוג הגאוסי‬

‫‪1 𝑇 −1‬‬
‫𝜃‪𝑝0 (𝜃) = 𝐶0 𝑒 −2‬‬ ‫𝜃 ‪Σ‬‬

‫נותנים את הנדרש באופן דומה לקודם‪.‬‬

‫האיבר הריבועי הנוסף בטענה ‪ 1‬זהה בצורתו לאיבר הרגולריזציה הריבועי 𝜃𝑅 𝑇 𝜃 = )𝜃(𝑔 מהסעיפים הקודמים‪ .‬איבר זה‬
‫מתקבל פה מתוך הפילוג הראשוני של הפרמטר 𝜃‪ .‬בפרט‪ ,‬איבר זה בעל משקל יחסי גדול יותר ככל שהקווריאנס ‪ Σ‬קטן יותר‪,‬‬
‫כלומר ככל שההנחה לגבי הפילוג הראשוני של 𝜃 הדוקה יותר‪.‬‬

‫‪32‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫סיווג לינארי‬
‫במסגרת הגישה הגנרטיבית לסיווג‪ ,‬פיתחנו חוקי החלטה בייסיאניים אופטימליים עבור פילוגים גאוסיים וקיבלנו מודלים‬
‫לינאריים לסיווג‪.‬‬
‫כעת נתמקד בגישה הדיסקרימינטיבית‪ ,‬בה אנחנו קובעים מראש משפחה פרמטרית מסוימת של מסווגים (משפחה לינארית‬
‫במקרה הנוכחי) ומכווננים את הפרמטרים בהתאם לסדרת הלימוד‪.‬‬
‫עבור בעיית הסיווג הבינארית‪ ,‬מסווג לינארי יהיה מהצורה ‪∑𝑑𝑗=1 𝑤(𝑗)𝑥(𝑗) + 𝑏 ≡ 𝑤 𝑇 𝑥 + 𝑏 > 0 ? 𝐶1 ∶ 𝐶2:‬‬
‫כלומר‪ ,‬הסיווג הוא לפי הסימן של הפונקציה הלינארית )𝑏 ‪.𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬‬
‫נתאר אלגוריתמים שונים לכוונון הפרמטרים } 𝑘𝑏 ‪ {𝑤𝑘 ,‬לתיאור סיווג ‪ K‬מחלקות בעזרת סדרת הלימוד‪.‬‬
‫גיאומטריה של הפרדה לינארית‬
‫חוק ההחלטה הבינארי מחלק את מרחב הקלט 𝑑‪ 𝑥 ∈ ℝ‬לשני חצאי מרחב‪ ,‬לפי הסימן‪ ,‬אשר מופרדים ע"י משטח ההפרדה‬
‫הלינארי‪ .‬זהו ‪ hyperplane‬במרחב הקלט‪.‬‬
‫כיוון העל‪-‬מישור 𝑏 ‪ 𝑤 𝑇 𝑥 +‬נקבע על ידי הוקטור 𝑤 והוא מאונך אליו‪.‬‬
‫כלומר ‪ 𝑤 𝑇 (𝑥𝑎 − 𝑥𝑏 ) = 0‬לכל שתי נקודות 𝑏𝑥 ‪ 𝑥𝑎 ,‬בעל מישור זה‪.‬‬

‫סדרת דוגמאות מתויגות ניתנת להפרדה לינארית אם קיים על‪-‬מישור במרחב ‪ x‬אשר מפריד באופן מלא בין הדוגמאות‬
‫בהתאם לסימנן‪ ,‬כלומר קיימים פרמטרים )‪ (w,b‬המקיימים 𝑛 ‪.𝑦𝑖 = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 + 𝑏), ∀𝑖 = 1, … ,‬‬
‫עבור סדרה שאינה ניתנת להפרדה לינארית (לדוגמא‪ ,)XOR ,‬ניתן לפתור באופן חלקי על ידי שימוש בוקטור מאפיינים‬
‫מתאים במקום הקלט הגולמי )‪.yi = sign(w T ϕ(xi ) + b‬‬

‫מסווג לינארי כללי‬


‫רכיב בעל ‪ d‬כניסות ויציאה בודדת‪𝑦 = 𝜑(∑𝑑𝑘=1 𝑤𝑘 𝑥𝑘 + 𝑏) = 𝜑(𝑤 𝑇 𝑥) + 𝑏 :‬‬
‫אופי המסווג נקבע לפי פונקציית האקטיבציה‪.‬‬
‫כדי לשמור על הסימטריה בין המשקולות ואיבר ההיסט‪ ,‬נהוג להגדיר כניסה נוספת ‪ 𝑥(0) = 1‬כך ש‪-‬‬
‫)𝑘(𝑥 𝑘𝑤 ‪.∑𝑑𝑘=1 𝑤𝑘 𝑥(𝑘) + 𝑏 = ∑𝑑𝑘=0‬‬

‫פונקציות אקטיבציה שכיחות‬


‫פרספטרון לינארי ))‪φ(v) = v, sign(φ(v‬‬ ‫‪‬‬
‫‪1‬‬ ‫‪1‬‬
‫= )‪φ(v‬‬ ‫‪1+e−v‬‬
‫)‪, φ(v‬‬
‫פונקצית אקטיבציה לוגיסטית ‪≥ 2‬‬ ‫‪‬‬
‫‪c2v −1‬‬
‫פונקציית אקטיבציה טנגנס היפרבולי ))‪φ(v) = tanh(v) = c2v +1 , sign(φ(v‬‬ ‫‪‬‬

‫‪33‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫אלגוריתם הפרספטרון‬
‫לצורך פשטות התאור‪ ,‬נבצע את המעבר הבא‪:‬‬
‫𝑇‬ ‫𝑇‬
‫))𝑑(𝑥 ‪𝑥 = (𝑥(1), … , 𝑥(𝑑)) → 𝑥 = (1, 𝑥(1), . . ,‬‬
‫𝑇‬ ‫𝑇‬
‫))𝑑(𝑤 ‪𝑤 = (𝑤(1), … , 𝑤(𝑑)) → 𝑤 = (𝑏, 𝑤(1), . . ,‬‬
‫כך שמתקבל )𝑥 𝑇 𝜃(𝑛𝑔𝑖𝑠 = )𝑥(̂𝑦‬
‫אנו מניחים כי סדרת הלימוד שלנו ניתנת להפרדה לינארית‪ .‬מטרתנו למצוא וקטור פרמטרים שמקיים הפרדה זו‪.‬‬

‫אלגוריתם לימוד הפרספטרון‬


‫אתחול )‪ 𝜃(0‬כלשהוא‪.‬‬ ‫‪‬‬
‫בכל צעד ‪ t‬של האלגוריתם‪:‬‬ ‫‪‬‬
‫‪ o‬נבחר דוגמא כלשהי‪ ,‬ונחשב ) 𝑡𝑥 𝑇𝑡𝜃(𝑛𝑔𝑖𝑠 = 𝑡̂𝑦‬
‫‪1‬‬
‫‪ o‬עדכון המשקלים 𝑡𝑥) 𝑡̂𝑦 ‪𝜃𝑡+1 = 𝜃𝑡 + (𝑦𝑡 −‬‬
‫‪2‬‬

‫כאשר 𝑡𝑦 = 𝑡̂𝑦 הסיווג של הדוגמא בזמן ‪ t‬נכון ובמקרה זה לא מתבצע עדכון משקלים‪.‬‬
‫כאשר ‪ ,𝑦𝑡 = 1, 𝑦̂𝑡 = −1‬ערך המסווג קטן מדי‪ ,‬וכדי להגדילו יש להגדיל את 𝑡𝑥 𝑇𝑡𝜃‪ .‬האלגוריתם מוסיף לו את הווקטור‬
‫𝑇‬
‫‪ .𝜃𝑡+1‬כאשר הערכים הפוכים‪ ,‬נחסיר נורמה זו‪.‬‬ ‫ומתקבל ‪𝑥𝑡 = (𝜃𝑡 + 𝑥𝑡 )𝑇 = 𝜃𝑡𝑇 𝑥𝑡 + ‖𝑥𝑡 ‖2‬‬

‫משפט התכנסות הפרספטרון‬

‫נניח כי אוסף הדוגמאות ‪ {𝑥𝑖 , 𝑦𝑖 }𝑛𝑖=1‬ניתן להפרדה לינארית‪ .‬נניח גם כי כל דוגמה באוסף נבחרת מספר בלתי חסום של‬
‫פעמים‪ .‬אזי אלגוריתם לימוד הפרפסטרון מתכנס בתוך מספר סופי של צעדים לוקטור פרמטרים ∗ 𝜃 שמסווג נכונה את כל‬
‫הדוגמאות‪.‬‬

‫רגרסיה לוגיסטית‬
‫מסגרת נפוצה ללימוד מסווג פרמטרי‪.‬‬
‫נלמד מודל פרמטרי להסתברויות הסיווג ]‪ . 𝑝(𝐶𝑘 |𝑥) ≈ 𝑔𝑘 (𝑥; 𝜃) ∈ [0,1‬הפונקציה 𝑔 נלקחת מתוך מודל פרמטרי מתאים‬
‫לתיאור הסתברויות‪.‬‬
‫מסווג שבמוצאו הסתברויות לחלוקה למחלקות נקרא "מסווג רך"‪ ,‬והמסווג עם ההסתברות המקסימלית נקרא "מסווג‬
‫קשיח"‪.‬‬
‫)𝜃 ;𝑥( 𝑘𝑔 𝑥𝑎𝑚 𝑔𝑟𝑎 = )𝑥( ̂𝐶‬
‫𝐾‪𝑘=1,…,‬‬
‫המודל הלוגיסטי מוגדר כך באופן כללי‪:‬‬
‫) 𝑘𝜃;𝑥( 𝑘𝑓 𝑒‬
‫= )𝜃 ;𝑥( 𝑘𝑔‬ ‫𝐾 ‪, 𝑘 = 1, … ,‬‬
‫𝐾∑‬ ‫) 𝑗𝜃;𝑥( 𝑗𝑓‬
‫𝑒 ‪𝑗=1‬‬

‫הפונקציה ) 𝑘𝜃 ;𝑥( 𝑘𝑓 שייכת למשפחה פרמטרית כלשהיא בעלת וקטור פרמטרים‪ ,‬ומקבל ערכים ממשיים‪ .‬עבור ערכים שונים‬
‫של 𝑘𝑓 מתקיים‪:‬‬
‫𝐾‬

‫]‪∑ 𝑔𝑘 = 1 , 𝑔𝑘 ∈ [0,1‬‬
‫‪𝑘=1‬‬

‫המעבר מערכי 𝑓 לערכי 𝑔 נקרא התמרה לוגיסטית‪.‬‬


‫איפוס מחלקה 𝑲‪ :‬ניתן לראות כי ערכי 𝑔 תלויים רק בהפרשים בין ערכי 𝑓‪ .‬ע"מ למנוע כפילות‪ ,‬מקובל לקבע‬
‫‪ .𝑓𝐾 (𝑥; 𝜃𝐾 ) ≡ 0‬לכן הפרמטרים הנלמדים הם ‪ .𝜃1 , … 𝜃𝐾−1‬כעת ההתמרה הלוגיסטית היא חח"ע‪.‬‬
‫) ‪𝑒 𝑓1 (𝑥;𝜃1‬‬ ‫‪1‬‬
‫‪𝑔1 (𝑥; 𝜃1 ) = 𝑒 𝑓1(𝑥;𝜃1) +1 = 1+𝑒 −𝑓1 (𝑥;𝜃1 ) ,‬‬ ‫= ) ‪𝑔2 (𝑥; 𝜃2‬‬ ‫המקרה הבינארי‪ :‬עבור המקרה הבינארי עם ‪ 𝑓2 ≡ 0‬נקבל‬
‫‪1‬‬
‫) ‪1+𝑒 𝑓1(𝑥;𝜃1‬‬

‫‪34‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫ניתן לראות כי ) ‪ .𝑔2 (𝑥; 𝜃2 ) = 1 − 𝑔1 (𝑥; 𝜃1‬במקרה זה נדרש ללמוד רק פונקציה יחידה‪ 𝑓 ,‬או 𝑔‪.‬‬
‫המודל הלוגיסטי הלינארי‪ :‬זהו המקרה המיוחד שבו ) 𝑘𝜃 ;𝑥( 𝑘𝑓 נבחרת במשפחה הלינארית בפרמטרים‪:‬‬
‫)𝑥(𝜙 𝑇𝑘𝜃 = ) 𝑘𝜃 ;𝑥( 𝑘𝑓‬
‫לפיכך‪,‬‬
‫𝑇‬
‫)𝑥(𝜙 𝑘𝜃 𝑒‬
‫= )𝜃 ;𝑥( 𝑘𝑔‬ ‫𝑇‬ ‫𝐾 ‪, 𝑘 = 1, … ,‬‬
‫)𝑥(𝜙 𝑗𝜃‬
‫𝐾∑‬
‫𝑒 ‪𝑗=1‬‬

‫נציין כי הקביעה הרגילה ‪ 𝑓𝐾 ≡ 0‬שקולה פה לבחירה ‪.𝜃𝐾 ≡ 0‬‬


‫המחלקה הנבחרת (מוצא החזאי) נקבעת כרגיל על ידי )𝜃 ;𝑥( 𝑘𝑔 ‪ .𝐶̂ (𝑥) = arg max‬במקרה הלינארי מתקבל באופן שקול‬
‫𝐾‪𝑘=1,…,‬‬

‫)𝑥(𝜙 𝑇𝑘𝜃 ‪𝐶̂ (𝑥) = arg max‬‬


‫𝐾‪𝑘=1,…,‬‬
‫כלומר‪ :‬משטחי ההפרדה הם לינאריים (במרחק המאפיינים)‪.‬‬

‫כוונון הפרמטרים‬
‫נזכיר כי )𝑥|𝑘 = 𝑌( 𝑋|𝑌𝑝 ≈ )𝜃 ;𝑥( 𝑘𝑔‪ .‬נרשום את פונקציית הסבירות המותנית בקלט‪:‬‬
‫𝑛‬

‫)𝜃 ; 𝑖𝑥| 𝑖𝑦( 𝑋|𝑌𝑝 ∏ = )𝜃 ; 𝑛𝑥 ‪𝐿(𝜃) = 𝑝𝑟𝑜𝑏(𝑦1 , … , 𝑦𝑛 |𝑥1 , . . ,‬‬


‫‪𝑖=1‬‬

‫בהצבת ‪ g‬בלוג‪-‬הסבירות ‪:‬‬


‫𝑛‬

‫))𝜃 ; 𝑖𝑥( 𝑖𝑦𝑔( 𝑛𝑙 ∑ = )𝜃(‪ℓ‬‬


‫‪𝑖=1‬‬

‫משערך הסבירות המירבית מוגדר כרגיל ע"י משערך ‪ ,MLE‬חישוב המקסימום מתבצע ע"י חישוב איטרטיבי‪.‬‬
‫נשים לב כי‪:‬‬
‫𝐾‬

‫))𝜃 ; 𝑖𝑥( 𝑘𝑔(𝑛𝑙 }𝑘 = 𝑖𝑦{𝕀 ∑ = ))𝜃 ; 𝑖𝑥( 𝑖𝑦𝑔( 𝑛𝑙‬


‫‪𝑘=1‬‬
‫ולכן‪:‬‬
‫𝑛‬ ‫𝐾‬

‫))𝜃 ; 𝑖𝑥( 𝑘𝑔(𝑛𝑙 }𝑘 = 𝑖𝑦{𝕀 ∑ ∑ = )𝜃(‪ℓ‬‬


‫‪𝑖=1 𝑘=1‬‬
‫𝑇‬
‫אם נגדיר }𝑘 = 𝑖𝑦{𝕀 = 𝑖̃𝑦‪ ,‬נקבל כי הוקטור ))𝐾( 𝑖̃𝑦 ‪ 𝑦̃𝑖 = (𝑦̃𝑖 (1), … ,‬הוא וקטור הסתברות המייצג את התוויות‬
‫כהסתברויות‪ ,‬שכולו ‪ 1‬פרט ל‪ 0‬במקום ה ‪ .𝑘 -‬כלומר וקטור היחידה 𝑘𝑒 ‪.‬‬
‫)‪ ,𝑦̃(2‬ונוכל לרשום‪:‬‬
‫𝑖‬ ‫)‪= 1 − 𝑦̃(1‬‬
‫𝑖‬ ‫במקרה הבינארי‪𝑔2 = 1 − 𝑔1 ,‬‬
‫‪n‬‬

‫}))‪ℓ(θ) = ∑{ỹi (1) ln(g1 (xi ; θ)) + (1 − ỹi (1)) ln(1 − g1 (xi ; θ‬‬
‫‪i=1‬‬

‫כוונון הפרמטרים‪ :‬גישת פונקציית מחיר‬


‫ניתן להבין את המשערך ‪ MLE‬גם באופן של מינימליזציה של פונקציית מחיר מתאימה‪.‬‬
‫נזכור כי במוצע המסווג הלוגיסטי וקטור ההסתברות הבא‪:‬‬
‫𝑇‬
‫))𝜃 ;𝑥( 𝐾𝑔 ‪𝑔(𝑥; 𝜃) = (𝑔1 (𝑥; 𝜃), . . ,‬‬
‫נגדיר פונקציית שגיאה על פני סדרת הלימוד אותה נרצה להביא למינימום‪:‬‬

‫‪35‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫𝑛‬

‫))𝜃 ; 𝑖𝑥(𝑔 ‪𝐸(𝜃) = ∑ 𝑑(𝑦̃𝑖 ,‬‬


‫‪𝑖=1‬‬

‫פונקציית ההפסד )𝑔 ‪ 𝑑(𝑦̃,‬היא עתה פונקציית מרחק בין שני וקטורי הסתברות‪ .‬ישנן כמה אפשרויות מתאימות לפונקציות‬
‫מרחק מתאימות‪:‬‬
‫א‪ .‬המרחק הריבועי‪:‬‬
‫𝐾‬
‫‪2‬‬
‫))𝑘(𝑞 ‪𝑑2 (𝑞, 𝑝) = ∑(𝑝(𝑘) −‬‬
‫‪𝑘=1‬‬
‫זו בחירה אפשרית אך חסרונה בכך שהיא רגישה רק להפרשי הסתברויות אך לא ליחסי הסתברויות‪ ,‬שעשויים להיות‬
‫בעלי חשיבות רבה‪.‬‬
‫ב‪ .‬מרחק ‪:Kulback-Leibler‬‬
‫𝐾‬
‫)𝑘(𝑝‬
‫( ‪𝑑𝐾𝐿 (𝑝, 𝑞) = ∑ 𝑝(𝑘) ln‬‬ ‫)‬
‫)𝑘(𝑞‬
‫‪𝑘=1‬‬
‫זו מידת מרחק מקובלת יותר בין וקטורי הסתברות‪ .‬תכונותיה‪:‬‬
‫‪( 𝑑𝐾𝐿 (𝑝, 𝑞) ≥ 0 ‬אי שוויון גיבס)‬
‫‪𝑑𝐾𝐿 (𝑝, 𝑞) = 0 ‬אם ורק אם 𝑞 = 𝑝‬
‫בחישוב 𝐿𝐾𝑑 נגדיר ‪.0 ln(0) = 0‬‬
‫הצבת המרחק הזה בנוסחת השגיאה הכללית נותן‪:‬‬
‫𝑁‬ ‫𝐾‬
‫)𝑘( 𝑖̃𝑦‬
‫(( ‪𝐸𝐾𝐿 (𝜃) = ∑ ∑ 𝑦̃𝑖 (𝑘) ln‬‬ ‫))‬
‫)𝜃 ; 𝑖𝑥( 𝑘𝑔‬
‫‪𝑖=1 𝑘=1‬‬
‫זו פונקציית השגיאה אותה נרצה להביא למינימום‪.‬‬
‫𝐾∑ ‪. ℓ(𝜃) = ∑𝑛𝑖=1‬‬ ‫הקשר לפונקציית הסבירות‪ :‬פונקציית לוג הסבירות שקיבלנו הייתה ))𝜃 ; 𝑖𝑥( 𝑘𝑔(‪̃𝑖 (𝑘) ln‬‬
‫𝑦 ‪𝑘=1‬‬

‫כיוון שהתגיות קבועות‪ ,‬ניתן לראות כי מיזעור 𝐿𝐾𝐸 שקול למיקסום )𝜃(‪ . ℓ‬כלומר שתי הגישותש תיארנו מתלכדות‪.‬‬

‫𝜆‬
‫רגולריזציה‪ :‬גם פה מקובל להוסיף איבר רגולריזציה ריבועית לפונקציית המחיר כך ש ‪.𝐸𝜆 (𝜃) = 𝐸𝐾𝐿 (𝜃) + 2 ‖𝜃‖2‬‬
‫במודל ההסתברותי‪ ,‬איבר הרגולריזציה מתקבל על ידי הנחת הפילוג האפריורי מסוים על 𝜃 ושימוש במשערך ‪ MAP‬במקום‬
‫‪1‬‬
‫‪ .MLE‬למשל‪ ,‬עבור )𝐼𝜌 ‪ 𝜃~𝑁(0,‬נקבל ‪.𝜃̂𝑀𝐴𝑃 = 𝑎𝑟𝑔 𝑚𝑎𝑥{ℓ(𝜃) − 𝜌−1 ‖𝜃‖2‬‬
‫𝜃‬ ‫‪2‬‬

‫אלגוריתם הגרדיאנט‬

‫פונקציית המשערך שהגדרנו עבור רגרסיה לוגיסטית הינה לא‪-‬לינארית‪ ,‬ולא ניתן לקבל ביטוי סגור עבור וקטור הפרמטרים‬
‫האופטימלי‪ .‬לפיכך יש להיעזר באלגוריתמי אופטימיזציה איטרטיביים‪.‬‬

‫עלינו למצוא את נקודת המקסימום של )𝜃(‪ . ℓ‬לשם פשטות נתאר את הגרסה הסדרתית של אלגוריתם הגרדיאנט‪ .‬בצעד ‪t‬‬
‫אנו בוחרים דוגמא ) 𝑡̃𝑦 ‪ (𝑥𝑡 ,‬ומחשבים‪:‬‬

‫𝐾‬

‫)) 𝑡𝜃 ; 𝑡𝑥( 𝑘𝑔(‪𝜃𝑡+1 = 𝜃𝑡 + 𝜂∇𝜃 ∑ 𝑦̃𝑡 (𝑘) ln‬‬


‫‪𝑘=1‬‬

‫ניתן להראות כי לכל 𝑡̃𝑦 = ̃𝑦 מתקיים‪:‬‬

‫𝐾‬
‫𝜕‬ ‫) 𝑘𝜃 ;𝑥( 𝑘𝑓𝜕‬
‫( ))𝜃 ;𝑥( 𝑘𝑔 ‪∑ 𝑦̃𝑡 (𝑘) ln(𝑔𝑘 (𝑥𝑡 ; 𝜃𝑡 )) = (𝑦̃(𝑘) −‬‬ ‫)‬
‫𝑘𝜃𝜕‬ ‫𝑘𝜃𝜕‬
‫‪𝑘=1‬‬

‫נגזור לפי 𝑘𝜃‪ ,‬ונקבל‪:‬‬

‫‪36‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫)) 𝑘𝜃 ;𝑥( 𝑘𝑓𝜕(‬


‫⋅ )) 𝑡𝜃 ; 𝑡𝑥( 𝑘𝑔 ‪𝜃𝑘,𝑡+1 = 𝜃𝑘,𝑡 + 𝜂(𝑦̃𝑡 (𝑘) −‬‬
‫𝑘𝜃𝜕‬
‫‪1‬‬ ‫‪2‬‬
‫בהוספת איבר רגולריזציה יתווסף איבר מתאים בפונקציית העדכון‪ .‬למשל‪ ,‬מיקסום של ||𝜃||𝜆 ‪ ℓ(𝜃) −‬גורר הוספת איבר‬
‫‪2‬‬
‫𝑡‪ −𝜂𝜆𝜃𝑘,‬בנוסחת עדכון 𝑡‪.𝜃𝑘,‬‬
‫בגרסת האצווה ‪ batch‬של האלגוריתם נסכם כמובן בכל שלב עדכון על פני כל הדוגמאות‪.‬‬
‫במקרה הלינארי‪ :‬במודל הלוגיסטי הלינארי‪ 𝑓𝑘 (𝑥; 𝜃𝑘 ) = 𝜃𝑘𝑇 𝜙(𝑥) ,‬כאשר ‪ .𝜃𝑘 ≡ 0‬לפיכך‬
‫) 𝑘𝜃 ; 𝑡𝑥( 𝑘𝑓𝜕‬
‫) 𝑡𝑥(𝜙 =‬
‫𝑘𝜃𝜕‬
‫במקרה זה ניתן להראות כי )𝜃(‪ ℓ‬היא פונקציה קעורה של הפרמטרים ולכן כל נקודת מקסימום מקומית היא מקסימום‬
‫גולבאלי‪ .‬לכן‪ ,‬התכנסות אלגוריתם הגרדיאנט תהיה לנקודת המקסימום הגלובלית (ייתכן כי נקודה זו תהיה באינסוף‪ ,‬אם‬
‫למשל הנתונים פרידים לינארית)‪.‬‬
‫באופן שקול פונקציית המחיר )𝜃( 𝐿𝐾𝐸 היא קמורה ולכן כל נקודת מינימום מקומית היא מינימום גלובאלי‪.‬‬

‫‪37‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫רשתות ניורונים מלאכותיות‬


‫𝑛‬
‫סימונים‪ :‬סדרת הדוגמאות ‪ {𝑋 (𝑖) , 𝑌 (𝑖) }𝑖=1‬כאשר וקטורים ומטריצות באותיות גדולות‪ ,‬סקלרים באותיות קטנות‪.‬‬
‫אינדקס תחתון על אות גדולה הוא מס' המט'\וקטור‪ ,‬אינדקס קטן על אות קטנה הינו מס' רכיב הוקטור‪.‬‬
‫רשתות ניורונים מלאכותיות ‪ ,ANN – Articial Neural Network‬הינן צירוף של רכיבים חישוביים פשוטים אשר צירופם‬
‫יוצר מיפוי לא לינארי בין משתני הכניסה והיציאה‪ .‬לרשתות אלה מבנה מודולרי ויכולת גידול‪ ,‬חישוב במקביליות גבוהה‬
‫ויכולת לימוד בעזרת דוגמאות‪.‬‬

‫פרספטרון בודד‬
‫המרכיב הבסיסי ברשת ניורונים מלאכותית הינו הניורון הבודד‪ ,‬המכונה פרוספטרון‪ .‬נזכיר כי מתקיים‬
‫𝑑‬
‫𝑇‬
‫‪𝑣 = 𝜑(𝑢),‬‬ ‫𝑏 ‪𝑢 = 𝑊 𝑋 + 𝑏 = ∑ 𝑤𝑗 𝑥𝑗 +‬‬
‫‪𝑗=1‬‬

‫כאשר ‪ X‬הינם משתני הכניסה‪ W ,‬הינו וקטור הפרמטרים (משקלים)‪,‬‬


‫‪ b‬הינו איבר ההטיה‪ 𝜑 ,‬פונקציית ההפעלה (אקטיבציה)‪ u ,‬הכניסה‬
‫לפונקציית ההפעלה ו ‪ v‬ערך היציאה‪.‬‬
‫לפי הגדרתו‪ ,‬הפרספטרון הבודד מוגבל לפונקציה לינארית של‬
‫הכניסות‪ ,‬בתוספת פונקצית ההפעלה הלא‪-‬לינארית ביציאה‪ .‬בהקשר‬
‫של סיווג‪ ,‬משטח ההפרדה ההפרדה במרחק ‪ X‬המתקבל ע"י = )𝑋(𝑣‬
‫𝐶 הוא על‪-‬מישור כאשר 𝜑פונקציה מונוטונית‪.‬‬

‫פונקציות הפעלה‬

‫בפרק על סיווג לינארי הזכרנו את פונקציות האקטיבציה‬


‫השכיחות‪.‬‬

‫ניתן לראות בקלות כי ‪.𝜙2 = 2𝜙1 − 1‬‬

‫הנגזרות נתונות ע"י‪:‬‬

‫רשתות היזון קדמי ‪Feed Forward Neural Networks‬‬


‫רשתות אלו כוללות מס' שכבות של ניורונים מסוג פרספטרון‪ ,‬כאשר כל שכבה מזינה את הבאה אחריה‪ .‬בפרט‪ ,‬אין היזון חוזר‬
‫לשכבות קודמות‪ .‬כאשר קיימת קישוריות מלאה בין כל שתי שכבות עוקבות‪ ,‬רשתות אלו נקראות גם פרספטרון רב שכבתי‬
‫‪ .Multi Layer Perceptron‬רשתות אלו פותרות את בעיית כח הייצוג המוגבל של פרספטרון‪.‬‬

‫‪38‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫מבנה וסימון פרספטרון רב שכבתי‬


‫שכבת הכניסה הינה הכניסות לרשת‪.‬‬ ‫‪‬‬
‫‪𝑉𝑙 = 𝜑𝑙 (𝑈𝑙 ),‬‬ ‫𝑙𝐵 ‪𝑈 = 𝑊𝑙 𝑉𝑙−1 +‬‬ ‫שאר השכבות כוללות פרוספטרונים‪ .‬יציאת שכבה נתונה ע"י‬ ‫‪‬‬
‫מתקיים 𝑂 = 𝐿𝑉 ‪( 𝑉0 = 𝑋,‬עבור רשת בעלת ‪ L‬שכבות)‪.‬‬ ‫‪‬‬
‫הערות‪:‬‬
‫לרוב פונקציית האקטיבציה זהה בכל הניורונים בכל שכבה‪ ,‬למעט השכבה האחרונה‪.‬‬
‫כאשר קיים קשר בין כל זוג ניורונים בשכבות סמוכות‪ ,‬נקראת הרשת ‪.Fully Connected‬‬

‫כח ייצוג של רשת רב שכבתית‬


‫ראינו שפרפסטרון בודד מוגבל ביציאה שלו ע"י כך שהיא תמיד בכיוון המאונך ל ‪, w‬ובבעיות סיווג הוא משרה משטח הפרדה‬
‫לינארי‪ .‬לעומת זאת‪ ,‬רשת רב שכבתית מאפשרת קירוב לפונקציה רציפה כלשהי‪.‬‬
‫משפט הקירוב האוניברסלי ‪ -‬נניח כי פונקציית ההפעלה היא פונקציה לא פולינומיאלית‪ ,‬ורציפה (או חסומה ואינטגרבילית)‪.‬‬
‫תהיי ) 𝑑𝑥 ‪ 𝑓0 : [0,1]𝑑 → 𝑋, 𝑋 = (𝑥1 , … ,‬פונקציה רציפה על קוביית היחידה‪ .‬אז ניתן לקרב את 𝑓 בקרוב טוב כרצוננו על‬
‫𝑑‬
‫𝑀∑ = )𝐵 ‪𝑓(𝑋) = 𝑊2 𝜑(𝑊1 𝑋 +‬‬ ‫) 𝑚𝑏 ‪𝑚=1 𝑤𝑚,2 𝜑(∑𝑗=1 𝑤𝑚𝑗,1 𝑥𝑗 +‬‬ ‫ידי הביטוי‪:‬‬
‫כלומר לכל ‪ ,𝜀 > 0‬ניתן למצוא קבוע 𝑀 ומשקולות ‪ 𝑏, 𝑊1 , 𝑊2‬כך שיתקיים 𝜀 ≤ |)𝑋( ‪ |𝑓(𝑋) − 𝑓0‬לכל 𝑑]‪.𝑋 ∈ [0,1‬‬
‫נשים לב כי הביטוי מתאר רשת עצבית בעלת שכבה נסתרת אחת‪ ,‬ושכבת יציאה בעלת נוירון לינארי בודד‪ .‬תוצאה זו מראה‬
‫כי רשת עצבית בעלת שכבה נסתרת אחת היא מקרב אוניברסלי לפונקציות רציפות‪ .‬בפרט‪ ,‬רשת עצבית כזו מאפשרת מימוש‬
‫תחומי החלטה (רציפים) כלשהם על ידי חוק החלטה מהצורה 𝟎 <> )𝑿(𝒇‪.‬‬
‫הערה‪ :‬הפונקציה 𝝓 יכולה להיות כל פונקציה כל עוד היא מקיימת את דרישות המשפט‪ .‬לדוגמא‪ ,‬פונק' האקטיבציה‬
‫הלוגיסטית‪ ,‬פונקציית 𝑛𝑔𝑖𝑠 ועוד‪ .‬הפונקציה ‪ 𝝓(𝑣) = 𝑣 3‬אינה מקיימת את דרישות המשפט‪.‬‬

‫פונקציית השגיאה‬
‫‪1‬‬
‫עבור בעיית רגרסיה‪ ,‬מספיק ניורון יציאה בודד לכל מימד‪ .‬פונקציית שגיאה טיפוסית‪.𝐸(𝑌, 𝑂) = 2 ∑𝐾𝑘=1(𝑦𝑘 − 𝑜𝑘 )2 :‬‬
‫יש להקפיד כי פונקציית האקטיבציה בשכבת היציאה תהיה בעלת טווח תואם לטווח הנדרש עבור משתני היציאה‪.‬‬

‫עבור בעיית סיווג‪ ,‬ניורון יציאה לכל מחלקה‪ ,‬כאשר הסיווג מתבצע לפי הניורון בעל הערך המקסימלי‪.‬‬
‫‪1‬‬ ‫‪1‬‬
‫𝐾∑ ‪𝐸(𝑌, 𝑂) = 2 ‖𝑌 − 𝑂‖2 = 2‬‬ ‫‪̃𝑘 − 𝑜𝑘 )2‬‬
‫𝑦(‪𝑘=1‬‬ ‫𝐾∑ ‪, 𝐸 = −‬‬ ‫) 𝑘𝑜(𝑔𝑜𝑙 𝑘̃‬
‫𝑦 ‪𝑘=1‬‬ ‫שתי פונקציות שגיאה רלוונטיות‪:‬‬
‫עבור האנטרופיה הצולבת נקבל את הגרדיאנט‪:‬‬
‫𝐸𝜕‬ ‫𝐸𝜕‬
‫‪= (𝑂 − 𝑌̃)𝑉𝐿−1‬‬
‫𝑇‬
‫→‬ ‫‪= (𝑜𝑘 − 𝑦̃𝑘 )𝑣𝑟,𝐿−1‬‬
‫𝐿𝑊𝜕‬ ‫𝑟𝑘 𝐿𝑊𝜕‬
‫אפשרות מקובלת יותר הינה רגרסיה לוגיסטית‪ .‬פונקציית האקטיבציה הרגילה בשכבת היציאה מוחלפת בנרמול הבא‪:‬‬
‫𝐿𝑈 𝑒‬ ‫𝐿𝐵‪𝑒 𝑊𝐿 𝑉𝐿−1 +‬‬
‫= ) 𝐿𝑈(𝜑 ≡ 𝑂‬ ‫=‬ ‫‪, 𝟏𝑻 = (1,1, … ,1)𝑇 ,‬‬ ‫𝐿‪𝟏𝑇 𝑒 𝑈𝐿 = ∑ 𝑒 𝑢𝑘,‬‬
‫𝐿𝐵‪𝟏𝑇 𝑒 𝑈𝐿 𝟏𝑇 𝑒 𝑊𝐿 𝑉𝐿−1 +‬‬
‫𝑘‬

‫ופונקציית השגיאה תהיה‪𝐸(𝑌, 𝑂) = 𝑌𝐿 − 𝑂 :‬‬

‫ייצוג פונקציה באמצעות רשת היזון קדמית המכילה נוירונים מסוג ‪ReLU‬‬

‫שימוש ב ‪ MLP‬עם שכבה נסתרת אחת אשר תדאג לחלוקה למקטעים‪ ,‬ושכבת המוצא תדאג לשיפועים‪ .‬נשתמש במס'‬
‫נוירונים כמס' המקומות בהם הפונקציה משנה את השיפוע שלה‪ ,‬ונתאם את השבירה של ה ‪ ReLU‬באמצעות איבר ההיסט‪.‬‬

‫‪39‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫אלגוריתם ‪Back Propagation‬‬

‫זהו האלגוריתם הנפוץ ביותר לכוונון רשת עצבית רב – שכבתית‪ .‬כעיקרון מדובר באלגוריתם גרדיאנט לעדכון משקלים‬
‫ברשת‪ .‬אופן חישוב הגרדיאנט מתבצע באמצעות כלל השרשרת בצורה יעילה‪.‬‬
‫נתייחס לשגיאה הריבועית במוצא‪ ,‬ונרצה לחשב את הגרדיאנט של השגיאה‪.‬‬
‫א‪ .‬חישוב מוצאי הנוירונים – נחשב ראשית את ערכי כל המשתנים ברשת עבור הכניסה )𝑖( 𝑋‪ ,‬נסמנה ‪ .X‬חישוב זה‬
‫מתבצע באופן טבעי מהכניסה לכיוון היציאה וקרוי לפיכך חישוב קדמי‪.‬‬
‫ב‪ .‬חישוב הגרדיאנט – נשים לב כי הנוירונים בשכבות הפנימיות אינם משפיעים ישירות על השגיאה אלא דרק נוירונים‬
‫אחרים‪ .‬חישוב הגרדיאנט עבור פרמטריהם ייעשה בעזרת כלל השרשרת של הנגזרת‪ ,‬כאשר החישוב מתבצע בצורה‬
‫רקורסיבית מכיוון היציאה לכיוון הכניסה‪:‬‬
‫)𝜃( )𝑖( 𝐸𝜕 𝑙𝑉𝜕 )𝜃( )𝑖( 𝐸𝜕‬ ‫)𝜃( )𝑖( 𝐸𝜕‬
‫=‬ ‫⋅‬ ‫⋅ ) 𝑙𝑈( ‪= 𝜑𝑙′‬‬
‫𝑙𝑈𝜕‬ ‫𝑙𝑈𝜕‬ ‫𝑙𝑉𝜕‬ ‫𝑙𝑉𝜕‬
‫)𝑖(‬ ‫)𝑖(‬ ‫)𝑖(‬
‫𝑇 )𝜃( 𝐸𝜕 𝑙𝑈𝜕 )𝜃( 𝐸𝜕 )𝜃( 𝐸𝜕‬
‫=‬ ‫⋅‬ ‫=‬ ‫‪𝑉𝑙−1‬‬
‫𝑙𝑊𝜕‬ ‫𝑙𝑈𝜕‬ ‫𝑙𝑊𝜕‬ ‫𝑙𝑈𝜕‬
‫)𝜃( )𝑖( 𝐸𝜕 𝑇𝑙𝑊 )𝜃( )𝑖( 𝐸𝜕 ‪𝜕𝐸 (𝑖) (𝜃) 𝜕𝑈𝑙−1‬‬
‫=‬ ‫⋅‬ ‫=‬
‫‪𝜕𝑉𝑙−1‬‬ ‫‪𝜕𝑉𝑙−1 𝜕𝑈𝑙−1‬‬ ‫𝑙𝑈𝜕‬
‫זה נקרא חישוב אחורי או ‪.BackPropagation‬‬
‫)𝜃( )𝑖( 𝐸𝜕‬
‫≜ 𝑙𝐺‪.‬‬ ‫נסמן את הגרדיאנט לכל שכבת נוירונים‬
‫𝑙𝑈𝜕‬
‫כך שעבור כל השכבות מלבד שכבת היציאה ניתן לרשום את החישוב האחורי בצורה וקטורית‪:‬‬
‫𝑈( ‪′‬‬ ‫𝑇‬
‫‪𝐺𝑙−1 = 𝜑𝑙−1‬‬ ‫𝑙𝐺 𝑙𝑊 ⋅ ) ‪𝑙−1‬‬
‫)𝜃( )𝑖( 𝐸𝜕‬ ‫𝑇‬
‫‪= 𝐺𝑙 𝑉𝑙−1‬‬
‫𝑙𝑊𝜕‬
‫איתחול הרקורסיה מתבצע ע"י חישוב בשכבת היציאה ‪ ,‬בו נקבל ישירות על ידי הצבת ‪E (i) (θ):‬‬
‫)𝜃( )𝑖( 𝐸𝜕‬
‫= 𝐿𝐺‬ ‫𝑌 ‪= 𝑅 ⋅ 𝜑𝐿′ (𝑈𝐿 ), 𝑅 = 𝑂 −‬‬
‫𝐿𝑈𝜕‬
‫אלגוריתם הגרדיאנט מתקבל עתה ע"י הצבת הגרדיאנטים במשוואת עדכון הפרמטרים‪:‬‬
‫)𝜃(𝐸𝜕 𝑡𝜂‬
‫‪𝜃𝑡+1 = 𝜃𝑡 −‬‬ ‫𝑡𝜃=𝜃|‬
‫𝜃𝜕‬

‫גרסא סדרתית‬

‫מבצעים עדכון לכל דוגמה בנפרד‪ ,‬כאשר בצעד 𝑡 נבחרת דוגמה מסוימת ) 𝑖 𝑌 ‪ (𝑋 𝑖 ,‬ומתבצע העדכון‪ .‬לפיכך‪ ,‬בכתיבה וקטורית‪:‬‬

‫)𝜃( 𝑖 𝐸𝜕‬ ‫𝑇‬


‫𝑡𝜂 ‪𝑊ℓ = 𝑊ℓ −‬‬ ‫‪= 𝑊ℓ − 𝜂𝑡 𝐺ℓ𝑖 (𝑉ℓ𝑖 ) ,‬‬ ‫‪∀𝑊ℓ‬‬
‫‪𝜕𝑊ℓ‬‬

‫או‪ ,‬אם נכתוב לפי רכיבים‪:‬‬

‫)𝜃( 𝑖 𝐸𝜕‬ ‫𝑖‬ ‫𝑖‬


‫𝑡𝜂 ‪𝑤𝑗𝑘,ℓ = 𝑤𝑗𝑘,ℓ −‬‬ ‫‪= 𝑤𝑗𝑘,ℓ − 𝜂𝑡 𝑔𝑗,ℓ‬‬ ‫‪𝑣𝑘,ℓ‬‬ ‫‪,‬‬ ‫‪∀𝑤𝑗𝑘,ℓ‬‬
‫‪𝜕𝑤𝑗𝑘,ℓ‬‬

‫𝑖‬ ‫𝑖‬
‫‪ 𝑔𝑗,ℓ‬מחושבים עבור הקלט 𝑖 𝑋 ווקטור הפרמטרים 𝑡𝜃 = 𝜃‪.‬‬ ‫‪, 𝑣𝑘,ℓ‬‬ ‫כאן ‪ 𝑤𝑗𝑘,ℓ‬הוא הרכיב המתאים של 𝑡𝜃 = 𝜃 ואילו‬

‫‪41‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫גרסת אצווה ( ‪)Batch update‬‬

‫)𝜃( 𝑖 𝐸𝜕‬
‫‪𝜃 = 𝜃 − 𝜂𝑡 ∑𝑛𝑖=1‬‬ ‫𝜃𝜕‬
‫לכל הדוגמאות במשותף‪:‬‬ ‫פה נבצע עדכון‬

‫את הגרדיאנט נחשב בנפרד לכל דוגמה (עם אותו וקטור פרמטרים) ונסכם‪ .‬האלגוריתם המתקבל‪:‬‬
‫𝑛‬
‫)𝜃( 𝑖 𝐸𝜕‬ ‫𝑇‬
‫𝑡𝜂 ‪𝑊ℓ = 𝑊ℓ −‬‬ ‫‪= 𝑊ℓ − 𝜂𝑡 ∑ 𝐺ℓ𝑖 (𝑉ℓ𝑖 ) , ∀𝑊ℓ‬‬
‫‪𝜕𝑊ℓ‬‬
‫‪𝑖=1‬‬

‫סיכום והערות‬
‫‪ .0‬עדכון המשקלים של נוירון בשכבה נסתרת מתבצע בהתאם לסכום משוקלל של השגיאות 𝑘𝑟 בנוירונים בשכבת המוצע‬
‫שמושפעים על ידו‪ .‬ניתן לראות שקלול זה כמבטא את מידת "אחריותו" של נוירון ביניים לשגיאה ביציאה‪.‬‬
‫‪ .1‬חישוב הגדלים המופיעים באלגוריתם שפותח מתבצע בשני שלבים‪:‬‬
‫א‪ .‬חישוב קדמי‪ :‬עבור כל כניסה נחשב את מוצאי הנוירונים‪:‬‬
‫) ‪𝑢𝑗,ℓ = ∑ 𝑤𝑗𝑘,ℓ 𝑣𝑘ℓ−1 + 𝑏𝑗,ℓ , 𝑣𝑗,ℓ = 𝜙ℓ (𝑢𝑗,ℓ‬‬
‫𝑘‬
‫ב‪ .‬חישוב אחורי‪ :‬נחשב את ערך הגרדיאנטים בכל נוירון‪ ,‬כלהלן‪:‬‬
‫𝑗𝑟) 𝐿‪𝑟𝑗 = 𝑦𝑗 − 𝑜𝑗 , 𝑔𝑗,𝐿 = 𝜙 ′ (𝑢𝑗,‬‬ ‫‪ .0‬בשכבת היציאה‪:‬‬
‫‪ .1‬בשכבות הפנימיות‪" :‬פעפוע אחורי" של השגיאה‪ ,‬לפי‬
‫‪′‬‬
‫‪𝑔𝑗,ℓ−1 = 𝜙ℓ−1‬‬ ‫‪(𝑢𝑗,ℓ−1 ) ∑ 𝑤𝑘𝑗,ℓ 𝑔𝑘,ℓ‬‬
‫𝑘‬

‫עבור רגרסיה לוגיסטית‪ ,‬יש לעדכן את נוסחת 𝑙‪ 𝑔𝑘,‬עבור שכבת היציאה בלבד‪ .‬נתבונן בפרט בעיית הסיווג ל 𝐾 מחלקות עם‬
‫שכבת יציאה לוגיסטית ופונקציית מחיר של אנטרופיה צולבת‪ ,‬כלומר‪:‬‬

‫‪40‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫רשתות קונבולוציה‬
‫קונבולוציה חד מימדית‬
‫∞} ‪X = {xn‬נגדיר‪:‬‬ ‫∞‬
‫לכל שני תהליכים ממשיים ∞‪n=−∞ , Y = {yn }n=−‬‬

‫∞∑ = 𝑘𝑧‬
‫קונבולוציה 𝑌 ∗ 𝑋 = 𝑍 ‪𝑛=−∞ 𝑥𝑛 𝑦𝑘−𝑛 :‬‬ ‫‪‬‬
‫∞∑ = 𝑘𝑤‪.‬‬‫קרוס קורלציה 𝑌 ⋆ 𝑋 = 𝑊 ‪𝑛=−∞ 𝑥𝑛 𝑦𝑘+𝑛 :‬‬ ‫‪‬‬
‫רשתות קונבולוציה עושות בעצם פעולה של קרוס קורלציה‪.‬‬
‫∞} 𝜏‪ 𝑋 = {𝑥𝑛+‬תגרום להזזה ב ‪ Z‬וב ‪.W‬‬
‫ההזזה ∞‪𝑛=−‬‬
‫קונבולוציה דו מימדית‬

‫𝑚‪𝑤𝑘,𝑟 = ∑ 𝑥𝑛,𝑚 𝑦𝑘+𝑛,𝑟+‬‬


‫‪𝑛,𝑚∈ℤ2‬‬

‫במודל רשת ‪ ,)fully connected( MLP‬אין רגישות לסדר בכניסה‪ .‬לפעמים תכונה זו רצויה‪ ,‬אך באה במחיר של מספר רב של‬
‫פרמטרים‪ .‬במקרים בהם למידע יש מבנה מרחבי (תמונות)‪ ,‬נרצה לנצל את זה‪ .‬רשתות קונבולוציה עושות זאת‪.‬‬
‫ייצוג היררכי מרחבי‬
‫ברשתות רב שכבתיות רגילות‪ ,‬כל נוירון מחובר לכל נוירון בשכבה הבאה‪.‬‬
‫ברשתות קונבולוציה יש חיבוריות מקומית‪ :‬כל נוירון מחובר רק לאיזור מסוים בשכבה הקודמת‪.‬‬
‫לכן‪ ,‬בשכבות עמוקות יותר כל נוירון מושפע מאיזור גדול יותר בקלט‪.‬‬
‫חוסר רגישות להזזות גלובליות ‪ ,‬כלומר הזזת תמונה בד"כ לא משנה את התוכן שלה‪.‬‬
‫חוסר רגישות להזזות מקומיות‪ ,‬בהרבה איזורים בתמונה‪ ,‬הזזות לא משנות את תוכן האיזור‪.‬‬
‫נרצה לבנות רשת שאין לה רגישות להזזות גלובליות‪.‬‬

‫‪Convolutional Neural Nets - CNN‬‬


‫רשתות אלו הינן רשתות נוירונים בעלות מס' שכבות‪ ,‬אשר תכונותיהן הן‪:‬‬
‫‪ .0‬שכבות עמוקות יותר מייצגות מושגים "עמוקים" יותר‪.‬‬
‫‪ .1‬מוצא הרשת לא רגיש להזזות (בקירוב)‪.‬‬
‫‪ .3‬כל היציאות מופקות מאותן משקולות‪.‬‬
‫שכבת קונבולוציה חד ממדית מבצעת פעולת קרוס קורלציה בין וקטור הכניסה ‪ X‬ווקטור‬
‫‪ .𝑦[𝑛] = ∑𝐾−1‬וקטור המשקולות נקרא גרעין הקונבולוציה‪.‬‬
‫משקולות ‪ W‬באורך ‪𝑚=0 𝑥[𝑛 + 𝑚]𝑤[𝑚] :K‬‬

‫עקב ההנחה כי הקשר בין כניסות קרובות הוא יותר חזק ומשמעותי מאשר כניסות רחוקות‪ ,‬ושאזורים שונים בכניסה‬
‫מתנהגים באופן דומה‪ ,‬נקבל רשת עם חוסר רגישות להזזות‪ ,‬כמו ‪ ,FC‬רק שבמקום 𝑠𝑡𝑢𝑝𝑡𝑢𝑜𝑁 × 𝑡𝑢𝑝𝑛𝑖𝑁 משקולות נקבל רק‬
‫‪ K‬משקולות‪.‬‬
‫בדומה לשכבות ‪ ,FC‬נעשה שימוש בפונקציות אקטיבציה לא לינאריות‪ .‬הנפוצה שבהן תהיה ‪.ReLU‬‬
‫נרצה לרוב ששכבת הקונבולוציה תקבל קלט רב ערוצי (לדוגמא‪ ,‬תמונה בעלת שלושה ערוצי צבע)‪ .‬במקרים אלו הנוירון יהיה‬
‫פונקציה של כל ערוצי הקלט‪ ,‬ונשתמש ביותר מגרעין קונבולוציה אחד – לקבלת מספר ערוצים במוצא‪.‬‬
‫עבור ‪.𝑑𝑖𝑙𝑎𝑡𝑖𝑜𝑛 = 1, 𝑠𝑡𝑟𝑖𝑑𝑒 = 1 , 𝑝𝑎𝑑𝑑𝑖𝑛𝑔 = 0‬‬
‫בשכבות אלו אין שיתוף של משקולות בין ערוצי הפלט השונים‪ ,‬ומס' הפרמטרים יהיה‪:‬‬
‫𝑡𝑢𝑜𝐶 ‪𝐶𝑖𝑛 × 𝐶𝑜𝑢𝑡 × 𝐾 +‬‬
‫כאשר 𝐶 הוא מס' הערוצים בכניסה או ביציאה בהתאם‪ K ,‬הוא גודל גרעין הקונב' בין השכבות והאיבר החיבורי מסמן את‬
‫התוספת שנותן ההיסט‪.‬‬
‫חישוב גודל שכבה (רק ערוץ אחד בכל שכבה) מחושב ע"י ‪𝑑𝑖 = 𝑑𝑖−1 − 𝐾 + 1 :‬‬
‫מס' המכפלות בין כל שכבה ‪ 𝑖 − 1‬לשכבה הבאה הוא ‪𝑁 = 𝐶𝑖𝑛 × 𝐶𝑜𝑢𝑡 ⋅ 𝐾 ⋅ 𝑑𝑜𝑢𝑡 :‬‬

‫‪42‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫היפר פרמטרים‬
‫גודל הגרעין הינו היפר פרמטר‪.‬‬ ‫‪‬‬
‫מספר ערוצי הפלט‬ ‫‪‬‬
‫‪ -Padding‬ריפוד – ניתן לרפד את וקטור הכניסה באפסים על מנת לשמור את אורך הוקטור במוצא‪.‬‬ ‫‪‬‬
‫‪ – Stride‬צעד – ניתן לבצע את הקונבולוציה בדילוגים על מנת לדלל את המוצא‪ .‬לרוב גודל הצעד מסומן ב ‪.s‬‬ ‫‪‬‬
‫‪ – Dilation‬התרחבות – ניתן לדלל את המשקולות בגרעין הקונבולוציה על מנת להקטין עוד את מספר המשקולות‪.‬‬ ‫‪‬‬

‫‪ – Max pooling‬איגום‬
‫לרוב ברשתות קונבולוציה נעשה שימוש בשכבה נוספת על מנת לצמצם את גודל הקלט‪.‬‬
‫שכבת ‪ Max Pooling‬לוקחת את המקסימום מבין ערכי הכניסה‪ .‬המוטיבציה לפעולה זאת הינה שהערכים הגבוהים מייצגים‬
‫מאפיינים בעלי יותר אינפורמציה‪.‬‬

‫‪Data augmentation‬‬
‫כדי לאמן על כמה שיותר דוגמאות‪ ,‬ולפעמים אין לנו הרבה‪ .‬לכן נוכל לקחת דוגמא קיימת (נניח‪ ,‬תמונה כלשהיא) ולבצע עליה‬
‫מניפולציות שעקב אופייה של הרשת היא תחשב כמו דוגמא מעט שונה אך רלוונטית‪ .‬למשל‪ :‬הפיכה (‪ )flipping‬של תמונה‪,‬‬
‫‪ ,rotating‬שינוי צבעים וכדומה‪ .‬נשים לב כי תמונות חדשות צריכות להיות הגיוניות לסט האימון‪.‬‬

‫סכמת האתחול‬
‫אתחול לא נכון של המשקולות יכול להביא את פונקציות האקטיבציה לרוויה ולעדכון משקולות איטי ולא אפקטיבי‪.‬‬
‫בעבור משקולות קטנות‪ ,‬האות דועך בין שכבה לשכבה ולא מחלחל לשכבות הראשונות )‪.(vanishing gradient‬‬
‫בעבור משקולות גדולות‪ ,‬האות גדל בין שכבה לשכבה מה שיכול לגרום לחריגה מתחום ייצוג )‪.(exploding gradient‬‬
‫נרצה לשמור על תכונות המרכוז והנרמול של הכניסה לכל נוירון ברשת‪.‬‬
‫בדרך כלל‪ ,‬מגרילים את כל המשקולות בצורה בלתי תלויה‪ .‬כדי למרכז נבחר פילוג משקולות עם ממוצע אפס ‪ ,𝔼𝑤 = 0‬מה‬
‫שגורר שגם הכניסה לשכבה הבאה היא עם ממוצע אפס ‪ .𝔼𝑤 = 𝔼𝑤𝑥 = 0‬ניתן לבחור שכל משקולת תהיה אפס‪.‬‬
‫כדי לנרמל‪ ,‬נדרוש ‪ 𝑉𝑎𝑟(𝑣) = 1‬כאשר 𝑣 הינה הכניסה לפונקציית האקטיבציה‪ .‬עבור ‪𝑉𝑎𝑟(𝑥𝑖 ) = 1‬‬
‫𝑑‬
‫𝑇‬
‫‪1‬‬
‫= ) 𝑖𝑤(𝑟𝑎𝑉 ⇒ ) ‪1 = 𝑉𝑎𝑟(𝑣) = 𝑉𝑎𝑟(𝑤 𝑥) = ∑ 𝑉𝑎𝑟(𝑥𝑖 )𝑉𝑎𝑟(𝑤𝑖 ) = 𝑑 ⋅ 𝑉𝑎𝑟(𝑤1‬‬
‫𝑑‬
‫‪𝑖=1‬‬
‫‪1‬‬
‫כדי לנרמל‪ ,‬נבחר פילוג משקולות עם שונות 𝑠𝑡𝑢𝑝𝑛𝑖‪.𝑉𝑎𝑟(𝑤) ∝ #‬‬
‫לכן נהוג להשתמש בפילוג גאוסי או פילוג אחיד‪.‬‬

‫נרמול אצווה ‪batch normalization‬‬


‫⟩𝑢⟨‪𝑢𝑖 −‬‬
‫= 𝑖̂𝑢 כאשר 𝛽 ‪ 𝛾,‬הם הפרמטרים הנלמדים‪.‬‬ ‫𝛽‪⋅𝛾+‬‬
‫𝜀‪√(⟨𝑢−⟨𝑢⟩)2 ⟩+‬‬
‫‪1‬‬
‫כאשר 𝑖𝑢 ‪ .⟨𝑢⟩ = 𝐵 ∑𝐵𝑖=1‬מאפשר לשמור על מרכוז ונרמול כניסות לכל הנוירונים ברשת‪ ,‬גם אחרי האתחול‪.‬‬
‫ברשתות קונבולוציה בדר"כ מאיץ את מהירות ההתכנסות ומשפר הכללה (סוג של רגולריזציה)‪.‬‬
‫כשמשתמשים בחיבורי קפיצה בד"כ צריך את הנרמול הנ"ל‪ .‬חיבורי קפיצה עוזרים ללמוד רשתות עמוקות‪.‬‬

‫‪43‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫גאומטריה של המישור‬

‫משוואה של מישור ב 𝑑‪ ,𝑤 𝑇 𝑥 + 𝑏 = 0 :ℝ‬עבור ‪ 𝑤 ∈ ℝ𝑑 , 𝑏 ∈ ℝ‬קבועים המגדירים את המישור‪.‬‬


‫𝑏‪𝑤 𝑇 𝑥0 +‬‬
‫= ‪ ,𝑑±‬כאשר המרחק יהיה חיובי אם ‪ x‬בכיוון הוקטור ‪ w‬יחסית לעל‪-‬‬ ‫‖𝑤‖‬
‫מרחק אוקלידי של נקודה ‪ x0‬מהמישור הינו‬
‫מישור‪ ,‬ושלילי במקרה הנגדי‪.‬‬
‫הערה‬
‫הפרק הבא מדבר על מסווגים לינארים בלבד‪ .‬ניתן להכליל למסווגים לא לינאריים‪ ,‬ע"י שימוש בפונקציות מאפיינים )𝑥(𝜑‪.‬‬

‫‪Support Vector Machines -SVM‬‬


‫דוגמאות הניתנות להפרדה לינארית – ‪Hard SVM‬‬

‫אנו דנים בבעיית הסיווג הבינארי‪ .‬נתון אוסף דוגמאות כך שכל קלט הוא בגודל 𝑑 ויש שתי מחלקות‪ ,‬נסמנן‪.𝑦𝑖 ∈ {−1,1} :‬‬

‫מטרתנו ללמוד מסווג בינארי מהצורה )𝑏 ‪ .𝑦(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬כפי שראינו‪ ,‬משוואה זו מגדירה שני אזורים (חצאי‪-‬‬
‫מרחב) המופרדים ע"י על‪-‬מישור המוגדר על ידי השוויון ‪ .𝑤 𝑇 𝑥 + 𝑏 = 0‬על ‪-‬מישור זה יקרא פה גם משטח הפרדה לינארי‪.‬‬

‫במקרה של דוגמאות פרידות לינארית‪ ,‬יהיה רצף של משטחי הפרדה שונים אשר מקיימים את דרישת ההפרדה‪.‬‬

‫נבחר במשטח ההפרדה אשר נותן את "מרווח ההפרדה" הגדול ביותר‪.‬‬

‫בעיית האופטימיזציה הפרימאלית‬

‫משפט ‪ :6‬הבעיה הפרימאלית של ‪Hard-SVM‬‬

‫נניח כי הדוגמאות ניתנות להפרידה לינארית‪ .‬אזי‪ ,‬על מישור ‪ 𝑤 𝑇 𝑥 + 𝑏 = 0‬אשר מביא למקסימום את מרווח ההפרדה‬
‫מתקבל כפיתרון של בעיית האופטימיזציה הבאה‪:‬‬

‫‪1‬‬ ‫‪2‬‬
‫‪min ||𝑤|| ,‬‬ ‫‪𝑠. 𝑡. 𝑦𝑖 (𝑤 𝑇 𝑥 + 𝑏) ≥ 1 ,‬‬ ‫𝑛 ‪𝑖 = 1, … ,‬‬
‫‪𝑤,𝑏 2‬‬

‫הבעיה הפרימאלית היא בעיית מינימיזציה של מחיר ריבועי‪ ,‬כפוך לאילוצי אי שוויון לינאריים‪ .‬בעיות אופטימיזציה מסוג זה‬
‫קרויות בעיות תכנות ריבועי קמור‪ .‬כאשר הדוגמאות אינן ניתנות להפרדה לינארית‪ ,‬לא ניתן לקיים את כל האילוצים בו‬
‫זמנית‪ ,‬ולכן לבעיית האופטימיזציה לא יהיה פתרון‪.‬‬

‫טענה (מרחק בין נקודה לעל‪-‬מישור)‪ :‬המרחק האוקלידי בין נקודה 𝑑‪ 𝑥0 ∈ ℝ‬לעל המישור ‪ 𝑤 𝑇 𝑥 + 𝑏 = 0‬נתון ע"י‬
‫𝑏‪𝑤 𝑇 𝑥+‬‬
‫= ) ‪ .𝑑± (𝑥0‬זה המרחק המסומן של ‪ 𝑥0‬לעל המישור‪ .‬למרחק סימן חיובי אם ‪ 𝑥0‬בכיווןה וקטור 𝑤‬ ‫|) ‪ |𝑑± (𝑥0‬כאשר‬
‫||𝑤||‬
‫יחסית לעל המישור‪ ,‬וסימן שלילי במקרה הנגדי‪.‬‬

‫הוכחה‪ :‬נניח כי ‪ 𝑥0‬אינה על העל‪-‬מישור ונסמן ב 𝑥 את הנקודה הקרובה ביותר ל ‪ 𝑥0‬בעל‪-‬המישור‪ .‬כזכור‪ ,‬ההפרש 𝑥 ‪𝑥0 −‬‬
‫ניצב לעל‪-‬מישור‪ ,‬וגם הוקטור 𝑤‪ .‬לכן‪ ,‬שניהם באותו כיוון‪ ,‬או בכיוון מנוגד‪.‬‬

‫𝑤‬ ‫𝑥 ‪𝑥0 −‬‬


‫‪= ±‬‬
‫||𝑤||‬ ‫||𝑥 ‪||𝑥0 −‬‬

‫כאשר הסימן נקבע לפי הסימן של )𝑥 ‪.𝑤 𝑇 (𝑥0 −‬‬

‫נקבל‪:‬‬

‫‪44‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫‪2‬‬
‫||𝑥 ‪||𝑥0 −‬‬ ‫)𝑥 ‪(𝑥0 − 𝑥)𝑇 (𝑥0 −‬‬ ‫𝑇𝑤‬ ‫‪1‬‬
‫‪𝑑± (𝑥0 ) ≜ ±||𝑥0 − 𝑥|| = ±‬‬ ‫‪=±‬‬ ‫=‬ ‫= )𝑥 ‪(𝑥0 −‬‬ ‫)𝑥 𝑇 𝑤 ‪(𝑤 𝑇 𝑥0 −‬‬
‫||𝑥 ‪||𝑥0 −‬‬ ‫||𝑥 ‪||𝑥0 −‬‬ ‫||𝑤||‬ ‫||𝑤||‬
‫‪1‬‬
‫=‬ ‫)𝑏 ‪(𝑤 𝑇 𝑥0 +‬‬
‫||𝑤||‬

‫כאשר המעבר האחרון נובע מכך ש 𝑥 היא נקודה על העל מישור ומקיימת את משוואתו‪.‬‬
‫ננסח מתמטית את בעיית האופטימיזציה שפתרונה נותן את משטח ההפרדה האופטימאלי במובן של רוחב השוליים‪.‬‬
‫עבור על‪-‬מישור מפריד כלשהו‪ ,‬המרחק לנקודה הקרובה ביותר הוא |) 𝑖𝑥( ‪ . 𝑚𝑖𝑛 |𝑑±‬אנו מעוניינים למצוא על מישור‬
‫𝑛‪𝑖=1,…,‬‬
‫שעבורו מרחק זה גדול ככל האפשר‪ .𝑚𝑎𝑥 { 𝑚𝑖𝑛 |𝑑± (𝑥𝑖 )|} :‬את דרישת ההפרדה ניתן לנסח כך בעזרת ‪: d±‬‬
‫𝑏‪𝑤,‬‬ ‫𝑛‪𝑖=1,…,‬‬

‫‪.𝑦𝑖 = +1 ⇒ 𝑑± (𝑥𝑖 ) > 0 ,‬‬ ‫‪𝑦𝑖 = −1 ⇒ 𝑑± (𝑥𝑖 ) < 0‬‬


‫קבענו שרירותית שדוגמאות עם סימן חיוביות יהיו בכיוון ‪ w‬ביחס למשטח ההפרדה‪ .‬ניתן לבטא דרישה זו גם עם‬
‫})𝑏‪𝑚𝑖𝑛 {𝑦𝑖 (𝑤 𝑇 𝑥𝑖 +‬‬
‫𝑛‪𝑖=1,…,‬‬
‫{ 𝑥𝑎𝑚‪ .‬הביטוי‬ ‫‖𝑤‖‬
‫‪ 𝑦𝑖 𝑑± (𝑥𝑖 ) > 0‬ונקבל כי ) 𝑖𝑥( ‪ .|𝑑± (𝑥𝑖 )| = 𝑦𝑖 𝑑±‬הבעיה שברצוננו לפתור היא }‬
‫𝑏‪𝑤,‬‬
‫בסוגריים הוא מרווח ההפרדה‪ ,‬אותו אנחנו רוצים למקסם‪.‬‬

‫נירמול המקדמים – נזכור כי וקטור הפרמטרים ניתן לנרמול בקבוע כלשהו ללא שינוי על‪-‬המישור המפריד‪ .‬נרמול נוח יהיה‬
‫הפרמטרים לפי סדרת הדוגמאות כך ש ‪ . 𝑚𝑖𝑛 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1‬נרמול זה מוביל לבעיית האופטימיזציה המאולצת‬
‫𝑛≤𝑖≤‪1‬‬
‫‪1‬‬ ‫‪1‬‬
‫הבאה‪ ,𝑚𝑎𝑥 {‖𝑤‖} :‬עם הנירמול כאילוץ‪ ,‬כאשר מיקסום ‖𝑤‖ הוא גם מינימליזציה של ‖𝑤‖ וזו מינימלזציה של ‪.‖𝑤‖2‬‬
‫𝑏‪𝑤,‬‬
‫לכן נוכל לתאר את הבעיה הזו כבעיה הבאה‪ ,‬שנקראת בעיית אופטימיזציה פרימאלית‪:‬‬
‫‪1‬‬
‫‪𝑚𝑖𝑛 ‖𝑤‖2‬‬ ‫𝑛 ‪𝑠. 𝑡. 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1 , 𝑖 = 1, … ,‬‬
‫‪𝑤,𝑏 2‬‬

‫לכאורה החלשנו את אילוץ השוויון לאילוץ אי שוויון‪ ,‬אך ניתן לראות שבמקרה של אי שוויון חריף ניתן לכפול את )𝑏 ‪(𝑤,‬‬
‫בקבוע קטן מ‪ 0‬עד לקבלת השוויון‪ ,‬ובכך להקטין את ‪ , ‖𝑤‖2‬ולפיכך הפתרון האופטימלי של הבעיה הפרימאלית תמיד יקיים‬
‫שוויון‪ ,‬גם אם לא נדרוש זאת במפורש‪.‬‬

‫תכונות פתרון ווקטור התמיכה‬


‫משפט ‪ :0‬עבור פתרון )𝑏 ‪ (𝑤,‬אופטימאלי עבור הבעיה הפרימאלית‪ ,‬אפשר לבטא את הוקטור ‪ w‬בצורה הבאה‪:‬‬
‫𝑛‬

‫𝑖𝑦 𝑖𝑥 𝑖𝛼 ∑ = 𝑤‬
‫‪𝑖=1‬‬

‫כאשר ‪ ,𝛼𝑖 ≥ 0‬מקדמים המקיימים ‪ 𝛼𝑖 ≠ 0‬רק אם ‪𝑦𝑖 (𝑤 𝑇 𝑥 + 𝑏) = 1‬‬


‫בנוסף מתקיים ‪.∑𝑛(𝑖=1) 𝑦𝑖 𝑎𝑖 = 0‬‬
‫המשפט מסתמך על הכללת תנאי כופלי לגרנז' והמקדמים הם למעשה כופלי לגרנז' הנגזרים מתנאים אלה‪.‬‬
‫וקטורי הקלט עבורם מתקיים ‪ 𝑦𝑖 (𝑤 𝑇 𝑥 + 𝑏) = 1‬נקראים וקטורי התמיכה‪ .‬אלה הנקודות‬
‫הקרובות ביותר למשטח ההפרדה‪ ,‬אשר מגדירות את שולי ההפרדה‪.‬‬
‫|𝑏‪|𝑤 𝑇 𝑥𝑖 +‬‬ ‫‪1‬‬
‫= |) 𝑖𝑥( ‪ .|𝑑±‬כל שאר‬ ‫‖𝑤‖‬
‫מרחק וקטורי התמיכה ממשטח ההפרדה הוא ‖𝑤‖ =‬
‫הנקודות נמצאות במרחק גדול יותר‪.‬‬
‫משתי תכונות אלו‪ ,‬נובע כי הפתרון האופטימאלי עבור ‪ w‬הוא צרוף לינארי של וקטורי תמיכה‬
‫בלבד (שמספרם לרוב קטן)‪.‬‬
‫יתר על כן‪ ,‬הזזה (מוגבלת) של נקודות שאינן וקטורי תמיכה לא תשנה את הפתרון האופטימלי‪.‬‬
‫נציין בנוסף כי הצבה מפורשת של ערכי התגיות 𝑖𝑦 בנוסחת 𝑤 האופטימאלי נותנת‪:‬‬

‫‪45‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫𝑖𝑥 𝑖𝛼 ∑ ‪𝑤 = ∑ 𝛼𝑖 𝑥𝑖 −‬‬
‫‪𝑖,𝑦𝑖 =+1‬‬ ‫‪𝑖,𝑦𝑖 =−1‬‬
‫כלומר לוקטורי התמיכה של מחלקה ‪ +‬יש משקל חיובי‪ ,‬ולאלה של מחלקה – משקל שלילי‪ .‬באופן דומה‪ ,‬נקבל כי סכום‬
‫המשקלים של שתי המחלקות זהה ‪:‬‬

‫𝑖𝛼 ∑ = 𝑖𝛼 ∑‬
‫‪𝑖,𝑦𝑖 =+1‬‬ ‫‪𝑖,𝑦𝑖 =−1‬‬

‫הבעיה הדואלית‬
‫נתאר בעיית אופטימיזציה אשר תאפשר את חישוב המקדמים (כופלי לגרנז')‪ .‬בעיה זו הינה הבעיה הדואלית לבעיית ה‪SVM‬‬
‫הפרימאלית‪.‬‬
‫תכונה חשובה שלה היא שהתלות בנקודות הקלט היא אך ורק דרך מכפלותיהן הפנימיות ⟩ 𝑘𝑥 ‪.⟨𝑥𝑖 ,‬‬
‫הבעיה מתוארת על פני וקטור משתנים ) 𝑛𝛼 ‪:𝛼 = (𝛼1 , … ,‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪1‬‬
‫⟩ 𝑗𝑥 ‪𝑚𝑎𝑥 ∑ 𝛼𝑖 − ∑ ∑ 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗 ⟨𝑥𝑖 ,‬‬ ‫‪𝑠. 𝑡. 𝛼𝑖 ≥ 0, ∀𝑖 = 1,2, … , 𝑛 , ∑ 𝛼𝑖 𝑦𝑖 = 0‬‬
‫𝛼‬ ‫‪2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1 𝑗=1‬‬ ‫‪𝑖=1‬‬

‫= ‪ w‬אשר השתמשנו בבעיה‬ ‫‪∑ni=1 αi yi xi‬‬ ‫הסכום השני בפונקציית המטרה הוא ביטוי חליפי לנורמה הריבועית של הצירוף‬
‫הפרימאלית‪:‬‬
‫𝑛‬ ‫‪2‬‬ ‫𝑛‬ ‫𝑛‬

‫‪‖𝑤‖2‬‬ ‫⟩ 𝑗𝑥 ‪= ‖∑ 𝛼𝑖 𝑦𝑖 𝑥𝑖 ‖ ≡ ∑ ∑ 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗 ⟨𝑥𝑖 ,‬‬


‫‪𝑖=1‬‬ ‫‪𝑖=1 𝑗=1‬‬

‫משפט ‪ :3‬המקדמים 𝑛𝑎 ‪ 𝛼1 , … ,‬מתקבלים על ידי כל פתרון אופטימלי של הבעיה הדואלית‪ .‬פתרון זה מאפשר לפיכך את‬
‫חישוב הוקטור ‪ w‬של מסווג ‪ ,SVM‬לפי הביטוי הנ"ל 𝑖𝑥 𝑖𝑦 𝑖𝛼 ‪.𝑤 = ∑𝑛𝑖=1‬‬
‫גם הבעיה הדואלית היא בעיית תכנות ריבועי‪ .‬וקטורי הקלט מופיעים פה רק דרך המכפלה הפנימית שלהם‪.‬‬
‫הבעיה הפרימאלית היא בעיית אופטימיזציה מאולצת בעלת ‪ d+1‬משתנים (כמימד הקלט) ו ‪ n‬אילוצים (בגודל סדרת‬
‫הלימוד)‪ .‬הבעיה הדואלית בעלת ‪ n‬משתנים ו ‪ n‬אילוצים‪ .‬לפיכך‪ ,‬בהינתן חישוב יעיל של המכפלות הפנימיות של הקלט‪ ,‬גודל‬
‫הבעיה הדואלית אינו תלוי במימד הקלט ‪.d‬‬
‫המסווג האופטימלי‪ :‬לאחר חישוב וקטור המקדמים ‪ , α‬ניתן כאמור לחשב את הוקטור המיטבי ‪ w‬עבור מסווג ‪ SVM‬לינארי‬
‫)𝑏 ‪ ,𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬לפי 𝑖𝑦 𝑖𝑥 𝑖𝛼 ‪ .𝑤 = ∑𝑛𝑖=1‬את הקבוע ‪ b‬של המסווג ניתן לחלץ מתוך השוויון המתקיים עבור כל‬
‫וקטור תמיכה‪𝛼𝑖 ≠ 0 ⇒ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1 ⇒ 𝑏 = 𝑦𝑖−1 − 𝑤 𝑇 𝑥𝑖 :‬‬

‫סיכום ביניים‪:‬‬
‫בעיית ‪ Hard SVM‬תהיה הבעיה שהצגנו – בעיית אופטימיזציה‪ ,‬פתרונה נותן מקדמים 𝑏 ‪ 𝑤,‬אופטימליים במובן של‬ ‫‪‬‬
‫שולי הפרדה מירביים‪ ,‬עבור המסווג הלינארי )𝑏 ‪ 𝑦(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +‬ודוגמאות ניתנות להפרדה לינארית‪.‬‬
‫את חישוב המקדמים ניתן לחשב בשתי דרכים‪:‬‬ ‫‪‬‬
‫‪ ‬באמצעות פתרון נומרי ישיר של הבעיה הפרימאלית‬
‫‪ ‬באמצעות פתרון נומרי של הבעיה הדואלית לחישוב המקדמים 𝑖𝛼 ובעזרת חישוב 𝑏 ‪.𝑤,‬‬

‫‪46‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫המקרה הכללי – ‪Soft SVM‬‬


‫כעת נניח שהדוגמאות שלנו אינן ניתנות להפרדה לינארית‪ .‬על מנת לקבל פתרון כעת‪ ,‬נחליש את אילוצי ההפרדה הקשיחים‬
‫של הבעיה הפרימאלית ‪ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1‬בעזרת משתני עזר‪.‬‬
‫המשתנים החדשים הם משתני עזר )‪ ,(slack variables‬אשר מאפשרים החלשה מסוימת של האילוץ‪ .‬ככל שמשתנים אלה‬
‫גדולים יותר‪ ,‬כך האילוץ חלש יותר‪ .‬על מנת להגביל את גודלם נוסיף את סכומם לפונקציית המחיר‪.‬‬
‫הבעיה הפרימאלית של ‪ soft svm‬תהיה בהתאם‪:‬‬
‫𝑛‬
‫‪1‬‬
‫𝑖𝜉 ∑ 𝐶 ‪𝑚𝑖𝑛 ‖𝑤‖2 +‬‬ ‫‪𝑠. 𝑡.‬‬ ‫𝑛 ‪𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1 − 𝜉𝑖 , 𝜉𝑖 ≥ 0, 𝑖 = 1, … ,‬‬
‫‪𝑤,𝑏,𝜉 2‬‬
‫‪𝑖=1‬‬
‫‪ C‬הינו הקבוע השולט על החשיבות היחסית של גודל השוליים (המתבטא באיבר הראשון) לעומת האפשרות לחרוג משוליים‬
‫(האיבר השני)‪ .‬את ‪ 𝐶 −1‬אפשר גם לפרש כקבוע רגולריזציה‪ .‬כלומר‪ ,‬עבור ‪ C‬גדול‪ ,‬כך גודל השוליים יהיה יותר מוגבל‪ ,‬כלומר‬
‫עבור 𝐶 שואף לאינסוף‪ ,‬השוליים יהיו אפסיים‪ .‬עבור ‪ ,𝐶 = 0‬השוליים יוכלו להיות מאוד גדולים על מנת לפתור את בעיית‬
‫האופטימיזציה‪.‬‬

‫האופטימלי עבור‬ ‫משפט ‪ :9‬תכונות הפתרון‬


‫‪:Soft SVM‬‬
‫הוקטור 𝑤 האופטימלי ניתן לביטוי כך ‪. w = ∑ni=1 αi xi yi , 0 ≤ αi ≤ C:‬‬
‫א‪ αi = 0 .‬אם ‪.yi (w T xi + b) > 1‬‬
‫ב‪ αi = C .‬אם ‪.yi (w T xi + b) < 1‬‬
‫ג‪∑ni=1 yi αi = 0 .‬‬
‫נקודות אשר מקיימות ‪ yi (w T xi + b) > 1, αi = 0‬הן נקודות ללא מספור‪.‬‬
‫נקודות אשר מקיימות ]‪ yi (w T xi + b) = 1, αi ∈ [0, C‬הן נקודות עם מספור '‪.'0‬‬
‫נקודות אשר מקיימות ‪ 0 < yi (w T xi + b) < 1, αi = C‬הן בעלות המספור '‪.'1‬‬
‫נקודות אשר מקיימות ‪ yi (w T xi + b) ≤ 0, αi = C‬הן בעלות המספור '‪.'3‬‬
‫הנקודות הממוספרות עתה '‪ '3' ,'1' ,'0‬הן עתה וקטורי התמיכה‪ :‬הן התורמות לסכום ‪.w = ∑ni=1 αi yi xi‬‬
‫נקודות '‪ '3‬הן הנקודות אשר אינן מתויגות נכון‪.‬‬

‫הבעיה הדואלית של בעיית ‪Soft - SVM‬‬


‫בעיה זו נשארת ללא שינוי פרט להחלפת האילוץ ‪ 𝛼𝑖 ≥ 0‬באילוץ 𝐶 ≤ 𝑖𝛼 ≤ ‪.0‬‬
‫לאחר חישוב המקדמים 𝑖𝛼 ‪ ,‬ניתן כמו קודם לחשב את הוקטור המיטבי 𝑤 לפי 𝑖𝑥 𝑖𝑦 𝑖𝛼 ‪𝑤 = ∑𝑛𝑖=1‬‬
‫את ההיסט ‪ b‬ניתן לחשב פה מתוך השוויון המתקבל עבור נקודות הנמצאות על שולי ההפרדה‪.‬‬
‫𝐶 < 𝑖𝛼 < ‪0‬‬ ‫→‬ ‫‪𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1‬‬ ‫→‬ ‫𝑖𝑥 𝑇 𝑤 ‪𝑏 = 𝑦𝑖−1 −‬‬

‫ניסוח חליפי באמצעות פונקציית הפסד‪-‬צירי )‪:(Hingle- loss‬‬


‫את הבעיה לעיל ניתן לראות גם בעיית מינימיזציה של סכום הפסדים מסוימת‪ ,‬עם רגולריזציה ריבועית על גודל הפרמטרים‪.‬‬
‫𝑖𝜉 ‪𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1 −‬‬ ‫מתוך הבעיה הפרימאלית‪ ,‬ניתן להסיק כי הפתרון האופטימלי חייב לקיים את השוויון‬
‫כאשר ‪( 𝜉𝑖 > 0‬אחרת‪ ,‬ניתן פשוט להקטין את 𝑖𝜉 מבלי להפר את האילוץ‪ ,‬ובכך להקטין את איבר הקנס‪.‬‬
‫})𝑏 ‪.𝜉𝑖 = 𝑚𝑎𝑥{0,1 − 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 +‬‬ ‫מכאן ניתן להסיק כי‬
‫לפיכך‪ ,‬בעיית האופטימיזציה שקולה לבעיה הלא מאולצת הבאה‪:‬‬

‫‪47‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫𝑛‬
‫‪1‬‬
‫})𝑏 ‪𝑚𝑖𝑛 ‖𝑤‖2 + 𝐶 ∑ 𝑚𝑎𝑥{0,1 − 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 +‬‬
‫‪𝑤,𝑏 2‬‬
‫‪𝑖=1‬‬

‫נגדיר עתה פונקציית הפסד הידועה בשם הפסד צירי ‪ .ℓℎ𝑖𝑛𝑔𝑒 (𝑦̂, 𝑦) = 𝑚𝑎𝑥{0,1 − 𝑦𝑦̂} :‬הצבה בבעית האופטימיזציה‬
‫האחרונה‪ ,‬חלוקה בקבוע ‪ C‬וסימון ‪ 𝜌 = 𝐶 −1‬מובילים לכתיבה של הבעיה הבאה‪:‬‬
‫𝑛‬
‫‪1‬‬
‫)𝑏 ‪𝑚𝑖𝑛 𝜌‖𝑤‖2 + ∑ ℓℎ𝑖𝑛𝑔𝑒 (𝑦𝑖 , 𝑤 𝑇 𝑥 +‬‬
‫‪𝑤,𝑏 2‬‬
‫‪𝑖=1‬‬
‫ניתן לראות את האיבר השני בסכום הפסדים על גבי הדוגמאות בעוד האיבר הראשון הוא קנס על גודל המקדמים ‪ ,‬כאשר‬
‫‪ ρ = C −1‬הינו קבוע הרגולריזציה‪.‬‬

‫שילוב פונקציות בסיס‬


‫שילוב פונקציות בסיס‪ ,‬או מאפיינים‪ ,‬במימד גבוה ממימד הקלט ‪ ,x‬גורם לשיפור משמעותי של יכולת ההפרדה בעזרת‬
‫משטחים לינאריים‪ .‬דהיינו‪ ,‬נתמיר את 𝑇) 𝑑𝑥 ‪ 𝑥 = (𝑥1 , … ,‬בוקטור מאפיינים 𝑇))𝑥( 𝑀𝜙 ‪ 𝜙(𝑥) = (𝜙1 (𝑥), … ,‬כאשר‬
‫𝑑 ≫ 𝑀‪ .‬את ההפרדה הלינארית נבצע במרחב המאפיינים‪ ,‬ולא הקלט‪.‬‬
‫ניתן לחזור כעת על כל הפיתוחים עם ההחלפות הבאות‪:‬‬
‫א‪ X .‬יוחלף בווקטור )𝑥(𝜙‪.‬‬
‫ב‪ ⟨𝑥, 𝑧⟩ .‬יוחלף ב ‪.𝐾(𝑥, 𝑧) ≜ ⟨𝜙(𝑥), 𝜙(𝑧)⟩ -‬‬
‫הבעיה הדואלית המתקבלת‪:‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪1‬‬
‫) 𝑗𝑥 ‪𝑚𝑎𝑥 ∑ 𝛼𝑖 − ∑ ∑ 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗 𝐾(𝑥𝑖 ,‬‬ ‫‪𝑠. 𝑡. 𝛼𝑖 ≥ 0, ∀𝑖 = 1,2, … , 𝑛 , ∑ 𝛼𝑖 𝑦𝑖 = 0‬‬
‫𝛼‬ ‫‪2‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1 𝑗=1‬‬ ‫‪𝑖=1‬‬
‫אם נחליט לוותר על הקבוע המפורש ‪ ,b‬אותו ניתן להכיל באחד המאפיינים‪ ,‬האילוץ של הסכום יתבטל‪.‬‬
‫לאחר מציאת המקדמים ניתן למצוא את פונקציית המסווג‪:‬‬
‫𝑛‬

‫)𝑏 ‪𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖 𝑦𝑖 𝐾(𝑥𝑖 , 𝑥) +‬‬


‫‪𝑖=1‬‬
‫נציין כי מימד הבעיה הדואלית לא השתנה למרות הגדלת מרחב המאפיינים‪ ,‬ווקטור המקדמים צפוי להיות דליל‪ :‬יתקבל רק‬
‫אם המאפיין הוא וקטור תמיכה או אם הסיווג לא נכון‪.‬‬

‫‪48‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫שילוב פונקציות גרעין‬
‫עבור וקטור מאפיינים עם מימד גדול מאוד‪ ,‬ואף אינסופי‪ ,‬נוסיף גורם שיאפשר ליישם את עיקרון השוליים המרביים‪.‬‬
‫הרעיון הוא כי עבור אוספים מסוימים של פונקציות בסיס‪ ,‬למכפלה הפנימית יש צורה אנליטית סגורה כך שהפונקציה‬
‫)‪ K(x, z‬ניתנת לחישוב ישיר‪.‬‬
‫הבסיס תיאורטי הוא שפונקציית הגרעין ‪ K‬על מרחב ‪ X‬היא פונקציה רציפה שהינה סימטרית‪ ,‬חיובית מוגדרת‪ .‬לכן היא‬
‫𝑀∑ = )𝑧 ‪ ,𝐾(𝑥,‬כאשר ‪ M‬עשוי להיות אינסופי ו })𝑥( 𝑚𝜙{ פונקציות בסיס מתאימות‪.‬‬‫ניתנת לביטוי ע"י )𝑧( 𝑚𝜙)𝑥( 𝑚𝜙 ‪𝑚=1‬‬

‫מכאן כי כל פונקציית גרעין )𝑧 ‪ 𝐾(𝑥,‬מגדירה מכפלה פנימית בין פונקציות בסיס‪.‬‬


‫כדי לדעת מהן פונקציות הבסיס המתאימות לפונקציית גרעין נתונה‪ ,‬נחשוב מהו המרחב הנפרש על ידי פונקציות בסיס אלה‪.‬‬
‫ניתן לוודא כי זהו לפחות המרחב הנפרש על ידי אוסף הפונקציות }𝑋 ∈ ‪.{𝐾(𝑥, 𝑧0 ): 𝑧0‬‬
‫המסווג המתקבל פה יהיה‪ ,‬בדומה לסעיף הקודם‪ ,‬מהצורה‬
‫𝑛‬
‫𝑇‬
‫)𝑏 ‪𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝜙(𝑥) + 𝑏) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑖 𝑦𝑖 𝐾(𝑥𝑖 , 𝑥) +‬‬
‫‪𝑖=1‬‬
‫פונקציות גרעין נפוצות‪:‬‬
‫‪‖𝑥−𝑧‖2‬‬
‫גרעין גאוסי‪ .𝐾𝜆 (𝑥, 𝑧) = 𝑒 − 𝜆 :‬הפונקציות ) ‪ 𝐾(𝑥, 𝑧0‬הן גאוסיאנים רדיאליים בעלי רוחב נתון‪ .‬מרחב פונקציות‬ ‫‪‬‬
‫הבסיס הוא המרחב הנפרש ע"י כל הגאוסיאנים האלה (מרחב אינסוף‪-‬מימדי)‪.‬‬
‫המסווג המתקבל במקרה זה יהיה מהצורה‪:‬‬
‫𝑛‬
‫‪‖𝑥−𝑧‖2‬‬
‫‪−‬‬
‫𝑒 𝑖𝑦 𝑖𝛼 ∑ ‪𝑦̂ = 𝑠𝑖𝑔𝑛 (𝑏 +‬‬ ‫) 𝜆‬
‫‪𝑖=1‬‬
‫גרעין פולינומיאלי‪ 𝐾(𝑥, 𝑧) = (1 + 𝑥 𝑇 𝑧)𝐿 :‬כאשר ‪.L ≥ 1‬‬ ‫‪‬‬
‫הפונקציות ) ‪ 𝐾(𝑥, 𝑧0‬פה הן פולינומים רבי משתנים מסדר ‪ L‬ברכיבי הוקטור ‪ .x‬לדוגמא עבור ‪ L=2‬נקבל‪:‬‬
‫‪1‬‬ ‫‪1‬‬
‫⟩)𝑧‪𝐾(𝑥, 𝑧) = (1 + 𝑥 𝑇 𝑧)2 = 1 + 2𝑥𝑧 + 𝑥 2 𝑧 2 = ⟨(√2𝑥 ) , (√2‬‬
‫‪𝑥2‬‬ ‫‪𝑧2‬‬
‫והמסווג יהיה מהצורה‪:‬‬
‫𝑛‬
‫𝐿‬
‫)𝑧 𝑇𝑖𝑥 ‪𝑦̂ = 𝑠𝑖𝑔𝑛(∑ 𝛼𝑖 𝑦𝑖 (1 +‬‬
‫‪𝑖=1‬‬
‫שימוש מעין זה בפונקציית גרעין לחישוב מכפלות פנימיות במימד גבוה מכונה ה ‪ .Kernel Trick‬הוא שימושי גם לבעיות‬
‫נוספות בלמידה חישובית כגון ‪ PCA‬ועוד‪.‬‬

‫אלגוריתם למציאת ‪ w, b‬עבור בעיית ‪ SVM‬פרידה לינארית‬


‫ראשית‪ ,‬יש להבין אם ה ‪ Data‬פריד לינארית או לא‪ .‬אם הוא לא פריד לינארית‪ ,‬נשתמש ב ‪ .Soft SVM‬אחרת ‪.Hard‬‬
‫כעת יש להבין מהמידע כמה ‪ SV‬קיימים – אפס אם קיימת מחלקה אחת בלבד‪ ,‬אחד בלתי אפשרי ולכן ‪ 1‬יהיה המס'‬
‫המינימלי‪ ,‬איתו ננסה לפתור‪.‬‬
‫מהמידע ננסה להבין מי הנקודות אשר הן ה ‪ ,SV‬בעבור ‪ n‬וקטורי תמיכה‪.‬‬
‫נקבל תנאי על ‪ .∑𝑛𝑖=1 𝛼𝑖 𝑦𝑖 = 0‬אם הבעיה בינארית‪ ,‬ניתן להניח כי תיוג ‪ 𝑦1 = 1‬ו ‪.𝑦2 = −1‬‬
‫כעת מתקיים לכל ‪ SV‬כי ‪.𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1‬‬
‫בנוסף מתקיים כי 𝑖𝑦 𝑖𝑥 𝑖𝛼 ‪.𝑤 = ∑𝑛𝑖=1‬‬
‫סה"כ נקבל משוואה אחת עבור ‪ n‬משתני 𝛼‪ n ,‬משוואות עבור ‪ n‬משתני ‪ w‬ועוד ‪ n‬משוואות עבור הקשר בין 𝑤 ל 𝛼 ‪.‬‬
‫סה"כ נקבל עבור ‪ 2n‬משתנים ‪ 2n+1‬משוואות‪ ,‬נפתור ונקבל את 𝑤 ו 𝑏‪.‬‬
‫נשים לב כששואלים על מספר וקטורי התמיכה‪ ,‬שלא התווסף לנו וקטור תמיכה שפספסנו בחישוב – כלומר נק' שהנחנו‬
‫שאינה מזיזה את השוליים אך כיוון שנמצאת על המרחק המינימלי של השוליים תיחשב כוקטור תמיכה גם כן‪.‬‬

‫‪49‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫עצי החלטה‬
‫עצי החלטה הם כלי נפוץ ופשוט יחסית לסיווג ורגרסיה‪ .‬בבסיסו‪ ,‬עץ החלטה הינו מימוש מסוים של פונקציות לוגיות (כניסה‬
‫ויציאה דיסקרטית)‪ ,‬אולם ניתן ליישמו גם עבור משתנים רציפים על ידי דיסקרטיזציה‪.‬‬
‫בבניית עץ החלטה‪ ,‬נרצה ליצור סיווג נכון של מרבית הדוגמאות ושיהיה קצר ופשוט ככל הניתן‪ .‬באופן זה‪ ,‬המימוש עצמו‬
‫יהיה פשוט ותהיה יכולת הכללה‪ :‬מניעת התאמת יתר לאוסף הדוגמאות הנתון‪.‬‬
‫השכיחות היחסית או "הפילוג האמפירי" של כל אחד מהסיווגים האפשריים בקבוצת הדוגמאות נתונה ע"י‪:‬‬
‫𝑁‬
‫‪1‬‬
‫𝐾 ‪𝑝̂𝑗 = ∑ 𝕀{𝑦𝑖 = 𝑗} , ∀𝑗 = 1, … ,‬‬
‫𝑁‬
‫‪𝑖=1‬‬

‫𝑁} 𝑖𝑦 ‪𝐷 = {𝑥𝑖 ,‬‬


‫עבור ‪ D‬אוסף של ‪ N‬דוגמאות מסווגות ‪𝑖=1‬‬

‫מדדים עובר אוסף המידע ‪D‬‬


‫מדדי אחידות של ‪:D‬‬
‫𝑗̂𝑝 𝑥𝑎𝑚 ‪𝑄(𝐷) = 1 −‬‬ ‫שגיאת הסיווג‪:‬‬ ‫‪‬‬
‫}𝐾‪𝑗∈{1,…,‬‬
‫) 𝑗̂𝑝 ‪𝑄(𝐷) = ∑𝑗∈{1,…,𝐾} 𝑝̂𝑗 (1 −‬‬ ‫אינדקס ‪: Gini‬‬ ‫‪‬‬
‫‪1‬‬
‫= )𝐷(𝐻 = )𝐷(𝑄‬ ‫) ( 𝑔𝑜𝑙 𝑗̂𝑝 }𝐾‪∑𝑗∈{1,…,‬‬
‫𝑗̂𝑝‬
‫) 𝑗̂𝑝(𝑔𝑜𝑙 𝑗̂𝑝 }𝐾‪= − ∑𝑗∈{1,…,‬‬ ‫אנטרופיה‪:‬‬ ‫‪‬‬

‫תכונות של )‪:Q(D‬‬
‫‪ 𝑄(𝐷) = 0‬עבור פילוג חד‪-‬ערכי ( ‪ 𝑝̂𝑗 = 1‬עבור ‪ j‬כלשהוא)‪.‬‬
‫‪1‬‬
‫)𝐷(𝑄 מקבל את ערכו המקסימלי עבור פילוג אחיד ) = 𝑗̂𝑝(‬
‫𝐾‬
‫מדד אחידות של ‪ D‬אשר אינו מקיים את תכונות אלו אינו יכול להיות‬
‫מדד לעץ החלטה‪.‬‬

‫נתון כי מאפיין ‪ A‬כלשהו מחלק את ‪ D‬למספר תת קבוצות‪ .‬נסמן תת קבוצות אלו על ידי }𝑀 ‪ {𝐷𝑚 , 𝑚 ∈ 1, … ,‬כאשר ‪ M‬הינו‬
‫אוסף הערכים האפשריים של ‪.A‬‬
‫מדד האחידות המשוקלל עבור האוסף } 𝒎𝑫{ יוגדר עתה על ידי‪:‬‬
‫| 𝑚𝐷|‬
‫𝑀∑ = )𝐴|𝐷(𝑄 כאשר ) 𝑚𝐷(𝑄 הינו מדד האחידות של תת הקבוצה ‪.Dm‬‬
‫‪𝑚=1‬‬ ‫) 𝑚𝐷(𝑄‬
‫𝑁‬

‫מדד טיב של מאפיין ‪ A‬ביחס לקבוצת הדוגמאות ‪ D‬יוגדר עתה על ידי‪𝛥𝑄(𝐷|𝐴) = 𝑄(𝐷) − 𝑄(𝐷|𝐴) :‬‬
‫ניתן לראות כי זהו הגידול באחידות (או הקטנה בחוסר האחידות) של האוסף } ‪ {Dm‬לעומת קבוצת הדוגמאות המקורית ‪.D‬‬
‫כאשר ‪ Q‬הינה האנטרופיה‪ ΔQ(D|A) ,‬נקרא גם תוספת המידע ‪ information gain‬של המאפיין ‪.A‬‬
‫המאפיין ‪ A‬שנבחר הוא (כעיקרון) זה שעבורו השיפור בתוספת המידע הינו המקסימלי כלומר )𝐴|𝐷(𝑄 מינימלי‪.‬‬

‫חישוב פרקטי של המאפיין הטוב ביותר‬


‫עבור טבלת מאפיינים והחלטות (תוצאות)‪ ,‬נבחן את המאפיין הטוב ביותר בצורה הבאה‪:‬‬
‫א‪ .‬לכל מאפיין בטבלת המאפיינים‪:‬‬
‫‪ .a‬לכל תת קבוצה של המאפיין בטבלת המאפיינים‪:‬‬
‫‪ .i‬נחשב שכיחות יחסית של המאפיין לגבי כ"א מהתוצאות האפשריות – עבור סיווג בינארי‪,‬‬
‫נסכום כך ש ‪ N‬הוא גודל תת הקבוצה והאינדיקטורים פעם אחת עבור האופציה ש ‪y =1‬‬
‫ופעם אחת עבור האופציה ש ‪.y=0‬‬
‫‪ .ii‬נחשב מדד אחידות רלוונטי (ג'יני‪ ,‬אנטרופיה‪ ,‬שגיאת סיווג) לפי תת קבוצה זו בלבד‪.‬‬
‫‪ .b‬נחשב את מדד האחידות המשוקלל לגבי כל תת הקבוצות של המאפיין‪ ,‬כאשר ‪ N‬הוא מס' הדוגמאות‬
‫הכולל בטבלה ו | 𝑚𝐷| הוא גודל תת הקבוצה של המאפיין‪ Q ,‬הוא הרלוונטי לתת הקבוצה משלב ‪.a.ii.‬‬

‫‪51‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫ב‪ .‬נבחר את המאפיין אשר מדד האחידות המשוקלל שלו הוא המינימלי‪.‬‬
‫ג‪ .‬נחלק את השורש לפי המאפיין הנבחר‪ .‬נסתכל על האופציות שקיבלנו‪ ,‬ונפעיל שוב את שלב א'‪.‬‬

‫בעיית התאמת היתר ‪Overfitting‬‬


‫לדוגמא‪ ,‬עבור מידע בו יש שם לכל אדם‪ ,‬גובה‪ ,‬שיער וכדומה‪ .‬ניתן יהיה לסווג את הדוגמאות באופן מושלם רק על סמך‬
‫"מאפיין" השם‪ ,‬ולכן מאפיין זה בוודאי ייבחר בצומת הראשונה לפי קריטריון תוספת המידע‪ .‬אולם לקריטריון זה ערך מועט‬
‫לצורך חיזוי‪.‬‬
‫מקור הבעיה‪ :‬בקריטריון שבו השתמשנו קיימת העדפה מובנית למאפיינים בעלי מספר ערכים רב‪.‬‬
‫פתרון אפשרי לבעיה יהיה נרמול תוספת המידע של מאפיין ‪ A‬באופן הבא‪:‬‬
‫)𝐴| 𝐷(𝑄𝛥‬
‫)𝐴‪𝛥𝑄̃ (𝐷|𝐴) = 𝑆𝑝𝑙𝑖𝑡(𝐷,‬‬

‫כאשר )𝐴 ‪ 𝑆𝑝𝑙𝑖𝑡(𝐷,‬הינו מקדם פיצול מתאים‪ .‬הגדרה מקובלת תהיה )𝐴(𝑛𝑔𝑜𝑙 = )𝐴 ‪𝑆𝑝𝑙𝑖𝑡(𝐷,‬‬
‫כאשר )‪ n(A‬הינו מספר הערכים השונים של המאפיין ‪ ,A‬המתקבלים על פני איברי הקבוצה ‪.D‬‬

‫מאפיינים רציפים‬
‫במקרה הרציף‪ ,‬המבחן המקובל לגבי ‪ x‬יהיה מהצורה של אי שוויון‪ .‬לפיכך‪ ,‬לבחירת המאפיין בכל צומת יש להוסיף את‬
‫בחירת ערך הסף 𝑗𝑡 כך שהמאפיין יהיה 𝑗𝑡 ≤ 𝑗𝑥‪ .‬עבור כל מבחן ‪ A‬ניתן להגדיר את תוספת המידע באופן הרגיל‬
‫)𝐴|𝑆(𝑄𝛥 = ) 𝑗𝑡 ‪𝛥𝑄(𝑆|𝑥𝑗 ,‬‬
‫השלב הבא הוא מקסימיזציה על הסף 𝑗𝑡‪𝛥𝑄(𝑆|𝑥𝑗 , 𝑡𝑗∗ ) = 𝑚𝑎𝑥 𝛥𝑄(𝑆|𝑥𝑗 , 𝑡𝑗 ) :‬‬
‫𝑗𝑡‬

‫ולאחר מכן בחירת המאפיין 𝑗𝑥 שעבורו ערך זה הינו מקסימלי‪.‬‬

‫‪50‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬

‫שילוב של מסווגים‪Boosting , Bagging :‬‬


‫המטרה הבסיסית היא שימוש במספר מסווגים הנלמדים על אותו ‪ data‬ומשולבים על מנת לקבל ביצועים משופרים ויציבות‬
‫עדיפה‪.‬‬

‫בפרק זה נעסוק בבעיית הסיווג הבינארי בלבד‪.‬‬

‫מודל הלומד החלש‬


‫בבעיית הלמידה המודרכת אנו נדרשים ללמוד פונקציה 𝑌 → 𝑋 ‪ 𝑓0 :‬בעזרת אוסף דוגמאות‪ .‬המודל הבסיסי בו נעסוק כולל את‬
‫המרכיבים הבאים‪:‬‬
‫א‪ .‬פונקציית מטרה – נניח בעיית סיווג בינארי }‪ 𝑌 = {−1, 1‬כאשר 𝑌 → 𝑋 ‪𝑓0 :‬‬
‫ב‪ .‬לומדים חלשים – אוסף 𝑌 → 𝑋 ‪ ℋ:‬פונקציות שמתוכו נבחר את הפונ' 𝑡‪ ℎ‬לכל ‪ .t‬קב' זו היא מחלקת ההשערות החלשות‪.‬‬
‫ג‪ .‬פונקציית השערוך – פונקציית השערוך של ההשערה תהיה מהצורה ))𝑥( 𝑡‪ ,𝐻(𝑥) = 𝑠𝑖𝑔𝑛(∑𝑇𝑡=1 𝛼𝑡 ℎ‬כאשר בחירת‬
‫ההשערות 𝑡‪ ℎ‬והפרמטרים 𝑡𝛼 תלויית אלגוריתם‪.‬‬
‫נאמר שאלגוריתם לומד (חזק) אם לכל ‪ , 𝜀, 𝛿 > 0‬האלגוריתם ילמד בעזרת מספיק מידע השערה עם סיכון ]𝑦 ≠ )𝑥(‪𝑃𝑟[ℎ‬‬
‫קטן מ 𝜀 בהסתברות לפחות 𝛿 ‪.1 −‬‬
‫אלגוריתם לומד חלש אם לכל פילוג 𝑡𝐷 על הנקודות (בפרט) השגיאה‬

‫= ] 𝑖𝑦 ≠ ) 𝑖𝑥( 𝑡‪𝜀𝑡 = 𝑃𝑟 [ℎ‬‬ ‫∑‬ ‫)𝑖( 𝑡𝐷‬


‫𝑡𝐷~𝑖‬
‫𝑖𝑦≠) 𝑖𝑥( 𝑡‪𝑖:ℎ‬‬
‫‪1‬‬
‫מקיימת כי 𝛾 ‪ .𝜀𝑡 < 2 −‬נשים לב כי המשמעות היא מסווג הטוב במעט ממסווג אקראי‪.‬‬
‫אם ‪ 𝛾 > 0‬אז למידה חלשה תגרור למידה חזקה‪.‬‬
‫הרעיון הבסיסי מאחורי כל אלגוריתמי ה ‪ boosting‬הוא שמובטח לנו כי הלומד החלש יכול ללמוד (במשהו) ביחס לכל פילוג‪.‬‬
‫זו הנחה חזקה למדי‪ .‬ישנן כמה טכניקות לשילוב מסווגים‪ ,‬למשל ‪ re-weighting ,Sampling‬ו‪.Bagging‬‬

‫‪Bagging‬‬
‫מקור השם ‪ .Bootstrap aggregating‬הרעיון הוא לקחת את האוסף של ‪ n‬הדוגמאות ולדגום מתוכו ‪ n‬דוגמאות (עם החלפה‪:‬‬
‫אותה דגימה יכולה להידגם פעמיים) ‪ m‬פעמים‪.‬‬
‫לדוגמא‪ ,‬נניח שאנו מקבלים ‪ n=10‬הטלות של קוביה }‪ {1,1,2,5,3,2,4,1,6,4‬כאשר לכל הטלה יש גם תגית כלשהי‪.‬‬
‫אז ממדגם זה יוצרים ‪ m=4‬מדגמים חדשים‬
‫}‪{5,6,3,3,4,2,1,1,5,3}, {1,1,3,1,4,1,3,3,1,5}, {1,1,5,3,1,2,2,2,1}, {3,1,2,4,1,6,3,4,1,3‬‬
‫כאשר לכל דוגמא יהיה את התגית המקורית שלה‪ .‬מספר הפעמים שכל דוגמא מופיע במדגמים החדשים יכול להיות שונה‬
‫ממספר הפעמים שהדוגמא הופיעה במדגם המקורי‪.‬‬
‫לאחר מכן‪ ,‬מאמנים חזאי לכל אחד מ – ‪ m‬המדגמים כדי לחזות את התגיות של כל דוגמא‪ .‬לאחר האימון‪ ,‬בהינתן דוגמא‬
‫חדשה‪ ,‬לוקחים את ה ‪( majority vote‬סיווג) או ממוצע (רגרסיה) של ‪ m‬החזאים השונים‪.‬‬
‫יתרונות השיטה הינם יציבות‪ ,‬הורדת שונות ומניעת התאמת יתר‪ ,‬התגברות על ‪( outliers‬דוגמאות שקריות)‪.‬‬
‫נשים לב שעבור מודלים ליניאריים (רגרסייה) הממוצע ישאר לינארי ולכן שיטה זו פחות אפקטיבית‪.‬‬

‫‪Adaboost‬‬
‫הרעיון‪:‬‬
‫שמירת משקל לדגימות (פילוג ( 𝑡𝐷‬ ‫‪.0‬‬
‫מציאת מסווג חלש ביחס לפילוג 𝑡𝐷 הנוכחי‬ ‫‪.1‬‬
‫שינוי המשקל תוך הדגשת דוגמאות שסווגו לא נכון‬ ‫‪.3‬‬
‫חזרה ל‪.0-‬‬ ‫‪.4‬‬
‫המסווג הסופי הוא קומבינציה לינארית של המסווגים החלשים‪.‬‬
‫אלגוריתם ה ‪ Adaboost‬מאופיין על ידי בחירה מסוימת המאפשרת לו להיות אדאפטיבי‬

‫‪52‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫(‪ .) Adaptive Boosting – Adaboost‬ניתן לרשום את האלגוריתם בצורה הבאה‪:‬‬
‫‪ .0‬לכל ‪ , t=1,…T‬פתרו את בעיית האופטימיזציה הבאה‪:‬‬
‫𝑛‬
‫‪1‬‬ ‫𝑡‬
‫)𝑖𝑥(𝜏‪(𝛼𝑡 , ℎ𝑡 ) = 𝑎𝑟𝑔 𝑚𝑖𝑛 ∑ 𝑒 −𝑦𝑖 ∑𝜏=1 𝛼𝜏ℎ‬‬
‫𝑛 ‪𝛼𝑡 ,ℎ𝑡 ∈ℋ‬‬
‫‪𝑖=1‬‬
‫‪ .1‬המסווג הסופי הוא ‪:‬‬
‫𝑇‬

‫))𝑥( 𝑡‪𝐻(𝑥) = 𝑠𝑖𝑔𝑛 (∑ 𝛼𝑡 ℎ‬‬


‫‪𝑡=1‬‬

‫𝑛 ‪1‬‬
‫האמפירי ) 𝑖𝑦 ‪∑ ℓ(∑𝑡𝜏=1 𝛼𝜏 ℎ𝜏 (𝑥𝑖 ),‬‬ ‫שלב ‪ 0‬באלגוריתם ממזער בצורה סידרתית ‪ coordinate descent‬את הסיכון‬
‫‪𝑛 𝑖=1‬‬

‫עם פונקציית מחיר אקספוננציאלית 𝑦̂𝑦‪ℓ(𝑦̂, 𝑦) = 𝑒 −‬על אוסף הדוגמאות‪.‬‬


‫פונקציה זו חוסמת מלמעלה את שגיאת הסיווג (מחיר ‪ )1-0‬כפי שניתן לראות‪.‬‬

‫שלב ‪ 0‬של האלגוריתם מורכב‪ ,‬לכן נהוג לפרק אותו לכמה שלבים‪ .‬אם נפתור חלקית‬
‫את בעיית האופטימיזציה‪ ,‬ונוסיף תנאי עצירה‪ ,‬נקבל את האלגוריתם הפשוט הבא‪:‬‬
‫‪1‬‬
‫𝑛 = )𝑖( ‪∀𝑖: 𝐷1‬‬ ‫‪ .0‬אתחול‪ :‬פילוג אחיד‬

‫)𝑖( 𝑡𝐷 𝑖𝑦≠)𝑖𝑥( 𝑡‪𝜀𝑡 = 𝑃𝑟 [ℎ𝑡 (𝑥𝑖 ) ≠ 𝑦𝑖 ] = ∑𝑖:ℎ‬‬ ‫‪ .1‬נסמן את השגיאה‪:‬‬


‫𝑡𝐷~𝑖‬

‫‪ .3‬בהינתן ‪ Dt‬מצאו מסווג חלק }‪ ℎ𝑡 : 𝑋 → {1, −1‬עם שגיאה ממוצעת נמוכה (קטנה מחצי)‪.‬‬
‫‪1‬‬ ‫) 𝑡𝜀‪(1−‬‬
‫( 𝑛𝑙 ‪𝛼𝑡 = 2‬‬ ‫𝑡𝜀‬
‫)‬ ‫‪ .4‬קבעו‬

‫) ‪e−αtyt ht (xi‬‬
‫‪.∑ni=1 Dt+1 (i) = 1‬‬ ‫כאשר ‪ Zt‬מנרמל כך ש‬ ‫( )‪Dt+1 (i) = Dt (i‬‬ ‫‪Zt‬‬
‫)‬ ‫‪ .5‬עדכון‪:‬‬

‫‪ .6‬חזרו לשלב ‪ 1‬עד שאיזשהו תנאי עצירה מסופק‪.‬‬


‫‪ .7‬ההשערה הסופית היא‪:‬‬
‫‪T‬‬

‫))‪H(x) = sign (∑ αt ht (x‬‬


‫‪t=1‬‬

‫האלגוריתם אדפטיבי כי אין צורך לדעת מראש את ‪( T‬מספר האיטרציות) או את השגיאות או חסם עליהן‪.‬‬
‫‪1‬‬ ‫𝑡𝜀‪1−‬‬
‫( ‪ 𝛼𝑡 = 2 ln‬ויחס הצלחת האימון לשגיאתו‪.‬‬ ‫𝑡𝜀‬
‫הקבוע )‬ ‫נשים לב כי קיים יחס לינארי בין‬
‫כמו כן‪ ,‬אם השגיאה גדולה מחצי וקרובה לאחד‪ ,‬נוכל להפוך את החיזוי של האלגוריתם ולקבל שגיאה קטנה מחצי וקרובה ל‪-‬‬
‫‪ .1‬במקרה כזה ערך הקבוע ‪ αt‬יהיה שלילי‪.‬‬

‫ניתוח שגיאת האימון‬


‫כזכור ))𝑥( 𝑡‪.𝐻(𝑥) = 𝑠𝑖𝑔𝑛(∑𝑇𝑖=1 𝛼𝑡 ℎ‬‬
‫𝑇‬ ‫‪2‬‬ ‫‪1‬‬
‫𝜏𝛾 ‪.𝐿̂𝑛 (𝐻) ≤ 𝑒 −2 ∑𝜏=1‬‬ ‫טענה‪ :‬אם נסמן 𝑡𝛾 ‪ 𝜀𝑡 = 2 −‬ואת הסיכון האמפירי ב )𝐻( 𝑛̂𝐿 אזי‬
‫‪2‬‬
‫𝛾𝑇‪.𝐿̂𝑛 (𝐻) ≤ 𝑒 −2‬‬ ‫מכאן אם ‪ γt > γ > 0‬שגיאת האימון תלך ל‪:1‬‬
‫הוכחה‪ :‬מכיוון ש 𝑥 𝑒 ≤ ]‪ ,𝐼[𝑥 > 0‬כאשר ‪ I‬היא פונקציית האינדיקטור‪ ,‬נקבל‬
‫𝑛‬ ‫𝑛‬ ‫𝑇‬ ‫𝑛‬
‫‪1‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫𝑇‬
‫= )𝐻( 𝑛̂𝐿‬ ‫)𝑖𝑥(𝑡‪∑ 𝐼[−𝑦𝑖 𝐻(𝑥𝑖 ) > 0] = ∑ 𝐼 [−𝑦𝑖 ∑ 𝛼𝑡 ℎ𝑡 (𝑥𝑖 ) > 0] ≤ ∑ 𝑒 −𝑦𝑖 ∑𝑡=1 𝛼𝑡 ℎ‬‬
‫𝑛‬ ‫𝑛‬ ‫𝑛‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬ ‫‪𝑡=1‬‬ ‫‪𝑖=1‬‬

‫‪53‬‬
‫סמסטר (קורונה) אביב תש"פ ‪0505‬‬ ‫מערכות לומדות – ‪046195‬‬
‫𝑇‬ ‫‪2‬‬
‫נראה כי הגודל מצד ימין חסום מלמעלה ע"י 𝜏𝛾 ‪ 𝑒 −2 ∑𝜏=1‬וכך נוכיח‪.‬‬
‫כזכור 𝑡‪ 𝑍𝑡 = ∑𝑛𝑖=1 𝐷𝑡 (𝑖)𝑒 −𝑦𝑖𝛼𝑡ℎ‬ולכן‪:‬‬

‫מכאן ניזכר כי 𝑛 = ‪ 𝑍0‬ולכן‪:‬‬

‫‪1‬‬
‫כאשר בשוויון הראשון השתמשנו בתוצאה *‪ ,‬בשוויון השני השתמשנו בתוצאה **‪ ,‬בשלישי הצבנו 𝑡𝜀 ‪ 𝛾𝑡 = 2 −‬ובאי‬
‫‪2‬‬
‫שוויון בסוף הצבנו 𝑥‪.√1 − 4𝑥 2 ≤ 𝑒 −2‬‬

‫כדי שהאלגוריתם יגיע לשגיאות אימון ‪ ,1‬נדרוש עבור משפחת המסווגים החלשים שתפרוס את המרחב (מהוכחת‬ ‫‪‬‬
‫התכנסות האלגוריתם)‪ .‬תמיד יהיה קיים לנו מסווג חלש שמאפשר שגיאה קטנה ממש מחצי‪ .‬לדוגמא‪ ,‬משפחת‬
‫המסווגים הלינארים‪.‬‬
‫שגיאת הבוחן לא בהכרח תגיע לאפס‪ ,‬ולא בהכרח לא תגיע לאפס‪ ,‬כיוון שהאלגוריתם עוצר כאשר שגיאת האימון‬ ‫‪‬‬
‫מגיעה לאפס‪ .‬למשל‪ ,‬עבור סט אימון של דוגמא אחת‪ ,‬כל מסווג חלש יסווג אותה נכון‪ ,‬ובהינתן סט בוחן של דוגמא‬
‫בצד השני של המסווג הוא יטעה בדוגמא זו‪.‬‬

‫ניתוח שגיאת ההכללה‬


‫הרגולריזציה מתבטאת במספר דרכים‪:‬‬
‫‪ .0‬בחירת מסווג "חלש" (מסווג חזק מדי יגרום ל‪.)over fitting‬‬
‫‪ .1‬בחירת ‪.T‬‬
‫שגיאת ההכללה (הסיכון האמיתי) היא בהסתברות גבוהה חסומה ע"י ‪:‬‬
‫‪n‬‬
‫‪1‬‬ ‫‪Td‬‬
‫√‪L(H) ≤ ∑ 𝕀[H(xi ) ≠ yi ] + C‬‬
‫‪n‬‬ ‫‪n‬‬
‫‪i=1‬‬
‫כאשר התעלמנו מהגורמים ההסתברותיים‪ d ,‬הוא גודל המודד את מורכבות הלומד החלש ו‪ T‬הוא מספר האיטרציות‪.‬‬
‫במקרים רבים ביצועי אלגוריתם ה‪ Adaboost‬ישתפרו אם נמשיך לאמן גם אחרי ששגיאת האימון היא ‪.1‬‬

‫‪54‬‬

You might also like