Professional Documents
Culture Documents
מערכות לומדות - תומר קרן סיכום למבחן
מערכות לומדות - תומר קרן סיכום למבחן
מערכות לומדות - תומר קרן סיכום למבחן
תוכן עניינים
חזרה על הסתברות 3 ..............................................................................................................................................................
משתנה אקראי 3 ...................................................................................................................................................................................
הסתברות משותפת ( ,)jointהסתברות שולית ( ,)marginalהסתברות מותנית (3 ....................................................................... .)conditional
נוסחת ההסתברות השלמה וכלל 3 ................................................................................................................................................. bayes
וקטור אקראי גאוסי 4 ...........................................................................................................................................................................
כופלי לגראנז' 4 .....................................................................................................................................................................................
שערוך א-פרמטרי 0 ...............................................................................................................................................................
שערוך – Cumulative Distribution Function – CDFמשערך אמפירי 5 ...............................................................................................
שערוך - Probability Density Function – PDFהיסטוגרמה 5 ..............................................................................................................
שערוך 6 ..................................................................................................................................... Kernel Density Estimation – KDE
שערוך פרמטרי 7 ...................................................................................................................................................................
שערוך בייסיאני 7 ..................................................................................................................................................................................
משערך התוחלת המותנית 7 ...................................................................................................................................................................
משערך )7 ..............................................................................................................................................Maximum a-Posteriori (MAP
שערוך לא בייסיאני 8 .............................................................................................................................................................................
משערך הסבירות המירבית 8 .......................................................................................................................................................... MLE
דוגמאות בסיסיות 8 ..............................................................................................................................................................................
הערכת הממוצע של פילוג נורמלי8 .........................................................................................................................................................:
פילוג ברנולי (מטבע לא מאוזן)8 ............................................................................................................................................................. :
פילוג דיסקרטי (הטלת קוביה לא מאוזנת) 9 ...............................................................................................................................................
דוגמא – תיוג עם רעש 9 .........................................................................................................................................................................
פילוג 9 .................................................................................................................................................................................. Rayleigh
אפיון טיב של משערכים 65 .....................................................................................................................................................
– Biasהיסט של משערך 01....................................................................................................................................................................
– Varianceשונות של משערך 01.............................................................................................................................................................
דוגמאות לחישובים11 ............................................................................................................................................................................
עיבוד מקדים וניתוח מידע 60 ...................................................................................................................................................
מבוא ,סוגי נתונים ,פעולות בסיסיות ,מאפיינים01.....................................................................................................................................
סוגי נפוצים של מידע 11 .........................................................................................................................................................................
מאפיינים 11 .........................................................................................................................................................................................
מרכוז ונרמול 11 ....................................................................................................................................................................................
הורדת מימד : PCAניתוח רכיבים עיקריים 01.........................................................................................................................................
הגדרה ותזכורות 11 ...............................................................................................................................................................................
כיוונים ורכיבים העיקריים 11 ...................................................................................................................................................................
אלגוריתם ה PCAלהורדת המימד 11 ........................................................................................................................................................
שחזור לינארי עם שגיאה מינימלית 11 ......................................................................................................................................................
תכונת השונות המירבית 11 ....................................................................................................................................................................
בחירת המימד 11 .............................................................................................................................................................................. m
אשכול 60 ....................................................................................................................................................CLUSTERING
מדדי קרבה וחלוקה 11 ...........................................................................................................................................................................
אשכול צובר 11 .....................................................................................................................................................................................
אלגוריתם 11 .........................................................................................................................................................K-means Clustering
מבוא ללמידה מודרכת 61 ........................................................................................................................................................
בעיית הלמידה המודרכת ,סיווג ורגרסיה 06..............................................................................................................................................
סוגי חזאים 06.......................................................................................................................................................................................
מודל למידה סטטיסטי ומדדי טיב 06.......................................................................................................................................................
הסיכון – המחיר האמיתי 11 ....................................................................................................................................................................
הסיכון האמפירי17 ................................................................................................................................................................................
בעיות יסוד בלמידה מודרכת 07...............................................................................................................................................................
הערכת ביצועים באמצעות קבוצות בוחן 08...............................................................................................................................................
סיווג בעזרת אלגוריתם 08........................................................................................................................ (K Nearest Neighbors) K-NN
דוגמא – סיווג בעזרת 19 .......................................................................................................................................... Ordinal Regression
סיווג גנרטיבי 05 ...................................................................................................................................................................
פונקציות הפסד נפוצות 12 .....................................................................................................................................................................
סיווג בייסיאני אופטימלי 11....................................................................................................................................................................
הסתברות שגיאה מינימלית 11 ................................................................................................................................................................
מסווג בייס במקרה הגאוסי 11 .................................................................................................................................................................
הכללה למדד סיכון כללי 11 .....................................................................................................................................................................
מסווג בייס נאיבי (11........................................................................................................................................ )Naïve Bayes Classifier
הגישה הגנרטיבית 11 ............................................................................................................................................................................
13.............................................................................................................................................Linear Discriminant Analysis –LDA
14.......................................................................................................................................... Quadric Discriminant Analysis – QDA
בעיית הרגרסיה 00 ................................................................................................................................................................
מאפיינים ופונקציות בסיס 15..................................................................................................................................................................
פונקציות בסיס נפוצות 11 ......................................................................................................................................................................
הגדרת ובחירת המאפיינים 11 .................................................................................................................................................................
רגרסיה לינארית 16................................................................................................................................................................................
היפוך מטריצה 1על 17 ....................................................................................................................................................................... 1
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
דוגמא לבניית מטריצת מאפיינים 17 .........................................................................................................................................................
רגולריזציה 17.......................................................................................................................................................................................
רגולריזציה ע"י נורמה ריבועית 17 ..................................................................................................................... Tikhonov Regulatization
רגולריזציה על ידי נורמת ה 𝟏𝓵 18 ............................................................................................................................................................
דוגמא לבעיית רגרסיה עם רגולריזציה 19 ..................................................................................................................................................
אופטימיזציה ללא אילוצים 12................................................................................................................................................................
אלגוריתם הגרדיאנט 12............................................................................................................................................. Gradient Descent
חישוב הגרדיאנט למודל הלינארי 19 .........................................................................................................................................................
אלגוריתם עדכון סדרתי 12 ......................................................................................................................................................................
מודל לינארי עם פונקציית אקטיבציה 12 ...................................................................................................................................................
פרוש סטטיסטי לבעיית הרגרסיה 30........................................................................................................................................................
מודל הרגרסיה הבסיסי ופונקציית השגיאה הריבועית 11 .............................................................................................................................
מודל רגרסיה בייסאני ופונקציית הרגולריזציה 11 ........................................................................................................................................
סיווג לינארי 33 .....................................................................................................................................................................
מסווג לינארי כללי 33.............................................................................................................................................................................
פונקציות אקטיבציה שכיחות 33..............................................................................................................................................................
אלגוריתם הפרספטרון 34.......................................................................................................................................................................
אלגוריתם לימוד הפרספטרון 11 ...............................................................................................................................................................
משפט התכנסות הפרספטרון 11 .............................................................................................................................................................
רגרסיה לוגיסטית 34..............................................................................................................................................................................
כוונון הפרמטרים11 ...............................................................................................................................................................................
כוונון הפרמטרים :גישת פונקציית מחיר 11 ...............................................................................................................................................
אלגוריתם הגרדיאנט 11 ..........................................................................................................................................................................
רשתות ניורונים מלאכותיות 33 ................................................................................................................................................
פרספטרון בודד 38.................................................................................................................................................................................
פונקציות הפעלה 18 ..............................................................................................................................................................................
רשתות היזון קדמי 38..........................................................................................................................Feed Forward Neural Networks
מבנה וסימון פרספטרון רב שכבתי19 .......................................................................................................................................................
כח ייצוג של רשת רב שכבתית 19 ............................................................................................................................................................
פונקציית השגיאה 32.............................................................................................................................................................................
ייצוג פונקציה באמצעות רשת היזון קדמית המכילה נוירונים מסוג 19 ................................................................................................... ReLU
אלגוריתם 95 ................................................................................................................................. BACK PROPAGATION
גרסא סדרתית 12 ..................................................................................................................................................................................
גרסת אצווה ( 11 ........................................................................................................................................................... )Batch update
סיכום והערות11 ...................................................................................................................................................................................
רשתות קונבולוציה 90 ............................................................................................................................................................
41................................................................................................................................................. Convolutional Neural Nets - CNN
היפר פרמטרים 43..................................................................................................................................................................................
סכמת האתחול 43..................................................................................................................................................................................
נרמול אצווה 43..................................................................................................................................................... batch normalization
99 ..................................................................................................................... SUPPORT VECTOR MACHINES-SVM
דוגמאות הניתנות להפרדה לינארית – 44................................................................................................................................ Hard SVM
בעיית האופטימיזציה הפרימאלית 11 .......................................................................................................................................................
תכונות פתרון ווקטור התמיכה 11 ............................................................................................................................................................
הבעיה הדואלית 11 ................................................................................................................................................................................
המקרה הכללי – 47............................................................................................................................................................... Soft SVM
הבעיה הדואלית של בעיית 17 ............................................................................................................................................... Soft - SVM
שילוב פונקציות בסיס 48........................................................................................................................................................................
שילוב פונקציות גרעין 42........................................................................................................................................................................
אלגוריתם למציאת w, bעבור בעיית SVMפרידה לינארית 42....................................................................................................................
עצי החלטה 05 ......................................................................................................................................................................
מדדים עובר אוסף המידע 51............................................................................................................................................................... D
חישוב פרקטי של המאפיין הטוב ביותר 51................................................................................................................................................
בעיית התאמת היתר 50........................................................................................................................................................Overfitting
שילוב של מסווגים00 ................................................................................................................... BOOSTING , BAGGING :
מודל הלומד החלש 51............................................................................................................................................................................
51.......................................................................................................................................................................................... Bagging
51........................................................................................................................................................................................ Adaboost
ניתוח שגיאת האימון 11 .........................................................................................................................................................................
ניתוח שגיאת ההכללה11 .......................................................................................................................................................................
2
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
חזרה על הסתברות
- מרח ב המדגם (אוסף התוצאות האפשריות בניסוי).
– ℱמרחב המאורעות (אוסף תת הקבוצות של .Ω
הסתברות – פונקציה ] . 𝑃: ℱ → [0,1ההסתברות למאורע Eהיא ).P(E
משתנה אקראי
משתנה אקראי הוא פונקציה .𝑃: 𝛺 → ℛ
עבור משתנה אקראי בדיד ,מוגדרת פונקציית הסתברות )𝑥 = 𝑋(𝑃 = )𝑥( 𝑥𝑃
𝑏
עבור משתנה אקראי רציף ,מוגדרת פונקציית צפיפות הסתברות 𝑥𝑑)𝑥( 𝑥𝑝 𝑎∫ = )𝑏 ≤ 𝑋 ≤ 𝑎(𝑃
∞
תוחלת של משתנה אקראי𝐸[𝑋] = ∑𝑖 𝑥𝑖 ⋅ 𝑝(𝑥𝑖 ) = ∫−∞ 𝑥 ⋅ 𝑓(𝑥)𝑑𝑥 = 𝜇 :
שונות של משתנה אקראי𝑉𝑎𝑟(𝑋) = 𝜎 2 = 𝐸[(𝑋 − 𝜇)2 ] = 𝐸[𝑋 2 ] − 𝜇2 :
שונות משותפת של שני משתנים𝐶𝑜𝑣(𝑋, 𝑌) = 𝐸[(𝑋 − 𝜇𝑥 )(𝑌 − 𝜇𝑦 )] = 𝐸[𝑋𝑌] − 𝜇𝑥 𝜇𝑦 :
אינדיקטור שווה ל 0אם התנאי בסוגריים מתקיים𝕀(𝐶) :
𝑟𝑜𝑖𝑟𝑝 ⋅ 𝑑𝑜𝑜𝑙𝑖𝑘𝑒𝑙𝑖𝑒ℎ
= 𝑟𝑜𝑖𝑟𝑒𝑡𝑠𝑜𝑝
𝑒𝑐𝑛𝑒𝑑𝑖𝑣𝑒
3
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑎( −1
𝜇̅ = 𝜇1 + 𝛴12 𝛴22 − 𝜇2 ), 𝛴̅ = 𝛴11 − 𝛴12 𝛴22
−1
𝛴21 כאשר
כופלי לגראנז'
𝐶 = )𝑥(𝑔 𝑚𝑎𝑥 𝑓(𝑥) 𝑠. 𝑡. הבעיה:
נגדיר עבור האילוץ משתנה חדש λ .0
)𝐶 ℒ(𝑥, 𝜆) = 𝑓(𝑥) + 𝜆(𝑔(𝑥) − באמצעותו נגדיר פונקציה חדשה .1
נחפש נקודות קיצון עבור הפונקציה החדשה ע"י גזירה והשוואה לאפס. .3
הצבת הפתרונות בפונקציה המקורית ,חיפוש אחר מקסימום ומינימום. .4
עבור אילוצי אי שוויון ,נחזור על התהליך עם דרישה נוספת:
𝑔(𝑥) ≤ 𝐶 → 𝜆 ≥ 0
עבור מספר אילוצים ,נגדיר לכל אילוץ כופל לגראנז' ונגדיר
) 𝑖𝐶 ℒ(𝑥, 𝜆1 , … , 𝜆𝐾 ) = 𝑓(𝑥) + ∑𝑘𝑖=1 𝜆𝑖 (𝑔𝑖 (𝑥) −
4
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
שערוך א-פרמטרי
𝒟 = {𝑥𝑖 }𝑛𝑖=1 אוסף מדידות בלתי תלויות מתוך הפילוג של : X
בגישה הא-פרמטרית לא מניחים צורה מסויימת עבור הפילוג המבוקש וסיבוך המודל יכול לגדול עם מס' נקודות המידע.
1
𝑁∑ 𝑁 = 𝑋 ̂𝜇
𝑖𝑥 𝑖=1 משערך אמפירי של תוחלת של משתנה אקראי:
כאשר המכפלה המסומנת מתארת את הסיכוי להיות בתא ה , kוכופלים בהסתברות אחידה בתוך התא.
𝐾⋃ = 𝕏
קבוצת הערכיים האפשריים מחולקת למספר תאים זרים 𝑗=1 𝑅𝑗 :
בכל תא נעריך את פונקציית הצפיפות ע"י שימוש במספר הדגימות היחסי באותו התא ,כאשר ) 𝑗𝑅(𝑁 מספר הדגימות
שהתקבלו בתא ה 𝑉(𝑅𝑗 ) = ∫𝑅 𝑑𝑥 ,jנפח התא ו nמספר הדגימות הכולל.
𝑗
𝑛𝑁(𝑅𝑗 )/
= )𝑥( 𝑥̂𝑝 𝑗𝑅 ∈ 𝑥 ,
) 𝑗𝑅(𝑉
צפיפות הסתברות תקינה:
1 ) 𝑗𝑅(𝑁 1 𝑛
= 𝑥𝑑)𝑥( 𝑋̂𝑝 ∫ ∑ ∫ 𝑑𝑥 = ∑ 𝑁(𝑅𝑗 ) = = 1
𝑛 𝑗𝑅 ) 𝑗𝑅(𝑉 𝑛 𝑛
𝑗 𝑗
5
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
6
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
שערוך פרמטרי
אנו מניחים כי הפילוג של הדגימות הינו בעל צורה ידועה ,המוגדרת ע"י וקטור פרמטרים 𝑝𝑋 (𝑥) = 𝑝𝑋 (𝑥|𝜃) :
וקטור הפרמטרים הינו ממשי בעל מימד נתון .סימונים נוספים הינם 𝑝𝑥 (𝑥|𝜃) ≝ 𝑝𝜃 (𝑥) ≝ 𝑝𝑋 (𝑥; 𝜃) :
משפחת הפילוגים לכל 𝛩 ∈ 𝜃 היא משפחה פרמטרית של פילוגי הסתברות ,או מודל פרמטרי.
כעת הערכת פילוג ההסתברות שקולה להערכת הפרמטר ,על פי סדרת המדידות .המשערך ̂𝜃 נקבע על סמך המדידות.
שערוך בייסיאני
פילוג ידוע )𝜃( 𝑝0נקרא הפילוג האפריורי ,עבור Dאוסף מדידות כלשהו ,ונתונה פונקציית צפיפות של מדידות אלו בהינתן ערך
הפרמטר ,θנקבל כי
𝑛
𝑝(𝐷𝑛 |𝜃) = 𝑝(𝑥1 , 𝑥2 , … , 𝑥𝑛 |𝜃) = 𝛱𝑖=1 )𝜃| 𝑖𝑥( 𝑋𝑝
הפילוג )𝐷|𝜃(𝑝 נקרא הפילוג הפוסטריור (פילוג בדיעבד) ,וניתן לחשב אותו:
אם הפילוג בדיעבד הוא גאוסי ,אז המשערכים 𝐸𝑆𝑀𝑀 𝑀𝐴𝑃,מתלכדים.
חסרונות גישה זו הם הקושי בחישוב האנליטי של הפילוג הפוסטריור ,והקושי העקרוני בבחירת הפילוג הראשוני,
שלעיתים אף חסרת משמעות.
7
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
שערוך לא בייסיאני
כעת לא נגדיר פילוג אפריורי ,אלא נניח כי θהינו גודל דטרמיניסטי כלשהו.
אם ניקח 𝑐 = )𝜃( ( 𝑝0פילוג ראשוני קבוע) ,אז המשערך MAPיתלכד עם משערך ה .MLE
לשים לב שאם הפילוג הפריורי הוא אחיד בתחום מסוים (!) יכול להיות שלא יתלכד עם ה MAPבגלל איפה שהמידע
חי ואיפה שהפרמטרים חיים .יכול להיות שבעקבות כך המידע שנקבל יהיה לא מהימן לפילוג הראשוני.
תכונות המשערך:
.0התכנסות לפרמטר הנכון כאשר מספר המדידות גדל.
.1חישוב פשוט יחסית למשערכים האחרים.
.3תוצאות המתיישבות עם האינטואיציה.
)𝜃|𝐷(𝑝 ≜ )𝜃(𝐿 פונקציית הסבירות Likelihood Functionמוגדרת כך:
))𝜃|𝐷(𝑝(𝑔𝑜𝑙 = )𝜃(𝐿 𝑔𝑜𝑙 ≜ )𝜃(ℓ פונקציית הסבירות הלוגריתמית Log-Likelihood Functionמוגדרת כך:
)𝜃(𝐿 𝜃̂𝑀𝐿𝐸 = arg max ℓ(𝜃) 𝜃̂𝑀𝐿𝐸 = arg max לכן נגדיר:
𝜃∈Θ 𝜃∈Θ
כיוון שהמדידות בלתי תלויות:
𝑛 𝑛
1
)𝜃(𝜃̂𝑀𝐿𝐸 = arg max ℓ =
⏟ ))𝜃| 𝑖𝑥( 𝑥arg max 𝐿𝑜𝑔 (∏ 𝑝𝑋 (𝑥𝑖 |𝜃)) = arg max ∑ Log(p
𝜃∈Θ 𝜃∈Θ 𝑛 𝜃∈Θ
𝑥𝑃 𝑑𝑖𝑠 𝑖.𝑖. 𝑖=1 𝑖=1
דוגמאות בסיסיות
עבור וקטור ) 𝑋~𝑁(𝜇, Σעם dמימדים ,כאשר מט' הקווריאנס חיובית ממש וידועה.𝜃 = 𝜇 ∈ ℝ𝑑 .
𝑛
𝑝, 𝑥=1
= 𝑥𝑃𝑋 (𝑥|𝑝) = 𝑝 𝑥 (1 − 𝑝)1−
1 − 𝑝, 𝑥 = 0
𝑛 𝑛
𝑛 𝑛
𝑖𝑥𝑃̂𝑀𝐿𝐸 = arg max ∏ 𝑃𝑋 (𝑥𝑖 |𝑝) = arg max ∏ 𝑝 𝑥 (1 − 𝑝)1−𝑥 = arg max 𝑝∑𝑖=1 𝑥𝑖 ⋅ (1 − 𝑝)𝑝∑𝑖=1 1−
0<𝑝<1 0<𝑝<1 0<𝑝<1
𝑖=1 𝑖=1
𝑛 𝑛
1
כשנגזור ונשווה לאפס נקבל 𝑖𝑥 .𝑝̂𝑀𝐿𝐸 = 𝑛 ∑𝑛𝑖=1
8
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑝𝑚 = 1 − ∑ 𝑝𝑟 ⇒ ∑ 𝑝𝑚 = 1
𝑟=1 𝑟=1
2
𝑁 )𝜃 𝑇𝑖𝑥(𝑦𝑖 − 𝑛 2
1 −
) 2(𝜎𝑖2
)𝜃 𝑇𝑖𝑥 (𝑦𝑖 −
∏ 𝑔𝑜𝐿 = )𝜃(ℓ 𝑒 [ ∑ = 𝐶2 − ] = 𝐶2 − ‖Σ−1 𝑌 − Σ−1 𝑋𝜃‖2 ,
(2𝜎𝑖 )2
𝑖=1 √2𝜋𝜎 2 𝑖=1
( 𝑖 )
𝑏(𝜃̂𝑀𝐿𝐸 ) = 0
2 2
𝑖𝜁 𝑦𝑖 = 𝜃 𝑇 𝑥̃𝑖 + 𝜀𝑖 , 𝑥𝑖 = 𝑥̃𝑖 + 𝑖𝜁𝑖 ~𝑁(0, 𝜎𝜁, ), 𝑖𝜀𝑖 ~𝑁(0, 𝜎𝜀, כעת נניח שגם לדגימות יש רעש ,כלומר מתקיים )
𝑛
𝜎𝜀2
𝜃̂𝑀𝐿𝐸 , (𝑥̂1∗ , … , 𝑥̂𝑛∗ ) = arg max = 𝛿 ∑((𝑦𝑖 − 𝑥𝑖∗ 𝜃)2 + 𝛿(𝑥𝑖 − 𝑥𝑖∗ )2 ) ,
∗
𝑖𝑥𝜃, 𝜎𝜁2
𝑖=1
פילוג Rayleigh
0 2
𝜎[ ,𝑍~ 𝑁 ([ ] ,פילוג ריילי מתאר את פילוג האורך האוקלידי של הוקטור: בהינתן וקטור גאוסי המפולג כך )] 0
0 0 𝜎2
1 𝑧2
𝑧 (⋅ − )
= )𝑧( 𝑝𝑅𝑎𝑦𝑙𝑒𝑖𝑔ℎ 𝜎2
𝑒⋅ 2 2𝜎2 . ‖𝑍‖2 = √𝑍𝑥2 + 𝑍𝑦2פונקצית צפיפות ההסתברות של הפילוג, 𝑧 ≥ 0 :
9
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
תכונה רצויה של משערך היא כי התוחלת תהיה שווה לפרמטר האמיתי .θההפרש בין הגדלים הוא ההטיה של המשערך:
– Biasהיסט של משערך
𝜃 𝑏𝑖𝑎𝑠 (𝜃̂ (𝐷)) = 𝔼𝐷|𝜃 [𝜃̂(𝐷)] − 𝜃 = 𝜇𝜃̂ −
ההפרש בין התוחלת של המשערך ביחס לפילוג לבין הערך האמיתי שברצוננו לשערך.
היסט גבוה נקבל בנקודות בהן יש עקמומיות גבוהה לפונקציית הצפיפות.
משערך הסבירות המרבית ,לדוגמא ,יכול להיות מוטה ,אך הטיה זו שואפת לאפס אסימפטוטית כשמספר הדוגמאות הולך
לאינסוף.
– Varianceשונות של משערך
2
̂𝑉𝑎𝑟 (𝜃̂(𝐷)) = 𝔼 [(𝜃̂(𝐷) − 𝔼𝜃̂) ] = 𝔼𝐷|𝜃 [𝜃̂ 2 (𝐷)] − 𝜇𝜃2
המרחק הממוצע של Nדגימות מהתוחלת שלהן.
השגיאה הריבועית הממוצעת זו תוחלת השגיאה הריבועית של המשערך ביחס לערך האמיתי של הפרמטר.
2
נגדיר שגיאה ריבועית ממוצעת } )𝜃 .𝑀𝑆𝐸 ≜ 𝐸𝜃 {(𝜃̂ −ע"י הוספה והחסרת של תוחלת המשערך לביטוי הנ"ל ,יתקיים
הביטוי הבא .𝑴𝑺𝑬 = 𝒃(𝜽)𝟐 + 𝒗𝒂𝒓(𝜽) :זה הגודל המרכזי המודד את טיב המשערך .פרוק בעל אופי דומה נראה בהמשך
בתכונות החזאים ,במקרה זה הפרוק ייצור שני גורמים בעלי תלות מנוגדת בסיבוכיות מודל החיזוי ,תופעה יסודית המכונה
בשם .Bias-Variance Tradeoff
01
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
דוגמאות לחישובים
השונות של משערך KDEמתנהגת לפי הקצב של אחד חלקי מס' הדגימות כפול רוחב החלון.
יש כאן ,tradeoffכאשר רוחב החלון שואף לאפס ,ההיסט קטן אך השונות גדלה .במילים אחרות ,תוחלת הדיוק של השערוך
תגדל אבל עבור מס' סופי של דגימות השערוך ישתנה מאוד כתלות בדגימות שקיבלנו ,ועל כן עלול להיות לא מדוייק .מצד שני
ככל שנגדיל את רוחב החלון ,נקבל שהשונות תקטן ,כלומר השערוך פחות ישתנה כתלות בדגימות שנקבל ,אך נשלם בהיסט
גבוה – תהיה שגיאה ביחס לתוחלת.
עבור פילוג נורמלי (מוצג בדוגמאות בפרק שערוך פרמטרי) ,נחשב הטיה ,שונות ושגיאה ריבועית:
𝑛 𝑛
1 1 1
𝜇 = 𝜇 𝑛 = 𝑖𝑥 𝜇𝐸 ∑ = ) 𝑖𝑥 ∑ ( 𝜇𝐸 = ) 𝐸𝐿𝑀 ̂𝜇( 𝜇𝐸
𝑛 𝑛 𝑛
𝑖=1 𝑖=1
𝑏(𝜇) = 𝜇 − 𝜇 = 0
לכן משערך זה אינו מוטה .השגיאה הריבועית תהיה השונות ,ולאחר הצבה וחישובים (בת"ס ,לינאריות תוחלת) נקבל כי
𝑛
1 1 1
𝑣𝑎𝑟(𝜇̂ 𝑀𝐿𝐸 ) = ⋯ = 2 ∑ 𝐸𝜇 ((𝑥𝑖 − 𝜇)2 ) = 𝑣𝑎𝑟(𝑋) = Σ
𝑛 𝑛 𝑛
𝑖=1
קיבלנו משערך מוטה ולכן לעיתים מתקנים בעזרת חלוקה ב n-1במקום ב .n
00
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
מאפיינים
וקטור מאפיינים )𝑥(𝜙 הינו גודל הנגזר מפריט מידע המקורי,אשר עשוי להועיל בהמשך בפעולות של זיהוי וסיווג.
באופן כללי ,מאפיין הינו גודל (מספרי לרוב) הנגזר מפריט המידע המקורי ,ואשר עשוי להועיל בפעולות המשך כגון זיהוי וסיווג.
בחירת מאפיינים מתאימים לייצוג והעשרת מידע הקלט הינה בעלת חישובת קריטית במשימות של למידה מודרכת.
מרכוז ונרמול
1
𝑒𝑟𝑒𝑥𝑖 → 𝑥𝑖 − 𝑥̅ 𝑤ℎ 𝑖𝑥 𝑥̅ = 𝑛 ∑𝑛𝑖=1 מרכוז מתבצע בעזרת:
)𝑗( ̅𝑥𝑥𝑖 (𝑗)− 1 1
( → )𝑗( 𝑖𝑥 ) = )𝑗(𝜎 𝑒𝑟𝑒𝑤ℎ 𝑖𝑥‖ − 𝑥̅ ‖ = √ ∑𝑛𝑖=1(𝑥𝑖 (𝑗) − 𝑥̅ (𝑗))2 מירכוז ונירמול לפי שונות:
)𝑗(𝜎 𝑛√ 𝑛
𝑗𝑛𝑖𝑀𝑥𝑖 (𝑗)−
𝑥𝑎𝑀 → )𝑗( 𝑖𝑥 מירכוז ונירמול משערת∈ [0,1] :
𝑗𝑛𝑖𝑀𝑗 −
הגדרה ותזכורות
עבור וקטורים רב מימדיים במימד ,𝑑 ≫ 1נרצה לייצג את אותם וקטורים במימד נמוך יותר תוך שמירה על תכונות רצויות
מסוימות של אוסף זה.
שיטת PCAהינה התמרה (או הטלה) לינארית של המידע למרחב במימד נמוך יותר .בבסיס הגישה ההנחה כי נקודות המידע
מרוכזות על או קרוב לתת מרחב לינארי כלשהו של המרחב הראשוני.
באופן כללי ,שיטה זו מבטיחה שונות מירבית ושגיאת שחזור מינימלית.
עבור אוסף נקודות {𝑥𝑖 }𝑛𝑖=1כאשר 𝑑 ,𝑥𝑖 ∈ ℝנגדיר מטריצת שונות מדגם
𝑛
1
≜ 𝑛𝑃 𝑑 𝑥 𝑑∑(𝑥𝑖 − 𝑥̅ )(𝑥𝑖 − 𝑥̅ )𝑇 ∈ ℝ
𝑛
𝑖=1
1
כאשר כרגיל 𝑖𝑥 𝑥̅ = 𝑛 ∑𝑛𝑖=1הינו וקטור הממוצעים.
1 1
הערה :לעיתים מחליפים את המקדם 𝑛 במקדם 0או . 𝑛−1לא משנה כיוון שאנו מעוניינים רק בערכים העצמיים והוקטורים
העצמאיים של המטריצה.
𝑛 1 𝑇
𝑖𝑥 𝑖𝑥 .𝑃𝑛 = 𝑛 ∑𝑖=1 הערה :בחישובי PCAמקובל ראשית למרכז את הנתונים ,נקבל
𝑇𝑥1
𝑇
הערה :מטריצת הנתונים .𝑿 = 𝑥2במונחים אלו נקבל
1
𝑋 𝑇 𝑋 𝑛 = 𝑛𝑃.
…
] 𝑇𝑛𝑥[
≥ 𝜆1 מטריצת שונות המדגם הינה ממשית ,סימטרית ,אי שלילית מוגדרת .לכן בעלת dערכים עצמיים ממשיים שיסומנו
,𝜆2 ≥ ⋯ ≥ 𝜆𝑑 ≥ 0ובעלת dוקטורים עצמיים אורתונורמליים שיסומנו 𝑑𝑣 .𝑣1 , 𝑣2 , … ,נקבל:
02
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑛
03
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
)(m
.z i והווקטור uiכולל את mהרכיכים העיקריים הראשונים ושווה ל 𝑖𝑥 𝑇𝑚𝑉 𝑚𝑉 = 𝑖̂𝑥 כלומר
בנוסף הערך המינימלי של שגיאת השחזור הינו 𝑑𝜆 .𝐸𝑚𝑖𝑛 = 𝜆𝑚+1 + ⋯ +
אינטואיציה גיאומטרית :הקווים בין הנק' לכיוון העיקרי הם וקטורי שגיאת השחזור
𝑖𝑒 .שגיאת השחזור הריבועית היא סכום הנורמות הריבועיות שלהם – כלומר סכום
המרחקים בריבוע של הנקודות מכיוון ההטלה .מהציור קל לראות שבחירה טובה של
הכיוון היא בכיוון העיקרי ,בו השונות בנתונים היא מקסימלית.
1
𝑛 𝑇𝑢1
)𝑚(
𝑉𝑎𝑟(𝑞1 , … , 𝑞𝑛 ) = ∑‖𝑞𝑖 − 𝑞̅ ‖2 , 𝑖𝑧 𝑇
𝑚𝑈 ≜ 𝑖𝑥 = [ ⋮ ] , 𝑖𝑥
𝑛 𝑇
𝑖=1 𝑚𝑢
שונות המדגם של הווקטורים ziהיא מקסימלית כאשר כיווני ההטלה הינם mהכיוונים העיקריים:
𝑚𝑣 = 𝑚𝑢 … 𝑢1 = 𝑣1 ,
)𝑚( )𝑚(
𝑉𝑎𝑟 (𝑧1 𝑚𝜆 , … , 𝑧𝑛 ) = 𝜆1 + ⋯ +
)(1
𝑖𝑧 = 𝑖𝑧 .נניח כי הנתונים ממורכזים לכן .𝑧̅ = 0 הוכחה :עבור ,m=1וקטור יחידה כלשהו uנסמן 𝑖𝑥 𝑇𝑢 =
𝑛 𝑛 𝑛
1 1 1
𝑢 𝑛𝑃 𝑇𝑢 = 𝑢 𝑇𝑖𝑥 𝑖𝑥 𝑇𝑢 ∑ = 𝑇𝑖𝑧 𝑖𝑧 ∑ = 𝑉𝑎𝑟(𝑧1 , … , 𝑧𝑛 ) = ∑(𝑧𝑖 )2
𝑛 𝑛 𝑛
𝑖=1 𝑖=1 𝑖=1
04
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
אשכול Clustering
חלוקת אוסף נתונים לתת קבוצות ,כך שלחברים בכל תת קבוצה יש קשר.
𝐾∑ = )𝐶(𝑊
)𝐶( 𝑘𝑊 𝑘=1 אם נסכם על כל המחלקות נקבל את ממד המרחק הכולל עבור שיוך נתון :C
נרצה למצוא שיוך Cאשר מביא למינימום את הביטוי הזה .אין אלגוריתם יעיל לפתרון זה ,אי אפשר לבדוק את כל החלוקות
האפשריות כיוון שזה מעריכי בגודל הקלט.
אשכול צובר
בונים את המחלקות בהדרגה ( ,)bottom upכאשר בתחילה כל פריט נמצא במחלקה נפרדת משלו .בכל שלב מאחדים שתי
מחלקות ,עד שכל הפריטים אוחדו למחלקה אחת .הקבוצות המאוחדות בכל שלב הן השתיים הקרובות ביותר .יש מספר
אפשרויות לכך ,כמו מרחק ממוצע ,השכן הקרוב ,השכן הרחוק וכדומה.
התכנסות :ניתן לראות כי כל שלב באלגוריתם שבו מתבצע שינוי מקטין את מדד המרחק )𝐶(𝑊 ,ולפיכך מובטחת התכנסות
במספר צעדים סופי .עם זאת ,ההתכנסות תהיה למינימום מקומי ולא גלובאלי.
)𝐸(𝐾+1
1− )𝐾(𝐸
שינוי יחסי קטן ב< 𝜖 :K תנאי אפשרי לבחירת : K
𝐾 𝐾
1
𝑀𝑆𝐸 = ∑ ∑ ‖(𝑥𝑗 − 𝜇𝑖 ‖2 , 𝐸(𝐾) = √ ∑ ∑ ‖(𝑥𝑗 − 𝜇𝑖 ‖2
𝑁
)𝑡( 𝐺∈ 𝑥 𝑖=1 )𝑡( 𝐺∈ 𝑥 𝑖=1
𝑗 𝑖 𝑗 𝑖
05
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
סוגי חזאים
פונקציית החיזוי המבוקשת ,נקראת גם מחלקת ההשערות ,או המודל .לדוגמא ,חזאי לינארי ,SVM ,רשת ניורונים ,עץ
החלטה ,חזאי מסוג .k-NN
מרבית המודלים בהם נתעניין הינם מהסוג של מודל פרמטרי }𝛩 ∈ 𝜃 , 𝐹 = {𝑓𝜃 :פונקציות החיזוי תלויות בוקטור של
פרמטרים ממשיים בעלי מימד נתון 𝑇) 𝑚𝜃 .𝜃 = (𝜃1 , … ,הלמידה מסתכמת בכוונון וקטור הפרמטרים 𝜃.
מודל לא פרמטרי כאשר מספר הפרמטרים של המודל אינו מוגבל .לדוגמא ,אלגוריתם השכן הקרוב ביותר ,בו אנחנו קודם
מוצאים את הדוגמא 𝑖𝑥 שהכי קרובה ל 𝑥 ואז החזאי ייתן את התיוג של דוגמא זו .לדוגמא ,אלגוריתם 𝑁𝑁 .𝑘 −
06
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
הסיכון האמפירי
= )𝑓( 𝑛̂𝐿 מחושב על גבי סדרת דוגמאות נתונה .זהו ההפסד הממוצע על פני דוגמאות אלו
1
) 𝑖𝑦 .𝑛 ∑𝑛𝑖=1 ℓ(𝑓(𝑥𝑖 ),
הסיכון האמפירי ניתן לחישוב מפורש ,בניגוד למחיר האמיתי ,בעזרת סדרת לימוד ,עבור כל חזאי ,וניתן לראות בו קירוב
לסיכון האמיתי .מזעור הסיכון האמפירי , ERM - Empirical Risk Minimizationהוא החזאי שמביא למינימום את
)𝑓( 𝑛̂𝐿 , 𝑓̂𝐸𝑅𝑀 = arg minיכול לגרום להתאמת יתר. הסיכון ביחס לדוגמאות
𝐹∈𝑓
)𝐹( 𝑝𝑝𝑎𝐸 שגיאת הקירוב .approximation error ,מציינת סיכון מינימלי שחזאי כלשהו מתוך המודל יכול להשיג .גודל זה
הינו דטרמיניסטי ואינו תלוי בסדרת הלימוד.
)𝐹 𝐸𝑒𝑠𝑡 (𝑓̂,שגיאת השיערוך .estimation error ,הפרש הסיכון עבור החזאי האופטימלי מתוך המודל – דהיינו ∗ ,fלבין
החזאי שנבחר על ידי אלגוריתם הלימוד.
אינטואיציה גיאומטרית
בהינתן פונקציית מטרה ,𝑓0משפחת הפונקציות Fוחזאי נלמד ̂𝑓 ,הפונקציה
∗ 𝑓 היא הופנקציה שהכי דומה לפונקציית המטרה בתוך , Fשגיאת הקירוב
היא השגיאה בין ∗ 𝑓 ל 𝑓0ושגיאת השיערוך היא השגיאה בין ∗ 𝑓 ל ̂𝑓.
התלות של הסיכון ומרכיביו בסיבוכיות המודל הינה שככל שסדר המודל נמוך
יותר ,כך שגיאת הקירוב גבוהה יותר ,ושגיאת השיערוך נמוכה יותר .ככל
שמעלים את סדר המודל ,שגיאת הקירוב יורדת ושגיאת השיערוך עולה .סדר
המודל המינימלי הוא בנקודת המינימום של הסיכון הכולל (הסכום שלהם).
דרך נוספת להסתכל על הניגוד בבחירת סדר המודל הינה בעזרת ההשפעה
הסטטיסטית המכונה .Bias-Variance Tradeoff
במקרה זה אנחנו מניחים שה Dataנוצר מתוך מודל סטטיסטי מהצורה
הבאה 𝜖 𝑌 = 𝑓(𝑋) +כאשר 𝜖 הוא רעש אקראי במדידות שאינו תלוי
ב Y,Xבעלת תוחלת .1
ה tradeoffמתייחס לשגיאה הסטטיסטית שנובעת מפירוק ה . MSEגודל זה
מתאר את תוחלת השגיאה של החזאי הנלמד ביחס לערכים האמיתיים שאותם הוא אמור
2
לחזות ] ))𝑋(̂𝑓 . 𝑀𝑆𝐸 = 𝔼 [(𝑌 −
2
)𝜖(𝑟𝑎𝑉 .𝑀𝑆𝐸 = (𝐵𝑖𝑎𝑠 (𝑓̂(𝑥; 𝐷))) + 𝑉𝑎𝑟[𝑓̂(𝑥; 𝐷)] + מתקיים כי
השגיאה מתפרקת לשלושה איברים .היסט גבוה מתקבל עבור מודל פשוט מדי.
שונות גבוהה תתקבל בעקבות מודל מסובך מדי .רעש גבוה במדידות זו שגיאה מובנית ואין
איך להקטין אותה.
07
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
התאמת יתר ,over fitting -קורית במודלים בעלי סדר גבוה .התאמה "גבוהה מדי" של החזאי הנלמד לסדרת הלימוד ג.
עלולה להוביל לתוצאה גרועה עבור דוגמאות חדשות .כלומר הקטנת הסיכון האמפירי לאו דוקא תוביל להקטנת הסיכון
האמיתי .תופעה זו נעוצה בשגיאת שערוך גבוהה המתקבלת עבור מודלים בעלי סדר גבוה.
ד .רגולריזציה – נשתמש במודל בעל סדר גבוה אך נגביל את הסיבוכיות האפקטיבית של החזאי הנלמד ,על ידי שינוי
מתאים של אלגוריתם הלמידה .למשל ,הוספת "קנס" על גודל הפרמטרים הנלמדים.
Problem Definition:
a. the Underlying
System Model & Learning Hyper Parameters Performance
Data Collection Data Inspection Learning Validation
b. The task & goal Method Selection selection Evaluation
c. the Evaluation
Method
08
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
נניח כי מתקיים 𝜀 ,𝑦 ∗ = 𝑤 𝑇 𝑥 +כאשר 𝜖 מפולג נורמלי תקני .בחירת המחלקה תעשה באופן הבא:
𝑥2 𝑣2
1 𝑣 − )𝑣(𝑑Φ 1 −
= )𝑣(.𝑃(𝑦 ≤ 𝑖|𝑥) = Φ(𝜃𝑖 − 𝑤 𝑇 𝑥) , Φ ∫ 𝑒 2 𝑑𝑥 , = )𝑣(𝜙 = 𝑒 2 מודל
∞√2𝜋 − 𝑣𝑑 𝜋√2
𝐾
)) 𝑖𝑥 𝑇 𝑤 (𝜙(𝜃𝑘−1 − 𝑤 𝑇 𝑥𝑖 ) − 𝜙(𝜃𝑘 −
]𝑘 = 𝑖𝑦[𝕀 ∑ = ) 𝑖𝑦 ∇𝑤 log 𝐿(𝑤, 𝜃|𝑥𝑖 ,
)𝑥 𝑇 𝑤 Φ(𝜃𝑘 − 𝑤 𝑇 𝑥) − Φ(𝜃𝑘−1 −
𝑘=1
1
min ‖𝑤‖2 + 𝐶 ∑𝑀−1
בעיית ה Soft SVMהשקולה𝑗=1 (∑𝑖:𝑦𝑖 =𝑗 𝜁𝑖 + ∑𝑖:𝑦𝑖 =𝑗 𝜉𝑖 ):
𝜉,𝜁,𝑤,𝑏 2
09
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
סיווג גנרטיבי
נבחין בין שתי גישות לבעיית הסיווג:
.0גישה גנרטיבית – המידע משמש ללמידת הפילוג המשותף )𝑦 .𝑝̂𝑋,𝑌 (𝑥,פילוג זה נקרא מודל גנרטיבי עבור הדוגמאות,
מהמילה 𝑒𝑡𝑎𝑟𝑒𝑛𝑒𝑔 .זהו הפילוג אשר יצר את הדוגמאות הנתונות לנו .מהפילוג המשותף נחשב את הפילוג המותנה
)𝑥|𝑦( )𝑋|𝑌( ̂𝑝 ממנו ייגזר החזאי 𝑓 .
.1גישה דיסקרימינטיבית (מבחינה) – בגישה זו נלמד ישירות מודל עבור המסווג )𝑥(𝑓 = 𝑦 .אין ניסיון ללמוד את פילוג
הקלט .x
פילוג הקלט של המודל הגנרטיבי נלמד עבור כל מחלקה בנפרד .לימוד פילוג הקלט הוא המשימה הקשה פה ,אשר מבדילה בין
שתי הגישות.
בפרק זה נדבר על סיווג גנרטיבי בלבד ,בשאר הקורס נתמקד בגישה הדיסקרימינטיבית.
החזאי האופטימלי תחת הפסד זה הינו משערך התוחלת המותנית. ℎ(𝑥) = 𝔼[𝑌|𝑥]:
21
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
)𝑥| 𝑘𝐶( )𝑋|𝑌(𝑝} 𝑘𝐶 = )𝑥(𝑓{𝕀 ∑ 𝑃𝑒 (𝑓|𝑥) ≜ 𝑝𝑟𝑜𝑏(𝑓(𝑥) ≠ 𝑌|𝑋 = 𝑥) = 1 − 𝑝𝑟𝑜𝑏(𝑓(𝑥) = 𝑌|𝑋 = 𝑥) = 1 −
𝑘
מכאן שמזעור )𝑥|𝑓( 𝑒𝑃 שקול לבחירת )𝑥(𝑓 שמביאה למקסימום את הסכום האחרון .כזכור 𝑝(𝑌|𝑋) (𝐶𝑘 |𝑥) ,הוא גודל נתון
קבוע וידוע .בנוסף ,עבור כל קלט הפונקציה )𝑥(𝑓 בוחרת מחלקה אחת 𝑘𝐶 .לכן ,ברור כי נדרש לבחור אתה מחלקה 𝑘𝐶
שעבורה )𝑋| 𝑘𝐶( )𝑋|𝑌(𝑝 מקסימלי .אבל זו בדיוק הגדרת )𝑥( 𝑃𝐴𝑀𝑓.
בנוסף ,הסתברות השגיאה הממוצעת היא 𝑥𝑑)𝑥( 𝑋𝑝)𝑥|𝑓( 𝑒𝑃 𝑋∫ = )𝑓( 𝑒𝑃 וראינו כי 𝑃𝐴𝑀𝑓 מביא למינימום את הסתברות
השגיאה לכל קלט בנרפד ,ומכאן נובע מיידית שהוא מביא למינימום את האינטגרל האחרון.
שימוש ביחס הסבירות – נשווה בין שתי מחלקות ,ולבחור את העדיפה לפי ) 𝑗𝐶( 𝑌𝑝) 𝑗𝐶|𝑥( 𝑌|𝑋𝑃 ? ) 𝑘𝐶( 𝑌𝑝) 𝑘𝐶|𝑥( 𝑌|𝑋𝑃.
תנאי זה בעצם מפשט לנו את בחירת ה 𝑥𝑎𝑚 argהידוע משיערוכים – נבחן את ההסתברות לקבל קבוצה או מצב 𝐶 מסויים,
ובעזרתו נבחר כל פעם את ההסתברות הגדולה ביותר.
כך לדוגמא נוכל לדעת מה הם התנאים לקבל סיווג כלשהו רצוי ,בהינתן החלטה ע"פ סיווג בייסיאני.
20
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
1
}) 𝑘𝐶(𝑝{𝑔̃𝑘 (𝑥) ≜ − (𝑥 − 𝜇𝑘 )𝑇 Σ−1 (𝑥 − 𝜇𝑘 ) + ln
2
𝑑 1
הורדנו את הקבוע }) ln {((2𝜋)2 |𝛴𝑘 |2שהיה קודם ,הזהה עבור שתי המחלקות ,ולכן לא משפיע על הביטוי .כלל זה נקרא
𝑎𝑙𝑢𝑚𝑟𝑜𝐹 𝑠𝑖𝑠𝑦𝑙𝑎𝑛𝐴 𝑡𝑛𝑎𝑛𝑖𝑚𝑖𝑟𝑐𝑠𝑖𝐷 𝑟𝑎𝑒𝑛𝑖𝐿 .ניתן לראות כי משטח ההפרדה במקרה זה הינו -
= )𝑥( 𝑗̃𝑔 𝑔𝑘𝑗 (𝑥) = 𝑔̃𝑘 (𝑥) −
לפיכך משטח ההפרדה 𝑔𝑘𝑗 (𝑥) = 0הינו עתה משטח לינארי (על-מישור).
הגישה הגנרטיבית
נגדיר גישה כללית הבאה לבניית מסווג גנרטיבי:
.0בעזרת סדרת הדוגמאות המתויגות ,נערך את פילוגי ההסתברות ) 𝑘𝐶( 𝑌 ̂𝑝 .𝑝̂𝑥|𝐶𝑘 (𝑥|𝐶𝑘 ) , 𝑝̂𝑌 (𝐶1 ), … ,
.1החזאי יוגדר כמסווג בייס המיטבי ביחס לפילוגים מקורבים אלה })𝐶( 𝑌̂𝑝)𝐶|𝑥( 𝑌|𝑋̂𝑝{𝑥𝑎𝑚𝑔𝑟𝑎 = )𝑥(̂𝑓
את ההסתברויות ניתן להעריך בקלות יחסית מתוך ידע מוקדם ,או ע"י השכיחות היחסית בדרת הדוגמאות
𝑛
𝑘𝑛 1
= ) 𝑘𝐶( ̂𝑝 } 𝑘𝐶 = 𝑖𝑦{𝕀 ∑ =≜
𝑛 𝑛
𝑖=1
את פילוגי הקלט ניתן עקרונית להעריך בשיטות פרמטריות לשערוך מודל ,לדוגמא עבור קלט רציף נניח פילוג גאוסי ונעריך
את הפרמטרים בעזרת משערך .MLE
עבור קלט בדיד נחשב לכל ערך אפשרי של xאת השכיחות היחסית בקבוצה המתאימה.
דוגמא :עבור }𝑏 𝒳 = 𝐵𝑑 , 𝐵 = {1,2, … ,נחשב לכל ערך אפשרי של 𝑥 את השכיחות היחסית בקבוצה המתאימה (זהו כזכור
משערך MLEלהסתברות בדידה):
22
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑛
1
= ) 𝑘𝐶|𝛼( )𝑌|𝑋( ̂𝑝 𝒳 ∈ 𝛼∀ ∑ 𝕀{𝑥𝑖 = 𝛼, 𝑦𝑖 = 𝐶𝑘 } ,
𝑘𝑛
𝑖=1
ע"מ להעריך זאת ,נאלץ לעשות מספר חישובים מעריכי לפי מס' הדוגמאות ,לכן גישה זו לא ישימה עבורנו .לכן נשתמש
במסווג הבייס הנאיבי.
מסווג בייס נאיבי :גישה מועילה לעקיפת הקושי בהערכת מודל רב-מימדי זה היא הנחת אי-תלות בין רכיבי הווקטור 𝑥.
הנחה מפשטת זו לא תתקיים בפועל במרבית המקרים ,והיא מהווה לפיכך קירוב בלבד לצורך בניית המודל.
𝑇
נניח אי תלות בין רכיבי הווקטור ))𝑑(𝑥 ,𝑥 = (𝑥(1), … ,נתבסס על הקרוב הבא לפילוג :x
𝑑
1 𝑇
𝑁∑ 𝑁 = Σכך שהתוחלת של הקבוצה אליה 𝑖𝑥 שייך.
מטריצת קווארינס היא𝑖=1(𝑥𝑖 − 𝜇𝑦𝑖 )(𝑥𝑖 − 𝜇𝑦𝑖 ) :
23
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
בעבור המקרה של סיווג בינארי (סיווג לשתי מחלקות) ו zero one lossמתקבל:
1 , 𝛼𝑇𝑥 + 𝑏 > 0
= )𝑥(ℎ
𝑒𝑠𝑖𝑤𝑟𝑒0 , 𝑜𝑡ℎ
1 )𝑝 (1
) .𝛼 = 𝛴 −1 (𝜇1 − 𝜇0 ))), 𝑏 = 2 (𝜇0𝑇 𝛴 −1 𝜇0 − 𝜇1𝑇 𝛴 −1 𝜇1 ) + 𝑙𝑜𝑔 ((𝑝𝑌 (0 כאשר
𝑌
נשים לב כי תנאי ההחלטה שבין שני התחומים הינו לינארי ,ומכאן מקבל האלגוריתם את שמו.
24
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
בעיית הרגרסיה
בבעית הלמידה המודרכת ,נתון אוסף דוגמאות מתויגות .אנו מעוניינים ללמוד פונקציית חיזוי אשר מחשבת פלט מתאים
עבור כל קלט אפשרי .בבעיית רגרסיה הפלט הינו מספר ממשי.
למידה פרמטרית
החזאי הנלמד fהוא מהצורה . 𝐹 = {𝑓𝜃 : 𝜃 ∈ 𝛩 ⊂ ℝ𝑀 }:כלומר פונקציית החיזוי נקבעת על ידי וקטור של פרמטרים
ממשיים בעלי מימד נתון .הלמידה מתמקדת בכוונון וקטור הפרמטרים 𝜽.
המודל הלינארי מוגדר כך:
𝑏
𝑑𝑓𝜃 (𝑥) = 𝑏 + 𝑤 𝑇 𝑥 ≡ 𝑏 + 𝑤1 𝑥(1) + ⋯ + 𝑤𝑑 𝑥(𝑑) , 𝑥 ∈ ℝ 𝜃 = (𝑏, 𝑤1 , … , 𝑤𝑑 )𝑇 ≜ ( ) ∈ ℝ𝑑+1
𝑤
התאמת הפרמטרים לסדרת הלימוד מתבצעת לרוב על ידי מיזעור של פונקציית מחיר מתאימה:
𝑛
2
)) 𝑖𝑥( 𝜃𝑓 𝐸(𝜃) = ∑(𝑦𝑖 −
𝑖=1
1
≡ ) 𝜃𝑓( 𝑛̂𝐿. 𝑛
הריבועי ,עד כדי נרמול במספר הדגימות )𝜃(𝐸 פונקציית מחיר זו היא הסיכון האמפירי ,עם פונקציית ההפסד
מזעור פונקציית מחיר מעין זו יכול להתבצע בשתי גישות:
.0פתרון אנליטי סגור עבור וקטור הפרמטרים האופטימלי :קיים כמעט רק עבור המודל הלינארי.
.1אלגוריתמים איטרטיביים לאופטימיזציה – כגון אלגוריתם מורד הגרדיאנט.
נערכים הממשיים ) ϕm (xהינם המאפיינים (תכונות) של הקלט .הפונקציה ϕmנקראת פונקציית הבסיס.
אנו מניחים פה כי המאפיינים נבחרו מראש על ידי המתכנן כחלק מהגדרת המודל.
𝜃1 )𝑥( 𝜙1
.𝑓𝜃 (𝑥) = 𝜃 𝑇 𝜙(𝑥), 𝜃 = ( ⋮ ), מודל זה עדיין לינארי בפרמטרים .θנרשום𝜙(𝑥) = ( ⋮ ) :
𝑀𝜃 )𝑥( 𝑀𝜙
וקטור הפרמטרים θנקרא גם פה וקטור המשקלים ולעיתים מסומן ע"י .wהוקטור ) ϕ(xהינו וקטור המאפיינים.
חישוב ) fθ (xמתבצע בשני שלבים:
,xיתקבל המודל הלינארי הבסיסי ,לינארי גם ברכיבי הקלט
= )𝑥( 𝑜𝜙 , 𝜃 = (𝑏, 𝑤 𝑇 )𝑇 ≡ (𝜃0 , 𝜃1 , … , 𝜃𝑑 )𝑇 , כמקרה פרטי ע"י הבחירה 𝑇) 𝑇 𝑥 ,𝜙(𝑥) = (1,ובהתאמה
)𝑑(𝑥 = )𝑥( 𝑑𝜙 1, 𝜙1 (𝑥) = 𝑥(1), … ,
פונקציות בסיס מקומיות ,כלומר תמך מוגבל במרחב הכניסה לדוגמת מודל לינארי למקוטעין (אינדיקטורים בתמך מסויים),
פולינומים מקומיים ,אנליזת מרחב-תדר לפונקציות זמניות ,פונקציות בסיס רדיאליות וכו'.
שימוש בפונקציות לוקליות מאפשר הפרדה של ערכי הפרמטרים הנלמדים באזורים שונים של מרחב הכניסה.
25
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
רגרסיה לינארית
עבור מודל לינארי בפרמטרים )𝑥(𝜙 𝑇 𝜃 = )𝑥( 𝜃𝑓 ,כאשר וקטור המאפיינים (פונקציות הבסיס) נקבע מראש ,נרצה למצוא
𝑦1 𝑇) 𝜙(𝑥1
𝑀 𝑥 𝑛𝑌 = [ ⋮ ] , 𝛷 = [ ⋮ ] ∈ ℝ ערך מתאים לפרמטרים θבעזרת סדרת הלימוד .נגדיר:
𝑛𝑦 𝑇) 𝑛𝑥(𝜙
המטריצה Φנקראת מטריצת המאפיינים ו Yהוא וקטור התגיות.
נניח כי קיים פתרון אופטימלי 𝜀 𝑦 = 𝑓0 (𝑥) +שאותו אנו רוצים לשערך.
נרצה ללמוד את )𝑥(𝜙 𝑇 𝜃 = )𝜃 .𝑓̂(𝑥,
עבור המודל הלינארי ,מתקבלת בעיית הריבועים הפחותים הלינארית Linear Least Squarsהבאה:
𝑛
2
𝑚𝑖𝑛 𝐸(𝜃) = min𝑀 ∑(𝑦𝑖 − 𝜃 𝑇 𝜙(𝑥𝑖 )) = min𝑀‖𝑌 − Φθ‖2
𝑀𝜃∈ℝ 𝜃∈ℝ 𝜃∈ℝ
𝑖=1
ע"י פתיחת הסוגריים וקיבוץ איברים נקבל כי:
𝑇 𝑇
𝐶 𝐸(𝜃) = 𝜃 𝑄𝜃 − 2𝜃 𝐵 +
𝑄 = 𝛷𝑇 Φ = ∑𝑛𝑖=1 𝜙(𝑥𝑖 )𝜙(𝑥𝑖 )𝑇 , 𝐵 = 𝛷𝑇 𝑌 = ∑𝑛𝑖=1 𝜙(𝑥𝑖 )𝑦𝑖 , כאשר 𝐶 = 𝑌 𝑇 𝑌 = ∑𝑛𝑖=1 𝑦𝑖2
קיבלנו כי פונקציית השגיאה הינה תבנית ריבועית בוקטור הפרמטרים .θלפני שנגזור אותה ,נסתכל על תכונות של :Q
Q .0הינה מטריצה ריבועית ,בגודל 𝑀 × 𝑀 וסימטרית 𝑄 = 𝑇 𝑄.
Q .1אי-שלילית מוגדרת כלומר ∀𝑣 ∈ ℝ𝑀 : 𝑣 𝑇 𝑄𝑣 = ∑𝑛𝑖=1|𝑣 𝑇 𝜙(𝑥𝑖 )|2 ≥ 0
Q .3חיובית מוגדרת ולכן הפיכה ,אם ורק אם 𝑀 = )𝛷(𝑘𝑛𝑎𝑟 .תנאי הכרחי לכך הוא 𝑀 ≥ 𝑛.
כעת כדי להגיע למינימום של השגיאה ,נגזור ונגיע לתוצאה:
)𝜃(𝐸𝜕
𝜕 𝜕𝜃1
= )𝜃(𝐸 ⋮ 𝐵= (𝑄 + 𝑄 𝑇 )𝜃 − 2𝐵 = 2𝑄𝜃 − 2
𝜃𝜕 )𝜃(𝐸𝜕
) 𝑀𝜃𝜕 (
כאשר המטריצה Qהפיכה ,נקבל כי הערך האופטימלי של וקטור הפרמטרים הינו:
𝑛 𝑛 −1
∗ −1 𝑇(Φ 𝑇−1 (Φ 𝑇)
𝑄= 𝜃 =𝐵 )Φ ) 𝑘𝑥(𝜙) 𝑘𝑥(𝜙 ∑( = )𝑌 𝑘𝑦) 𝑘𝑥(𝜙 ∑
𝑘=1 𝑘=1
כאשר המטריצה אינה הפיכה ,קיימים אינסוף פתרונות.
כדי שזו אכן תהיה נקודת מינימום גלובאלי ,על הפונקציה )𝜃(𝐸 להיות פונקציה קמורה convexבוקטור המשתנים 𝜃.
ניתן לבדוק זאת ע"י חישוב מטריצת ההסיאן .𝐻𝐸 (𝜃) = 2𝑄 ≥ 0מתכונות פונקציה קמורה ,כל נק' מינימום מקומי היא
נקודת מינימום גלובלית.
26
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
לכן:
קיבלנו נוסחה סגורה לחישוב המשקלים האופטימליים ביחס לשגיאה הריבועית .קיום נוסחא סגורה כזו נובע
מהשילוב של מודל לינארי בפרמטרים ,עם השימוש במדד השגיאה הריבועית.
Qהינה הפיכה אם ורק אם ווקטורי המאפיינים פורשים את כל המרחב ה Mמימדי .לכך נדרש מספר מספיק
של דוגמאות מגוונות (אינן תלויות לינארית).
כאשר המטריצה אינה הפיכה ,קיימים אינסוף פתרונות למשוואה ,וכולם אופטימליים.
1
𝑎 𝑛𝑎
(=𝐴 ), 𝐴−1 𝑎( = ), ( = 𝑛𝐴 )
𝑎 1 𝑛𝑎
𝑎
את המאפיינים נבחר ע"פ מודל הרגרסיה הרצוי ,לדוגמא עבור מודל לינארי נבחר 𝑖𝑥 = ) 𝑖𝑥(𝜙 ,𝜙𝑜 = 1,עבור מודל
פולינומיאלי מסדר 3נבחר 𝜙0 = 1, 𝜙1 = 𝑥, 𝜙2 = 𝑥 2 , 𝜙3 = 𝑥 3ובמקרה זה הפתרון יתקבל עבור:
(𝑥−𝜇𝑚 )2
−
𝑒 = )𝑥( 𝑚𝜙 כאשר הממוצעים ימוקמו בנקודות של סדרת 𝑚𝜎 עבור מודל עם פונקציות בסיס רדיאליות,
הלימוד ,נקבע 0באלכסון של מט' המאפיינים.
רגולריזציה
כאשר מספר הפרמטרים בווקטור θגדול יחסית למספר הדוגמאות (או גיוונן) ,המטריצה Qהינה ( ill-conditionedיחס גדול
בין הערך העצמי הגדול והקטן) .המקרה כזה חלק מאיברי וקטור הפרמטרים עלולים לקבל ערכים גדולים ,והפונקציה fθ
תהיה מפותלת וקופצנית מעבר לדרוש.
כדי לפתור את הבעיה נבצע רגולריזציה (הסדרה ,החלקה) של הבעיה ,על ידי הוספת איבר מתאים בבעיית המינימיזציה.
2
הצורה הכללית של הקריטריון המתקבל היא𝐸𝜆 (𝜃) = ∑𝑛𝑖=1(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) + 𝜆𝑔(𝜃):
)𝜃(𝑔 הינה פונקצייה מסוימת של הפרמטרים (פונקציית הרגולריזציה) ,ו λפרמטר סקלרי השולט על המשקל היחסי של איבר
הרגולריזציה לעומת איבר השגיאה.
איבר זה מטיל קנס על גודל המקדמים ,ולפיכך יגרום להקטנתם בפתרון האופטימלי.
מקרה כללי יותר מתקבל עבור הבחירה:
𝜃𝑅 𝑇 𝜃 = )𝜃(𝑔
כאשר Rמט' סימטרית אי שלילית מוגדרת .בחירת המטריצה Rמאפשרת גמישות נוספת בהגדרת איבר הרגולריזציה.
27
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
2
𝐼 = 𝑅 :במקרה זה נקבל ||𝜃|| = )𝜃(𝑔 כלומר המקרה הריבועי הבסיסי.
𝑀∑ = )𝜃(𝑔 ,כלומר סכום ריבועים משוקלל. 2
} 𝑀𝑟 𝑅 = 𝑑𝑖𝑎𝑔{𝑟1 , … ,במקרה זה נקבל ) 𝑚𝜃( 𝑚𝑟 𝑚=1
במקרה המיוחד של רגרסיה לינראית ,כלומר )𝑑(𝑥 𝑑𝜃 ,𝑓𝜃 (𝑥) = 𝜃0 + 𝜃1 𝑥(1) + ⋯ +מקובל לא להטיל קנס
או מגבלה על ערכו של פרמטר ההטיה ,𝑏 = 𝜃0כך שנקבע 𝑔(𝜃) = 𝜃12 + ⋯ + 𝜃𝑑2ללא איבר ה .1-מקרה זה
מתאים לבחירת }.𝑅 = 𝑑𝑖𝑎𝑔{0,1, … ,1
בחירה מיטבית של הפרמטר 𝜆 קשורה כמובןב אופי הבעיה ,במאפיינים שנבחרו ,ובסדרת הדוגמאות .קיימות לשם כך גישות
תיאורטיות שונות .שיטות מעשיות יותר מבוססות על שימוש בסדרת האימות 𝑡𝑒𝑠 𝑛𝑜𝑖𝑡𝑎𝑑𝑖𝑙𝑎𝑉 במהלך תהליך הלמידה כדי
לזהות את הערך המיטבי.
28
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
1 1
עבור פונק' מחיר ריבועי ואיבר רגולריזציה .𝐿(𝑤) = 2 𝑤 𝑇 (𝑋𝑋 𝑇 + 𝜆𝐼)𝑤 − 𝑤 𝑇 𝑋𝑦 + 2 𝑦 𝑇 𝑦 :ℓ2
אם קיים וקטור מאפיינים 𝑚 Φ: ℝ𝑑 → ℝנקבל מאותו חישוב 𝑚̂ = (ΦΦ𝑇 + 𝜆𝐼)−1 Φ𝑦 ∈ ℝ
𝑤.
עבור משערך )𝑥( , 𝑦̂ = 𝑓(𝑤, 𝑥) = 𝑤 𝑇 Φהערך של mיכול להיות מאוד גדול ונקבל סיבוכיות חישוב גדולה מאוד .לכן
נשתמש בפונקציית גרעין )𝑧( 𝐾(𝑥, 𝑧) = Φ(𝑥)𝑇 Φונקבל:
האלגוריתם האיטרטיבי הפשוט ביותר לבעיית האופטימיזציה של בעיות למידה הינו אלגוריתם הגרדיאנט.
כזכור ,הגרדיאנט ∇𝜃 ℎמציין את הכיוון (במרחב הפרמטרים) בו הפונקציה עולה בשיפוע מרבי .עבור פונקציה גזירה:
29
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
אלגוריתם הגרדיאנט הינו בהתאם לכך:
𝑛
ניתן לראות כי איבר הגולריזציה שואף לכווץ במעט את )𝑡(𝜃 בכל איטרציה.
נרשום את האלגוריתם שקיבלנו באופן סקלרי:
} 𝑀𝑟 .𝑅 = 𝑑𝑖𝑎𝑔{𝑟1 , … , נניח כי Rהינה מטריצה אלכסונית
)𝑡(𝜃 𝑇) 𝑖𝑥(𝜙 𝑒𝑖 (𝑡) = 𝑦𝑖 − נסמן שגיאת חיזוי של דוגמא iעבור פרמטר )𝑡(𝜃
ניתן לראות כי רכיב mשל 𝜃 מתעדכן באופן הבא:
𝑛
לעתים נדרש להוסיף למודל הלינארי הבסיסי 𝑓𝜃 (𝑥) = 𝜃 𝑇 𝜙(𝑥) ,פונקציה לא-לינארית ביציאה ,דהיינו:
הפונקציה 𝑔 היא באופן טיפוסי פונקציה עולה ,גזירה ,ובעלת צורת סיגמואיד .מודל זה משמש גם כאבן הבניין היסודית
ברשת נוירונים מלאכותית .השגיאה הריבועית הכוללת תהיה עתה:
𝑛 𝑛
1 2 1 2
) )) 𝑖𝑥(𝜙 𝑇 𝜃(𝑔 𝐸(𝜃) ≜ ∑(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) = ∑(𝑦𝑖 −
2 2
𝑖=1 𝑖=1
במקרה זה לא ניתן לחשב אנליטית את הפרמטר האופטימלי הממזער את השגיאה ,אך ניתן עדיין להפעיל את אלגוריתם
הגרדיאנט לקבלת נקודת מינימום מקומי .הגרדיאנט המתקבל פה:
𝑛
31
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
בסעיפים הקודמים נעזרנו לצורך התאמת הפרמטרים בפונקציית מחיר מסוימת – השגיאה הריבועית הכוללת ,וכן הוספנו
איבר רגולריזציה ריבועי .פונקציות אלו לא נבעו משיקולים יסודיים ,אלא בעיקר משיקולי נוחות חישובית .בסעיף זה נראה
כי ניתן להצדיק בחירות אלו בעזרת מודל סטטיסטי מתאים.
המודל הבסיסי לבעיית הרגרסיה מניח כי הקשר בין הקלט לפלט בסדרת הדוגמאות הנתונה הינו 𝑖𝜀 𝑦𝑖 = 𝑓0 (𝑥𝑖 ) +
𝑓0היא פונקציה לא ידועה ,הקרויה פונקציית הרגרסיה .בגרסא הפרמטרית ,נניח כי שייכת למשפחה פרמטרית
נתונה } ℱ = {𝑓𝜃 (𝑥), 𝜃 ∈ Θכלומר עבור 𝜃 כלשהיא.𝑓𝜃 = 𝑓0 ,
𝑖𝜀 הינה סדרת רעש אשר מייצגת את ההפרש בין הערך האמיתי לערך הנמדד .אנו מניחים כי זו סדרה של
משתנים אקראיים בעלי תוחלת ,1ובלתי תלויים בקלט.
מתאור זה נובע כי ) 𝑖𝑥( 𝜃𝑓 = )𝜃 . 𝐸(𝑦𝑖 |𝑥𝑖 ,נראה עתה כי בהנחת רעש גאוסי ,משערך הסבירות המירבית של 𝐸𝐿𝑀̂𝜃 מתקבל
ע"י מינימיזציה של שגיאה הריבועית הכוללת.
נזכיר כי משערך הסבירות המירבית מתקבל על ידי מקסימיזציה של פונקציית הסבירות .את פונקציית הסבירות נהוג להגדיר
בבעיות רגרסיה כך:
כלומר :זו סבירות התגיות בהינתן ערכי קלט נתונים ופרמטר לא ידוע 𝜃.
טענה :6נניח כי ) ,𝜀𝑖 ~𝑁(0, 𝜎 2משתנים גאוסיים בת"ס בעלי ממוצע 1ושונות נתונה .𝜎 2אזי משערך הסבירות המירבית של
וקטור הפרמטרים 𝜃 נתון על ידי:
𝑛
2
)) 𝑖𝑥( 𝜃𝑓 𝜃̂𝑀𝐿𝐸 = arg min ∑(𝑦𝑖 −
𝜃∈Θ
𝑖=1
𝑛 𝑛
)𝜃 𝐿(𝜃) ≜ 𝑝(𝑦1 , … , 𝑦𝑛 |𝑥1 , … , 𝑥𝑛 , 𝜃) = ∏ 𝑝(𝑦𝑖 |𝑥𝑖 , 𝜃) = ∏ 𝑝(𝑦𝑖 = 𝑓𝜃 (𝑥𝑖 ) + 𝜀𝑖 |𝑥𝑖 ,
𝑖=1 𝑖=1
𝑛 𝑛 2 𝑛 2
1 )) 𝑥( 𝑓(𝑦 −
𝑖 − 𝑖 𝜃2 ))𝑖𝑥( 𝜃1 𝑛 −∑𝑖=1(𝑦𝑖−𝑓2
∏ = )𝜃 = ∏ 𝑝(𝜀𝑖 = 𝑓𝜃 (𝑥𝑖 ) − 𝑦𝑖 |𝑥𝑖 , 𝑒 𝜎2 = ( 𝑒 ) 𝜎2
2𝜋𝜎 2 2𝜋𝜎 2
𝑖=1 𝑖=1
נתבונן עתה בבעיית השערוך של 𝜃 במסגרת בייסיאנית :בפרט ,נניח כי 𝑀 𝜃 ∈ ℝהוא וקטור אקראי גאוסי עם ממוצע אפס
ומטריצת קווריאנס ידועה .θ~N(0, Σ) :Σ > 0זהו הפילוג פריור של 𝜃 .יתר המודל ללא שינוי ,בפרט הרעש הגאוסי.
𝑛
1 2 1
𝜃̂𝑀𝐴𝑃 = arg min 2
𝜃 ∑(𝑦𝑖 − 𝑓𝜃 (𝑥𝑖 )) + 𝜃 𝑇 Σ−1
𝜎𝜃∈Θ 2 2
𝑖=1
30
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
הוכחה :נראה ראשית כי )𝜃( 𝑜𝑝)𝜃(𝐿 𝑀𝜃̂𝑀𝐴𝑃 ≜ arg max𝑀 𝑝(𝜃|𝑑) = arg max
𝜃∈ℝ 𝜃∈ℝ
נסמן לשם קיצור ) 𝑛𝑥 .𝑦1:𝑛 = (𝑦1 , . . , 𝑦𝑛 ), 𝑥1:𝑛 = (𝑥1 , . . ,לפי משפט בייס:
כאשר השוויון האחרון נובע מהגדרת פונקציית הסבירות למעלה ,ומאי התלות של 𝑛 𝑥1:ב𝜃 .הטענה לעיל מתקבלת כיוון
שהשבר האחרון אינו תלוי ב 𝜃 .עתה ,הצבת הביטוי שקיבלנו קודם עבור פונקציית הסבירות והצבת הפילוג הגאוסי
1 𝑇 −1
𝜃𝑝0 (𝜃) = 𝐶0 𝑒 −2 𝜃 Σ
האיבר הריבועי הנוסף בטענה 1זהה בצורתו לאיבר הרגולריזציה הריבועי 𝜃𝑅 𝑇 𝜃 = )𝜃(𝑔 מהסעיפים הקודמים .איבר זה
מתקבל פה מתוך הפילוג הראשוני של הפרמטר 𝜃 .בפרט ,איבר זה בעל משקל יחסי גדול יותר ככל שהקווריאנס Σקטן יותר,
כלומר ככל שההנחה לגבי הפילוג הראשוני של 𝜃 הדוקה יותר.
32
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
סיווג לינארי
במסגרת הגישה הגנרטיבית לסיווג ,פיתחנו חוקי החלטה בייסיאניים אופטימליים עבור פילוגים גאוסיים וקיבלנו מודלים
לינאריים לסיווג.
כעת נתמקד בגישה הדיסקרימינטיבית ,בה אנחנו קובעים מראש משפחה פרמטרית מסוימת של מסווגים (משפחה לינארית
במקרה הנוכחי) ומכווננים את הפרמטרים בהתאם לסדרת הלימוד.
עבור בעיית הסיווג הבינארית ,מסווג לינארי יהיה מהצורה ∑𝑑𝑗=1 𝑤(𝑗)𝑥(𝑗) + 𝑏 ≡ 𝑤 𝑇 𝑥 + 𝑏 > 0 ? 𝐶1 ∶ 𝐶2:
כלומר ,הסיווג הוא לפי הסימן של הפונקציה הלינארית )𝑏 .𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +
נתאר אלגוריתמים שונים לכוונון הפרמטרים } 𝑘𝑏 {𝑤𝑘 ,לתיאור סיווג Kמחלקות בעזרת סדרת הלימוד.
גיאומטריה של הפרדה לינארית
חוק ההחלטה הבינארי מחלק את מרחב הקלט 𝑑 𝑥 ∈ ℝלשני חצאי מרחב ,לפי הסימן ,אשר מופרדים ע"י משטח ההפרדה
הלינארי .זהו hyperplaneבמרחב הקלט.
כיוון העל-מישור 𝑏 𝑤 𝑇 𝑥 +נקבע על ידי הוקטור 𝑤 והוא מאונך אליו.
כלומר 𝑤 𝑇 (𝑥𝑎 − 𝑥𝑏 ) = 0לכל שתי נקודות 𝑏𝑥 𝑥𝑎 ,בעל מישור זה.
סדרת דוגמאות מתויגות ניתנת להפרדה לינארית אם קיים על-מישור במרחב xאשר מפריד באופן מלא בין הדוגמאות
בהתאם לסימנן ,כלומר קיימים פרמטרים ) (w,bהמקיימים 𝑛 .𝑦𝑖 = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 + 𝑏), ∀𝑖 = 1, … ,
עבור סדרה שאינה ניתנת להפרדה לינארית (לדוגמא ,)XOR ,ניתן לפתור באופן חלקי על ידי שימוש בוקטור מאפיינים
מתאים במקום הקלט הגולמי ).yi = sign(w T ϕ(xi ) + b
33
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
אלגוריתם הפרספטרון
לצורך פשטות התאור ,נבצע את המעבר הבא:
𝑇 𝑇
))𝑑(𝑥 𝑥 = (𝑥(1), … , 𝑥(𝑑)) → 𝑥 = (1, 𝑥(1), . . ,
𝑇 𝑇
))𝑑(𝑤 𝑤 = (𝑤(1), … , 𝑤(𝑑)) → 𝑤 = (𝑏, 𝑤(1), . . ,
כך שמתקבל )𝑥 𝑇 𝜃(𝑛𝑔𝑖𝑠 = )𝑥(̂𝑦
אנו מניחים כי סדרת הלימוד שלנו ניתנת להפרדה לינארית .מטרתנו למצוא וקטור פרמטרים שמקיים הפרדה זו.
כאשר 𝑡𝑦 = 𝑡̂𝑦 הסיווג של הדוגמא בזמן tנכון ובמקרה זה לא מתבצע עדכון משקלים.
כאשר ,𝑦𝑡 = 1, 𝑦̂𝑡 = −1ערך המסווג קטן מדי ,וכדי להגדילו יש להגדיל את 𝑡𝑥 𝑇𝑡𝜃 .האלגוריתם מוסיף לו את הווקטור
𝑇
.𝜃𝑡+1כאשר הערכים הפוכים ,נחסיר נורמה זו. ומתקבל 𝑥𝑡 = (𝜃𝑡 + 𝑥𝑡 )𝑇 = 𝜃𝑡𝑇 𝑥𝑡 + ‖𝑥𝑡 ‖2
נניח כי אוסף הדוגמאות {𝑥𝑖 , 𝑦𝑖 }𝑛𝑖=1ניתן להפרדה לינארית .נניח גם כי כל דוגמה באוסף נבחרת מספר בלתי חסום של
פעמים .אזי אלגוריתם לימוד הפרפסטרון מתכנס בתוך מספר סופי של צעדים לוקטור פרמטרים ∗ 𝜃 שמסווג נכונה את כל
הדוגמאות.
רגרסיה לוגיסטית
מסגרת נפוצה ללימוד מסווג פרמטרי.
נלמד מודל פרמטרי להסתברויות הסיווג ] . 𝑝(𝐶𝑘 |𝑥) ≈ 𝑔𝑘 (𝑥; 𝜃) ∈ [0,1הפונקציה 𝑔 נלקחת מתוך מודל פרמטרי מתאים
לתיאור הסתברויות.
מסווג שבמוצאו הסתברויות לחלוקה למחלקות נקרא "מסווג רך" ,והמסווג עם ההסתברות המקסימלית נקרא "מסווג
קשיח".
)𝜃 ;𝑥( 𝑘𝑔 𝑥𝑎𝑚 𝑔𝑟𝑎 = )𝑥( ̂𝐶
𝐾𝑘=1,…,
המודל הלוגיסטי מוגדר כך באופן כללי:
) 𝑘𝜃;𝑥( 𝑘𝑓 𝑒
= )𝜃 ;𝑥( 𝑘𝑔 𝐾 , 𝑘 = 1, … ,
𝐾∑ ) 𝑗𝜃;𝑥( 𝑗𝑓
𝑒 𝑗=1
הפונקציה ) 𝑘𝜃 ;𝑥( 𝑘𝑓 שייכת למשפחה פרמטרית כלשהיא בעלת וקטור פרמטרים ,ומקבל ערכים ממשיים .עבור ערכים שונים
של 𝑘𝑓 מתקיים:
𝐾
]∑ 𝑔𝑘 = 1 , 𝑔𝑘 ∈ [0,1
𝑘=1
34
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
ניתן לראות כי ) .𝑔2 (𝑥; 𝜃2 ) = 1 − 𝑔1 (𝑥; 𝜃1במקרה זה נדרש ללמוד רק פונקציה יחידה 𝑓 ,או 𝑔.
המודל הלוגיסטי הלינארי :זהו המקרה המיוחד שבו ) 𝑘𝜃 ;𝑥( 𝑘𝑓 נבחרת במשפחה הלינארית בפרמטרים:
)𝑥(𝜙 𝑇𝑘𝜃 = ) 𝑘𝜃 ;𝑥( 𝑘𝑓
לפיכך,
𝑇
)𝑥(𝜙 𝑘𝜃 𝑒
= )𝜃 ;𝑥( 𝑘𝑔 𝑇 𝐾 , 𝑘 = 1, … ,
)𝑥(𝜙 𝑗𝜃
𝐾∑
𝑒 𝑗=1
כוונון הפרמטרים
נזכיר כי )𝑥|𝑘 = 𝑌( 𝑋|𝑌𝑝 ≈ )𝜃 ;𝑥( 𝑘𝑔 .נרשום את פונקציית הסבירות המותנית בקלט:
𝑛
משערך הסבירות המירבית מוגדר כרגיל ע"י משערך ,MLEחישוב המקסימום מתבצע ע"י חישוב איטרטיבי.
נשים לב כי:
𝐾
}))ℓ(θ) = ∑{ỹi (1) ln(g1 (xi ; θ)) + (1 − ỹi (1)) ln(1 − g1 (xi ; θ
i=1
35
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑛
פונקציית ההפסד )𝑔 𝑑(𝑦̃,היא עתה פונקציית מרחק בין שני וקטורי הסתברות .ישנן כמה אפשרויות מתאימות לפונקציות
מרחק מתאימות:
א .המרחק הריבועי:
𝐾
2
))𝑘(𝑞 𝑑2 (𝑞, 𝑝) = ∑(𝑝(𝑘) −
𝑘=1
זו בחירה אפשרית אך חסרונה בכך שהיא רגישה רק להפרשי הסתברויות אך לא ליחסי הסתברויות ,שעשויים להיות
בעלי חשיבות רבה.
ב .מרחק :Kulback-Leibler
𝐾
)𝑘(𝑝
( 𝑑𝐾𝐿 (𝑝, 𝑞) = ∑ 𝑝(𝑘) ln )
)𝑘(𝑞
𝑘=1
זו מידת מרחק מקובלת יותר בין וקטורי הסתברות .תכונותיה:
( 𝑑𝐾𝐿 (𝑝, 𝑞) ≥ 0 אי שוויון גיבס)
𝑑𝐾𝐿 (𝑝, 𝑞) = 0 אם ורק אם 𝑞 = 𝑝
בחישוב 𝐿𝐾𝑑 נגדיר .0 ln(0) = 0
הצבת המרחק הזה בנוסחת השגיאה הכללית נותן:
𝑁 𝐾
)𝑘( 𝑖̃𝑦
(( 𝐸𝐾𝐿 (𝜃) = ∑ ∑ 𝑦̃𝑖 (𝑘) ln ))
)𝜃 ; 𝑖𝑥( 𝑘𝑔
𝑖=1 𝑘=1
זו פונקציית השגיאה אותה נרצה להביא למינימום.
𝐾∑ . ℓ(𝜃) = ∑𝑛𝑖=1 הקשר לפונקציית הסבירות :פונקציית לוג הסבירות שקיבלנו הייתה ))𝜃 ; 𝑖𝑥( 𝑘𝑔(̃𝑖 (𝑘) ln
𝑦 𝑘=1
כיוון שהתגיות קבועות ,ניתן לראות כי מיזעור 𝐿𝐾𝐸 שקול למיקסום )𝜃( . ℓכלומר שתי הגישותש תיארנו מתלכדות.
𝜆
רגולריזציה :גם פה מקובל להוסיף איבר רגולריזציה ריבועית לפונקציית המחיר כך ש .𝐸𝜆 (𝜃) = 𝐸𝐾𝐿 (𝜃) + 2 ‖𝜃‖2
במודל ההסתברותי ,איבר הרגולריזציה מתקבל על ידי הנחת הפילוג האפריורי מסוים על 𝜃 ושימוש במשערך MAPבמקום
1
.MLEלמשל ,עבור )𝐼𝜌 𝜃~𝑁(0,נקבל .𝜃̂𝑀𝐴𝑃 = 𝑎𝑟𝑔 𝑚𝑎𝑥{ℓ(𝜃) − 𝜌−1 ‖𝜃‖2
𝜃 2
אלגוריתם הגרדיאנט
פונקציית המשערך שהגדרנו עבור רגרסיה לוגיסטית הינה לא-לינארית ,ולא ניתן לקבל ביטוי סגור עבור וקטור הפרמטרים
האופטימלי .לפיכך יש להיעזר באלגוריתמי אופטימיזציה איטרטיביים.
עלינו למצוא את נקודת המקסימום של )𝜃( . ℓלשם פשטות נתאר את הגרסה הסדרתית של אלגוריתם הגרדיאנט .בצעד t
אנו בוחרים דוגמא ) 𝑡̃𝑦 (𝑥𝑡 ,ומחשבים:
𝐾
𝐾
𝜕 ) 𝑘𝜃 ;𝑥( 𝑘𝑓𝜕
( ))𝜃 ;𝑥( 𝑘𝑔 ∑ 𝑦̃𝑡 (𝑘) ln(𝑔𝑘 (𝑥𝑡 ; 𝜃𝑡 )) = (𝑦̃(𝑘) − )
𝑘𝜃𝜕 𝑘𝜃𝜕
𝑘=1
36
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
37
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
פרספטרון בודד
המרכיב הבסיסי ברשת ניורונים מלאכותית הינו הניורון הבודד ,המכונה פרוספטרון .נזכיר כי מתקיים
𝑑
𝑇
𝑣 = 𝜑(𝑢), 𝑏 𝑢 = 𝑊 𝑋 + 𝑏 = ∑ 𝑤𝑗 𝑥𝑗 +
𝑗=1
פונקציות הפעלה
38
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
פונקציית השגיאה
1
עבור בעיית רגרסיה ,מספיק ניורון יציאה בודד לכל מימד .פונקציית שגיאה טיפוסית.𝐸(𝑌, 𝑂) = 2 ∑𝐾𝑘=1(𝑦𝑘 − 𝑜𝑘 )2 :
יש להקפיד כי פונקציית האקטיבציה בשכבת היציאה תהיה בעלת טווח תואם לטווח הנדרש עבור משתני היציאה.
עבור בעיית סיווג ,ניורון יציאה לכל מחלקה ,כאשר הסיווג מתבצע לפי הניורון בעל הערך המקסימלי.
1 1
𝐾∑ 𝐸(𝑌, 𝑂) = 2 ‖𝑌 − 𝑂‖2 = 2 ̃𝑘 − 𝑜𝑘 )2
𝑦(𝑘=1 𝐾∑ , 𝐸 = − ) 𝑘𝑜(𝑔𝑜𝑙 𝑘̃
𝑦 𝑘=1 שתי פונקציות שגיאה רלוונטיות:
עבור האנטרופיה הצולבת נקבל את הגרדיאנט:
𝐸𝜕 𝐸𝜕
= (𝑂 − 𝑌̃)𝑉𝐿−1
𝑇
→ = (𝑜𝑘 − 𝑦̃𝑘 )𝑣𝑟,𝐿−1
𝐿𝑊𝜕 𝑟𝑘 𝐿𝑊𝜕
אפשרות מקובלת יותר הינה רגרסיה לוגיסטית .פונקציית האקטיבציה הרגילה בשכבת היציאה מוחלפת בנרמול הבא:
𝐿𝑈 𝑒 𝐿𝐵𝑒 𝑊𝐿 𝑉𝐿−1 +
= ) 𝐿𝑈(𝜑 ≡ 𝑂 = , 𝟏𝑻 = (1,1, … ,1)𝑇 , 𝐿𝟏𝑇 𝑒 𝑈𝐿 = ∑ 𝑒 𝑢𝑘,
𝐿𝐵𝟏𝑇 𝑒 𝑈𝐿 𝟏𝑇 𝑒 𝑊𝐿 𝑉𝐿−1 +
𝑘
ייצוג פונקציה באמצעות רשת היזון קדמית המכילה נוירונים מסוג ReLU
שימוש ב MLPעם שכבה נסתרת אחת אשר תדאג לחלוקה למקטעים ,ושכבת המוצא תדאג לשיפועים .נשתמש במס'
נוירונים כמס' המקומות בהם הפונקציה משנה את השיפוע שלה ,ונתאם את השבירה של ה ReLUבאמצעות איבר ההיסט.
39
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
זהו האלגוריתם הנפוץ ביותר לכוונון רשת עצבית רב – שכבתית .כעיקרון מדובר באלגוריתם גרדיאנט לעדכון משקלים
ברשת .אופן חישוב הגרדיאנט מתבצע באמצעות כלל השרשרת בצורה יעילה.
נתייחס לשגיאה הריבועית במוצא ,ונרצה לחשב את הגרדיאנט של השגיאה.
א .חישוב מוצאי הנוירונים – נחשב ראשית את ערכי כל המשתנים ברשת עבור הכניסה )𝑖( 𝑋 ,נסמנה .Xחישוב זה
מתבצע באופן טבעי מהכניסה לכיוון היציאה וקרוי לפיכך חישוב קדמי.
ב .חישוב הגרדיאנט – נשים לב כי הנוירונים בשכבות הפנימיות אינם משפיעים ישירות על השגיאה אלא דרק נוירונים
אחרים .חישוב הגרדיאנט עבור פרמטריהם ייעשה בעזרת כלל השרשרת של הנגזרת ,כאשר החישוב מתבצע בצורה
רקורסיבית מכיוון היציאה לכיוון הכניסה:
)𝜃( )𝑖( 𝐸𝜕 𝑙𝑉𝜕 )𝜃( )𝑖( 𝐸𝜕 )𝜃( )𝑖( 𝐸𝜕
= ⋅ ⋅ ) 𝑙𝑈( = 𝜑𝑙′
𝑙𝑈𝜕 𝑙𝑈𝜕 𝑙𝑉𝜕 𝑙𝑉𝜕
)𝑖( )𝑖( )𝑖(
𝑇 )𝜃( 𝐸𝜕 𝑙𝑈𝜕 )𝜃( 𝐸𝜕 )𝜃( 𝐸𝜕
= ⋅ = 𝑉𝑙−1
𝑙𝑊𝜕 𝑙𝑈𝜕 𝑙𝑊𝜕 𝑙𝑈𝜕
)𝜃( )𝑖( 𝐸𝜕 𝑇𝑙𝑊 )𝜃( )𝑖( 𝐸𝜕 𝜕𝐸 (𝑖) (𝜃) 𝜕𝑈𝑙−1
= ⋅ =
𝜕𝑉𝑙−1 𝜕𝑉𝑙−1 𝜕𝑈𝑙−1 𝑙𝑈𝜕
זה נקרא חישוב אחורי או .BackPropagation
)𝜃( )𝑖( 𝐸𝜕
≜ 𝑙𝐺. נסמן את הגרדיאנט לכל שכבת נוירונים
𝑙𝑈𝜕
כך שעבור כל השכבות מלבד שכבת היציאה ניתן לרשום את החישוב האחורי בצורה וקטורית:
𝑈( ′ 𝑇
𝐺𝑙−1 = 𝜑𝑙−1 𝑙𝐺 𝑙𝑊 ⋅ ) 𝑙−1
)𝜃( )𝑖( 𝐸𝜕 𝑇
= 𝐺𝑙 𝑉𝑙−1
𝑙𝑊𝜕
איתחול הרקורסיה מתבצע ע"י חישוב בשכבת היציאה ,בו נקבל ישירות על ידי הצבת E (i) (θ):
)𝜃( )𝑖( 𝐸𝜕
= 𝐿𝐺 𝑌 = 𝑅 ⋅ 𝜑𝐿′ (𝑈𝐿 ), 𝑅 = 𝑂 −
𝐿𝑈𝜕
אלגוריתם הגרדיאנט מתקבל עתה ע"י הצבת הגרדיאנטים במשוואת עדכון הפרמטרים:
)𝜃(𝐸𝜕 𝑡𝜂
𝜃𝑡+1 = 𝜃𝑡 − 𝑡𝜃=𝜃|
𝜃𝜕
גרסא סדרתית
מבצעים עדכון לכל דוגמה בנפרד ,כאשר בצעד 𝑡 נבחרת דוגמה מסוימת ) 𝑖 𝑌 (𝑋 𝑖 ,ומתבצע העדכון .לפיכך ,בכתיבה וקטורית:
𝑖 𝑖
𝑔𝑗,ℓמחושבים עבור הקלט 𝑖 𝑋 ווקטור הפרמטרים 𝑡𝜃 = 𝜃. , 𝑣𝑘,ℓ כאן 𝑤𝑗𝑘,ℓהוא הרכיב המתאים של 𝑡𝜃 = 𝜃 ואילו
41
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
)𝜃( 𝑖 𝐸𝜕
𝜃 = 𝜃 − 𝜂𝑡 ∑𝑛𝑖=1 𝜃𝜕
לכל הדוגמאות במשותף: פה נבצע עדכון
את הגרדיאנט נחשב בנפרד לכל דוגמה (עם אותו וקטור פרמטרים) ונסכם .האלגוריתם המתקבל:
𝑛
)𝜃( 𝑖 𝐸𝜕 𝑇
𝑡𝜂 𝑊ℓ = 𝑊ℓ − = 𝑊ℓ − 𝜂𝑡 ∑ 𝐺ℓ𝑖 (𝑉ℓ𝑖 ) , ∀𝑊ℓ
𝜕𝑊ℓ
𝑖=1
סיכום והערות
.0עדכון המשקלים של נוירון בשכבה נסתרת מתבצע בהתאם לסכום משוקלל של השגיאות 𝑘𝑟 בנוירונים בשכבת המוצע
שמושפעים על ידו .ניתן לראות שקלול זה כמבטא את מידת "אחריותו" של נוירון ביניים לשגיאה ביציאה.
.1חישוב הגדלים המופיעים באלגוריתם שפותח מתבצע בשני שלבים:
א .חישוב קדמי :עבור כל כניסה נחשב את מוצאי הנוירונים:
) 𝑢𝑗,ℓ = ∑ 𝑤𝑗𝑘,ℓ 𝑣𝑘ℓ−1 + 𝑏𝑗,ℓ , 𝑣𝑗,ℓ = 𝜙ℓ (𝑢𝑗,ℓ
𝑘
ב .חישוב אחורי :נחשב את ערך הגרדיאנטים בכל נוירון ,כלהלן:
𝑗𝑟) 𝐿𝑟𝑗 = 𝑦𝑗 − 𝑜𝑗 , 𝑔𝑗,𝐿 = 𝜙 ′ (𝑢𝑗, .0בשכבת היציאה:
.1בשכבות הפנימיות" :פעפוע אחורי" של השגיאה ,לפי
′
𝑔𝑗,ℓ−1 = 𝜙ℓ−1 (𝑢𝑗,ℓ−1 ) ∑ 𝑤𝑘𝑗,ℓ 𝑔𝑘,ℓ
𝑘
עבור רגרסיה לוגיסטית ,יש לעדכן את נוסחת 𝑙 𝑔𝑘,עבור שכבת היציאה בלבד .נתבונן בפרט בעיית הסיווג ל 𝐾 מחלקות עם
שכבת יציאה לוגיסטית ופונקציית מחיר של אנטרופיה צולבת ,כלומר:
40
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
רשתות קונבולוציה
קונבולוציה חד מימדית
∞} X = {xnנגדיר: ∞
לכל שני תהליכים ממשיים ∞n=−∞ , Y = {yn }n=−
∞∑ = 𝑘𝑧
קונבולוציה 𝑌 ∗ 𝑋 = 𝑍 𝑛=−∞ 𝑥𝑛 𝑦𝑘−𝑛 :
∞∑ = 𝑘𝑤.קרוס קורלציה 𝑌 ⋆ 𝑋 = 𝑊 𝑛=−∞ 𝑥𝑛 𝑦𝑘+𝑛 :
רשתות קונבולוציה עושות בעצם פעולה של קרוס קורלציה.
∞} 𝜏 𝑋 = {𝑥𝑛+תגרום להזזה ב Zוב .W
ההזזה ∞𝑛=−
קונבולוציה דו מימדית
במודל רשת ,)fully connected( MLPאין רגישות לסדר בכניסה .לפעמים תכונה זו רצויה ,אך באה במחיר של מספר רב של
פרמטרים .במקרים בהם למידע יש מבנה מרחבי (תמונות) ,נרצה לנצל את זה .רשתות קונבולוציה עושות זאת.
ייצוג היררכי מרחבי
ברשתות רב שכבתיות רגילות ,כל נוירון מחובר לכל נוירון בשכבה הבאה.
ברשתות קונבולוציה יש חיבוריות מקומית :כל נוירון מחובר רק לאיזור מסוים בשכבה הקודמת.
לכן ,בשכבות עמוקות יותר כל נוירון מושפע מאיזור גדול יותר בקלט.
חוסר רגישות להזזות גלובליות ,כלומר הזזת תמונה בד"כ לא משנה את התוכן שלה.
חוסר רגישות להזזות מקומיות ,בהרבה איזורים בתמונה ,הזזות לא משנות את תוכן האיזור.
נרצה לבנות רשת שאין לה רגישות להזזות גלובליות.
עקב ההנחה כי הקשר בין כניסות קרובות הוא יותר חזק ומשמעותי מאשר כניסות רחוקות ,ושאזורים שונים בכניסה
מתנהגים באופן דומה ,נקבל רשת עם חוסר רגישות להזזות ,כמו ,FCרק שבמקום 𝑠𝑡𝑢𝑝𝑡𝑢𝑜𝑁 × 𝑡𝑢𝑝𝑛𝑖𝑁 משקולות נקבל רק
Kמשקולות.
בדומה לשכבות ,FCנעשה שימוש בפונקציות אקטיבציה לא לינאריות .הנפוצה שבהן תהיה .ReLU
נרצה לרוב ששכבת הקונבולוציה תקבל קלט רב ערוצי (לדוגמא ,תמונה בעלת שלושה ערוצי צבע) .במקרים אלו הנוירון יהיה
פונקציה של כל ערוצי הקלט ,ונשתמש ביותר מגרעין קונבולוציה אחד – לקבלת מספר ערוצים במוצא.
עבור .𝑑𝑖𝑙𝑎𝑡𝑖𝑜𝑛 = 1, 𝑠𝑡𝑟𝑖𝑑𝑒 = 1 , 𝑝𝑎𝑑𝑑𝑖𝑛𝑔 = 0
בשכבות אלו אין שיתוף של משקולות בין ערוצי הפלט השונים ,ומס' הפרמטרים יהיה:
𝑡𝑢𝑜𝐶 𝐶𝑖𝑛 × 𝐶𝑜𝑢𝑡 × 𝐾 +
כאשר 𝐶 הוא מס' הערוצים בכניסה או ביציאה בהתאם K ,הוא גודל גרעין הקונב' בין השכבות והאיבר החיבורי מסמן את
התוספת שנותן ההיסט.
חישוב גודל שכבה (רק ערוץ אחד בכל שכבה) מחושב ע"י 𝑑𝑖 = 𝑑𝑖−1 − 𝐾 + 1 :
מס' המכפלות בין כל שכבה 𝑖 − 1לשכבה הבאה הוא 𝑁 = 𝐶𝑖𝑛 × 𝐶𝑜𝑢𝑡 ⋅ 𝐾 ⋅ 𝑑𝑜𝑢𝑡 :
42
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
היפר פרמטרים
גודל הגרעין הינו היפר פרמטר.
מספר ערוצי הפלט
-Paddingריפוד – ניתן לרפד את וקטור הכניסה באפסים על מנת לשמור את אורך הוקטור במוצא.
– Strideצעד – ניתן לבצע את הקונבולוציה בדילוגים על מנת לדלל את המוצא .לרוב גודל הצעד מסומן ב .s
– Dilationהתרחבות – ניתן לדלל את המשקולות בגרעין הקונבולוציה על מנת להקטין עוד את מספר המשקולות.
– Max poolingאיגום
לרוב ברשתות קונבולוציה נעשה שימוש בשכבה נוספת על מנת לצמצם את גודל הקלט.
שכבת Max Poolingלוקחת את המקסימום מבין ערכי הכניסה .המוטיבציה לפעולה זאת הינה שהערכים הגבוהים מייצגים
מאפיינים בעלי יותר אינפורמציה.
Data augmentation
כדי לאמן על כמה שיותר דוגמאות ,ולפעמים אין לנו הרבה .לכן נוכל לקחת דוגמא קיימת (נניח ,תמונה כלשהיא) ולבצע עליה
מניפולציות שעקב אופייה של הרשת היא תחשב כמו דוגמא מעט שונה אך רלוונטית .למשל :הפיכה ( )flippingשל תמונה,
,rotatingשינוי צבעים וכדומה .נשים לב כי תמונות חדשות צריכות להיות הגיוניות לסט האימון.
סכמת האתחול
אתחול לא נכון של המשקולות יכול להביא את פונקציות האקטיבציה לרוויה ולעדכון משקולות איטי ולא אפקטיבי.
בעבור משקולות קטנות ,האות דועך בין שכבה לשכבה ולא מחלחל לשכבות הראשונות ).(vanishing gradient
בעבור משקולות גדולות ,האות גדל בין שכבה לשכבה מה שיכול לגרום לחריגה מתחום ייצוג ).(exploding gradient
נרצה לשמור על תכונות המרכוז והנרמול של הכניסה לכל נוירון ברשת.
בדרך כלל ,מגרילים את כל המשקולות בצורה בלתי תלויה .כדי למרכז נבחר פילוג משקולות עם ממוצע אפס ,𝔼𝑤 = 0מה
שגורר שגם הכניסה לשכבה הבאה היא עם ממוצע אפס .𝔼𝑤 = 𝔼𝑤𝑥 = 0ניתן לבחור שכל משקולת תהיה אפס.
כדי לנרמל ,נדרוש 𝑉𝑎𝑟(𝑣) = 1כאשר 𝑣 הינה הכניסה לפונקציית האקטיבציה .עבור 𝑉𝑎𝑟(𝑥𝑖 ) = 1
𝑑
𝑇
1
= ) 𝑖𝑤(𝑟𝑎𝑉 ⇒ ) 1 = 𝑉𝑎𝑟(𝑣) = 𝑉𝑎𝑟(𝑤 𝑥) = ∑ 𝑉𝑎𝑟(𝑥𝑖 )𝑉𝑎𝑟(𝑤𝑖 ) = 𝑑 ⋅ 𝑉𝑎𝑟(𝑤1
𝑑
𝑖=1
1
כדי לנרמל ,נבחר פילוג משקולות עם שונות 𝑠𝑡𝑢𝑝𝑛𝑖.𝑉𝑎𝑟(𝑤) ∝ #
לכן נהוג להשתמש בפילוג גאוסי או פילוג אחיד.
43
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
גאומטריה של המישור
אנו דנים בבעיית הסיווג הבינארי .נתון אוסף דוגמאות כך שכל קלט הוא בגודל 𝑑 ויש שתי מחלקות ,נסמנן.𝑦𝑖 ∈ {−1,1} :
מטרתנו ללמוד מסווג בינארי מהצורה )𝑏 .𝑦(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +כפי שראינו ,משוואה זו מגדירה שני אזורים (חצאי-
מרחב) המופרדים ע"י על-מישור המוגדר על ידי השוויון .𝑤 𝑇 𝑥 + 𝑏 = 0על -מישור זה יקרא פה גם משטח הפרדה לינארי.
במקרה של דוגמאות פרידות לינארית ,יהיה רצף של משטחי הפרדה שונים אשר מקיימים את דרישת ההפרדה.
נניח כי הדוגמאות ניתנות להפרידה לינארית .אזי ,על מישור 𝑤 𝑇 𝑥 + 𝑏 = 0אשר מביא למקסימום את מרווח ההפרדה
מתקבל כפיתרון של בעיית האופטימיזציה הבאה:
1 2
min ||𝑤|| , 𝑠. 𝑡. 𝑦𝑖 (𝑤 𝑇 𝑥 + 𝑏) ≥ 1 , 𝑛 𝑖 = 1, … ,
𝑤,𝑏 2
הבעיה הפרימאלית היא בעיית מינימיזציה של מחיר ריבועי ,כפוך לאילוצי אי שוויון לינאריים .בעיות אופטימיזציה מסוג זה
קרויות בעיות תכנות ריבועי קמור .כאשר הדוגמאות אינן ניתנות להפרדה לינארית ,לא ניתן לקיים את כל האילוצים בו
זמנית ,ולכן לבעיית האופטימיזציה לא יהיה פתרון.
טענה (מרחק בין נקודה לעל-מישור) :המרחק האוקלידי בין נקודה 𝑑 𝑥0 ∈ ℝלעל המישור 𝑤 𝑇 𝑥 + 𝑏 = 0נתון ע"י
𝑏𝑤 𝑇 𝑥+
= ) .𝑑± (𝑥0זה המרחק המסומן של 𝑥0לעל המישור .למרחק סימן חיובי אם 𝑥0בכיווןה וקטור 𝑤 |) |𝑑± (𝑥0כאשר
||𝑤||
יחסית לעל המישור ,וסימן שלילי במקרה הנגדי.
הוכחה :נניח כי 𝑥0אינה על העל-מישור ונסמן ב 𝑥 את הנקודה הקרובה ביותר ל 𝑥0בעל-המישור .כזכור ,ההפרש 𝑥 𝑥0 −
ניצב לעל-מישור ,וגם הוקטור 𝑤 .לכן ,שניהם באותו כיוון ,או בכיוון מנוגד.
נקבל:
44
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
2
||𝑥 ||𝑥0 − )𝑥 (𝑥0 − 𝑥)𝑇 (𝑥0 − 𝑇𝑤 1
𝑑± (𝑥0 ) ≜ ±||𝑥0 − 𝑥|| = ± =± = = )𝑥 (𝑥0 − )𝑥 𝑇 𝑤 (𝑤 𝑇 𝑥0 −
||𝑥 ||𝑥0 − ||𝑥 ||𝑥0 − ||𝑤|| ||𝑤||
1
= )𝑏 (𝑤 𝑇 𝑥0 +
||𝑤||
כאשר המעבר האחרון נובע מכך ש 𝑥 היא נקודה על העל מישור ומקיימת את משוואתו.
ננסח מתמטית את בעיית האופטימיזציה שפתרונה נותן את משטח ההפרדה האופטימאלי במובן של רוחב השוליים.
עבור על-מישור מפריד כלשהו ,המרחק לנקודה הקרובה ביותר הוא |) 𝑖𝑥( . 𝑚𝑖𝑛 |𝑑±אנו מעוניינים למצוא על מישור
𝑛𝑖=1,…,
שעבורו מרחק זה גדול ככל האפשר .𝑚𝑎𝑥 { 𝑚𝑖𝑛 |𝑑± (𝑥𝑖 )|} :את דרישת ההפרדה ניתן לנסח כך בעזרת : d±
𝑏𝑤, 𝑛𝑖=1,…,
נירמול המקדמים – נזכור כי וקטור הפרמטרים ניתן לנרמול בקבוע כלשהו ללא שינוי על-המישור המפריד .נרמול נוח יהיה
הפרמטרים לפי סדרת הדוגמאות כך ש . 𝑚𝑖𝑛 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1נרמול זה מוביל לבעיית האופטימיזציה המאולצת
𝑛≤𝑖≤1
1 1
הבאה ,𝑚𝑎𝑥 {‖𝑤‖} :עם הנירמול כאילוץ ,כאשר מיקסום ‖𝑤‖ הוא גם מינימליזציה של ‖𝑤‖ וזו מינימלזציה של .‖𝑤‖2
𝑏𝑤,
לכן נוכל לתאר את הבעיה הזו כבעיה הבאה ,שנקראת בעיית אופטימיזציה פרימאלית:
1
𝑚𝑖𝑛 ‖𝑤‖2 𝑛 𝑠. 𝑡. 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) ≥ 1 , 𝑖 = 1, … ,
𝑤,𝑏 2
לכאורה החלשנו את אילוץ השוויון לאילוץ אי שוויון ,אך ניתן לראות שבמקרה של אי שוויון חריף ניתן לכפול את )𝑏 (𝑤,
בקבוע קטן מ 0עד לקבלת השוויון ,ובכך להקטין את , ‖𝑤‖2ולפיכך הפתרון האופטימלי של הבעיה הפרימאלית תמיד יקיים
שוויון ,גם אם לא נדרוש זאת במפורש.
𝑖𝑦 𝑖𝑥 𝑖𝛼 ∑ = 𝑤
𝑖=1
45
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑖𝑥 𝑖𝛼 ∑ 𝑤 = ∑ 𝛼𝑖 𝑥𝑖 −
𝑖,𝑦𝑖 =+1 𝑖,𝑦𝑖 =−1
כלומר לוקטורי התמיכה של מחלקה +יש משקל חיובי ,ולאלה של מחלקה – משקל שלילי .באופן דומה ,נקבל כי סכום
המשקלים של שתי המחלקות זהה :
𝑖𝛼 ∑ = 𝑖𝛼 ∑
𝑖,𝑦𝑖 =+1 𝑖,𝑦𝑖 =−1
הבעיה הדואלית
נתאר בעיית אופטימיזציה אשר תאפשר את חישוב המקדמים (כופלי לגרנז') .בעיה זו הינה הבעיה הדואלית לבעיית הSVM
הפרימאלית.
תכונה חשובה שלה היא שהתלות בנקודות הקלט היא אך ורק דרך מכפלותיהן הפנימיות ⟩ 𝑘𝑥 .⟨𝑥𝑖 ,
הבעיה מתוארת על פני וקטור משתנים ) 𝑛𝛼 :𝛼 = (𝛼1 , … ,
𝑛 𝑛 𝑛 𝑛
1
⟩ 𝑗𝑥 𝑚𝑎𝑥 ∑ 𝛼𝑖 − ∑ ∑ 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗 ⟨𝑥𝑖 , 𝑠. 𝑡. 𝛼𝑖 ≥ 0, ∀𝑖 = 1,2, … , 𝑛 , ∑ 𝛼𝑖 𝑦𝑖 = 0
𝛼 2
𝑖=1 𝑖=1 𝑗=1 𝑖=1
= wאשר השתמשנו בבעיה ∑ni=1 αi yi xi הסכום השני בפונקציית המטרה הוא ביטוי חליפי לנורמה הריבועית של הצירוף
הפרימאלית:
𝑛 2 𝑛 𝑛
משפט :3המקדמים 𝑛𝑎 𝛼1 , … ,מתקבלים על ידי כל פתרון אופטימלי של הבעיה הדואלית .פתרון זה מאפשר לפיכך את
חישוב הוקטור wשל מסווג ,SVMלפי הביטוי הנ"ל 𝑖𝑥 𝑖𝑦 𝑖𝛼 .𝑤 = ∑𝑛𝑖=1
גם הבעיה הדואלית היא בעיית תכנות ריבועי .וקטורי הקלט מופיעים פה רק דרך המכפלה הפנימית שלהם.
הבעיה הפרימאלית היא בעיית אופטימיזציה מאולצת בעלת d+1משתנים (כמימד הקלט) ו nאילוצים (בגודל סדרת
הלימוד) .הבעיה הדואלית בעלת nמשתנים ו nאילוצים .לפיכך ,בהינתן חישוב יעיל של המכפלות הפנימיות של הקלט ,גודל
הבעיה הדואלית אינו תלוי במימד הקלט .d
המסווג האופטימלי :לאחר חישוב וקטור המקדמים , αניתן כאמור לחשב את הוקטור המיטבי wעבור מסווג SVMלינארי
)𝑏 ,𝑦̂(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +לפי 𝑖𝑦 𝑖𝑥 𝑖𝛼 .𝑤 = ∑𝑛𝑖=1את הקבוע bשל המסווג ניתן לחלץ מתוך השוויון המתקיים עבור כל
וקטור תמיכה𝛼𝑖 ≠ 0 ⇒ 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 + 𝑏) = 1 ⇒ 𝑏 = 𝑦𝑖−1 − 𝑤 𝑇 𝑥𝑖 :
סיכום ביניים:
בעיית Hard SVMתהיה הבעיה שהצגנו – בעיית אופטימיזציה ,פתרונה נותן מקדמים 𝑏 𝑤,אופטימליים במובן של
שולי הפרדה מירביים ,עבור המסווג הלינארי )𝑏 𝑦(𝑥) = 𝑠𝑖𝑔𝑛(𝑤 𝑇 𝑥 +ודוגמאות ניתנות להפרדה לינארית.
את חישוב המקדמים ניתן לחשב בשתי דרכים:
באמצעות פתרון נומרי ישיר של הבעיה הפרימאלית
באמצעות פתרון נומרי של הבעיה הדואלית לחישוב המקדמים 𝑖𝛼 ובעזרת חישוב 𝑏 .𝑤,
46
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
47
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑛
1
})𝑏 𝑚𝑖𝑛 ‖𝑤‖2 + 𝐶 ∑ 𝑚𝑎𝑥{0,1 − 𝑦𝑖 (𝑤 𝑇 𝑥𝑖 +
𝑤,𝑏 2
𝑖=1
נגדיר עתה פונקציית הפסד הידועה בשם הפסד צירי .ℓℎ𝑖𝑛𝑔𝑒 (𝑦̂, 𝑦) = 𝑚𝑎𝑥{0,1 − 𝑦𝑦̂} :הצבה בבעית האופטימיזציה
האחרונה ,חלוקה בקבוע Cוסימון 𝜌 = 𝐶 −1מובילים לכתיבה של הבעיה הבאה:
𝑛
1
)𝑏 𝑚𝑖𝑛 𝜌‖𝑤‖2 + ∑ ℓℎ𝑖𝑛𝑔𝑒 (𝑦𝑖 , 𝑤 𝑇 𝑥 +
𝑤,𝑏 2
𝑖=1
ניתן לראות את האיבר השני בסכום הפסדים על גבי הדוגמאות בעוד האיבר הראשון הוא קנס על גודל המקדמים ,כאשר
ρ = C −1הינו קבוע הרגולריזציה.
48
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
שילוב פונקציות גרעין
עבור וקטור מאפיינים עם מימד גדול מאוד ,ואף אינסופי ,נוסיף גורם שיאפשר ליישם את עיקרון השוליים המרביים.
הרעיון הוא כי עבור אוספים מסוימים של פונקציות בסיס ,למכפלה הפנימית יש צורה אנליטית סגורה כך שהפונקציה
) K(x, zניתנת לחישוב ישיר.
הבסיס תיאורטי הוא שפונקציית הגרעין Kעל מרחב Xהיא פונקציה רציפה שהינה סימטרית ,חיובית מוגדרת .לכן היא
𝑀∑ = )𝑧 ,𝐾(𝑥,כאשר Mעשוי להיות אינסופי ו })𝑥( 𝑚𝜙{ פונקציות בסיס מתאימות.ניתנת לביטוי ע"י )𝑧( 𝑚𝜙)𝑥( 𝑚𝜙 𝑚=1
49
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
עצי החלטה
עצי החלטה הם כלי נפוץ ופשוט יחסית לסיווג ורגרסיה .בבסיסו ,עץ החלטה הינו מימוש מסוים של פונקציות לוגיות (כניסה
ויציאה דיסקרטית) ,אולם ניתן ליישמו גם עבור משתנים רציפים על ידי דיסקרטיזציה.
בבניית עץ החלטה ,נרצה ליצור סיווג נכון של מרבית הדוגמאות ושיהיה קצר ופשוט ככל הניתן .באופן זה ,המימוש עצמו
יהיה פשוט ותהיה יכולת הכללה :מניעת התאמת יתר לאוסף הדוגמאות הנתון.
השכיחות היחסית או "הפילוג האמפירי" של כל אחד מהסיווגים האפשריים בקבוצת הדוגמאות נתונה ע"י:
𝑁
1
𝐾 𝑝̂𝑗 = ∑ 𝕀{𝑦𝑖 = 𝑗} , ∀𝑗 = 1, … ,
𝑁
𝑖=1
תכונות של ):Q(D
𝑄(𝐷) = 0עבור פילוג חד-ערכי ( 𝑝̂𝑗 = 1עבור jכלשהוא).
1
)𝐷(𝑄 מקבל את ערכו המקסימלי עבור פילוג אחיד ) = 𝑗̂𝑝(
𝐾
מדד אחידות של Dאשר אינו מקיים את תכונות אלו אינו יכול להיות
מדד לעץ החלטה.
נתון כי מאפיין Aכלשהו מחלק את Dלמספר תת קבוצות .נסמן תת קבוצות אלו על ידי }𝑀 {𝐷𝑚 , 𝑚 ∈ 1, … ,כאשר Mהינו
אוסף הערכים האפשריים של .A
מדד האחידות המשוקלל עבור האוסף } 𝒎𝑫{ יוגדר עתה על ידי:
| 𝑚𝐷|
𝑀∑ = )𝐴|𝐷(𝑄 כאשר ) 𝑚𝐷(𝑄 הינו מדד האחידות של תת הקבוצה .Dm
𝑚=1 ) 𝑚𝐷(𝑄
𝑁
מדד טיב של מאפיין Aביחס לקבוצת הדוגמאות Dיוגדר עתה על ידי𝛥𝑄(𝐷|𝐴) = 𝑄(𝐷) − 𝑄(𝐷|𝐴) :
ניתן לראות כי זהו הגידול באחידות (או הקטנה בחוסר האחידות) של האוסף } {Dmלעומת קבוצת הדוגמאות המקורית .D
כאשר Qהינה האנטרופיה ΔQ(D|A) ,נקרא גם תוספת המידע information gainשל המאפיין .A
המאפיין Aשנבחר הוא (כעיקרון) זה שעבורו השיפור בתוספת המידע הינו המקסימלי כלומר )𝐴|𝐷(𝑄 מינימלי.
51
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
ב .נבחר את המאפיין אשר מדד האחידות המשוקלל שלו הוא המינימלי.
ג .נחלק את השורש לפי המאפיין הנבחר .נסתכל על האופציות שקיבלנו ,ונפעיל שוב את שלב א'.
כאשר )𝐴 𝑆𝑝𝑙𝑖𝑡(𝐷,הינו מקדם פיצול מתאים .הגדרה מקובלת תהיה )𝐴(𝑛𝑔𝑜𝑙 = )𝐴 𝑆𝑝𝑙𝑖𝑡(𝐷,
כאשר ) n(Aהינו מספר הערכים השונים של המאפיין ,Aהמתקבלים על פני איברי הקבוצה .D
מאפיינים רציפים
במקרה הרציף ,המבחן המקובל לגבי xיהיה מהצורה של אי שוויון .לפיכך ,לבחירת המאפיין בכל צומת יש להוסיף את
בחירת ערך הסף 𝑗𝑡 כך שהמאפיין יהיה 𝑗𝑡 ≤ 𝑗𝑥 .עבור כל מבחן Aניתן להגדיר את תוספת המידע באופן הרגיל
)𝐴|𝑆(𝑄𝛥 = ) 𝑗𝑡 𝛥𝑄(𝑆|𝑥𝑗 ,
השלב הבא הוא מקסימיזציה על הסף 𝑗𝑡𝛥𝑄(𝑆|𝑥𝑗 , 𝑡𝑗∗ ) = 𝑚𝑎𝑥 𝛥𝑄(𝑆|𝑥𝑗 , 𝑡𝑗 ) :
𝑗𝑡
50
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
Bagging
מקור השם .Bootstrap aggregatingהרעיון הוא לקחת את האוסף של nהדוגמאות ולדגום מתוכו nדוגמאות (עם החלפה:
אותה דגימה יכולה להידגם פעמיים) mפעמים.
לדוגמא ,נניח שאנו מקבלים n=10הטלות של קוביה } {1,1,2,5,3,2,4,1,6,4כאשר לכל הטלה יש גם תגית כלשהי.
אז ממדגם זה יוצרים m=4מדגמים חדשים
}{5,6,3,3,4,2,1,1,5,3}, {1,1,3,1,4,1,3,3,1,5}, {1,1,5,3,1,2,2,2,1}, {3,1,2,4,1,6,3,4,1,3
כאשר לכל דוגמא יהיה את התגית המקורית שלה .מספר הפעמים שכל דוגמא מופיע במדגמים החדשים יכול להיות שונה
ממספר הפעמים שהדוגמא הופיעה במדגם המקורי.
לאחר מכן ,מאמנים חזאי לכל אחד מ – mהמדגמים כדי לחזות את התגיות של כל דוגמא .לאחר האימון ,בהינתן דוגמא
חדשה ,לוקחים את ה ( majority voteסיווג) או ממוצע (רגרסיה) של mהחזאים השונים.
יתרונות השיטה הינם יציבות ,הורדת שונות ומניעת התאמת יתר ,התגברות על ( outliersדוגמאות שקריות).
נשים לב שעבור מודלים ליניאריים (רגרסייה) הממוצע ישאר לינארי ולכן שיטה זו פחות אפקטיבית.
Adaboost
הרעיון:
שמירת משקל לדגימות (פילוג ( 𝑡𝐷 .0
מציאת מסווג חלש ביחס לפילוג 𝑡𝐷 הנוכחי .1
שינוי המשקל תוך הדגשת דוגמאות שסווגו לא נכון .3
חזרה ל.0- .4
המסווג הסופי הוא קומבינציה לינארית של המסווגים החלשים.
אלגוריתם ה Adaboostמאופיין על ידי בחירה מסוימת המאפשרת לו להיות אדאפטיבי
52
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
( .) Adaptive Boosting – Adaboostניתן לרשום את האלגוריתם בצורה הבאה:
.0לכל , t=1,…Tפתרו את בעיית האופטימיזציה הבאה:
𝑛
1 𝑡
)𝑖𝑥(𝜏(𝛼𝑡 , ℎ𝑡 ) = 𝑎𝑟𝑔 𝑚𝑖𝑛 ∑ 𝑒 −𝑦𝑖 ∑𝜏=1 𝛼𝜏ℎ
𝑛 𝛼𝑡 ,ℎ𝑡 ∈ℋ
𝑖=1
.1המסווג הסופי הוא :
𝑇
𝑛 1
האמפירי ) 𝑖𝑦 ∑ ℓ(∑𝑡𝜏=1 𝛼𝜏 ℎ𝜏 (𝑥𝑖 ), שלב 0באלגוריתם ממזער בצורה סידרתית coordinate descentאת הסיכון
𝑛 𝑖=1
שלב 0של האלגוריתם מורכב ,לכן נהוג לפרק אותו לכמה שלבים .אם נפתור חלקית
את בעיית האופטימיזציה ,ונוסיף תנאי עצירה ,נקבל את האלגוריתם הפשוט הבא:
1
𝑛 = )𝑖( ∀𝑖: 𝐷1 .0אתחול :פילוג אחיד
.3בהינתן Dtמצאו מסווג חלק } ℎ𝑡 : 𝑋 → {1, −1עם שגיאה ממוצעת נמוכה (קטנה מחצי).
1 ) 𝑡𝜀(1−
( 𝑛𝑙 𝛼𝑡 = 2 𝑡𝜀
) .4קבעו
) e−αtyt ht (xi
.∑ni=1 Dt+1 (i) = 1 כאשר Ztמנרמל כך ש ( )Dt+1 (i) = Dt (i Zt
) .5עדכון:
האלגוריתם אדפטיבי כי אין צורך לדעת מראש את ( Tמספר האיטרציות) או את השגיאות או חסם עליהן.
1 𝑡𝜀1−
( 𝛼𝑡 = 2 lnויחס הצלחת האימון לשגיאתו. 𝑡𝜀
הקבוע ) נשים לב כי קיים יחס לינארי בין
כמו כן ,אם השגיאה גדולה מחצי וקרובה לאחד ,נוכל להפוך את החיזוי של האלגוריתם ולקבל שגיאה קטנה מחצי וקרובה ל-
.1במקרה כזה ערך הקבוע αtיהיה שלילי.
53
סמסטר (קורונה) אביב תש"פ 0505 מערכות לומדות – 046195
𝑇 2
נראה כי הגודל מצד ימין חסום מלמעלה ע"י 𝜏𝛾 𝑒 −2 ∑𝜏=1וכך נוכיח.
כזכור 𝑡 𝑍𝑡 = ∑𝑛𝑖=1 𝐷𝑡 (𝑖)𝑒 −𝑦𝑖𝛼𝑡ℎולכן:
1
כאשר בשוויון הראשון השתמשנו בתוצאה * ,בשוויון השני השתמשנו בתוצאה ** ,בשלישי הצבנו 𝑡𝜀 𝛾𝑡 = 2 −ובאי
2
שוויון בסוף הצבנו 𝑥.√1 − 4𝑥 2 ≤ 𝑒 −2
כדי שהאלגוריתם יגיע לשגיאות אימון ,1נדרוש עבור משפחת המסווגים החלשים שתפרוס את המרחב (מהוכחת
התכנסות האלגוריתם) .תמיד יהיה קיים לנו מסווג חלש שמאפשר שגיאה קטנה ממש מחצי .לדוגמא ,משפחת
המסווגים הלינארים.
שגיאת הבוחן לא בהכרח תגיע לאפס ,ולא בהכרח לא תגיע לאפס ,כיוון שהאלגוריתם עוצר כאשר שגיאת האימון
מגיעה לאפס .למשל ,עבור סט אימון של דוגמא אחת ,כל מסווג חלש יסווג אותה נכון ,ובהינתן סט בוחן של דוגמא
בצד השני של המסווג הוא יטעה בדוגמא זו.
54