2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 101

‫‪07/03/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות למדעי המחשב – הרצאה‬


‫‪1‬‬
‫נושא ההרצאה‪ :‬מבוא לסטטיסטיקה‪ :‬משתנים‪ ,‬סולמות מדידה‬
‫של משתנים‬
‫סטטיסטיקה – הקדמה‬
‫הסטטיסטיקה עוסקת באיסוף‪ ,‬ניתוח‪ ,‬עיבוד והצגת מסקנות עבור נתונים כמותיים ואיכותיים‪,‬‬
‫בכדי לסייע בפתרון בעיות מסוגים שונים‪ .‬הסטטיסטיקה נשענת על תורת ההסתברות‪ ,‬שתפקידה‬
‫להקנות כלים פרקטיים לחישובי הסתברויות עבור מאורעות בהם יש אקראיות וחוסר ודאות‪.‬‬
‫תורת ההסתברות נוצרה על רקע הניסיון והתפתחה לתיאוריה עמוקה ורבת שימושים בתחומים‬
‫של מדעי הטבע‪ ,‬רפואה‪ ,‬כלכלה ועוד‪.‬‬
‫בכל מחקר המבוסס על נתונים דרוש ידע בסטטיסטיקה בכדי לארגן‪ ,‬לנתח ולהסיק מסקנות‬
‫מנתוני המחקר‪ .‬זו הסיבה לפופולאריות הרבה של הסטטיסטיקה בענפים ומקצועות רבים‪.‬‬
‫הסטטיסטיקה נחלקת לשני תחומים עיקריים‪ :‬סטטיסטיקה תיאורית וסטטיסטיקה היסקית‬
‫(נקראת גם הסקה סטטיסטית)‪.‬‬
‫הסטטיסטיקה התיאורית עוסקת בשיטות לארגון‪ ,‬תיאור ותמצות הנתונים שהתקבלו במחקר‬
‫הסטטיסטי שערכנו‪ .‬זאת נעשה על‪-‬ידי ארגון הנתונים בטבלאות‪ ,‬גרפים ולוחות סטטיסטיים‪,‬‬
‫סיכום הנתונים בעזרת מדדים למיקום ופיזור ההתפלגות‪ ,‬וניתוח קשרים סטטיסטיים‪.‬‬
‫הסטטיסטיקה התיאורית עוסקת בתיאור נתונים שנאספו במחקר כאוכלוסיית היעד של המחקר‪,‬‬
‫ולא בהכללה לקבוצות רחבות יותר‪.‬‬
‫הסטטיסטיקה ההיסקית עוסקת בהסקת מסקנות על האוכלוסייה מתוך מדגם מקרי הנלקח‬
‫ממנה‪ ,‬בעזרת מודלים סטטיסטיים (לדוגמא‪ ,‬רגרסיה ליניארית) ומבחנים סטטיסטיים (לדוגמא‪,‬‬
‫מבחנים לבדיקת השערות)‪.‬‬
‫ההסקה ממדגם לאוכלוסייה הינה הסתברותית ולא ודאית‪ ,‬כלומר תמיד ישנו סיכוי לבצע טעויות‪.‬‬
‫קיימות שיטות להסקה סטטיסטית מהמדגם לאוכלוסייה בהסתברות גבוהה מאוד‪.‬‬
‫חישובי הסתברויות‪ ,‬טכניקות ומחקרים סטטיסטיים מלווים אותנו בתחומים רבים בחיים‪:‬‬
‫בכלכלה‪ ,‬בבריאות‪ ,‬במשחקי מזל‪ ,‬בתחום הפיננסיים ועוד‪ .‬כמעט אין תחום בחיינו שאין בו היבט‬
‫סטטיסטי‪.‬‬
‫הגדרות ראשונות‬
‫סטטיסטיקה )‪ :(statistics‬מדע העוסק בנתונים כמותיים ואיכותיים‪ :‬איסופם‪ ,‬עיבודם‪ ,‬הצגתם‬
‫והצגת מסקנות מהם‪ ,‬על‪-‬מנת לסייע בפתרון בעיות מסוגים שונים‪.‬‬
‫אוכלוסיה )‪ :(population‬אוסף כל הפרטים עבורם דרוש המידע‪.‬‬
‫מדגם )‪ :(sample‬חלק מהאוכלוסייה שנבחר ומשמש להפקת מידע על האוכלוסייה כולה‪.‬‬
‫תצפית )‪ :(observation‬פרט בודד במדגם‪ ,‬אודותיו אנו אוספים נתונים בכדי שיסייעו לנו‬
‫בשאלת המחקר שלפנינו‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪07/03/2021‬‬

‫אוכלוסיית המחקר‬
‫אוכלוסיית המחקר הינה אוסף המקרים אליהם מתייחס המחקר הסטטיסטי‪ .‬אוכלוסיית‬
‫המחקר נקבעת מראש בהתאם לסוג המחקר ואינה עוסקת בהכרח בבני אדם‪ .‬נציג מספר דוגמאות‬
‫לאוכלוסיית המחקר‪:‬‬
‫אם ברצוננו לבדוק מהו השכר הממוצע של סטודנטים לתואר ראשון‪ ,‬אוכלוסיית המחקר‬ ‫‪-‬‬
‫תהיה כל הסטודנטים הלומדים כיום לתואר ראשון‪.‬‬
‫במקרה בו נהיה מעוניינים לבדוק את אחוז המוצרים הפגומים בפס יצור‪ ,‬אוכלוסיית‬ ‫‪-‬‬
‫המחקר תהיה כלל המוצרים המיוצרים במפעל‪.‬‬
‫כאשר רוצים לבדוק מהי המהירות הממוצעת בכביש י‪-‬ם ת"א‪ ,‬אוכלוסיית המחקר תהיה‬ ‫‪-‬‬
‫כל כלי הרכב הנוסעים בכביש זה‪.‬‬
‫מדגם‬
‫במרבית המחקרים לא נוכל לבדוק את כלל האוכלוסייה‪ .‬פעמים רבות גם אם יהיה ניתן לדגום‬
‫את כל האוכלוסייה לא יהיה ברשותנו תקציב או זמן לכך‪.‬‬
‫לכן‪ ,‬מרבית המחקרים הסטטיסטיים מבוססים על מדגם מתוך אוכלוסיית המחקר ולא על‬
‫האוכלוסייה כולה‪.‬‬
‫החוקר יקבל את תוצאות המדגם ומטרתו תהיה להכליל תוצאות אלו על כל האוכלוסייה‪.‬‬
‫סימון‪ :‬את גודל המדגם נהוג לסמן באות 𝑛 (מלשון ‪.)number‬‬
‫לדוגמא‪ ,‬אם דגמנו ‪ 100‬פרטים מהאוכלוסייה‪ ,‬נרשום ‪.𝑛 = 100‬‬
‫שיטת הדגימה‬
‫כאשר נסקור מדגם מהאוכלוסייה‪ ,‬עלינו לוודא שהמדגם יהיה מייצג מכל הבחינות‪.‬‬
‫כדי לקבל מדגם מייצג‪ ,‬יש לבחור את המדגם בגודל מתאים ובשיטה הסתברותית המאפשרת לכל‬
‫מקרה באוכלוסייה הסתברות להיכלל במדגם‪ .‬ישנן שיטות רבות איך לדגום‪ :‬מדגם מקרי‪ ,‬מדגם‬
‫שכבות‪ ,‬מדגם אשכולות ועוד‪ .‬נושא זה קשור ל"תורת הדגימה"‪ .‬נדון בשיטות להסקה סטטיסטית‬
‫המבוססות על מדגמים הסתברותיים שנבחרו בשיטת המדגם המקרי הפשוט (בחירה אקראית)‪.‬‬
‫שלבי המחקר הסטטיסטי‬
‫רוב המחקרים הסטטיסטיים כוללים את השלבים הבאים (על‪-‬מנת למנוע טעויות)‪:‬‬
‫השלב הראשון במחקר הסטטיסטי הוא הצגת שאלת המחקר‪ ,‬כלומר מה אנו מבקשים‬ ‫‪-‬‬
‫לבדוק‪ .‬שאלת המחקר תהיה מוגדרת על אוכלוסייה כלשהי‪.‬‬
‫השלב השני עוסק בתכנון המחקר‪ .‬בשלב זה נקבע איזה נתונים נדרשים בכדי לענות על‬ ‫‪-‬‬
‫שאלת המחקר‪ ,‬וכיצד יש לאסוף אותם‪.‬‬
‫בשלב השלישי יש לאסוף את הנתונים‪ .‬זהו השלב בו נעשית עבודת השדה‪.‬‬ ‫‪-‬‬
‫השלב הרביעי עוסק בארגון הנתונים שהתקבלו בטבלאות‪ ,‬גרפים ותרשימים‪ ,‬בכדי‬ ‫‪-‬‬
‫שהנתונים יוצגו בצורה נוחה יותר‪.‬‬
‫בשלב החמישי הסכם ונאפיין את הנתונים בעזרת מדדים שונים (מדדי מיקום‪ ,‬מדדי‬ ‫‪-‬‬
‫פיזור‪ ,‬מדדי מיקום יחסי)‪.‬‬
‫בחלק מהמחקרים קיים שלב נוסף העוסקת בהסקת מסקנות מהמדגם על האוכלוסייה‬ ‫‪-‬‬
‫כולה (כמובן שבמידה ודגמנו את כל האוכלוסייה שלב זה לא קיים)‪.‬‬
‫לבסוף נהוג להגיש את הממצאים שהתקבלו מהמחקר‪.‬‬ ‫‪-‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪07/03/2021‬‬

‫סיכום שלבי המחקר הסטטיסטי‪:‬‬


‫הצגת שאלת המחקר עבור אוכלוסייה מסוימת‪.‬‬ ‫‪.1‬‬
‫תכנון המחקר‪ :‬אילו נתונים עלינו לאסוף ואיך נאספם‪.‬‬ ‫‪.2‬‬
‫איסוף הנתונים מהמדגם שדגמנו (עבודת השדה)‪.‬‬ ‫‪.3‬‬
‫עריכת הנתונים בטבלאות‪ ,‬גרפים‪ ,‬תרשימים‪.‬‬ ‫‪.4‬‬
‫סיכום ואפיון הנתונים על‪-‬ידי מדדים שונים‪ ,‬בהתאם לסוג המשתנים ולשאלת המחקר‬ ‫‪.5‬‬
‫הנשאלת‪.‬‬
‫הסקת מסקנות מהמדגם על האוכלוסייה כולה‪.‬‬ ‫‪.6‬‬
‫הגשת הממצאים‪.‬‬ ‫‪.7‬‬
‫שלבים ‪ 4 + 5‬בשלבי המחקר הסטטיסטי נוגעים לנושא בסטטיסטיקה שנקרא סטטיסטיקה‬
‫תיאורית‪ .‬נדון בנושא זה בהרצאות הראשונות בקורס‪ .‬שלבים אלו )‪ (4 + 5‬נעשים כבר אחרי‬
‫שדגמנו את המדגם ולפנינו אוסף הנתונים שהתקבלו במדגם‪ .‬שלבים אלו אינם חלק משאלת‬
‫המחקר ומהדרך בה נבצע את המחקר הסטטיסטי‪.‬‬
‫שלב ‪ – 6‬הסקה ממדגם על אוכלוסייה הינו ענף בסטטיסטיקה הנקרא הסקה סטטיסטית (או‬
‫סטטיסטיקה היסקית)‪ .‬נדון בנושא זה מעט בהמשך הקורס ובקורס הבא בעיקר‪.‬‬
‫סימונים מקובלים בהם נשתמש‬
‫גודל המדגם‪ :‬את גודל המדגם נסמן ב‪.𝑛-‬‬
‫המשתנה הנחקר‪ :‬באופן כללי‪ ,‬משתנים נהוג לסמן באותיות גדולות – 𝑍 ‪ 𝑋, 𝑌,‬וכו'‪ .‬במידה ויהיה‬
‫לפנינו משתנה אחד נסמנו ב‪.𝑋 -‬‬
‫סדרת התצפיות‪ :‬את סדרת התצפיות שדגמנו מהמשתנה הנחקר נסמן באות קטנה‪ .‬תוצאת‬
‫המדגם תהיה רשימה של 𝑛 תצפיות אשר יסומנו ב‪ 𝑥1 ( 𝑥1 , 𝑥2 , … , 𝑥𝑛 -‬הינה ערך התצפית‬
‫הראשונה במדגם‪ 𝑥2 ,‬ההינה ערך התצפית השנייה במדגם‪ 𝑥𝑛 ,…,‬הינה ערך התצפית האחרונה‬
‫במדגם)‪.‬‬
‫משתנה‪ :‬הגדרה‬
‫הגדרה – משתנה‪ :‬משתנה הינו תכונה נחקרת המקבל ערכים שונים באוכלוסייה‪ .‬ערכי המשתנה‬
‫משתנים מנחקר לנחקר‪.‬‬
‫דוגמאות למשתנים‪:‬‬
‫ציון בבחינה בקורס בסטטיסטיקה‪.‬‬ ‫‪-‬‬
‫מגדר‪.‬‬ ‫‪-‬‬
‫מצב משפחתי‪.‬‬ ‫‪-‬‬
‫מספר ילדים במשפחה‪.‬‬ ‫‪-‬‬
‫רמת השכלה‪.‬‬ ‫‪-‬‬
‫רמת לחץ דם‪.‬‬ ‫‪-‬‬
‫מספר שעות שסטודנט למד לבחינה‪.‬‬ ‫‪-‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪07/03/2021‬‬

‫מיון וסיווג משתנים‬


‫מיון לפי מהות המשתנה‪:‬‬ ‫א‪.‬‬
‫‪ o‬משתנה איכותי‬
‫‪ o‬משתנה כמותי‬

‫מיון לפי סולם המדידה‪:‬‬ ‫ב‪.‬‬


‫‪ o‬משתנה נומינלי (שמי)‬
‫‪ o‬משתנה אורדינאלי (סדור)‬
‫‪ o‬משתנה אינטרוואלי (רווח)‬
‫‪ o‬משתנה יחס (מנה)‬
‫מיון לפי מהות המשתנה‬
‫משתנה איכותי‪ :‬משתנה איכותי הינו משתנה שערכיו מייצגים קטגוריות או שמות (ולא כמויות)‪.‬‬
‫דוגמאות‪ :‬רמת שביעות רצון ממוצר מסוים‪ ,‬מגדר‪ ,‬מצב משפחתי‪ ,‬ארץ מוצא‪ ,‬דרגה בצבא‪ ,‬רמת‬
‫חרדה‪ .‬בכל הדוגמאות הללו ערכי המשתנה מייצגים קטגוריות ולא כמויות‪.‬‬
‫הערה‪ :‬לעתים המשתנה האיכותי מיוצג על‪-‬ידי מספרים‪ ,‬אלא שלמספרים אין משמעות כמותית‪.‬‬
‫לדוגמא‪ ,‬שביעות רצון‪ :‬במקרים רבים שביעות רצון מוצגת בסקלה שבין ‪ 1‬ל‪ ,5-‬אולם למספרים‬
‫אלו )‪ (1, 2, 3, 4 ,5‬אין פירוש כמותי‪ ,‬אלא הם מייצגים קטגוריות של שביעות הרצון‪.‬‬
‫משתנה כמותי‪ :‬משתנה כמותי הינו משתנה שערכיו מציינים כמויות‪ ,‬כלומר ערכי המשתנה‬
‫הכמותי מיוצגים כמספרים‪ .‬את המשתנה הכמותי ניתן לסווג לשני תתי‪-‬סוגים‪ :‬משתנה כמותי‬
‫בדיד ומשתנה כמותי רציף‪.‬‬
‫משתנה כמותי בדיד‪ :‬משתנה כמותי שערכיו ניתנים למנייה‪ .‬במילים אחרות‪ ,‬ניתן למנות‬ ‫ג‪.‬‬
‫(לספור) את ערכיו של המשתנה הכמותי הבדיד‪ .‬מספר הערכים של משתנה כמותי בדיד‬
‫יכול להיות סופי או אינסופי‪.‬‬

‫דוגמאות‪ :‬מספר ילדים במשפחה‪ ,‬מספר חדרים בבית‪ ,‬מספר ימי שרב בשנה‪ ,‬מספר‬
‫הממתינים בתור לרופא ועוד‪.‬‬

‫משתנה כמותי רציף‪ :‬משתנה כמותי שערכיו לא ניתנים למנייה‪ .‬לא ניתן למנות (לספור)‬ ‫ד‪.‬‬
‫את ערכיו של המשתנה הכמותי הרציף‪ ,‬שכן המשתנה יכול לקבל כל ערך בקטע ממשי‪.‬‬
‫עבור משתנה כמותי רציף בין כל שני ערכים אפשריים של המשתנה קיימים עוד אינסוף‬
‫ערכים נוספים‪ .‬לכן‪ ,‬משתנה כמותי רציף מקבל בהכרח אינסוף ערכים‪.‬‬

‫דוגמאות‪ :‬כמות משקעים‪ ,‬גובה‪ ,‬משקל‪ ,‬לחץ דם‪ ,‬טמפרטורה‪ .‬בכל הדוגמאות הללו לא‬
‫ניתן למנות את ערכי המשתנה שכן המשתנה אינו מקבל ערכים שלמים בלבד‪ ,‬אלא הוא‬
‫יכול לקבל כל ערך ממשי‪.‬‬
‫מיון לפי סולם מדידה‬
‫סולמות המדידה הם סולמות שעוזרים לדעת את ניתוח הנתונים והצגתם‪.‬‬
‫משתנה נומינאלי (שמי)‪ :‬זהו משתנה איכותי שערכיו מייצגים קטגוריות‪/‬שמות ולא כמויות‪.‬‬
‫ערכיו ניתנים במילים (או במספרים חסרי משמעות כמותית‪ ,‬כמו המשתנה מגדר‪ = 0 :‬נקבה‪,‬‬
‫‪ = 1‬זכר)‪ .‬כמו‪-‬כן‪ ,‬לא ניתן לסדר את ערכיו של המשתנה הנומינאלי לפי סדר כלשהו בעל‬
‫משמעות‪.‬‬
‫דוגמאות‪ :‬מגדר‪ ,‬ארץ מוצא‪ ,‬עדה‪ ,‬סוג דם‪ ,‬אזור חיוג‪.‬‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏 :‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪07/03/2021‬‬

‫משתנה אורדינאלי (סדור)‪ :‬גם משתנה זה הינו איכותי שערכיו מייצגים קטגוריות‪/‬שמות (ולא‬
‫כמויות)‪ ,‬אלא שהפעם ניתן לסדר את ערכיו של המשתנה האורדינאלי לפי סדר כלשהו בעל‬
‫משמעות‪.‬‬
‫דוגמאות‪ :‬מידת שביעות רצון‪ ,‬רמת חרדה‪ ,‬דרגות בצבא‪.‬‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏 :‬‬
‫משתנה אינטרוואלי (רווח)‪ :‬משתנה זה הינו כמותי וערכיו ניתנים במספרים‪ .‬עבור משתנה זה יש‬
‫משמעות למרווחים (הפרשים) בין ערכי המשתנה‪ .‬כל משתנה בעל ערכים חיוביים ושליליים יחשב‬
‫משתנה אינטרוואלי‪ .‬במקרה זה ‪ 0‬הינו אחד מערכי המשתנה‪ ,‬ולא "האפס המוחלט"‪.‬‬
‫דוגמאות‪ :‬טמפרטורה‪ ,‬גובה ביחס לפני הים‪ ,‬רווח ממשחק הימורים‪.‬‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏, 𝑎 + 𝑏, 𝑎 − 𝑏 :‬‬
‫משתנה יחס (מנה)‪ :‬משתנה זה הינו כמותי וערכיו ניתנים במספרים‪ .‬עבור משתנה זה יש‬
‫משמעות לחלק ערך אחד של המשתנה בערך שני ולציין את היחס ביניהם‪ .‬במקר זה ‪ 0‬מציין את‬
‫"האפס המוחלט"‪ ,‬ה"ריק" או ה"אין" ואינו אחד מערכי המשתנה‪.‬‬
‫דוגמאות‪ :‬גובה‪ ,‬משקל‪ ,‬גיל‪ ,‬שכר‪ ,‬לחץ דם‪ ,‬מספר חדרים‪.‬‬
‫𝑏 𝑎‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏, 𝑎 + 𝑏, 𝑎 − 𝑏, 𝑏 , 𝑎 :‬‬

‫סיכום‪:‬‬

‫הערה חשובה‪ :‬סולם המדידה של המשתנה אינו תמיד חד‪-‬משמעי‪ ,‬ולעתים תלוי בדרך בה החוקר‬
‫בחר להציג את המשתנה‪.‬‬
‫לדוגמא‪ :‬המשתנה "רמת השכלה"‪ .‬ניתן להציג‪/‬למדוד משתנה זה במספר דרכים שונות‪,:‬‬
‫‪ .1‬לפי מספר שנות לימוד‪ .‬במקרה זה מדובר במשתנה יחס‪.‬‬
‫‪ .2‬לפי תעודה אחרונה שנרכשה (תיכונית‪ ,‬תואר ראשון‪ ,‬תואר שני וכו')‪ .‬במקרה זה מדובר‬
‫במשתנה אורדינאלי‪.‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪07/03/2021‬‬

‫התאמת טכניקה סטטיסטית לסולם המדידה‬


‫משתנה ברמה גבוהה כולל בהכרח תכונות של משתנים ברמה נמוכה ממנו (ובנוסף גם תכונות‬
‫נוספות)‪ .‬לכן‪ ,‬עבור משתנה ברמה גבוהה יותר קיימות יותר פעולות מתמטיות אפשריות‪.‬‬
‫לפי רמת המדינה של המשתנים נתאים את שיטת הניתוח הסטטיסטי‪.‬‬
‫ניתן ליישם שיטה סטטיסטית המתאימה למשתנה ברמה נמוכה גם למשתנה ברמה גבוהה יותר‬
‫(אך לא ההפך)‪ .‬לדוגמא‪ ,‬שיטה סטטיסטית המתאימה למשתנה אורדינאלי‪ ,‬ניתן ליישמה גם עבור‬
‫משתנה אינטרוואלי ויחס‪.‬‬
‫אולם‪ ,‬שיטה סטטיסטית המבוססת על תכונות של משתנה ברמה גבוהה‪ ,‬לא תתאים בהכרח‬
‫למשתנה ברמה נמוכה‪ .‬לדוגמא‪ ,‬ניתן לחשב ממוצע עבור משתנה אינטרוואלי או יחס‪ ,‬אך לא‬
‫אפשרי לחשב ממוצע עבור משתנה נומינאלי או אורדינאלי‪ .‬לדוגמא‪ ,‬ניתן לחשב את ממוצע‬
‫המשכורות בארגון כלשהו (שכן מדובר במשתנה יחס)‪ ,‬אולם לא ניתן לחשב ממוצע למשתנה (ארץ‬
‫מוצא" (שכן מדובר במשתנה נומינאלי)‪.‬‬
‫בפועל‪ ,‬פעמים רבות במיון המשתנים נהוג להבחין רק בין שלוש רמות מדידה‪ :‬נומינאלית‪,‬‬
‫אורדינאלית ואינטרוואלית‪ ,‬כאשר את משתנה היחס נצרף למשתנה אינטרוואלי‪ ,‬שכן מדובר‬
‫במשתנים מאוד דומים‪.‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪2‬‬
‫נושא ההרצאה‪ :‬סטטיסטיקה תיאורית‪ :‬הקדמה‪ ,‬מושגי יסוד‪,‬‬
‫טבלאות והצגות גרפיות‬
‫סטטיסטיקה תיאורית – הקדמה‬
‫הסטטיסטיקה התיאורית )‪ (Descriptive Statistics‬עוסקת בשיטות לארגון‪ ,‬תיאור ותמצות‬
‫הנתונים שהתקבלו במחקר הסטטיסטי שערכנו‪ .‬זאת נעשה על‪-‬ידי ארגון הנתונים בטבלאות‪,‬‬
‫גרפים ולוחות סטטיסטיים‪ ,‬סיכום הנתונים בעזרת מדדים למיקום ופיזור ההתפלגות‪ ,‬וניתוח‬
‫קשרים סטטיסטיים‪.‬‬
‫הסטטיסטיקה התיאורית עוסקת בתיאור הנתונים שנאספו במחקר כאוכלוסיית היעד של‬
‫המחקר‪ ,‬ולא בהכללה לקבוצות רחבות יותר‪.‬‬
‫מצגת זו והמצגות הבאות עוסקות בסטטיסטיקה תיאורית‪ .‬בהמשך נציג לוחות (טבלאות)‬
‫סטטיסטיים שונים‪.‬‬
‫לוחות סטטיסטיים – הקדמה‬
‫במצגת מס' ‪ 1‬הצגנו מספר דרכים מקובלות למיון משתנים ופירטנו את שלבי המחקר‬
‫הסטטיסטי‪.‬‬
‫לאחר אינסוף הנתונים לגבי המשתנים הנחקרים יש לארגנם בלוחות (טבלאות) סטטיסטיים‪.‬‬
‫הארגון בלוח סטטיסטי מאפשר הצגה מרוכזת של כמות רבה של נתונים ומהווה בסיס להמשך‬
‫העיבודים‪.‬‬
‫יש לדאוג שהלוח לא יהיה מסורבל במבנהו ויהיה קל לקריאה‪.‬‬
‫בהמשך המצגת נציג דוגמאות ללוח חד‪-‬ממדי וללוח דו‪-‬ממדי‪.‬‬
‫טבלת (לוח) שכיחויות חד‪-‬ממדית‬
‫בטבלת שכיחות (או לוח שכיחות) חד‪-‬ממדית מרוכזים נתונים אודות משתנה אחד‪ .‬הטבלה מציגה‬
‫את התפלגות המשתנה הנחקר‪.‬‬
‫טבלת שכיחות חד‪-‬ממדית מציגה את ערכי המשתנה ושכיחותם במדגם (כמה פעמים הופיעו‬
‫במדגם)‪.‬‬
‫טבלת שכיחות יכולה להתאים למשתנה איכותי וכמותי כאחד‪.‬‬
‫בעמודה אחת בטבלה יוצגו ערכי המשתנה הנחקר (נסמנם ב‪ .)𝑥-‬בעמודה נוספת יוצגו השכיחויות‬
‫של ערכי המשתנה במדגם‪ .‬את השכיחות של ערך 𝑥 כלשהו נסמן ב‪( 𝑓(𝑥)-‬מלשון ‪.)frequency‬‬
‫השורה האחרונה הינה שורת הסה"כ‪ .‬אם שורה זו לא קיימת יש להוסיפה‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫דוגמא‪:‬‬
‫משפחות חד‪-‬הוריות עם ילדים עד גיל ‪ ,24‬לפי מצב משפחתי של ההורה‬

‫)𝒙(𝒇 – מספר משפחות (באלפים)‬ ‫𝒙 – מצב משפחתי של ההורה‬


‫‪18.5‬‬ ‫נשוי‪/‬אה‪ ,‬חי‪/‬ה בנפרד‬
‫‪84.8‬‬ ‫גרוש‪/‬ה‬
‫‪28.4‬‬ ‫אלמן‪/‬ה‬
‫‪15.1‬‬ ‫רווק‪/‬ה‬
‫‪1.0‬‬ ‫לא ידוע‬
‫𝟖 ‪𝟏𝟒𝟔.‬‬ ‫סה"כ‬

‫בדוגמא זו מדובר במשתנה נומינאלי (שמי)‪ .‬מצד ימין מופיעים ערכי המשתנה‪ ,‬ומצד שמאל‬
‫השכיחויות (כמה פעמים כל ערך הופיע במדגם)‪.‬‬
‫דוגמא נוספת‪:‬‬
‫במשאל של ‪ 60‬חולים בבית חולים גדול בארץ‪ ,‬כל אחד נשאל לגבי מספר ימי אשפוז שהיו לו‬
‫החודש‪ .‬התקבלו התוצאות הבאות‪:‬‬
‫מס' ימי אשפוז של חולים‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – מס' ימי אשפוז‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔 = 𝒏‬ ‫סה"כ‬

‫בדוגמא זו מדובר במשתנה אינטרוואלי‪ .‬בדוגמא זו 𝑥 מציין את מספר ימי האשפוז של החולה‬
‫במשך החודש ו‪ 𝑓(𝑥)-‬מציין את שכיחות מספר האשפוזים‪.‬‬
‫טבלת שכיחויות למשתנה כמותי רציף‬
‫משתנה כמותי רציף מקבל כל ערך אפשרי בטווח ערכים מסוים‪ ,‬ולכן למשתנה רציף קיימים‬
‫אינסוף ערכים אפשריים‪ .‬מסיבה זו המשתנה הכמותי הרציף מוצג בטבלת שכיחות עם מחלקות‪.‬‬
‫ערכי המשתנה מוצגים בטווח של מספרים ולא כערך בודד‪.‬‬ ‫‪-‬‬
‫עלינו לקבוע כמה מחלקות נקבע ומה יהיה רוחבה של כל מחלקה‪.‬‬ ‫‪-‬‬
‫ההחלטה לגבי מספר המחלקות ורוחבן הינו שרירותי ותלוי במשתנה הנחקר‪ ,‬בחוקר ובמחקר‪ .‬אין‬
‫הכרח שכל המחלקות יהיו ברוחב שווה‪.‬‬
‫לעתים נבחר להציג בטבלת שכיחות עם מחלקות גם משתנה כמותי בדיד המקבל ערכים רבים‪,‬‬
‫לדוגמא המשתנה "משכורת"‪.‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫דוגמא‪:‬‬
‫סטודנטים מקבלי תואר ראשון לפי גיל‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל מקבל התואר‬
‫‪360‬‬ ‫‪16 − 21‬‬
‫‪4992‬‬ ‫‪22 − 24‬‬
‫‪10199‬‬ ‫‪25 − 29‬‬
‫‪1387‬‬ ‫‪30 − 34‬‬
‫‪685‬‬ ‫‪35 − 44‬‬
‫‪324‬‬ ‫‪45 − 54‬‬
‫‪72‬‬ ‫‪55 +‬‬
‫𝟗𝟏𝟎 ‪𝟏𝟖,‬‬ ‫סה"כ‬

‫בדוגמא זו מדובר במשתנה כמותי רציף‪.‬‬


‫גבולות אמיתיים וגבולות מדומים‬
‫לעתים תהיה נתונה לנו טבלת שכיחות בה אין רצף בין הגבגול העליון של מחלקה כלשהי לגבול‬
‫התחתון של המחלקה הבאה‪ .‬במקרים בהם לא יהיה רצף הקפיצה תהיה של יחידה אחת בין סוף‬
‫מחלקה לתחילת המחלקה הבאה (כמו בדוגמא הנ"ל בה המחלקה הראשונה מסתיימת במספר‬
‫‪ 21‬והמחלקה השנייה מתחילה במספר ‪ .22‬כך הדבר גם ביתר המחלקות)‪.‬‬
‫נהיה מעוניינים ליצור רצף בין סוף כל מחלקה לתחילת המחלקה הבאה‪ .‬למעשה יש שתי דרכים‬
‫עיקריות לעשות זאת – נציג רק את הדרך בה נשתמש לאורך הקורס‪.‬‬
‫הדרך לפיה נפעל מתבצעת בכך שמגדילים ביחידה רק את הגבול העליון של כל מחלקה (ולא‬
‫משנים כלל את הגבול התחתון)‪.‬‬
‫בדוגמא הנ"ל נתייחס למחלקה הראשונה כאל קבוצת הגילאים שבין ‪ 16‬ועד ל‪( 22-‬לא כולל את‬
‫הגיל ‪ 22‬בדיוק)‪ .‬המחלקה הבאה מתחילה מהגיל ‪ 22‬ועד לגיל ‪ 25‬בדיוק) וכו'‪.‬‬
‫הגבולות המקוריים בהם אין רצף נקראים גבולות מדומים‪ ,‬והגבולות החדשים שיצרנו‪ ,‬עבורם יש‬
‫רצף‪ ,‬נקראים גבולות אמיתיים‪.‬‬
‫הערה‪ :‬יהיו טבלאות עם מחלקות בהן יהיה כבר רצף בין המחלקות (גבולות אמיתיים)‪ .‬במקרה‬
‫זה לא נצטרך לשנות דבר‪.‬‬
‫הערה נוספת‪ :‬נשים לב שבטבלת השכיחות האחרונה שהוצגה‪ ,‬המחלקה האחרונה היא "מחלקה‬
‫פתוחה"‪ .‬רשום שטווח הגילאים במחלקה זו הוא ‪ .55 +‬אם כך‪ ,‬המחלקה מתחילה בגיל ‪.55‬‬
‫השאלה היא – באיזה גיל היא מסתיימת?‬
‫בהמשך‪ ,‬כאשר נציג את מדדי המרכז‪ ,‬בחישוב חלק מהמדדים נצטרך "לסגור" מחלקה זו‪ ,‬כלומר‬
‫לקבוע מה הגבול העליון של המחלקה‪ .‬נשאלת השאלה מה הערך הנכון לקבוע שיהיה הגבול‬
‫העליון‪ .‬אין לכך תשובה החלטית‪ ,‬וזה תלוי בסוג הטבלה ובחוקר‪.‬‬
‫הגיוני לקבוע בדוגמא זו שהמחלקה האחרונה תהיה ‪ 55 − 64‬בדומה למחלקות הקודמות אשר‬
‫גם הן מכילות טווח של ‪ 10‬שנים‪.‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫דוגמא – טבלת שכיחות עם גבולות אמיתיים‪:‬‬


‫סטודנטים מקבלי תואר ראשון לפי גיל‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל מקבל התואר‬
‫‪360‬‬ ‫‪16 − 22‬‬
‫‪4992‬‬ ‫‪22 − 25‬‬
‫‪10199‬‬ ‫‪25 − 30‬‬
‫‪1387‬‬ ‫‪30 − 35‬‬
‫‪685‬‬ ‫‪35 − 45‬‬
‫‪324‬‬ ‫‪45 − 55‬‬
‫‪72‬‬ ‫‪55 − 65‬‬
‫𝟗𝟏𝟎 ‪𝟏𝟖,‬‬ ‫סה"כ‬

‫נקבל את הטבלה הבאה לאחר שנעבור לגבולות אמיתיים‪.‬‬

‫טבלת שכיחות דו‪-‬ממדית )‪(Crosstab‬‬


‫לוח שכיחות דו‪-‬ממדי מכיל נתונים אודות שני משתנים ולא אודות משתנה אחד בלבד כמו שראינו‬
‫עד כה בלוחות הקודמים‪.‬‬
‫בשורות הלוח יופיע המשתנה הראשון ובעמודות של הלוח יופיע המשתנה השני‪.‬‬
‫בטבלת שכיחות דו‪-‬ממדית נהיה מעוניינים לרוב גם לבדוק את היחסים בין שני המשתנים‬
‫המוצגים בלוח‪ .‬לרוב נוכל לאפיין משתנה אחד כמשתנה הבלתי‪-‬תלוי (מסביר) ואת השני כמשתנה‬
‫התלוי (מוסבר)‪ .‬במקרה זה נהיה מעוניינים לבדוק איך מושפע המשתנה התלוי מהמשתנה הבלתי‪-‬‬
‫תלוי‪.‬‬
‫דוגמא‪:‬‬
‫סה"כ‬ ‫נשים‬ ‫גברים‬ ‫השכלה‬
‫𝟎𝟕𝟒‬ ‫‪145‬‬ ‫‪325‬‬ ‫תיכונית‬
‫𝟓𝟓𝟑‬ ‫‪150‬‬ ‫‪205‬‬ ‫תואר ראשון‬
‫𝟓𝟐𝟏‬ ‫‪55‬‬ ‫‪70‬‬ ‫תואר שני ומעלה‬
‫𝟎𝟓𝟗‬ ‫𝟎𝟓𝟑‬ ‫𝟎𝟎𝟔‬ ‫סה"כ‬

‫זוהי דוגמא לטבלת שכיחות דו‪-‬ממדית עבור שני משתנים‪ :‬רמת השכלה ומגדר‪ .‬המשתנה "רמת‬
‫השכלה" (משתנה אורדינאלי) מוצג בשורות הטבלה‪ .‬המשתנה "מגדר" (משתנה נומינאלי) מוצג‬
‫בעמודות הטבלה‪.‬‬
‫במקרה של לוח דו‪-‬ממדי תופיע גם שורת סה"כ וגם עמודת סה"כ‪.‬‬
‫הוסיפו כותרת מתאימה לטבלה‪.‬‬ ‫‪-‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫הצגת נתוני הטבלה באחוזים‪:‬‬


‫בכדי לערוך השוואה בין הגברים לנשים‪ ,‬חובה לחשב תחילה אחוזים‪ .‬נהוג להשלים ל‪ 100%-‬את‬
‫הקטגוריות של המשתנה הבלתי תלוי ("מגדר" בדוגמא)‪ .‬לכן כל עמודה תסתכם ל‪ .100%-‬בכך‬
‫ניתן לערוך בקלות השוואה בין גברים לנשים גם כאשר גודל הקבוצות אינו שווה‪.‬‬
‫סה"כ‬ ‫נשים‬ ‫גברים‬ ‫השכלה‬
‫𝟎𝟕𝟒‬ ‫‪145‬‬ ‫‪325‬‬ ‫תיכונית‬
‫)‪(100%‬‬ ‫)‪(41.4%‬‬ ‫)‪(54.2%‬‬
‫𝟓𝟓𝟑‬ ‫‪150‬‬ ‫‪205‬‬ ‫תואר ראשון‬
‫)‪(100%‬‬ ‫)‪(42.8%‬‬ ‫)‪(34.2%‬‬
‫𝟓𝟐𝟏‬ ‫‪55‬‬ ‫‪70‬‬ ‫תואר שני ומעלה‬
‫)‪(100%‬‬ ‫)‪(15.7%‬‬ ‫)‪(11.6%‬‬
‫𝟎𝟓𝟗‬ ‫𝟎𝟓𝟑‬ ‫𝟎𝟎𝟔‬ ‫סה"כ‬
‫)‪(100%‬‬ ‫)‪(100%‬‬ ‫)‪(100%‬‬

‫בחינת קשר בין המשתנים המופיעים בלוח‪:‬‬


‫בלוח דו‪-‬ממדי ישנה אינפורמציה אודות שני משתנים‪ .‬חלק מהניתוחים שניתן לעשות הינו בחינת‬
‫קשר בין שני המשתנים המחקרים (דבר זה לא ניתן לעשות בלוח חד‪-‬ממדי מכיוון שמופיע בו רק‬
‫משתנה אחד)‪.‬‬
‫נרצה לבחון האם המשתנה הבלתי‪-‬תלוי (מגדר) משפיע על המשתנה התלוי (השכלה)‪ .‬במילים‬
‫אחרות‪ ,‬נבדוק האם קיים קשר בין המגדר לבין ההשכלה‪.‬‬
‫בדוגמא ניתן לראות שאחוז הגברים בעלי השכלה תיכונית )‪ (54.2%‬גבוה מאחוז הנשים בעלות‬
‫השכלה תיכונית )‪.(41.4%‬‬
‫אחוז הנשים בעלות תואר ראשון )‪ (42.8%‬גבוה מאחוז הגברים בעלי תואר ראשון )‪.(34.2%‬‬
‫כמו‪-‬כן‪ ,‬אחוז הנשים בעלות תואר שני ומעלה )‪ (15.7%‬גבוה מאחוז הגברים בעלי תואר שני‬
‫ומעלה )‪.(11.6%‬‬
‫אם כך‪ ,‬הדבר מצביע שנשים משכילות יותר מגברים לפי נתוני המדגם‪ ,‬אם כי לא בפערים גדולים‬
‫מאוד‪.‬‬
‫לסיכום‪ ,‬נרה שיש קשר בין מגדר להשכלה – נראה שנשים פונות יותר לתארים מתקדמים לעומת‬
‫גברים‪.‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫דוגמא נוספת‪:‬‬
‫סטודנטים לתואר שני‬ ‫סטודנטים לתואר ראשון‬ ‫מס' היעדרויות בסמסטר‬
‫‪20‬‬ ‫‪42‬‬ ‫𝟎‬
‫‪8‬‬ ‫‪23‬‬ ‫𝟏‬
‫‪4‬‬ ‫‪10‬‬ ‫𝟐‬
‫‪3‬‬ ‫‪5‬‬ ‫𝟑‬
‫‪0‬‬ ‫‪2‬‬ ‫‪𝟒+‬‬

‫גם בדוגמא זו ישנם נתונים אודות שני משתנים‪ :‬מספר היעדרויות בסמסטר והתואר (ראשון‪/‬שני)‬
‫של הסטודנט‪.‬‬
‫הוסיפו סה"כ היכן שנדרש‪.‬‬ ‫‪-‬‬
‫הוסיפו כותרת מתאימה‪.‬‬ ‫‪-‬‬
‫הציגו את הנתונים באחוזים‪.‬‬ ‫‪-‬‬
‫הציגו מסקנות‪.‬‬ ‫‪-‬‬
‫הצגה גראפית של נתונים‬
‫הצגות גרפיות הינן דרכים ויזואליות יותר להצגת נתוני המחקר‪ ,‬בעזרתן קל יותר "לראות" את‬
‫הסטטיסטיקה‪.‬‬
‫מאפשרות התרשמות חזותית של התפלגות הנתונים‪.‬‬ ‫‪-‬‬
‫דרך נפוצה לפרסום של נתונים סטטיסטיים‪.‬‬ ‫‪-‬‬
‫בחירת סוג ההצגה הגראפית נעשית בהתאם לסוג המשתנה‪.‬‬ ‫‪-‬‬
‫נלמד ארבע הצגות גראפיות עיקריות‪ :‬דיאגרמת מעל‪ ,‬דיאגרמת מקלות‪ ,‬היסטוגרמה ודיאגרמת‬
‫פיזור‪ .‬קיימות הצגות גראפיות נוספות – כמו "קו מגמה"‪.‬‬
‫דוגמא להצגה גראפית – קו מגמה )‪:(Trend Line‬‬
‫שיעור פריון כולל (הלשכה המרכזית לסטטיסטיקה)‬

‫גרף זה מתאים לנתונים שיש עליהם מגמה לאורך הזמן‪.‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫הגדרות נוספות‬
‫הגדרה – שכיחות יחסית‪ :‬שכיחות יחסית של ערך 𝑥 הינה היחס בין שכיחות הערך לבין מספר‬
‫)𝑥(𝑓‬
‫‪.‬‬ ‫התצפיות הכולל במדגם‪ ,‬כלומר‬
‫𝑛‬

‫שכיחות יחסית נקראת גם פרופורציה‪.‬‬


‫השכיחות היחסית הינה בהכרח מספר בין ‪ 0‬ל‪.1-‬‬
‫סכום השכיחויות היחסיות של כל ערכי המשתנה הינו ‪.1‬‬
‫הגדרה – אחוזים‪ :‬האחוז בו מופיע ערך מסוים של המשתנה במדגם מתקבל על‪-‬ידי הכפלת‬
‫השכיחות היחסית של הערך ב‪.100-‬‬
‫מהעובדה שסכום השכיחויות היחסיות של כל ערכי המשתנה שווה ל‪ ,1-‬אנו מקבלים (כידוע)‬
‫שסכום כל האחוזים שווה ל‪.100-‬‬
‫דיאגרמת מעגל (פאי)‬
‫דיאגרמת מעגל מתאימה בעיקר להצגה של משתנה איכותי (נומינאלי)‪ .‬לדוגמא‪ :‬מגדר‪ ,‬ארץ‬
‫מוצא‪ ,‬מקצוע‪ ,‬תחום לימוד‪ ,‬עדה‪ ,‬אזור מגורים ועוד‪.‬‬
‫דיאגרמת מעגל הינה תרשים בצורת מעגל‪ .‬את המעגל אנו מחלקים לפרוסות כמספר ערכי‬
‫המשתנה‪ .‬לכל קטגוריה‪/‬ערך של המשתנה נתאים פרוסה שגודלה פרופורציוני לשכיחותה‪ .‬למעשה‬
‫כל פרוסה תהיה בגודל השווה לאחוז של אותה הקטגוריה‪.‬‬
‫דוגמא‪:‬‬
‫טבלת שכיחות חד‪-‬ממדית‪:‬‬
‫משפחות חד‪-‬הוריות עם ילדים עד גיל ‪ ,24‬לפי מצב משפחתי של ההורה‬

‫)𝒙(𝒇 – מספר משפחות (באלפים)‬ ‫𝒙 – מצב משפחתי של ההורה‬


‫‪18.5‬‬ ‫נשוי‪/‬אה‪ ,‬חי‪/‬ה בנפרד‬
‫‪84.8‬‬ ‫גרוש‪/‬ה‬
‫‪28.4‬‬ ‫אלמן‪/‬ה‬
‫‪15.1‬‬ ‫רווק‪/‬ה‬
‫‪1.0‬‬ ‫לא ידוע‬
‫𝟖 ‪𝟏𝟒𝟔.‬‬ ‫סה"כ‬

‫‪ - %‬אחוזים‬ ‫)𝒙(𝒇‬ ‫)𝒙(𝒇 – מספר משפחות‬ ‫𝒙 – מצב משפחתי של‬


‫𝒏 – שכיחות‬
‫ההורה‬
‫יחסית‬
‫‪12.6%‬‬ ‫‪18.5‬‬ ‫‪18.5‬‬ ‫נשוי‪/‬אה‪ ,‬חי‪/‬ה בנפרד‬
‫‪= 0.126‬‬
‫‪146.8‬‬
‫‪57.8%‬‬ ‫‪84.8‬‬ ‫‪84.8‬‬ ‫גרוש‪/‬ה‬
‫‪= 0.578‬‬
‫‪146.8‬‬
‫‪19.3%‬‬ ‫‪28.4‬‬ ‫‪28.4‬‬ ‫אלמן‪/‬ה‬
‫‪= 0.193‬‬
‫‪146.8‬‬
‫‪10.3%‬‬ ‫‪15.1‬‬ ‫‪15.1‬‬ ‫רווק‪/‬ה‬
‫‪= 0.103‬‬
‫‪146.8‬‬
‫‪𝟏𝟎𝟎%‬‬ ‫𝟏‬ ‫𝟖 ‪𝒏 = 𝟏𝟒𝟔.‬‬ ‫סה"כ‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫דיאגרמת מעגל‪:‬‬
‫משפחות חד‪-‬הוריות עם ילדים עד גיל ‪ ,24‬לפי מצב משפחתי של ההורה‬

‫בדוגמא זו מדובר במשתנה נומינאלי ולכן בחרנו להציגו בדיאגרמת מעגל‪.‬‬


‫ממצא‪ :‬גירושין הינם הגורם העיקרי להיווצרותן של משפחות חד‪-‬הוריות‪.‬‬
‫דוגמא נוספת‪:‬‬
‫טבלת שכיחות חד‪-‬ממדית‪:‬‬
‫להלן נתונים אודות צבע העיניים של מדגם מקרי של אמריקאיים ומדגם מקרי של אירופאים‪.‬‬
‫סה"כ‬ ‫אירופאים‬ ‫אמריקאים‬ ‫צבע עיניים‬
‫𝟐𝟎𝟏‬ ‫‪50‬‬ ‫‪52‬‬ ‫חום‬
‫𝟔𝟑‬ ‫‪25‬‬ ‫‪11‬‬ ‫ירוק‬
‫𝟐𝟐‬ ‫‪15‬‬ ‫‪7‬‬ ‫כחול‬
‫𝟎𝟔𝟏‬ ‫𝟎𝟗‬ ‫𝟎𝟕‬ ‫סה"כ‬

‫הציגו את הנתונים בצורה גראפית‪ .‬מה מסקנתכם?‬ ‫‪-‬‬


‫הצגה באחוזים‪:‬‬
‫סה"כ‬ ‫אירופאים‬ ‫אמריקאים‬ ‫צבע עיניים‬
‫‪𝟔𝟑. 𝟕%‬‬ ‫‪55.5%‬‬ ‫‪74.3%‬‬ ‫חום‬
‫‪𝟐𝟐. 𝟓%‬‬ ‫‪27.8%‬‬ ‫‪15.7%‬‬ ‫ירוק‬
‫‪𝟏𝟑. 𝟖%‬‬ ‫‪16.7%‬‬ ‫‪10%‬‬ ‫כחול‬
‫‪𝟏𝟎𝟎%‬‬ ‫‪𝟏𝟎𝟎%‬‬ ‫‪𝟏𝟎𝟎%‬‬ ‫סה"כ‬

‫דיאגרמת מעגל‪:‬‬

‫‪8‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫משתי הדיאגרמות ניתן לראות שבקרב האירופאים יש אחוז גבוה יותר בעלי עיניים בהירות‬
‫(כחולות וירוקות) מאשר בקרב האמריקאים‪ .‬בקרב האמריקאים ל‪ 75%-‬יש עיניים חומות בעוד‬
‫בקרב האירופאים ל‪ 55%-‬עיניים חומות‪.‬‬
‫דיאגרמת מקלות‬
‫דיאגרמת מקלות מתאימה בעיקר להצגה עבור משתנה איכותי סדור (אורדינאלי) או עבור משתנה‬
‫כמותי בדיד (אינטרוואלי או יחס) המוצג בטבלת שכיחות עם ערכים בודדים (ולא בטבלת שכיחות‬
‫עם מחלקות)‪ .‬לדוגמא‪ :‬מספר חדרים בבית‪ ,‬מספר ילדים במשפחה‪ ,‬מספר היעדרויות בסמסטר‪,‬‬
‫רמת השכלה‪ ,‬שביעות רצון ועוד‪.‬‬
‫בדיאגרמת מקלות יופיעו על הציר האופקי ערכי המשתנה‪ .‬לכל ערך של המשתנה נתאים "מקל"‬
‫אשר גובהו פרופורציוני לשכיחותו במדגם (או לאחוז שלו במדגם)‪.‬‬
‫ערכי המשתנה יופיעו על הציר האופקי לפי הסדר (מהקטן לגדול)‪.‬‬
‫דוגמא‪:‬‬
‫מספר סטודנטים לפי תואר ‪2006/7‬‬
‫טבלת שכיחות חד‪-‬ממדית‪:‬‬
‫)𝒙(𝒇 – מספר‬ ‫𝒙 – תואר‬
‫סטודנטים‬
‫‪11,875‬‬ ‫תואר ראשון‬
‫‪6,895‬‬ ‫תואר שני‬
‫‪2,700‬‬ ‫דוקטורט‬
‫𝟎𝟕𝟒 ‪𝟐𝟏,‬‬ ‫סה"כ‬

‫הצגה בדיאגרמת מקלות לפי שכיחויות‪:‬‬

‫הצגה באחוזים‪:‬‬
‫‪ - %‬אחוזים‬ ‫)𝒙(𝒇 – מספר‬ ‫𝒙 – תואר‬
‫סטודנטים‬
‫‪55.3‬‬ ‫‪11,875‬‬ ‫תואר ראשון‬
‫‪32.1‬‬ ‫‪6,895‬‬ ‫תואר שני‬
‫‪12.6‬‬ ‫‪2,700‬‬ ‫דוקטורט‬
‫𝟎𝟎𝟏‬ ‫𝟎𝟕𝟒 ‪𝟐𝟏,‬‬ ‫סה"כ‬

‫‪9‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫הצגה בדיאגרמת מקלות לפי אחוזים‪:‬‬

‫היסטוגרמה‬
‫היסטוגרמה מתאימה להצגה של משתנה כמותי רציף (משתנה אינטרוולי או משתנה יחס)‪.‬‬
‫דוגמא‪ :‬גיל‪ ,‬משקל‪ ,‬גובה‪.‬‬
‫היסטוגרמה מתאימה למקרים בהם המשתנה מופיע בטבלת שכיחות עם מחלקות‪.‬‬
‫בדומה לדיאגרמת מקלות‪ ,‬על הציר האופקי נציג את ערכי המשתנה‪ .‬לעומת זאת‪ ,‬על הציר האנכי‬
‫נציג את הצפיפות של כל מחלקה‪.‬‬
‫הגדרה – צפיפות‪ :‬שכיחות ליחידה אחת של המשתנה הנחקר‪ .‬אם כך‪ ,‬הצפיפות במחלקה שווה‬
‫לשכיחות של המחלקה חלקי רוחב המחלקה‪ .‬את הצפיפות נסמן באות 𝑑‪.‬‬
‫דוגמא‪:‬‬
‫טבלת שכיחות חד‪-‬ממדית‪:‬‬
‫נשים נשואות בכוח העבודה האזרחי בישראל לפי גיל (באלפים)‬
‫)𝑥(𝑓‬ ‫𝒍 – רוחב מחלקה‬ ‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬
‫𝒅 – צפיפות 𝑙 = 𝑑‬
‫‪33.8‬‬ ‫‪7‬‬ ‫‪33.8‬‬ ‫‪18 − 25‬‬
‫‪= 4.82‬‬
‫‪7‬‬
‫‪230.1‬‬ ‫‪10‬‬ ‫‪230.1‬‬ ‫‪25 − 35‬‬
‫‪= 23.01‬‬
‫‪10‬‬
‫‪437.9‬‬ ‫‪20‬‬ ‫‪437.9‬‬ ‫‪35 − 55‬‬
‫‪= 21.89‬‬
‫‪20‬‬
‫‪80.2‬‬ ‫‪10‬‬ ‫‪80.2‬‬ ‫‪55 − 65‬‬
‫‪= 8.02‬‬
‫‪10‬‬
‫𝟐𝟖𝟕‬ ‫סה"כ‬

‫נשים לב שרוחב המחלקה הראשונה לדוגמא הינו ‪( 7‬ולא ‪ )6‬שכן המחלקה מתחילה בגיל ‪18‬‬
‫ומסתיימת בגיל ‪( 25‬לא כולל ‪ ,)25‬ולא בגיל ‪( 24‬בכדי ליצור רצף בין הגבולות של המחלקות)‪.‬‬
‫ניתן לראות שהמחלקה עם השכיחות הגבוהה ביותר הינה המחלקה השלישית )‪ (35 − 55‬בעוד‬
‫שהמחלקה הצפופה ביותר הינה המחלקה השנייה )‪ .(25 − 35‬הסיבה לכך היא שהמחלקה‬
‫השנייה פחות רחבה מהמחלקה השלישית‪ ,‬דבר הגורם לה בסופו של דבר להיות צפופה יותר‪.‬‬

‫‪10‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫היסטוגרמה‪:‬‬

‫בדוגמא זו מדובר במשתנה כמותי רציף (משתנה יחס) ולכן בחרנו להציגו בהיסטוגרמה‪.‬‬
‫מצולע שכיחויות (פוליגון)‬
‫בכדי לבנות מצולע שכיחויות עלינו לחבר את אמצעי הבסיסים העליונים של כל שני מלבנים‬
‫עוקבים בהיסטוגרמה על‪-‬ידי קו ישר‪.‬‬
‫מצולע זה נותן תמונה סדירה של מהלך ההתפלגות‪.‬‬
‫בקצוות מחברים את אמצע כל בסיס חיצוני על‪-‬ידי קו ישיר לציר ה‪( 𝑋 -‬הציר האופקי)‪ ,‬במרחק‬
‫מחצית רוחב הבסיס‪ ,‬בכדי לסגור את המצולע‪.‬‬
‫מצולע שכיחויות עבור הדוגמא הנ"ל‪:‬‬

‫‪11‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫דוגמא נוספת‪:‬‬
‫טבלת שכיחויות חד‪-‬ממדית‪:‬‬
‫עובדים בארגון לפי גיל‬
‫𝒅 – צפיפות‬ ‫𝒍 – רוחב מחלקה‬ ‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬
‫‪5.67‬‬ ‫‪6‬‬ ‫‪34‬‬ ‫‪16 − 22‬‬
‫‪20.67‬‬ ‫‪3‬‬ ‫‪62‬‬ ‫‪22 − 25‬‬
‫‪26‬‬ ‫‪5‬‬ ‫‪130‬‬ ‫‪25 − 30‬‬
‫‪23‬‬ ‫‪5‬‬ ‫‪115‬‬ ‫‪30 − 35‬‬
‫‪15.2‬‬ ‫‪10‬‬ ‫‪152‬‬ ‫‪35 − 45‬‬
‫‪8.4‬‬ ‫‪10‬‬ ‫‪84‬‬ ‫‪45 − 55‬‬
‫‪3.2‬‬ ‫‪15‬‬ ‫‪48‬‬ ‫‪55 − 70‬‬
‫𝟓𝟐𝟔‬ ‫סה"כ‬

‫היסטוגרמה‪:‬‬

‫בדוגמא זו מדובר במשתנה כמותי רציף (משתנה יחס) ולכן בחרנו להציגו בהיסטוגרמה‪.‬‬
‫התפלגויות פופולאריות‬
‫מוקדם יותר כאשר עסקנו בהצגה גרפית של נתונים כמותיים הצגנו את דיאגרמת המקלות‬
‫וההיסטוגרמה‪ .‬נהוג לחבר בקווים ישרים את ראשי המקלות (כאשר מדובר בדיאגרמת מקלות) או‬
‫את ראשי מרכז המלבנים (כאשר מדובר בהיסטוגרמה) ובכך לקבל קו שבור לאורך הגרף הנקרא‬
‫מצולע שכיחויות או פוליגון‪ .‬את המצולע שמתקבל נהוג "להחליק" (ליצור צורה חלקה אחת‬
‫במקום הקו השבור) ובכך מקבלים עקומה חלקה של המשתנה הנחקר‪ .‬בעזרת עקומה חלקה זו קל‬
‫לראות האם מדובר בעקומה סימטרית או בעקומה שאינה סימטרית‪ ,‬האם עיקר התצפיות‬
‫מרוכזות במרכז או בקצוות ועוד‪.‬‬

‫‪12‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫בשקפים הבאים נציג מספר עקומות‪/‬התפלגויות פופולאריות‪.‬‬


‫התפלגות פעמונית סימטרית (נורמאלית)‬
‫התפלגות פעמונית סימטרית‪ :‬התפלגות פעמונית סימטרית (הנקראת גם התפלגות נורמאלית או‬
‫התפלגות חד‪-‬שיאית סימטרית) הינה עקומה סימטרית בה רוב התצפיות נמצאות במרכז העקומה‬
‫ומעט בקצוות‪.‬‬
‫משתנים רבים במציאות מפולגים בקירוב לפי התפלגות זו‪ ,‬כגון גובה‪ ,‬משקל‪ ,‬טמפרטורה‪ ,‬לחץ‬
‫דם‪ ,‬ציוני ‪ I.Q‬ועוד‪.‬‬

‫דוגמא למשתנה שמפולג בקירוב נורמאלית‪:‬‬


‫התפלגות הציון המשוקלל של סטודנטים‬

‫התפלגות ‪ U‬סימטרית‬
‫התפלגות ‪ :U‬התפלגות ‪ U‬הינה סימטרית‪ ,‬בה רוב התצפיות נמצאות בקצוות העקומה ומעט‬
‫במרכז‪.‬‬
‫למעשה התפלגות זו הפוכה להתפלגות הפעמונית הסימטרית שכן בהתפלגות זו מעט תצפיות‬
‫במרכז ההתפלגות ועיקר המסה נמצאת בקצוות‪.‬‬

‫‪13‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫התפלגות אחידה‬
‫התפלגות אחידה‪ :‬בהתפלגות זו יש פיזור אחיד לאורך כל העקומה‪ .‬עקומה זו מתקבלת כאשר‬
‫השכיחויות של כל ערכי המשתנה שוות בקירוב‪ .‬צורתה של העקומה האחידה הינה קו ישר‬
‫המקביל לציר האופקי‪ .‬למעשה גם זו עקומה סימטרית‪.‬‬
‫דוגמא‪ :‬תוצאת הטבלת קובייה עבור מספר רב של ניסויים‪ .‬מדובר בהתפלגות אחידה בקירוב שכן‬
‫הקובייה סימטרית (הסתברות שווה לכל פאה) ולכן נצפה לקבל שכיחויות דמות לששת ערכי‬
‫הקוביה‪.‬‬

‫התפלגות א‪-‬סימטרית חיובית ("זנב ימין")‬


‫התפלגות א‪-‬סימטרית חיובית (ימנית)‪ :‬התפלגות זו אינה סימטרית‪ ,‬בה רוב התצפיות מרוכזות‬
‫בערכים נמוכים של המשתנה וישנן מעט תצפיות חריגות בערכים גבוהים של המשתנה‪ .‬בגלל‬
‫עובדה זו לעקומה יש "זנב" בצד ימין‪.‬‬
‫דוגמא‪ :‬התפלגות המשכורות במדינת ישראל‪.‬‬

‫התפלגות א‪-‬סימטרית שלילית ("זנב שמאל")‬


‫התפלגות א‪-‬סימטרית שלילית (שמאלית)‪ :‬עקומה זו אינה סימטרית‪ ,‬ועבורה רוב התצפיות‬
‫מרוכזות בערכים גבוהים של המשתנה וישנן מעט תצפיות חריגות בערכים נמוכים של המשתנה‪.‬‬
‫בגלל עובדה זו לעקומה יש "זנב" בצד שמאל‪.‬‬

‫‪14‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪14/03/2021‬‬

‫שאלה‪ :‬לאיזו התפלגות ציונים אתם צריכים לייחל במבחן סוף השנה?‬
‫תשובה‪ :‬התפלגות א‪-‬סימטרית שלילית ("זנב שמאל") – שרוב הציונים יהיו גבוהים‪.‬‬

‫‪15‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪3‬‬
‫נושא ההרצאה‪ :‬מדדי מיקום מרכזי‪ :‬ממוצע‪ ,‬חציון ושכיח‬
‫מדדי מרכז – ממוצע‪ ,‬חציון ושכיח‬
‫מדדי מיקום מרכזי (או בקיצור מדדי מרכז) מודדים סביב איזה ערך הנתונים מתרכזים‪ .‬למעשה‬
‫הם בודקים היכן מרכז הכובד של סדרת התצפיות‪ .‬נלמד שלושה מדדי מיקום מרכזי‪ :‬ממוצע‪,‬‬
‫חציון ושכיח‪.‬‬
‫הממוצע רלוונטי רק כאשר המשתנה הנחקר הוא משתנה כמותי‪ .‬לא ניתן לדבר על הממוצע כאשר‬
‫מדובר במשתנה איכותי‪ .‬החציון רלוונטי כאשר מדובר במשתנה כמותי או במשנה איכותי סדור‬
‫(אורדינאלי)‪ ,‬אך בעיקר רלוונטי למשתנה כמותי‪ .‬השכיח רלוונטי לכל סוגי המשתנים‪ .‬בהתאם‬
‫לזאת‪ ,‬רוב הדוגמאות שנציג מעתה יהיו עבור משתנים כמותיים‪.‬‬
‫צורות הצגה אפשריות של הנתונים‬
‫באופן כללי בבואנו לחשב את ערכם של מדדי המיקום‪ ,‬הנתונים אודות המשתנה יכולים להופיע‬
‫בשלוש צורות עיקריות‪:‬‬
‫רשימת תצפיות‪ :‬זוהי הצורה הבסיסית ביותר בה הנתונים מופיעים כרשימה של‬ ‫א‪.‬‬
‫מספרים שאינם מסודרים בטבלה‪.‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬התצפיות מרוכזות בטבלת שכיחות‬ ‫ב‪.‬‬
‫בה ערכי המשתנה בטבלה הינם ערכים בודדים‪.‬‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬התצפיות ירוכזו בטבלת שכיחות כאשר‬ ‫ג‪.‬‬
‫המשתנה מוצג בטווח של ערכים (ולא ערכים בודדים)‪.‬‬
‫עבור כל אחת מבין שלוש צורות ההצגה שלעיל נציג את אופן החישוב של שלושת מדדי המיקום‬
‫(ממוצע‪ ,‬חציון ושכיח)‪.‬‬
‫הבדלים בין מדדי המיקום‬
‫כל אחד מבין שלושת מדדי המיקום המרכזי בודק בצורה מעט שונה היכן המרכז של סדרת‬
‫התצפיות שבמדגם‪.‬‬
‫נציג תחילה את ההגדרה והסימון של כל מדד מבין שלושת מדדי המיקום‪ .‬לאחר מכן נציג את‬
‫הנוסחא ואופן החישוב של כל אחד מהמדדים‪ ,‬תוך הבחנה באופן בו מוצגים הנתונים (נציין שאין‬
‫הבדל גדול בחישוב של מדדי המיקום בין שלוש צורות ההצגה אשר הוצגו בשקף הקודם‪ .‬לרוב‬
‫השינויים קטנים ונובעים מהצורה השונה בה הנתונים מופיעים)‪.‬‬

‫ממוצע )‪(Mean/Average‬‬
‫הממוצע של קבוצת מספרים הינו סכום כל המספרים מחולק במספרם‪.‬‬
‫ננסה לתת הסבר אינטואיטיבי לממוצע‪ .‬הממוצע הינו "ערך סוציאליסטי" – אם למשל התצפיות‬
‫הינן משכורות חודשיות‪ ,‬אזי הממוצע מבטא את המשכורת שכל פרט בקבוצה היה מקבל אם סך‬
‫כל המשכורות היו מחולקות שווה בשווה בין כל הפרטים בקבוצה‪.‬‬
‫סימון‪ :‬את הממוצע של משתנה מקרי 𝑋 נסמן ב‪.𝑋̅ -‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫אופן החישוב‪ :‬את הממוצע נחשב על‪-‬ידי סכימת כל התצפיות וחלוקת הסכום במספר התצפיות‪.‬‬
‫נציג את הנוסחא לחישוב הממוצע בכל אחת משלוש צורות ההצגה האפשריות של המשתנה‪:‬‬
‫רשימת תצפיות‪ :‬כאשר הנתונים מופיעים כרשימה של 𝑛 תצפיות אשר מסומנות ב‪-‬‬ ‫א‪.‬‬
‫𝑛𝑥 ‪ ,𝑥1 , 𝑥2 , … ,‬ממוצע התצפיות הינו‪:‬‬
‫𝑛𝑥 ‪∑ 𝑥𝑖 𝑥1 + 𝑥2 + ⋯ +‬‬
‫= ̅𝑋‬ ‫=‬
‫𝑛‬ ‫𝑛‬

‫דוגמא‪ :‬בדקנו את רמת ההמוגלובין בדם של ‪ 10‬נשים לאחר לידה‪ .‬להלן הנתונים‪:‬‬
‫‪10.7, 11.2, 10.9, 10, 7.4, 7, 8.1, 11.9, 9.3, 10.4‬‬
‫נחשב את ממוצע רמת ההמוגלובין עבור המדגם של ‪ 10‬הנשים‪:‬‬
‫‪∑ 𝑥𝑖 10.7 + 11.2 + 10.9 + ⋯ + 10.4 96.9‬‬
‫= ̅𝑋‬ ‫=‬ ‫=‬ ‫‪= 9.69‬‬
‫𝑛‬ ‫‪10‬‬ ‫‪10‬‬
‫קיבלנו שרמת ההמוגלובין הממוצע של ‪ 10‬הנשים הינה ‪.9.69‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬כאשר לפנינו טבלת שכיחות‬ ‫ב‪.‬‬
‫הכוללת מספר ערכים של המשתנה (נניח 𝑘 ערכים)‪ ,‬הממוצע יחושב על‪-‬ידי סכימה של‬
‫מכפלת כל ערך בשכיחותו וחלוקת הסכום במספר התצפיות – 𝑛‪ .‬כלומר‪:‬‬
‫) 𝑘𝑥(𝑓 ⋅ 𝑘𝑥 ‪∑ 𝑥 ⋅ 𝑓(𝑥) 𝑥1 ⋅ 𝑓(𝑥1 ) + 𝑥2 ⋅ 𝑓(𝑥2 ) + ⋯ +‬‬
‫= ̅𝑋‬ ‫=‬
‫𝑛‬ ‫𝑛‬
‫נציין שאין למעשה הבדל בין אופן החישוב של הממוצע‪ :‬אנו עדיין סוכמים את כל‬
‫התצפיות ומחלקים במספר התצפיות הכולל – 𝑛‪.‬‬
‫דוגמא‪ :‬במשאל של ‪ 60‬חולים בבית חולים גדול‪ ,‬כל חולה נשאל לגבי מספר ימי האשפוז‬
‫שהיו לו בחודש האחרון‪ .‬להלן התוצאות‪:‬‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – מס' ימי אשפוז‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔 = 𝒏‬ ‫סה"כ‬

‫נחשב את ממוצע מספר ימי האשפוז בחודש‪ ,‬בעזרת הנוסחא המתאימה לטבלת שכיחות‬
‫עם ערכים בודדים‪:‬‬
‫)𝑥(𝑓 ⋅ 𝑥 ∑‬
‫= ̅𝑋‬
‫𝑛‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫טבלת עזר לחישובים‪ :‬רצוי להוסיף לטבלת השכיחות עמודה נוספת (מכפלה בין הערכים‬
‫לבין השכיחויות) אשר תסייע לנו בחישוב הממוצע‪.‬‬
‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪2‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪42‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪48‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪28‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪15‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪7‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟐𝟓𝟏‬ ‫𝟎𝟔 = 𝒏‬ ‫סה"כ‬

‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 152‬‬


‫= ̅𝑋‬ ‫=‬ ‫‪= 2.5333‬‬
‫𝑛‬ ‫‪60‬‬
‫מסקנה מהדוגמא‪ :‬ממוצע מספר ימי האשפוז בחודש הינו ‪.2.5333‬‬
‫דוגמא נוספת‪ :‬להלן טבלת שכיחות עם ערכים בודדים עבור דירות חדשות לפי מספר‬
‫חדרים בדירה‪ ,‬ישראל ‪ .2003‬חשבו את מספר החדרים לדירה‪.‬‬

‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬


‫‪173‬‬ ‫‪1‬‬
‫‪331‬‬ ‫‪2‬‬
‫‪4,338‬‬ ‫‪3‬‬
‫‪14,586‬‬ ‫‪4‬‬
‫‪8,447‬‬ ‫‪5‬‬
‫‪5,622‬‬ ‫‪6+‬‬

‫נחשב את ממוצע מספר החדרים לדירה בעזרת הנוסחא המתאימה לטבלת שכיחות עם‬
‫ערכים בודדים‪:‬‬
‫)𝑥(𝑓 ⋅ 𝑥 ∑‬
‫= ̅𝑋‬
‫𝑛‬
‫בעיה‪ :‬הערך האחרון בטבלה הינו ‪ 6 +‬המציין ששה חדרים ומעלה‪ .‬מה נעשה עם ערך זה?‬
‫איך נתייחס אליו בטבלת השכיחות?‬
‫פתרון‪ :‬אין לבעיה זו פתרון יחיד‪/‬אוניברסאלי‪ .‬נפתור בעיה זו בכך שנחליט להציב את‬
‫הערך ‪ 7‬במקום הערך ‪ 6 +‬בנוסחא של הממוצע‪.‬‬
‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 1 ⋅ 173 + 2 ⋅ 331 + ⋯ + 7 ⋅ 5,622 153,782‬‬
‫= ̅𝑋‬ ‫=‬ ‫=‬ ‫‪= 4.59‬‬
‫𝑛‬ ‫‪33,497‬‬ ‫‪33,497‬‬
‫פירוש התוצאה‪ :‬בדירות חדשות בישראל‪ ,‬נכון לשנת ‪ ,2003‬ישנם ‪ 4.59‬חדרים בממוצע‪.‬‬
‫פירוש נוסף‪ :‬אם היינו מחלקים שווה בשווה את סה"כ החדרים בין כל הדירות החדשות‪,‬‬
‫בכל דירה היו ‪ 4.59‬חדרים‪.‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫טבלת עזר לחישובים‪ :‬ניתן להוסיף לטבלת השכיחות עמודה נוספת אשר תסייע לנו‬
‫בחישוב הממוצע‪.‬‬
‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬
‫‪173‬‬ ‫‪173‬‬ ‫‪1‬‬
‫‪662‬‬ ‫‪331‬‬ ‫‪2‬‬
‫‪13,014‬‬ ‫‪4,338‬‬ ‫‪3‬‬
‫‪58,344‬‬ ‫‪14,586‬‬ ‫‪4‬‬
‫‪42,235‬‬ ‫‪8,447‬‬ ‫‪5‬‬
‫‪39,354‬‬ ‫‪5,622‬‬ ‫‪6+‬‬
‫𝟐𝟖𝟕 ‪𝟏𝟓𝟑,‬‬ ‫𝟕𝟗𝟒 ‪𝟑𝟑,‬‬ ‫סה"כ‬

‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬במקרה זה בוואנו לחשב את הממוצע‪ ,‬לא‬ ‫ג‪.‬‬
‫נוכל לבצע מכפלה בין המחלקה (המייצגת טווח ערכים) לבין שכיחותה‪ ,‬שכן לא ניתן‬
‫לכפול טווח של מספרים במספר‪ .‬המכפלה תתבצע בין אמצע המחלקה‪ ,‬שנסמנו ב‪𝑥̂ -‬‬
‫(המייצג מספר בודד)‪ ,‬לבין שכיחותה של המחלקה‪.‬‬

‫אם כן‪ ,‬בטבלת שכיחות (בעלת 𝑘 מחלקות לדוגמא) הממוצע יהיה‪:‬‬

‫̂ )𝑥(𝑓 ⋅ ̂𝑥 ∑‬ ‫𝑥 ‪𝑥1 ⋅ 𝑓(𝑥1 ) +‬‬


‫𝑥 ‪̂2 ⋅ 𝑓(𝑥2 ) + ⋯ +‬‬
‫) 𝑘𝑥(𝑓 ⋅ 𝑘̂‬
‫= ̅𝑋‬ ‫=‬
‫𝑛‬ ‫𝑛‬
‫דוגמא‪ :‬ברצוננו לבדוק מהו ממוצע הגיל של עובדים בקופת חולים באור יהודה‪ .‬לשם כך‬
‫דגמנו ‪ 85‬עובדים בקופת חולים זו‪ .‬את תוצאת המשאל ריכזנו בטבלת שכיחות עם‬
‫מחלקות הבאה‪:‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬

‫בחרנו להציג את הנתונים בטבלת שכיחות עם מחלקות ולא בטבלת שכיחות בעלת ערכים‬
‫בודדים שכן התקבלו גילאים רבים ושונים ומטרתנו לתמצת את הנתונים ולהציגם בצורה‬
‫לא מסורבלת‪ .‬קביעת המחלקות ורוחבן יכולה להיות גם שונה מהאופן שבחרנו להציג‪.‬‬
‫נוסיף לטבלה עמודה עם אמצע מחלקה ̂𝑥‪ ,‬ועמודה של מכפלת אמצע המחלקה בשכיחות‪,‬‬
‫בהן ניעזר בחישוב הממוצע‪:‬‬
‫)𝒙(𝒇 ⋅ ̂‬
‫𝒙‬ ‫𝒙‬‫̂‬ ‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬
‫‪180‬‬ ‫‪22.5‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪550‬‬ ‫‪27.5‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪715‬‬ ‫‪32.5‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪720‬‬ ‫‪40‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪500‬‬ ‫‪50‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪437.5‬‬ ‫‪62.5‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓 ‪𝟑𝟏𝟎𝟐.‬‬ ‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫‪∑ 𝑥̂ ⋅ 𝑓(𝑥) 22.5 ⋅ 8 + 27.5 ⋅ 20 + ⋯ + 62.5 ⋅ 7 3102.5‬‬


‫= ̅𝑋‬ ‫=‬ ‫=‬ ‫‪= 36.5‬‬
‫𝑛‬ ‫‪85‬‬ ‫‪85‬‬
‫תכונת הממוצע‬
‫טענה‪ :‬סכום הסטיות של כל התצפיות מהממוצע שווה לאפס‪ .‬במילים אחרות‪ ,‬סכום הסטיות של‬
‫הערכים שקטנים מהממוצע שווה לסכום הסטיות של הערכים שגדולים ממנו‪.‬‬
‫נציג את הטענה בצורה פורמאלית‪ :‬הסטייה של תצפית 𝑖 מהממוצע מוגדרת כהפרש בין ערך‬
‫התצפית לערך הממוצע כלומר‪.(𝑥𝑖 − 𝑋̅) :‬‬
‫מהטענה נובע ש‪:‬‬
‫𝑛‬

‫‪∑(𝑥𝑖 − 𝑋̅) = 0‬‬


‫‪𝑖=1‬‬

‫דוגמא‪ :‬נמחיש את הטענה בדוגמא הבאה‪:‬‬


‫נתונה סדרה הכוללת ‪ 5‬מספרים‪.7, 12, 0, 3, 18 :‬‬
‫תחילה נחשב את ממוצע הסדרה‪:‬‬
‫‪7 + 12 + 0 + 3 + 18‬‬
‫= ̅𝑋‬ ‫‪=8‬‬
‫‪5‬‬
‫כעת נחשב את סכום הסטיות של חמש התצפיות מהממוצע‪ ,‬ונקבל שהוא אפס‪:‬‬
‫‪5‬‬

‫= )‪∑(𝑥𝑖 − 𝑋̅) = (7 − 8) + (12 − 8) + (0 − 8) + (3 − 8) + (18 − 8‬‬


‫‪𝑖=1‬‬
‫‪= −1 + 4 − 8 − 5 + 10 = 0‬‬

‫חציון )‪(Median‬‬
‫חציון הינו הערך כך שלפחות מחצית מהתצפיות קטנות או שוות לו ולפחות מחצית מהתצפיות‬
‫גדולות או שוות לו‪.‬‬
‫במילים אחרות‪ ,‬החציון הינו הערך האמצעי ברשימה המסודרת של התצפיות‪.‬‬
‫סימון‪ :‬את החציון של משתנה 𝑋 נסמן ב‪.𝑀𝑒(𝑋)-‬‬
‫אופן החישוב‪ :‬נציג את אופן חישוב החציון בכל אחת משלוש צורות ההצגה שהמשתנה יכול‬
‫להופיע בהן‪:‬‬
‫רשימת תצפיות‪ :‬כאשר הנתונים מופיעים כרשימה של 𝑛 תצפיות אשר מסומנות ב‪-‬‬ ‫א‪.‬‬
‫𝑛𝑥 ‪ ,𝑥1 , 𝑥2 , … ,‬חישוב החציון יתבצע בשני שלבים‪ .‬בשלב הראשון נסדר את התצפיות‬
‫בסדר עולה ובשלב השני נבדוק את ערכה של התצפית האמצעית ברשימה המסודרת‪.‬‬
‫בבואנו לבדו את ערך התצפית במקום האמצעי עלינו לעשות הבחנה אם מספר התצפיות‬
‫)𝑛( זוגי או אי‪-‬זוגי‪.‬‬
‫‪𝑛+1‬‬
‫‪.‬‬ ‫כאשר 𝑛 אי‪-‬זוגי ישנה תצפית אחת אמצעית‪ :‬התצפית במקום ה‪-‬‬
‫‪2‬‬
‫𝑛‬
‫כאשר 𝑛 זוגי ישנן שתי תצפיות אמצעיות‪ :‬התצפית במקום ה‪ 2 -‬והתצפית במקום‬
‫𝑛‬
‫ה‪. 2 + 1 -‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫דוגמא‪ :‬נשתמש בדוגמא שהצגנו מוקדם יותר‪ :‬דגמנו ‪ 10‬נשים לאחר לידה ומדדנו את‬
‫רמת ההמוגלובין שלהן‪:‬‬
‫‪10.7, 11.2, 10.9, 10, 7.4, 7, 8.1, 11.9, 9.3, 10.4‬‬
‫נחשב את חציון רמת ההמוגלובין עבור המדגם של ‪ 10‬הנשים‪ .‬בשלב הראשון נסדר את‬
‫התצפיות בסדר עולה‪:‬‬

‫‪7, 7.4, 8.1, 9.3, 𝟏𝟎, 𝟏𝟎. 𝟒, 10.7, 10.9, 11.2, 11.9‬‬
‫נשים לב שבדוגמא מספר תצפיות זוגי‪ ,‬שכן ‪ ,𝑛 = 10‬ולכן יש שתי תצפיות אמצעיות‪:‬‬
‫תצפית ‪ 5‬ותצפית ‪ 6‬ברשימה המסודרת‪.‬‬
‫‪10 + 10.4‬‬
‫= )𝑋(𝑒𝑀‬ ‫‪= 10.2‬‬
‫‪2‬‬
‫מכיוון שמספר התצפיות זוגי ולכן יש שתי תצפיות אמצעיות‪ ,‬חציון הגובה התקבל על‪-‬ידי‬
‫הממוצע של שתי התצפיות האמצעיות – התצפית במקום החמישי והתצפית במקום‬
‫השישי‪ ,‬שערכיהן ‪ 10‬ו‪ 10.4-‬בהתאמה‪ .‬קיבלנו שחציון רמת ההמוגלובין במדגם שווה ל‪-‬‬
‫‪.10.2‬‬
‫משמעות התוצאה‪ 10.2 :‬זו רמת ההמוגלובין האמצעית בסדרה – למחצית מהנשים‬
‫במדגם יש רמת המוגלובין נמוכה מ‪ 10.2-‬ולמחצית יש רמת המוגלובין גבוהה יותר‪.‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬כאשר נתונה לנו טבלת שכיחות עם‬ ‫ב‪.‬‬
‫ערכים בודדים ונדרש לחשב חציון‪ ,‬נוסיף תחילה עמודה חדשה הנקראת עמודת השכיחות‬
‫המצטברת‪ ,‬המסומנת ב‪ .𝐹(𝑥)-‬עמודה זו מתקבלת על‪-‬ידי סכימת השכיחויות הרגילות‪.‬‬
‫𝑛‬
‫בכדי לחשב את החציון נחשב תחילה את הערך ‪( 2‬הפעם אין צורך לעשות הבחנה בין‬
‫המקרה ש‪ 𝑛-‬זוגי למקרה ש‪ 𝑛-‬אי‪-‬זוגי)‪ ,‬ולאחר מכן נבדוק מתי לראשונה גודל זה מופיע‬
‫בעמודת השכיחות המצטברת )𝑥(𝐹‪ .‬הערך עבורו זה מתקבל הינו החציון‪.‬‬

‫דוגמא‪ :‬במשאל של ‪ 60‬חולים בבית חולים גדול‪ ,‬החולים נשאלו לגבי מספר ימי האשפוז‬
‫שלהם בחודש האחרון‪ .‬להלן התוצאות‪:‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫נחשב את חציון מספר ימי האשפוז‪ .‬לשם כך נוסיף לטבלה עמודה חדשה של השכיחות‬
‫המצטברת‪.𝐹(𝑥) :‬‬

‫)𝒙(𝑭‬ ‫)𝒙(𝒇‬ ‫𝒙‬


‫‪12‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪33‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪49‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪56‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪59‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪60‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬

‫𝑛‬
‫נחשב את הגודל ‪ = 30‬ונחפשו לראשונה בעמודת )𝑥(𝐹‪ .‬אם כך‪ ,‬החציון שווה ל‪ 2-‬ימי‬
‫‪2‬‬
‫אשפוז – ‪.𝑀𝑒(𝑋) = 2‬‬
‫דוגמא נוספת‪ :‬להלן נתונים אודות דירות חדשות לפי מספר חדרים בדירה‪ ,‬ישראל‬
‫‪.2003‬‬

‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬


‫‪173‬‬ ‫‪1‬‬
‫‪331‬‬ ‫‪2‬‬
‫‪4,338‬‬ ‫‪3‬‬
‫‪14,586‬‬ ‫‪4‬‬
‫‪8,447‬‬ ‫‪5‬‬
‫‪5,622‬‬ ‫‪6+‬‬

‫עלינו למצוא ערך 𝑥 שעד אליו מתפלגים מחצית מהמקרים‪ ,‬כלומר‪ ,‬את חציון מספר‬
‫החדרים בדירות חדשות בישראל‪.‬‬
‫נחשב את חציון מספר החדרים בדירה‪ .‬לשם כך נוסיף לטבלה עמודה נוספת של השכיחות‬
‫המצטברת‪.𝐹(𝑥) :‬‬

‫)𝒙(𝑭 – שכיחות מצטברת‬ ‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬


‫‪173‬‬ ‫‪173‬‬ ‫‪1‬‬
‫‪504‬‬ ‫‪331‬‬ ‫‪2‬‬
‫‪4,842‬‬ ‫‪4,338‬‬ ‫‪3‬‬
‫‪19,428‬‬ ‫‪14,586‬‬ ‫‪4‬‬
‫‪27,875‬‬ ‫‪8,447‬‬ ‫‪5‬‬
‫‪33,497‬‬ ‫‪5,622‬‬ ‫‪6+‬‬
‫𝟕𝟗𝟒 ‪𝟑𝟑,‬‬ ‫סה"כ‬

‫𝑛‬
‫נחשב את הגודל ‪ 2 = 16,748.5‬ונחפשו לראשונה בעמודת )𝑥(𝐹‪ .‬אם כך‪ ,‬החציון‬
‫בדוגמא הינו ‪.𝑀𝑒(𝑋) = 4 – 4‬‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬במקרה בו הנתונים מוצגים בטבלת שכיחות‬ ‫ג‪.‬‬
‫עם מחלקות חישוב החציון מורכב יותר‪ .‬בכדי לחשב את החציון‪ ,‬נמצא תחילה את‬
‫המחלקה בה נמצא החציון‪ ,‬ולאחר מכן נמצא את ערך החציון במחלקה זו‪ .‬חישוב החציון‬
‫יתבצע לפי שני השלבים הבאים‪:‬‬

‫בשלב הראשון‪ ,‬נמצא את המחלקה בה נמצא החציון‪ .‬בכדי למצוא את מחלקת החציון‬
‫𝑛‬
‫נחשב תחילה את הגודל ‪ . 2‬לאחר מכן נבדוק בעמודת השכיחות המצטברת – )𝑥(𝐹‪ ,‬מתי‬
‫לראשונה מתקבל ערך זה לפחות‪ .‬המחלקה עבורה התנאי מתקיים הינה מחלקת החציון‪.‬‬

‫בשלב השני נחשב את הערך המדויק של החציון במחלקה שמצאנו בשלב הראשון בעזרת‬
‫הנוסחא הבאה‪:‬‬

‫נוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות (משתנה רציף)‪:‬‬

‫𝑙‬ ‫𝑛‬
‫‪𝑀𝑒(𝑋) = 𝐿1 +‬‬ ‫) ‪⋅ ( − 𝐹1‬‬
‫‪𝑓(𝑥) 2‬‬
‫כאשר‪:‬‬
‫‪ 𝐿1‬הינו הגבול התחתון של מחלקת החציון (זו שמצאנו בשלב הראשון)‪.‬‬ ‫‪-‬‬
‫𝑙 הינו רוחב מחלקת החציון‪.‬‬ ‫‪-‬‬
‫‪ 𝐹1‬הינה השכיחות המצטברת של המחלקה הקודמת למחלקת החציון‪.‬‬ ‫‪-‬‬
‫)𝑥(𝑓 הינה השכיחות (הרגילה) של מחלקת החציון‪.‬‬ ‫‪-‬‬
‫דוגמא‪ :‬נשתמש בדוגמא שהצגנו מוקדם יותר עם הגילאים של ‪ 85‬עובדי קופת חולים‪.‬‬

‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖‬ ‫סה"כ‬

‫נחשב את חציון הגיל עבור ‪ 85‬העובדים‪ .‬לשם כך‪ ,‬נוסיף לטבלה את עמודת השכיחות‬
‫המצטברת – )𝑥(𝐹‪.‬‬

‫)𝒙(𝑭‬ ‫)𝒙(𝒇‬ ‫𝒙‬


‫‪8‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪28‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪50‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪68‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪78‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪85‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫סה"כ‬ ‫𝟓𝟖‬ ‫סה"כ‬

‫𝑛‬ ‫‪85‬‬
‫בשלב הראשון נחשב את הגודל ‪ 2 = 2 = 42.5‬ונחפש מתי לראשונה הוא מופיע בעמודת‬
‫השכיחות המצטברת‪ .‬זה קורה בשורה השלישית‪ ,‬ולכן מחלקת החציון הינה המחלקה‬
‫‪.30 − 35‬‬

‫‪8‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫בשלב השני נמצא את הערך המדויק של החציון בתוך המחלקה השלישית‪ ,‬אותה מצאנו‬
‫בשלב הראשון‪ .‬לשם כך נשתמש בנוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות‪:‬‬
‫𝑙‬ ‫𝑛‬ ‫‪35 − 30‬‬
‫‪𝑀𝑒(𝑋) = 𝐿1 +‬‬ ‫‪⋅ ( − 𝐹1 ) = 30 +‬‬ ‫‪⋅ (42.5 − 28) = 33.29‬‬
‫‪𝑓(𝑥) 2‬‬ ‫‪22‬‬
‫קיבלנו שחציון הגיל הינו ‪ ,33.29‬כלומר‪ ,‬זהו הגיל שמחצית מהעובדים מעליו ומחצית‬
‫מתחתיו‪.‬‬
‫דוגמא נוספת‪ :‬נשים נשואות בכוח העבודה האזרחי בישראל לפי גיל‪ ,‬בשנת ‪2003‬‬
‫(באלפים)‪.‬‬
‫)𝒙(𝒇 – מספר נשים‬ ‫𝒙 – גיל‬
‫‪33.8‬‬ ‫‪18 − 24‬‬
‫‪230.1‬‬ ‫‪25 − 34‬‬
‫‪437.9‬‬ ‫‪35 − 54‬‬
‫‪80.2‬‬ ‫‪55 − 64‬‬

‫נחשב מהו חציון גיל אישה נשואה עובדת עבור הנתונים בדוגמא‪ .‬נוסיף את עמודת‬
‫השכיחות המצטברת שתסייע לנו בחישוב החציון‪.‬‬
‫)𝒙(𝑭 – שכיחות מצטברת‬ ‫)𝒙(𝒇 – מספר נשים‬ ‫𝒙 – גיל‬
‫‪33.8‬‬ ‫‪33.8‬‬ ‫‪18 − 24‬‬
‫‪263.9‬‬ ‫‪230.1‬‬ ‫‪25 − 34‬‬
‫‪701.8‬‬ ‫‪437.9‬‬ ‫‪35 − 54‬‬
‫‪782‬‬ ‫‪80.2‬‬ ‫‪55 − 64‬‬
‫𝟐𝟖𝟕‬ ‫סה"כ‬

‫𝑛‬ ‫‪782‬‬
‫בשלב הראשון נחשב את הגודל ‪ 2 = 2 = 391‬ונחפש מתי לראשונה הוא מופיע‬
‫בעמודת השכיחות המצטברת‪ .‬זה קורה בשורה השלישית‪ ,‬ולכן מחלקת החציון הינה‬
‫המחלקה ‪.35 − 54‬‬
‫בשלב השני נמצא את הערך המדויק של החציון בתוך המחלקה השלישית‪ ,‬אותה מצאנו‬
‫בשלב הראשון‪ .‬לשם כך נשתמש בנוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות‪:‬‬
‫𝑙‬ ‫𝑛‬ ‫‪55 − 35‬‬
‫‪𝑀𝑒(𝑋) = 𝐿1 +‬‬ ‫‪⋅ ( − 𝐹1 ) = 35 +‬‬ ‫‪⋅ (391 − 263.9) = 40.805‬‬
‫‪𝑓(𝑥) 2‬‬ ‫‪437.9‬‬
‫קיבלנו שחציון הגיל של אישה נשואה עובדת הינו ‪ ,40.805‬כלומר‪ ,‬זהו הגיל שמחצית‬
‫מהנשים העובדות מעליו ומחצית מתחתיו‪.‬‬

‫שכיח )‪(Mode‬‬
‫השכיח הינו הערך השכיח‪/‬נפוץ ביותר מבין כל התצפיות‪.‬‬
‫סימון‪ :‬את השכיח של משתנה מקרי 𝑋 נסמן ב‪.𝑀𝑜(𝑋)-‬‬
‫הערה‪ :‬קיימות דוגמאות בהן ישנם מספר שכיחים‪ .‬כמו כן‪ ,‬אם כל התצפיות מופיעות מספר שווה‬
‫של פעמים‪ ,‬אזי נאמר שאין שכיח‪.‬‬
‫את השכיח (בניגוד לממוצע וחציון) ניתן לחשב (גם) למשתנה ברמת המדידה הנמוכה ביותר –‬
‫למשתנה נומינאלי‪ ,‬ולכן ניתן לחשבו גם לכל משתנה ברמת מדידה גבוהה יותר‪ .‬לכן‪ ,‬נציג בהמשך‬
‫דוגמאות לשכיח הן עבור משתנים כמותיים והן עבור משתנים איכותיים‪.‬‬

‫‪9‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫דוגמא – רשימת תצפיות‪ :‬להלן רשימה של ‪ 12‬גבהים של גברים אשר נדגמו באופן מקרי‪:‬‬
‫‪𝟏𝟕𝟖, 172, 186, 180, 171, 163, 𝟏𝟕𝟓, 179, 𝟏𝟕𝟓, 𝟏𝟕𝟖, 182, 173‬‬
‫בדוגמא זו ישנם שני שכיחים‪ 175 :‬ו‪ ,178-‬שכן שני ערכים אלו מופיעים פעמיים בסדרה‪ ,‬בעוד‬
‫יתר הערכים מופיעים רק פעם אחת‪ .‬נרשום זאת בצורה פורמלית‪.𝑀𝑜(𝑋) = 175, 178 :‬‬
‫דוגמא ‪ -‬טבלת שכיחות עם ערכים בודדים (משתנה בדיד)‪ :‬מספר ימי אשפוז בחודש האחרון‬
‫בקרב ‪ 60‬חולים בבית חולים כלשהו‪.‬‬

‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬

‫השכיח בדוגמא זו הינו ‪ 2‬ימי אשפוז‪ ,‬שכן ערך זה מופיע הכי הרבה פעמים במדגם‪ .‬רישום‬
‫פורמאלי‪.𝑀𝑜(𝑋) = 2 :‬‬
‫חישוב שכיח בטבלת שכיחות עם מחלקות‪ :‬כאשר המשתנה הנחקר מופיע בטבלת שכיחות עם‬
‫מחלקות‪ ,‬נהוג לקבוע שהשכיח הינו אמצע המחלקה בעלת הצפיפות הגבוהה ביותר‪.‬‬
‫בשלב הראשון נחשב את הצפיפות בכל מחלקה ומחלקה‪ .‬לאחר מכן נבדוק מי היא המחלקה‬
‫הצפופה ביותר‪ ,‬ונקבע שהשכיח הינו אמצע מחלקה זו‪.‬‬
‫תזכורת – הגדרה של צפיפות במחלקה‪ :‬שכיחות ליחידה אחת של המשתנה הנחקר‪ .‬אם כך‪,‬‬
‫הצפיפות במחלקה שווה לשכיחות של המחלקה חלקי רוחב המחלקה‪ .‬את הצפיפות סימנו ב‪,𝑑 -‬‬
‫והנוסחא הינה‪:‬‬
‫)𝑥(𝑓‬
‫=𝑑‬
‫𝑙‬
‫דוגמא – טבלת שכיחות עם מחלקות‪ :‬גילאים בקופת חולים עבור מדגם של ‪ 85‬עובדים‪.‬‬

‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬

‫נחשב את השכיח‪ .‬בכדי לחשב את השכיח‪ ,‬נוסיף עמודה נוספת – צפיפות במחלקה 𝑑‪ ,‬המחושבת‬
‫על‪-‬פי הנוסחא‪:‬‬
‫)𝑥(𝑓‬
‫=𝑑‬
‫𝑙‬

‫‪10‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫𝒅‬ ‫)𝒙(𝒇‬ ‫𝒙‬


‫‪8‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫𝟔 ‪= 𝟏.‬‬
‫‪5‬‬
‫‪20‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫𝟒=‬
‫‪5‬‬
‫‪22‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫𝟒 ‪= 𝟒.‬‬
‫‪5‬‬
‫‪18‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫𝟖 ‪= 𝟏.‬‬
‫‪10‬‬
‫‪10‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫𝟏=‬
‫‪10‬‬
‫‪7‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟕𝟒 ‪= 𝟎.‬‬
‫‪15‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬

‫המחלקה הצפופה ביותר הינה המחלקה השלישית ‪ ,30 − 35‬ולכן השכיח מוגדר להיות אמצע‬
‫מחלקה זו‪ ,‬כלומר‪.𝑀𝑜(𝑋) = 32.5 – 32.5 ,‬‬
‫טבלת סיכום – באילו ערכים מרכזיים ניתן להשתמש לכל סוג משתנה‬
‫יחס‬ ‫אינטרוואלי‬ ‫אורדינאלי‬ ‫נומינאלי‬
‫שכיח‬ ‫שכיח‬ ‫שכיח‬ ‫שכיח‬
‫חציון‬ ‫חציון‬ ‫חציון‬
‫ממוצע‬ ‫ממוצע‬

‫הבדלים עיקריים בין שלושת מדדי המיקום‬


‫כל אחד מבין שלושת מדדי המיקום בודק בצורה מעט שונה היכן המרכז של סדרת הנתונים‪.‬‬
‫הממוצע והחציון נחשבים למדדי מיקום פופולאריים ושימושיים יותר‪ ,‬מכיוון שהשכיח מתייחס‬
‫רק לערך שמופיע הכי הרבה פעמים ומתעלם מיתר הערכים‪.‬‬
‫הממוצע והחציון מושפעים באופן שונה מקיומם של ערכים קיצוניים בסדרה‪/‬במדגם‪ .‬הממוצע‬
‫מושפע מערכיהם של כל התצפיות‪ ,‬ולכן קיום ערך קיצוני ישפיע על הממוצע‪ .‬לעומת זאת‪ ,‬החציון‬
‫מתייחס רק לסדר הערכים אך לא לערכם‪ ,‬לכן לא יושפע מערך קיצוני‪.‬‬
‫דוגמא‪ :‬נמחיש זאת בדוגמא הבאה‪:‬‬
‫עבור סדרה הכוללת את חמש התצפיות הבאות‪:‬‬
‫‪1, 2, 3, 4, 5‬‬
‫אנו מקבלים שהממוצע והחציון שווים ל‪.3-‬‬
‫כעת‪ ,‬נגדיל את התצפית החמישית מ‪ 5-‬ל‪500-‬‬
‫ובכך יתקבל ערך קיצוני בסדרה‪ .‬הסדרה החדשה הינה‪:‬‬
‫‪1, 2, 3, 4, 500‬‬
‫בעקבות שינוי זה הממוצע גדל בצורה משמעותית וערכו החדש הינו ‪ .102‬לעומת זאת‪ ,‬החציון‬
‫נשאר ‪ 3‬שכן התצפית השלישית שערכה ‪ 3‬היא עדיין התצפית האמצעית ברשימה‪ .‬כפי שראינו‬
‫מהדוגמא‪ ,‬הערך הקיצוני ‪ 500‬השפיע רק על הממוצע (הגדיל אותו בצורה ניכרת) אך לא השפיע‬
‫כלל על החציון‪.‬‬

‫‪11‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫תרגיל‪:‬‬
‫שאלה‪ :‬לפניכם נתונים על שנות ותק בעבודה של ‪ 11‬עובדים‪:‬‬
‫‪4, 6, 8, 9, 11, 13, 14, 16, 16, 16, 19‬‬
‫מהו הוותק השכיח‪ ,‬החציוני והממוצע עבור המדגם?‬
‫תשובה‪ :‬שכיח = ‪ ,16‬חציון = ‪ ,13‬ממוצע = ‪.12‬‬
‫שאלה‪ :‬התברר כי חלה טעות ברישום‪ ,‬והוותק של העובד בעל ‪ 4‬שנות ותק הוא למעשה ‪ 7‬שנות‬
‫ותק‪ .‬ללא חישובים‪ ,‬כיצד ישפיע תיקון הטעות על כל אחד מהערכים המרכזיים (יקטן‪/‬יגדל‪/‬לא‬
‫ישתנה)?‬
‫תשובה‪ :‬השכיח והחציון לא ישתנו‪ ,‬והממוצע יגדל‪.‬‬
‫שאלה למחשבה‪ :‬נתונה הסדרה הבאה‪:‬‬
‫‪5, 5, 7, 10, 12, 15, 17‬‬
‫באילו מהמקרים הבאים הוספת שני המספרים תשנה את חציון הסדרה?‬
‫‪ – 2, 3‬תשפיע‪.‬‬ ‫א‪.‬‬
‫‪ – 11, 9‬לא תשפיע‪.‬‬ ‫ב‪.‬‬
‫‪ – 16, 4‬לא תשפיע‪.‬‬ ‫ג‪.‬‬
‫‪ – 21, 11‬תשפיע‪.‬‬ ‫ד‪.‬‬
‫מדדי המרכז עבור מספר עקומות פופולאריות‬
‫בהרצאה ‪ 2‬הצגנו מספר התפלגויות פופולאריות המתקבלות מדיאגרמת המקלות או‬
‫מהיסטוגרמה עבור דוגמא כלשהי‪.‬‬
‫מצורת העקומה של ההתפלגות קל לראות האם מדובר בעקומה סימטרית או בעקומה שאינה‬
‫סימטרית‪ ,‬האם עיקר התצפיות מרוכזות במרכז או בקצוות ועוד‪.‬‬
‫נציג שוב את העקומות‪/‬ההתפלגויות הפופולאריות שהוצגו בהרצאה ‪ ,2‬ועבור כל אחת נקבע היכן‬
‫מתקבלים שלושת מדדי המיקום‪:‬‬
‫התפלגות פעמונית סימטרית (נורמאלית)‪ :‬התפלגות פעמונית סימטרית (הנקראת גם התפלגות‬
‫נורמאלית) הינה עקומה סימטרית בה רוב התצפיות נמצאות במרכז העקומה ומעט בקצוות‪.‬‬
‫בעקומה זו מתקיים ששלושת מדדי המיקום שווים ומתקבלים בנקודת הסימטריה של העקומה‪.‬‬
‫כלומר‪ ,‬ממוצע = חציון = שכיח‪.‬‬

‫‪12‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫דוגמא למשתנה שמפולג בקירוב נורמאלית‪:‬‬


‫ציון משוקלל של סטודנט בסוף שנה א'‬

‫התפלגות ‪ U‬סימטרית‪ :‬התפלגות ‪ U‬הינה סימטרית‪ ,‬בה רוב התצפיות נמצאות בקצוות העקומה‬
‫ומעט במרכז‪.‬‬
‫התפלגות זו הפוכה להתפלגות הפעמונית הסימטרית שכן בהתפלגות זו מעט תצפיות במרכז‬
‫ההתפלגות ועיקר המסה נמצאת בקצוות‪.‬‬
‫בעקומה זו מתקיים שהממוצע שווה לחציון‪ ,‬והם מתקבלים בנק' הסימטריה‪ .‬כמו‪-‬כן‪ ,‬ישנם שני‬
‫שכיחים הנמצאים בקצוות ההתפלגות‪.‬‬

‫התפלגות אחידה‪ :‬בהתפלגות זו יש פיזור אחיד לאורך כל העקומה‪ .‬התפלגות זו מתקבלת כאשר‬
‫השכיחויות של כל ערכי המשתנה שוות (או כמעט שוות)‪ .‬צורתה של העקומה האחידה הינה קו‬
‫ישר המקביל לציר האופקי‪.‬‬
‫למעשה גם זו עקומה סימטרית‪ ,‬בה הממוצע שווה לחציון‪ ,‬והם מתקבלים בנקודת הסימטריה של‬
‫העקומה‪ .‬לגבי השכיח – בעקומה זו אין שכיח‪ ,‬שכן אין נקודה בה ההתפלגות הכי גבוהה‪.‬‬

‫‪13‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪21/03/2021‬‬

‫התפלגות א‪-‬סימטרית חיובית (ימנית)‪ :‬התפלגות זו אינה סימטרית‪ ,‬בה רוב התצפיות מרוכזות‬
‫בערכים נמוכים של המשתנה וישנן מעט תצפיות חריגות בערכים גבוהים של המשתנה‪ .‬בגלל‬
‫עובדה זו להתפלגות יש "זנב" בצד ימין‪.‬‬
‫עבור התפלגות זו הממוצע גבוה ביחס ליתר מדדי המיקום שכן תצפיות חריגות בערכים גבוהים‬
‫של המשתנה מגדילות את הממוצע‪ .‬כמו כן‪ ,‬השכיח נמוך ביחס ליתר מדדי המיקום‪ ,‬שכן עיקר‬
‫התצפיות מרוכזות בערכים נמוכים של המשתנה‪ .‬לכן‪ ,‬עבור התפלגות א‪-‬סימטרית חיובית‬
‫מתקיים‪ :‬ממוצע < חציון < שכיח‪.‬‬

‫התפלגות א‪-‬סימטרית שלילית (שמאלית)‪ :‬התפלגות זו אינה סימטרית‪ ,‬עבורה רוב התצפיות‬
‫מרוכזות בערכים גבוהים של המשתנה וישנן מעט תצפיות חריגות בערכים נמוכים של המשתנה‪.‬‬
‫בגלל עובדה זו להתפלגות יש "זנב" בצד שמאל‪.‬‬
‫עבור התפלגות זו הממוצע נמוך ביחס ליתר מדדי המיקום שכן תצפיות חריגות בערכים נמוכים‬
‫של המשתנה מקטינות את הממוצע‪ .‬כמו כן‪ ,‬בהתפלגות זו השכיח גבוה ביחס ליתר מדדי המיקום‪,‬‬
‫שכן עיקר התצפיות מרוכזות בערכים גבוהים של המשתנה‪ .‬לכן‪ ,‬עבור בהתפלגות א‪-‬סימטרית‬
‫שלילית‪ :‬שכיח < חציון < ממוצע‪.‬‬

‫‪14‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪11/04/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪4‬‬
‫נושא ההרצאה‪ :‬מדדי פיזור‪ :‬שונות וסטיית תקן‬
‫מדדי פיזור – הקדמה‬
‫תפקידם של מדדי הפיזור הוא לאפיין את מידת הפיזור של הנתונים‪/‬תצפיות‪.‬‬
‫מדדי המיקום אשר למדנו (ממוצע‪ ,‬חציון ושכיח) אינם מספיקים כדי לתאר ולאפיין את המשתנה‬
‫הנחקר‪ ,‬שכן הם מתייחסים רק למיקומן של התצפיות אך לא לפיזור שבין התצפיות‪ .‬אנו נרצה‬
‫לאפיין את המשתנה לא רק בעזרת מדדים אשר תפקידם לבדוק את מיקומו אלא גם בעזרת‬
‫מדדים אשר מטרתם לבחון את פיזורו‪.‬‬
‫נמחיש זאת בדוגמא הבאה – נתונות שתי סדרות בעלות חמישה מספרים‪:‬‬
‫‪0, 2, 3, 5, 10‬‬ ‫א‪.‬‬
‫‪−2, 0, 3, 7, 12‬‬ ‫ב‪.‬‬
‫קל להיווכח שבשתי הסדרות הללו הממוצע שווה ל‪ ,4-‬החציון שווה ל‪ 3-‬ואין שכיח‪ .‬כלומר‪,‬‬
‫שלושת מדדי המיקום מקבלים ערך זהה בשתי הסדרות‪ .‬לעומת זאת‪ ,‬שתי הסדרות אינן זהות –‬
‫ניתן לראות שהסדרה השנייה מפוזרת יותר מהראשונה‪ .‬נהיה מעוניינים במדדים נוספים שיבדקו‬
‫את רמת הפיזור של הנתונים‪.‬‬
‫לכן‪ ,‬מדדים סטטיסטיים המתארים את מידת הפיזור או ההטרוגניות של הנתונים הם חשובים‪.‬‬
‫כמו כן‪ ,‬בעזרת מדדי הפיזור נוכל להשוות בין הפיזור של מספר סדרות שונות של נתונים‪.‬‬
‫קיימים ‪ 4‬מדדי פיזור עיקריים‪ :‬תחום (טווח)‪ ,‬תחום בין רבעוני‪ ,‬שונות וסטיית תקן‪ .‬נציג את שני‬
‫המדדים האחרונים שהם החשובים ביותר‪.‬‬
‫דרישות ממדדי הפיזור‪:‬‬
‫‪ .1‬המדד יקבל ערך אי‪-‬שלישי בלבד (שכן אין משמעות לפיזור שלילי)‪.‬‬
‫‪ .2‬המדד יתאפס כאשר אין פיזור כלל בין התצפיות (כאשר כל התצפיות שוות זו לזו)‪.‬‬
‫‪ .3‬ככל שהפיזור גדול יותר המדד יקבל ערך גבוה יותר וההפך‪.‬‬
‫באופן כללי‪ ,‬ראינו שהנתונים אודות המשתנה יכולים להופיע בשלוש צורות עיקריות‪:‬‬
‫רשימת תצפיות‪ :‬הצורה הבסיסית ביותר‪ ,‬בה הנתונים יופיעו כרשימה של מספרים‬ ‫א‪.‬‬
‫שאינם מסודרים בטבלה‪.‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬במקרה זה התצפיות ירוכזו בטבלת‬ ‫ב‪.‬‬
‫שכיחות כאשר ערכי המשתנה בטבלה הינם ערכים בודדים‪.‬‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬התצפיות ירוכזו בטבלת שכיחות כאשר‬ ‫ג‪.‬‬
‫המשתנה מצוי בתחום של ערכים‪.‬‬

‫שונות )‪(Variance‬‬
‫השונות של סדרת תצפיות שווה לממוצע ריבועי הסטיות של התצפיות מהממוצע‪.‬‬
‫בחישוב מדד פיזור זה אנו מעלים בריבוע את הסטייה של כל תצפית מהממוצע ולאחר מכן אנו‬
‫מחשבים ממוצע לריבועי הסטיות הללו‪.‬‬
‫נפרט‪ :‬הסטייה של כל תצפית מהממוצע מוגדרת כהפרש בין ערך התצפית לבין ממוצע הסדרה‪.‬‬
‫הסטייה של תצפית 𝑖 מהממוצע הינה ̅𝑋 ‪ .𝑥𝑖 −‬גודל זה יכול להיות חיובי‪/‬שלילי‪/‬אפס‪ .‬בכדי‬
‫שסטיות חיוביות לא יתקזזו עם סטיות שליליות הוחלט להעלות בריבוע כל סטייה‪ .‬לבסוף יש‬
‫לסכום את כל הסטיות הריבועיות הללו ולחלק את התוצאה בגודל המדגם‪ .‬המספר שמתקבל הינו‬
‫השונות של הסדרה‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪11/04/2021‬‬

‫לפי הגדרת השונות‪ ,‬הפיזור נמדד על סמך ריבוע הסטייה של כל תצפית מהממוצע‪ .‬כאשר‬
‫המרחקים בין התצפיות לממוצע גדולים במיוחד השונות תקבל ערך גבוה‪ ,‬וההפך‪ .‬במילים‬
‫אחרות‪ ,‬השונות תגדל ככל שהפיזור בין התצפיות גדול יותר‪.‬‬
‫אם כל התצפיות שוות זו לזו‪ ,‬השונות בהכרח תהיה שווה לאפס‪.‬‬
‫סימון‪ :‬את השונות נסמן ב‪.𝑆2 -‬‬
‫אופן החישוב‪ :‬נציג את הנוסחא ואופן החישוב של השונות בכל אחת מבין שלוש צורות ההצגה‬
‫הבאות‪ :‬רשימת תצפיות‪ ,‬טבלת שכיחות בעלת ערבים בודדים וטבלת שכיחות עם מחלקות‪:‬‬
‫רשימת תצפיות‪ :‬כאמור‪ ,‬השונות הינה ממוצע ריבועי הסטיות מהממוצע‪ ,‬ולכן‪:‬‬ ‫א‪.‬‬
‫‪2‬‬
‫‪∑(𝑥𝑖 − 𝑋̅)2‬‬
‫= 𝑆‬
‫𝑛‬
‫אופן השימוש בנוסחא‪ :‬תחילה נחשב את הממוצע‪ .‬לאחר מכן נחשב את הסטייה של כל‬
‫תצפית מהממוצע‪ .‬סטייה זו נעלה בריבוע‪ ,‬ונחבר את סכום כל ריבועי הסטיות מהממוצע‪.‬‬
‫לבסוף את התוצאה נחלק בגודל המדגם‪.‬‬
‫דוגמא‪ :‬דגמנו ‪ 12‬גברים ומדדנו את גובהם‪ .‬להלן הגבהים (בס"מ) של ‪ 12‬הגברים‪:‬‬
‫‪178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173‬‬
‫נחשב את שונות הגובה במדגם‪ .‬תחילה נחשב את ממוצע המדגם‪:‬‬
‫‪∑ 𝑥𝑖 178 + 172 + ⋯ + 173‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 176‬‬
‫𝑛‬ ‫‪12‬‬
‫נחשב את השונות‪:‬‬
‫‪∑(𝑥𝑖 − 𝑋̅)2 (178 − 176)2 + (172 − 176)2 + ⋯ + (173 − 176)2‬‬
‫= ‪𝑆2‬‬ ‫=‬ ‫=‬
‫𝑛‬ ‫‪12‬‬
‫‪4 + 16 + ⋯ + 9 390‬‬
‫=‬ ‫=‬ ‫‪= 32.5‬‬
‫‪12‬‬ ‫‪12‬‬
‫נוסחת עבודה לחישוב שונות‪ :‬ישנה נוסחא נוספת לחישוב שונות עבורה כמות העבודה‬
‫הנדרשת לחישוב השונות קטנה יותר‪ .‬נוסחא זאת נקראת "נוסחת עבודה" ויהיה מהיר‬
‫יותר להשתמש בה‪ .‬כמובן שנקבל תוצאה זהה בין אם משתמש בנוסחה המקורית‬
‫שהוצגה בשקפים הקודמים או בנוסחת העבודה‪ .‬להלן נוסחת העבודה לחישוב השונות‬
‫עבור סדרת תצפיות‪:‬‬
‫‪∑ 𝑥𝑖2‬‬
‫‪2‬‬
‫= 𝑆‬ ‫‪− 𝑋̅ 2‬‬
‫𝑛‬
‫דוגמא‪ :‬נשתמש באותם הנתונים של הדוגמא הקודמת – גבהים של ‪ 12‬הגברים‪:‬‬
‫‪178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173‬‬
‫נחשב את שונות הגובה במדגם תוך שימוש בנוסחת העבודה‪.‬‬
‫תחילה נחשב את ממוצע המדגם‪:‬‬
‫‪∑ 𝑥𝑖 178 + 172 + ⋯ + 173‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 176‬‬
‫𝑛‬ ‫‪12‬‬
‫נחשב את השונות‪:‬‬
‫‪∑ 𝑥𝑖2‬‬ ‫‪1782 + 1722 + ⋯ + 1732‬‬ ‫‪372102‬‬
‫‪2‬‬
‫= 𝑆‬ ‫= ‪− 𝑋̅ 2‬‬ ‫= ‪− 1762‬‬ ‫‪− 30976 = 32.5‬‬
‫𝑛‬ ‫‪12‬‬ ‫‪12‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪11/04/2021‬‬

‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬כאשר נתונה לנו טבלת שכיחות‬ ‫ב‪.‬‬
‫הכוללת מספר ערכים של המשתנה‪ ,‬נחשב את השונות על‪-‬סמך הנוסחא הבאה‪:‬‬
‫)𝑥(𝑓 ⋅ )̅𝑋 ‪∑(𝑥 −‬‬
‫= ‪𝑆2‬‬
‫𝑛‬
‫נוסחא זו דומה מאוד לנוסחא הקודמת (חישוב שונות עבור רשימת תצפיות)‪ ,‬אלא‬
‫שהפעם אנו מכפילים את ריבוע הסטייה של כל ערך בשכיחותו‪.‬‬
‫דוגמא‪ :‬נשתמש בדוגמא הבאה בכדי לחשב את השונות עבור משתנה המוצג בטבלת‬
‫שכיחות עם ערכים בודדים‪ .‬בדוגמא זו‪ ,‬המשתנה 𝑋 מייצג את מס' ימי האשפוז בבית‬
‫חולים עבור מדגם של ‪ 60‬חולים‪.‬‬

‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬

‫נוסיף לטבלה מספר עמודות נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬
‫)𝒙(𝒇 ⋅ 𝟐) ̅‬
‫𝑿 ‪(𝒙 −‬‬ ‫𝑿 ‪(𝒙 −‬‬‫𝟐) ̅‬ ‫𝑿‪𝒙−‬‬ ‫̅‬ ‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪28.2‬‬ ‫‪2.35‬‬ ‫‪−1.533‬‬ ‫‪12‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪5.964‬‬ ‫‪0.284‬‬ ‫‪−0.533‬‬ ‫‪42‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪3.488‬‬ ‫‪0.218‬‬ ‫‪0.467‬‬ ‫‪48‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪15.064‬‬ ‫‪2.152‬‬ ‫‪1.467‬‬ ‫‪28‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪18.258‬‬ ‫‪6.086‬‬ ‫‪2.467‬‬ ‫‪15‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪19.954‬‬ ‫‪19.954‬‬ ‫‪4.467‬‬ ‫‪7‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟖𝟐𝟗 ‪𝟗𝟎.‬‬ ‫𝟐𝟓𝟏‬ ‫𝟎𝟔‬ ‫סה"כ‬
‫𝟏𝟓 ‪𝟏.‬‬ ‫שונות‪:‬‬ ‫𝟑𝟑𝟓 ‪𝟐.‬‬ ‫ממוצע‪:‬‬

‫בכדי לחשב את שונות מס' ימי האשפוז‪ ,‬עלינו לחשב תחילה את הממוצע‪:‬‬
‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 152‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 2.533‬‬
‫𝑛‬ ‫‪60‬‬
‫כעת נחשב את השונות של המשתנה בעזרת הנוסחא וטבלת העזר שבנינו‪:‬‬
‫‪∑(𝑥 − 𝑋̅)2 ⋅ 𝑓(𝑥) 90.928‬‬
‫= ‪𝑆2‬‬ ‫=‬ ‫‪= 1.51‬‬
‫𝑛‬ ‫‪60‬‬
‫קיבלנו ששונות מספר ימי האשפוז הינה ‪.1.51‬‬
‫נוסחת עבודה לחישוב שונות‪ :‬גם במקרה זה ישנה נוסחת עבודה לחישוב השונות בה‬
‫המאמץ החישובי קטן יותר ולכן היא מומלצת יותר לשימוש‪ .‬להלן נוסחת העבודה‬
‫לחישוב שונות בטבלת שכיחות עם ערכים בודדים‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥 2‬‬
‫= ‪𝑆2‬‬ ‫‪− 𝑋̅ 2‬‬
‫𝑛‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪11/04/2021‬‬

‫דוגמא‪ :‬נשתמש באותם הנתונים של הדוגמא הקודמת‪ .‬נוסיף לטבלה מספר עמודות‬
‫נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬
‫𝟐) ̅‬
‫𝑿 ‪(𝒙 −‬‬ ‫𝟐𝒙‬ ‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬ ‫‪12‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪84‬‬ ‫‪4‬‬ ‫‪42‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪144‬‬ ‫‪9‬‬ ‫‪48‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪112‬‬ ‫‪16‬‬ ‫‪28‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪75‬‬ ‫‪25‬‬ ‫‪15‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪49‬‬ ‫‪49‬‬ ‫‪7‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟔𝟕𝟒‬ ‫𝟐𝟓𝟏‬ ‫𝟎𝟔‬ ‫סה"כ‬
‫𝟑𝟑𝟓 ‪𝟐.‬‬ ‫ממוצע‪:‬‬

‫בכדי לחשב את שונות מס' ימי האשפוז‪ ,‬עלינו לחשב תחילה את הממוצע‪:‬‬
‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 152‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 2.533‬‬
‫𝑛‬ ‫‪60‬‬
‫כעת נחשב את השונות של המשתנה בעזרת נוסחת העבודה וטבלת העזר שבנינו‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥 2‬‬ ‫‪476‬‬
‫‪2‬‬
‫= 𝑆‬ ‫= ‪− 𝑋̅ 2‬‬ ‫‪− 2.5332 = 1.51‬‬
‫𝑛‬ ‫‪60‬‬
‫קיבלנו ששונות מספר ימי האשפוז הינה ‪.1.51‬‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬במקרה זה‪ ,‬בבואנו לחשב את השונות לא‬ ‫ג‪.‬‬
‫נוכל לחשב את ההפרש בין המחלקה (המייצגת תחום ערכים) לבין הממוצע כנדרש‬
‫בנוסחא של השונות‪ ,‬שכן לא ניתן לבצע הפרש בין תחום מספרים לבין מספר‪ .‬לכן ההפרש‬
‫יתבצע בין אמצע המחלקה ̂𝑥 (המייצג מספר בודד)‪ ,‬לבין הממוצע‪ .‬אם כן‪ ,‬בטבלת שכיחות‬
‫עם מחלקות השונות תחושב על סמך הנוסחא הבאה‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑(𝑥̂ − 𝑋̅)2‬‬
‫‪2‬‬
‫= 𝑆‬
‫𝑛‬
‫דוגמא‪ :‬נשתמש בדוגמא הבאה בכדי לחשב את השונות עבור משתנה המוצג בטבלת‬
‫שכיחות עם מחלקות‪ .‬בדוגמא זו‪ ,‬המשתנה 𝑋 מייצג את גיל העובד עבור מדגם של ‪85‬‬
‫עובדים בקופת חולים‪.‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪11/04/2021‬‬

‫נוסיף לטבלה מספר עמודות עזר נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬
‫𝒙(‬
‫𝑿‪̂−‬‬‫)𝒙(𝒇 ⋅ 𝟐) ̅‬ ‫𝒙(‬
‫𝑿‪̂−‬‬ ‫𝒙 𝟐) ̅‬
‫𝑿‪̂−‬‬ ‫𝒙 ̅‬
‫)𝒙(𝒇 ⋅ ̂‬ ‫𝒙‬‫̂‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪1568‬‬ ‫‪196‬‬ ‫‪−14‬‬ ‫‪180‬‬ ‫‪22.5‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪1620‬‬ ‫‪81‬‬ ‫‪−9‬‬ ‫‪550‬‬ ‫‪27.5‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪352‬‬ ‫‪16‬‬ ‫‪−4‬‬ ‫‪715‬‬ ‫‪32.5‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪220.5‬‬ ‫‪12.25‬‬ ‫‪3.5‬‬ ‫‪720‬‬ ‫‪40‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪1822.5‬‬ ‫‪182.25 13.5‬‬ ‫‪500‬‬ ‫‪50‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪4732‬‬ ‫‪676‬‬ ‫‪26‬‬ ‫‪437.5‬‬ ‫‪62.5‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓 ‪𝟏𝟎𝟑𝟏𝟓.‬‬ ‫𝟓 ‪𝟑𝟏𝟎𝟐.‬‬ ‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫𝟓𝟑 ‪𝟏𝟐𝟏.‬‬ ‫שונות‪:‬‬ ‫ממוצע‪𝟑𝟔. 𝟓 :‬‬

‫תחילה יש לחשב את ממוצע הגיל‪:‬‬


‫‪∑ 𝑥̂ ⋅ 𝑓(𝑥) 3102.5‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 36.5‬‬
‫𝑛‬ ‫‪85‬‬
‫לאחר מכן ניתן לחשב את השונות תוך שימוש בנוסחא ובטבלת העזר שבנינו‪:‬‬

‫‪2‬‬
‫)𝑥(𝑓 ⋅ ‪∑(𝑥̂ − 𝑋̅)2‬‬ ‫‪10315‬‬
‫= 𝑆‬ ‫=‬ ‫‪= 121.35‬‬
‫𝑛‬ ‫‪85‬‬
‫קיבלנו ששונות הגיל הינה ‪.121.35‬‬
‫נוסחת עבודה לחישוב שונות‪ :‬גם במקרה זה ישנה נוסחת עבודה לחישוב השונות בה‬
‫המאמץ החישובי קטן יותר ולכן היא מומלצת יותר לשימוש‪ .‬להלן נוסחת העבודה‬
‫לחישוב שונות בטבלת שכיחות עם מחלקות‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥̂ 2‬‬
‫= 𝑆‬ ‫‪2‬‬
‫‪− 𝑋̅ 2‬‬
‫𝑛‬
‫דוגמא‪ :‬נשתמש באותם הנתונים של הדוגמא הקודמת‪ .‬נוסיף לטבלה מספר עמודות‬
‫נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬

‫)𝒙(𝒇 ⋅ 𝟐̂‬
‫𝒙‬ ‫𝟐̂‬
‫𝒙‬ ‫𝑿‪̂−‬‬
‫𝒙‬ ‫̅‬ ‫)𝒙(𝒇 ⋅ ̂‬
‫𝒙‬ ‫𝒙‬‫̂‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪4050‬‬ ‫‪506.25‬‬ ‫‪−14‬‬ ‫‪180‬‬ ‫‪22.5‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪15125‬‬ ‫‪756.25‬‬ ‫‪−9‬‬ ‫‪550‬‬ ‫‪27.5‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪23237.5‬‬ ‫‪1056.25‬‬ ‫‪−4‬‬ ‫‪715‬‬ ‫‪32.5‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪28800‬‬ ‫‪1600‬‬ ‫‪3.5‬‬ ‫‪720‬‬ ‫‪40‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪25000‬‬ ‫‪2500‬‬ ‫‪13.5‬‬ ‫‪500‬‬ ‫‪50‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪27343.75‬‬ ‫‪3096.25‬‬ ‫‪26‬‬ ‫‪437.5‬‬ ‫‪62.5‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟐 ‪𝟏𝟐𝟑𝟓𝟓𝟔.‬‬ ‫𝟓 ‪𝟑𝟏𝟎𝟐.‬‬ ‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫𝟓 ‪𝟑𝟔.‬‬ ‫ממוצע‪:‬‬

‫תחילה יש לחשב את ממוצע הגיל‪:‬‬


‫‪∑ 𝑥̂ ⋅ 𝑓(𝑥) 3102.5‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 36.5‬‬
‫𝑛‬ ‫‪85‬‬
‫לאחר מכן ניתן לחשב את השונות תוך שימוש בנוסחת העבודה ובטבלת העזר שבנינו‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥̂ 2‬‬ ‫‪123556.25‬‬
‫= ‪𝑆2‬‬ ‫= ‪− 𝑋̅ 2‬‬ ‫‪− 36.52 = 121.35‬‬
‫𝑛‬ ‫‪85‬‬
‫קיבלנו ששונות הגיל הינה ‪.121.35‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪11/04/2021‬‬

‫סטיית תקן )‪(Standard Deviation‬‬


‫הגדרה‪ :‬סטיית תקן הינה השורש (החיובי) של השונות‪.‬‬
‫סימון‪ :‬את סטיית התקן נסמן ב‪.𝑆 -‬‬
‫אופן החישוב‪ :‬בכדי לחשב את סטיית התקן של משתנה כלשהו‪ ,‬נחשב תחילה את השונות של‬
‫המשתנה ולאחר מכן נוציא שורש‪ ,‬ובכך נקבל את סטיית התקן‪.‬‬
‫דוגמא‪ :‬בדוגמא הראשונה שהצגנו עבור השונות (כאשר הנתונים מופיעים כרשימת תצפיות)‬
‫קיבלנו ששונות הגובה של ‪ 12‬החיילים הינה ‪ ,32.5‬ולכן סטיית התקן של גובה החיילים הינה‬
‫‪:5.7‬‬

‫‪𝑆 = √𝑆 2 = √32.5 = 5.7‬‬


‫דוגמא‪ :‬בדוגמא השנייה שהצגנו עבור השונות (כאשר הנתונים מופיעים בטבלת שכיחות בעלת‬
‫ערכים בודדים) קיבלנו ששונות מספר ימי האשפוז הינה ‪ ,1.515‬ולכן סטיית התקן של מספר ימי‬
‫האשפוז הינה ‪:1.23‬‬

‫‪𝑆 = √𝑆 2 = √1.51 = 1.23‬‬


‫דוגמא‪ :‬בדוגמא השלישית שהצגנו עבור השונות (כאשר הנתונים בטבלת שכיחות עם מחלקות)‬
‫קיבלנו ששונות הגיל הינה ‪ ,121.35‬ולכן סטיית התקן של הגיל הינה ‪:11.02‬‬

‫‪𝑆 = √𝑆 2 = √121.35 = 11.02‬‬


‫משמעות סטיית התקן‬
‫עבור שני מדדי הפיזור האחרונים שלמדנו – שונות וסטיית תקן‪ ,‬נוכחנו לדעת שמדד אחד מתקבל‬
‫באופן ישיר על‪-‬ידי המדד האחר‪ .‬סטיית התקן הינה השורש של השונות‪ .‬נשאלת השאלה מדוע יש‬
‫צורך בסטיית התקן‪ .‬התשובה לשאלה זו נעוצה בעובדה שלסטיית התקן יש משמעות מסוימת‬
‫בעוד שלשונות אין‪ .‬בעזרת סטיית התקן נוכל לדעת עד כמה נחשב תצפית מסוימת לקיצונית ביחס‬
‫לסדרה‪ .‬במרבית ההתפלגויות רוב התצפיות או אפילו כולן נמצאות בתחום שבין שתי סטיות תקן‬
‫משמאל לממוצע לבין שתי סטיות תקן מימין לממוצע‪ .‬תצפית אשר רחוקה מהממוצע שתי‬
‫סטיות תקן (או יותר) נחשבת לקיצונית‪ .‬סטייה של ‪ 3‬סטיות תקן ומעלה מהממוצע נחשבת‬
‫לסטייה קיצונית מאוד‪.‬‬
‫החיסרון העיקרי של השונות הינו העובדה שאין משמעות לתוצאה שמתקבלת בחישוב השונות‪.‬‬
‫השונות הינה ממוצע ריבועי הסטיות מהממוצע ותו לא‪ .‬אנו מחפשים מדד בעל פירוש יותר‬
‫אינטואיטיבי או בעל תכונה ייחודית כמו זה שיש לסטיית התקן‪.‬‬
‫בעזרת השונות לא ניתן לקבוע האם תצפית מסוימת נחשבת לחריגה‪/‬קיצונית ביחס ליתר‬
‫התצפיות‪ .‬לצורך קביעה שכזאת עלינו להשתמש בערכה של סטיית התקן‪ ,‬ולבדוק כמה סטיות‬
‫תקן רחוקה התצפית מהממוצע‪.‬‬
‫דוגמא‪ :‬נשתמש בדוגמא שהצגנו עם גובה החיילים‪ :‬דגמנו ‪ 12‬חיילים ומדדנו את גובהם‪ .‬להלן‬
‫הגבהים (בס"מ) של ‪ 12‬החיילים‪:‬‬
‫‪178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173‬‬
‫עבור דוגמא זו כבר חישבנו את הממוצע‪ ,‬השונות וסטיית התקן‪ .‬להלן התוצאות‪ :‬ממוצע = ‪,176‬‬
‫שונות = ‪ ,32.5‬סטיית תקן = ‪.5.7‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪11/04/2021‬‬

‫גובהו של החייל הכי גבוה במדגם זה הינו ‪ .186‬נבדוק אם הוא נחשב לקיצוני ביחס ליתר‬
‫החיילים אשר במדגם‪ .‬נבדוק כמה סטיות תקן חייל זה גבוה מהממוצע‪ .‬החייל גבוה ב‪ 10-‬ס"מ‬
‫‪10‬‬
‫מהממוצע‪ ,‬אשר מהווים ‪ 5.7 = 1.75‬סטיות תקן‪ .‬לכן‪ ,‬ניתן לומר שחייל זה נחשב יחסית לקיצוני‬
‫ביחס ליתר החיילים‪ ,‬אך לא בצורה רבה מאוד‪.‬‬
‫נבדוק כמה סטיות תקן סוטה החייל הנמוך ביותר מהממוצע‪ .‬גובהו של החייל הנמוך ביותר הוא‬
‫‪13‬‬
‫‪ .163‬החייל נמוך ב‪ 13-‬ס"מ מהממוצע‪ ,‬אשר מהווים ‪ 5.7 = 2.28‬סטיות תקן‪ .‬אם כך‪ ,‬חייל זה‬
‫נחשב בהחלט לקיצוני ביחס ליתר החיילים‪ ,‬שכן גובהו נמוך ביותר משתי סטיות תקן מהממוצע‪.‬‬
‫שאלה למחשבה‬
‫נתונה סדרה סטטיסטית בת ‪ 100‬תצפיות‪ .‬ממוצע הסדרה הוא ‪ 75‬עם סטיית תקן ‪ .10‬נוספו‬
‫לסדרה זו עוד ‪ 3‬תצפיות‪.75, 75, 75 :‬‬
‫לכל ‪ 103‬התצפיות יש להסביר‪:‬‬
‫האם הממוצע יגדל‪/‬יקטן‪/‬לא ישתנה‪/‬לא ניתן לדעת? – הממוצע לא ישתנה‪ ,‬מכיוון שערך‬ ‫א‪.‬‬
‫התצפיות שנוספו זהה לממוצע‪.‬‬
‫האם סטיית התקן תקטן‪/‬תגדל‪/‬לא תשתנה‪/‬לא ניתן לדעת? – אילו הממוצע היה משתנה‪,‬‬ ‫ב‪.‬‬
‫לא היינו יכולים לדבר על סטיית התקן‪ .‬השונות תקטן‪ ,‬ולכן גם סטיית התקן תקטן‪.‬‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪18/04/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪5‬‬
‫נושא ההרצאה‪ :‬ציוני תקן ואחוזונים‬
‫מיקום יחסי – הקדמה‬
‫לעיתים נרצה להשוות בין מספר תצפיות אשר אינן לקוחות מאותו משתנה‪.‬‬
‫לדוגמא‪ ,‬נניח ישנם שני משתנים 𝑋 ו‪ 𝑌 -‬אשר מציינים את הציון במבחן באנגלית ובמבחן‬
‫בסטטיסטיקה‪ ,‬בהתאמה‪ .‬סטודנט כלשהו נבחן בשני המקצועות הללו והסטודנט מעוניין להשוות‬
‫בין שני הציונים שקיבל‪ .‬שאלה מעניינת הינה באיזה מקצוע ציוני היחסי טוב יותר‪ .‬בכדי לענות על‬
‫שאלה זו נצטרך להשוות את ציונו בכל מקצוע ביחס לממוצע הכיתתי תוך התחשבות גם בפיזור‬
‫הציונים בכל מקצוע‪ .‬בכדי להשתכנע מדוע עלינו להתחשב גם בפיזור של הציונים (ולא להסתפק‬
‫רק בממוצע)‪ ,‬נציג את הדוגמא הבאה‪.‬‬
‫דוגמא‪ :‬רותם נבחן באנגלית ובסטטיסטיקה‪ .‬ציונו של רותם בשני המקצועות הינו ‪ .90‬בכל‬
‫מקצוע נבחנו ‪ 5‬סטודנטים (כולל רותם) ולהלן ציוניהם‪:‬‬
‫הציונים באנגלית‪.60, 70, 80, 𝟗𝟎, 100 :‬‬
‫הציונים בסטטיסטיקה‪.70, 75, 80, 85, 𝟗𝟎 :‬‬
‫קל לראות שבשני המקצועות הממוצע הכיתתי הינו ‪ ,80‬ולכן בשני המקצועות אותם קיבל ‪10‬‬
‫נקודות מעל הממוצע הכיתתי‪ .‬אולם‪ ,‬ציונו היחסי אינו זהה בשני המקצועות‪ .‬באנגלית ציונו אינו‬
‫הכי גבוה‪ ,‬בעוד שבסטטיסטיקה הוא הגבוה ביותר‪ .‬קל לראות שפיזור הציונים בסטטיסטיקה‬
‫קטן יותר מזה שבאנגלית‪ ,‬דבר הגורם לציונו היחסי בסטטיסטיקה להיות גבוה יותר‪.‬‬
‫מדדי מיקום יחסי‬
‫מדדי המיקום היחסי הפופולאריים ביותר הינם אחוזונים וציוני תקן‪ .‬בעזרתם נוכל לחשב מיקום‬
‫יחסי של תצפית כלשהי ביחס לנתונים כולם‪ ,‬ובכך נוכל להשוות בינה בין תצפיות אחרות‪ .‬נציג‬
‫תחילה חישוב ציוני תקן ונעבור אח"כ לחישוב אחוזונים‪.‬‬

‫ציון תקן )‪(Standard Score‬‬


‫הגדרה‪ :‬ציון תקן של תצפית כלשהי מוגדר כמספר סטיות התקן שהתצפית רחוקה מהממוצע‪.‬‬
‫במילים אחרות‪ ,‬אנו בודקים את המרחק שהתצפית רחוקה מהממוצע‪ ,‬כאשר המרחק נמדד‬
‫ביחידות של סטיות תקן‪.‬‬
‫מההגדרה נובע שציון תקן הינו מדד המתייחס הן למיקום של התצפית (באמצעות הממוצע) והן‬
‫לפיזורה (באמצעות סטיית התקן)‪.‬‬
‫נסמן ב‪ 𝑍𝑖 -‬את ציון התקן של תצפית 𝑖‪ ,‬וב‪ 𝑥𝑖 -‬את ערך תצפית 𝑖‪ .‬מההגדרה מתקבל‪:‬‬
‫̅𝑋 ‪𝑥𝑖 −‬‬
‫= 𝑖𝑍‬
‫𝑋𝑆‬
‫ציון תקן משמש לייצוג המקום היחסי של נבדק מסוים ביחס לממוצע הקבוצתי‪ ,‬ובהתחשב‬
‫בסטיית התקן הקבוצתית‪.‬‬
‫ציון התקן הוא מספר טהור‪ ,‬שאינו תלוי ביחידות המדידה של הנתון הגולמי המקורי‪ ,‬ולכן‬
‫מאפשר להשוות בין משתנים בעלי יחידות מדידה שונות‪.‬‬
‫ציון תקן יהיה חיובי כאשר ערך התצפית גבוה מהממוצע‪ ,‬שלילי כאשר ערך התצפית נמוך‬
‫מהממוצע‪ ,‬ואפס כאשר ערך התצפית שווה לממוצע‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪18/04/2021‬‬

‫לדוגמא‪ ,‬ציון תקן של ‪ +1‬עבור תצפית כלשהי מציין שהתצפית גבוהה מהממוצע בסטיית תקן‬
‫אחת‪ .‬ציון תקן של ‪ −1.5‬עבור תצפית אחרת מציין שהתצפית נמוכה מהממוצע סטיית תקן וחצי‪.‬‬
‫דוגמא‪ :‬דניאל קיבל ציון ‪ 90‬במתמטיקה‪ .‬ממוצע הכיתה במקצוע זה הינו ‪ ,70‬וסטיית התקן ‪.20‬‬
‫באנגלית קיבל דניאל ציון ‪ ,85‬כאשר ממוצע הכיתה ‪ ,70‬וסטיית התקן ‪ .12‬באיזה מקצוע נחשב‬
‫דניאל למוכשר יותר ביחס לכיתתו?‬
‫למעשה‪ ,‬נשאלת השאלה באיזה מקצוע ציוני היחסי גבוה יותר‪ .‬לשם כך נחשב את ציון התקן של‬
‫דניאל במתמטיקה ) 𝑀𝑍( ובאנגלית ) 𝐸𝑍(‪ ,‬ונבדוק איזה מהם גבוה יותר‪.‬‬
‫‪90 − 70‬‬ ‫‪85 − 70‬‬
‫= 𝑀𝑍 ⟸ 𝐸𝑍 < 𝑀𝑍‬ ‫‪= 1,‬‬ ‫= 𝐸𝑍‬ ‫‪= 1.25‬‬
‫‪20‬‬ ‫‪12‬‬
‫קיבלנו שדניאל מוכשר יותר באנגלית ביחס לכיתתו‪ ,‬שכן במקצוע זה הוא קיבל ציון הגבוה ב‪-‬‬
‫‪ 1.25‬סטיות תקן מממוצע הכיתה‪ ,‬בעוד שבמתמטיקה הוא קיבל ציון הגבוה בסטיית תקן אחת‬
‫מממוצע הכיתה‪.‬‬
‫הערה כללית‪ :‬ציון תקן הגדול בערכו המוחלט מ‪ 2-‬נחשב לציון תקן חריג‪ .‬במילים אחרות‪ ,‬הסיכוי‬
‫שתצפית כלשהי תתרחק מהממוצע יותר מ‪ 2-‬סטיות תקן (ימינה או שמאלה) בהחלט נמוך‪.‬‬
‫דוגמא‪ :‬סטודנט נבחר בשני מבחנים שונים‪:‬‬
‫במבחן א' קיבל את הציון ‪ 71‬והממוצע של כלל הנבחנים הינו ‪.80‬‬
‫במבחן ב' קיבל את הציון ‪ 60‬והממוצע של כלל הנבחנים הינו ‪.78‬‬
‫נכון‪/‬לא נכון‪ :‬מכאן נובע כי סטיית התקן של הציונים במבחן א' גדולה מסטיית התקן של הציונים‬
‫במבחן ב' – נכון‪/‬לא נכון‪.‬‬
‫‪71 − 80‬‬ ‫‪60 − 78‬‬
‫= 𝐴𝑍 ⟸ ‪𝑆𝐴 = 12‬‬ ‫‪= −0.75,‬‬ ‫= 𝐵𝑍‬ ‫‪= −1.5 ⟹ 𝑆𝐵 = 12‬‬
‫ֹֹ 𝐴𝑆‬ ‫𝐵𝑆‬
‫קיבלנו שסטיות התקן שוות‪.‬‬
‫דוגמא‪ :‬להלן הנתונים אודות המשכורת של שני חברים העובדים בחברות שונות‪ :‬אורן מרוויח‬
‫‪ ,₪ 8500‬וידוע שממוצע השכר בחברה בה הוא עובד הינו ‪ ₪ 6000‬וסטיית התקן ‪ .₪ 2000‬חיים‬
‫עובד בחברה אחרת בה ממוצע השכר הינו ‪ ₪ 7000‬וסטיית התקן ‪.₪ 1500‬‬
‫ידוע שמיקומו היחס בשכר של שני החברים זהה‪ .‬בדקו למי יש משכורת גבוהה יותר‪.‬‬
‫פתרון‪:‬‬
‫‪8500 − 6000‬‬
‫= 𝑂𝑍‬ ‫‪= 1.25‬‬
‫‪2000‬‬
‫‪𝑥 − 7000‬‬
‫= 𝐻𝑍‬ ‫‪= 1.25 ⟹ 𝑥 = 8875‬‬
‫‪1500‬‬
‫תשובה סופית‪ :‬משכורתו של חיים גבוהה יותר‪.₪ 8875 :‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪18/04/2021‬‬

‫דוגמא‪ :‬גובהו של נדב ‪ 185‬ס"מ‪ ,‬משקלו ‪ 70‬ק"ג ומנת משכלו ‪ .100‬להלן הממוצע וסטיית התקן‬
‫של ‪ 3‬המשתנים הללו (גובה‪ ,‬משקל ומנת משכל) בכיתתו של נדב‪:‬‬
‫גובה‪ :‬ממוצע‪ ,175 :‬סטיית תקן‪.10 :‬‬
‫משקל‪ :‬ממוצע‪ ,60 :‬סטיית תקן‪.12 :‬‬
‫מנת משכל‪ :‬ממוצע ‪ ,100‬סטיית תקן‪.15 :‬‬
‫באיזו תכונה מבין ‪ 3‬התכונות מתבלט נדב בצורה הבולטת ביותר?‬
‫תשובה סופית‪ :‬בגובה‪ .‬ציון התקן של גובהו הוא הגבוה ביותר בערכו המוחלט‪.‬‬
‫ממוצע וסטיית התקן של ציוני התקן‬
‫טענה‪:‬‬
‫ממוצע ציוני התקן עבור כל סדרה של תצפיות שווה ל‪.0-‬‬ ‫‪.i‬‬
‫סטיית התקן של ציוני התקן עבור כל סדרה של תצפיות שווה ל‪.1-‬‬ ‫‪.ii‬‬
‫דוגמא‪ :‬להלן המשקלים (בק"ג) של חמישה נדגמים‪:‬‬
‫‪67, 75, 57, 82, 69‬‬
‫חשבו את הממוצע ואת סטיית התקן של סדרת חמשת המשקלים‪.‬‬ ‫א‪.‬‬
‫חשבו את ציוני התקן של החמישה‪.‬‬ ‫ב‪.‬‬
‫חשבו את הממוצע של חמשת ציוני התקן ואת סטיית התקן של חמשת ציוני התקן‪ .‬ודאו‬ ‫ג‪.‬‬
‫שקיבלתם ממוצע = ‪ 0‬וסטיית תקן = ‪.1‬‬

‫אחוזונים )‪(Percentile‬‬
‫לפי העיקרון של חלוקת ההתתפלגות לחציון ולרבעונים‪ ,‬ניתן להגדיר ערכי חלוקה לכל אחוז שבין‬
‫‪ 0%‬לבין ‪.(0 < 𝑝 < 100) 100%‬‬
‫נחשב אחוזונים רק כאשר הנתונים מופיעים בטבלת שכיחות עם מחלקות‪ .‬נעשה זאת באמצעות‬
‫הנוסחא הבאה שמזכירה את הנוסחא בה השתמשנו לחישוב החציון‪ ,‬כאשר הנתונים הוצגו‬
‫בטבלת שכיחות עם מחלקות‪:‬‬
‫𝑙‬ ‫𝑝𝑛‬
‫‪𝑋𝑝 = 𝐿1 +‬‬ ‫(⋅‬ ‫) ‪− 𝐹1‬‬
‫‪𝑓(𝑥) 100‬‬
‫כאשר‪:‬‬
‫𝑝𝑋 מייצג את האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫‪ 𝐿1‬מייצג את הגבול התחתון של המחלקה בה נמצא האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫𝑙 הינו רוחב מחלקת האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫‪ 𝐹1‬הינה השכיחות המצטברת של המחלקה הקודמת למחלקה בה נמצא האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫)𝑥(𝑓 הינה השכיחות (הרגילה) של המחלקה בה נמצא האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫𝑝𝑛‬
‫‪ 100‬מייצג גודל הקשור לאחוזון אותו אנו מחפשים‪.‬‬ ‫‪-‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪18/04/2021‬‬

‫דוגמאות לאחוזונים‪ :‬כאמור‪ 𝑋𝑝 ,‬מייצג את האחוזון ה‪ ,𝑝-‬כלומר עבור ערך זה ‪ 𝑝%‬מהתצפיות‬


‫קטנות ממנו והיתר גדולות ממנו‪.‬‬
‫‪ 𝑋10‬מייצג את האחוזון ה‪ ,10-‬כלומר ‪ 10%‬מהתצפיות קטנות ממנו ו‪ 90%-‬גדולות‬ ‫‪-‬‬
‫ממנו‪ .‬אחוזון זה נקרא גם עשירון תחתון‪.‬‬
‫‪ 𝑋90‬מייצג את האחוזון ה‪ ,90-‬כלומר ‪ 90%‬מהתצפיות קטנות ממנו ו‪ 10%-‬גדולות‬ ‫‪-‬‬
‫ממנו‪ .‬אחוזון זה נקרא גם עשירון עליון‪.‬‬
‫‪ 𝑋30‬מייצג את האחוזון ה‪ ,30-‬כלומר ‪ 30%‬מהתצפיות קטנות ממנו ו‪ 70%-‬גדולות‬ ‫‪-‬‬
‫ממנו‪ .‬אחוזון זה נקרא גם עשירון שלישי‪.‬‬
‫מה מייצג אם כך ‪ – ?𝑋50‬חציון‪.‬‬ ‫‪-‬‬

‫העשירון התחתון ) 𝟎𝟏𝑿(‬


‫העשירון התחתון הינו ערך המשתנה הנחקר כך שעשירית מהמקרים קטנים או שווים לו‪ ,‬ותשע‬
‫עשיריות מהמקרים גדולים או שווים לו‪.‬‬
‫נוסחא לחישוב העשירון התחתון (בטבלת שכיחות עם מחלקות)‪:‬‬
‫𝑙‬
‫‪𝑋10 = 𝐿1 +‬‬ ‫) ‪(0.1𝑛 − 𝐹1‬‬
‫)𝑥(𝑓‬
‫הערה‪ :‬העשירון התחתון (או הראשון) נקרא גם מאון ‪ ,10‬העשירון השני מאון ‪ 20‬וכו'‪.‬‬

‫העשירון העליון ) 𝟎𝟗𝑿(‬


‫העשירון העליון הינו ערך המשתנה הנחקר כך שתשע עשיריות מהמקרים קטנים או שווים לו‪,‬‬
‫ועשירית מהמקרים גדולים או שווים לו‪.‬‬
‫נוסחא לחישוב העשירון העליון (בטבלת שכיחות עם מחלקות)‪:‬‬
‫𝑙‬
‫‪𝑋90 = 𝐿1 +‬‬ ‫) ‪(0.9𝑛 − 𝐹1‬‬
‫)𝑥(𝑓‬
‫דוגמא – חישוב עשירון עליון ותחתון‬
‫בדוגמא הבאה ישנם נתונים עבור גיל הנישואים של ‪ 39678‬כלות בזמן נישואיהן‪.‬‬

‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬


‫‪7271‬‬ ‫‪17 − 19‬‬
‫‪15596‬‬ ‫‪20 − 24‬‬
‫‪11497‬‬ ‫‪25 − 29‬‬
‫‪3177‬‬ ‫‪30 − 34‬‬
‫‪979‬‬ ‫‪35 − 39‬‬
‫‪477‬‬ ‫‪40 − 44‬‬
‫‪268‬‬ ‫‪45 − 49‬‬
‫‪413‬‬ ‫‪50 +‬‬
‫𝟖𝟕𝟔 ‪𝟑𝟗,‬‬ ‫סה"כ‬

‫המחלקה האחרונה אינה סגורה ולכן נתייחס אליה כאל מחלקה שבין גיל ‪ 50‬לבין גיל ‪.65‬‬
‫כמו‪-‬כן‪ ,‬יש לעבור מגבולות מדומים (ללא רצף) לגבולות אמיתיים (עם רצף)‪.‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪18/04/2021‬‬

‫חישוב עשירון תחתון‪ :‬בשלב הראשון (בדומה לשלב הראשון כאשר חישבנו את החציון‪ ,‬הרבעון‬
‫העליון והרבעון התחתון בטבלת שכיחות עם מחלקות) נבדוק מהי המחלקה בה נמצא העשירון‬
‫התחתון על‪-‬ידי חישוב הגודל 𝑛‪ 0.1‬ומציאתו (לפחות) בעמודת השכיחות המצטברת‪.‬‬
‫‪ ,0.1𝑛 = 3967.8‬ולכן המחלקה בה נמצא העשירון התחתון הינה המחלקה הראשונה‪:‬‬
‫‪.17 − 20‬‬
‫בשלב השני נשתמש בנוסחא לחישוב העשירון התחתון ונקבל‪:‬‬
‫𝑙‬ ‫‪3‬‬
‫‪𝑋10 = 𝐿1 +‬‬ ‫‪(0.1𝑛 − 𝐹1 ) = 17 +‬‬ ‫‪(3967.8 − 0) = 18.64‬‬
‫)𝑥(𝑓‬ ‫‪7271‬‬
‫חישוב עשירון עליון‪ :‬בשלב הראשון נבדוק מהי המחלקה בה נמצא העשירון העליון על‪-‬ידי חישוב‬
‫הגודל 𝑛‪ 0.9‬ומציאתו (לפחות) בעמודת השכיחות המצטברת‪ ,0.9𝑛 = 35710.2 .‬ולכן המחלקה‬
‫בה נמצא העשירון העליון הינה המחלקה הרביעית‪.30 − 35 :‬‬
‫בשלב השני נשתמש בנוסחא לחישוב העשירון העליון ונקבל‪:‬‬
‫𝑙‬ ‫‪5‬‬
‫‪𝑋90 = 𝐿1 +‬‬ ‫‪(0.9𝑛 − 𝐹1 ) = 30 +‬‬ ‫‪(35710.2 − 34364) = 31.12‬‬
‫)𝑥(𝑓‬ ‫‪3177‬‬
‫מסקנות‪:‬‬
‫העשירון התחתון הינו ‪ ,18.64‬כלומר ‪ 10%‬מהכלות בישראל נישאות עד לגיל זה‪ ,‬ו‪-‬‬ ‫‪-‬‬
‫‪ 90%‬מהכלות בישראל נישאות מגיל זה ואילך‪.‬‬
‫העשירון העליון הינו ‪ ,32.12‬כלומר ‪ 90%‬מהכלות בישראל נישאות עד לגיל זה‪ ,‬ו‪10%-‬‬ ‫‪-‬‬
‫מהכלות בישראל נישאות מגיל זה ואילך‪.‬‬
‫הערה‪ :‬בעזרת הנוסחא לחישוב אחוזונים יש ביכולתנו לחשב כל אחוזון שנרצה באופן דומה לדרך‬
‫בה חישבנו את העשירון התחתון (אחוזון ‪ )10‬ואת העשירון העליון (אחוזון ‪ )90‬בדוגמא‪.‬‬
‫שאלת תרגול לבית‬
‫שכיחות התיירים – )𝒙(𝒇‬ ‫גיל – 𝒙‬
‫‪46.8‬‬ ‫‪0−4‬‬
‫‪208.6‬‬ ‫‪5 − 19‬‬
‫‪485.8‬‬ ‫‪20 − 34‬‬
‫‪335.8‬‬ ‫‪35 − 44‬‬
‫‪730.3‬‬ ‫‪45 − 64‬‬
‫‪293.3‬‬ ‫‪65 +‬‬
‫𝟔 ‪𝟐𝟏𝟎𝟎.‬‬ ‫סה"כ‬

‫חשבון את העשירון השלישי (אחוזון ה‪ )30-‬של גיל התיירים שהגיעו לישראל בשנת ‪1996‬‬
‫(המספרים בדוגמא הם באלפים)‪.‬‬
‫תשובה סופית‪.31.57 :‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪6‬‬
‫נושא ההרצאה‪ :‬ההתפלגות הנורמאלית‬
‫התפלגות נורמאלית – הקדמה‬
‫ההתפלגות הנורמאלית )‪ (Normal Distribution‬הינה התפלגות בצורת פעמון סימטרי כך‬
‫שמרבית התצפיות נמצאות במרכז ומעט בקצוות‪.‬‬
‫התפלגות זו נקראת גם התפלגות פעמונית או התפלגות גאוס על‪-‬שם המתמטיקאי קרל פרידריך‬
‫גאוס שמצא אותה לראשונה‪.‬‬
‫התפלגות זו הינה ככל הנראה ההתפלגות הפופולארית והחשובה ביותר מבין כל ההתפלגויות‬
‫הרציפות והבדידות כאחד‪.‬‬

‫התפלגות זו כה חשובה מכיוון שתופעות רבות ומשתנים רבים בטבע מפולגים (בקירוב) לפי‬
‫ההתפלגות הנורמאלית‪ .‬לדוגמא‪ :‬משקל‪ ,‬גובה‪ ,‬לחץ דם ועוד משתנים רבים נוספים‪ .‬בנוסף‪,‬‬
‫משתנים רבים הקשורים בציונים (כגון ציוני פסיכומטרי וציוני ‪ )I.Q‬בנויים בצורה כזאת‬
‫שהתפלגות הציונים תהיה בקירוב לפי ההתפלגות הנורמאלית‪.‬‬
‫גורם נוסף ההופך את ההתפלגות הנורמאלית לכה חשובה הוא משפט הגבול המרכזי‪ .‬משפט‬
‫הגבול המרכזי קובע שממוצע (או סכום) של משתנים מקריים בלתי תלויים שאינם מפולגים‬
‫נורמאלית‪ ,‬מפולג בקירוב נורמאלית תחת תנאים מסוימים (לא נלמד בקורס)‪.‬‬
‫צורת הפעמון של ההתפלגות הנורמאלית‬
‫צורת הפעמון נקבעת על‪-‬ידי שני פרמטרים‪ :‬ממוצע ההתפלגות והשונות של ההתפלגות‪.‬‬
‫הממוצע (נקרא גם תוחלת) קובע את מיקום מרכז ההתפלגות‪ ,‬והשונות קובעת את מידת הפיזור‬
‫סביב הממוצע‪.‬‬
‫נהוג לסמן את ממוצע ההתפלגות באות 𝜇 ואת סטיית התקן ב‪.𝜎 -‬‬
‫הסימון עבור התפלגות נורמאלית הוא‪.𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫מספר תכונות של ההתפלגות הנורמאלית‬


‫שלושת הערכים המרכזיים (ממוצע‪ ,‬חציון ושכיח) מתלכדים במרכז ההתפלגות‬ ‫‪-‬‬
‫ומתקיים‪ :‬ממוצע = שכיח = חציון‪.‬‬
‫השטח מתחת לפעמון שווה ל‪ 1-‬ומתאר ‪ 100%‬של המקרים‪ 50% .‬מהמקרים הם מתחת‬ ‫‪-‬‬
‫לממוצע‪ ,‬ו‪ 50%-‬מהמקרים מעליו (מכיוון שההתפלגות סימטרית)‪.‬‬
‫בכל התפלגות נורמאלית מתקיים‪:‬‬ ‫‪-‬‬
‫‪ o‬בתחום בין 𝜎 ‪ 𝜇 +‬לבין 𝜎 ‪ 𝜇 −‬נמצאים ‪ 68.26%‬מהמקרים‪.‬‬
‫‪ o‬בתחום בין 𝜎‪ 𝜇 + 2‬לבין 𝜎‪ 𝜇 − 2‬נמצאים ‪ 95.44%‬מהמקרים‪.‬‬
‫‪ o‬בתחום בין 𝜎‪ 𝜇 + 3‬לבין 𝜎‪ 𝜇 − 3‬נמצאים ‪ 99.74%‬מהמקרים‪.‬‬

‫ההתפלגות הנורמאלית הסטנדרטית‬


‫ההתפלגות הנורמאלית הסטנדרטית הינה התפלגות נורמאלית מאוד ספציפית‪ ,‬עבורה ממוצע‬
‫ההתפלגות שווה ל‪ 0-‬וסטיית התקן (וגם השונות) של ההתפלגות שווה ל‪.1-‬‬
‫נסמן את ההתפלגות הנורמאלית הסטנדרטית באות 𝑍‪ ,𝑍 ~ 𝑁(𝜇 = 0, 𝜎 2 = 1) :‬או בקיצור‪:‬‬
‫)‪.𝑍 ~ 𝑁(0, 1‬‬
‫כל תכונות ההתפלגות הנורמאלית חלות כמובן גם על התפלגות זו‪.‬‬

‫טבלת 𝒁 – טבלת ההתפלגות הנורמאלית הסטנדרטית‬


‫כאמור‪ ,‬השטח מתחת להתפלגות הנורמאלית שווה ל‪( 1-‬או ל‪.)100%-‬‬
‫כמו‪-‬כן‪ ,‬התפלגות זו סימטרית סביב הערך אפס‪ ,‬שכן מדובר בהתפלגות נורמאלית סטנדרטית‪.‬‬
‫נשתמש בטבלה כדי לחשב שטחים מימין או משמאל לערך מסוים‪ .‬בטבלה זו ריכזו עבורנו את כל‬
‫השטחים משמאל לערך כלשהו‪ .‬בטבלה זו נשתמש בהמשך גם כאשר נדרש לחשב הסתברויות‬
‫עבור התפלגות נורמאלית כללית (לא סטנדרטית)‪ ,‬אך לפני כן נצטרף לבצע פעולה שנקראת‬
‫תקנון‪/‬נרמול (נראה זאת בהמשך)‪.‬‬
‫שימוש בטבלת 𝒁‪ :‬בטבלת ההתפלגות הנורמאלית הסטנדרטית (טבלת 𝑍) מחושבים השטחים‬
‫(הסתברויות) משמאל לערך מסוים‪ ,‬ולכן טבלה זו הינה טבלת ההתפלגות המצטברת של משתנה‬
‫מקרי נורמאלי סטנדרטי‪.‬‬
‫בטבלה זו ישנן שתי קבוצות מספרים‪:‬‬
‫‪ .1‬מספרים בשולי הטבלה – בעמודה השמאלית ביותר ובשורה העליונה ביותר (החל מ‪0-‬‬
‫ועד ‪.)3.59‬‬
‫‪ .2‬מספרים בתוך הטבלה (החל מ‪ 0.5000-‬ועד ‪.)0.9998‬‬
‫הקבוצה הראשונה מייצגת ערכים שהמשתנה הנורמאלי הסטנדרטי יכול לקבל (בקפיצות של‬
‫‪ ,)0.01‬והקבוצה השנייה מציינת את השטח הנמצא משמאל לערכים המתאימים שבשולי הטבלה‪.‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫טבלת 𝒁 (טבלה חלקית – הטבלה המלאה מופיעה ב‪:)Moodle-‬‬

‫סימון‪ :‬נהוג לסמן ב‪ Φ(𝑔)-‬את השטח בהתפלגות הנורמאלית הסטנדרטית שנמצא עד לנקודה 𝑔‬
‫(כלומר משמאל ל‪ ,)𝑔-‬כלומר‪.Φ(𝑔) = 𝑃(𝑍 < 𝑔) :‬‬
‫דוגמא‪ :‬מצאו מהו השטח עד לערך ‪.1.2‬‬

‫פתרון‪:‬‬
‫‪𝑃(𝑍 < 1.2) = Φ(1.2) = 0.8849‬‬
‫דוגמא‪ :‬מצאו את השטח הנמצא משמאל לערך ‪.2.39‬‬
‫פתרון‪:‬‬
‫‪𝑃(𝑍 < 2.39) = Φ(2.39) = 0.9916‬‬
‫דוגמא‪ :‬חשבו מהו השטח עד לערך ‪.3.85‬‬
‫פתרון‪.Φ(3.85) = 1 :‬‬
‫הסבר‪ :‬בטבלה‪ ,‬הערך האחרון הנמצא בשולי הטבלה הינו ‪ ,3.59‬ועד אליו יש שטח של‬
‫‪ ,0.9998‬כלומר‪.Φ(3.59) = 0.9998 :‬‬
‫לכן‪ ,‬עבור ערך הגבוה מ‪ ,3.59-‬השטח הנמצא משמאלו בהכרח גדול מ‪ ,0.9998-‬ולכן‬
‫שווה בקירוב ל‪.1-‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫חישוב שטח מימין לערך כלשהו בהתפלגות 𝒁‪ :‬נשים לב שהטבלה מחשבת שטחים (הסתברויות)‬
‫משמאל לערך מסוים‪ .‬כמו‪-‬כן‪ ,‬השטח המצוי בין עקומת ההתפלגות הנורמאלית לבין הציר‬
‫האופקי שווה ל‪ .1-‬לכן‪ ,‬כדי לחשב את השטח הנמצא מימין לערך מסוים‪ ,‬נמצא את השטח‬
‫משמאל לאותו ערך ונחסר גודל זה מ‪ ,1-‬ובכך נקבל את התוצאה הרצויה‪ .‬כלומר‪:‬‬
‫)𝑔(𝜙 ‪𝑃(𝑍 > 𝑔) = 1 − 𝑃(𝑍 ≤ 𝑔) = 1 −‬‬
‫דוגמא‪ :‬מצא את השטח מימין לערך ‪.1.09‬‬
‫פתרון‪:‬‬
‫‪𝑃(𝑍 > 1.09) = 1 − 𝑃(𝑍 ≤ 1.09) = 1 − Φ(1.09) = 1 − 0.8621 = 0.1379‬‬
‫דוגמא‪ :‬מהו השטח המסומן?‬

‫פתרון‪:‬‬
‫‪𝑃(𝑍 > 1.25) = 1 − 𝑃(𝑍 < 1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056‬‬
‫דוגמא‪ :‬מהו השטח המסומן?‬

‫פתרון‪:‬‬
‫‪𝑃(𝑍 > 0.83) = 1 − 𝑃(𝑍 < 0.83) = 1 − Φ(0.83) = 1 − 0.7967 = 0.2033‬‬
‫חישוב הסתברויות מימין‪/‬משמאל לערכים שליליים בהתפלגות 𝒁‪ :‬בשולי הטבלה נמצאים רק‬
‫ערכים אי‪-‬שליליים (החל מ‪ 0-‬עד ל‪.)3.59-‬‬
‫בכדי לחשב שטחים הנמצאים משמאל או מימין לערכים שליליים‪ ,‬נשתמש בעובדה שהטבלה‬
‫סימטרית סביב אפס‪ ,‬ולכן‪:‬‬
‫)𝑔(‪𝑃(𝑍 ≥ −𝑔) = 𝑃(𝑍 ≤ 𝑔) = Φ‬‬
‫)𝑔(‪𝑃(𝑍 ≤ −𝑔) = 𝑃(𝑍 ≥ 𝑔) = 1 − 𝑃(𝑍 ≤ 𝑔) = 1 − Φ‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫דוגמא‪ :‬מצא את השטח מימין לערך ‪.−0.5‬‬


‫פתרון‪:‬‬
‫‪𝑃(𝑍 > −0.5) = 𝑃(𝑍 < 0.5) = Φ(0.5) = 0.6915‬‬
‫דוגמא‪ :‬מצא את השטח משמאל לערך ‪.−2.75‬‬
‫פתרון‪:‬‬
‫‪𝑃(𝑍 < −2.75) = 𝑃(𝑍 > 2.75) = 1 − 𝑃(𝑍 ≤ 2.75) = 1 − 0.997 = 0.003‬‬
‫דוגמא‪ :‬מהו השטח המסומן?‬

‫פתרון‪:‬‬
‫‪𝑃(𝑍 < −1.37) = 𝑃(𝑍 > 1.37) = 1 − Φ(1.37) = 1 − 0.9147 = 0.0853‬‬
‫דוגמא‪ :‬מהו השטח המסומן?‬

‫פתרון‪:‬‬
‫‪𝑃(𝑍 < −0.09) = 𝑃(𝑍 > 0.09) = 1 − Φ(0.09) = 1 − 0.5359 = 0.4641‬‬
‫חישוב הסתברויות בין שני ערכים בהתפלגות 𝒁‪ :‬אם ברצוננו לחשב שטח הנמצא בין שני ערכים‪,‬‬
‫נחשב את השטח הנמצא משמאל לערך הגדול מבין השניים ונחסר ממנו את השטח הנמצא‬
‫משמאל לערך הקטן מבין השניים‪ .‬כלומר‪ ,‬עבור ‪:𝑔2 > 𝑔1‬‬
‫) ‪𝑃(𝑔1 ≤ 𝑍 ≤ 𝑔2 ) = 𝑃(𝑍 ≤ 𝑔2 ) − 𝑃(𝑍 ≤ 𝑔1 ) = Φ(𝑔2 ) − Φ(𝑔1‬‬
‫דוגמא‪ :‬מצא את השטח שבין ‪ −0.4‬לבין ‪.1.17‬‬
‫פתרון‪:‬‬
‫= )‪𝑃(−0.4 ≤ 𝑍 ≤ 1.17) = 𝑃(𝑍 ≤ 1.17) − 𝑃(𝑍 ≤ −0.4) = 0.879 − 𝑃(𝑍 ≥ 0.4‬‬
‫‪= 0.879 − (1 − Φ(0.4)) = 0.879 − (1 − 0.6554) = 0.5344‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫דוגמא‪ :‬מהו השטח המסומן?‬

‫פתרון‪:‬‬
‫= )‪𝑃(1.23 ≤ 𝑍 ≤ 2.3) = 𝑃(𝑍 ≤ 2.3) − 𝑃(𝑍 ≤ 1.23) = Φ(2.3) − Φ(1.23‬‬
‫‪= 0.9893 − 0.8907 = 0.0986‬‬
‫חישוב הסתברויות בין שני ערכים סימטריים בהתפלגות 𝒁‪ :‬חישוב שטח בין שני ערכים‬
‫סימטריים סביב אפס‪:‬‬
‫‪𝑃(−𝑔 ≤ 𝑍 ≤ 𝑔) = 2 ⋅ Φ(𝑔) − 1‬‬
‫נוכיח זאת באמצעות דוגמא‪.‬‬
‫דוגמא‪ :‬מצא את השטח שבין ‪ −2‬לבין ‪.2‬‬
‫פתרון‪:‬‬
‫= )‪𝑃(−2 ≤ 𝑍 ≤ 2) = 𝑃(𝑍 ≤ 2) − 𝑃(𝑍 ≤ −2) = Φ(2) − 𝑃(𝑍 ≥ 2‬‬
‫‪= Φ(2) − (1 − Φ(2)) = 2 ⋅ Φ(2) − 1 = 2 ⋅ 0.9772 − 1 = 0.9544‬‬
‫התפלגות נורמאלית שאינה סטנדרטית‬
‫עד כה טיפלנו במשתנה מקרי נורמאלי סטנדרטי – משתנה נורמאלי בעל ממוצע ‪ 0‬וסטיית תקן ‪.1‬‬
‫מריב הדוגמאות (אם לא כולן) עוסקות במשתנה נורמאלי כללי‪ ,‬כלומר‪ ,‬במשתנה שהממוצע שלו‬
‫אינו שווה ל‪ 0-‬בהכרח‪ ,‬וסטיית התקן שלו אינה שווה ל‪ 1-‬בהכרח‪.‬‬
‫בשלב הבא נלמד איך לחשב הסתברויות עבור משתנה נורמאלי כללי‪ .‬נסמן ב‪ 𝑋 -‬את המשתנה‬
‫הנורמאלי הכללי‪.𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :‬‬
‫כדי שנוכל להשתמש בטבלת 𝑍 אשר מתאימה למשתנה נורמאלי סטנדרטי (ממוצע ‪ 0‬וסטיית תקן‬
‫‪ ,)1‬נצטרך לבצע פעולה חשבונית הנקראת פעולת התקנון‪/‬הנרמול‪.‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫פעולת הנרמול‪/‬התקנון‬
‫פעולת הנרמול נועדה להפוך משתנה נורמאלי כללי (לא סטנדרטי) למשתנה נורמאלי סטנדרטי‪.‬‬
‫פעולת הנרמול מתבטאת בהסרת הממוצע מהמשתנה הנורמאלי הכללי וחלוקה בסטיית התקן‬
‫שלו‪ .‬כלומר‪ ,‬אם לפנינו משתנה נורמאלי כללי 𝑋‪ ,𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :‬מתקיים ש‪:‬‬
‫𝜇‪𝑋−‬‬
‫)‪⟶ 𝑍 ~ 𝑁(0, 1‬‬
‫𝜎‬
‫𝜇‪𝑋−‬‬
‫אשר ממוצעו שווה ל‪ 0-‬וסטיית התקן שלו שווה ל‪,1-‬‬ ‫במילים אחרות‪ ,‬יצרנו משתנה חדש‬
‫𝜎‬
‫כלומר‪ ,‬המשתנה החדש הוא נורמאלי סטנדרטי‪ ,‬וכעת ניתן להשתמש בטבלת 𝑍‪.‬‬
‫נשים לב שפעולת הנרמול מזכירה למעשה חישוב של ציון תקן‪ .‬כאשר למדנו על ציוני התקן ראינו‬
‫שחישוב ציון תקן לערך כלשהו מתבטא בהחסרת הממוצע מהערך וחלוקה בסטיית התקן‪ .‬זו‬
‫בדיוק הפעולה שאנו עושים כעת‪:‬‬
‫𝜇‪𝑋−‬‬
‫=𝑍‬
‫𝜎‬
‫בפעולת הנרמול אנו מחשבים את ציון התקן של הערך עבורו אנו נדרשים לחשב הסתברות‪ .‬לאחר‬
‫שנחשב את ציון התקן של הערך‪ ,‬נבדוק את ההסתברות הרצויה בעזרת טבלת 𝑍‪.‬‬
‫למעשה‪ ,‬טבלת 𝑍 הינה טבלת ציוני תקן‪.‬‬
‫דוגמא‪ :‬הניחו שציוני המבחן הפסיכומטרי מפולגים (בקירוב) נורמאלית‪ ,‬עם ממוצע ‪ 520‬וסטיית‬
‫תקן ‪ ,100‬כלומר‪.𝑍 ~ 𝑁(520, 1002 ) :‬‬
‫מהו אחוז הנבחנים שקיבלו ציון עד ‪?640‬‬ ‫א‪.‬‬

‫פתרון‪ :‬אנו נדרשים לחשב את השטח משמאל ל‪.640-‬‬

‫תחילה נחשב את ציון התקן של ערך זה‪:‬‬


‫‪640 − 520‬‬
‫=𝑍‬ ‫‪= 1.2‬‬
‫‪100‬‬
‫בשלב הבא נחשב את השטח משמאל לערך ‪ 1.2‬בהתפלגות 𝑍‪:‬‬
‫‪𝑃(𝑍 < 1.2) = Φ(1.2) = 0.8849‬‬
‫קיבלנו ש‪ 88.49%-‬מהנבחנים קיבלו ציון עד ‪.640‬‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫מהו אחוז הנבחנים שקיבלו ציון גבוה מ‪?725-‬‬ ‫ב‪.‬‬

‫פתרון‪ :‬בסעיף זה אנו נדרשים לחשב את השטח מימין ל‪.725-‬‬

‫תחילה נחשב את ציון התקן של ערך זה‪:‬‬


‫‪725 − 520‬‬
‫=𝑍‬ ‫‪= 2.05‬‬
‫‪100‬‬
‫בשלב הבא נחשב את השטח מימין ל‪ 2.05-‬בהתפלגות 𝑍‪:‬‬
‫‪𝑃(𝑍 > 2.05) = 1 − Φ(2.05) = 1 − 0.9798 = 0.0202‬‬
‫קיבלנו ש‪ 2.02%-‬מהנבחנים קיבלו ציון גבוה מ‪.725-‬‬
‫מהו אחוז הנבחנים שקיבלו ציון פסיכומטרי נמוך מ‪?470-‬‬ ‫ג‪.‬‬

‫פתרון‪ :‬בסעיף זה אנו נדרשים לחשב את השטח משמאל ל‪.470-‬‬

‫תחילה נחשב את ציון התקן של ערך זה‪:‬‬


‫‪470 − 520‬‬
‫=𝑍‬ ‫‪= −0.5‬‬
‫‪100‬‬
‫בשלב הבא נחשב את השטח משמאל ל‪ −0.5-‬בהתפלגות 𝑍‪:‬‬
‫‪𝑃(𝑍 < −0.5) = 𝑃(𝑍 > 0.5) = 1 − Φ(0.5) = 1 − 0.6915 = 0.3085‬‬
‫קיבלנו ש‪ 30.85%-‬מהנבחנים קיבלו ציון נמוך מ‪.470-‬‬

‫‪8‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪25/04/2021‬‬

‫מהו אחוז הנבחנים שקיבלו ציון בין ‪ 500‬ל‪?700-‬‬ ‫ד‪.‬‬


‫פתרון‪ :‬אנו נדרשים לחשב את השטח שבין ‪ 500‬לבין ‪.700‬‬

‫תחילה נחשב את ציוני התקן של ערכים אלו‪:‬‬


‫‪700 − 520‬‬ ‫‪500 − 520‬‬
‫= ‪𝑍1‬‬ ‫‪= 1.8,‬‬ ‫= ‪𝑍2‬‬ ‫‪= −0.2‬‬
‫‪100‬‬ ‫‪100‬‬
‫בשלב הבא נחשב את השטח ביניהם‪:‬‬
‫= )‪𝑃(−0.2 ≤ 𝑍 ≤ 1.8) = 𝑃(𝑍 ≤ 1.8) − 𝑃(𝑍 ≤ −0.2) = 0.9641 − 𝑃(𝑍 ≥ 0.2‬‬
‫‪= 0.9641 − (1 − Φ(0.2)) = 0.9641 − (1 − 0.5793) = 0.5434‬‬

‫קיבלנו ש‪ 54.34%-‬מהנבחנים קיבלו ציון בין ‪ 500‬ל‪.700-‬‬


‫דוגמא לתרגול עצמי‪ :‬מהירות הנסיעה בכביש ירושלים‪-‬תל אביב היא משתנה מקרי נורמאלי עם‬
‫מהירות ממוצעת השווה ל‪ 95-‬קמ"ש וסטיית תקן השווה ל‪ 10-‬קמ"ש‪ .‬נהג הנתפס נוהג במהירות‬
‫שבין ‪ 90‬ל‪ 100-‬מקבל דו"ח אזהרה‪ ,‬נהג הנתפס במהירות שבין ‪ 100‬לבין ‪ 120‬מקבל דו"ח‬
‫תנועה‪ ,‬ונהג הנתפס נוהג במהירות הגבוהה מ‪ 120-‬קמ"ש מורד מהכביש‪.‬‬
‫מהם הסיכויים‪:‬‬
‫שנהג לא ייעצר על‪-‬ידי המשטרה?‬ ‫א‪.‬‬
‫שיקבל אזהרה?‬ ‫ב‪.‬‬
‫שיקבל דו"ח תנועה?‬ ‫ג‪.‬‬
‫שיורד מהכביש?‬ ‫ד‪.‬‬
‫דוגמא לתרגול עצמי‪ :‬השכר בארגון מפולג (בקירוב) נורמאלית עם ממוצע של ‪ ₪ 7500‬וסטיית‬
‫תקן של ‪.₪ 1750‬‬
‫מה אחוז העובדים בארגון שמשתכרים יותר מ‪?₪ 10000-‬‬ ‫א‪.‬‬
‫מנהל מחקת משאבי אנוש דיווח שציון התקן של שכרו הינו ‪ .2.7‬חשבו את משכורתו‪.‬‬ ‫ב‪.‬‬
‫מה אחוז העובדים בארגון להם שכר הנמוך מ‪?₪ 6000-‬‬ ‫ג‪.‬‬
‫כל העובדים אשר ציון התקן של שכרם נמוך מ‪ −2-‬התחילו בשביתה‪ .‬מה השכר הגבוה‬ ‫ד‪.‬‬
‫ביותר מבין אלו ששובתים?‬
‫מה אחוז העובדים שמשכורתם בין ‪ ₪ 6300‬לבין ‪?₪ 9100‬‬ ‫ה‪.‬‬

‫‪9‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪02/05/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪7‬‬
‫נושא ההרצאה‪ :‬הסקה סטטיסטית – הקדמה ומושגים בסיסיים‬
‫הסקה סטטיסטית – הקדמה‬
‫הסקה סטטיסטית עוסקת בשיטה להסקה על האוכלוסייה כולה מתוך מדגם מקרי מייצג הנלקח‬
‫מאוכלוסיית היעד‪.‬‬
‫במרבית המקרים כאשר נרצה לבחון תופעה כלשהי באוכלוסייה לא נוכל לבדוק את כל‬
‫האוכלוסייה ונאלץ להסתפק במדגם מקרי הנלקח מאוכלוסייה זו‪ .‬לכן‪ ,‬מרבית המחקרים‬
‫הסטטיסטיים מבוססים על מדגם מתוך אוכלוסיית המחקר ולא על האוכלוסייה כולה‪.‬‬
‫החוקר יקבל את תוצאות המדגם ומטרתו תהיה להכליל תוצאות אלו על כל האוכלוסייה‪.‬‬
‫ההסקה ממדגם לאוכלוסייה איננה ודאית אלא הסתברותית‪ .‬ניתן להסיק מהמדגם לאוכלוסייה‬
‫אף בהסתברות גבוהה ביותר‪ ,‬אולם תמיד קיימת הסתברות לכך שנבצע טעויות בהסקה‪.‬‬
‫לכן‪ ,‬חשוב לציין בנוסף למסקנה המחקרית גם את ההסתברות לטעות במסקנה שהתקבלה‪.‬‬
‫ישנן שיטות דגימה הסתברותיות רבות‪ :‬מדגם מקרי פשוט‪ ,‬מדגם שכבות‪ ,‬מדגם אשכולות ומדגם‬
‫שיטתי‪ .‬נדון בשיטות להסקה סטטיסטית המבוססות רק בשיטת המדגם המקרי הפשוט‪.‬‬
‫מושגים חשובים‬
‫פרמטר‪ :‬ערך של המשתנה הנחקר המתאר את האוכלוסייה כולה‪ .‬לרוב ערך זה לא יהיה ידוע ואנו‬
‫נהיה מעוניינים לאמוד אותו‪.‬‬
‫נהוג לסמן את הפרמטרים באותיות יווניות‪ .‬לדוגמא‪:‬‬
‫𝜇 הינו הסימון המקובל לממוצע באוכלוסייה כולה (נקרא גם תוחלת)‪.‬‬ ‫‪-‬‬
‫𝜎 הינה הסימון המקובל לסטיית התקן של האוכלוסייה‪.‬‬ ‫‪-‬‬
‫סטטיסטי‪/‬אומד‪ :‬ערך המשתנה הנחקר המתאר את המדגם‪ .‬כלומר‪ ,‬עבור מדגם מסוים נוכל‬
‫לחשב את הסטטיסטי‪.‬‬
‫את הסטטיסטים נהוג לסמן באותיות אנגליות‪ .‬לדוגמא‪:‬‬
‫̅𝑋 הינו הסימון המקובל לממוצע המדגם‪.‬‬ ‫‪-‬‬
‫𝑆 הינה הסימון המקובל לסטיית התקן של המדגם‪.‬‬ ‫‪-‬‬
‫נושאים בהסקה סטטיסטית‬
‫הסקה סטטיסטית עוסקת בשיטות להסקה מערך הסטטיסטי (שהתקבל במדגם) לפרמטר (הערך‬
‫באוכלוסייה כולה)‪.‬‬
‫נושאים בולטים הנידונים בהקשר של הסקה סטטיסטית הינם‪:‬‬
‫‪ .1‬אמידה נקודתית (לא נדון בנושא זה במסגרת הקורס)‪.‬‬
‫‪ .2‬אמידה על‪-‬ידי אינטרוול – רווח סמך‪.‬‬
‫‪ .3‬בדיקת השערות‪.‬‬
‫בהמשך ההרצאה נערוך הקדמה קצרה ונדון בנקודות עיקריות בהקשר של שני הנושאים‬
‫האחרונים‪ :‬רווח סמך ובדיקת השערות‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪02/05/2021‬‬

‫רווח סמך – הקדמה‬


‫בנושא של רווחי סמך ישנו פרמטר לא ידוע (לדוגמא‪ ,‬ממוצע לחץ דם בקרב אוכלוסייה מסוימת)‪,‬‬
‫ומטרתנו לבנות אינטרוול (קטע) אשר יכיל את הפרמטר הלא ידוע בהסתברות גבוהה‪.‬‬
‫רווח סמך הינו אינטרוול (קטע) אשר מכסה את הפרמטר הלא ידוע בהסתברות גבוהה אשר‬
‫תיקבע מראש על‪-‬ידינו‪.‬‬
‫לאינטרוול זה קוראים רווח סמך‪ ,‬ולהסתברות בה האינטרוול יכסה את הפרמטר הלא ידוע‬
‫קוראים רמת ביטחון (או רמת סמך)‪.‬‬
‫רווח סמך – סימונים‬
‫את גבולות רווח הסמך נסמן ב‪ 𝐿1 -‬וב‪ ,𝐿2 -‬כאשר ‪ 𝐿1‬מייצג את הגבול התחתון (ההתחלה) של רווח‬
‫הסמך‪ ,‬ו‪ 𝐿2 -‬הוא הגבול העליון (הסוף) של רווח הסמך‪.‬‬
‫את רמת הביטחון (ההסתברות שרווח הסמך יכסה את הפרמטר הלא ידוע נסמן ב‪.1 − 𝛼 -‬‬
‫נהוג לקחת רמות ביטחון גבוהות‪ ,‬כגון‪ ,0.99, 0.9, 0.95 :‬מכיוון שאנו רוצים להבטיח הסתברות‬
‫גבוהה שרווח הסמך יכסה את הפרמטר הלא ידוע‪.‬‬
‫משמעות רווח הסמך‬
‫כאמור‪ ,‬נבנה רווח סמך אשר יכסה את הפרמטר הלא ידוע בהסתברות גבוהה כלשהי 𝛼 ‪.1 −‬‬
‫נרשום זאת בצורה פורמאלית‪:‬‬
‫𝛼 ‪ ≤ 𝐿2 ) = 1 −‬פרמטר לא ידוע ≤ ‪𝑃(𝐿1‬‬
‫לדוגמא‪ ,‬בנינו רווח סמך לאחוז הבוחרים במפלגת הליכוד בבחירות הבאות ברמת ביטחון של‬
‫‪ 95%‬על סמך מדגם מקרי של ‪ 80‬אזרחים והתקבל רווח הסמך הבא‪.[24.3%, 27.8%] :‬‬
‫משמעות התוצאה‪ :‬בהסתברות של ‪ 0.95‬אחוז הבוחרים בבחירות הקרובות למפלגת הליכוד ינוע‬
‫בין ‪ 24.3%‬לבין ‪.27.8%‬‬
‫מה נרצה מרווח הסמך?‬
‫בכדי לקבל רווח סמך יעיל נרצה שיתקיימו עבורו שני התנאים הבאים‪:‬‬
‫‪ .1‬רווח סמך צר‪ ,‬שכן אנו בונים רווח סמך לפרמטר לא ידוע‪ ,‬ונרצה אינטרוול מצומצם אשר‬
‫יכלול כמה שפחות ערכים‪.‬‬
‫‪ .2‬רמת סמך גבוהה‪ ,‬שכן נרצה לדעת שרווח הסמך שבנינו מכסה את הפרמטר הלא ידוע‬
‫בהסתברות גבוהה‪.‬‬
‫נזכור שאת רמת הסמך אנו קובעים מלכתחילה‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬
‫טענה‪ :‬כאשר נגדיל את רמת הסמך (וכל יתר הפרמטרים יישארו ללא שינוי)‪ ,‬אורכו של רווח‬
‫הסמך בהכרח יגדל‪ .‬במילים אחרות‪ ,‬שתי הדרישות הנ"ל באות אחת על חשבון השנייה‪.‬‬
‫נשאלת השאלה – מה עדיף‪ ,‬להגדיל במקצת את רמת הביטחון על חשבון הגדלת אורך רווח‬
‫הסמך‪ ,‬או ההפך? זה כבר תלוי בחוקר ובמקר – אין תשובה החלטית‪.‬‬
‫רמת הביטחון הפופולארית ביותר הינה ‪ ,95%‬ולכן במרבית המחקרים זו רמת הביטחון בה‬
‫משתמשים‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪02/05/2021‬‬

‫מקרים שונים של רווחי סמך‬


‫במסגרת נושא זה של רווח סמך נלמד שלושה מקרים של רווחי סמך (עליהם נלמד בהרצאה‬
‫הבאה)‪:‬‬
‫‪ .1‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) ידועה‪.‬‬
‫‪ .2‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה‪.‬‬
‫‪ .3‬רווח סמך לפרופורציה‪.‬‬
‫בדיקת השערות‬
‫בנושא זה של בדיקת השערות יהיה פרמטר לא ידוע‪ ,‬ואנו נדרש להכריע בין שתי השערות נתונות‪.‬‬
‫לדוגמא‪ ,‬יהיה נתון משתנה מהתפלגות נורמאלית אשר הממוצע שלו באוכלוסייה אינו ידוע‪ ,‬ויהיו‬
‫נתונות שתי השערות בנוגע לערכיו של פרמטר זה‪.‬‬
‫כל השערה תדווח על טווח ערכים שהפרמטר מצוי בו‪ ,‬ואנו בסופו של דבר נצטרך להכריע בין שתי‬
‫ההשערות הללו‪.‬‬
‫תמיד יהיו שתי השערות בלבד‪ ,‬שרק אחת מהן נכונה‪ ,‬ונדרש לקבוע איזו השערה אנו מקבלים‬
‫מבין השתיים‪ .‬זאת נעשה בהסתמך על תצפיות שנאסוף ממדגם מקרי‪ .‬תהליך בירור ההשערה‬
‫הנכונה נקרא "מבחן לבדיקת השערות"‪.‬‬
‫בדיקת השערות – סימונים‬
‫שתי ההשערות תמיד יהיו זרות (אין להן משותף)‪ ,‬כלומר‪ ,‬כל אחת מדברת על ערכים שונים‬
‫שהפרמטר הלא ידוע יכול לקבל‪.‬‬
‫ההשערה הראשונה מכונה "השערת האפס" וסימונה הינו ‪ .𝐻0‬השערה זו מייצגת את המצב‬
‫הקיים‪ ,‬מה שהיה נהוג לחשוב עד כה‪ .‬השערה זו מכונה גם "ההשערה השמרנית"‪.‬‬
‫ההשערה השנייה נקראת "השערת המחקר" וסימונה הינו ‪ .𝐻1‬השערה זו הינה ההשערה אותה‬
‫אנו נדרש לבדוק בתרגיל כלשהו‪.‬‬
‫במרבית הדוגמאות יהיה קל יותר לנסח תחילה את ‪ ,𝐻1‬ולאחר מכן הניסוח של ‪ 𝐻0‬יהיה פשו‬
‫השלילה (ההפך) מהניסוח של ‪.𝐻1‬‬
‫בדיקת השערות – דוגמאות‬
‫דוגמא 𝟏‪ :‬חברת תרופות טוענת שמצאה תרופה טובה יותר מזו שקיימת בשוק למחלקה כלשהי‪.‬‬
‫ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬התרופה החדשה אינה טובה מהקיימת בשוק‪.‬‬
‫‪ :𝐻1‬התרופה החדשה טובה יותר מהקיימת בשוק‪.‬‬
‫דוגמא 𝟐‪ :‬חוקר מעוניין לבדוק האם ממוצע ציוני ‪ I.Q‬של גברים שונה מזה של הנשים בישראל‪.‬‬
‫ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬ממוצע ציוני ה‪ I.Q-‬של גברים בישראל אינו שונה (שווה) מממוצע ציוני ה‪ I.Q-‬של נשים‬
‫בישראל‪.‬‬
‫‪ :𝐻1‬ממוצע ציוני ה‪ I.Q-‬של גברים בישראל שונה מממוצע ציוני ה‪ I.Q-‬של נשים בישראל‪.‬‬
‫דוגמא 𝟑‪ :‬מרצה מעוניין לבדוק האם קיימים הבדלים בציונים במתמטיקה בין ‪ 3‬התמחויות‬
‫לימוד (שיווק‪ ,‬משא"נ‪ ,‬מימון)‪ .‬ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬ממוצע הציונים אינו שונה בין שלוש התמחויות הלימוד‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים שונה בין שלוש התמחויות הלימוד‪.‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪02/05/2021‬‬

‫דוגמא 𝟒‪ :‬דיאטה חדשה מבטיחה ירידה משמעותית במשקל‪ .‬מעוניינים לבדוק האם הדיאטה‬
‫החדשה אכן יעילה‪ .‬ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬המשקל לאחר הדיאטה אינו נמוך מהמשקל לפני‪.‬‬
‫‪ :𝐻1‬המשקל לאחר הדיאטה נמוך מהמשקל לפני‪.‬‬

‫ניסוח 𝟎𝑯 וניסוח 𝟏𝑯‬


‫שימו לב שבכל ארבע הדוגמאות שהצגנו‪ ,‬שתי ההשערות היו משלימות (הפוכות) זו לזו‪.‬‬
‫בפועל‪ ,‬כאשר נדרש מתוך טקסט נתון לנסח את ‪ 𝐻0‬ואת ‪ ,𝐻1‬פשוט יותר לנסח תחילה דווקא את‬
‫‪ 𝐻1‬שהיא השערת המחקר – מה שמעוניינים לבדוק בשאלה‪ .‬לאחר שניסחנו את ‪ ,𝐻1‬הניסוח של‬
‫‪ 𝐻0‬יהיה פשוט הניסוח ההפוך מזה שהצגנו עבור ‪.𝐻1‬‬
‫מינוחים מקובלים בבדיקת השערות‬
‫כאשר נדרש לערוך מבחן לבדיקת השערות‪ ,‬נצטרך בסופו של דבר להכריע בין שתי ההשערות‬
‫ולקבל אחת מהן (ובכך השנייה תידחה)‪.‬‬
‫כאשר נחליט שאנו מקבלים את ‪ ,𝐻0‬המינוח המקובל הינו "לא נדחה את 𝟎𝑯"‪ ,‬שזה‬ ‫‪-‬‬
‫שקול לכך שקיבלנו את ‪.𝐻0‬‬

‫כאשר נחליט שאנו מקבלים את ‪ ,𝐻1‬המינוח המקובל הינו "נדחה את 𝟎𝑯"‪ ,‬כלומר‪ ,‬אנו‬ ‫‪-‬‬
‫מקבלים בכך את ‪.𝐻1‬‬
‫כלומר‪ ,‬נקודת הייחוס שלנו היא ‪ ,𝐻0‬אשר מייצגת את ההשערה השמרנית – מעין ברירת מחדל‪.‬‬
‫הרציונל בבדיקת השערות‬
‫כפי שנאמר‪ ,‬נקודת הייחוס שלנו היא ‪ ,𝐻0‬אשר מייצגת את ההשערה השמרנית‪ .‬כך יהיה הדבר גם‬
‫כאשר נדרש לבצע את המבחן לבדיקת ההשערות ולהכריע ביניהן‪.‬‬
‫אנו נבדוק למעשה האם התוצאה שקיבלנו במדגם הגיונית‪/‬סבירה תחת ‪ .𝐻0‬במידה וכן‪ ,‬אנו לא‬
‫נדחה את ‪ ,𝐻0‬ונאמין שזו ההשערה הנכונה‪ .‬אולם‪ ,‬במידה ונקבל תוצאה שמאוד לא‬
‫סבירה‪/‬הגיונית תחת ‪ ,𝐻0‬נסיק שככל הנראה ‪ 𝐻0‬אינה הנכונה ולכן נדחה את ‪( 𝐻0‬ובכך נקבל את‬
‫‪.)𝐻1‬‬
‫השערות חד‪-‬צדדיות והשערות דו‪-‬צדדיות‬
‫השערות חד‪-‬צדדיות הינן השערות עבורן לשתי ההשערות ( ‪ 𝐻0‬ו‪ )𝐻1 -‬יש כיוון‪ ,‬כלומר‪ ,‬כל השערה‬
‫מצביעה על כיוון כלשהו‪ .‬בניסוח ההשערות נראה מילים כגון קטן‪/‬גדול‪/‬אינו קטן‪/‬אינו גדול‪.‬‬
‫השערות דו‪-‬צדדיות הינן השערות עבורן לשתי ההשערות ( ‪ 𝐻0‬ו‪ )𝐻1 -‬אין כיוון‪ ,‬כלומר‪ ,‬בניסוח‬
‫ההשערות נראה מילים כגון שווה‪/‬שונה‪/‬הבדל (מילים נטולות כיוון)‪ .‬במקרה של השערות דו‪-‬‬
‫צדדיות תמיד ב‪ 𝐻0 -‬תופיע המילה שווה‪/‬זהה‪/‬אין הבדל וב‪ 𝐻1 -‬תופיע המילה שונה‪/‬יש הבדל‪.‬‬
‫נחזור לארבע הדוגמאות שהצגנו עבור בדיקת השערות‪ ,‬ועבור כל אחת מהן נקבע האם ההערות‬
‫חד‪-‬צדדיות או דו‪-‬צדדיות‪.‬‬
‫דוגמא ‪ :1‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬שכן לשתי ההשערות יש כיוון ( ‪ 𝐻0‬טוענת שהתרופה אינה‬
‫טובה מהקיימת‪ ,‬ואילו ‪ 𝐻1‬טוענת שהתרופה החדשה טובה מהקיימת)‪.‬‬
‫דוגמא ‪ :2‬מדובר בהשערות דו‪-‬צדדיות‪ ,‬שכן לשתי ההשערות אין כיוון ( ‪ 𝐻0‬טוענת שהממוצע של‬
‫הציונים בשתי הקבוצות שווה‪ ,‬ואילו ‪ 𝐻1‬טוענת שהממוצע של הציונים בשתי הקבוצות שונה)‪.‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪02/05/2021‬‬

‫דוגמא ‪ :3‬מדובר בהשערות דו‪-‬צדדיות‪ ,‬שכן לשתי ההשערות אין כיוון ( ‪ 𝐻0‬טוענת שאין הבדל‬
‫בממוצעי הציונים בין ‪ 3‬ההתמחויות‪ ,‬ואילו ‪ 𝐻1‬טוענת שקיים הבדל)‪.‬‬
‫דוגמא ‪ :4‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬שכן לשתי ההשערות יש כיוון ( ‪ 𝐻0‬טוענת שהמשקל לאחר‬
‫הדיאטה אינו נמוך מהמשקל לפני הדיאטה‪ ,‬ואילו ‪ 𝐻1‬טוענת שהמשקל לאחר הדיאטה נמוך‬
‫מהמשקל לפני הדיאטה)‪.‬‬
‫טעות מסוג ראשון וטעות מסוג שני‬
‫כאמור‪ ,‬קיימות שתי השערות שרק אחת מהן נכונה ( ‪ 𝐻0‬נכונה או ‪ 𝐻1‬נכונה)‪ ,‬ואנו יכולים להחליט‬
‫שתי החלטות במבחן שערכנו לבדיקת ההשערות (קבלת ‪ 𝐻0‬או קבלת ‪ ,)𝐻1‬לכן ייתכנו סה"כ‬
‫ארבעה מצבים אפשריים‪ ,‬כמוצג בטבלה‪ .‬בשני מצבים אנו מבצעים החלטה נכונה‪ ,‬ובשניים‬
‫מבצעים החלטה לא נכונה‪ ,‬כלומר‪ ,‬מבצעים טעות‪.‬‬

‫טעות מסוג ראשון הינה דחיית ‪( 𝐻0‬כלומר‪ ,‬קבלת ‪ )𝐻1‬כאשר ‪ 𝐻0‬היא הנכונה‪.‬‬
‫טעות מסוג שני הינה קבלת ‪ 𝐻0‬כאשר המציאות הינה ‪.𝐻1‬‬
‫נרצה כמובן למזער ככל הניתן את ההסתברויות לטעות מסוג ראשון ושני‪ ,‬אלא שלעתים הקטנת‬
‫האחת בא על חשבון הגדלת האחרת‪.‬‬
‫חומרת הטעויות‪ :‬ההשלכות של ביצוע טעות מסוג ראשון וביצוע טעות מסוג שני שונות בדרך כלל‪.‬‬
‫לרוב‪ ,‬אנו חוששים יותר מביצוע טעות מסוג ראשון מאשר ביצוע טעות מסוג שני‪ ,‬מכיוון‬
‫שהשלכותיה חמורות יותר‪.‬‬
‫בדוגמא הראשונה עם התרופות‪ ,‬טעות מסוג ראשון הינה דחיית ‪ 𝐻0‬כאשר ‪ 𝐻0‬היא הנכונה‪,‬‬
‫כלומר‪ ,‬במקרה של טעות מסוג ראשון נסיק שהתרופה החדשה טובה יותר מהקיימת בשוק כאשר‬
‫למעשה היא לא‪ .‬בפועל‪ ,‬נחליף לחולים את התרופה הקיימת בתרופה החדשה שהיא פחות טובה‪,‬‬
‫כלומר‪ ,‬נרע את מצב החולים‪.‬‬
‫טעות מסוג שני הינה קבלת ‪ 𝐻0‬כאשר המציאות הינה ‪ ,𝐻1‬כלומר‪ ,‬נסיק שהתרופה החדשה איננה‬
‫טובה יותר מהקיימת‪ ,‬כאשר למעשה היא כן טובה יותר‪ .‬בפועל‪ ,‬נמשיך לתת לחולים שלנו את‬
‫התרופה הישנה כאשר היה ניתן לתת להם תרופה טובה יותר‪ ,‬כלומר‪ ,‬נפספס הזדמנות‪.‬‬
‫לכן‪ ,‬טעות מסוג ראשון נתפסת לרוב כהרעה‪ ,‬לעומת טעות מסוג שני שנתפסת יותר בגדר פספוס‪.‬‬
‫במרבית המקרים הרעה של מצב קיים חמורה יותר מפספוס הזדמנות חדשה‪ .‬לכן‪ ,‬טעות מסוג‬
‫ראשון נתפסת כחמורה יותר מטעות מסוג שני‪.‬‬
‫המסקנה מהאמור לעיל היא שמבצע המחקר ירצה להגן על עצמו בראש ובראשונה מפני ביצוע‬
‫טעות מסוג ראשון‪ ,‬כלומר‪ ,‬הוא ייתן חסם עליון להסתברות שטעות מסוג ראשון תתרחש‪ .‬חסם‬
‫מקובל הינו של ‪ ,0.05‬כלומר‪ ,‬נאפשר שלכל היותר ב‪ 5%-‬מהמקרים עבורם ‪ 𝐻0‬הינה הנכונה נבצע‬
‫טעות ונדחה את ‪ .𝐻0‬חסם זה נקרא רמת מובהקות (ר"מ)‪.‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪02/05/2021‬‬

‫רמת המובהקות של המבחן‬


‫הגדרה‪ :‬רמת המובהקות (ר"מ) של המבחן הינה ההסתברות לבצע טעות מסוג ראשון‪.‬‬
‫סימון של רמת המובהקות‪ :‬את רמת המובהקות נסמן באות היוונית 𝛼‪.‬‬
‫מכיוון שאנו מפחדים יותר מביצוע טעות מסוג ראשון‪ ,‬נהוג לקבוע רמת מובהקות נמוכה יחסית‬
‫(רמות מובהקות מקובלות הינן ‪ ,)0.01, 0.1, 0.05‬ובהתאם לרמת המובהקות שקבענו נבצע את‬
‫מבחן בדיקת ההשערות‪.‬‬
‫אם קבענו שאנו מבצעים את המבחן לבדיקת ההשערות ברמת מובהקות של ‪ 0.05‬לדוגמא‪ ,‬אנו‬
‫קובעים חסם עליון לטעות מסוג ראשון – במקרה הכי גרוע נבצע טעות מסוג ראשון ב‪5%-‬‬
‫מהמקרים‪.‬‬
‫כלל הדחייה של המבחן‬
‫את רמת המובהקות נהוג לקבוע מראש‪ ,‬בהתאם להשלכות של ביצוע טעות מסוג ראשון (כאמור‪,‬‬
‫רמת מובהקות מקובלת ביותר הינה ‪.)0.05‬‬
‫בהתאם לרמת המובהקות שקבענו‪ ,‬ייקבע כלל הדחייה של המבחן‪ .‬כלל הדחייה מפרט עבור אילו‬
‫ערכים (של ממוצע המדגם‪ ,‬לדוגמא) נדחה את השערת האפס‪ ,‬ועבור אילו ערכים לא נדחה אותה‪.‬‬
‫כלומר‪ ,‬כלל הדחייה קובע מהם אזורי הדחייה של ‪ 𝐻0‬ומהם אזורי הקבלה של ‪ .𝐻0‬ככל שרמת‬
‫המובהקות גבוהה יותר‪ ,‬אנו חוששים פחות מפני ביצוע טעות מסוג ראשון‪ ,‬ולכן אזור הדחייה של‬
‫‪ 𝐻0‬יהיה גדול יותר‪ ,‬וההפך‪.‬‬
‫לאחר מכן דוגמים מדגם מקרי‪ ,‬ובהתאם לתוצאת המדגם ולכלל הדחייה מחליטים האם יש‬
‫לדחוף את השערת האפס או לא‪.‬‬
‫במרבית המקרים בהם נעסוק בקורס זה המשתנים הנחקרים יהיו מפולגים לפי ההתפלגות‬
‫הנורמאלית‪ .‬לכן‪ ,‬נמחיש את אזורי הדחייה והקבלה של המבחן בעזרת ההתפלגות הנורמאלית‪.‬‬
‫דוגמא‪ :‬נניח שחוקר מעוניין לבדוק את ההשערה שלישראלים יש ממוצע ציון ‪ I.Q‬גבוה יותר‬
‫מהממוצע העולמי אשר שווה ל‪ .100-‬במקרה זה ההשערות הן‪:‬‬
‫‪ :𝐻0‬ממוצע ציון ה‪ I.Q-‬של הישראלים אינו גבוה מהממוצע העולמי‪.‬‬
‫‪ :𝐻1‬ממוצע ציון ה‪ I.Q-‬של הישראלים גבוה מהממוצע העולמי‪.‬‬
‫מדובר בהשערות חד‪-‬צדדיות (עם כיוון)‪ ,‬כאשר ‪ 𝐻1‬מורה על כיוון ימין (המילה "גבוה")‪ ,‬ולכן אזור‬
‫הדחייה של ‪ 𝐻0‬יהיה בצד ימין של ההתפלגות הנורמאלית‪.‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪02/05/2021‬‬

‫דוגמא‪ :‬מעוניינים לבדוק האם לישראלים יש ממוצע ציון ‪ I.Q‬השונה מהממוצע העולמי (אשר‬
‫שווה ל‪ .)100-‬במקרה זה ההשערות הן‪:‬‬
‫‪ :𝐻0‬ממוצע ציון ה‪ I.Q-‬של הישראלים אינו שונה מהממוצע העולמי‪.‬‬
‫‪ :𝐻1‬ממוצע ציון ה‪ I.Q-‬של הישראלים שונה מהממוצע העולמי‪.‬‬
‫הפעם‪ ,‬מדובר בהשערות דו‪-‬צדדיות (ללא כיוון)‪ ,‬ולכן אזור הדחייה של ‪ 𝐻0‬יהיה בשני צדי‬
‫ההתפלגות הנורמאלית‪.‬‬

‫‪𝒑-value‬‬
‫הגדרה‪ :‬ה‪( 𝑝-value-‬ערך 𝑝) של המבחן מוגדר כרמת המובהקות המינימאלית עבורה נדחה את‬
‫השערת האפס‪.‬‬
‫כלומר‪ ,‬זוהי רמת המובהקות הקטנה ביותר שניתן לקחת עבורה השערת האפס תידחה‪ ,‬ואם ניקח‬
‫רמת מובהקות נמוכה יותר (אפילו במעט) כבר לא נדחה את השערת האפס‪.‬‬
‫כאשר מתקבל ‪ 𝑝-value‬מאוד נמוך (נמוך מ‪ ,)0.005-‬אומרים שהתוצאה מובהקת‪ ,‬כלומר‪ ,‬לכל‬
‫רמת מובהקות סבירה נדחה את השערת האפס‪.‬‬
‫דוגמא‪ :‬נניח שעבור דוגמא מסוימת נמצא שה‪ 𝑝-value-‬שווה ל‪ .0.023-‬משמעות התוצאה היא‬
‫שעבור כל רמת מובהקות שניקח אשר גדולה או שווה מ‪ 0.023-‬אנו נדחה את ‪ ,𝐻0‬ועבור רמת‬
‫מובהקות שקטנה מ‪ 0.023-‬אנו לא נדחה את ‪ .𝐻0‬במילים אחרות‪ ,‬רמת המובהקות המינימאלית‬
‫עבורה נדחה את ‪ 𝐻0‬הינה ‪.0.023‬‬
‫שלבים עיקריים במבחן לבדיקת השערות‬
‫בקורס זה נעסוק במספר מקרים של בדיקת השערות‪ .‬בנושא זה של בדיקת השערות‪ ,‬שלבי‬
‫העבודה יהיו השלבים הבאים‪:‬‬
‫ניסוח ‪ 𝐻0‬ו‪.𝐻1 -‬‬ ‫‪-‬‬
‫חישוב "ערך סטטיסטי" אשר מבוסס על תוצאות המדגם שנלקח‪.‬‬ ‫‪-‬‬
‫השוואת ערך הסטטיסטי שחושב ל"ערך קריטי" אשר נלקח מתוך טבלה מתאימה‪.‬‬ ‫‪-‬‬
‫בהתאם לכך‪ ,‬נקבל החלטה האם אנו דוחים את ‪ 𝐻0‬או לא דוחים את ‪.𝐻0‬‬
‫מתן מסקנה סופית במונחי הדוגמא‪.‬‬ ‫‪-‬‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪09/05/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪8‬‬
‫נושא ההרצאה‪ :‬רווחי סמך‬
‫רווח סמך – הקדמה‬
‫בנושא של רווחי סמך ישנו פרמטר לא ידוע (לדוגמא‪ ,‬ממוצע לחץ דם בקרב אוכלוסייה מסוימת)‪,‬‬
‫ומטרתנו לבנות אינטרוול (קטע) אשר יכיל את הפרמטר הלא ידוע בהסתברות גבוהה‪.‬‬
‫רווח סמך הינו אינטרוול (קטע) אשר מכסה את הפרמטר הלא ידוע בהסתברות גבוהה אשר‬
‫תיקבע מראש על‪-‬ידינו‪.‬‬
‫לאינטרוול זה קוראים רווח סמך‪ ,‬ולהסתברות בה האינטרוול יכסה את הפרמטר הלא ידוע‬
‫קוראים רמת ביטחון (או רמת סמך)‪.‬‬
‫רווח סמך – סימונים‬
‫את גבולות רווח הסמך נסמן ב‪ 𝐿1 -‬וב‪ ,𝐿2 -‬כאשר ‪ 𝐿1‬מייצג את הגבול התחתון (ההתחלה) של רווח‬
‫הסמך‪ ,‬ו‪ 𝐿2 -‬הוא הגבול העליון (הסוף) של רווח הסמך‪.‬‬
‫את רמת הביטחון (ההסתברות שרווח הסמך יכסה את הפרמטר הלא ידוע נסמן ב‪.1 − 𝛼 -‬‬
‫נהוג לקחת רמות ביטחון גבוהות‪ ,‬כגון‪ ,0.99, 0.9, 0.95 :‬מכיוון שאנו רוצים להבטיח הסתברות‬
‫גבוהה שרווח הסמך יכסה את הפרמטר הלא ידוע‪.‬‬
‫משמעות רווח הסמך‬
‫כאמור‪ ,‬נבנה רווח סמך אשר יכסה את הפרמטר הלא ידוע בהסתברות גבוהה כלשהי 𝛼 ‪.1 −‬‬
‫נרשום זאת בצורה פורמאלית‪:‬‬
‫𝛼 ‪ ≤ 𝐿2 ) = 1 −‬פרמטר לא ידוע ≤ ‪𝑃(𝐿1‬‬
‫לדוגמא‪ ,‬בנינו רווח סמך לאחוז הבוחרים במפלגת הליכוד בבחירות הבאות ברמת ביטחון של‬
‫‪ 95%‬על סמך מדגם מקרי של ‪ 80‬אזרחים והתקבל רווח הסמך הבא‪.[24.3%, 27.8%] :‬‬
‫משמעות התוצאה‪ :‬בהסתברות של ‪ 0.95‬אחוז הבוחרים בבחירות הקרובות למפלגת הליכוד ינוע‬
‫בין ‪ 24.3%‬לבין ‪.27.8%‬‬
‫מה נרצה מרווח הסמך?‬
‫בכדי לקבל רווח סמך יעיל נרצה שיתקיימו עבורו שני התנאים הבאים‪:‬‬
‫‪ .1‬רווח סמך צר‪ ,‬שכן אנו בונים רווח סמך לפרמטר לא ידוע‪ ,‬ונרצה אינטרוול מצומצם אשר‬
‫יכלול כמה שפחות ערכים‪.‬‬
‫‪ .2‬רמת סמך גבוהה‪ ,‬שכן נרצה לדעת שרווח הסמך שבנינו מכסה את הפרמטר הלא ידוע‬
‫בהסתברות גבוהה‪.‬‬
‫נזכור שאת רמת הסמך אנו קובעים מלכתחילה‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬
‫טענה‪ :‬כאשר נגדיל את רמת הסמך (וכל יתר הפרמטרים יישארו ללא שינוי)‪ ,‬אורכו של רווח‬
‫הסמך בהכרח יגדל‪ .‬במילים אחרות‪ ,‬שתי הדרישות הנ"ל באות אחת על חשבון השנייה‪.‬‬
‫נשאלת השאלה – מה עדיף‪ ,‬להגדיל במקצת את רמת הביטחון על חשבון הגדלת אורך רווח‬
‫הסמך‪ ,‬או ההפך? זה כבר תלוי בחוקר ובמקר – אין תשובה החלטית‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪09/05/2021‬‬

‫רמת הביטחון הפופולארית ביותר הינה ‪ ,95%‬ולכן במרבית המחקרים זו רמת הביטחון בה‬
‫משתמשים‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬
‫מקרים שונים של רווחי סמך‬
‫במסגרת נושא זה של רווח סמך נלמד שלושה מקרים של רווחי סמך (עליהם נלמד בהרצאה‬
‫הבאה)‪:‬‬
‫‪ .1‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) ידועה‪.‬‬
‫‪ .2‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה‪.‬‬
‫‪ .3‬רווח סמך לפרופורציה‪.‬‬

‫מקרה 𝟏‪ :‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה)‬


‫ידועה‬
‫במקרה זה יהיה לפנינו משתנה מהתפלגות נורמאלית‪ ,‬אשר התוחלת שלו אינה ידועה‪ .‬השונות‬
‫באוכלוסייה כן תהיה ידועה ונתונה‪:‬‬
‫‪ − 𝜎 2 ,‬ידועה‬ ‫‪ − 𝜇,‬לא ידוע‬ ‫) ‪𝑋 ~ 𝑁(𝜇, 𝜎 2‬‬
‫נרצה לבנות רווח סמך ברמת ביטחון 𝛼 ‪ 1 −‬לתוחלת 𝜇‪ .‬רווח הסמך יהיה מבוסס על ממוצע‬
‫המדגם ̅𝑋‪ .‬ממוצע המדגם יהיה נקודת האמצע של רווח הסמך ומסביב לממוצע נפתח את‬
‫האינטרוול‪.‬‬
‫נוסחא‪ :‬רווח הסמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) ידועה הינו‪:‬‬
‫𝜎‬
‫‪𝑋̅ ±‬‬ ‫𝛼‪⋅ 𝑍1−‬‬
‫𝑛√‬ ‫‪2‬‬

‫כלומר‪ ,‬רווח הסמך הינו‪:‬‬


‫𝜎‬ ‫𝜎‬
‫‪[𝑋̅ −‬‬ ‫‪⋅ 𝑍1−𝛼 , 𝑋̅ +‬‬ ‫] 𝛼‪⋅ 𝑍1−‬‬
‫𝑛√‬ ‫‪2‬‬ ‫𝑛√‬ ‫‪2‬‬

‫הערה‪ :‬ניתן להשתמש בנוסחא זו של רווח הסמך גם אם המשתנה הנחקר אינו מפולג נורמאלית‬
‫בתנאים שברשותנו מדגם בגודל ‪ 30‬ומעלה של תצפיות בלתי תלויות (לפי משפט הגבול המרכזי‪,‬‬
‫ממוצע המדגם מפולג בקירוב נורמאלית)‪.‬‬
‫דוגמא‪ :‬חוקר מעוניין לחשב רווח סמך לתוחלת ציון ה‪ I.Q-‬עבור סטודנטים לרפואה בישראל‪.‬‬
‫לשם כך החוקר דגם ‪ 40‬סטודנטים לרפואה ובדק מהו ציון ה‪ I.Q-‬של כל אחד‪ .‬החוקר קיבל‬
‫שממוצע ציוני ה‪ I.Q--‬של ‪ 40‬הנדגמים הוא ‪ .107.3‬החוקר מניח ששונות ציוני ה‪ I.Q--‬של‬
‫סטודנטים לרפואה שווה לשונות ציוני ה‪ I.Q--‬של כל האוכלוסייה ששווה ל‪( 225-‬סטיית תקן‬
‫‪.)15‬‬
‫מצאו רווח סמך ברמת ביטחון ‪ 95%‬לתוחלת ציוני ה‪ I.Q--‬עבור סטודנטים לרפואה‬ ‫א‪.‬‬
‫בישראל‪.‬‬
‫מה יקרה לרווח הסמך אם נחשבו עבור רמת ביטחון גבוהה יותר של ‪ ?99%‬חשבו אותו‬ ‫ב‪.‬‬
‫מחדש עבור רמת ביטחון זו‪.‬‬
‫ידוע שתוחלת ציוני ה‪ I.Q-‬בעולם שווה ל‪ .100-‬לאור התוצאה שקיבלתם בסעיף א'‪ ,‬קבעו‬ ‫ג‪.‬‬
‫האם ניתן להסיק ברמת ביטחון של ‪ 95%‬שתוחלת ציוני ה‪ I.Q-‬של סטודנטים לרפואה‬
‫בישראל גבוהה מהתוחלת העולמית המקובלת‪.‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪09/05/2021‬‬

‫פתרון‪:‬‬
‫בדוגמא זו גודל המדגם מעל ‪ 30‬ולכן אין צורך בהנחה שההתפלגות המקורית (ציוני ‪I.Q‬‬ ‫א‪.‬‬
‫של סטודנטים לרפואה) הינה נורמאלית‪.‬‬
‫𝛼‬
‫תחילה נחשב את הגודל ‪ .1 − 2‬רוצים רמת סמך של ‪ ,0.95‬ולכן‪:‬‬
‫𝛼‬ ‫𝛼‬
‫⟹ ‪1 − 𝛼 = 0.95 ⟹ 𝛼 = 0.05‬‬ ‫‪= 0.025 ⟹ 1 − = 1 − 0.025 = 0.975‬‬
‫‪2‬‬ ‫‪2‬‬
‫נמצא את רווח הסמך‪:‬‬
‫𝜎‬ ‫‪15‬‬ ‫‪15‬‬
‫‪𝑋̅ ±‬‬ ‫‪⋅ 𝑍1−𝛼 = 107.3 ±‬‬ ‫‪⋅ 𝑍0.975 = 107.3 ±‬‬ ‫= ‪⋅ 1.96 = 107.3 ± 4.65‬‬
‫𝑛√‬ ‫‪2‬‬ ‫‪√40‬‬ ‫‪√40‬‬
‫]‪= [102.65, 111.95‬‬
‫משמעות התוצאה‪ :‬קיבלנו שרווח הסמך לתוחלת ציוני ה‪ I.Q-‬של סטודנטים לרפואה הינו‬
‫האינטרוול ]‪ [102.65, 111.95‬ברמת ביטחון של ‪.95%‬‬
‫כלומר‪ ,‬התוחלת האמיתית של ציוני ה‪ I.Q-‬בקרב כל הסטודנטים לרפואה (שאינה ידועה) נמצאת‬
‫בין ‪ 102.65‬לבין ‪ 111.95‬בהסתברות של ‪ .0.95‬בצורה פורמאלית‪:‬‬
‫‪𝑃(102.65 ≤ 𝜇 ≤ 111.95) = 0.95‬‬
‫רווח הסמך יגדל לאינטרוול הבא‪.[101.19, 113.41] :‬‬ ‫ב‪.‬‬

‫כן‪ ,‬מכיוון שכל רווח הסמך שקיבלנו בסעיף א' נמצא מימין ל‪ .100-‬במילים אחרות‪,‬‬ ‫ג‪.‬‬
‫אפילו הגבול התחתון של רווח הסמך )‪ (102.65‬גבוה מ‪( .100-‬במידה וחלק מרווח‬
‫הסמך היה משמאל ל‪ 100-‬לא היינו יכולים לקבוע שתוחלת ציוני ה‪ I.Q-‬של סטודנטים‬
‫לרפואה בישראל גבוהה מהתוחלת העולמית ברמת ביטחון ‪.95%‬‬
‫אורך רווח הסמך‬
‫אורך רווח הסמך (המסומן באות 𝑙) הינו ההפרש בין הגבול העליון של רווח הסמך לגבול התחתון‪.‬‬
‫אם כל‪ ,‬מקבלים שאורך רווח הסמך הינו הביטוי הבא‪:‬‬
‫𝜎‬
‫⋅‪𝑙 = 2‬‬ ‫𝛼‪⋅ 𝑍1−‬‬
‫𝑛√‬ ‫‪2‬‬

‫בדוגמא שהצגנו‪ ,‬בסעיף הראשון ‪ ,𝑙 = 9.3‬ובסעיף השני אורך רווח הסמך גדל ל‪.𝑙 = 12.22-‬‬
‫ניתן לראות מנוסחת אורך רווח הסמך ששלושה גורמים משפיעים על אורך רווח הסמך‪ :‬גודל‬
‫המדגם‪ ,‬סטיית התקן באוכלוסייה ורמת הביטחון‪ .‬נראה איך כל מרכיב מהשלושה משפיע על‬
‫אורכו של רווח הסמך‪.‬‬
‫ככל שסטיית התקן באוכלוסייה גדולה יותר‪ ,‬כך אורכו של רווח הסמך גדול יותר‪.‬‬
‫לעומת זאת‪ ,‬הגדלת גודל המדגם מקטינה את אורכו של רווח הסמך (שכן 𝑛 נמצא במכנה השבר)‪.‬‬
‫𝛼‬
‫ככל שרמת הביטחון גדלה‪ ,‬כך גדל הביטוי ‪ ,1 − 2‬ובעקבותיו גדל הביטוי 𝛼‪ .𝑍1−‬אם כן‪ ,‬רמת‬
‫‪2‬‬
‫ביטחון גדולה יותר מגדילה את אורכו של רווח הסמך‪.‬‬
‫מהאמור לעיל נובע שניתן גם להגדיל את רמת הביטחון וגם להקטין את אורכו של רווח הסמך‬
‫על‪-‬ידי הגדלת גודל המדגם 𝑛‪.‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪09/05/2021‬‬

‫מקרה 𝟐‪ :‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה)‬


‫אינה ידועה‬
‫במקרה זה יהיה לפנינו משתנה מהתפלגות נורמאלית‪ ,‬אשר התוחלת שלו אינה ידועה וגם השונות‬
‫שלו אינה ידועה‪:‬‬
‫‪ − 𝜎 2 ,‬אינה ידועה‬ ‫‪ − 𝜇,‬לא ידוע‬ ‫) ‪𝑋 ~ 𝑁(𝜇, 𝜎 2‬‬
‫נרצה לבנות רווח סמך ברמת ביטחון 𝛼 ‪ 1 −‬לתוחלת 𝜇‪ .‬כמו במקרה הקודם‪ ,‬גם הפעם רווח‬
‫הסמך יהיה מבוסס על ממוצע המדגם‪ .‬ההבדל היחיד הוא שהפעם השונות אינה ידועה ולכן‬
‫נצטרך לאמוד אותה על סמך המדגם‪.‬‬
‫אמידת השונות‬
‫את השונות באוכלוסייה ‪ 𝜎 2‬שאינה ידועה במקרה זה נאמוד על סמך השונות במדגם לפי הנוסחא‬
‫הבאה‪:‬‬
‫‪∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2‬‬ ‫‪∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2‬‬
‫= ‪𝑆2‬‬ ‫=⋯=‬
‫‪𝑛−1‬‬ ‫‪𝑛−1‬‬
‫לאחר שחישבנו את שונות המדגם‪ ,‬נוציא שורש כדי לקבל את סטיית התקן של המדגם‪ ,‬כלומר‪,‬‬
‫את 𝑆‪ .‬לכן‪ ,‬בנוסחא של רווח הסמך שקיבלנו למקרה ‪ 1‬נחליף כעת את 𝜎 ב‪.𝑆 -‬‬

‫הבדל נוסף בין מקרה 𝟏 למקרה 𝟐‬


‫מכיוון שאמדנו את השונות על סמך מדגם‪ ,‬כאשר אנו מנרמלים את ממוצע המדגם לא נקבל גורם‬
‫הסתברותי הלקוח מההתפלגות הנורמאלית הסטנדרטית 𝑍‪ ,‬אלא נקבל גורם הסתברותי הלקוח‬
‫מהתפלגות אחרת (שונה במקצת)‪ ,‬הנקראת התפלגות 𝑡‪.‬‬

‫התפלגות 𝒕‬
‫התפלגות 𝑡‪ ,‬כמו התפלגות 𝑍‪ ,‬הינה התפלגות סימטרית סביב הערך ‪ ,0‬אלא שיש לה פיזור מעט‬
‫גדול יותר ביחס ל‪ :𝑍 -‬היא נמוכה יותר במרכז ההתפלגות וגבוהה יותר בקצוות‪.‬‬
‫להתפלגות זו יש פרמטר הנקרא דרגות חופש (ד"ח) והוא נקבע על‪ -‬סמך גודל המדגם פחות אחד‪:‬‬
‫ד"ח = ‪.𝑛 − 1‬‬
‫פרמטר זה קובע עד כמה ההתפלגות 𝑡‬
‫מפוזרת יותר ביחס להתפלגות 𝑍‪ .‬ככל‬
‫שלהתפלגות 𝑡 יותר דרגות חופש‪ ,‬כך היא‬
‫קרובה יותר להתפלגות 𝑍‪ ,‬וההפך‪.‬‬
‫ההתפלגות 𝑡 עם ‪ 30‬דרגות חופש ומעלה‬
‫כבר מאוד קרובה להתפלגות 𝑍‪ ,‬ולכן‬
‫במקרה זה נוכל להשתמש בערכי התפלגות‬
‫𝑍‪.‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪09/05/2021‬‬

‫טבלת התפלגות 𝒕‪ :‬שורות טבלת 𝑡 מציינות את דרגות החופש‪ .‬ניתן לראות שיש אינפורמציה עבור‬
‫דרגות חופש החל מ‪ 1-‬ועד ל‪ 30-‬באופן רציף‪.‬‬
‫רווח סמך (בניגוד לבדיקת השערות) הינו תמיד דו‪-‬צדדי‪ ,‬ולכן נשתמש בנושא זה רק בחלק של‬
‫טבלת 𝒕 המתאים למבחן דו‪-‬צדדי‪.‬‬
‫את רמת הביטחון הינה לדוגמא ‪ 95%‬נובע ש‪ .1 − 𝛼 = 0.95-‬כלומר‪ ,‬במקרה זה ‪,𝛼 = 0.05‬‬
‫ולכן יהיה עלינו לבדוק מהו הערך המתאים בטבלת 𝑡 למבחן דו‪-‬צדדי בעמודה ‪.0.05‬‬

‫רווח הסמך למקרה 𝟐‬


‫רווח הסמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה הינו‪:‬‬
‫𝑆‬
‫‪𝑋̅ ±‬‬ ‫)‪⋅ 𝑡(𝑛−1‬‬
‫𝑛√‬
‫כלומר‪ ,‬רווח הסמך הינו‪:‬‬
‫𝑆‬ ‫‪S‬‬
‫‪[𝑋̅ −‬‬ ‫‪⋅ 𝑡(𝑛−1) , 𝑋̅ +‬‬ ‫] )‪⋅ 𝑡(𝑛−1‬‬
‫𝑛√‬ ‫𝑛√‬
‫הערה‪ :‬כאשר מספר דרגות החופש מעל ‪ 30‬נשתמש בהתפלגות 𝑍 ולא בהתפלגות 𝑡‪ ,‬מכיוון‬
‫שההבדלים בין שתי ההתפלגויות כבר זניחים‪.‬‬
‫דוגמא‪ :‬מעוניינים לבנות רווח סמך לתוחלת רמת ההמוגלובין בדם בקרב נשים בהריון‪ .‬לשם כך‬
‫דגמנו ‪ 10‬נשים ובדקנו עבור כל אחת את רמת ההמוגלובין בדם‪ .‬הניחו שהמשתנה הנחקר (רמת‬
‫ההמוגלובין בדם בקרב נשים בהריון) מפולג נורמאלית‪.‬‬
‫להלן רמות ההמוגלובין שנמצאו במדגם של ‪ 10‬הנשים‪:‬‬
‫‪13.8, 14.2, 12.2, 12.5, 15, 11.3, 14.1, 9.7, 15.5, 13‬‬
‫בנו רווח סמך ברמת ביטחון ‪ 95%‬לתוחלת רמת ההמוגלובין בדם בקרב נשים בהריון‪.‬‬
‫פתרון‪ :‬תחילה נחשב את ממוצע רמת ההמוגלובין בדם‪:‬‬
‫‪13.8 + ⋯ + 13 131.3‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 13.13‬‬
‫‪10‬‬ ‫‪10‬‬
‫נחשב את השונות וסטיית התקן של רמת ההמוגלובין במדגם‪:‬‬

‫‪2‬‬
‫‪∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2 13.82 + 14.22 + ⋯ + 132 − 10 ⋅ (13.13)2 28.041‬‬
‫= 𝑆‬ ‫=‬ ‫=‬ ‫=‬
‫‪𝑛−1‬‬ ‫‪9‬‬ ‫‪9‬‬
‫‪= 3.11‬‬
‫‪𝑆 = 1.76‬‬
‫נבדוק בלוח 𝑡 (דו‪-‬צדדי) מהו הערך עבור ‪ (10 − 1) 9‬דרגות חופש (יש לבדוק תחת מבחן דו‪-‬‬
‫צדדי)‪:‬‬
‫‪𝑡(𝑛−1) − 𝑡(9) = 2.262‬‬
‫רווח הסמך לתוחלת רמת ההמוגלובין בקרב נשים בהריון‪:‬‬
‫𝑆‬ ‫‪1.76‬‬
‫‪𝑋̅ ±‬‬ ‫‪⋅ 𝑡(𝑛−1) = 13.13 ±‬‬ ‫]‪⋅ 2.262 = 13.13 ± 1.26 = [11.87, 14.39‬‬
‫𝑛√‬ ‫‪√10‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪09/05/2021‬‬

‫משמעות התוצאה‪ :‬בביטחון ‪ 95%‬ניתן לומר שתוחלת רמת ההמוגלובין בדם של נשים בהריון‬
‫נעה בין ‪ 11.87‬לבין ‪.14.39‬‬
‫סיכום ביניים‬
‫עד כה הצגנו את שני המקרים הבאים של רווח סמך‪:‬‬
‫רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה( ידועה‪.‬‬ ‫‪-‬‬
‫רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה‪.‬‬ ‫‪-‬‬
‫רווח הסמך הראשון התבסס על התפלגות 𝑍‪ ,‬בעוד השני התבסס על התפלגות 𝑡 מכיוון שאמדנו‬
‫את השונות באוכלוסייה על סמך השונות במדגם‪.‬‬
‫נציג מקרה נוסף של רווח סמך‪ :‬רווח סמך לפרופורציה‪.‬‬

‫מקרה 𝟑‪ :‬רווח סמך לפרופורציה‬


‫בניגוד לשני המקרים הקודמים‪ ,‬ההתפלגות המקורית איננה התפלגות נורמאלית אלא התפלגות‬
‫אחרת (התפלגות ברנולית)‪ .‬כעת כל נדגם (תצפית) יכול לקבל שני מצבים בלבד‪" :‬הצלחה"‬
‫ו"כישלון"‪ .‬יהיו לפנינו 𝑛 נדגמים כאלו בלתי תלויים זה בזה‪.‬‬
‫דוגמאות‪ :‬רווח סמך לפרופורציית המעשנים בקרב מבוגרים בישראל; רווח סמך לפרופורציית‬
‫התומכים במועמד א' לראשות העיר ירושלים; רווח סמך לפרופורציית המוצרים הפגומים בפס‬
‫ייצור‪.‬‬
‫בכל הדוגמאות הללו המשתנה הנחקר יכול לקבל אך ורק שתי תוצאות ביחס לשאלת המחקר‪.‬‬

‫בניית רווח סמך למקרה 𝟑‬


‫אם כך‪ ,‬נבנה את רווח הסמך למקרה ‪ 3‬לפי המבנה הכללי של רווח הסמך‪ :‬האומד הנקודתי‬
‫לפרמטר לא ידוע פלוס‪/‬מינוס סטיית התקן שלו כפול גורם הסתברותי מהתפלגות 𝑍 או 𝑡‪.‬‬
‫נשים לב שההתפלגות המקורית אינה נורמאלית‪ ,‬ולכן כדי שנוכל להשתמש במשפט הגבול המרכזי‬
‫עלינו להבטיח שגודל המדגם יהיה מעל ‪ .30‬לכן‪ ,‬בכל הדוגמאות במקרה ‪ 3‬גודם המדגם יהיה מעל‬
‫‪.30‬‬
‫כזכור מהמקרה הקודם‪ ,‬כאשר גודל המדגם מעל ‪ 30‬נהוג להשתמש בהתפלגות 𝑍 גם אם השונות‬
‫אינה ידועה‪ ,‬שכן ההבדלים בין שתי ההתפלגות ( 𝑍 ו‪ 𝑡-‬מינוריים)‪.‬‬

‫נוסחת רווח סמך לפרופורציה (מקרה 𝟑)‬


‫רווח הסמך לפרופורציה ברמת ביטחון 𝛼 ‪ 1 −‬הינו‪:‬‬

‫̂𝑞 ⋅ ̂𝑝‬
‫√ ‪𝑝̂ ±‬‬ ‫𝛼‪⋅ 𝑍1−‬‬
‫𝑛‬ ‫‪2‬‬

‫כאשר ̂𝑝 הינו הפרופורציה במדגם‪.‬‬


‫לדוגמא‪ ,‬אם מעוניינים לבנות רווח סמך לפרופורציית המעשנים באוכלוסייה‪ ,‬ודגמנו ‪ 100‬אנשים‬
‫‪35‬‬
‫ומצאנו ש‪ 35-‬מתוכם מעשנים‪ ,‬נקבל ש‪.𝑝̂ = 100 = 0.35-‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪09/05/2021‬‬

‫דוגמא‪ :‬לראשות העיר ירושלים שני מועמדים‪ :‬מועמד א' ומועמד ב'‪ .‬מתוך סקר שנערך ערב‬
‫הבחירות בקרב ‪ 100‬תושבי העיר נמצא ש‪ 58-‬מהם תומכים במועמד א' והיתר במועמד ב'‪.‬‬
‫בנו רווח סמך לפרופורציית התומכים במועמד א' ברמת סמך ‪.0.95‬‬ ‫א‪.‬‬
‫לאור תוצאת רווח הסמך שקיבלתם קבעו האם למועמד ב' יש עדיין סיבות לאופטימיות‬ ‫ב‪.‬‬
‫ברמת ביטחון ‪.95%‬‬
‫חשבו רווח סמך לפרופורציית התומכים במועמד א' עבור רמת ביטחון של ‪.99%‬‬ ‫ג‪.‬‬
‫פתרון‪:‬‬
‫תחילה נחשב את פרופורציית התומכים במועמד א' במדגם‪ .‬נתון ש‪ 58-‬מתוך ה‪100-‬‬ ‫א‪.‬‬
‫שבמדגם תמכו במועמד א'‪ ,‬ולכן ‪.𝑝̂ = 0.58‬‬

‫רווח הסמך לפרופורציית התומכים במועמד א' ברמת סמך ‪:0.95‬‬

‫̂𝑞 ⋅ ̂𝑝‬ ‫‪0.58 ⋅ 0.42‬‬ ‫‪0.58 ⋅ 0.42‬‬


‫√ ‪𝑝̂ ±‬‬ ‫√ ‪⋅ 𝑍1−𝛼 = 0.58 ±‬‬ ‫√ ‪⋅ 𝑍0.975 = 0.58 ±‬‬ ‫= ‪⋅ 1.96‬‬
‫𝑛‬ ‫‪2‬‬ ‫‪100‬‬ ‫‪100‬‬
‫]‪= 0.58 ± 0.097 = [0.483, 0.677‬‬
‫נפרש תחילה את תוצאת רווח הסמך שהתקבלה‪ :‬ברמת ביטחון של ‪ 95%‬אחוז הבוחרים‬ ‫ב‪.‬‬
‫במועמד א' בבחירות לראשות העיר ינוע בין ‪ 48.3%‬לבין ‪ .67.7%‬מכיוון שרווח הסמך‬
‫כולל את הערך ‪ ,(50%) 0.5‬למועמד ב' עדיין יש סיבות לאופטימיות ברמת ביטחון זו‪.‬‬

‫מה שמשתנה לעומת סעיף א' זה רק ערך 𝑍 שיהיה כעת גבוה יותר‪.‬‬ ‫ג‪.‬‬
‫𝛼‬ ‫‪0.01‬‬
‫‪1−‬‬ ‫‪= 1−‬‬ ‫‪= 0.995‬‬
‫‪2‬‬ ‫‪2‬‬
‫‪𝑍1−𝛼 = 𝑍0.995 = 2.57‬‬
‫‪2‬‬

‫רווח הסמך שמתקבל הינו‪:‬‬

‫̂𝑞 ⋅ ̂𝑝‬ ‫‪0.58 ⋅ 0.42‬‬


‫√ ‪𝑝̂ ±‬‬ ‫√ ‪⋅ 𝑍1−𝛼 = 0.58 ±‬‬ ‫]‪⋅ 2.57 = 0.58 ± 0.127 = [0.453, 0.707‬‬
‫𝑛‬ ‫‪2‬‬ ‫‪100‬‬

‫כצפוי‪ ,‬רווח הסמך כעת רחב יותר‪.‬‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪9‬‬
‫נושא ההרצאה‪ :‬בדיקת השערות על התוחלת כאשר השונות‬
‫באוכלוסייה ידועה‬
‫בדיקת השערות על התוחלת‬
‫בהרצאה זו נציג מבחן לבדיקת השערות על התוחלת בהתפלגות נורמאלית כאשר השונות‬
‫באוכלוסייה ידועה‪.‬‬
‫במבחן זה אנו בודקים השערות בנוגע לתוחלת של קבוצה מסוימת בהשוואה לתוחלת המקובלת‬
‫בקרב כלל האוכלוסייה‪.‬‬
‫מבחן זה מניח התפלגות נורמאלית של הנתונים מהם נלקח המדגם‪ .‬ניתן לוותר על הנחה זו כאשר‬
‫גודל המדגם גדול (מעל ‪ 30‬תצפיות)‪.‬‬
‫מבחן זה מתבסס על ההתפלגות הנורמאלית – הערך הקריטי אשר בו נשתמש לצורך הכרעה בין‬
‫ההשערות יילקח מההתפלגות הנורמאלית הסטנדרטית 𝑍‪.‬‬
‫במבחן זה יהיה נתון לנו בשאלה מדגם יחיד מההתפלגות אותה אנו רוצים לבחון‪ .‬עבור מדגם זה‬
‫נחשב ממוצע (או שהממוצע יהיה כבר נתון לנו בשאלה)‪ .‬כמו‪-‬כן‪ ,‬במבחן זה תהיה נתונה לנו‬
‫התוחלת של כלל האוכלוסייה‪ .‬אנו נשווה בין הממוצע שחושב עבור הקבוצה הנבחנת לתוחלת של‬
‫כלל האוכלוסייה‪ ,‬ובהתאם לערכים אלו ולערכים נוספים נכריע בין שתי ההשערות‪.‬‬
‫במבחן זה השונות (או סטיית התקן) של האוכלוסייה כולה תהיה ידועה ונתונה עבורנו בשאלה‪.‬‬
‫במבחן הבא שנציג (מבחן 𝑡 – הרצאה ‪ )10‬השונות באוכלוסייה לא תהיה ידועה ונצטרך בין היתר‬
‫לאמוד אותה על סמך המדגם‪.‬‬
‫ניסוח ההשערות‬
‫במבחן לבדיקת השערות על התוחלת ההשערות יכולות להיות דו‪-‬צדדיות (ללא כיוון( או חד‪-‬‬
‫צדדיות (עם כיוון) בהתאם לניסוח שאלת המחקר בשאלה‪ .‬נמחיש זאת בדוגמאות הבאות‪:‬‬
‫דוגמא 𝟏‪ :‬בבית ספר כלשהו ממוצע הציונים במתמטיקה הינו ‪ .75‬לאחרונה הופעלה שיטת לימוד‬
‫חדשה להוראת המתמטיקה‪ .‬מנהל בית ספר מעוניין לבדוק את הטענה ששיטת ההוראה החדשה‬
‫הביאה לשינוי ברמת הציונים במתמטיקה‪.‬‬
‫סוג ההשערות לדוגמא 𝟏‪ :‬בדוגמא זו מדובר בהשערות דו‪-‬צדדיות מכיוון שלהשערת המחקר ‪𝐻1‬‬
‫אין כיוון (למילה "שינוי" אין כיוון)‪.‬‬
‫ננסח את ההשערות עבור דוגמא 𝟏‪:‬‬
‫‪ :𝐻0‬ממוצע הציונים בשיטת הלימוד החדשה אינו שונה ממוצע הציונים שהיה לפני הפעלת‬
‫השיטה‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים בשיטת הלימוד החדשה שונה מממוצע הציונים שהיה לפני הפעלת השיטה‪.‬‬
‫דוגמא 𝟐‪ :‬בבית ספר כלשה ממוצע הציונים במתמטיקה הינו ‪ .75‬לאחרונה הופעלה שיטת לימוד‬
‫חדשה להוראת המתמטיקה‪ .‬מנהל בית ספר מעוניין לבדוק את הטענה ששיטת ההוראה החדשה‬
‫הביאה לעלייה ברמת הציונים במתמטיקה‪.‬‬
‫סוג ההשערות לדוגמא 𝟐‪ :‬בדוגמא זו שינינו מילה אחת בלבד – במקום "שינוי" רשמנו "עלייה"‪.‬‬
‫לכו‪ ,‬בדוגמא זו מדובר בהשערות חד‪-‬צדדיות‪ ,‬מכיוון שלהשערת המחקר ‪ 𝐻1‬יש כיוון (למילה‬
‫"עלייה" יש כיוון)‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫ננסח את ההשערות עבור דוגמא 𝟐‪:‬‬


‫‪ :𝐻0‬ממוצע הציונים בשיטת הלימוד החדשה אינו גבוה מממוצע הציונים שהיה לפני הפעלת‬
‫השיטה‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים בשיטת הלימוד החדשה גבוה מממוצע הציונים שהיה לפני הפעלת השיטה‪.‬‬
‫דוגמא 𝟑‪ :‬בבית ספר כלשהו ממוצע הציונים במתמטיקה הינו ‪ .75‬לאחרונה הופעלה שיטת לימוד‬
‫חדשה להוראת המתמטיקה‪ .‬מנהל בית ספר מעוניין לבדוק את הטענה ששיטת ההוראה החדשה‬
‫הביאה לירידה ברמת הציונים במתמטיקה‪.‬‬
‫בדוגמא זו מדובר בהשערות חד‪-‬צדדיות אשר הפוכות מאלו של דוגמא ‪ – 2‬הפעם ‪ 𝐻1‬טוענת שיש‬
‫ירידה בציונים עקב שינוי שיטת הלימוד‪.‬‬
‫‪ :𝐻0‬ממוצע הציונים בשיטת הלימוד החדשה אינו נמוך מממוצע הציונים שהיה לפני הפעלת‬
‫השיטה‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים בשיטת הלימוד החדשה נמוך מממוצע הציונים שהיה לפני הפעלת השיטה‪.‬‬
‫אזורי הדחייה בדוגמאות שהוצגו‪:‬‬
‫בדוגמא מס' ‪ 1‬מדובר בהשערות דו‪-‬צדדיות‪ ,‬ולכן בדוגמא ‪ 1‬אזור הדחייה של ‪ 𝐻0‬יהיה‬ ‫‪-‬‬
‫בשני הקצוות של ההתפלגות הנורמאלית‪.‬‬
‫בדוגמא מס' ‪ 2‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬כאשר ‪ 𝐻1‬טוענת שחלה עלייה ברמת‬ ‫‪-‬‬
‫הציונים‪ ,‬ולכן בדוגמא ‪ 2‬אזור הדחייה של ‪ 𝐻0‬יהיה בזנב הימני של ההתפלגות‬
‫הנורמאלית‪.‬‬
‫בדוגמא מס' ‪ 3‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬כאשר ‪ 𝐻1‬טוענת שחלה ירידה ברמת‬ ‫‪-‬‬
‫הציונים‪ ,‬ולכן בדוגמא ‪ 3‬אזור הדחייה של ‪ 𝐻0‬יהיה בזנב השמאלי של ההתפלגות‬
‫הנורמאלית‪.‬‬
‫חישוב ערך הסטטיסטי‬
‫כדי להכריע בין ‪ 𝐻0‬לבין ‪ 𝐻1‬נחשב את ערך הסטטיסטי המבוסס על נתוני המדגם‪ .‬לאחר מכן‬
‫נשווה את ערך הסטטיסטי לערך קריטי הלקוח מההתפלגות הנורמאלית‪ ,‬בהתאם לרמת‬
‫המובהקות הנתונה בשאלה‪.‬‬
‫ערך הסטטיסטי לבדיקת ההשערות על הממוצע מסומן ב‪ ,𝑍𝑋̅ -‬ולכן נוסחתו‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬
‫= ̅𝑋𝑍‬ ‫𝜎‬
‫𝑛√‬
‫כאשר‪:‬‬
‫̅𝑋 הינו ממוצע המדגם‬ ‫‪-‬‬
‫𝜇 הינו הממוצע באוכלוסייה שהיה מקובל עד כה‬ ‫‪-‬‬
‫𝜎 הינה סטיית התקן באוכלוסייה (ערך זה יהיה נתון בשאלה)‬ ‫‪-‬‬
‫𝑛 הינו גודל המדגם‬ ‫‪-‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫מציאת הערך הקריטי‬


‫לאחר שחישבנו את ערך הסטטיסטי‪ ,‬יש להשוותו לערך קריטי הלקוח מההתפלגות הנורמאלית‬
‫(בהתאם לרמת המובהקות הנתונה בשאלה) כדי להכריע בין שתי ההשערות‪.‬‬
‫באופן כללי‪ ,‬אם ערך הסטטיסטי שחושב קיצוני יותר (גדול יותר בערכו המוחלט) מהערך הקריטי‬
‫הלקוח מההתפלגות הנורמאלית 𝑍‪ ,‬נדחה את השערת האפס‪ ,‬ואילו אם ערך הסטטיסטי שחושב‬
‫אינו קיצוני יותר מהערך הקריטי‪ ,‬לא נדחה את השערת האפס‪.‬‬
‫בהמשך נפרט את כלל הדחייה עבור מבחן חד‪-‬צדדי ועבור מבחן דו‪-‬צדדי‪.‬‬
‫כלל הדחייה במבחן חד‪-‬צדדי‬
‫כאשר עלינו להכריע בין השערות ומדובר בהשערות חד‪-‬צדדיות‪:‬‬
‫לאחר שחישבנו את ערך הסטטיסטי ̅𝑋𝑍 עלינו לבדוק בטבלת ההתפלגות הנורמאלית 𝑍 מהו הערך‬
‫הקריטי 𝛼‪.𝑍1−‬‬
‫בשלב הבא‪ ,‬נשווה בין שני ערכים אלו‪:‬‬
‫אם 𝛼‪ ,|𝑍𝑋̅ | ≥ 𝑍1−‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אם 𝛼‪ ,|𝑍𝑋̅ | < 𝑍1−‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אזורי הדחייה במבחן חד‪-‬צדדי ימני‪:‬‬

‫דוגמא‪ :‬נניח שרוצים לבדוק את ההשערות עבור רמת מובהקות ‪ 0.05‬ומדובר בהשערות חד‪-‬‬
‫צדדיות‪.‬‬
‫תחילה‪ ,‬נבדוק מהו הערך 𝛼‪ 𝑍1−‬בטבלת ההתפלגות הנורמאלית 𝑍‪.‬‬
‫‪𝑍1−𝛼 = 𝑍1−0.05 = 𝑍0.95 = 1.64‬‬
‫כעת‪ ,‬יש להשוות את ערך הסטטיסטי לערך הקריטי ‪ 1.64‬באופן הבא‪:‬‬
‫אם ‪ ,|𝑍𝑋̅ | ≥ 1.64‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אם ‪ ,|𝑍𝑋̅ | < 1.64‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫כלל הדחייה במבחן דו‪-‬צדדי‬


‫כאשר עלינו להכריע בין שתי השערות ומדובר בהשערות דו‪-‬צדדיות‪:‬‬
‫לאחר שחישבנו את ערך הסטטיסטי ̅𝑋𝑍 עלינו לבדוק בטבלת ההתפלגות הנורמאלית 𝑍 מהו הערך‬
‫הקריטי 𝛼‪.𝑍1−‬‬
‫‪2‬‬

‫בשלב הבא‪ ,‬נשווה בין שני ערכים אלו‪:‬‬


‫אם 𝛼‪ ,|𝑍𝑋̅ | ≥ 𝑍1−‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫‪2‬‬
‫אם 𝛼‪ ,|𝑍𝑋̅ | < 𝑍1−‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫‪2‬‬

‫אזורי הדחייה במבחן דו‪-‬צדדי‪:‬‬

‫דוגמא‪ :‬נניח שרוצים לבדוק את ההשערות עבור רמת מובהקות ‪ 0.05‬ומדובר בהשערות דו‪-‬‬
‫צדדיות‪.‬‬
‫תחילה‪ ,‬נבדוק מהו הערך 𝛼‪ 𝑍1−‬בטבלת ההתפלגות הנורמאלית 𝑍‪.‬‬
‫‪2‬‬

‫𝑍 = 𝛼‪𝑍1−‬‬ ‫‪0.05‬‬ ‫‪= 𝑍1−0.025 = 𝑍0.975 = 1.96‬‬


‫‪2‬‬ ‫‪1−‬‬
‫‪2‬‬

‫כעת‪ ,‬יש להשוות את ערך הסטטיסטי לערך הקריטי ‪ 1.96‬באופן הבא‪:‬‬


‫אם ‪ ,|𝑍𝑋̅ | ≥ 1.96‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אם ‪ ,|𝑍𝑋̅ | < 1.96‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫דוגמא‪ :‬בבית ספר כלשהו ממוצע הציונים במתמטיקה הינו ‪ 75‬וסטיית התקן ‪ .12‬לאחרונה‬
‫הופעלה שיטת לימוד חדשה להוראת המתמטיקה‪ .‬מנהל בית ספר מעוניין לבדוק את הטענה‬
‫ששיטת ההוראה החדשה הביאה לשינוי ברמת הציונים במתמטיקה‪ .‬לשם כך לקח מדגם של ‪50‬‬
‫תלמידים אשר למדו בשיטת ההוראה החדשה ונמצא כי ממוצע ציוניהם הינו ‪.77.4‬‬
‫בדקו את הטענה כי חל שינוי ברמת הציונים במתמטיקה ברמת מובהקות של ‪.0.05‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫פתרון‪ :‬מדובר בהשערות דו‪-‬צדדיות (להשערת המחקר אין כיוון)‪:‬‬


‫‪ :𝐻0‬ממוצע הציונים לאחר הפעלת שיטת הלימוד החדשה אינו שונה מממוצע הציונים שהיה לפני‬
‫הפעלת השיטה‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים לאחר הפעלת שיטת הלימוד החדשה שונה מממוצע הציונים שהיה לפני‬
‫הפעלת השיטה‪.‬‬
‫בשלב הבא נחשב את ערך הסטטיסטי‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬ ‫‪77.4 − 75‬‬ ‫‪2.4‬‬
‫= ̅𝑋𝑍‬ ‫= 𝜎‬ ‫=‬ ‫‪= 1.41‬‬
‫‪12‬‬ ‫‪1.697‬‬
‫𝑛√‬ ‫‪√50‬‬
‫נמצא את הערך הקריטי (עבור מבחן דו‪-‬צדדי)‪:‬‬
‫𝑍 = 𝛼‪𝑍1−‬‬ ‫‪0.05‬‬ ‫‪= 𝑍0.975 = 1.96‬‬
‫‪2‬‬ ‫‪1−‬‬
‫‪2‬‬

‫השוואה בין ערך הסטטיסטי לערך הקריטי‪:‬‬


‫ערך הסטטיסטי )‪ (1.41‬אינו קיצוני יותר מהערך הקריטי )‪ ,(1.96‬או בצורה פורמאלית יותר‪:‬‬
‫‪ , |𝑍𝑋̅ | = 1.41 < 1.96‬ולכן לא נדחה את ‪ 𝐻0‬עבור רמת מובהקות של ‪.0.05‬‬
‫במילים אחרות‪ ,‬ערך הסטטיסטי "נופל" באזור הקבלה של ‪ ,𝐻0‬ולכן מקבלים את ‪.𝐻0‬‬
‫מסקנה‪ :‬ממוצע הציונים בשיטת הלימוד החדשה דומה לממוצע הציונים שהיה לפני כן‪ .‬במילים‬
‫אחרות‪ ,‬לא כדאי לאמץ את שיטת הלימוד החדשה שכן לא נמצא באופן מובהק שהיא משנה את‬
‫ציוני התלמידים‪.‬‬

‫‪( 𝒑-value‬ערך 𝒑)‬


‫‪ 𝒑-value‬הינה רמת המובהקות המינימאלית עבורה נדחה את 𝟎𝑯‪.‬‬
‫במילים אחרות‪ ,‬זוהי רמת המובהקות הראשונה (הנמוכה ביותר) עבורה כבר נדחה את השערת‬
‫האפס‪ .‬נסמנה בקיצור באות 𝑝‪.‬‬
‫אנו יודעים שאם אנו דוחים את ‪ 𝐻0‬ברמת מובהקות ‪ 0.05‬נובע ש‪ ,𝑝 < 0.05-‬ואם אנו לא דוחים‬
‫את ‪ 𝐻0‬ברמת מובהקות ‪ 0.05‬נובע ש‪.𝑝 > 0.05-‬‬
‫במבחן לבדיקת השערות המתואר בהרצאה זו אנו יכולים לחשב את הערך המדויק של ה‪-‬‬
‫‪ 𝑝-value‬עבור דוגמא כלשהי (ולא רק לדעת אם הוא גדול או קטן מ‪.)0.05-‬‬
‫הסיבה לכך שנוכל למצוא את ערך 𝑝 המדויק הינה בגלל שהמבחן מתבסס על ההתפלגות‬
‫הנורמאלית 𝑍 עבורה נוכל למצוא ערך מדויק בעזרת הטבלה‪.‬‬
‫אופן חישוב ה‪:𝒑-value-‬‬
‫כאמור‪ ,‬ה‪ 𝑝-value-‬הינו רמת המובהקות המינימאלית עבורה נדחה את ‪ .𝐻0‬אנו דוחים את ‪𝐻0‬‬
‫כאשר ערך הסטטיסטי המחושב קיצוני יותר מהערך הקריטי הנמצא בטבלת 𝑍‪ .‬לכן‪ ,‬כדי לדחות‬
‫את ‪ 𝐻0‬לראשונה עלינו לקחת רמת מובהקות אשר מכסה בדיוק את ערך הסטטיסטי‪ .‬לכן‪ ,‬ה‪-‬‬
‫‪ 𝑝-value‬עבור דוגמא כלשהי שווה לשטח הנמצא החל מערך הסטטיסטי שחושב וקיצוני יותר‪.‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫עבור מבחן חד‪-‬צדדי ימני חישוב ה‪ 𝑝-value-‬ייעשה בכך שנחשב את השטח שנמצא מערך‬ ‫‪-‬‬
‫הסטטיסטי ̅𝑋𝑍 וימינה‪.‬‬
‫עבור מבחן חד‪-‬צדדי שמאלי חישוב ה‪ 𝑝-value-‬ייעשה בכך שנחשב את השטח שנמצא‬ ‫‪-‬‬
‫מערך הסטטיסטי ̅𝑋𝑍 ושמאלה‪.‬‬
‫עבור מבחן דו‪-‬צדדי חישוב ה‪ 𝑝-value-‬ייעשה בכך שנחשב את השטח שנמצא מערך‬ ‫‪-‬‬
‫הסטטיסטי ̅𝑋𝑍 ולכיוון זנב ההתפלגות כפול 𝟐‪.‬‬
‫הסיבה לכך שבמבחן דו‪-‬צדדי יש להכפיל ב‪ 2-‬את השטח המחושב נעוצה בסיבה שבמבחן‬
‫דו‪-‬צדדי רמת המובהקות מחולקת לשני זנבות ההתפלגות‪ ,‬ולכן כדי לדחות את ‪ 𝐻0‬צריך‬
‫לקחת רמת מובהקות כפולה מזו שנלקחת במבחן החד‪-‬צדדי‪.‬‬
‫‪ 𝒑-value‬עבור מבחן חד‪-‬צדדי ימני‪:‬‬

‫‪ 𝒑-value‬עבור מבחן חד‪-‬צדדי שמאלי‪:‬‬

‫‪ 𝒑-value‬עבור מבחן דו‪-‬צדדי‪:‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫דוגמא‪ :‬לצורך התרגול נשתמש בנתוני הדוגמא האחרונה (עם שיטת ההוראה החדשה) כדי לחשב‬
‫את רמת המובהקות המינימאלית בה נדחה את ‪.𝐻0‬‬
‫פתרון‪ :‬אנו נדרשים לחשב את ה‪ 𝑝-value-‬עבור הדוגמא‪.‬‬
‫כזכור מסעיף א'‪ ,‬ברמת מובהקות של ‪ 0.05‬לא דחינו את ‪ ,𝐻0‬ולכן כבר מסעיף א' אנו מסיקים ש‪-‬‬
‫‪ .𝑝 > 0.05‬כעת אנו נדרשים לומר מהו הערך המדויק של 𝑝‪.‬‬
‫בדוגמא זו מדובר במבחן דו‪-‬צדדי‪ ,‬ולכן ערך ה‪ 𝑝-‬יהיה השטח שמערך הסטטיסטי ולכיוון זנב‬
‫ההתפלגות כפול ‪.2‬‬
‫את ערך הסטטיסטי כבר מצאנו בסעיף א'‪.𝑍𝑋̅ = 1.41 :‬‬
‫בעזרת טבלת ההתפלגות הנורמאלית 𝑍 נחשב את השטח הנמצא מערך הסטטיסטי )‪(1.41‬‬
‫ולכיוון הזנב‪ ,‬כלומר ימינה (אם היה מדובר בערך שלילי היינו מחשבים את הערך ממנו ושמאלה)‪.‬‬
‫את התוצאה יש להכפיל לבסוף ב‪( 2-‬כי מדובר במבחן דו‪-‬צדדי)‪.‬‬
‫‪𝑃(𝑍 > 1.41) = 1 − 𝑃(𝑍 < 1.41) = 1 − 𝜙(1.41) = 1 − 0.9207 = 0.0793‬‬
‫את התוצאה שקיבלנו )‪ (0.0793‬יש להכפיל ב‪ ,2-‬ולכן מקבלים שערך ה‪ 𝑝-‬הינו‬
‫‪.2 ⋅ 0.0793 = 0.1586‬‬
‫‪𝑝-value = 0.1586 = 15.86%‬‬
‫משמעות התוצאה‪ :‬ה‪ 𝑝-value-‬הינו רמת המובהקות המינימאלית בה נדחה את ‪.𝐻0‬‬
‫קיבלנו בדוגמא שרמת המובהקות המינימאלית בה נדחה את ‪ 𝐻0‬שווה ל‪.0.1586-‬‬
‫כלומר‪ ,‬עבור רמות מובהקות שגדולות (או שוות) ל‪ 0.1586-‬אנו נדחה את ‪ ,𝐻0‬ועבור רמות‬
‫מובהקות נמוכות מ‪ 0.1586-‬לא נדחה את ‪.𝐻0‬‬
‫תוצאה זו מתיישבת עם תוצאות סעיף א' בו לא דחינו את ‪ 𝐻0‬עבור רמת מובהקות של ‪ 0.05‬אשר‬
‫קטנה מ‪.0.1586-‬‬
‫דוגמא מסכמת‬
‫חברת מקדונלד'ס פרסמה שממוצע משקל קציצת ההמבורגר שלה הינו ‪ 150‬גרם וסטיית התקן ‪6‬‬
‫גרם‪ .‬לקוחות בסניף אור יהודה טוענים שבסניף זה ממוצע משקל הקציצה נמוך מ‪ 150-‬גרם‪ .‬לשם‬
‫בדיקת טענתם נעזרו הלקוחות בסטטיסטיקאי אשר דגם מדגם מקרי של ‪ 100‬קציצות ומצא‬
‫שממוצע המשקל שלהן הינו ‪ 148.7‬גרם‪.‬‬
‫בדקו האם יש צדק בטענת הלקוחות עבור רמת מובהקות ‪ 5%‬וחשבו את ערך ה‪-‬‬ ‫א‪.‬‬
‫‪ 𝑝-value‬של המבחן‪.‬‬
‫חזרו על סעיף א' כאשר טענת הלקוחות שממוצע משקל ההמבורגר שונה ממה שהחברה‬ ‫ב‪.‬‬
‫התחייבה‪.‬‬
‫פתרון‪:‬‬
‫מדובר בהשערות חד‪-‬צדדיות (שכן הלקוחות טוענים שמשקל הקציצה נמוך מ‪,150-‬‬ ‫א‪.‬‬
‫כלומר‪ ,‬יש כיוון להשערת המחקר)‪:‬‬

‫‪ :𝐻0‬ממוצע משקל קציצה בסניף אור יהודה אינו נמוך מ‪ 150-‬גרם‪.‬‬


‫‪ :𝐻1‬ממוצע משקל קציצה בסניף אור יהודה נמוך מ‪ 150-‬גרם‪.‬‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫ערך הסטטיסטי‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬ ‫‪148.7 − 150‬‬ ‫‪1.3‬‬
‫= ̅𝑋𝑍‬ ‫= 𝜎‬ ‫‪=−‬‬ ‫‪= −2.17‬‬
‫‪6‬‬ ‫‪0.6‬‬
‫𝑛√‬ ‫‪√100‬‬
‫הערך הקריטי (עבור מבחן חד‪-‬צדדי ברמת מובהקות 𝟓𝟎 ‪:)𝟎.‬‬
‫‪𝑍1−𝛼 = 𝑍1−0.05 = 𝑍0.95 = 1.64‬‬
‫השוואה בין ערך הסטטיסטי לערך הקריטי‪:‬‬
‫ערך הסטטיסטי )‪ (−2.17‬קיצוני יותר מהערך הקריטי )‪ ,(1.64‬או בצורה פורמאלית‬
‫יותר‪ ,|𝑍𝑋̅ | = 2.17 > 𝑍1−𝛼 = 1.64 :‬ולכן נדחה את ‪ 𝐻0‬עבור רמת מובהקות של ‪.5%‬‬
‫מסקנה‪ :‬ממוצע משקל קציצת ההמבורגר בסניף מקדונלד'ס באור יהודה נמוך יותר ממה‬
‫שהחברה התחייבה (‪ 150‬גרם)‪ ,‬ולכן יש צדק בטענת לקוחות הסניף‪.‬‬
‫כעת נחשב את ה‪ 𝒑-value-‬של המבחן‪ .‬מדובר בהשערות חד‪-‬צדדיות ולכן ה‪𝑝-value-‬‬
‫הינו השטח הנמצא מערך הסטטיסטי שקיבלנו )‪ (−2.17‬ושמאלה‪:‬‬
‫‪𝑝-value = 𝑃(𝑍 < −2.17) = 𝑃(𝑍 > 2.17) = 1 − 𝜙(2.17) = 1 − 0.985 = 0.015‬‬
‫‪𝑝-value = 0.015 = 1.5%‬‬
‫קיבלנו שרמת המובהקות המינימאלית בה נדחה את ‪( 𝐻0‬ערך ה‪ 𝑝-value-‬של המבחן)‬
‫שווה ל‪.0.015-‬‬
‫כלומר‪ ,‬זוהי רמת המובהקות הנמוכה ביותר עבורה כבר ניתן לדחות את ‪ .𝐻0‬במילים‬
‫אחרות‪ ,‬עבור רמות מובהקות שגדולות (או שוות) ל‪ 0.015-‬אנו נדחה את ‪ ,𝐻0‬ועבור רמות‬
‫מובהקות נמוכות מ‪ 0.015-‬לא נדחה את ‪.𝐻0‬‬
‫תוצאה זו מתיישבת כמובן עם העובדה שדחינו את ‪ 𝐻0‬עבור רמת מובהקות ‪( 0.05‬אשר‬
‫גבוהה יותר מ‪.)0.015-‬‬
‫בסעיף זה טענת הלקוחות הינה שממוצע משקל ההמבורגר שונה ממה שהחברה‬ ‫ב‪.‬‬
‫התחייבה‪ ,‬כלומר‪ ,‬הפעם מדובר בהשערות דו‪-‬צדדיות‪.‬‬

‫‪ :𝐻0‬ממוצע משקל קציצה בסניף אור יהודה אינו נמוך מ‪ 150-‬גרם‪.‬‬


‫‪ :𝐻1‬ממוצע משקל קציצה בסניף אור יהודה נמוך מ‪ 150-‬גרם‪.‬‬

‫ערך הסטטיסטי ללא שינוי‪.𝑍𝑋̅ = −2.17 :‬‬

‫הערך הקריטי למבחן דו‪-‬צדדי (ברמת מובהקות 𝟓𝟎 ‪ )𝟎.‬הינו‪:‬‬


‫𝑍 = 𝛼‪𝑍1−‬‬ ‫‪0.05‬‬ ‫‪= 𝑍1−0.025 = 𝑍0.975 = 1.96‬‬
‫‪2‬‬ ‫‪1−‬‬
‫‪2‬‬

‫השוואה בין ערך הסטטיסטי לערך הקריטי‪:‬‬


‫ערך הסטטיסטי )‪ (−2.17‬גם בסעיף זה קיצוני יותר מהערך הקריטי )‪ ,(1.96‬או בצורה‬
‫פורמאלית‪ ,|𝑍𝑋̅ | = 2.17 > 𝑍1−𝛼 = 1.96 :‬ולכן נדחה את ‪ 𝐻0‬עבור רמת מובהקות של‬
‫‪2‬‬
‫‪.5%‬‬

‫‪8‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪23/05/2021‬‬

‫מסקנה‪ :‬ממוצע משקל קציצת ההמבורגר בסניף מקדונלד'ס באור יהודה שונה ממה‬
‫שהחברה התחייבה (‪ 150‬גרם)‪ ,‬ולכן יש צדק בטענת לקוחות הסניף‪.‬‬
‫ערך ה‪ 𝒑-value-‬של המבחן עבור סעיף ב'‪ :‬בסעיף זה מדובר במבחן דו‪-‬צדדי‪ ,‬לעומת‬
‫סעיף א' בו חישבנו עבור מבחן חד‪-‬צדדי‪.‬‬
‫לכן‪ ,‬את התוצאה שקיבלנו בסעיף ב' )‪ (0.015‬יש להכפיל ב‪:2-‬‬
‫‪𝑝-value = 2 ⋅ 0.015 = 0.03‬‬
‫‪𝑝-value = 0.03 = 3%‬‬
‫בדיקת השערות כאשר סטיית התקן אינה ידועה‬
‫בהרצאה זו עסקנו בנבחן לבדיקת השערות על הממוצע באוכלוסייה כאשר סטיית התקן (או‬
‫השונות) באוכלוסייה ידועה ונתונה בשאלה‪ .‬המבחן המתאים למקרה זה הינו מבחן 𝑍 המבוסס על‬
‫ההתפלגות הנורמאלית הסטנדרטית 𝑍‪.‬‬
‫נציין שבמקרית המקרים במציאות לא תהיה לנו אינפורמציה על אודות סטיית התקן‬
‫באוכלוסייה‪ ,‬ולכן מבחן 𝑍 לא כ"כ ריאלי‪ .‬במקרה בו לא נתונה לנו סטיית התקן באוכלוסייה‬
‫נצטרך לאמוד אותה על‪-‬סמך המדגם (נשתמש בנוסחא ל‪ :𝑆-‬סטיית התקן במדגם)‪ ,‬ונשתמש בלוח‬
‫𝑡 ולא בלוח 𝑍‪ .‬המבחן לבדיקת השערות למקרה בו סטיית התקן באוכלוסייה אינה ידועה נקרא‬
‫מבחן 𝑡‪.‬‬
‫בהרצאה הבאה נציג ונלמד מבחן זה‪ ,‬אשר גם בודק השערות בנוגע לתוחלת‪ ,‬אולם השונות (או‬
‫סטיית התקן) באוכלוסייה אינה ידועה ולכן נצטרך לאמוד אותה על‪-‬סמך המדגם‪.‬‬
‫לסיכום‪ ,‬במבחן 𝑍 משתמשים כאשר סטיית התקן באוכלוסייה ידועה‪ ,‬ובמבחן 𝑡 משתמשים‬
‫כאשר סטיית התקן אינה ידועה‪ ,‬ונצטרך לאמוד אותה על‪-‬סמך המדגם‪.‬‬

‫‪9‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪30/05/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪10‬‬
‫נושא ההרצאה‪ :‬בדיקת השערות על התוחלת כאשר השונות‬
‫באוכלוסייה לא ידועה‬
‫בדיקת השערות על התוחלת‬
‫בהרצאה הקודמת (הרצאה מס' ‪ )9‬הצגנו מבחן לבדיקת השערות על התוחלת כאשר בשאלה‬
‫השונות (או סטיית התקן) באוכלוסייה הייתה ידועה ונתונה‪.‬‬
‫במצגת זו נציג מבחן דומה לקודם‪ ,‬אלא שהפעם השונות (או סטיית התקן) באוכלוסייה לא תהיה‬
‫ידועה ונצטרך לאמוד אותה על סמך המדגם אשר יינתן בשאלה‪ .‬למעשה‪ ,‬זה המצב השכיח יותר‬
‫במציאות‪.‬‬
‫בדומה למקרה זה אותו למדנו בהקשר של רווחי סמך (מקרה ‪ ,)2‬גם הפעם יהיה עלינו להשתמש‬
‫בלוח 𝑡 ולא בלוח 𝑍‪.‬‬
‫ההשערות יכולות להיות חד‪-‬צדדיות או דו‪-‬צדדיות‪ ,‬בדומה למבחן הקודם‪.‬‬
‫חישוב ערך הסטטיסטי‬
‫כדי להכריע בין ‪ 𝐻0‬לבין ‪ ,𝐻1‬נחשב את ערך הסטטיסטי המבוסס על נתוני המדגם‪ .‬לאחר מכן‬
‫נשווה את ערך הסטטיסטי לערך קריטי הלקוח מהתפלגות 𝑡‪ ,‬בהתאם לרמת המובהקות הנתונה‬
‫בשאלה‪.‬‬
‫ערך הסטטיסטי לבדיקת השערות על הממוצע מסומן ב‪ 𝑡𝑆 -‬ולהלן נוסחתו‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬
‫= 𝑆𝑡‬
‫𝑆‬
‫𝑛√‬
‫כאשר‪:‬‬
‫̅𝑋 הינו ממוצע המדגם‬ ‫‪-‬‬
‫𝜇 הינו הממוצע באוכלוסייה שהיה מקובל עד‪-‬כה‬ ‫‪-‬‬
‫𝑆 הינה סטיית התקן במדגם‬ ‫‪-‬‬
‫𝑛 הינו גודל המדגם‬ ‫‪-‬‬
‫אמידת סטיית התקן‬
‫במקרה זה סטיית התקן באוכלוסייה 𝜎 אינה ידועה‪ ,‬ולכן נחליף אותה בסטיית התקן במדגם‪.‬‬
‫תחילה‪ ,‬נחשב את השונות במדגם‪ ,‬ולאחר מכן נוציא שורש לתוצאה‪ .‬את שונות המדגם נחשב על‬
‫סמך הנוסחא הבאה (אותה נוסחא שהוצגה במקרה ‪ 2‬של רווח סמך)‪:‬‬

‫‪2‬‬
‫‪∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2‬‬ ‫‪∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2‬‬
‫= 𝑆‬ ‫=⋯=‬
‫‪𝑛−1‬‬ ‫‪𝑛−1‬‬
‫לאחר שחישבנו את שונות המדגם‪ ,‬נוציא שורש כדי לקבל את סטיית התקן של המדגם‪ ,‬כלומר את‬
‫𝑆‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪30/05/2021‬‬

‫מציאת ערך קריטי‬


‫לאחר שחישבנו את ערך הסטטיסטי‪ ,‬יש להשוותו לערך קריטי הלקוח מהתפלגות 𝑡 כדי להכריע‬
‫בין ההשערות‪ .‬ערך הקריטי שנוציא מלוח 𝑡 יהיה בהתאם לרמת המובהקות הנתונה בשאלה‬
‫ובהתאם לעובדה האם לפנינו מבחן חד‪-‬צדדי או דו‪-‬צדדי‪.‬‬
‫מספר דרגות החופש בלוח 𝑡 הינו ‪.𝑛 − 1‬‬ ‫‪-‬‬
‫חד צדדי‬
‫את הערך הקריטי עבור ‪ 𝑛 − 1‬דרגות חופש ורמת מובהקות 𝛼 למבחן‬ ‫ב‪𝑡(𝑛−1,𝛼) -‬‬
‫נסמן‬ ‫‪-‬‬
‫השערות חד‪-‬צדדי‪.‬‬
‫דו צדדי‬
‫נסמן ב‪ 𝑡(𝑛−1,𝛼) -‬את הערך הקריטי עבור ‪ 𝑛 − 1‬דרגות חופש ורמת מובהקות 𝛼 למבחן‬ ‫‪-‬‬
‫השערות דו‪-‬צדדי‪.‬‬
‫דוגמא‪ :‬אם לפנינו מבחן חד‪-‬צדדי המבוסס על ‪ 18‬תצפיות ואנו רוצים לבדוק את ההשערות עבור‬
‫רמת מובהקות של ‪ ,5%‬הערך הקריטי המתאים הינו‪:‬‬
‫חד צדדי‬ ‫חד צדדי‬
‫‪𝑡(𝑛−1,𝛼) = 𝑡(17,0.05) = 1.74‬‬

‫דוגמא‪ :‬אם לפנינו מבחן דו‪-‬צדדי המבוסס על ‪ 25‬תצפיות ואנו רוצים לבדוק את ההשערות עבור‬
‫רמת מובהקות של ‪ ,1%‬הערך הקריטי המתאים הינו‪:‬‬
‫דו צדדי‬ ‫דו צדדי‬
‫‪𝑡(𝑛−1,𝛼) = 𝑡(24,0.01) = 2.797‬‬

‫הכרעה בין ההשערות‬


‫באופן כללי‪ ,‬אם ערך הסטטיסטי שחושב קיצוני יותר (גדול יותר בערכו המוחלט) מהערך הקריטי‬
‫הלקוח מהתפלגות 𝑡‪ ,‬נדחה את השערת האפס‪ ,‬ואילו אם ערך הסטטיסטי שחושב אינו קיצוני‬
‫יותר מהערך הקריטי‪ ,‬לא נדחה את השערת האפס‪.‬‬
‫בהמשך נפרט את כלל המבחן עבור מבחן חד‪-‬צדדי ועבור מבחן דו‪-‬צדדי‪.‬‬
‫כלל הדחייה במבחן חד‪-‬צדדי‬
‫כאשר עלינו להכריע בין השערות ומדובר בהשערות חד‪-‬צדדיות‪:‬‬
‫חד צדדי‬
‫לאחר שחישבנו את ערך הסטטיסטי 𝑆𝑡 עלינו לבדוק בלוח 𝑡 מהו הערך הקריטי )𝛼‪.𝑡(𝑛−1,‬‬
‫בשלב הבא‪ ,‬נשווה בין שני ערכים אלו‪:‬‬
‫חד צדדי‬
‫אם )𝛼‪ ,|𝑡𝑆 | ≥ 𝑡(𝑛−1,‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫חד צדדי‬
‫< | 𝑆𝑡|‪ ,‬לא נדחה את ‪.𝐻0‬‬ ‫)𝛼‪𝑡(𝑛−1,‬‬ ‫אם‬ ‫‪-‬‬

‫כלל הדחייה במבחן דו‪-‬צדדי‬


‫כאשר עלינו להכריע בין שתי השערות ומדובר בהשערות דו‪-‬צדדיות‪:‬‬
‫דו צדדי‬
‫לאחר שחישבנו את ערך הסטטיסטי 𝑆𝑡 עלינו לבדוק בלוח 𝑡 מהו הערך הקריטי )𝛼‪.𝑡(𝑛−1,‬‬
‫בשלב הבא‪ ,‬נשווה בין שני ערכים אלו‪:‬‬
‫דו צדדי‬
‫אם )𝛼‪ ,|𝑡𝑆 | ≥ 𝑡(𝑛−1,‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫דו צדדי‬
‫< | 𝑆𝑡|‪ ,‬לא נדחה את ‪.𝐻0‬‬ ‫)𝛼‪𝑡(𝑛−1,‬‬ ‫אם‬ ‫‪-‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪30/05/2021‬‬

‫דוגמא‬
‫לאחרונה נשמעת טענה בקרב מספר חוקרים כי חלה עלייה בגובה גברים בדור הנוכחי לעומת‬
‫תוחלת הגובה בדור הקודם השווה ל‪ 175-‬ס"מ‪ .‬לשם בדיקת טענה זו נלקח מדגם של ‪ 8‬גברים‬
‫צעירים ולהלן הגבהים שנמדדו‪:‬‬
‫‪179, 175, 188, 169, 180, 176, 171, 182‬‬
‫הניחו שהמשתנה הנחקר (גובה גברים) מפולג נורמאלית‪ ,‬ושהנדגמים בלתי תלויים זה בזה‪.‬‬
‫נסחו השערות ובדקו אותן ברמת מובהקות ‪ .5%‬מה מסקנתכם?‬ ‫‪-‬‬
‫מה ניתן לקבוע בנוגע ל‪ 𝑝-value-‬של המבחן בדוגמא זו?‬ ‫‪-‬‬
‫פתרון‪ :‬מדובר בהשערות חד‪-‬צדדיות‪:‬‬
‫‪ :𝐻0‬ממוצע גובה גברים בדור הנוכחי אינו גבוה מ‪ 175-‬ס"מ‪.‬‬
‫‪ :𝐻1‬ממוצע גובה גברים בדור הנוכחי גבוה מ‪ 175-‬ס"מ‪.‬‬
‫נחשב תחילה את הממוצע וסטיית התקן במדגם‪:‬‬
‫‪∑ 𝑥𝑖 1420‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 177.5‬‬
‫𝑛‬ ‫‪8‬‬

‫‪2‬‬
‫‪∑ 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2 1792 + ⋯ + 1822 − 8 ⋅ 177.52‬‬
‫= 𝑆‬ ‫=‬ ‫‪= 37.43‬‬
‫‪𝑛−1‬‬ ‫‪7‬‬
‫‪𝑆 = √37.43 = 6.12‬‬
‫נחשב את ערך הסטטיסטי בדוגמא‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬ ‫‪177.5 − 175‬‬
‫= 𝑆𝑡‬ ‫=‬ ‫‪= 1.155‬‬
‫𝑆‬ ‫‪6.12‬‬
‫𝑛√‬ ‫‪√8‬‬
‫מציאת ערך קריטי מלוח 𝑡 עבור רמת מובהקות של ‪:5%‬‬
‫חד צדדי‬ ‫חד צדדי‬
‫‪𝑡(𝑛−1,𝛼) = 𝑡(7,0.05) = 1.895‬‬

‫ערך הסטטיסטי קטן מהערך הקריטי‪ ,‬ולכן לא דוחים את השערת האפס ברמת מובהקות ‪,5%‬‬
‫ולכן לא ניתן להסיק שחלה עלייה בגובה גברים‪.‬‬
‫כזכור‪ 𝑝-value ,‬הינה רמת המובהקות המינימאלית עבורה נדחה את השערת האפס‪.‬‬
‫בדוגמא האחרונה לא דחינו את השערת האפס עבור רמת מובהקות של ‪( 5%‬ובהכרח שלא נדחה‬
‫עבור רמת מובהקות נמוכה יותר של ‪ ,)1%‬ולכן בהכרח בדוגמא זו ה‪ 𝑝-value-‬של המבחן הוא‬
‫מעל ‪:5%‬‬
‫‪𝑝-value > 0.05‬‬
‫הערה עבור הדוגמא‪ :‬בדוגמא זו אמנם קיבלנו ממוצע של ‪ ,177.5‬שנראה על פניו מספיק‬
‫משמעותי לעומת התוחלת של ‪ 175‬כדי לדחות את השערת האפס ולהסיק שחלה עלייה בגובה‬
‫הגברים‪ ,‬ובכל זאת לא הצלחנו לדחות את השערת האפס‪ .‬הסיבה העיקרית לכך נעוצה בעובדה‬
‫שגודל המדגם קטן מאוד בדוגמא זו (‪ 8‬תצפיות בלבד) – דבר המקשה על הדחייה של השערת‬
‫האפס‪ .‬כלומר‪ ,‬כאשר לוקחים מעט תצפיות‪ ,‬צריך תוצאה מאוד "מרשימה" כדי שהשערת האפס‬
‫תידחה‪ ,‬מה שבדוגמא הזו לא קרה‪.‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪30/05/2021‬‬

‫דוגמא לתרגול עצמי‬


‫הציון בסטטיסטיקה א' במנהל מערכות בריאות מפולג נורמאלית עם תוחלת של ‪ .75‬מעוניינים‬
‫לבדוק האם שיעורי תגבור שנערכים פעם בשבועיים מביאים לשיפור הציון‪ .‬לשם כך דגמנו באופן‬
‫מקרי ‪ 10‬סטודנטים בקורס זה שקיבלו שיעורי תגבור אחת לשבועיים‪ .‬להלן ציוניהם בבחינה‬
‫הסופית‪:‬‬
‫‪84, 78, 70, 93, 68, 100, 89, 78, 76, 95‬‬
‫נסחו השערות ובדקו אותן ברמות מובהקות ‪ 5%‬ו‪ .1%-‬רשמו מסקנה בהתאם‪.‬‬ ‫‪-‬‬
‫מה ניתן לומר על ערך ה‪ 𝑝-value-‬בדוגמא זו?‬ ‫‪-‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪06/06/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪11‬‬
‫נושא ההרצאה‪ :‬מבחן "חי בריבוע" לבדיקת אי‪-‬תלות‬
‫מבחנים פרמטריים לעומת מבחנים א‪-‬פרמטריים‬
‫המבחנים הסטטיסטיים בהם עסקנו עד עתה עסקו בהשוואת ממוצעים עבור שני משתנים (מבחן‬
‫𝑡 למדגמים בלתי‪-‬תלויים ולמדגמים תלויים)‪ .‬במבחנים אלו הנחנו הנחות‪ ,‬כמו התפלגות‬
‫נורמאלית של התצפיות‪ ,‬או שוויון שונויות‪ .‬מבחנים אלו‪ ,‬המניחים הנחות כלשהן אודות התפלגות‬
‫המשתנה‪ ,‬נקראים מבחנים פרמטריים‪.‬‬
‫פעמים רבות איננו יודעים מה צורת התפלגות של המשתנה‪ ,‬ולכן לא נוכל להניח שהמשתנה מפולג‬
‫נורמאלית‪ ,‬או שלא נוכל להניח שוויון שונויות‪ .‬במקרים אלו‪ ,‬לא נוכל להשתמש במבחנים‬
‫הפרמטריים‪ ,‬ולשם כך קיימים מבחנים א‪-‬פרמטריים שלא מבוססים על הנחות מוקדמות‪.‬‬
‫מבחן חי בריבוע לבדיקת אי‪-‬תלות‬
‫מבחן זה הינו מבחן א‪-‬פרמטרי הבודק האם יש קשר (תלות) בין שני משתנים איכותיים‪.‬‬
‫מבחן זה מתאים למצב בו שני המשתנים הינם משתנים נומינאליים (שמיים) או שאחד מהם הוא‬
‫משתנה נומינאלי והשני אורדינאלי (סדר)‪ .‬במילים אחרות‪ ,‬אם לפחות משתנה אחד מבין השניים‬
‫הוא נומינאלי‪ ,‬נשתמש במבחן חי בריבוע‪.‬‬
‫דוגמאות‪ :‬קשר בין השכלת האב לבין המשך לתארים מתקדמים בקרב סטודנטים מצטיינים‪,‬‬
‫קשר בין מין הסטודנט לבין הפקולטה אליה הוא שייך‪ ,‬קשר בין מין לבין עמדה פוליטית‪ ,‬קשר בין‬
‫מין הנהג לבין מספר עבירות התנועה שלו בשנה‪.‬‬
‫ניסוח ההשערות למבחן חי בריבוע‬
‫במבחן זה ננסח את שתי ההשערות באופן הבא‪ :‬השערת האפס (המייצגת את ההשערה השמרנית)‬
‫טוענת שלא קיים קשר בין שני המשתנים הנחקרים‪ .‬לעומת זאת‪ ,‬השערת המחקר טוענת שקיים‬
‫קשר בין שני המשתנים‪.‬‬
‫‪ :𝐻0‬לא קיים קשר בין שני המשתנים‪.‬‬
‫‪ :𝐻1‬קיים קשר בין שני המשתנים‪.‬‬
‫המבחן לבדיקת ההשערות למקרה זה נקרא מבחן חי בריבוע‪.‬‬
‫דוגמא‬
‫נציג את הפרוצדורה של מבחן חי בריבוע שלו בעזרת הדוגמא הבאה‪.‬‬
‫חוקר מעוניין לבדוק האם יש השפעה להשכלת האבות על ההחלטה בקרב בניהם הסטודנטים‬
‫האם להמשיך ללימודים מתקדמים (לימודים מעבר לתואר ראשון)‪ .‬להלן התוצאות עבור מדגם‬
‫של ‪ 184‬סטודנטים (בדוגמא זו שני המשתנים הנחקרים הינם איכותיים שמיים)‪.‬‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪06/06/2021‬‬

‫ניתוח ראשוני של הממצאים‪:‬‬


‫מטבלת השכיחות אנו למדים כי‪:‬‬
‫מתוך ‪ 184‬הסטודנטים שנדגמו‪( 159 ,‬המהווים ‪ )86.4%‬המשיכו לתואר מתקדם‪ ,‬ואילו‬ ‫‪-‬‬
‫‪( 25‬המהווים ‪ )13.6%‬לא המשיכו‪.‬‬
‫בקרב ‪ 82‬הסטודנטים להם אין אב בעל השכלה אקדמית‪( 64 ,‬המהווים ‪ )78%‬המשיכו‬ ‫‪-‬‬
‫לתואר מתקדם‪ ,‬ואילו ‪( 18‬המהווים ‪ )22%‬לא המשיכו לתואר מתקדם‪.‬‬
‫בקרב ‪ 102‬הסטודנטים להם יש אב בעל השכלה אקדמית‪( 95 ,‬המהווים ‪)93.1%‬‬ ‫‪-‬‬
‫המשיכו לתואר מתקדם‪ ,‬ואילו ‪( 7‬המהווים ‪ )6.9%‬לא המשיכו לתואר מתקדם‪.‬‬
‫מהטבלה נראה כי קיים קשר כלשהו בין השכלת האבות לבין המשך לתארים מתקדמים עבור‬
‫בניהם‪ :‬אחוז הממשיכים לתארים מתקדמים בקרב אבות בעלי השכלה אקדמית גבוה יותר‬
‫מאחוז הממשיכים לתארים מתקדמים בקרב אבות שאינם בעלי תואר אקדמי‪.‬‬
‫כסטטיסטיקאים‪ ,‬איננו יכולים להסתמך על מראית עין בלבד‪ ,‬אלא עלינו להשתמש במבחנים‬
‫סטטיסטיים כדי לבחון האם השערתנו נכונה‪ .‬כמו‪-‬כן‪ ,‬יש לבדוק האם התוצאה מובהקת‪.‬‬
‫כדי לבחון האם קיים קשר סטטיסטי בין שני המשתנים נשתמש במבחן ‪( 𝜒 2‬חי‪-‬בריבוע)‪.‬‬
‫ניסוח ההשערות עבור הדוגמא‪:‬‬
‫‪ :𝐻0‬לא קיים קשר בין השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫‪ :𝐻1‬קיים קשר בין השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫הערה‪ :‬בדוגמא ניתן לסווג את שני המשתנים למשתנה בלתי תלוי ומשתנה תלוי‪ .‬בדוגמא‪,‬‬
‫המשתנה הבלתי תלוי (משתנה מסביר) הינו "השכלת האב"‪ ,‬והמשתנה התלוי (משתנה מוסבר)‬
‫הינו "המשך לתואר מתקדם בקרב הבן"‪ .‬במקרה שכזה‪ ,‬בניסוח שתי ההשערות נרשום לא‬
‫קיים‪/‬קיים קשר בין המשתנה הבלתי תלוי לבין המשתנה התלוי‪.‬‬

‫טבלת ה‪ Observed-‬וטבלת ה‪Expected-‬‬


‫לרשותנו טבלת הנתונים שאספנו מהמדגם‪ .‬בדוגמא שהוצגה דגמנו ‪ 184‬סטודנטים ובדקנו עבור‬
‫כל אחד האם הסטודנט המשיך לתואר מתקדם והאם לאביו השכלה אקדמית‪.‬‬
‫את תוצאת המשאל ריכזנו בטבלה שהוצגה‪ .‬טבלה זו‪ ,‬המתקבלת כתוצאה של הדגימה האקראית‪,‬‬
‫נקראת טבלת ה‪( Observed-‬טבלת הנתונים)‪.‬‬
‫בשלב הבא נבנה טבלה נוספת הנקראת טבלת ה‪ .Expected-‬טבלה זו נבנית מתוך הנחה שאין‬
‫קשר בין שני המשתנים הנחקרים‪ :‬השכחת האבות והמשך לימודים לתארים מתקדמים בקרב‬
‫בניהם‪.‬‬

‫בניית טבלת ה‪Expected-‬‬


‫אופן בניית טבלת ה‪ :Expected-‬כאמור‪ ,‬אנו מניחים בבניית טבלה זו שאין קשר בין שני‬
‫המשתנים‪ .‬כלומר‪ ,‬צריך שאחוז הסטודנטים שהמשיכו לתואר מתקדם יהיה זהה הן עבור‬
‫סטודנטים להם אב בעל השכלה אקדמית והן עבור סטודנטים להם אין אב בעל השכלה אקדמית‪.‬‬
‫במילים אחרות‪ ,‬נצטרך לבנות טבלה בה מתקיים שבקרב הסטודנטים להם יש אב בעל השכלה‬
‫אקדמית‪ 86.4% ,‬מהם המשיכו לתואר מתקדם ו‪ 13.6%-‬מהם לא המשיכו לתואר מתקדם‪.‬‬
‫כמו‪-‬כן‪ ,‬אותם אחוזים בדיוק יהיו גם עבור הסטודנטים להם אין אב ללא השכלה אקדמית‪ .‬כיצד‬
‫נעשה זאת?‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪06/06/2021‬‬

‫בניית טבלת ה‪ :Expected-‬נבנה טבלה באותם הממדים ונעתיק את שורת הסה"כ ואת עמודת‬
‫הסה"כ הקיימות בטבלת ה‪ .Observed-‬כל תא ותא בטבלה יחושב על‪-‬ידי מכפלת הסה"כ‬
‫שבשורה והעמודה המתאימה חלקי הסה"כ הכללי (השווה ל‪ .)184-‬נקבל את טבלת ה‪Expected-‬‬
‫הבאה‪:‬‬

‫חישוב מדד חי בריבוע‬


‫מדד חי בריבוע (המייצג את ערך הסטטיסטי לבדיקת ההשערות) בודק עד כמה שתי הטבלאות‬
‫(טבלת ה‪ Observed-‬וטבלת ה‪ )Expected-‬שונות זו מזו ביחס לערכיהן‪ .‬אם הן מאוד שונות זו‬
‫מזו‪ ,‬המדד יקבל ערך גבוה (דבר המעיד על קיום קשר בין שני המשתנים)‪ ,‬ואם הן מאוד דומות זו‬
‫לזו המדד יקבל ערך נמוך (דבר המעיד על כך שלא קיים קשר בין שני המשתנים)‪ .‬כאשר שתי‬
‫הטבלאות זהות לחלוטין‪ ,‬המדד יהיה שווה ל‪.0-‬‬
‫ערך הסטטיסטי חי בריבוע מסומן ב‪ ,𝜒 2 -‬ולהלן הנוסחא לחישובו‪:‬‬
‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫‪𝜒𝑆2‬‬ ‫∑=‬
‫𝑖𝑒‬
‫בדוגמא‪ ,‬ניתן להכין טבלת עזר אשר תסייע בחישוב ערך הסטטיסטי ‪:𝜒𝑆2‬‬

‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫‪𝜒𝑆2‬‬ ‫∑=‬ ‫‪= 8.817‬‬
‫𝑖𝑒‬
‫כמובן שניתן לחשב את ערך הסטטיסטי ‪ 𝜒𝑆2‬באופן ישיר על‪-‬ידי הצבה בנוסחא מבלי לבנות את‬
‫טבלת העזר‪:‬‬
‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫∑ = ‪𝜒𝑆2‬‬ ‫=‬
‫𝑖𝑒‬
‫‪(18 − 11.14)2 (7 − 13.86)2 (64 − 70.86)2 (95 − 88.14)2‬‬
‫=‬ ‫‪+‬‬ ‫‪+‬‬ ‫‪+‬‬
‫‪11.14‬‬ ‫‪13.86‬‬ ‫‪70.86‬‬ ‫‪88.14‬‬
‫‪= 8.817‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪06/06/2021‬‬

‫השוואת ערך הסטטיסטי לערך הקריטי‬


‫לאחר שחישבנו את ערך הסטטיסטי ‪ ,𝜒𝑆2‬עלינו להשוותו לערך קריטי הנמצא בטבלת חי בריבוע‪,‬‬
‫כדי להכריע בין ‪ 𝐻0‬לבין ‪.𝐻1‬‬
‫טבלת ערכים קריטיים של חי בריבוע‪ :‬שורות הטבלה מייצגות את דרגות החופש ועמודות‬
‫הטבלה את רמת המובהקות‪.‬‬
‫דרגות החופש‪ :‬דרגות החופש (המסומנות ב‪ )𝑑𝑓 -‬למבחן חי בריבוע שוות לביטוי הבא‪:‬‬
‫)‪ ,𝑑𝑓 = (𝑅 − 1)(𝐶 − 1‬כאשר 𝑅 מייצג את מספר הקטגוריות שיש למשתנה הראשון (זה‬
‫שהופיע בשורות טבלת ה‪ ,)Observed-‬ו‪ 𝐶 -‬מייצג את מספר הקטגוריות שיש למשתנה השני (זה‬
‫שהופיע בעמודות טבלת ה‪.)Observed-‬‬
‫בדוגמא‪ ,‬כל אחד מבין שני המשתנים הנחקרים (השכלת האב והמשך לתואר מתקדם בקרב הבן)‬
‫קיבל רק שתי קטגוריות‪ ,‬ולכן בדוגמא‪ 𝑅 = 2 :‬ו‪ .𝐶 = 2-‬אם כך‪ ,‬מספר דרגות החופש לדוגמא‬
‫הינו ‪ 1‬בלבד‪.𝑑𝑓 = (𝑅 − 1)(𝐶 − 1) = (2 − 1)(2 − 1) = 1 :‬‬
‫נבדוק מהו הערך הקריטי בטבלת הערכים הקריטיים עבור ‪ 1‬דרגות חופש ורמת מובהקות ‪.0.05‬‬
‫‪2‬‬
‫)‪,𝜒(1,0.05‬‬ ‫הערך הקריטי למקרה זה הינו ‪ .3.84‬נרשום את הערך הקריטי באופן הבא‪= 3.84 :‬‬
‫כאשר ‪ 1‬הוא מספר דרגות החופש ו‪ 0.05-‬הוא רמת המובהקות‪.‬‬

‫הכרעה בין 𝟎𝑯 לבין 𝟏𝑯‬


‫כדי להכריע בין שתי ההשערות עלינו להשוות בין ערך הסטטיסטי שחישבנו לערך הקריטי הנמצא‬
‫בטבלת הערכים הקריטיים‪.‬‬
‫כאשר ערך הסטטיסטי שחושב גדול או שווה מהערך הקריטי המופיע בטבלה‪ ,‬נדחה את ‪ ,𝐻0‬ולכן‬
‫נסיק שיש קשר מובהק בין שני המשתנים הנחקרים‪.‬‬
‫כאשר ערך הסטטיסטי שחושב קטן מהערך הקריטי המופיע בטבלה‪ ,‬לא נדחה את ‪ ,𝐻0‬ולכן נסיק‬
‫שאין קשר מובהק בין שני המשתנים הנחקרים‪.‬‬
‫בדוגמא‪ ,‬קיבלנו שהערך הסטטיסטי הינו ‪ 𝑋𝑆2 = 8.817‬והערך הקריטי מהטבלה הינו‬
‫‪2‬‬
‫)‪.𝜒(1,0.05‬‬ ‫‪= 3.84‬‬
‫‪2‬‬
‫)‪ ,𝜒𝑆2 > 𝜒(1,0.05‬ולכן נדחה את ‪ 𝐻0‬ברמת מובהקות ‪ 0.05‬ונסיק שיש קשר מובהק בין‬ ‫אם כך‪,‬‬
‫השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫מסקנה‪ :‬ישנו קשר מובהק בין השכלת האב להחלטת הבן האם להמשיך לתואר מתקדם‪,‬‬
‫המתבטא בכך שסטודנטים להם יש אב בעל השכלה אקדמית נוטים יותר להמשיך לתואר מתקדם‬
‫מאשר סטודנטים להם אין אב בעל השכלה אקדמית‪.‬‬

‫‪𝒑-value‬‬
‫נבדוק האם ניתן לדחות את השערת האפס גם עבור רמת מובהקות של ‪ .0.01‬הערך הקריטי עבור‬
‫‪2‬‬
‫)‪ .𝜒(1,0.01‬ערך הסטטיסטי שחישבנו )‪ (8.817‬גבוה מהערך‬ ‫רמת מובהקות זו הינו ‪= 6.63‬‬
‫הקריטי‪ ,‬ולכן נדחה את השערת האפס גם עבור רמת מובהקות ‪.0.01‬‬
‫מכיוון שדחינו את השערת האפס גם ברמת מובהקות ‪ 5%‬וגם ברמת מובהקות ‪ ,1%‬נובע שערך‬
‫ה‪ 𝑝-value-‬של המבחן בדוגמא זו קטן מ‪.𝑝-value < 1% :1%-‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪06/06/2021‬‬

‫מדד לעוצמת הקשר‪ :‬מקדם המתאם של קרמר‬


‫במידה ודחינו את ‪ 𝐻0‬עבור רמת מובהקות ‪ ,0.05‬כלומר‪ ,‬מצאנו שיש קשר מובהק בין שני‬
‫המשתנים‪ ,‬נחשב את עוצמת הקשר בעזרת מקדם המתאם של קרמר‪.‬‬
‫נדגיש שאם לא דחינו את 𝟎𝑯 לא נחשב כלל את מדד קרמר‪.‬‬
‫מדד קרמר הינו מדד לבדיקת עוצמת הקשר בין שני משתנים נומינאליים‪ .‬מדד קרמר תמיד מקבל‬
‫ערכים בין ‪ 0‬לבין ‪.1‬‬
‫ככל שערכו של מדד קרמר גבוה יותר‪ ,‬הדבר מצביע על קשר חזק ביותר בין שני המשתנים‪.‬‬
‫סימון‪ :‬את מקדם המתאם של קרמר נסמן ב‪.𝑟𝑐 -‬‬
‫ערכו של מתקדם המתאם של קרמר מצביע על עוצמת הקשר בין שני המשתנים‪ .‬להלן עוצמת‬
‫הקשר עבור הערכים השונים שמקדם המתאם של קרמר יכול לקבל‪:‬‬
‫ערכים שבין ‪ 0‬לבין ‪ 0.1‬מצביעים על חוסר קשר בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.1‬לבין ‪ 0.2‬מצביעים על קשר חלש בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.2‬לבין ‪ 0.3‬מצביעים על קשר בינוני‪-‬חלש בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.3‬לבין ‪ 0.4‬מצביעים על קשר בינוני בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.4‬לבין ‪ 0.5‬מצביעים על קשר בינוני‪-‬חזק בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים החל מ‪ 0.5-‬ומעלה מצביעים על קשר חזק בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫להלן הנוסחא לחישוב מקדם המתאם של מדד קרמר‪:‬‬

‫‪𝜒𝑆2‬‬
‫√ = 𝑐𝑟‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬

‫כאשר‪:‬‬
‫‪ 𝜒𝑆2‬הינו ערך הסטטיסטי שחישבנו‪.‬‬ ‫‪-‬‬
‫𝑛 מייצג את מספר הנדגמים הכולל בדוגמא‪.‬‬ ‫‪-‬‬
‫𝐿 שווה למינימום בין מספר הקטגוריות בשורות למספר הקטגוריות בעמודות‪.‬‬ ‫‪-‬‬
‫נחשב את מדד קרמר עבור הדוגמא‪:‬‬

‫‪𝜒𝑆2‬‬ ‫‪8.817‬‬
‫√ = 𝑐𝑟‬ ‫√=‬ ‫‪= √0.0479 = 0.219‬‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬ ‫)‪184 ⋅ (2 − 1‬‬

‫קיבלנו קשר בינוני‪-‬חלש בין השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫דוגמא‬
‫במחקר נבדק הקשר בין מין הנהג לבין מספר עבירות התנועה שלו בשנה‪ .‬התוצאות הראו שמבין‬
‫‪ 75‬נשים שהשתתפו במחקר‪ 45 ,‬ביצעו לכל היותר עבירה אחת‪ 18 ,‬ביצעו שתי עבירות‪ ,‬והיתר‬
‫ביצעו שלוש עבירות ומעלה‪ .‬מבין ‪ 125‬גברים שהשתתפו במחקר‪ 35 ,‬ביצעו עבירה אחת לכל‬
‫היותר‪ 32 ,‬ביצעו שתי עבירות‪ ,‬והיתר ביצעו שלוש עבירות ומעלה‪.‬‬
‫בנו על סמך האמור לעיל את טבלת ה‪.Observed-‬‬ ‫א‪.‬‬
‫נסחו השערות ובצעו את המבחן ברמת מובהקות ‪ .5%‬רשמו מסקנה בהתאם‪.‬‬ ‫ב‪.‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪06/06/2021‬‬

‫פתרון‪:‬‬
‫‪ :𝐻0‬לא קיים קשר בין מין הנהג לבין מספר עבירות התנועה שלו‪.‬‬
‫‪ :𝐻1‬קיים קשר בין מין הנהג לבין מספר עבירות התנועה שלו‪.‬‬
‫טבלת ה‪:Observed-‬‬

‫טבלת ה‪:Expected-‬‬

‫‪75⋅80‬‬
‫נציג רק את החישוב שנעשה עבור תא מס' )‪= 30 :(1‬‬
‫‪200‬‬

‫טבלת עזר לחישוב מדדי חי בריבוע‪:‬‬

‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫‪𝜒𝑆2‬‬ ‫∑=‬ ‫‪= 24.43‬‬
‫𝑖𝑒‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪06/06/2021‬‬

‫השוואת ערך הסטטיסטי לערך הקריטי‪ :‬המשתנה "מין" מקבל ‪ 2‬קטגוריות והמשתנה "מספר‬
‫עבירות תנועה" מקבל ‪ 3‬קטגוריות‪ ,‬ולכן‪ 𝑅 = 2 :‬ו‪ .𝐶 = 3-‬אם כך‪ ,‬מספר דרגות החופש לדוגמא‬
‫הינו ‪.𝑑𝑓 = (𝑅 − 1)(𝐶 − 1) = (2 − 1)(3 − 1) = 2 :2‬‬
‫נבדוק מהו הערך הקריטי בטבלת הערכים הקריטיים עבור ‪ 2‬דרגות חופש ורמת מובהקות ‪.0.05‬‬
‫הערך הקריטי למקרה זה הינו ‪.5.99‬‬
‫‪2‬‬
‫)‪ ,24.43 = 𝜒𝑆2 > 𝜒(2,0,05‬ולכן נדחה את ‪ 𝐻0‬עבור רמת מובהקות של ‪.0.05‬‬ ‫‪= 5.99‬‬
‫מסקנה‪ :‬ישנו קשר מובהק בין מגדר הנהג למספר עבירות התנועה שהוא מבצע המתבטא בכך‬
‫שנשים מבצעות פחות עבירות תנועה מאשר גברים‪.‬‬
‫חישוב מקדם המתאם של קרמר‪ :‬מכיוון שמצאנו קשר מובהק בין שני המשתנים (דחינו את ‪,)𝐻0‬‬
‫נחשב כעת את עוצמת הקשר בעזרת מקדם המתאם של קרמר‪.‬‬
‫הגדלים הרלוונטיים לנוסחת קרמר בדוגמא‪:‬‬

‫‪𝜒𝑆2‬‬
‫√ = 𝑐𝑟‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬

‫‪𝜒𝑆2 = 24.43,‬‬ ‫‪𝑛 = 200,‬‬ ‫‪𝐿=2‬‬


‫(הסבר מדוע ‪ :𝐿 = 2‬מספר הקטגוריות של המשתנה "מין" הינו ‪ ,2‬ומספר הקטגוריות של‬
‫המשתנה "מספר עבירות תנועה" הינו ‪ ,3‬ולכן 𝐿‪ ,‬המייצג את המספר הקטן מבין השניים‪ ,‬הינו ‪)2‬‬

‫‪𝜒𝑆2‬‬ ‫‪24.43‬‬
‫√ = 𝑐𝑟‬ ‫√=‬ ‫‪= √0.12215 = 0.35‬‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬ ‫)‪200 ⋅ (2 − 1‬‬

‫קיבלנו קשר בעוצמה בינונית בין שני המשתנים‪.‬‬


‫סיכום שלבי המחקר במבחן חי בריבוע‬
‫נסכם בקצרה את שלבי העבודה שיש לבצע במבחן חי בריבוע‪:‬‬
‫ניסוח ההשערות‪.‬‬ ‫‪-‬‬
‫בניית טבלת ה‪.Expected-‬‬ ‫‪-‬‬
‫חישוב ערך הסטטיסטי ‪.𝜒𝑆2‬‬ ‫‪-‬‬
‫השוואת ערך הסטטיסטי לערך הקריטי והכרעה בין שתי ההשערות‪.‬‬ ‫‪-‬‬
‫במידה ודחינו את ‪( 𝐻0‬ישנו קשר מובהק בין המשתנים)‪ ,‬נחשב את עוצמת הקשר לפי‬ ‫‪-‬‬
‫מקדם המתאם של קרמר‪.‬‬
‫מסקנה סופית במונחי הדוגמא (יש‪/‬אין קשר‪ ,‬ואם יש קשר – מידת הקשר)‪.‬‬ ‫‪-‬‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬


‫הרצאה ‪12‬‬
‫נושא ההרצאה‪ :‬מקדם המתאם של פירסון ורגרסיה לינארית‬
‫קשר בין שני משתנים – הקדמה‬
‫בהרצאה הקודמת הצגנו את מדד חי בריבוע ואת מקדם המתאם של קרמר אשר בודק קשר בין‬
‫שני משתנים נומינאליים (שמיים)‪ .‬מחקרים רבים עוסקים בקשר בין שני משתנים כמותיים‪.‬‬
‫בהרצאה זו נציג את מקדם המתאם של פירסון – מדד הבודק קשר בין שני משתנים כמותיים‪.‬‬
‫דוגמאות‪ :‬מחקר הבודק את ההשפעה של שיעור האבטלה על האינפלציה‪ ,‬מחקר הבוחן את הקשר‬
‫בין השכלה לבין שכר‪ ,‬מחקר הבודק את ההשפעה של קצבאות הילדים על רמת הפריון‪ ,‬מחקר‬
‫הבודק את הקשר בין רמת עישון במדינה לבין שיעורי תמותה מסרטן ריאות במדינה‪.‬‬
‫אחת השאלות המרכזיות והמעניינות במחקר היא קיומו של קשר בין המשתנים‪ ,‬ואם קיים קשר‬
‫מה כיוונו ומה עוצמתו‪.‬‬
‫כדי לבדוק האם אכן קיים קשר סטטיסטי בין שני משתנים או יותר‪ ,‬אנו נעזרים במדדי קשר‪.‬‬
‫חישוב‪ :‬קיומו של קשר סטטיסטי אינו מעיד בהכרח על סיבתיות (כלומר‪ ,‬על קשר סיבתי)‪.‬‬
‫דיאגרמת פיזור‬
‫דיאגרמת פיזור הינה דרך גרפית להצגת שני המשתנים הנחקרים ובחינה ראשונית של הקשר‬
‫ביניהם‪ .‬לאחר שנדגום 𝑛 תצפיות משני משתנים‪ ,‬נשרטט מערכת צירים‪ ,‬בה כל תצפית תאופיין‬
‫על‪-‬ידי נקודה במישור‪ .‬על ציר ה‪ 𝑋 -‬יופיע המשתנה הראשון (נסמנו ב‪ ,)𝑋 -‬הנקרא המשתנה הבלתי‬
‫תלוי (או המשתנה המסביר)‪ ,‬ועל ציר ה‪ 𝑌 -‬יופיע המשתנה השני (נסמנו ב‪ ,)𝑌 -‬הנקרא המשתנה‬
‫התלוי (או המשתנה המסביר)‪.‬‬
‫באופן זה תתקבלנה 𝑛 נקודות בדיאגרמת הפיזור המייצגות את 𝑛 התצפיות שדגמנו משני‬
‫המשתנים‪ .‬מהסתכלות באוסף הנקודות שמתקבלות בדיאגרמה נוכל לראות מהי המגמה הכללית‬
‫בין שני המשתנים‪.‬‬
‫הצגה גרפית של סוגים שונים של קשרים‬
‫קשרים בין משתנים כמעט לעולם אינם "מושלמים"‪ .‬על‪-‬כן‪ ,‬לעתים רחוקות נראה את הנקודות‬
‫בגרף מסתדרות בדיוק על קו ישר אחד‪ .‬עם זאת‪ ,‬כאשר הקשר בין המשתנים אינו חלש מדי‪ ,‬ניתן‬
‫לזהות דפוסים לינאריים בגרף‪ .‬במילים אחרות‪ ,‬נבדוק עד כמה "ענן" הנקודות נמצא סביב קו‬
‫ישר‪.‬‬

‫ב) קשר לא לינארי‬ ‫א) קשר לינארי שלילי‬


‫ד) אין קשר (קשר חלש ביותר)‬ ‫ג) קשר לינארי חיובי‬

‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫בחירת מדד קשר בהתאם לסוג המשתנה‬


‫קיימים מדדי קשר רבים לבדיקת קיום קשר בין שני משתנים‪.‬‬
‫הבחירה באיזה מדד נשתמש עבור דוגמא כלשהי תלויה בעיקר בסוג המשתנים הנחקרים‬
‫(נומינאלי‪ ,‬אורדינאלי‪ ,‬אינטרוואלי או יחס)‪.‬‬
‫עיקר המחקרים והדוגמאות אשר יעניינו אותנו יעסקו במשתנים כמותיים (אינטרוואליים או‬
‫יחס)‪ ,‬ולכן נתרכז בקורס זה רק במדד קשר עבור שני משתנים כמותיים‪.‬‬
‫מדד הקשר במקרה זה הינו מקדם המתאם של פירסון‪.‬‬
‫מקדם המתאם של פירסון‬
‫בהרצאה זו נציג את מדד הקשר המתאים למקרה בו שני המשתנים הנחקרים הינם משתנים‬
‫אינטרוואליים לפחות‪ ,‬כלומר‪ ,‬כאשר מדובר במשתנים אינטרוואליים או יחס‪.‬‬
‫מדד הקשר המתאים במקרה זה הינו מקדם המתאם של פירסון‬
‫)‪ ,(Pearson Correlation Coefficient‬ונסמנו ב‪.𝑟𝑝 -‬‬
‫מדד זה בודק את קיומו של קשר לינארי (קווי) בין שני המשתנים‪.‬‬
‫דוגמאות‪ :‬קשר בין גובה האב לגובה בנו‪ ,‬קשר בין מספר שנות לימוד לשכר‪ ,‬קשר בין מספר שנות‬
‫ותק לשכר‪ ,‬קשר בין ציון בבגרות לבין ציון במבחן הפסיכומטרי‪ ,‬קשר בין הכנסות משק בית‬
‫להוצאות ועוד‪.‬‬
‫מקדם המתאם של פירסון הינו מדד לבדיקת קשר (לינארי) בין שני משתנים כמותיים‪ .‬מקדם‬
‫המתאם בודק את כיוון הקשר ואת עוצמתו‪.‬‬
‫כשיש מתאם חיובי בין משתנים‪ ,‬ערכים שהם מעל לממוצע במשתנה אחד‪ ,‬מקבילים לערכים‬
‫שהם מעל לממוצע במשתנה השני‪ ,‬ולהיפך‪ .‬במילים אחרות‪ ,‬המגמה של הנקודות הינה מגמה‬
‫עולה‪.‬‬
‫כשיש מתאם שלילי בין משתנים‪ ,‬ערכים שהם מעל לממוצע במשתנה אחד‪ ,‬מקבילים לערכים‬
‫שהם מתחת לממוצע במשתנה השני‪.‬‬
‫מקדם המתאם של פירסון נע תמיד בין ‪ −1‬לבין ‪.−1 ≤ 𝑟𝑝 ≤ 1 :1‬‬
‫ערכו של מקדם המתאם של פירסון מצביע הן על כיוון הקשר בין שני המשתנים והן על עוצמתו‪.‬‬
‫לגבי כיוון הקשר (חיובי‪/‬שלילי‪/‬אפס)‪:‬‬
‫כאשר מגמת הנקודות בדיאגרמת הפיזור חיובית (ערכים גבוהים של המשתנה האחד‬ ‫‪-‬‬
‫נוטים להתקבל עם ערכים גבוהים של המשתנה האחר)‪ ,‬מקדם המתאם יקבל ערך חיובי‪.‬‬
‫כאשר מגמת הנקודות בדיאגרמת הפיזור שלילית (ערכים גבוהים של המשתנה האחד‬ ‫‪-‬‬
‫נוטים להתקבל עם ערכים נמוכים של המשתנה האחר)‪ ,‬מקדם המתאם יקבל ערך שלילי‪.‬‬
‫כאשר אין מגמה (לינארית) כלשהי בין הנקודות בדיאגרמת הפיזור‪ ,‬ערך מתאם פירסון‬ ‫‪-‬‬
‫יהיה אפס (או קרוב לאפס)‪.‬‬
‫לגבי עוצמת הקשר‪:‬‬
‫ככל שהנקודות קרובות יותר לקו לינארי כלשהו בעל שיפוע חיובי‪ ,‬מקדם המתאם יהיה‬ ‫‪-‬‬
‫קרוב יותר ל‪.1-‬‬
‫ככל שהנקודות קרובות יותר לקו לינארי כלשהו בעל שיפוע שלילי‪ ,‬מקדם המתאם יהיה‬ ‫‪-‬‬
‫קרוב יותר ל‪.−1-‬‬
‫אם כל הנקודות נמצאות על קו לינארי אחד בעל שיפוע חיובי‪ ,‬ערכו של מקדם המתאם‬ ‫‪-‬‬
‫יהיה ‪.1‬‬
‫אם כל הנקודות נמצאות על קו לינארי אחד בעל שיפוע שלילי‪ ,‬ערכו של מקדם המתאם‬ ‫‪-‬‬
‫יהיה ‪.−1‬‬

‫‪2‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫לסיכום‪ ,‬ערכו בערך מוחלט של מקדם המתאם של פירסון מציין את עוצמת הקשר‪ ,‬וסימנו של‬
‫מקדם המתאם (חיובי‪ ,‬שלילי או אפס) מציין את כיוון הקשר‪ .‬כאשר מקדם המתאם שווה לאפס‬
‫(או קרוב לאפס)‪ ,‬נאמר שאין קשר לינארי בין שני המשתנים‪.‬‬
‫הערה‪ :‬נדגיש שמקדם המתאם בודק קשר לינארי (קווי) בלבד בין שני משתנים כמותיים‪ .‬ייתכן‬
‫מצב בו קיים קשר שאינו לינארי בין שני המשתנים ומקדם המתאם של פירסון יקבל ערך אפס‬
‫(ערך המצביע על העדר קשר לינארי בין שני המשתנים)‪.‬‬
‫דוגמאות לערכו של מקדם המתאם של פירסון עבור מספר דיאגרמות פיזור‪:‬‬

‫מקדם המתאם של פירסון – נוסחא‪ :‬להלן הנוסחא לחישוב מקדם המתאם של פירסון בין שני‬
‫משתנים 𝑋 ו‪:𝑌 -‬‬
‫̅𝑌̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫= 𝑝𝑟‬
‫) ‪√(∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2 ) ⋅ (∑𝑛𝑖=1 𝑌𝑖2 − 𝑛𝑌̅ 2‬‬

‫(הערה‪ :‬בספרות קיימים מספר אופנים שונים להצגת הנוסחא של מקדם המתאם של פירסון‪.‬‬
‫כמובן‪ ,‬בכולם נקבל תוצאה זהה)‬
‫טבלת עזר לביצוע החישובים‪ :‬רצוי להכין טבלת עזר בה נבצע את כל החישובים הנדרשים לחישוב‬
‫מקדם המתאם של פירסון‪.‬‬
‫להלן טבלת העזר עבור שימוש בנוסחת העבודה‪:‬‬

‫‪3‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫דוגמא‬
‫חוקר מעוניין לבדוק האם לאבות גבוהים יש בנים גבוהים‪ .‬לשם כך נבדק הקשר בין גובה האב‬
‫לגובה בנו עבור ‪ 10‬אבות ובניהם‪.‬‬
‫בדוגמא זו גובה האב הינו המשתנה המסביר (בלתי תלוי)‪ ,‬וגובה הבן הינו המשתנה המוסבר‬
‫(תלוי)‪ ,‬ולכן גובה האב יסומן ב‪ ,𝑋-‬וגובה הבן יסומן ב‪ .𝑌 -‬להלן הגבהים (בסנטימטרים)‪:‬‬

‫האם נתונים אלו מוכיחים כי לאבות גבוהים יש בנים גבוהים?‬


‫דיאגרמת פיזור עבור הדוגמא‪ :‬מהסתכלות ראשונית בתוצאות שהתקבלו בטבלה קצת קשה‬
‫לראות האם קיים קשר בין שני המשתנים‪ .‬לכן‪ ,‬נציג את הגבהים שהתקבלו עבור ‪ 10‬האבות‬
‫ובניהם בדיאגרמת הפיזור הבאה‪:‬‬

‫ניתוח ראשוני המתקבל מדיאגרמת הפיזור‪ :‬מהסתכלות ראשונית בדיאגרמת הפיזור קל יותר‬
‫לבחון את הקשר בין שני המשתנים‪ .‬נעשה ניתוח ראשוני של הקשר בין שני המשתנים מתוך‬
‫הסתכלות בדיאגרמת הפיזור בלבד‪ .‬ניתן לראות באופן כללי שישנו קשר חיובי בין גובה האב‬
‫לגובה בנו‪ .‬הקשר בין שני המשתנים חיובי מכיוון שמגמת הנקודות בדיאגרמה הינה מגמה עולה –‬
‫ככל שהאב גבוה יותר לרוב גם בנו גבוה יותר‪ ,‬וככל שהאב נמוך יותר לרוב גם בנו נמוך יותר‪.‬‬
‫כמו‪-‬כן‪ ,‬מתקבל הרושם שהקשר (החיובי) בין שני המשתנים חזק יחסית‪ ,‬מכיוון שהמגמה‬
‫החיובית של הנקודות די ברורה‪ ,‬ורוב הנקודות מקיימות אותה‪.‬‬

‫‪4‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫חישוב מקדם המתאם של פירסון – טבלת עזר‪ :‬כדי לחשב את ערכו של מקדם המתאם של‬
‫פירסון (נוסחת העבודה) נשתמש בטבלת העזר הבאה בה מרוכזים החישובים הנדרשים‪:‬‬

‫חישוב מקדם המתאם של פירסון‪ :‬לסיכום‪ ,‬קיבלנו מטבלת העזר‪:‬‬


‫𝑛‬ ‫𝑛‬

‫‪∑ 𝑋𝑖 = 1743,‬‬ ‫‪∑ 𝑌𝑖 = 1771‬‬


‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬

‫‪𝑋̅ = 174.3,‬‬ ‫‪𝑌̅ = 177.1‬‬


‫𝑛‬ ‫𝑛‬

‫‪∑ 𝑋𝑖2‬‬ ‫‪= 304211,‬‬ ‫‪∑ 𝑌𝑖2 = 314173‬‬


‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫𝑛‬

‫‪∑ 𝑋𝑖 𝑌𝑖 = 309014‬‬
‫‪𝑖=1‬‬

‫כעת‪ ,‬נציב את כל הביטויים בנוסחת העבודה של מקדם המתאם של פירסון ונקבל‪:‬‬


‫̅𝑌̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫= 𝑝𝑟‬ ‫=‬
‫‪√(∑𝑛𝑖=1 𝑋𝑖2‬‬ ‫‪−‬‬ ‫) ‪𝑛𝑋̅ 2‬‬ ‫⋅‬ ‫‪(∑𝑛𝑖=1 𝑌𝑖2‬‬ ‫‪−‬‬ ‫) ‪𝑛𝑌̅ 2‬‬
‫‪309014 − 10 ⋅ 174.3 ⋅ 177.1‬‬
‫=‬ ‫=‬
‫) ‪√(304211 − 10 ⋅ 174.32 ) ⋅ (314173 − 10 ⋅ 177.12‬‬
‫‪328.7‬‬
‫=‬ ‫‪= 0.709‬‬
‫)‪√(406.1) ⋅ (528.9‬‬
‫קיבלנו שיש קשר חיובי ודי חזק בין גובה האב לגובה בנו‪.‬‬
‫סיכום הדוגמא‪ :‬בדוגמא זו בדקנו את טענת החוקר שסבר שלאבות גבוהים יש בנים גבוהים‪ ,‬או‬
‫במילים אחרות שישנו קשר (חיובי) בין גובה האב לגובה בנו‪.‬‬
‫חישבנו את מקדם המתאם של פירסון עבור הנתונים שאספנו במדגם וקיבלנו שערך מקדם‬
‫המתאם של פירסון הינו ‪ ,0.709‬ערך המצביע על קיום קשר חיובי ודי חזק בין גובה האב לגובה‬
‫בנו‪.‬‬
‫לסיכום‪ ,‬אכן נמצא קשר חיובי בין שני המשתנים הנחקרים‪.‬‬

‫‪5‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫רגרסיה לינארית – הקדמה‬


‫רגרסיה לינארית הינה המשך ישיר לנושא הקודם אשר דן בקשר בין שני משתנים כמותיים‬
‫ובמקדם המתאם של פירסון‪ .‬כזכור‪ ,‬לפנינו שני משתנים‪ :‬משתנה בלתי תלוי המסומן ב‪( 𝑋-‬נקרא‬
‫גם משתנה מסביר) ומשתנה תלוי המסומן ב‪( 𝑌 -‬נקרא גם משתנה מוסבר) שנמצא שיש ביניהם‬
‫קשר לינארי כלשהו‪.‬‬
‫המטרה ברגרסיה לינארית היא למצוא את משוואת הישר המתאים ביותר לאפיון הקשר בין שני‬
‫המשתנים‪ .‬בעזרת משוואת הישר נוכל לנבא את ערכו של המשתנה התלוי (משתנה 𝑌) על‪-‬סמך‬
‫ידיעת ערכו של המשתנה הבלתי תלוי (משתנה 𝑋) בלבד‪.‬‬
‫כאמור‪ ,‬הרגרסיה הלינארית הינה כלי סטטיסטי המאפשר לנו לנבא את ערכו של המשתנה התלוי‬
‫על‪-‬סמך ידיעת ערכו של המשתנה הבלתי תלוי‪.‬‬
‫ברגרסיה לינארית פשוטה ישנו משתנה תלוי אחד ומשתנה בלתי תלוי יחיד‪.‬‬
‫ברגרסיה לינארית מרובה ישנו משתנה תלוי אחד ומספר משתנים בלתי תלויים‪.‬‬
‫הרגרסיה הלינארית משמשת אותנו כאשר המשתנה התלוי (המנובא) הוא כמותי‪ .‬המשתנים‬
‫הבלתי תלויים ברגרסיה הלינארית יכולים להיות מכל רמת מדידה (יכולים להיות גם איכותיים)‪.‬‬
‫רגרסיה לינארית – מבוא‬
‫למדנו כי מקדם המתאם של פירסון מעיד על קיומו של קשר לינארי בין שני משתנים‪ ,‬על כיוונו‬
‫ועל חוזקו‪.‬‬
‫כאשר ‪ ,𝑟(𝑋, 𝑌) = ±1‬כל הנקודות בדיאגרמת הפיזור נופלות על קו ישר‪ ,‬ומידיעת ערך 𝑋 אנו‬
‫יכולים לדעת את ערכו המדויק של 𝑌 (ניבוי מושלם)‪.‬‬

‫‪6‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫אך מה קורה כאשר מוצאים שיש קשר לינארי‪ ,‬אך מקדם המתאם של פירסון לא שווה בדיוק ל‪-‬‬
‫𝟏 או ל‪?−𝟏-‬‬
‫במקרה כזה ישנן נקודות ש"נופלות" בדיוק על הקו הישר‪ ,‬אך ישנן גם נקודות שנמצאות מסביבו‪.‬‬
‫במקרה כזה איננו יכולים לדעת בדיוק מהו ערכו של 𝑌 בהסתמך על ידיעת ערכו של 𝑋‪ .‬נשאלת‬
‫השאלה – מהו הקו האופטימאלי במקרה זה?‬

‫מהו קו הרגרסיה הטוב ביותר לניבוי 𝒀?‬

‫‪7‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫משוואת הקו הישר – תזכורת‬


‫משוואה כללית של הקו הישר הינה 𝑎 ‪ ,𝑌 = 𝑏𝑋 +‬כאשר 𝑏 הינו שיפוע הקו ו‪ 𝑎 -‬הינו נקודת‬
‫החיתוך של הישר עם ציר ה‪( 𝑌 -‬נקרא גם קבוע הישר)‪.‬‬
‫תרגול עצמי‪ :‬שרטטו את הישרים הבאים‪:‬‬
‫‪𝑌 = 2𝑋 + 1‬‬ ‫א‪.‬‬
‫‪𝑌 = −0.5𝑋 + 2‬‬ ‫ב‪.‬‬
‫‪𝑌 = 3𝑋 − 4‬‬ ‫ג‪.‬‬

‫את ישר הרגרסיה (הנקרא גם ישר הניבויים) נהוג לסמן ב‪.𝑌̂ = 𝑏𝑋 + 𝑎-‬‬

‫קו הרגרסיה לניבוי 𝒀 על סמך 𝑿‬


‫קו הרגרסיה לניבוי 𝑌 על סמך 𝑋 הינו ישר הרגרסיה הטוב ביותר במקרה בו המשתנה התלוי הינו‬
‫𝑌 והמשתנה הבלתי תלוי הינו 𝑋‪ .‬בהמשך נראה מה הקריטריון הקובע מיהו הישר הטוב ביותר‪.‬‬
‫במרבית המקרים הסיווג של שני המשתנים למשתנה בלתי תלוי (מסביר) ומשתנה תלוי (מוסבר)‬
‫יהיה ברור ויחיד‪ .‬כאשר כך הדבר‪ ,‬המשתנה הבלתי תלוי יסומן ב‪ ,𝑋 -‬והמשתנה התלוי יסומן ב‪.𝑌 -‬‬
‫דוגמאות‪ :‬שנות לימוד ושכר‪ ,‬ותק ושכר‪ ,‬גובה האב וגובה בנו‪ ,‬גיל ומהירות נסיעה‪ ,‬גיל ומספר‬
‫תאונות דרכים‪.‬‬
‫תרגול עצמי‪ :‬בכל דוגמא קבעו מיהו המשתנה הבלתי תלוי ומיהו המשתנה התלוי‪.‬‬

‫עיקרון הריבועים הפחותים )‪(OLS = Ordinary Least Squares‬‬


‫נשאלת השאלה איזה עיקרון‪/‬קריטריון ינחה אותנו במציאת הקו הלינארי המתאים ביותר לאפיון‬
‫הקשר בין המשתנה 𝑋 למשתנה 𝑌‪/‬‬
‫כזכור‪ 𝑦𝑖 ,‬הינו ערך המשתנה המוסבר (משתנה 𝑌) עבור תצפית 𝑖 במדגם שדגמנו‪ .‬לעומת זאת‪𝑦̂𝑖 ,‬‬
‫הינו ערך מנובא על‪-‬ידי ישר הרגרסיה למשתנה המוסבר 𝑌 עבור תצפית 𝑖‪ .‬כלומר‪ 𝑦̂𝑖 ,‬מתקבל על‪-‬‬
‫ידי הצבת הערך 𝑖𝑥 במשוואת ישר הרגרסיה‪.‬‬
‫נזכור שהמשתנה 𝑌 הינו המשתנה המוסבר‪ ,‬ולכן הוא המשתנה המעניין אותנו בדיון‪.‬‬

‫‪8‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫הקו האופטימאלי יהיה הקו אשר ממזער את סכום ריבועי הסטיות בין 𝑖𝑦 (ערך בפועל של תצפית‬
‫𝑖) לבין 𝑖̂𝑦 (ערך מנובא על‪-‬ידי הישר לתצפית 𝑖)‪.‬‬
‫עקרון זה‪ ,‬בו אנו רוצים למזער את סכום ריבועי הסטיות בין 𝑖𝑦 לבין 𝑖̂𝑦‪ ,‬נקרא "עיקרון‬
‫הריבועים הפחותים"‪.‬‬
‫נרשום אותו בצורה פורמאלית‪:‬‬
‫𝑛‬ ‫𝑛‬
‫‪2‬‬
‫‪)2‬‬
‫} ))𝑎 ‪min {∑(𝑦𝑖 − 𝑦̂𝑖 } = min {∑(𝑦𝑖 − (𝑏𝑥𝑖 +‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬

‫המחשה‪:‬‬

‫כדי למצוא מינימום של הביטוי שהוצג (סכום ריבועי הסטיות מהקו)‪ ,‬עלינו לגזור את הביטוי פעם‬
‫לפי 𝑎 ופעם לפי 𝑏‪ ,‬ולהשוות כל נגזרת לאפס‪ .‬בכך מתקבלות שתי משוואות עם שני נעלמים (𝑎 ו‪-‬‬
‫𝑏)‪ .‬פותרים את שתי המשוואות ובכך מקבלים ביטויים מפורשים ל‪ 𝑎 -‬ול‪.𝑏 -‬‬
‫מתקבלים הביטויים הבאים‪:‬‬
‫̅𝑋𝑏 ‪𝑎 = 𝑌̅ −‬‬
‫)̅𝑌 ‪∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) ⋅ (𝑌𝑖 −‬‬ ‫̅𝑌 ⋅ ̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫=𝑏‬ ‫=‬ ‫⋯‬ ‫=‬
‫‪∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2‬‬ ‫‪∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2‬‬

‫משוואת ישר הרגרסיה לניבוי 𝒀 על סמך 𝑿 – סיכום‬


‫את ישר הרגרסיה לניבוי 𝑌 על סמך 𝑋 נסמן ב‪.𝑌̂ = 𝑏𝑋 + 𝑎 :‬‬
‫במקרה זה המשתנה המוסבר הינו 𝑌 והמשתנה המסביר הינו 𝑋‪.‬‬
‫הביטויים לשיפוע של הישר )𝑏( ולחותך של הישר )𝑎( נתונים על‪-‬ידי המשוואות הבאות‪:‬‬
‫̅𝑋𝑏 ‪𝑎 = 𝑌̅ −‬‬
‫̅𝑌 ⋅ ̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫=𝑏‬
‫‪∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2‬‬

‫‪9‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫דוגמא‬
‫כאשר הצגנו את מקדם המתאם של פירסון‪ ,‬הצגנו את הדוגמא הבאה‪:‬‬
‫לפנינו הגבהים של ‪ 10‬אבות ובניהם‪ .‬בדוגמא זו גובה האב הינו המשתנה הבלתי תלוי‪ ,‬וגובה הבן‬
‫הינו המשתנה התלוי‪ ,‬ולכן גוב האב יסומן ב‪ ,𝑋 -‬וגובה הבן יסומן ב‪ .𝑌 -‬להלן הגבהים‪:‬‬

‫נחשב את ישר הרגרסיה לניבוי גובה הבן על סמך גובה אביו‪.‬‬


‫טבלת עזר‪ :‬כדי לחשב את ישר הרגרסיה לניבוי גובה הבן על סמך גובה אביו נשתמש בטבלת העזר‬
‫הבאה בה מרוכזים החישובים הנדרשים‪:‬‬

‫נמצא את ישר הרגרסיה לניבוי גובה הבן )𝑌( על סמך גובה האב )𝑋(‪.‬‬

‫משוואת הישר הינה 𝑎 ‪.𝑌̂ = 𝑏𝑋 +‬‬


‫תחילה נמצא את המקדם 𝑏 (השיפוע) במשוואת הישר‪:‬‬
‫‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋̅ ⋅ 𝑌̅ 309014 − 10 ⋅ 174.3 ⋅ 177.1 328.7‬‬
‫=𝑏‬ ‫=‬ ‫=‬ ‫‪≅ 0.81‬‬
‫‪∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2‬‬ ‫‪304211 − 10 ⋅ 174.32‬‬ ‫‪406.1‬‬

‫כעת נמצא את המקדם 𝑎 (החותך‪/‬הקבוע) במשוואת הישר‪:‬‬


‫‪𝑎 = 𝑌̅ − 𝑏𝑋̅ = 177.1 − 0.81 ⋅ 174.3 ≅ 35.9‬‬
‫קיבלנו‪:‬‬
‫‪𝑎 = 35.9,‬‬ ‫‪𝑏 = 0.81‬‬
‫ולכן‪ ,‬משוואת ישר הרגרסיה לניבוי גובה הבן על סמך גובה אביו הינה‪:‬‬
‫‪𝑌̂ = 0.81𝑋 + 35.9‬‬

‫‪10‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪13/06/2021‬‬

‫שימוש בישר הרגרסיה לצרכי ניבוי‬


‫כאשר יש ברשותנו את משוואת ישר הרגרסיה‪ ,‬נוכל להשתמש בה לשם ניבוי ערך 𝑦 על סמך ערך 𝑥‬
‫בלבד‪ ,‬עבור תצפית חדשה‪ .‬הניבוי ייעשה על‪-‬ידי הצבת ערך 𝑥 (הידוע לנו) במשוואת קו הרגרסיה‪,‬‬
‫ובכך נקבל את הניבוי לערך 𝑦‪.‬‬

‫את הניבוי לערך 𝑖𝑥 נהוג לסמן ב‪ .𝑌̂𝑥𝑖 -‬לדוגמא‪ ,‬את גובה הבן שננבא לאב אשר גובהו ‪ 180‬נסמן ב‪-‬‬
‫‪.𝑌̂180‬‬
‫דוגמא‪ :‬נשתמש בדוגמא עם גבהי האבות ובניהם‪ .‬בדוגמא זו קיבלנו שישר הרגרסיה הינו‪:‬‬

‫‪𝑌̂ = 0.81𝑋 + 35.9‬‬


‫נניח ואנו רוצים לנבא לאב שגובהו ‪ 180‬ס"מ מה יהיה גובה בנו‪ .‬לשם כך אנו מציבים את הערך‬
‫‪ 180‬במקום המשתנה 𝑥 בישר הרגרסיה ומקבלים את הניבוי לגובה הבן‪:‬‬

‫‪𝑌̂180 = 0.81 ⋅ 180 + 35.9 = 181.7‬‬


‫אם כך‪ ,‬ננבא לאב שגובהו ‪ 180‬ס"מ שגובה בנו יהיה ‪ 181.7‬ס"מ‪.‬‬
‫פירוש‪/‬משמעות המקדמים של ישר הרגרסיה‬
‫דוגמא‪ :‬בבדיקת הקשר בין מספר שנות ותק בחברה מסוימת לבין השכר (בשקלים) נמצא שיש‬
‫הרגרסיה לניבוי השכר על סמך הוותק הינו הישר הבא‪:‬‬

‫𝑋‪𝑌̂ = 5550 + 350‬‬


‫מה המשמעות של השיפוע )‪ (350‬במונחי השאלה?‬ ‫א‪.‬‬
‫מה המשמעות של החותך )‪ (5500‬במונחי השאלה?‬ ‫ב‪.‬‬
‫פתרון‪:‬‬
‫משמעות של השיפוע‪ :‬כל שנת ותק מגדילה בממוצע את שכר העובד ב‪.₪ 350-‬‬ ‫א‪.‬‬
‫משמעות של החותך‪ :‬ננבא לאדם חדש בחברה (אדם בעל אפס שנות ותק) שכר התחלתי‬ ‫ב‪.‬‬
‫של ‪.₪ 5500‬‬

‫‪11‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬

You might also like