Professional Documents
Culture Documents
2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא
2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא
2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
07/03/2021
אוכלוסיית המחקר
אוכלוסיית המחקר הינה אוסף המקרים אליהם מתייחס המחקר הסטטיסטי .אוכלוסיית
המחקר נקבעת מראש בהתאם לסוג המחקר ואינה עוסקת בהכרח בבני אדם .נציג מספר דוגמאות
לאוכלוסיית המחקר:
אם ברצוננו לבדוק מהו השכר הממוצע של סטודנטים לתואר ראשון ,אוכלוסיית המחקר -
תהיה כל הסטודנטים הלומדים כיום לתואר ראשון.
במקרה בו נהיה מעוניינים לבדוק את אחוז המוצרים הפגומים בפס יצור ,אוכלוסיית -
המחקר תהיה כלל המוצרים המיוצרים במפעל.
כאשר רוצים לבדוק מהי המהירות הממוצעת בכביש י-ם ת"א ,אוכלוסיית המחקר תהיה -
כל כלי הרכב הנוסעים בכביש זה.
מדגם
במרבית המחקרים לא נוכל לבדוק את כלל האוכלוסייה .פעמים רבות גם אם יהיה ניתן לדגום
את כל האוכלוסייה לא יהיה ברשותנו תקציב או זמן לכך.
לכן ,מרבית המחקרים הסטטיסטיים מבוססים על מדגם מתוך אוכלוסיית המחקר ולא על
האוכלוסייה כולה.
החוקר יקבל את תוצאות המדגם ומטרתו תהיה להכליל תוצאות אלו על כל האוכלוסייה.
סימון :את גודל המדגם נהוג לסמן באות 𝑛 (מלשון .)number
לדוגמא ,אם דגמנו 100פרטים מהאוכלוסייה ,נרשום .𝑛 = 100
שיטת הדגימה
כאשר נסקור מדגם מהאוכלוסייה ,עלינו לוודא שהמדגם יהיה מייצג מכל הבחינות.
כדי לקבל מדגם מייצג ,יש לבחור את המדגם בגודל מתאים ובשיטה הסתברותית המאפשרת לכל
מקרה באוכלוסייה הסתברות להיכלל במדגם .ישנן שיטות רבות איך לדגום :מדגם מקרי ,מדגם
שכבות ,מדגם אשכולות ועוד .נושא זה קשור ל"תורת הדגימה" .נדון בשיטות להסקה סטטיסטית
המבוססות על מדגמים הסתברותיים שנבחרו בשיטת המדגם המקרי הפשוט (בחירה אקראית).
שלבי המחקר הסטטיסטי
רוב המחקרים הסטטיסטיים כוללים את השלבים הבאים (על-מנת למנוע טעויות):
השלב הראשון במחקר הסטטיסטי הוא הצגת שאלת המחקר ,כלומר מה אנו מבקשים -
לבדוק .שאלת המחקר תהיה מוגדרת על אוכלוסייה כלשהי.
השלב השני עוסק בתכנון המחקר .בשלב זה נקבע איזה נתונים נדרשים בכדי לענות על -
שאלת המחקר ,וכיצד יש לאסוף אותם.
בשלב השלישי יש לאסוף את הנתונים .זהו השלב בו נעשית עבודת השדה. -
השלב הרביעי עוסק בארגון הנתונים שהתקבלו בטבלאות ,גרפים ותרשימים ,בכדי -
שהנתונים יוצגו בצורה נוחה יותר.
בשלב החמישי הסכם ונאפיין את הנתונים בעזרת מדדים שונים (מדדי מיקום ,מדדי -
פיזור ,מדדי מיקום יחסי).
בחלק מהמחקרים קיים שלב נוסף העוסקת בהסקת מסקנות מהמדגם על האוכלוסייה -
כולה (כמובן שבמידה ודגמנו את כל האוכלוסייה שלב זה לא קיים).
לבסוף נהוג להגיש את הממצאים שהתקבלו מהמחקר. -
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
07/03/2021
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
07/03/2021
דוגמאות :מספר ילדים במשפחה ,מספר חדרים בבית ,מספר ימי שרב בשנה ,מספר
הממתינים בתור לרופא ועוד.
משתנה כמותי רציף :משתנה כמותי שערכיו לא ניתנים למנייה .לא ניתן למנות (לספור) ד.
את ערכיו של המשתנה הכמותי הרציף ,שכן המשתנה יכול לקבל כל ערך בקטע ממשי.
עבור משתנה כמותי רציף בין כל שני ערכים אפשריים של המשתנה קיימים עוד אינסוף
ערכים נוספים .לכן ,משתנה כמותי רציף מקבל בהכרח אינסוף ערכים.
דוגמאות :כמות משקעים ,גובה ,משקל ,לחץ דם ,טמפרטורה .בכל הדוגמאות הללו לא
ניתן למנות את ערכי המשתנה שכן המשתנה אינו מקבל ערכים שלמים בלבד ,אלא הוא
יכול לקבל כל ערך ממשי.
מיון לפי סולם מדידה
סולמות המדידה הם סולמות שעוזרים לדעת את ניתוח הנתונים והצגתם.
משתנה נומינאלי (שמי) :זהו משתנה איכותי שערכיו מייצגים קטגוריות/שמות ולא כמויות.
ערכיו ניתנים במילים (או במספרים חסרי משמעות כמותית ,כמו המשתנה מגדר = 0 :נקבה,
= 1זכר) .כמו-כן ,לא ניתן לסדר את ערכיו של המשתנה הנומינאלי לפי סדר כלשהו בעל
משמעות.
דוגמאות :מגדר ,ארץ מוצא ,עדה ,סוג דם ,אזור חיוג.
פעולות מתמטיות אפשריות.𝑎 = 𝑏, 𝑎 ≠ 𝑏 :
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
07/03/2021
משתנה אורדינאלי (סדור) :גם משתנה זה הינו איכותי שערכיו מייצגים קטגוריות/שמות (ולא
כמויות) ,אלא שהפעם ניתן לסדר את ערכיו של המשתנה האורדינאלי לפי סדר כלשהו בעל
משמעות.
דוגמאות :מידת שביעות רצון ,רמת חרדה ,דרגות בצבא.
פעולות מתמטיות אפשריות.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏 :
משתנה אינטרוואלי (רווח) :משתנה זה הינו כמותי וערכיו ניתנים במספרים .עבור משתנה זה יש
משמעות למרווחים (הפרשים) בין ערכי המשתנה .כל משתנה בעל ערכים חיוביים ושליליים יחשב
משתנה אינטרוואלי .במקרה זה 0הינו אחד מערכי המשתנה ,ולא "האפס המוחלט".
דוגמאות :טמפרטורה ,גובה ביחס לפני הים ,רווח ממשחק הימורים.
פעולות מתמטיות אפשריות.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏, 𝑎 + 𝑏, 𝑎 − 𝑏 :
משתנה יחס (מנה) :משתנה זה הינו כמותי וערכיו ניתנים במספרים .עבור משתנה זה יש
משמעות לחלק ערך אחד של המשתנה בערך שני ולציין את היחס ביניהם .במקר זה 0מציין את
"האפס המוחלט" ,ה"ריק" או ה"אין" ואינו אחד מערכי המשתנה.
דוגמאות :גובה ,משקל ,גיל ,שכר ,לחץ דם ,מספר חדרים.
𝑏 𝑎
פעולות מתמטיות אפשריות.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏, 𝑎 + 𝑏, 𝑎 − 𝑏, 𝑏 , 𝑎 :
סיכום:
הערה חשובה :סולם המדידה של המשתנה אינו תמיד חד-משמעי ,ולעתים תלוי בדרך בה החוקר
בחר להציג את המשתנה.
לדוגמא :המשתנה "רמת השכלה" .ניתן להציג/למדוד משתנה זה במספר דרכים שונות,:
.1לפי מספר שנות לימוד .במקרה זה מדובר במשתנה יחס.
.2לפי תעודה אחרונה שנרכשה (תיכונית ,תואר ראשון ,תואר שני וכו') .במקרה זה מדובר
במשתנה אורדינאלי.
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
07/03/2021
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
דוגמא:
משפחות חד-הוריות עם ילדים עד גיל ,24לפי מצב משפחתי של ההורה
בדוגמא זו מדובר במשתנה נומינאלי (שמי) .מצד ימין מופיעים ערכי המשתנה ,ומצד שמאל
השכיחויות (כמה פעמים כל ערך הופיע במדגם).
דוגמא נוספת:
במשאל של 60חולים בבית חולים גדול בארץ ,כל אחד נשאל לגבי מספר ימי אשפוז שהיו לו
החודש .התקבלו התוצאות הבאות:
מס' ימי אשפוז של חולים
)𝒙(𝒇 – שכיחות 𝒙 – מס' ימי אשפוז
12 1
21 2
16 3
7 4
3 5
1 7
𝟎𝟔 = 𝒏 סה"כ
בדוגמא זו מדובר במשתנה אינטרוואלי .בדוגמא זו 𝑥 מציין את מספר ימי האשפוז של החולה
במשך החודש ו 𝑓(𝑥)-מציין את שכיחות מספר האשפוזים.
טבלת שכיחויות למשתנה כמותי רציף
משתנה כמותי רציף מקבל כל ערך אפשרי בטווח ערכים מסוים ,ולכן למשתנה רציף קיימים
אינסוף ערכים אפשריים .מסיבה זו המשתנה הכמותי הרציף מוצג בטבלת שכיחות עם מחלקות.
ערכי המשתנה מוצגים בטווח של מספרים ולא כערך בודד. -
עלינו לקבוע כמה מחלקות נקבע ומה יהיה רוחבה של כל מחלקה. -
ההחלטה לגבי מספר המחלקות ורוחבן הינו שרירותי ותלוי במשתנה הנחקר ,בחוקר ובמחקר .אין
הכרח שכל המחלקות יהיו ברוחב שווה.
לעתים נבחר להציג בטבלת שכיחות עם מחלקות גם משתנה כמותי בדיד המקבל ערכים רבים,
לדוגמא המשתנה "משכורת".
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
דוגמא:
סטודנטים מקבלי תואר ראשון לפי גיל
)𝒙(𝒇 – שכיחות 𝒙 – גיל מקבל התואר
360 16 − 21
4992 22 − 24
10199 25 − 29
1387 30 − 34
685 35 − 44
324 45 − 54
72 55 +
𝟗𝟏𝟎 𝟏𝟖, סה"כ
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
זוהי דוגמא לטבלת שכיחות דו-ממדית עבור שני משתנים :רמת השכלה ומגדר .המשתנה "רמת
השכלה" (משתנה אורדינאלי) מוצג בשורות הטבלה .המשתנה "מגדר" (משתנה נומינאלי) מוצג
בעמודות הטבלה.
במקרה של לוח דו-ממדי תופיע גם שורת סה"כ וגם עמודת סה"כ.
הוסיפו כותרת מתאימה לטבלה. -
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
דוגמא נוספת:
סטודנטים לתואר שני סטודנטים לתואר ראשון מס' היעדרויות בסמסטר
20 42 𝟎
8 23 𝟏
4 10 𝟐
3 5 𝟑
0 2 𝟒+
גם בדוגמא זו ישנם נתונים אודות שני משתנים :מספר היעדרויות בסמסטר והתואר (ראשון/שני)
של הסטודנט.
הוסיפו סה"כ היכן שנדרש. -
הוסיפו כותרת מתאימה. -
הציגו את הנתונים באחוזים. -
הציגו מסקנות. -
הצגה גראפית של נתונים
הצגות גרפיות הינן דרכים ויזואליות יותר להצגת נתוני המחקר ,בעזרתן קל יותר "לראות" את
הסטטיסטיקה.
מאפשרות התרשמות חזותית של התפלגות הנתונים. -
דרך נפוצה לפרסום של נתונים סטטיסטיים. -
בחירת סוג ההצגה הגראפית נעשית בהתאם לסוג המשתנה. -
נלמד ארבע הצגות גראפיות עיקריות :דיאגרמת מעל ,דיאגרמת מקלות ,היסטוגרמה ודיאגרמת
פיזור .קיימות הצגות גראפיות נוספות – כמו "קו מגמה".
דוגמא להצגה גראפית – קו מגמה ):(Trend Line
שיעור פריון כולל (הלשכה המרכזית לסטטיסטיקה)
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
הגדרות נוספות
הגדרה – שכיחות יחסית :שכיחות יחסית של ערך 𝑥 הינה היחס בין שכיחות הערך לבין מספר
)𝑥(𝑓
. התצפיות הכולל במדגם ,כלומר
𝑛
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
דיאגרמת מעגל:
משפחות חד-הוריות עם ילדים עד גיל ,24לפי מצב משפחתי של ההורה
דיאגרמת מעגל:
8
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
משתי הדיאגרמות ניתן לראות שבקרב האירופאים יש אחוז גבוה יותר בעלי עיניים בהירות
(כחולות וירוקות) מאשר בקרב האמריקאים .בקרב האמריקאים ל 75%-יש עיניים חומות בעוד
בקרב האירופאים ל 55%-עיניים חומות.
דיאגרמת מקלות
דיאגרמת מקלות מתאימה בעיקר להצגה עבור משתנה איכותי סדור (אורדינאלי) או עבור משתנה
כמותי בדיד (אינטרוואלי או יחס) המוצג בטבלת שכיחות עם ערכים בודדים (ולא בטבלת שכיחות
עם מחלקות) .לדוגמא :מספר חדרים בבית ,מספר ילדים במשפחה ,מספר היעדרויות בסמסטר,
רמת השכלה ,שביעות רצון ועוד.
בדיאגרמת מקלות יופיעו על הציר האופקי ערכי המשתנה .לכל ערך של המשתנה נתאים "מקל"
אשר גובהו פרופורציוני לשכיחותו במדגם (או לאחוז שלו במדגם).
ערכי המשתנה יופיעו על הציר האופקי לפי הסדר (מהקטן לגדול).
דוגמא:
מספר סטודנטים לפי תואר 2006/7
טבלת שכיחות חד-ממדית:
)𝒙(𝒇 – מספר 𝒙 – תואר
סטודנטים
11,875 תואר ראשון
6,895 תואר שני
2,700 דוקטורט
𝟎𝟕𝟒 𝟐𝟏, סה"כ
הצגה באחוזים:
- %אחוזים )𝒙(𝒇 – מספר 𝒙 – תואר
סטודנטים
55.3 11,875 תואר ראשון
32.1 6,895 תואר שני
12.6 2,700 דוקטורט
𝟎𝟎𝟏 𝟎𝟕𝟒 𝟐𝟏, סה"כ
9
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
היסטוגרמה
היסטוגרמה מתאימה להצגה של משתנה כמותי רציף (משתנה אינטרוולי או משתנה יחס).
דוגמא :גיל ,משקל ,גובה.
היסטוגרמה מתאימה למקרים בהם המשתנה מופיע בטבלת שכיחות עם מחלקות.
בדומה לדיאגרמת מקלות ,על הציר האופקי נציג את ערכי המשתנה .לעומת זאת ,על הציר האנכי
נציג את הצפיפות של כל מחלקה.
הגדרה – צפיפות :שכיחות ליחידה אחת של המשתנה הנחקר .אם כך ,הצפיפות במחלקה שווה
לשכיחות של המחלקה חלקי רוחב המחלקה .את הצפיפות נסמן באות 𝑑.
דוגמא:
טבלת שכיחות חד-ממדית:
נשים נשואות בכוח העבודה האזרחי בישראל לפי גיל (באלפים)
)𝑥(𝑓 𝒍 – רוחב מחלקה )𝒙(𝒇 – שכיחות 𝒙 – גיל
𝒅 – צפיפות 𝑙 = 𝑑
33.8 7 33.8 18 − 25
= 4.82
7
230.1 10 230.1 25 − 35
= 23.01
10
437.9 20 437.9 35 − 55
= 21.89
20
80.2 10 80.2 55 − 65
= 8.02
10
𝟐𝟖𝟕 סה"כ
נשים לב שרוחב המחלקה הראשונה לדוגמא הינו ( 7ולא )6שכן המחלקה מתחילה בגיל 18
ומסתיימת בגיל ( 25לא כולל ,)25ולא בגיל ( 24בכדי ליצור רצף בין הגבולות של המחלקות).
ניתן לראות שהמחלקה עם השכיחות הגבוהה ביותר הינה המחלקה השלישית ) (35 − 55בעוד
שהמחלקה הצפופה ביותר הינה המחלקה השנייה ) .(25 − 35הסיבה לכך היא שהמחלקה
השנייה פחות רחבה מהמחלקה השלישית ,דבר הגורם לה בסופו של דבר להיות צפופה יותר.
10
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
היסטוגרמה:
בדוגמא זו מדובר במשתנה כמותי רציף (משתנה יחס) ולכן בחרנו להציגו בהיסטוגרמה.
מצולע שכיחויות (פוליגון)
בכדי לבנות מצולע שכיחויות עלינו לחבר את אמצעי הבסיסים העליונים של כל שני מלבנים
עוקבים בהיסטוגרמה על-ידי קו ישר.
מצולע זה נותן תמונה סדירה של מהלך ההתפלגות.
בקצוות מחברים את אמצע כל בסיס חיצוני על-ידי קו ישיר לציר ה( 𝑋 -הציר האופקי) ,במרחק
מחצית רוחב הבסיס ,בכדי לסגור את המצולע.
מצולע שכיחויות עבור הדוגמא הנ"ל:
11
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
דוגמא נוספת:
טבלת שכיחויות חד-ממדית:
עובדים בארגון לפי גיל
𝒅 – צפיפות 𝒍 – רוחב מחלקה )𝒙(𝒇 – שכיחות 𝒙 – גיל
5.67 6 34 16 − 22
20.67 3 62 22 − 25
26 5 130 25 − 30
23 5 115 30 − 35
15.2 10 152 35 − 45
8.4 10 84 45 − 55
3.2 15 48 55 − 70
𝟓𝟐𝟔 סה"כ
היסטוגרמה:
בדוגמא זו מדובר במשתנה כמותי רציף (משתנה יחס) ולכן בחרנו להציגו בהיסטוגרמה.
התפלגויות פופולאריות
מוקדם יותר כאשר עסקנו בהצגה גרפית של נתונים כמותיים הצגנו את דיאגרמת המקלות
וההיסטוגרמה .נהוג לחבר בקווים ישרים את ראשי המקלות (כאשר מדובר בדיאגרמת מקלות) או
את ראשי מרכז המלבנים (כאשר מדובר בהיסטוגרמה) ובכך לקבל קו שבור לאורך הגרף הנקרא
מצולע שכיחויות או פוליגון .את המצולע שמתקבל נהוג "להחליק" (ליצור צורה חלקה אחת
במקום הקו השבור) ובכך מקבלים עקומה חלקה של המשתנה הנחקר .בעזרת עקומה חלקה זו קל
לראות האם מדובר בעקומה סימטרית או בעקומה שאינה סימטרית ,האם עיקר התצפיות
מרוכזות במרכז או בקצוות ועוד.
12
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
התפלגות Uסימטרית
התפלגות :Uהתפלגות Uהינה סימטרית ,בה רוב התצפיות נמצאות בקצוות העקומה ומעט
במרכז.
למעשה התפלגות זו הפוכה להתפלגות הפעמונית הסימטרית שכן בהתפלגות זו מעט תצפיות
במרכז ההתפלגות ועיקר המסה נמצאת בקצוות.
13
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
התפלגות אחידה
התפלגות אחידה :בהתפלגות זו יש פיזור אחיד לאורך כל העקומה .עקומה זו מתקבלת כאשר
השכיחויות של כל ערכי המשתנה שוות בקירוב .צורתה של העקומה האחידה הינה קו ישר
המקביל לציר האופקי .למעשה גם זו עקומה סימטרית.
דוגמא :תוצאת הטבלת קובייה עבור מספר רב של ניסויים .מדובר בהתפלגות אחידה בקירוב שכן
הקובייה סימטרית (הסתברות שווה לכל פאה) ולכן נצפה לקבל שכיחויות דמות לששת ערכי
הקוביה.
14
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
14/03/2021
שאלה :לאיזו התפלגות ציונים אתם צריכים לייחל במבחן סוף השנה?
תשובה :התפלגות א-סימטרית שלילית ("זנב שמאל") – שרוב הציונים יהיו גבוהים.
15
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
ממוצע )(Mean/Average
הממוצע של קבוצת מספרים הינו סכום כל המספרים מחולק במספרם.
ננסה לתת הסבר אינטואיטיבי לממוצע .הממוצע הינו "ערך סוציאליסטי" – אם למשל התצפיות
הינן משכורות חודשיות ,אזי הממוצע מבטא את המשכורת שכל פרט בקבוצה היה מקבל אם סך
כל המשכורות היו מחולקות שווה בשווה בין כל הפרטים בקבוצה.
סימון :את הממוצע של משתנה מקרי 𝑋 נסמן ב.𝑋̅ -
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
אופן החישוב :את הממוצע נחשב על-ידי סכימת כל התצפיות וחלוקת הסכום במספר התצפיות.
נציג את הנוסחא לחישוב הממוצע בכל אחת משלוש צורות ההצגה האפשריות של המשתנה:
רשימת תצפיות :כאשר הנתונים מופיעים כרשימה של 𝑛 תצפיות אשר מסומנות ב- א.
𝑛𝑥 ,𝑥1 , 𝑥2 , … ,ממוצע התצפיות הינו:
𝑛𝑥 ∑ 𝑥𝑖 𝑥1 + 𝑥2 + ⋯ +
= ̅𝑋 =
𝑛 𝑛
דוגמא :בדקנו את רמת ההמוגלובין בדם של 10נשים לאחר לידה .להלן הנתונים:
10.7, 11.2, 10.9, 10, 7.4, 7, 8.1, 11.9, 9.3, 10.4
נחשב את ממוצע רמת ההמוגלובין עבור המדגם של 10הנשים:
∑ 𝑥𝑖 10.7 + 11.2 + 10.9 + ⋯ + 10.4 96.9
= ̅𝑋 = = = 9.69
𝑛 10 10
קיבלנו שרמת ההמוגלובין הממוצע של 10הנשים הינה .9.69
טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד) :כאשר לפנינו טבלת שכיחות ב.
הכוללת מספר ערכים של המשתנה (נניח 𝑘 ערכים) ,הממוצע יחושב על-ידי סכימה של
מכפלת כל ערך בשכיחותו וחלוקת הסכום במספר התצפיות – 𝑛 .כלומר:
) 𝑘𝑥(𝑓 ⋅ 𝑘𝑥 ∑ 𝑥 ⋅ 𝑓(𝑥) 𝑥1 ⋅ 𝑓(𝑥1 ) + 𝑥2 ⋅ 𝑓(𝑥2 ) + ⋯ +
= ̅𝑋 =
𝑛 𝑛
נציין שאין למעשה הבדל בין אופן החישוב של הממוצע :אנו עדיין סוכמים את כל
התצפיות ומחלקים במספר התצפיות הכולל – 𝑛.
דוגמא :במשאל של 60חולים בבית חולים גדול ,כל חולה נשאל לגבי מספר ימי האשפוז
שהיו לו בחודש האחרון .להלן התוצאות:
)𝒙(𝒇 – שכיחות 𝒙 – מס' ימי אשפוז
12 1
21 2
16 3
7 4
3 5
1 7
𝟎𝟔 = 𝒏 סה"כ
נחשב את ממוצע מספר ימי האשפוז בחודש ,בעזרת הנוסחא המתאימה לטבלת שכיחות
עם ערכים בודדים:
)𝑥(𝑓 ⋅ 𝑥 ∑
= ̅𝑋
𝑛
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
טבלת עזר לחישובים :רצוי להוסיף לטבלת השכיחות עמודה נוספת (מכפלה בין הערכים
לבין השכיחויות) אשר תסייע לנו בחישוב הממוצע.
)𝒙(𝒇 ⋅ 𝒙 )𝒙(𝒇 𝒙
2 12 1
42 21 2
48 16 3
28 7 4
15 3 5
7 1 7
𝟐𝟓𝟏 𝟎𝟔 = 𝒏 סה"כ
נחשב את ממוצע מספר החדרים לדירה בעזרת הנוסחא המתאימה לטבלת שכיחות עם
ערכים בודדים:
)𝑥(𝑓 ⋅ 𝑥 ∑
= ̅𝑋
𝑛
בעיה :הערך האחרון בטבלה הינו 6 +המציין ששה חדרים ומעלה .מה נעשה עם ערך זה?
איך נתייחס אליו בטבלת השכיחות?
פתרון :אין לבעיה זו פתרון יחיד/אוניברסאלי .נפתור בעיה זו בכך שנחליט להציב את
הערך 7במקום הערך 6 +בנוסחא של הממוצע.
∑ 𝑥 ⋅ 𝑓(𝑥) 1 ⋅ 173 + 2 ⋅ 331 + ⋯ + 7 ⋅ 5,622 153,782
= ̅𝑋 = = = 4.59
𝑛 33,497 33,497
פירוש התוצאה :בדירות חדשות בישראל ,נכון לשנת ,2003ישנם 4.59חדרים בממוצע.
פירוש נוסף :אם היינו מחלקים שווה בשווה את סה"כ החדרים בין כל הדירות החדשות,
בכל דירה היו 4.59חדרים.
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
טבלת עזר לחישובים :ניתן להוסיף לטבלת השכיחות עמודה נוספת אשר תסייע לנו
בחישוב הממוצע.
)𝒙(𝒇 ⋅ 𝒙 )𝒙(𝒇 – מס' דירות 𝒙 – מס' חדרים
173 173 1
662 331 2
13,014 4,338 3
58,344 14,586 4
42,235 8,447 5
39,354 5,622 6+
𝟐𝟖𝟕 𝟏𝟓𝟑, 𝟕𝟗𝟒 𝟑𝟑, סה"כ
טבלת שכיחות עם מחלקות (משתנה רציף) :במקרה זה בוואנו לחשב את הממוצע ,לא ג.
נוכל לבצע מכפלה בין המחלקה (המייצגת טווח ערכים) לבין שכיחותה ,שכן לא ניתן
לכפול טווח של מספרים במספר .המכפלה תתבצע בין אמצע המחלקה ,שנסמנו ב𝑥̂ -
(המייצג מספר בודד) ,לבין שכיחותה של המחלקה.
בחרנו להציג את הנתונים בטבלת שכיחות עם מחלקות ולא בטבלת שכיחות בעלת ערכים
בודדים שכן התקבלו גילאים רבים ושונים ומטרתנו לתמצת את הנתונים ולהציגם בצורה
לא מסורבלת .קביעת המחלקות ורוחבן יכולה להיות גם שונה מהאופן שבחרנו להציג.
נוסיף לטבלה עמודה עם אמצע מחלקה ̂𝑥 ,ועמודה של מכפלת אמצע המחלקה בשכיחות,
בהן ניעזר בחישוב הממוצע:
)𝒙(𝒇 ⋅ ̂
𝒙 𝒙̂ )𝒙(𝒇 – שכיחות 𝒙 – גיל
180 22.5 8 20 − 25
550 27.5 20 25 − 30
715 32.5 22 30 − 35
720 40 18 35 − 45
500 50 10 45 − 55
437.5 62.5 7 55 − 70
𝟓 𝟑𝟏𝟎𝟐. 𝟓𝟖 = 𝒏 סה"כ
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
חציון )(Median
חציון הינו הערך כך שלפחות מחצית מהתצפיות קטנות או שוות לו ולפחות מחצית מהתצפיות
גדולות או שוות לו.
במילים אחרות ,החציון הינו הערך האמצעי ברשימה המסודרת של התצפיות.
סימון :את החציון של משתנה 𝑋 נסמן ב.𝑀𝑒(𝑋)-
אופן החישוב :נציג את אופן חישוב החציון בכל אחת משלוש צורות ההצגה שהמשתנה יכול
להופיע בהן:
רשימת תצפיות :כאשר הנתונים מופיעים כרשימה של 𝑛 תצפיות אשר מסומנות ב- א.
𝑛𝑥 ,𝑥1 , 𝑥2 , … ,חישוב החציון יתבצע בשני שלבים .בשלב הראשון נסדר את התצפיות
בסדר עולה ובשלב השני נבדוק את ערכה של התצפית האמצעית ברשימה המסודרת.
בבואנו לבדו את ערך התצפית במקום האמצעי עלינו לעשות הבחנה אם מספר התצפיות
)𝑛( זוגי או אי-זוגי.
𝑛+1
. כאשר 𝑛 אי-זוגי ישנה תצפית אחת אמצעית :התצפית במקום ה-
2
𝑛
כאשר 𝑛 זוגי ישנן שתי תצפיות אמצעיות :התצפית במקום ה 2 -והתצפית במקום
𝑛
ה. 2 + 1 -
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
דוגמא :נשתמש בדוגמא שהצגנו מוקדם יותר :דגמנו 10נשים לאחר לידה ומדדנו את
רמת ההמוגלובין שלהן:
10.7, 11.2, 10.9, 10, 7.4, 7, 8.1, 11.9, 9.3, 10.4
נחשב את חציון רמת ההמוגלובין עבור המדגם של 10הנשים .בשלב הראשון נסדר את
התצפיות בסדר עולה:
7, 7.4, 8.1, 9.3, 𝟏𝟎, 𝟏𝟎. 𝟒, 10.7, 10.9, 11.2, 11.9
נשים לב שבדוגמא מספר תצפיות זוגי ,שכן ,𝑛 = 10ולכן יש שתי תצפיות אמצעיות:
תצפית 5ותצפית 6ברשימה המסודרת.
10 + 10.4
= )𝑋(𝑒𝑀 = 10.2
2
מכיוון שמספר התצפיות זוגי ולכן יש שתי תצפיות אמצעיות ,חציון הגובה התקבל על-ידי
הממוצע של שתי התצפיות האמצעיות – התצפית במקום החמישי והתצפית במקום
השישי ,שערכיהן 10ו 10.4-בהתאמה .קיבלנו שחציון רמת ההמוגלובין במדגם שווה ל-
.10.2
משמעות התוצאה 10.2 :זו רמת ההמוגלובין האמצעית בסדרה – למחצית מהנשים
במדגם יש רמת המוגלובין נמוכה מ 10.2-ולמחצית יש רמת המוגלובין גבוהה יותר.
טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד) :כאשר נתונה לנו טבלת שכיחות עם ב.
ערכים בודדים ונדרש לחשב חציון ,נוסיף תחילה עמודה חדשה הנקראת עמודת השכיחות
המצטברת ,המסומנת ב .𝐹(𝑥)-עמודה זו מתקבלת על-ידי סכימת השכיחויות הרגילות.
𝑛
בכדי לחשב את החציון נחשב תחילה את הערך ( 2הפעם אין צורך לעשות הבחנה בין
המקרה ש 𝑛-זוגי למקרה ש 𝑛-אי-זוגי) ,ולאחר מכן נבדוק מתי לראשונה גודל זה מופיע
בעמודת השכיחות המצטברת )𝑥(𝐹 .הערך עבורו זה מתקבל הינו החציון.
דוגמא :במשאל של 60חולים בבית חולים גדול ,החולים נשאלו לגבי מספר ימי האשפוז
שלהם בחודש האחרון .להלן התוצאות:
)𝒙(𝒇 𝒙
12 1
21 2
16 3
7 4
3 5
1 7
𝟎𝟔 סה"כ
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
נחשב את חציון מספר ימי האשפוז .לשם כך נוסיף לטבלה עמודה חדשה של השכיחות
המצטברת.𝐹(𝑥) :
𝑛
נחשב את הגודל = 30ונחפשו לראשונה בעמודת )𝑥(𝐹 .אם כך ,החציון שווה ל 2-ימי
2
אשפוז – .𝑀𝑒(𝑋) = 2
דוגמא נוספת :להלן נתונים אודות דירות חדשות לפי מספר חדרים בדירה ,ישראל
.2003
עלינו למצוא ערך 𝑥 שעד אליו מתפלגים מחצית מהמקרים ,כלומר ,את חציון מספר
החדרים בדירות חדשות בישראל.
נחשב את חציון מספר החדרים בדירה .לשם כך נוסיף לטבלה עמודה נוספת של השכיחות
המצטברת.𝐹(𝑥) :
𝑛
נחשב את הגודל 2 = 16,748.5ונחפשו לראשונה בעמודת )𝑥(𝐹 .אם כך ,החציון
בדוגמא הינו .𝑀𝑒(𝑋) = 4 – 4
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
טבלת שכיחות עם מחלקות (משתנה רציף) :במקרה בו הנתונים מוצגים בטבלת שכיחות ג.
עם מחלקות חישוב החציון מורכב יותר .בכדי לחשב את החציון ,נמצא תחילה את
המחלקה בה נמצא החציון ,ולאחר מכן נמצא את ערך החציון במחלקה זו .חישוב החציון
יתבצע לפי שני השלבים הבאים:
בשלב הראשון ,נמצא את המחלקה בה נמצא החציון .בכדי למצוא את מחלקת החציון
𝑛
נחשב תחילה את הגודל . 2לאחר מכן נבדוק בעמודת השכיחות המצטברת – )𝑥(𝐹 ,מתי
לראשונה מתקבל ערך זה לפחות .המחלקה עבורה התנאי מתקיים הינה מחלקת החציון.
בשלב השני נחשב את הערך המדויק של החציון במחלקה שמצאנו בשלב הראשון בעזרת
הנוסחא הבאה:
𝑙 𝑛
𝑀𝑒(𝑋) = 𝐿1 + ) ⋅ ( − 𝐹1
𝑓(𝑥) 2
כאשר:
𝐿1הינו הגבול התחתון של מחלקת החציון (זו שמצאנו בשלב הראשון). -
𝑙 הינו רוחב מחלקת החציון. -
𝐹1הינה השכיחות המצטברת של המחלקה הקודמת למחלקת החציון. -
)𝑥(𝑓 הינה השכיחות (הרגילה) של מחלקת החציון. -
דוגמא :נשתמש בדוגמא שהצגנו מוקדם יותר עם הגילאים של 85עובדי קופת חולים.
)𝒙(𝒇 𝒙
8 20 − 25
20 25 − 30
22 30 − 35
18 35 − 45
10 45 − 55
7 55 − 70
𝟓𝟖 סה"כ
נחשב את חציון הגיל עבור 85העובדים .לשם כך ,נוסיף לטבלה את עמודת השכיחות
המצטברת – )𝑥(𝐹.
𝑛 85
בשלב הראשון נחשב את הגודל 2 = 2 = 42.5ונחפש מתי לראשונה הוא מופיע בעמודת
השכיחות המצטברת .זה קורה בשורה השלישית ,ולכן מחלקת החציון הינה המחלקה
.30 − 35
8
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
בשלב השני נמצא את הערך המדויק של החציון בתוך המחלקה השלישית ,אותה מצאנו
בשלב הראשון .לשם כך נשתמש בנוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות:
𝑙 𝑛 35 − 30
𝑀𝑒(𝑋) = 𝐿1 + ⋅ ( − 𝐹1 ) = 30 + ⋅ (42.5 − 28) = 33.29
𝑓(𝑥) 2 22
קיבלנו שחציון הגיל הינו ,33.29כלומר ,זהו הגיל שמחצית מהעובדים מעליו ומחצית
מתחתיו.
דוגמא נוספת :נשים נשואות בכוח העבודה האזרחי בישראל לפי גיל ,בשנת 2003
(באלפים).
)𝒙(𝒇 – מספר נשים 𝒙 – גיל
33.8 18 − 24
230.1 25 − 34
437.9 35 − 54
80.2 55 − 64
נחשב מהו חציון גיל אישה נשואה עובדת עבור הנתונים בדוגמא .נוסיף את עמודת
השכיחות המצטברת שתסייע לנו בחישוב החציון.
)𝒙(𝑭 – שכיחות מצטברת )𝒙(𝒇 – מספר נשים 𝒙 – גיל
33.8 33.8 18 − 24
263.9 230.1 25 − 34
701.8 437.9 35 − 54
782 80.2 55 − 64
𝟐𝟖𝟕 סה"כ
𝑛 782
בשלב הראשון נחשב את הגודל 2 = 2 = 391ונחפש מתי לראשונה הוא מופיע
בעמודת השכיחות המצטברת .זה קורה בשורה השלישית ,ולכן מחלקת החציון הינה
המחלקה .35 − 54
בשלב השני נמצא את הערך המדויק של החציון בתוך המחלקה השלישית ,אותה מצאנו
בשלב הראשון .לשם כך נשתמש בנוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות:
𝑙 𝑛 55 − 35
𝑀𝑒(𝑋) = 𝐿1 + ⋅ ( − 𝐹1 ) = 35 + ⋅ (391 − 263.9) = 40.805
𝑓(𝑥) 2 437.9
קיבלנו שחציון הגיל של אישה נשואה עובדת הינו ,40.805כלומר ,זהו הגיל שמחצית
מהנשים העובדות מעליו ומחצית מתחתיו.
שכיח )(Mode
השכיח הינו הערך השכיח/נפוץ ביותר מבין כל התצפיות.
סימון :את השכיח של משתנה מקרי 𝑋 נסמן ב.𝑀𝑜(𝑋)-
הערה :קיימות דוגמאות בהן ישנם מספר שכיחים .כמו כן ,אם כל התצפיות מופיעות מספר שווה
של פעמים ,אזי נאמר שאין שכיח.
את השכיח (בניגוד לממוצע וחציון) ניתן לחשב (גם) למשתנה ברמת המדידה הנמוכה ביותר –
למשתנה נומינאלי ,ולכן ניתן לחשבו גם לכל משתנה ברמת מדידה גבוהה יותר .לכן ,נציג בהמשך
דוגמאות לשכיח הן עבור משתנים כמותיים והן עבור משתנים איכותיים.
9
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
דוגמא – רשימת תצפיות :להלן רשימה של 12גבהים של גברים אשר נדגמו באופן מקרי:
𝟏𝟕𝟖, 172, 186, 180, 171, 163, 𝟏𝟕𝟓, 179, 𝟏𝟕𝟓, 𝟏𝟕𝟖, 182, 173
בדוגמא זו ישנם שני שכיחים 175 :ו ,178-שכן שני ערכים אלו מופיעים פעמיים בסדרה ,בעוד
יתר הערכים מופיעים רק פעם אחת .נרשום זאת בצורה פורמלית.𝑀𝑜(𝑋) = 175, 178 :
דוגמא -טבלת שכיחות עם ערכים בודדים (משתנה בדיד) :מספר ימי אשפוז בחודש האחרון
בקרב 60חולים בבית חולים כלשהו.
)𝒙(𝒇 𝒙
12 1
21 2
16 3
7 4
3 5
1 7
𝟎𝟔 סה"כ
השכיח בדוגמא זו הינו 2ימי אשפוז ,שכן ערך זה מופיע הכי הרבה פעמים במדגם .רישום
פורמאלי.𝑀𝑜(𝑋) = 2 :
חישוב שכיח בטבלת שכיחות עם מחלקות :כאשר המשתנה הנחקר מופיע בטבלת שכיחות עם
מחלקות ,נהוג לקבוע שהשכיח הינו אמצע המחלקה בעלת הצפיפות הגבוהה ביותר.
בשלב הראשון נחשב את הצפיפות בכל מחלקה ומחלקה .לאחר מכן נבדוק מי היא המחלקה
הצפופה ביותר ,ונקבע שהשכיח הינו אמצע מחלקה זו.
תזכורת – הגדרה של צפיפות במחלקה :שכיחות ליחידה אחת של המשתנה הנחקר .אם כך,
הצפיפות במחלקה שווה לשכיחות של המחלקה חלקי רוחב המחלקה .את הצפיפות סימנו ב,𝑑 -
והנוסחא הינה:
)𝑥(𝑓
=𝑑
𝑙
דוגמא – טבלת שכיחות עם מחלקות :גילאים בקופת חולים עבור מדגם של 85עובדים.
)𝒙(𝒇 𝒙
8 20 − 25
20 25 − 30
22 30 − 35
18 35 − 45
10 45 − 55
7 55 − 70
𝟓𝟖 = 𝒏 סה"כ
נחשב את השכיח .בכדי לחשב את השכיח ,נוסיף עמודה נוספת – צפיפות במחלקה 𝑑 ,המחושבת
על-פי הנוסחא:
)𝑥(𝑓
=𝑑
𝑙
10
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
המחלקה הצפופה ביותר הינה המחלקה השלישית ,30 − 35ולכן השכיח מוגדר להיות אמצע
מחלקה זו ,כלומר.𝑀𝑜(𝑋) = 32.5 – 32.5 ,
טבלת סיכום – באילו ערכים מרכזיים ניתן להשתמש לכל סוג משתנה
יחס אינטרוואלי אורדינאלי נומינאלי
שכיח שכיח שכיח שכיח
חציון חציון חציון
ממוצע ממוצע
11
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
תרגיל:
שאלה :לפניכם נתונים על שנות ותק בעבודה של 11עובדים:
4, 6, 8, 9, 11, 13, 14, 16, 16, 16, 19
מהו הוותק השכיח ,החציוני והממוצע עבור המדגם?
תשובה :שכיח = ,16חציון = ,13ממוצע = .12
שאלה :התברר כי חלה טעות ברישום ,והוותק של העובד בעל 4שנות ותק הוא למעשה 7שנות
ותק .ללא חישובים ,כיצד ישפיע תיקון הטעות על כל אחד מהערכים המרכזיים (יקטן/יגדל/לא
ישתנה)?
תשובה :השכיח והחציון לא ישתנו ,והממוצע יגדל.
שאלה למחשבה :נתונה הסדרה הבאה:
5, 5, 7, 10, 12, 15, 17
באילו מהמקרים הבאים הוספת שני המספרים תשנה את חציון הסדרה?
– 2, 3תשפיע. א.
– 11, 9לא תשפיע. ב.
– 16, 4לא תשפיע. ג.
– 21, 11תשפיע. ד.
מדדי המרכז עבור מספר עקומות פופולאריות
בהרצאה 2הצגנו מספר התפלגויות פופולאריות המתקבלות מדיאגרמת המקלות או
מהיסטוגרמה עבור דוגמא כלשהי.
מצורת העקומה של ההתפלגות קל לראות האם מדובר בעקומה סימטרית או בעקומה שאינה
סימטרית ,האם עיקר התצפיות מרוכזות במרכז או בקצוות ועוד.
נציג שוב את העקומות/ההתפלגויות הפופולאריות שהוצגו בהרצאה ,2ועבור כל אחת נקבע היכן
מתקבלים שלושת מדדי המיקום:
התפלגות פעמונית סימטרית (נורמאלית) :התפלגות פעמונית סימטרית (הנקראת גם התפלגות
נורמאלית) הינה עקומה סימטרית בה רוב התצפיות נמצאות במרכז העקומה ומעט בקצוות.
בעקומה זו מתקיים ששלושת מדדי המיקום שווים ומתקבלים בנקודת הסימטריה של העקומה.
כלומר ,ממוצע = חציון = שכיח.
12
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
התפלגות Uסימטרית :התפלגות Uהינה סימטרית ,בה רוב התצפיות נמצאות בקצוות העקומה
ומעט במרכז.
התפלגות זו הפוכה להתפלגות הפעמונית הסימטרית שכן בהתפלגות זו מעט תצפיות במרכז
ההתפלגות ועיקר המסה נמצאת בקצוות.
בעקומה זו מתקיים שהממוצע שווה לחציון ,והם מתקבלים בנק' הסימטריה .כמו-כן ,ישנם שני
שכיחים הנמצאים בקצוות ההתפלגות.
התפלגות אחידה :בהתפלגות זו יש פיזור אחיד לאורך כל העקומה .התפלגות זו מתקבלת כאשר
השכיחויות של כל ערכי המשתנה שוות (או כמעט שוות) .צורתה של העקומה האחידה הינה קו
ישר המקביל לציר האופקי.
למעשה גם זו עקומה סימטרית ,בה הממוצע שווה לחציון ,והם מתקבלים בנקודת הסימטריה של
העקומה .לגבי השכיח – בעקומה זו אין שכיח ,שכן אין נקודה בה ההתפלגות הכי גבוהה.
13
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
21/03/2021
התפלגות א-סימטרית חיובית (ימנית) :התפלגות זו אינה סימטרית ,בה רוב התצפיות מרוכזות
בערכים נמוכים של המשתנה וישנן מעט תצפיות חריגות בערכים גבוהים של המשתנה .בגלל
עובדה זו להתפלגות יש "זנב" בצד ימין.
עבור התפלגות זו הממוצע גבוה ביחס ליתר מדדי המיקום שכן תצפיות חריגות בערכים גבוהים
של המשתנה מגדילות את הממוצע .כמו כן ,השכיח נמוך ביחס ליתר מדדי המיקום ,שכן עיקר
התצפיות מרוכזות בערכים נמוכים של המשתנה .לכן ,עבור התפלגות א-סימטרית חיובית
מתקיים :ממוצע < חציון < שכיח.
התפלגות א-סימטרית שלילית (שמאלית) :התפלגות זו אינה סימטרית ,עבורה רוב התצפיות
מרוכזות בערכים גבוהים של המשתנה וישנן מעט תצפיות חריגות בערכים נמוכים של המשתנה.
בגלל עובדה זו להתפלגות יש "זנב" בצד שמאל.
עבור התפלגות זו הממוצע נמוך ביחס ליתר מדדי המיקום שכן תצפיות חריגות בערכים נמוכים
של המשתנה מקטינות את הממוצע .כמו כן ,בהתפלגות זו השכיח גבוה ביחס ליתר מדדי המיקום,
שכן עיקר התצפיות מרוכזות בערכים גבוהים של המשתנה .לכן ,עבור בהתפלגות א-סימטרית
שלילית :שכיח < חציון < ממוצע.
14
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
11/04/2021
שונות )(Variance
השונות של סדרת תצפיות שווה לממוצע ריבועי הסטיות של התצפיות מהממוצע.
בחישוב מדד פיזור זה אנו מעלים בריבוע את הסטייה של כל תצפית מהממוצע ולאחר מכן אנו
מחשבים ממוצע לריבועי הסטיות הללו.
נפרט :הסטייה של כל תצפית מהממוצע מוגדרת כהפרש בין ערך התצפית לבין ממוצע הסדרה.
הסטייה של תצפית 𝑖 מהממוצע הינה ̅𝑋 .𝑥𝑖 −גודל זה יכול להיות חיובי/שלילי/אפס .בכדי
שסטיות חיוביות לא יתקזזו עם סטיות שליליות הוחלט להעלות בריבוע כל סטייה .לבסוף יש
לסכום את כל הסטיות הריבועיות הללו ולחלק את התוצאה בגודל המדגם .המספר שמתקבל הינו
השונות של הסדרה.
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
11/04/2021
לפי הגדרת השונות ,הפיזור נמדד על סמך ריבוע הסטייה של כל תצפית מהממוצע .כאשר
המרחקים בין התצפיות לממוצע גדולים במיוחד השונות תקבל ערך גבוה ,וההפך .במילים
אחרות ,השונות תגדל ככל שהפיזור בין התצפיות גדול יותר.
אם כל התצפיות שוות זו לזו ,השונות בהכרח תהיה שווה לאפס.
סימון :את השונות נסמן ב.𝑆2 -
אופן החישוב :נציג את הנוסחא ואופן החישוב של השונות בכל אחת מבין שלוש צורות ההצגה
הבאות :רשימת תצפיות ,טבלת שכיחות בעלת ערבים בודדים וטבלת שכיחות עם מחלקות:
רשימת תצפיות :כאמור ,השונות הינה ממוצע ריבועי הסטיות מהממוצע ,ולכן: א.
2
∑(𝑥𝑖 − 𝑋̅)2
= 𝑆
𝑛
אופן השימוש בנוסחא :תחילה נחשב את הממוצע .לאחר מכן נחשב את הסטייה של כל
תצפית מהממוצע .סטייה זו נעלה בריבוע ,ונחבר את סכום כל ריבועי הסטיות מהממוצע.
לבסוף את התוצאה נחלק בגודל המדגם.
דוגמא :דגמנו 12גברים ומדדנו את גובהם .להלן הגבהים (בס"מ) של 12הגברים:
178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173
נחשב את שונות הגובה במדגם .תחילה נחשב את ממוצע המדגם:
∑ 𝑥𝑖 178 + 172 + ⋯ + 173
= ̅𝑋 = = 176
𝑛 12
נחשב את השונות:
∑(𝑥𝑖 − 𝑋̅)2 (178 − 176)2 + (172 − 176)2 + ⋯ + (173 − 176)2
= 𝑆2 = =
𝑛 12
4 + 16 + ⋯ + 9 390
= = = 32.5
12 12
נוסחת עבודה לחישוב שונות :ישנה נוסחא נוספת לחישוב שונות עבורה כמות העבודה
הנדרשת לחישוב השונות קטנה יותר .נוסחא זאת נקראת "נוסחת עבודה" ויהיה מהיר
יותר להשתמש בה .כמובן שנקבל תוצאה זהה בין אם משתמש בנוסחה המקורית
שהוצגה בשקפים הקודמים או בנוסחת העבודה .להלן נוסחת העבודה לחישוב השונות
עבור סדרת תצפיות:
∑ 𝑥𝑖2
2
= 𝑆 − 𝑋̅ 2
𝑛
דוגמא :נשתמש באותם הנתונים של הדוגמא הקודמת – גבהים של 12הגברים:
178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173
נחשב את שונות הגובה במדגם תוך שימוש בנוסחת העבודה.
תחילה נחשב את ממוצע המדגם:
∑ 𝑥𝑖 178 + 172 + ⋯ + 173
= ̅𝑋 = = 176
𝑛 12
נחשב את השונות:
∑ 𝑥𝑖2 1782 + 1722 + ⋯ + 1732 372102
2
= 𝑆 = − 𝑋̅ 2 = − 1762 − 30976 = 32.5
𝑛 12 12
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
11/04/2021
טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד) :כאשר נתונה לנו טבלת שכיחות ב.
הכוללת מספר ערכים של המשתנה ,נחשב את השונות על-סמך הנוסחא הבאה:
)𝑥(𝑓 ⋅ )̅𝑋 ∑(𝑥 −
= 𝑆2
𝑛
נוסחא זו דומה מאוד לנוסחא הקודמת (חישוב שונות עבור רשימת תצפיות) ,אלא
שהפעם אנו מכפילים את ריבוע הסטייה של כל ערך בשכיחותו.
דוגמא :נשתמש בדוגמא הבאה בכדי לחשב את השונות עבור משתנה המוצג בטבלת
שכיחות עם ערכים בודדים .בדוגמא זו ,המשתנה 𝑋 מייצג את מס' ימי האשפוז בבית
חולים עבור מדגם של 60חולים.
)𝒙(𝒇 𝒙
12 1
21 2
16 3
7 4
3 5
1 7
𝟎𝟔 סה"כ
נוסיף לטבלה מספר עמודות נוספות אשר יסייעו לנו בחישוב השונות:
)𝒙(𝒇 ⋅ 𝟐) ̅
𝑿 (𝒙 − 𝑿 (𝒙 −𝟐) ̅ 𝑿𝒙− ̅ )𝒙(𝒇 ⋅ 𝒙 )𝒙(𝒇 𝒙
28.2 2.35 −1.533 12 12 1
5.964 0.284 −0.533 42 21 2
3.488 0.218 0.467 48 16 3
15.064 2.152 1.467 28 7 4
18.258 6.086 2.467 15 3 5
19.954 19.954 4.467 7 1 7
𝟖𝟐𝟗 𝟗𝟎. 𝟐𝟓𝟏 𝟎𝟔 סה"כ
𝟏𝟓 𝟏. שונות: 𝟑𝟑𝟓 𝟐. ממוצע:
בכדי לחשב את שונות מס' ימי האשפוז ,עלינו לחשב תחילה את הממוצע:
∑ 𝑥 ⋅ 𝑓(𝑥) 152
= ̅𝑋 = = 2.533
𝑛 60
כעת נחשב את השונות של המשתנה בעזרת הנוסחא וטבלת העזר שבנינו:
∑(𝑥 − 𝑋̅)2 ⋅ 𝑓(𝑥) 90.928
= 𝑆2 = = 1.51
𝑛 60
קיבלנו ששונות מספר ימי האשפוז הינה .1.51
נוסחת עבודה לחישוב שונות :גם במקרה זה ישנה נוסחת עבודה לחישוב השונות בה
המאמץ החישובי קטן יותר ולכן היא מומלצת יותר לשימוש .להלן נוסחת העבודה
לחישוב שונות בטבלת שכיחות עם ערכים בודדים:
)𝑥(𝑓 ⋅ ∑ 𝑥 2
= 𝑆2 − 𝑋̅ 2
𝑛
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
11/04/2021
דוגמא :נשתמש באותם הנתונים של הדוגמא הקודמת .נוסיף לטבלה מספר עמודות
נוספות אשר יסייעו לנו בחישוב השונות:
𝟐) ̅
𝑿 (𝒙 − 𝟐𝒙 )𝒙(𝒇 ⋅ 𝒙 )𝒙(𝒇 𝒙
12 1 12 12 1
84 4 42 21 2
144 9 48 16 3
112 16 28 7 4
75 25 15 3 5
49 49 7 1 7
𝟔𝟕𝟒 𝟐𝟓𝟏 𝟎𝟔 סה"כ
𝟑𝟑𝟓 𝟐. ממוצע:
בכדי לחשב את שונות מס' ימי האשפוז ,עלינו לחשב תחילה את הממוצע:
∑ 𝑥 ⋅ 𝑓(𝑥) 152
= ̅𝑋 = = 2.533
𝑛 60
כעת נחשב את השונות של המשתנה בעזרת נוסחת העבודה וטבלת העזר שבנינו:
)𝑥(𝑓 ⋅ ∑ 𝑥 2 476
2
= 𝑆 = − 𝑋̅ 2 − 2.5332 = 1.51
𝑛 60
קיבלנו ששונות מספר ימי האשפוז הינה .1.51
טבלת שכיחות עם מחלקות (משתנה רציף) :במקרה זה ,בבואנו לחשב את השונות לא ג.
נוכל לחשב את ההפרש בין המחלקה (המייצגת תחום ערכים) לבין הממוצע כנדרש
בנוסחא של השונות ,שכן לא ניתן לבצע הפרש בין תחום מספרים לבין מספר .לכן ההפרש
יתבצע בין אמצע המחלקה ̂𝑥 (המייצג מספר בודד) ,לבין הממוצע .אם כן ,בטבלת שכיחות
עם מחלקות השונות תחושב על סמך הנוסחא הבאה:
)𝑥(𝑓 ⋅ ∑(𝑥̂ − 𝑋̅)2
2
= 𝑆
𝑛
דוגמא :נשתמש בדוגמא הבאה בכדי לחשב את השונות עבור משתנה המוצג בטבלת
שכיחות עם מחלקות .בדוגמא זו ,המשתנה 𝑋 מייצג את גיל העובד עבור מדגם של 85
עובדים בקופת חולים.
)𝒙(𝒇 𝒙
8 20 − 25
20 25 − 30
22 30 − 35
18 35 − 45
10 45 − 55
7 55 − 70
𝟓𝟖 = 𝒏 סה"כ
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
11/04/2021
נוסיף לטבלה מספר עמודות עזר נוספות אשר יסייעו לנו בחישוב השונות:
𝒙(
𝑿̂−)𝒙(𝒇 ⋅ 𝟐) ̅ 𝒙(
𝑿̂− 𝒙 𝟐) ̅
𝑿̂− 𝒙 ̅
)𝒙(𝒇 ⋅ ̂ 𝒙̂ )𝒙(𝒇 𝒙
1568 196 −14 180 22.5 8 20 − 25
1620 81 −9 550 27.5 20 25 − 30
352 16 −4 715 32.5 22 30 − 35
220.5 12.25 3.5 720 40 18 35 − 45
1822.5 182.25 13.5 500 50 10 45 − 55
4732 676 26 437.5 62.5 7 55 − 70
𝟓 𝟏𝟎𝟑𝟏𝟓. 𝟓 𝟑𝟏𝟎𝟐. 𝟓𝟖 = 𝒏 סה"כ
𝟓𝟑 𝟏𝟐𝟏. שונות: ממוצע𝟑𝟔. 𝟓 :
2
)𝑥(𝑓 ⋅ ∑(𝑥̂ − 𝑋̅)2 10315
= 𝑆 = = 121.35
𝑛 85
קיבלנו ששונות הגיל הינה .121.35
נוסחת עבודה לחישוב שונות :גם במקרה זה ישנה נוסחת עבודה לחישוב השונות בה
המאמץ החישובי קטן יותר ולכן היא מומלצת יותר לשימוש .להלן נוסחת העבודה
לחישוב שונות בטבלת שכיחות עם מחלקות:
)𝑥(𝑓 ⋅ ∑ 𝑥̂ 2
= 𝑆 2
− 𝑋̅ 2
𝑛
דוגמא :נשתמש באותם הנתונים של הדוגמא הקודמת .נוסיף לטבלה מספר עמודות
נוספות אשר יסייעו לנו בחישוב השונות:
)𝒙(𝒇 ⋅ 𝟐̂
𝒙 𝟐̂
𝒙 𝑿̂−
𝒙 ̅ )𝒙(𝒇 ⋅ ̂
𝒙 𝒙̂ )𝒙(𝒇 𝒙
4050 506.25 −14 180 22.5 8 20 − 25
15125 756.25 −9 550 27.5 20 25 − 30
23237.5 1056.25 −4 715 32.5 22 30 − 35
28800 1600 3.5 720 40 18 35 − 45
25000 2500 13.5 500 50 10 45 − 55
27343.75 3096.25 26 437.5 62.5 7 55 − 70
𝟓𝟐 𝟏𝟐𝟑𝟓𝟓𝟔. 𝟓 𝟑𝟏𝟎𝟐. 𝟓𝟖 = 𝒏 סה"כ
𝟓 𝟑𝟔. ממוצע:
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
11/04/2021
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
11/04/2021
גובהו של החייל הכי גבוה במדגם זה הינו .186נבדוק אם הוא נחשב לקיצוני ביחס ליתר
החיילים אשר במדגם .נבדוק כמה סטיות תקן חייל זה גבוה מהממוצע .החייל גבוה ב 10-ס"מ
10
מהממוצע ,אשר מהווים 5.7 = 1.75סטיות תקן .לכן ,ניתן לומר שחייל זה נחשב יחסית לקיצוני
ביחס ליתר החיילים ,אך לא בצורה רבה מאוד.
נבדוק כמה סטיות תקן סוטה החייל הנמוך ביותר מהממוצע .גובהו של החייל הנמוך ביותר הוא
13
.163החייל נמוך ב 13-ס"מ מהממוצע ,אשר מהווים 5.7 = 2.28סטיות תקן .אם כך ,חייל זה
נחשב בהחלט לקיצוני ביחס ליתר החיילים ,שכן גובהו נמוך ביותר משתי סטיות תקן מהממוצע.
שאלה למחשבה
נתונה סדרה סטטיסטית בת 100תצפיות .ממוצע הסדרה הוא 75עם סטיית תקן .10נוספו
לסדרה זו עוד 3תצפיות.75, 75, 75 :
לכל 103התצפיות יש להסביר:
האם הממוצע יגדל/יקטן/לא ישתנה/לא ניתן לדעת? – הממוצע לא ישתנה ,מכיוון שערך א.
התצפיות שנוספו זהה לממוצע.
האם סטיית התקן תקטן/תגדל/לא תשתנה/לא ניתן לדעת? – אילו הממוצע היה משתנה, ב.
לא היינו יכולים לדבר על סטיית התקן .השונות תקטן ,ולכן גם סטיית התקן תקטן.
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
18/04/2021
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
18/04/2021
לדוגמא ,ציון תקן של +1עבור תצפית כלשהי מציין שהתצפית גבוהה מהממוצע בסטיית תקן
אחת .ציון תקן של −1.5עבור תצפית אחרת מציין שהתצפית נמוכה מהממוצע סטיית תקן וחצי.
דוגמא :דניאל קיבל ציון 90במתמטיקה .ממוצע הכיתה במקצוע זה הינו ,70וסטיית התקן .20
באנגלית קיבל דניאל ציון ,85כאשר ממוצע הכיתה ,70וסטיית התקן .12באיזה מקצוע נחשב
דניאל למוכשר יותר ביחס לכיתתו?
למעשה ,נשאלת השאלה באיזה מקצוע ציוני היחסי גבוה יותר .לשם כך נחשב את ציון התקן של
דניאל במתמטיקה ) 𝑀𝑍( ובאנגלית ) 𝐸𝑍( ,ונבדוק איזה מהם גבוה יותר.
90 − 70 85 − 70
= 𝑀𝑍 ⟸ 𝐸𝑍 < 𝑀𝑍 = 1, = 𝐸𝑍 = 1.25
20 12
קיבלנו שדניאל מוכשר יותר באנגלית ביחס לכיתתו ,שכן במקצוע זה הוא קיבל ציון הגבוה ב-
1.25סטיות תקן מממוצע הכיתה ,בעוד שבמתמטיקה הוא קיבל ציון הגבוה בסטיית תקן אחת
מממוצע הכיתה.
הערה כללית :ציון תקן הגדול בערכו המוחלט מ 2-נחשב לציון תקן חריג .במילים אחרות ,הסיכוי
שתצפית כלשהי תתרחק מהממוצע יותר מ 2-סטיות תקן (ימינה או שמאלה) בהחלט נמוך.
דוגמא :סטודנט נבחר בשני מבחנים שונים:
במבחן א' קיבל את הציון 71והממוצע של כלל הנבחנים הינו .80
במבחן ב' קיבל את הציון 60והממוצע של כלל הנבחנים הינו .78
נכון/לא נכון :מכאן נובע כי סטיית התקן של הציונים במבחן א' גדולה מסטיית התקן של הציונים
במבחן ב' – נכון/לא נכון.
71 − 80 60 − 78
= 𝐴𝑍 ⟸ 𝑆𝐴 = 12 = −0.75, = 𝐵𝑍 = −1.5 ⟹ 𝑆𝐵 = 12
ֹֹ 𝐴𝑆 𝐵𝑆
קיבלנו שסטיות התקן שוות.
דוגמא :להלן הנתונים אודות המשכורת של שני חברים העובדים בחברות שונות :אורן מרוויח
,₪ 8500וידוע שממוצע השכר בחברה בה הוא עובד הינו ₪ 6000וסטיית התקן .₪ 2000חיים
עובד בחברה אחרת בה ממוצע השכר הינו ₪ 7000וסטיית התקן .₪ 1500
ידוע שמיקומו היחס בשכר של שני החברים זהה .בדקו למי יש משכורת גבוהה יותר.
פתרון:
8500 − 6000
= 𝑂𝑍 = 1.25
2000
𝑥 − 7000
= 𝐻𝑍 = 1.25 ⟹ 𝑥 = 8875
1500
תשובה סופית :משכורתו של חיים גבוהה יותר.₪ 8875 :
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
18/04/2021
דוגמא :גובהו של נדב 185ס"מ ,משקלו 70ק"ג ומנת משכלו .100להלן הממוצע וסטיית התקן
של 3המשתנים הללו (גובה ,משקל ומנת משכל) בכיתתו של נדב:
גובה :ממוצע ,175 :סטיית תקן.10 :
משקל :ממוצע ,60 :סטיית תקן.12 :
מנת משכל :ממוצע ,100סטיית תקן.15 :
באיזו תכונה מבין 3התכונות מתבלט נדב בצורה הבולטת ביותר?
תשובה סופית :בגובה .ציון התקן של גובהו הוא הגבוה ביותר בערכו המוחלט.
ממוצע וסטיית התקן של ציוני התקן
טענה:
ממוצע ציוני התקן עבור כל סדרה של תצפיות שווה ל.0- .i
סטיית התקן של ציוני התקן עבור כל סדרה של תצפיות שווה ל.1- .ii
דוגמא :להלן המשקלים (בק"ג) של חמישה נדגמים:
67, 75, 57, 82, 69
חשבו את הממוצע ואת סטיית התקן של סדרת חמשת המשקלים. א.
חשבו את ציוני התקן של החמישה. ב.
חשבו את הממוצע של חמשת ציוני התקן ואת סטיית התקן של חמשת ציוני התקן .ודאו ג.
שקיבלתם ממוצע = 0וסטיית תקן = .1
אחוזונים )(Percentile
לפי העיקרון של חלוקת ההתתפלגות לחציון ולרבעונים ,ניתן להגדיר ערכי חלוקה לכל אחוז שבין
0%לבין .(0 < 𝑝 < 100) 100%
נחשב אחוזונים רק כאשר הנתונים מופיעים בטבלת שכיחות עם מחלקות .נעשה זאת באמצעות
הנוסחא הבאה שמזכירה את הנוסחא בה השתמשנו לחישוב החציון ,כאשר הנתונים הוצגו
בטבלת שכיחות עם מחלקות:
𝑙 𝑝𝑛
𝑋𝑝 = 𝐿1 + (⋅ ) − 𝐹1
𝑓(𝑥) 100
כאשר:
𝑝𝑋 מייצג את האחוזון ה.𝑝- -
𝐿1מייצג את הגבול התחתון של המחלקה בה נמצא האחוזון ה.𝑝- -
𝑙 הינו רוחב מחלקת האחוזון ה.𝑝- -
𝐹1הינה השכיחות המצטברת של המחלקה הקודמת למחלקה בה נמצא האחוזון ה.𝑝- -
)𝑥(𝑓 הינה השכיחות (הרגילה) של המחלקה בה נמצא האחוזון ה.𝑝- -
𝑝𝑛
100מייצג גודל הקשור לאחוזון אותו אנו מחפשים. -
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
18/04/2021
המחלקה האחרונה אינה סגורה ולכן נתייחס אליה כאל מחלקה שבין גיל 50לבין גיל .65
כמו-כן ,יש לעבור מגבולות מדומים (ללא רצף) לגבולות אמיתיים (עם רצף).
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
18/04/2021
חישוב עשירון תחתון :בשלב הראשון (בדומה לשלב הראשון כאשר חישבנו את החציון ,הרבעון
העליון והרבעון התחתון בטבלת שכיחות עם מחלקות) נבדוק מהי המחלקה בה נמצא העשירון
התחתון על-ידי חישוב הגודל 𝑛 0.1ומציאתו (לפחות) בעמודת השכיחות המצטברת.
,0.1𝑛 = 3967.8ולכן המחלקה בה נמצא העשירון התחתון הינה המחלקה הראשונה:
.17 − 20
בשלב השני נשתמש בנוסחא לחישוב העשירון התחתון ונקבל:
𝑙 3
𝑋10 = 𝐿1 + (0.1𝑛 − 𝐹1 ) = 17 + (3967.8 − 0) = 18.64
)𝑥(𝑓 7271
חישוב עשירון עליון :בשלב הראשון נבדוק מהי המחלקה בה נמצא העשירון העליון על-ידי חישוב
הגודל 𝑛 0.9ומציאתו (לפחות) בעמודת השכיחות המצטברת ,0.9𝑛 = 35710.2 .ולכן המחלקה
בה נמצא העשירון העליון הינה המחלקה הרביעית.30 − 35 :
בשלב השני נשתמש בנוסחא לחישוב העשירון העליון ונקבל:
𝑙 5
𝑋90 = 𝐿1 + (0.9𝑛 − 𝐹1 ) = 30 + (35710.2 − 34364) = 31.12
)𝑥(𝑓 3177
מסקנות:
העשירון התחתון הינו ,18.64כלומר 10%מהכלות בישראל נישאות עד לגיל זה ,ו- -
90%מהכלות בישראל נישאות מגיל זה ואילך.
העשירון העליון הינו ,32.12כלומר 90%מהכלות בישראל נישאות עד לגיל זה ,ו10%- -
מהכלות בישראל נישאות מגיל זה ואילך.
הערה :בעזרת הנוסחא לחישוב אחוזונים יש ביכולתנו לחשב כל אחוזון שנרצה באופן דומה לדרך
בה חישבנו את העשירון התחתון (אחוזון )10ואת העשירון העליון (אחוזון )90בדוגמא.
שאלת תרגול לבית
שכיחות התיירים – )𝒙(𝒇 גיל – 𝒙
46.8 0−4
208.6 5 − 19
485.8 20 − 34
335.8 35 − 44
730.3 45 − 64
293.3 65 +
𝟔 𝟐𝟏𝟎𝟎. סה"כ
חשבון את העשירון השלישי (אחוזון ה )30-של גיל התיירים שהגיעו לישראל בשנת 1996
(המספרים בדוגמא הם באלפים).
תשובה סופית.31.57 :
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
התפלגות זו כה חשובה מכיוון שתופעות רבות ומשתנים רבים בטבע מפולגים (בקירוב) לפי
ההתפלגות הנורמאלית .לדוגמא :משקל ,גובה ,לחץ דם ועוד משתנים רבים נוספים .בנוסף,
משתנים רבים הקשורים בציונים (כגון ציוני פסיכומטרי וציוני )I.Qבנויים בצורה כזאת
שהתפלגות הציונים תהיה בקירוב לפי ההתפלגות הנורמאלית.
גורם נוסף ההופך את ההתפלגות הנורמאלית לכה חשובה הוא משפט הגבול המרכזי .משפט
הגבול המרכזי קובע שממוצע (או סכום) של משתנים מקריים בלתי תלויים שאינם מפולגים
נורמאלית ,מפולג בקירוב נורמאלית תחת תנאים מסוימים (לא נלמד בקורס).
צורת הפעמון של ההתפלגות הנורמאלית
צורת הפעמון נקבעת על-ידי שני פרמטרים :ממוצע ההתפלגות והשונות של ההתפלגות.
הממוצע (נקרא גם תוחלת) קובע את מיקום מרכז ההתפלגות ,והשונות קובעת את מידת הפיזור
סביב הממוצע.
נהוג לסמן את ממוצע ההתפלגות באות 𝜇 ואת סטיית התקן ב.𝜎 -
הסימון עבור התפלגות נורמאלית הוא.𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
סימון :נהוג לסמן ב Φ(𝑔)-את השטח בהתפלגות הנורמאלית הסטנדרטית שנמצא עד לנקודה 𝑔
(כלומר משמאל ל ,)𝑔-כלומר.Φ(𝑔) = 𝑃(𝑍 < 𝑔) :
דוגמא :מצאו מהו השטח עד לערך .1.2
פתרון:
𝑃(𝑍 < 1.2) = Φ(1.2) = 0.8849
דוגמא :מצאו את השטח הנמצא משמאל לערך .2.39
פתרון:
𝑃(𝑍 < 2.39) = Φ(2.39) = 0.9916
דוגמא :חשבו מהו השטח עד לערך .3.85
פתרון.Φ(3.85) = 1 :
הסבר :בטבלה ,הערך האחרון הנמצא בשולי הטבלה הינו ,3.59ועד אליו יש שטח של
,0.9998כלומר.Φ(3.59) = 0.9998 :
לכן ,עבור ערך הגבוה מ ,3.59-השטח הנמצא משמאלו בהכרח גדול מ ,0.9998-ולכן
שווה בקירוב ל.1-
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
חישוב שטח מימין לערך כלשהו בהתפלגות 𝒁 :נשים לב שהטבלה מחשבת שטחים (הסתברויות)
משמאל לערך מסוים .כמו-כן ,השטח המצוי בין עקומת ההתפלגות הנורמאלית לבין הציר
האופקי שווה ל .1-לכן ,כדי לחשב את השטח הנמצא מימין לערך מסוים ,נמצא את השטח
משמאל לאותו ערך ונחסר גודל זה מ ,1-ובכך נקבל את התוצאה הרצויה .כלומר:
)𝑔(𝜙 𝑃(𝑍 > 𝑔) = 1 − 𝑃(𝑍 ≤ 𝑔) = 1 −
דוגמא :מצא את השטח מימין לערך .1.09
פתרון:
𝑃(𝑍 > 1.09) = 1 − 𝑃(𝑍 ≤ 1.09) = 1 − Φ(1.09) = 1 − 0.8621 = 0.1379
דוגמא :מהו השטח המסומן?
פתרון:
𝑃(𝑍 > 1.25) = 1 − 𝑃(𝑍 < 1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056
דוגמא :מהו השטח המסומן?
פתרון:
𝑃(𝑍 > 0.83) = 1 − 𝑃(𝑍 < 0.83) = 1 − Φ(0.83) = 1 − 0.7967 = 0.2033
חישוב הסתברויות מימין/משמאל לערכים שליליים בהתפלגות 𝒁 :בשולי הטבלה נמצאים רק
ערכים אי-שליליים (החל מ 0-עד ל.)3.59-
בכדי לחשב שטחים הנמצאים משמאל או מימין לערכים שליליים ,נשתמש בעובדה שהטבלה
סימטרית סביב אפס ,ולכן:
)𝑔(𝑃(𝑍 ≥ −𝑔) = 𝑃(𝑍 ≤ 𝑔) = Φ
)𝑔(𝑃(𝑍 ≤ −𝑔) = 𝑃(𝑍 ≥ 𝑔) = 1 − 𝑃(𝑍 ≤ 𝑔) = 1 − Φ
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
פתרון:
𝑃(𝑍 < −1.37) = 𝑃(𝑍 > 1.37) = 1 − Φ(1.37) = 1 − 0.9147 = 0.0853
דוגמא :מהו השטח המסומן?
פתרון:
𝑃(𝑍 < −0.09) = 𝑃(𝑍 > 0.09) = 1 − Φ(0.09) = 1 − 0.5359 = 0.4641
חישוב הסתברויות בין שני ערכים בהתפלגות 𝒁 :אם ברצוננו לחשב שטח הנמצא בין שני ערכים,
נחשב את השטח הנמצא משמאל לערך הגדול מבין השניים ונחסר ממנו את השטח הנמצא
משמאל לערך הקטן מבין השניים .כלומר ,עבור :𝑔2 > 𝑔1
) 𝑃(𝑔1 ≤ 𝑍 ≤ 𝑔2 ) = 𝑃(𝑍 ≤ 𝑔2 ) − 𝑃(𝑍 ≤ 𝑔1 ) = Φ(𝑔2 ) − Φ(𝑔1
דוגמא :מצא את השטח שבין −0.4לבין .1.17
פתרון:
= )𝑃(−0.4 ≤ 𝑍 ≤ 1.17) = 𝑃(𝑍 ≤ 1.17) − 𝑃(𝑍 ≤ −0.4) = 0.879 − 𝑃(𝑍 ≥ 0.4
= 0.879 − (1 − Φ(0.4)) = 0.879 − (1 − 0.6554) = 0.5344
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
פתרון:
= )𝑃(1.23 ≤ 𝑍 ≤ 2.3) = 𝑃(𝑍 ≤ 2.3) − 𝑃(𝑍 ≤ 1.23) = Φ(2.3) − Φ(1.23
= 0.9893 − 0.8907 = 0.0986
חישוב הסתברויות בין שני ערכים סימטריים בהתפלגות 𝒁 :חישוב שטח בין שני ערכים
סימטריים סביב אפס:
𝑃(−𝑔 ≤ 𝑍 ≤ 𝑔) = 2 ⋅ Φ(𝑔) − 1
נוכיח זאת באמצעות דוגמא.
דוגמא :מצא את השטח שבין −2לבין .2
פתרון:
= )𝑃(−2 ≤ 𝑍 ≤ 2) = 𝑃(𝑍 ≤ 2) − 𝑃(𝑍 ≤ −2) = Φ(2) − 𝑃(𝑍 ≥ 2
= Φ(2) − (1 − Φ(2)) = 2 ⋅ Φ(2) − 1 = 2 ⋅ 0.9772 − 1 = 0.9544
התפלגות נורמאלית שאינה סטנדרטית
עד כה טיפלנו במשתנה מקרי נורמאלי סטנדרטי – משתנה נורמאלי בעל ממוצע 0וסטיית תקן .1
מריב הדוגמאות (אם לא כולן) עוסקות במשתנה נורמאלי כללי ,כלומר ,במשתנה שהממוצע שלו
אינו שווה ל 0-בהכרח ,וסטיית התקן שלו אינה שווה ל 1-בהכרח.
בשלב הבא נלמד איך לחשב הסתברויות עבור משתנה נורמאלי כללי .נסמן ב 𝑋 -את המשתנה
הנורמאלי הכללי.𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :
כדי שנוכל להשתמש בטבלת 𝑍 אשר מתאימה למשתנה נורמאלי סטנדרטי (ממוצע 0וסטיית תקן
,)1נצטרך לבצע פעולה חשבונית הנקראת פעולת התקנון/הנרמול.
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
פעולת הנרמול/התקנון
פעולת הנרמול נועדה להפוך משתנה נורמאלי כללי (לא סטנדרטי) למשתנה נורמאלי סטנדרטי.
פעולת הנרמול מתבטאת בהסרת הממוצע מהמשתנה הנורמאלי הכללי וחלוקה בסטיית התקן
שלו .כלומר ,אם לפנינו משתנה נורמאלי כללי 𝑋 ,𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :מתקיים ש:
𝜇𝑋−
)⟶ 𝑍 ~ 𝑁(0, 1
𝜎
𝜇𝑋−
אשר ממוצעו שווה ל 0-וסטיית התקן שלו שווה ל,1- במילים אחרות ,יצרנו משתנה חדש
𝜎
כלומר ,המשתנה החדש הוא נורמאלי סטנדרטי ,וכעת ניתן להשתמש בטבלת 𝑍.
נשים לב שפעולת הנרמול מזכירה למעשה חישוב של ציון תקן .כאשר למדנו על ציוני התקן ראינו
שחישוב ציון תקן לערך כלשהו מתבטא בהחסרת הממוצע מהערך וחלוקה בסטיית התקן .זו
בדיוק הפעולה שאנו עושים כעת:
𝜇𝑋−
=𝑍
𝜎
בפעולת הנרמול אנו מחשבים את ציון התקן של הערך עבורו אנו נדרשים לחשב הסתברות .לאחר
שנחשב את ציון התקן של הערך ,נבדוק את ההסתברות הרצויה בעזרת טבלת 𝑍.
למעשה ,טבלת 𝑍 הינה טבלת ציוני תקן.
דוגמא :הניחו שציוני המבחן הפסיכומטרי מפולגים (בקירוב) נורמאלית ,עם ממוצע 520וסטיית
תקן ,100כלומר.𝑍 ~ 𝑁(520, 1002 ) :
מהו אחוז הנבחנים שקיבלו ציון עד ?640 א.
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
8
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
25/04/2021
9
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
02/05/2021
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
02/05/2021
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
02/05/2021
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
02/05/2021
דוגמא 𝟒 :דיאטה חדשה מבטיחה ירידה משמעותית במשקל .מעוניינים לבדוק האם הדיאטה
החדשה אכן יעילה .ניסוח ההשערות יהיה:
:𝐻0המשקל לאחר הדיאטה אינו נמוך מהמשקל לפני.
:𝐻1המשקל לאחר הדיאטה נמוך מהמשקל לפני.
כאשר נחליט שאנו מקבלים את ,𝐻1המינוח המקובל הינו "נדחה את 𝟎𝑯" ,כלומר ,אנו -
מקבלים בכך את .𝐻1
כלומר ,נקודת הייחוס שלנו היא ,𝐻0אשר מייצגת את ההשערה השמרנית – מעין ברירת מחדל.
הרציונל בבדיקת השערות
כפי שנאמר ,נקודת הייחוס שלנו היא ,𝐻0אשר מייצגת את ההשערה השמרנית .כך יהיה הדבר גם
כאשר נדרש לבצע את המבחן לבדיקת ההשערות ולהכריע ביניהן.
אנו נבדוק למעשה האם התוצאה שקיבלנו במדגם הגיונית/סבירה תחת .𝐻0במידה וכן ,אנו לא
נדחה את ,𝐻0ונאמין שזו ההשערה הנכונה .אולם ,במידה ונקבל תוצאה שמאוד לא
סבירה/הגיונית תחת ,𝐻0נסיק שככל הנראה 𝐻0אינה הנכונה ולכן נדחה את ( 𝐻0ובכך נקבל את
.)𝐻1
השערות חד-צדדיות והשערות דו-צדדיות
השערות חד-צדדיות הינן השערות עבורן לשתי ההשערות ( 𝐻0ו )𝐻1 -יש כיוון ,כלומר ,כל השערה
מצביעה על כיוון כלשהו .בניסוח ההשערות נראה מילים כגון קטן/גדול/אינו קטן/אינו גדול.
השערות דו-צדדיות הינן השערות עבורן לשתי ההשערות ( 𝐻0ו )𝐻1 -אין כיוון ,כלומר ,בניסוח
ההשערות נראה מילים כגון שווה/שונה/הבדל (מילים נטולות כיוון) .במקרה של השערות דו-
צדדיות תמיד ב 𝐻0 -תופיע המילה שווה/זהה/אין הבדל וב 𝐻1 -תופיע המילה שונה/יש הבדל.
נחזור לארבע הדוגמאות שהצגנו עבור בדיקת השערות ,ועבור כל אחת מהן נקבע האם ההערות
חד-צדדיות או דו-צדדיות.
דוגמא :1מדובר בהשערות חד-צדדיות ,שכן לשתי ההשערות יש כיוון ( 𝐻0טוענת שהתרופה אינה
טובה מהקיימת ,ואילו 𝐻1טוענת שהתרופה החדשה טובה מהקיימת).
דוגמא :2מדובר בהשערות דו-צדדיות ,שכן לשתי ההשערות אין כיוון ( 𝐻0טוענת שהממוצע של
הציונים בשתי הקבוצות שווה ,ואילו 𝐻1טוענת שהממוצע של הציונים בשתי הקבוצות שונה).
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
02/05/2021
דוגמא :3מדובר בהשערות דו-צדדיות ,שכן לשתי ההשערות אין כיוון ( 𝐻0טוענת שאין הבדל
בממוצעי הציונים בין 3ההתמחויות ,ואילו 𝐻1טוענת שקיים הבדל).
דוגמא :4מדובר בהשערות חד-צדדיות ,שכן לשתי ההשערות יש כיוון ( 𝐻0טוענת שהמשקל לאחר
הדיאטה אינו נמוך מהמשקל לפני הדיאטה ,ואילו 𝐻1טוענת שהמשקל לאחר הדיאטה נמוך
מהמשקל לפני הדיאטה).
טעות מסוג ראשון וטעות מסוג שני
כאמור ,קיימות שתי השערות שרק אחת מהן נכונה ( 𝐻0נכונה או 𝐻1נכונה) ,ואנו יכולים להחליט
שתי החלטות במבחן שערכנו לבדיקת ההשערות (קבלת 𝐻0או קבלת ,)𝐻1לכן ייתכנו סה"כ
ארבעה מצבים אפשריים ,כמוצג בטבלה .בשני מצבים אנו מבצעים החלטה נכונה ,ובשניים
מבצעים החלטה לא נכונה ,כלומר ,מבצעים טעות.
טעות מסוג ראשון הינה דחיית ( 𝐻0כלומר ,קבלת )𝐻1כאשר 𝐻0היא הנכונה.
טעות מסוג שני הינה קבלת 𝐻0כאשר המציאות הינה .𝐻1
נרצה כמובן למזער ככל הניתן את ההסתברויות לטעות מסוג ראשון ושני ,אלא שלעתים הקטנת
האחת בא על חשבון הגדלת האחרת.
חומרת הטעויות :ההשלכות של ביצוע טעות מסוג ראשון וביצוע טעות מסוג שני שונות בדרך כלל.
לרוב ,אנו חוששים יותר מביצוע טעות מסוג ראשון מאשר ביצוע טעות מסוג שני ,מכיוון
שהשלכותיה חמורות יותר.
בדוגמא הראשונה עם התרופות ,טעות מסוג ראשון הינה דחיית 𝐻0כאשר 𝐻0היא הנכונה,
כלומר ,במקרה של טעות מסוג ראשון נסיק שהתרופה החדשה טובה יותר מהקיימת בשוק כאשר
למעשה היא לא .בפועל ,נחליף לחולים את התרופה הקיימת בתרופה החדשה שהיא פחות טובה,
כלומר ,נרע את מצב החולים.
טעות מסוג שני הינה קבלת 𝐻0כאשר המציאות הינה ,𝐻1כלומר ,נסיק שהתרופה החדשה איננה
טובה יותר מהקיימת ,כאשר למעשה היא כן טובה יותר .בפועל ,נמשיך לתת לחולים שלנו את
התרופה הישנה כאשר היה ניתן לתת להם תרופה טובה יותר ,כלומר ,נפספס הזדמנות.
לכן ,טעות מסוג ראשון נתפסת לרוב כהרעה ,לעומת טעות מסוג שני שנתפסת יותר בגדר פספוס.
במרבית המקרים הרעה של מצב קיים חמורה יותר מפספוס הזדמנות חדשה .לכן ,טעות מסוג
ראשון נתפסת כחמורה יותר מטעות מסוג שני.
המסקנה מהאמור לעיל היא שמבצע המחקר ירצה להגן על עצמו בראש ובראשונה מפני ביצוע
טעות מסוג ראשון ,כלומר ,הוא ייתן חסם עליון להסתברות שטעות מסוג ראשון תתרחש .חסם
מקובל הינו של ,0.05כלומר ,נאפשר שלכל היותר ב 5%-מהמקרים עבורם 𝐻0הינה הנכונה נבצע
טעות ונדחה את .𝐻0חסם זה נקרא רמת מובהקות (ר"מ).
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
02/05/2021
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
02/05/2021
דוגמא :מעוניינים לבדוק האם לישראלים יש ממוצע ציון I.Qהשונה מהממוצע העולמי (אשר
שווה ל .)100-במקרה זה ההשערות הן:
:𝐻0ממוצע ציון ה I.Q-של הישראלים אינו שונה מהממוצע העולמי.
:𝐻1ממוצע ציון ה I.Q-של הישראלים שונה מהממוצע העולמי.
הפעם ,מדובר בהשערות דו-צדדיות (ללא כיוון) ,ולכן אזור הדחייה של 𝐻0יהיה בשני צדי
ההתפלגות הנורמאלית.
𝒑-value
הגדרה :ה( 𝑝-value-ערך 𝑝) של המבחן מוגדר כרמת המובהקות המינימאלית עבורה נדחה את
השערת האפס.
כלומר ,זוהי רמת המובהקות הקטנה ביותר שניתן לקחת עבורה השערת האפס תידחה ,ואם ניקח
רמת מובהקות נמוכה יותר (אפילו במעט) כבר לא נדחה את השערת האפס.
כאשר מתקבל 𝑝-valueמאוד נמוך (נמוך מ ,)0.005-אומרים שהתוצאה מובהקת ,כלומר ,לכל
רמת מובהקות סבירה נדחה את השערת האפס.
דוגמא :נניח שעבור דוגמא מסוימת נמצא שה 𝑝-value-שווה ל .0.023-משמעות התוצאה היא
שעבור כל רמת מובהקות שניקח אשר גדולה או שווה מ 0.023-אנו נדחה את ,𝐻0ועבור רמת
מובהקות שקטנה מ 0.023-אנו לא נדחה את .𝐻0במילים אחרות ,רמת המובהקות המינימאלית
עבורה נדחה את 𝐻0הינה .0.023
שלבים עיקריים במבחן לבדיקת השערות
בקורס זה נעסוק במספר מקרים של בדיקת השערות .בנושא זה של בדיקת השערות ,שלבי
העבודה יהיו השלבים הבאים:
ניסוח 𝐻0ו.𝐻1 - -
חישוב "ערך סטטיסטי" אשר מבוסס על תוצאות המדגם שנלקח. -
השוואת ערך הסטטיסטי שחושב ל"ערך קריטי" אשר נלקח מתוך טבלה מתאימה. -
בהתאם לכך ,נקבל החלטה האם אנו דוחים את 𝐻0או לא דוחים את .𝐻0
מתן מסקנה סופית במונחי הדוגמא. -
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
09/05/2021
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
09/05/2021
רמת הביטחון הפופולארית ביותר הינה ,95%ולכן במרבית המחקרים זו רמת הביטחון בה
משתמשים ,ובהתאם אליה נקבע רווח הסמך ואורכו.
מקרים שונים של רווחי סמך
במסגרת נושא זה של רווח סמך נלמד שלושה מקרים של רווחי סמך (עליהם נלמד בהרצאה
הבאה):
.1רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) ידועה.
.2רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה.
.3רווח סמך לפרופורציה.
הערה :ניתן להשתמש בנוסחא זו של רווח הסמך גם אם המשתנה הנחקר אינו מפולג נורמאלית
בתנאים שברשותנו מדגם בגודל 30ומעלה של תצפיות בלתי תלויות (לפי משפט הגבול המרכזי,
ממוצע המדגם מפולג בקירוב נורמאלית).
דוגמא :חוקר מעוניין לחשב רווח סמך לתוחלת ציון ה I.Q-עבור סטודנטים לרפואה בישראל.
לשם כך החוקר דגם 40סטודנטים לרפואה ובדק מהו ציון ה I.Q-של כל אחד .החוקר קיבל
שממוצע ציוני ה I.Q--של 40הנדגמים הוא .107.3החוקר מניח ששונות ציוני ה I.Q--של
סטודנטים לרפואה שווה לשונות ציוני ה I.Q--של כל האוכלוסייה ששווה ל( 225-סטיית תקן
.)15
מצאו רווח סמך ברמת ביטחון 95%לתוחלת ציוני ה I.Q--עבור סטודנטים לרפואה א.
בישראל.
מה יקרה לרווח הסמך אם נחשבו עבור רמת ביטחון גבוהה יותר של ?99%חשבו אותו ב.
מחדש עבור רמת ביטחון זו.
ידוע שתוחלת ציוני ה I.Q-בעולם שווה ל .100-לאור התוצאה שקיבלתם בסעיף א' ,קבעו ג.
האם ניתן להסיק ברמת ביטחון של 95%שתוחלת ציוני ה I.Q-של סטודנטים לרפואה
בישראל גבוהה מהתוחלת העולמית המקובלת.
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
09/05/2021
פתרון:
בדוגמא זו גודל המדגם מעל 30ולכן אין צורך בהנחה שההתפלגות המקורית (ציוני I.Q א.
של סטודנטים לרפואה) הינה נורמאלית.
𝛼
תחילה נחשב את הגודל .1 − 2רוצים רמת סמך של ,0.95ולכן:
𝛼 𝛼
⟹ 1 − 𝛼 = 0.95 ⟹ 𝛼 = 0.05 = 0.025 ⟹ 1 − = 1 − 0.025 = 0.975
2 2
נמצא את רווח הסמך:
𝜎 15 15
𝑋̅ ± ⋅ 𝑍1−𝛼 = 107.3 ± ⋅ 𝑍0.975 = 107.3 ± = ⋅ 1.96 = 107.3 ± 4.65
𝑛√ 2 √40 √40
]= [102.65, 111.95
משמעות התוצאה :קיבלנו שרווח הסמך לתוחלת ציוני ה I.Q-של סטודנטים לרפואה הינו
האינטרוול ] [102.65, 111.95ברמת ביטחון של .95%
כלומר ,התוחלת האמיתית של ציוני ה I.Q-בקרב כל הסטודנטים לרפואה (שאינה ידועה) נמצאת
בין 102.65לבין 111.95בהסתברות של .0.95בצורה פורמאלית:
𝑃(102.65 ≤ 𝜇 ≤ 111.95) = 0.95
רווח הסמך יגדל לאינטרוול הבא.[101.19, 113.41] : ב.
כן ,מכיוון שכל רווח הסמך שקיבלנו בסעיף א' נמצא מימין ל .100-במילים אחרות, ג.
אפילו הגבול התחתון של רווח הסמך ) (102.65גבוה מ( .100-במידה וחלק מרווח
הסמך היה משמאל ל 100-לא היינו יכולים לקבוע שתוחלת ציוני ה I.Q-של סטודנטים
לרפואה בישראל גבוהה מהתוחלת העולמית ברמת ביטחון .95%
אורך רווח הסמך
אורך רווח הסמך (המסומן באות 𝑙) הינו ההפרש בין הגבול העליון של רווח הסמך לגבול התחתון.
אם כל ,מקבלים שאורך רווח הסמך הינו הביטוי הבא:
𝜎
⋅𝑙 = 2 𝛼⋅ 𝑍1−
𝑛√ 2
בדוגמא שהצגנו ,בסעיף הראשון ,𝑙 = 9.3ובסעיף השני אורך רווח הסמך גדל ל.𝑙 = 12.22-
ניתן לראות מנוסחת אורך רווח הסמך ששלושה גורמים משפיעים על אורך רווח הסמך :גודל
המדגם ,סטיית התקן באוכלוסייה ורמת הביטחון .נראה איך כל מרכיב מהשלושה משפיע על
אורכו של רווח הסמך.
ככל שסטיית התקן באוכלוסייה גדולה יותר ,כך אורכו של רווח הסמך גדול יותר.
לעומת זאת ,הגדלת גודל המדגם מקטינה את אורכו של רווח הסמך (שכן 𝑛 נמצא במכנה השבר).
𝛼
ככל שרמת הביטחון גדלה ,כך גדל הביטוי ,1 − 2ובעקבותיו גדל הביטוי 𝛼 .𝑍1−אם כן ,רמת
2
ביטחון גדולה יותר מגדילה את אורכו של רווח הסמך.
מהאמור לעיל נובע שניתן גם להגדיל את רמת הביטחון וגם להקטין את אורכו של רווח הסמך
על-ידי הגדלת גודל המדגם 𝑛.
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
09/05/2021
התפלגות 𝒕
התפלגות 𝑡 ,כמו התפלגות 𝑍 ,הינה התפלגות סימטרית סביב הערך ,0אלא שיש לה פיזור מעט
גדול יותר ביחס ל :𝑍 -היא נמוכה יותר במרכז ההתפלגות וגבוהה יותר בקצוות.
להתפלגות זו יש פרמטר הנקרא דרגות חופש (ד"ח) והוא נקבע על -סמך גודל המדגם פחות אחד:
ד"ח = .𝑛 − 1
פרמטר זה קובע עד כמה ההתפלגות 𝑡
מפוזרת יותר ביחס להתפלגות 𝑍 .ככל
שלהתפלגות 𝑡 יותר דרגות חופש ,כך היא
קרובה יותר להתפלגות 𝑍 ,וההפך.
ההתפלגות 𝑡 עם 30דרגות חופש ומעלה
כבר מאוד קרובה להתפלגות 𝑍 ,ולכן
במקרה זה נוכל להשתמש בערכי התפלגות
𝑍.
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
09/05/2021
טבלת התפלגות 𝒕 :שורות טבלת 𝑡 מציינות את דרגות החופש .ניתן לראות שיש אינפורמציה עבור
דרגות חופש החל מ 1-ועד ל 30-באופן רציף.
רווח סמך (בניגוד לבדיקת השערות) הינו תמיד דו-צדדי ,ולכן נשתמש בנושא זה רק בחלק של
טבלת 𝒕 המתאים למבחן דו-צדדי.
את רמת הביטחון הינה לדוגמא 95%נובע ש .1 − 𝛼 = 0.95-כלומר ,במקרה זה ,𝛼 = 0.05
ולכן יהיה עלינו לבדוק מהו הערך המתאים בטבלת 𝑡 למבחן דו-צדדי בעמודה .0.05
2
∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2 13.82 + 14.22 + ⋯ + 132 − 10 ⋅ (13.13)2 28.041
= 𝑆 = = =
𝑛−1 9 9
= 3.11
𝑆 = 1.76
נבדוק בלוח 𝑡 (דו-צדדי) מהו הערך עבור (10 − 1) 9דרגות חופש (יש לבדוק תחת מבחן דו-
צדדי):
𝑡(𝑛−1) − 𝑡(9) = 2.262
רווח הסמך לתוחלת רמת ההמוגלובין בקרב נשים בהריון:
𝑆 1.76
𝑋̅ ± ⋅ 𝑡(𝑛−1) = 13.13 ± ]⋅ 2.262 = 13.13 ± 1.26 = [11.87, 14.39
𝑛√ √10
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
09/05/2021
משמעות התוצאה :בביטחון 95%ניתן לומר שתוחלת רמת ההמוגלובין בדם של נשים בהריון
נעה בין 11.87לבין .14.39
סיכום ביניים
עד כה הצגנו את שני המקרים הבאים של רווח סמך:
רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה( ידועה. -
רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה. -
רווח הסמך הראשון התבסס על התפלגות 𝑍 ,בעוד השני התבסס על התפלגות 𝑡 מכיוון שאמדנו
את השונות באוכלוסייה על סמך השונות במדגם.
נציג מקרה נוסף של רווח סמך :רווח סמך לפרופורציה.
̂𝑞 ⋅ ̂𝑝
√ 𝑝̂ ± 𝛼⋅ 𝑍1−
𝑛 2
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
09/05/2021
דוגמא :לראשות העיר ירושלים שני מועמדים :מועמד א' ומועמד ב' .מתוך סקר שנערך ערב
הבחירות בקרב 100תושבי העיר נמצא ש 58-מהם תומכים במועמד א' והיתר במועמד ב'.
בנו רווח סמך לפרופורציית התומכים במועמד א' ברמת סמך .0.95 א.
לאור תוצאת רווח הסמך שקיבלתם קבעו האם למועמד ב' יש עדיין סיבות לאופטימיות ב.
ברמת ביטחון .95%
חשבו רווח סמך לפרופורציית התומכים במועמד א' עבור רמת ביטחון של .99% ג.
פתרון:
תחילה נחשב את פרופורציית התומכים במועמד א' במדגם .נתון ש 58-מתוך ה100- א.
שבמדגם תמכו במועמד א' ,ולכן .𝑝̂ = 0.58
מה שמשתנה לעומת סעיף א' זה רק ערך 𝑍 שיהיה כעת גבוה יותר. ג.
𝛼 0.01
1− = 1− = 0.995
2 2
𝑍1−𝛼 = 𝑍0.995 = 2.57
2
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
דוגמא :נניח שרוצים לבדוק את ההשערות עבור רמת מובהקות 0.05ומדובר בהשערות חד-
צדדיות.
תחילה ,נבדוק מהו הערך 𝛼 𝑍1−בטבלת ההתפלגות הנורמאלית 𝑍.
𝑍1−𝛼 = 𝑍1−0.05 = 𝑍0.95 = 1.64
כעת ,יש להשוות את ערך הסטטיסטי לערך הקריטי 1.64באופן הבא:
אם ,|𝑍𝑋̅ | ≥ 1.64נדחה את .𝐻0 -
אם ,|𝑍𝑋̅ | < 1.64לא נדחה את .𝐻0 -
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
דוגמא :נניח שרוצים לבדוק את ההשערות עבור רמת מובהקות 0.05ומדובר בהשערות דו-
צדדיות.
תחילה ,נבדוק מהו הערך 𝛼 𝑍1−בטבלת ההתפלגות הנורמאלית 𝑍.
2
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
עבור מבחן חד-צדדי ימני חישוב ה 𝑝-value-ייעשה בכך שנחשב את השטח שנמצא מערך -
הסטטיסטי ̅𝑋𝑍 וימינה.
עבור מבחן חד-צדדי שמאלי חישוב ה 𝑝-value-ייעשה בכך שנחשב את השטח שנמצא -
מערך הסטטיסטי ̅𝑋𝑍 ושמאלה.
עבור מבחן דו-צדדי חישוב ה 𝑝-value-ייעשה בכך שנחשב את השטח שנמצא מערך -
הסטטיסטי ̅𝑋𝑍 ולכיוון זנב ההתפלגות כפול 𝟐.
הסיבה לכך שבמבחן דו-צדדי יש להכפיל ב 2-את השטח המחושב נעוצה בסיבה שבמבחן
דו-צדדי רמת המובהקות מחולקת לשני זנבות ההתפלגות ,ולכן כדי לדחות את 𝐻0צריך
לקחת רמת מובהקות כפולה מזו שנלקחת במבחן החד-צדדי.
𝒑-valueעבור מבחן חד-צדדי ימני:
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
דוגמא :לצורך התרגול נשתמש בנתוני הדוגמא האחרונה (עם שיטת ההוראה החדשה) כדי לחשב
את רמת המובהקות המינימאלית בה נדחה את .𝐻0
פתרון :אנו נדרשים לחשב את ה 𝑝-value-עבור הדוגמא.
כזכור מסעיף א' ,ברמת מובהקות של 0.05לא דחינו את ,𝐻0ולכן כבר מסעיף א' אנו מסיקים ש-
.𝑝 > 0.05כעת אנו נדרשים לומר מהו הערך המדויק של 𝑝.
בדוגמא זו מדובר במבחן דו-צדדי ,ולכן ערך ה 𝑝-יהיה השטח שמערך הסטטיסטי ולכיוון זנב
ההתפלגות כפול .2
את ערך הסטטיסטי כבר מצאנו בסעיף א'.𝑍𝑋̅ = 1.41 :
בעזרת טבלת ההתפלגות הנורמאלית 𝑍 נחשב את השטח הנמצא מערך הסטטיסטי )(1.41
ולכיוון הזנב ,כלומר ימינה (אם היה מדובר בערך שלילי היינו מחשבים את הערך ממנו ושמאלה).
את התוצאה יש להכפיל לבסוף ב( 2-כי מדובר במבחן דו-צדדי).
𝑃(𝑍 > 1.41) = 1 − 𝑃(𝑍 < 1.41) = 1 − 𝜙(1.41) = 1 − 0.9207 = 0.0793
את התוצאה שקיבלנו ) (0.0793יש להכפיל ב ,2-ולכן מקבלים שערך ה 𝑝-הינו
.2 ⋅ 0.0793 = 0.1586
𝑝-value = 0.1586 = 15.86%
משמעות התוצאה :ה 𝑝-value-הינו רמת המובהקות המינימאלית בה נדחה את .𝐻0
קיבלנו בדוגמא שרמת המובהקות המינימאלית בה נדחה את 𝐻0שווה ל.0.1586-
כלומר ,עבור רמות מובהקות שגדולות (או שוות) ל 0.1586-אנו נדחה את ,𝐻0ועבור רמות
מובהקות נמוכות מ 0.1586-לא נדחה את .𝐻0
תוצאה זו מתיישבת עם תוצאות סעיף א' בו לא דחינו את 𝐻0עבור רמת מובהקות של 0.05אשר
קטנה מ.0.1586-
דוגמא מסכמת
חברת מקדונלד'ס פרסמה שממוצע משקל קציצת ההמבורגר שלה הינו 150גרם וסטיית התקן 6
גרם .לקוחות בסניף אור יהודה טוענים שבסניף זה ממוצע משקל הקציצה נמוך מ 150-גרם .לשם
בדיקת טענתם נעזרו הלקוחות בסטטיסטיקאי אשר דגם מדגם מקרי של 100קציצות ומצא
שממוצע המשקל שלהן הינו 148.7גרם.
בדקו האם יש צדק בטענת הלקוחות עבור רמת מובהקות 5%וחשבו את ערך ה- א.
𝑝-valueשל המבחן.
חזרו על סעיף א' כאשר טענת הלקוחות שממוצע משקל ההמבורגר שונה ממה שהחברה ב.
התחייבה.
פתרון:
מדובר בהשערות חד-צדדיות (שכן הלקוחות טוענים שמשקל הקציצה נמוך מ,150- א.
כלומר ,יש כיוון להשערת המחקר):
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
ערך הסטטיסטי:
𝜇 𝑋̅ − 148.7 − 150 1.3
= ̅𝑋𝑍 = 𝜎 =− = −2.17
6 0.6
𝑛√ √100
הערך הקריטי (עבור מבחן חד-צדדי ברמת מובהקות 𝟓𝟎 :)𝟎.
𝑍1−𝛼 = 𝑍1−0.05 = 𝑍0.95 = 1.64
השוואה בין ערך הסטטיסטי לערך הקריטי:
ערך הסטטיסטי ) (−2.17קיצוני יותר מהערך הקריטי ) ,(1.64או בצורה פורמאלית
יותר ,|𝑍𝑋̅ | = 2.17 > 𝑍1−𝛼 = 1.64 :ולכן נדחה את 𝐻0עבור רמת מובהקות של .5%
מסקנה :ממוצע משקל קציצת ההמבורגר בסניף מקדונלד'ס באור יהודה נמוך יותר ממה
שהחברה התחייבה ( 150גרם) ,ולכן יש צדק בטענת לקוחות הסניף.
כעת נחשב את ה 𝒑-value-של המבחן .מדובר בהשערות חד-צדדיות ולכן ה𝑝-value-
הינו השטח הנמצא מערך הסטטיסטי שקיבלנו ) (−2.17ושמאלה:
𝑝-value = 𝑃(𝑍 < −2.17) = 𝑃(𝑍 > 2.17) = 1 − 𝜙(2.17) = 1 − 0.985 = 0.015
𝑝-value = 0.015 = 1.5%
קיבלנו שרמת המובהקות המינימאלית בה נדחה את ( 𝐻0ערך ה 𝑝-value-של המבחן)
שווה ל.0.015-
כלומר ,זוהי רמת המובהקות הנמוכה ביותר עבורה כבר ניתן לדחות את .𝐻0במילים
אחרות ,עבור רמות מובהקות שגדולות (או שוות) ל 0.015-אנו נדחה את ,𝐻0ועבור רמות
מובהקות נמוכות מ 0.015-לא נדחה את .𝐻0
תוצאה זו מתיישבת כמובן עם העובדה שדחינו את 𝐻0עבור רמת מובהקות ( 0.05אשר
גבוהה יותר מ.)0.015-
בסעיף זה טענת הלקוחות הינה שממוצע משקל ההמבורגר שונה ממה שהחברה ב.
התחייבה ,כלומר ,הפעם מדובר בהשערות דו-צדדיות.
8
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
23/05/2021
מסקנה :ממוצע משקל קציצת ההמבורגר בסניף מקדונלד'ס באור יהודה שונה ממה
שהחברה התחייבה ( 150גרם) ,ולכן יש צדק בטענת לקוחות הסניף.
ערך ה 𝒑-value-של המבחן עבור סעיף ב' :בסעיף זה מדובר במבחן דו-צדדי ,לעומת
סעיף א' בו חישבנו עבור מבחן חד-צדדי.
לכן ,את התוצאה שקיבלנו בסעיף ב' ) (0.015יש להכפיל ב:2-
𝑝-value = 2 ⋅ 0.015 = 0.03
𝑝-value = 0.03 = 3%
בדיקת השערות כאשר סטיית התקן אינה ידועה
בהרצאה זו עסקנו בנבחן לבדיקת השערות על הממוצע באוכלוסייה כאשר סטיית התקן (או
השונות) באוכלוסייה ידועה ונתונה בשאלה .המבחן המתאים למקרה זה הינו מבחן 𝑍 המבוסס על
ההתפלגות הנורמאלית הסטנדרטית 𝑍.
נציין שבמקרית המקרים במציאות לא תהיה לנו אינפורמציה על אודות סטיית התקן
באוכלוסייה ,ולכן מבחן 𝑍 לא כ"כ ריאלי .במקרה בו לא נתונה לנו סטיית התקן באוכלוסייה
נצטרך לאמוד אותה על-סמך המדגם (נשתמש בנוסחא ל :𝑆-סטיית התקן במדגם) ,ונשתמש בלוח
𝑡 ולא בלוח 𝑍 .המבחן לבדיקת השערות למקרה בו סטיית התקן באוכלוסייה אינה ידועה נקרא
מבחן 𝑡.
בהרצאה הבאה נציג ונלמד מבחן זה ,אשר גם בודק השערות בנוגע לתוחלת ,אולם השונות (או
סטיית התקן) באוכלוסייה אינה ידועה ולכן נצטרך לאמוד אותה על-סמך המדגם.
לסיכום ,במבחן 𝑍 משתמשים כאשר סטיית התקן באוכלוסייה ידועה ,ובמבחן 𝑡 משתמשים
כאשר סטיית התקן אינה ידועה ,ונצטרך לאמוד אותה על-סמך המדגם.
9
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
30/05/2021
2
∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2 ∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2
= 𝑆 =⋯=
𝑛−1 𝑛−1
לאחר שחישבנו את שונות המדגם ,נוציא שורש כדי לקבל את סטיית התקן של המדגם ,כלומר את
𝑆.
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
30/05/2021
דוגמא :אם לפנינו מבחן דו-צדדי המבוסס על 25תצפיות ואנו רוצים לבדוק את ההשערות עבור
רמת מובהקות של ,1%הערך הקריטי המתאים הינו:
דו צדדי דו צדדי
𝑡(𝑛−1,𝛼) = 𝑡(24,0.01) = 2.797
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
30/05/2021
דוגמא
לאחרונה נשמעת טענה בקרב מספר חוקרים כי חלה עלייה בגובה גברים בדור הנוכחי לעומת
תוחלת הגובה בדור הקודם השווה ל 175-ס"מ .לשם בדיקת טענה זו נלקח מדגם של 8גברים
צעירים ולהלן הגבהים שנמדדו:
179, 175, 188, 169, 180, 176, 171, 182
הניחו שהמשתנה הנחקר (גובה גברים) מפולג נורמאלית ,ושהנדגמים בלתי תלויים זה בזה.
נסחו השערות ובדקו אותן ברמת מובהקות .5%מה מסקנתכם? -
מה ניתן לקבוע בנוגע ל 𝑝-value-של המבחן בדוגמא זו? -
פתרון :מדובר בהשערות חד-צדדיות:
:𝐻0ממוצע גובה גברים בדור הנוכחי אינו גבוה מ 175-ס"מ.
:𝐻1ממוצע גובה גברים בדור הנוכחי גבוה מ 175-ס"מ.
נחשב תחילה את הממוצע וסטיית התקן במדגם:
∑ 𝑥𝑖 1420
= ̅𝑋 = = 177.5
𝑛 8
2
∑ 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2 1792 + ⋯ + 1822 − 8 ⋅ 177.52
= 𝑆 = = 37.43
𝑛−1 7
𝑆 = √37.43 = 6.12
נחשב את ערך הסטטיסטי בדוגמא:
𝜇 𝑋̅ − 177.5 − 175
= 𝑆𝑡 = = 1.155
𝑆 6.12
𝑛√ √8
מציאת ערך קריטי מלוח 𝑡 עבור רמת מובהקות של :5%
חד צדדי חד צדדי
𝑡(𝑛−1,𝛼) = 𝑡(7,0.05) = 1.895
ערך הסטטיסטי קטן מהערך הקריטי ,ולכן לא דוחים את השערת האפס ברמת מובהקות ,5%
ולכן לא ניתן להסיק שחלה עלייה בגובה גברים.
כזכור 𝑝-value ,הינה רמת המובהקות המינימאלית עבורה נדחה את השערת האפס.
בדוגמא האחרונה לא דחינו את השערת האפס עבור רמת מובהקות של ( 5%ובהכרח שלא נדחה
עבור רמת מובהקות נמוכה יותר של ,)1%ולכן בהכרח בדוגמא זו ה 𝑝-value-של המבחן הוא
מעל :5%
𝑝-value > 0.05
הערה עבור הדוגמא :בדוגמא זו אמנם קיבלנו ממוצע של ,177.5שנראה על פניו מספיק
משמעותי לעומת התוחלת של 175כדי לדחות את השערת האפס ולהסיק שחלה עלייה בגובה
הגברים ,ובכל זאת לא הצלחנו לדחות את השערת האפס .הסיבה העיקרית לכך נעוצה בעובדה
שגודל המדגם קטן מאוד בדוגמא זו ( 8תצפיות בלבד) – דבר המקשה על הדחייה של השערת
האפס .כלומר ,כאשר לוקחים מעט תצפיות ,צריך תוצאה מאוד "מרשימה" כדי שהשערת האפס
תידחה ,מה שבדוגמא הזו לא קרה.
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
30/05/2021
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
06/06/2021
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
06/06/2021
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
06/06/2021
בניית טבלת ה :Expected-נבנה טבלה באותם הממדים ונעתיק את שורת הסה"כ ואת עמודת
הסה"כ הקיימות בטבלת ה .Observed-כל תא ותא בטבלה יחושב על-ידי מכפלת הסה"כ
שבשורה והעמודה המתאימה חלקי הסה"כ הכללי (השווה ל .)184-נקבל את טבלת הExpected-
הבאה:
(𝑜𝑖 − 𝑒𝑖 )2
𝜒𝑆2 ∑= = 8.817
𝑖𝑒
כמובן שניתן לחשב את ערך הסטטיסטי 𝜒𝑆2באופן ישיר על-ידי הצבה בנוסחא מבלי לבנות את
טבלת העזר:
(𝑜𝑖 − 𝑒𝑖 )2
∑ = 𝜒𝑆2 =
𝑖𝑒
(18 − 11.14)2 (7 − 13.86)2 (64 − 70.86)2 (95 − 88.14)2
= + + +
11.14 13.86 70.86 88.14
= 8.817
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
06/06/2021
𝒑-value
נבדוק האם ניתן לדחות את השערת האפס גם עבור רמת מובהקות של .0.01הערך הקריטי עבור
2
) .𝜒(1,0.01ערך הסטטיסטי שחישבנו ) (8.817גבוה מהערך רמת מובהקות זו הינו = 6.63
הקריטי ,ולכן נדחה את השערת האפס גם עבור רמת מובהקות .0.01
מכיוון שדחינו את השערת האפס גם ברמת מובהקות 5%וגם ברמת מובהקות ,1%נובע שערך
ה 𝑝-value-של המבחן בדוגמא זו קטן מ.𝑝-value < 1% :1%-
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
06/06/2021
𝜒𝑆2
√ = 𝑐𝑟
)𝑛 ⋅ (𝐿 − 1
כאשר:
𝜒𝑆2הינו ערך הסטטיסטי שחישבנו. -
𝑛 מייצג את מספר הנדגמים הכולל בדוגמא. -
𝐿 שווה למינימום בין מספר הקטגוריות בשורות למספר הקטגוריות בעמודות. -
נחשב את מדד קרמר עבור הדוגמא:
𝜒𝑆2 8.817
√ = 𝑐𝑟 √= = √0.0479 = 0.219
)𝑛 ⋅ (𝐿 − 1 )184 ⋅ (2 − 1
קיבלנו קשר בינוני-חלש בין השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם.
דוגמא
במחקר נבדק הקשר בין מין הנהג לבין מספר עבירות התנועה שלו בשנה .התוצאות הראו שמבין
75נשים שהשתתפו במחקר 45 ,ביצעו לכל היותר עבירה אחת 18 ,ביצעו שתי עבירות ,והיתר
ביצעו שלוש עבירות ומעלה .מבין 125גברים שהשתתפו במחקר 35 ,ביצעו עבירה אחת לכל
היותר 32 ,ביצעו שתי עבירות ,והיתר ביצעו שלוש עבירות ומעלה.
בנו על סמך האמור לעיל את טבלת ה.Observed- א.
נסחו השערות ובצעו את המבחן ברמת מובהקות .5%רשמו מסקנה בהתאם. ב.
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
06/06/2021
פתרון:
:𝐻0לא קיים קשר בין מין הנהג לבין מספר עבירות התנועה שלו.
:𝐻1קיים קשר בין מין הנהג לבין מספר עבירות התנועה שלו.
טבלת ה:Observed-
טבלת ה:Expected-
75⋅80
נציג רק את החישוב שנעשה עבור תא מס' )= 30 :(1
200
(𝑜𝑖 − 𝑒𝑖 )2
𝜒𝑆2 ∑= = 24.43
𝑖𝑒
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
06/06/2021
השוואת ערך הסטטיסטי לערך הקריטי :המשתנה "מין" מקבל 2קטגוריות והמשתנה "מספר
עבירות תנועה" מקבל 3קטגוריות ,ולכן 𝑅 = 2 :ו .𝐶 = 3-אם כך ,מספר דרגות החופש לדוגמא
הינו .𝑑𝑓 = (𝑅 − 1)(𝐶 − 1) = (2 − 1)(3 − 1) = 2 :2
נבדוק מהו הערך הקריטי בטבלת הערכים הקריטיים עבור 2דרגות חופש ורמת מובהקות .0.05
הערך הקריטי למקרה זה הינו .5.99
2
) ,24.43 = 𝜒𝑆2 > 𝜒(2,0,05ולכן נדחה את 𝐻0עבור רמת מובהקות של .0.05 = 5.99
מסקנה :ישנו קשר מובהק בין מגדר הנהג למספר עבירות התנועה שהוא מבצע המתבטא בכך
שנשים מבצעות פחות עבירות תנועה מאשר גברים.
חישוב מקדם המתאם של קרמר :מכיוון שמצאנו קשר מובהק בין שני המשתנים (דחינו את ,)𝐻0
נחשב כעת את עוצמת הקשר בעזרת מקדם המתאם של קרמר.
הגדלים הרלוונטיים לנוסחת קרמר בדוגמא:
𝜒𝑆2
√ = 𝑐𝑟
)𝑛 ⋅ (𝐿 − 1
𝜒𝑆2 24.43
√ = 𝑐𝑟 √= = √0.12215 = 0.35
)𝑛 ⋅ (𝐿 − 1 )200 ⋅ (2 − 1
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
1
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
2
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
לסיכום ,ערכו בערך מוחלט של מקדם המתאם של פירסון מציין את עוצמת הקשר ,וסימנו של
מקדם המתאם (חיובי ,שלילי או אפס) מציין את כיוון הקשר .כאשר מקדם המתאם שווה לאפס
(או קרוב לאפס) ,נאמר שאין קשר לינארי בין שני המשתנים.
הערה :נדגיש שמקדם המתאם בודק קשר לינארי (קווי) בלבד בין שני משתנים כמותיים .ייתכן
מצב בו קיים קשר שאינו לינארי בין שני המשתנים ומקדם המתאם של פירסון יקבל ערך אפס
(ערך המצביע על העדר קשר לינארי בין שני המשתנים).
דוגמאות לערכו של מקדם המתאם של פירסון עבור מספר דיאגרמות פיזור:
מקדם המתאם של פירסון – נוסחא :להלן הנוסחא לחישוב מקדם המתאם של פירסון בין שני
משתנים 𝑋 ו:𝑌 -
̅𝑌̅𝑋𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −
= 𝑝𝑟
) √(∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2 ) ⋅ (∑𝑛𝑖=1 𝑌𝑖2 − 𝑛𝑌̅ 2
(הערה :בספרות קיימים מספר אופנים שונים להצגת הנוסחא של מקדם המתאם של פירסון.
כמובן ,בכולם נקבל תוצאה זהה)
טבלת עזר לביצוע החישובים :רצוי להכין טבלת עזר בה נבצע את כל החישובים הנדרשים לחישוב
מקדם המתאם של פירסון.
להלן טבלת העזר עבור שימוש בנוסחת העבודה:
3
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
דוגמא
חוקר מעוניין לבדוק האם לאבות גבוהים יש בנים גבוהים .לשם כך נבדק הקשר בין גובה האב
לגובה בנו עבור 10אבות ובניהם.
בדוגמא זו גובה האב הינו המשתנה המסביר (בלתי תלוי) ,וגובה הבן הינו המשתנה המוסבר
(תלוי) ,ולכן גובה האב יסומן ב ,𝑋-וגובה הבן יסומן ב .𝑌 -להלן הגבהים (בסנטימטרים):
ניתוח ראשוני המתקבל מדיאגרמת הפיזור :מהסתכלות ראשונית בדיאגרמת הפיזור קל יותר
לבחון את הקשר בין שני המשתנים .נעשה ניתוח ראשוני של הקשר בין שני המשתנים מתוך
הסתכלות בדיאגרמת הפיזור בלבד .ניתן לראות באופן כללי שישנו קשר חיובי בין גובה האב
לגובה בנו .הקשר בין שני המשתנים חיובי מכיוון שמגמת הנקודות בדיאגרמה הינה מגמה עולה –
ככל שהאב גבוה יותר לרוב גם בנו גבוה יותר ,וככל שהאב נמוך יותר לרוב גם בנו נמוך יותר.
כמו-כן ,מתקבל הרושם שהקשר (החיובי) בין שני המשתנים חזק יחסית ,מכיוון שהמגמה
החיובית של הנקודות די ברורה ,ורוב הנקודות מקיימות אותה.
4
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
חישוב מקדם המתאם של פירסון – טבלת עזר :כדי לחשב את ערכו של מקדם המתאם של
פירסון (נוסחת העבודה) נשתמש בטבלת העזר הבאה בה מרוכזים החישובים הנדרשים:
∑ 𝑋𝑖 𝑌𝑖 = 309014
𝑖=1
5
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
6
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
אך מה קורה כאשר מוצאים שיש קשר לינארי ,אך מקדם המתאם של פירסון לא שווה בדיוק ל-
𝟏 או ל?−𝟏-
במקרה כזה ישנן נקודות ש"נופלות" בדיוק על הקו הישר ,אך ישנן גם נקודות שנמצאות מסביבו.
במקרה כזה איננו יכולים לדעת בדיוק מהו ערכו של 𝑌 בהסתמך על ידיעת ערכו של 𝑋 .נשאלת
השאלה – מהו הקו האופטימאלי במקרה זה?
7
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
את ישר הרגרסיה (הנקרא גם ישר הניבויים) נהוג לסמן ב.𝑌̂ = 𝑏𝑋 + 𝑎-
8
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
הקו האופטימאלי יהיה הקו אשר ממזער את סכום ריבועי הסטיות בין 𝑖𝑦 (ערך בפועל של תצפית
𝑖) לבין 𝑖̂𝑦 (ערך מנובא על-ידי הישר לתצפית 𝑖).
עקרון זה ,בו אנו רוצים למזער את סכום ריבועי הסטיות בין 𝑖𝑦 לבין 𝑖̂𝑦 ,נקרא "עיקרון
הריבועים הפחותים".
נרשום אותו בצורה פורמאלית:
𝑛 𝑛
2
)2
} ))𝑎 min {∑(𝑦𝑖 − 𝑦̂𝑖 } = min {∑(𝑦𝑖 − (𝑏𝑥𝑖 +
𝑖=1 𝑖=1
המחשה:
כדי למצוא מינימום של הביטוי שהוצג (סכום ריבועי הסטיות מהקו) ,עלינו לגזור את הביטוי פעם
לפי 𝑎 ופעם לפי 𝑏 ,ולהשוות כל נגזרת לאפס .בכך מתקבלות שתי משוואות עם שני נעלמים (𝑎 ו-
𝑏) .פותרים את שתי המשוואות ובכך מקבלים ביטויים מפורשים ל 𝑎 -ול.𝑏 -
מתקבלים הביטויים הבאים:
̅𝑋𝑏 𝑎 = 𝑌̅ −
)̅𝑌 ∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) ⋅ (𝑌𝑖 − ̅𝑌 ⋅ ̅𝑋𝑛 ∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −
=𝑏 = ⋯ =
∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2 ∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2
9
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
דוגמא
כאשר הצגנו את מקדם המתאם של פירסון ,הצגנו את הדוגמא הבאה:
לפנינו הגבהים של 10אבות ובניהם .בדוגמא זו גובה האב הינו המשתנה הבלתי תלוי ,וגובה הבן
הינו המשתנה התלוי ,ולכן גוב האב יסומן ב ,𝑋 -וגובה הבן יסומן ב .𝑌 -להלן הגבהים:
נמצא את ישר הרגרסיה לניבוי גובה הבן )𝑌( על סמך גובה האב )𝑋(.
10
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)
13/06/2021
את הניבוי לערך 𝑖𝑥 נהוג לסמן ב .𝑌̂𝑥𝑖 -לדוגמא ,את גובה הבן שננבא לאב אשר גובהו 180נסמן ב-
.𝑌̂180
דוגמא :נשתמש בדוגמא עם גבהי האבות ובניהם .בדוגמא זו קיבלנו שישר הרגרסיה הינו:
11
© Roee Oscar – King of Sikumim
(מבוסס על ההרצאה של ד"ר עינת אביאל)