2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא

‫‪07/03/2021‬‬
‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות למדעי המחשב – הרצאה‬

‫‪1‬‬
‫נושא ההרצאה‪ :‬מבוא לסטטיסטיקה‪ :‬משתנים‪ ,‬סולמות מדידה‬
‫של משתנים‬
‫סטטיסטיקה – הקדמה‬
‫הסטטיסטיקה עוסקת באיסוף‪ ,‬ניתוח‪ ,‬עיבוד והצגת מסקנות עבור נתונים כמותיים ואיכותיים‪,‬‬
‫בכדי לסייע בפתרון בעיות מסוגים שונים‪ .‬הסטטיסטיקה נשענת על תורת ההסתברות‪ ,‬שתפקידה‬
‫להקנות כלים פרקטיים לחישובי הסתברויות עבור מאורעות בהם יש אקראיות וחוסר ודאות‪.‬‬
‫תורת ההסתברות נוצרה על רקע הניסיון והתפתחה לתיאוריה עמוקה ורבת שימושים בתחומים‬
‫של מדעי הטבע‪ ,‬רפואה‪ ,‬כלכלה ועוד‪.‬‬
‫בכל מחקר המבוסס על נתונים דרוש ידע בסטטיסטיקה בכדי לארגן‪ ,‬לנתח ולהסיק מסקנות‬
‫מנתוני המחקר‪ .‬זו הסיבה לפופולאריות הרבה של הסטטיסטיקה בענפים ומקצועות רבים‪.‬‬
‫הסטטיסטיקה נחלקת לשני תחומים עיקריים‪ :‬סטטיסטיקה תיאורית וסטטיסטיקה היסקית‬
‫(נקראת גם הסקה סטטיסטית)‪.‬‬
‫הסטטיסטיקה התיאורית עוסקת בשיטות לארגון‪ ,‬תיאור ותמצות הנתונים שהתקבלו במחקר‬
‫הסטטיסטי שערכנו‪ .‬זאת נעשה על‪-‬ידי ארגון הנתונים בטבלאות‪ ,‬גרפים ולוחות סטטיסטיים‪,‬‬
‫סיכום הנתונים בעזרת מדדים למיקום ופיזור ההתפלגות‪ ,‬וניתוח קשרים סטטיסטיים‪.‬‬
‫הסטטיסטיקה התיאורית עוסקת בתיאור נתונים שנאספו במחקר כאוכלוסיית היעד של המחקר‪,‬‬
‫ולא בהכללה לקבוצות רחבות יותר‪.‬‬
‫הסטטיסטיקה ההיסקית עוסקת בהסקת מסקנות על האוכלוסייה מתוך מדגם מקרי הנלקח‬
‫ממנה‪ ,‬בעזרת מודלים סטטיסטיים (לדוגמא‪ ,‬רגרסיה ליניארית) ומבחנים סטטיסטיים (לדוגמא‪,‬‬
‫מבחנים לבדיקת השערות)‪.‬‬
‫ההסקה ממדגם לאוכלוסייה הינה הסתברותית ולא ודאית‪ ,‬כלומר תמיד ישנו סיכוי לבצע טעויות‪.‬‬
‫קיימות שיטות להסקה סטטיסטית מהמדגם לאוכלוסייה בהסתברות גבוהה מאוד‪.‬‬
‫חישובי הסתברויות‪ ,‬טכניקות ומחקרים סטטיסטיים מלווים אותנו בתחומים רבים בחיים‪:‬‬
‫בכלכלה‪ ,‬בבריאות‪ ,‬במשחקי מזל‪ ,‬בתחום הפיננסיים ועוד‪ .‬כמעט אין תחום בחיינו שאין בו היבט‬
‫סטטיסטי‪.‬‬
‫הגדרות ראשונות‬
‫סטטיסטיקה )‪ :(statistics‬מדע העוסק בנתונים כמותיים ואיכותיים‪ :‬איסופם‪ ,‬עיבודם‪ ,‬הצגתם‬
‫והצגת מסקנות מהם‪ ,‬על‪-‬מנת לסייע בפתרון בעיות מסוגים שונים‪.‬‬
‫אוכלוסיה )‪ :(population‬אוסף כל הפרטים עבורם דרוש המידע‪.‬‬
‫מדגם )‪ :(sample‬חלק מהאוכלוסייה שנבחר ומשמש להפקת מידע על האוכלוסייה כולה‪.‬‬
‫תצפית )‪ :(observation‬פרט בודד במדגם‪ ,‬אודותיו אנו אוספים נתונים בכדי שיסייעו לנו‬
‫בשאלת המחקר שלפנינו‪.‬‬
‫‪1‬‬
‫‪© Roee Oscar – King of Sikumim‬‬
‫(מבוסס על ההרצאה של ד"ר עינת אביאל)‬
‫‪07/03/2021‬‬
‫אוכלוסיית המחקר‬
‫אוכלוסיית המחקר הינה אוסף המקרים אליהם מתייחס המחקר הסטטיסטי‪ .‬אוכלוסיית‬
‫המחקר נקבעת מראש בהתאם לסוג המחקר ואינה עוסקת בהכרח בבני אדם‪ .‬נציג מספר דוגמאות‬
‫לאוכלוסיית המחקר‪:‬‬
‫אם ברצוננו לבדוק מהו השכר הממוצע של סטודנטים לתואר ראשון‪ ,‬אוכלוסיית המחקר‬ ‫‪-‬‬
‫תהיה כל הסטודנטים הלומדים כיום לתואר ראשון‪.‬‬
‫במקרה בו נהיה מעוניינים לבדוק את אחוז המוצרים הפגומים בפס יצור‪ ,‬אוכלוסיית‬ ‫‪-‬‬
‫המחקר תהיה כלל המוצרים המיוצרים במפעל‪.‬‬
‫כאשר רוצים לבדוק מהי המהירות הממוצעת בכביש י‪-‬ם ת"א‪ ,‬אוכלוסיית המחקר תהיה‬ ‫‪-‬‬
‫כל כלי הרכב הנוסעים בכביש זה‪.‬‬
‫מדגם‬
‫במרבית המחקרים לא נוכל לבדוק את כלל האוכלוסייה‪ .‬פעמים רבות גם אם יהיה ניתן לדגום‬
‫את כל האוכלוסייה לא יהיה ברשותנו תקציב או זמן לכך‪.‬‬
‫לכן‪ ,‬מרבית המחקרים הסטטיסטיים מבוססים על מדגם מתוך אוכלוסיית המחקר ולא על‬
‫האוכלוסייה כולה‪.‬‬
‫החוקר יקבל את תוצאות המדגם ומטרתו תהיה להכליל תוצאות אלו על כל האוכלוסייה‪.‬‬
‫סימון‪ :‬את גודל המדגם נהוג לסמן באות 𝑛 (מלשון ‪.)number‬‬
‫לדוגמא‪ ,‬אם דגמנו ‪ 100‬פרטים מהאוכלוסייה‪ ,‬נרשום ‪.𝑛 = 100‬‬
‫שיטת הדגימה‬
‫כאשר נסקור מדגם מהאוכלוסייה‪ ,‬עלינו לוודא שהמדגם יהיה מייצג מכל הבחינות‪.‬‬
‫כדי לקבל מדגם מייצג‪ ,‬יש לבחור את המדגם בגודל מתאים ובשיטה הסתברותית המאפשרת לכל‬
‫מקרה באוכלוסייה הסתברות להיכלל במדגם‪ .‬ישנן שיטות רבות איך לדגום‪ :‬מדגם מקרי‪ ,‬מדגם‬
‫שכבות‪ ,‬מדגם אשכולות ועוד‪ .‬נושא זה קשור ל"תורת הדגימה"‪ .‬נדון בשיטות להסקה סטטיסטית‬
‫המבוססות על מדגמים הסתברותיים שנבחרו בשיטת המדגם המקרי הפשוט (בחירה אקראית)‪.‬‬
‫שלבי המחקר הסטטיסטי‬
‫רוב המחקרים הסטטיסטיים כוללים את השלבים הבאים (על‪-‬מנת למנוע טעויות)‪:‬‬
‫השלב הראשון במחקר הסטטיסטי הוא הצגת שאלת המחקר‪ ,‬כלומר מה אנו מבקשים‬ ‫‪-‬‬
‫לבדוק‪ .‬שאלת המחקר תהיה מוגדרת על אוכלוסייה כלשהי‪.‬‬
‫השלב השני עוסק בתכנון המחקר‪ .‬בשלב זה נקבע איזה נתונים נדרשים בכדי לענות על‬ ‫‪-‬‬
‫שאלת המחקר‪ ,‬וכיצד יש לאסוף אותם‪.‬‬
‫בשלב השלישי יש לאסוף את הנתונים‪ .‬זהו השלב בו נעשית עבודת השדה‪.‬‬ ‫‪-‬‬
‫השלב הרביעי עוסק בארגון הנתונים שהתקבלו בטבלאות‪ ,‬גרפים ותרשימים‪ ,‬בכדי‬ ‫‪-‬‬
‫שהנתונים יוצגו בצורה נוחה יותר‪.‬‬
‫בשלב החמישי הסכם ונאפיין את הנתונים בעזרת מדדים שונים (מדדי מיקום‪ ,‬מדדי‬ ‫‪-‬‬
‫פיזור‪ ,‬מדדי מיקום יחסי)‪.‬‬
‫בחלק מהמחקרים קיים שלב נוסף העוסקת בהסקת מסקנות מהמדגם על האוכלוסייה‬ ‫‪-‬‬
‫כולה (כמובן שבמידה ודגמנו את כל האוכלוסייה שלב זה לא קיים)‪.‬‬
‫לבסוף נהוג להגיש את הממצאים שהתקבלו מהמחקר‪.‬‬ ‫‪-‬‬
‫‪2‬‬
‫‪07/03/2021‬‬
‫סיכום שלבי המחקר הסטטיסטי‪:‬‬

‫הצגת שאלת המחקר עבור אוכלוסייה מסוימת‪.‬‬ ‫‪.1‬‬
‫תכנון המחקר‪ :‬אילו נתונים עלינו לאסוף ואיך נאספם‪.‬‬ ‫‪.2‬‬
‫איסוף הנתונים מהמדגם שדגמנו (עבודת השדה)‪.‬‬ ‫‪.3‬‬
‫עריכת הנתונים בטבלאות‪ ,‬גרפים‪ ,‬תרשימים‪.‬‬ ‫‪.4‬‬
‫סיכום ואפיון הנתונים על‪-‬ידי מדדים שונים‪ ,‬בהתאם לסוג המשתנים ולשאלת המחקר‬ ‫‪.5‬‬
‫הנשאלת‪.‬‬
‫הסקת מסקנות מהמדגם על האוכלוסייה כולה‪.‬‬ ‫‪.6‬‬
‫הגשת הממצאים‪.‬‬ ‫‪.7‬‬
‫שלבים ‪ 4 + 5‬בשלבי המחקר הסטטיסטי נוגעים לנושא בסטטיסטיקה שנקרא סטטיסטיקה‬
‫תיאורית‪ .‬נדון בנושא זה בהרצאות הראשונות בקורס‪ .‬שלבים אלו )‪ (4 + 5‬נעשים כבר אחרי‬
‫שדגמנו את המדגם ולפנינו אוסף הנתונים שהתקבלו במדגם‪ .‬שלבים אלו אינם חלק משאלת‬
‫המחקר ומהדרך בה נבצע את המחקר הסטטיסטי‪.‬‬
‫שלב ‪ – 6‬הסקה ממדגם על אוכלוסייה הינו ענף בסטטיסטיקה הנקרא הסקה סטטיסטית (או‬
‫סטטיסטיקה היסקית)‪ .‬נדון בנושא זה מעט בהמשך הקורס ובקורס הבא בעיקר‪.‬‬
‫סימונים מקובלים בהם נשתמש‬
‫גודל המדגם‪ :‬את גודל המדגם נסמן ב‪.𝑛-‬‬
‫המשתנה הנחקר‪ :‬באופן כללי‪ ,‬משתנים נהוג לסמן באותיות גדולות – 𝑍 ‪ 𝑋, 𝑌,‬וכו'‪ .‬במידה ויהיה‬
‫לפנינו משתנה אחד נסמנו ב‪.𝑋 -‬‬
‫סדרת התצפיות‪ :‬את סדרת התצפיות שדגמנו מהמשתנה הנחקר נסמן באות קטנה‪ .‬תוצאת‬
‫המדגם תהיה רשימה של 𝑛 תצפיות אשר יסומנו ב‪ 𝑥1 ( 𝑥1 , 𝑥2 , … , 𝑥𝑛 -‬הינה ערך התצפית‬
‫הראשונה במדגם‪ 𝑥2 ,‬ההינה ערך התצפית השנייה במדגם‪ 𝑥𝑛 ,…,‬הינה ערך התצפית האחרונה‬
‫במדגם)‪.‬‬
‫משתנה‪ :‬הגדרה‬
‫הגדרה – משתנה‪ :‬משתנה הינו תכונה נחקרת המקבל ערכים שונים באוכלוסייה‪ .‬ערכי המשתנה‬
‫משתנים מנחקר לנחקר‪.‬‬
‫דוגמאות למשתנים‪:‬‬
‫ציון בבחינה בקורס בסטטיסטיקה‪.‬‬ ‫‪-‬‬
‫מגדר‪.‬‬ ‫‪-‬‬
‫מצב משפחתי‪.‬‬ ‫‪-‬‬
‫מספר ילדים במשפחה‪.‬‬ ‫‪-‬‬
‫רמת השכלה‪.‬‬ ‫‪-‬‬
‫רמת לחץ דם‪.‬‬ ‫‪-‬‬
‫מספר שעות שסטודנט למד לבחינה‪.‬‬ ‫‪-‬‬
‫‪3‬‬
‫‪07/03/2021‬‬
‫מיון וסיווג משתנים‬

‫מיון לפי מהות המשתנה‪:‬‬ ‫א‪.‬‬
‫‪ o‬משתנה איכותי‬
‫‪ o‬משתנה כמותי‬
‫מיון לפי סולם המדידה‪:‬‬ ‫ב‪.‬‬

‫‪ o‬משתנה נומינלי (שמי)‬
‫‪ o‬משתנה אורדינאלי (סדור)‬
‫‪ o‬משתנה אינטרוואלי (רווח)‬
‫‪ o‬משתנה יחס (מנה)‬
‫מיון לפי מהות המשתנה‬
‫משתנה איכותי‪ :‬משתנה איכותי הינו משתנה שערכיו מייצגים קטגוריות או שמות (ולא כמויות)‪.‬‬
‫דוגמאות‪ :‬רמת שביעות רצון ממוצר מסוים‪ ,‬מגדר‪ ,‬מצב משפחתי‪ ,‬ארץ מוצא‪ ,‬דרגה בצבא‪ ,‬רמת‬
‫חרדה‪ .‬בכל הדוגמאות הללו ערכי המשתנה מייצגים קטגוריות ולא כמויות‪.‬‬
‫הערה‪ :‬לעתים המשתנה האיכותי מיוצג על‪-‬ידי מספרים‪ ,‬אלא שלמספרים אין משמעות כמותית‪.‬‬
‫לדוגמא‪ ,‬שביעות רצון‪ :‬במקרים רבים שביעות רצון מוצגת בסקלה שבין ‪ 1‬ל‪ ,5-‬אולם למספרים‬
‫אלו )‪ (1, 2, 3, 4 ,5‬אין פירוש כמותי‪ ,‬אלא הם מייצגים קטגוריות של שביעות הרצון‪.‬‬
‫משתנה כמותי‪ :‬משתנה כמותי הינו משתנה שערכיו מציינים כמויות‪ ,‬כלומר ערכי המשתנה‬
‫הכמותי מיוצגים כמספרים‪ .‬את המשתנה הכמותי ניתן לסווג לשני תתי‪-‬סוגים‪ :‬משתנה כמותי‬
‫בדיד ומשתנה כמותי רציף‪.‬‬
‫משתנה כמותי בדיד‪ :‬משתנה כמותי שערכיו ניתנים למנייה‪ .‬במילים אחרות‪ ,‬ניתן למנות‬ ‫ג‪.‬‬
‫(לספור) את ערכיו של המשתנה הכמותי הבדיד‪ .‬מספר הערכים של משתנה כמותי בדיד‬
‫יכול להיות סופי או אינסופי‪.‬‬
‫דוגמאות‪ :‬מספר ילדים במשפחה‪ ,‬מספר חדרים בבית‪ ,‬מספר ימי שרב בשנה‪ ,‬מספר‬
‫הממתינים בתור לרופא ועוד‪.‬‬
‫משתנה כמותי רציף‪ :‬משתנה כמותי שערכיו לא ניתנים למנייה‪ .‬לא ניתן למנות (לספור)‬ ‫ד‪.‬‬
‫את ערכיו של המשתנה הכמותי הרציף‪ ,‬שכן המשתנה יכול לקבל כל ערך בקטע ממשי‪.‬‬
‫עבור משתנה כמותי רציף בין כל שני ערכים אפשריים של המשתנה קיימים עוד אינסוף‬
‫ערכים נוספים‪ .‬לכן‪ ,‬משתנה כמותי רציף מקבל בהכרח אינסוף ערכים‪.‬‬
‫דוגמאות‪ :‬כמות משקעים‪ ,‬גובה‪ ,‬משקל‪ ,‬לחץ דם‪ ,‬טמפרטורה‪ .‬בכל הדוגמאות הללו לא‬
‫ניתן למנות את ערכי המשתנה שכן המשתנה אינו מקבל ערכים שלמים בלבד‪ ,‬אלא הוא‬
‫יכול לקבל כל ערך ממשי‪.‬‬
‫מיון לפי סולם מדידה‬
‫סולמות המדידה הם סולמות שעוזרים לדעת את ניתוח הנתונים והצגתם‪.‬‬
‫משתנה נומינאלי (שמי)‪ :‬זהו משתנה איכותי שערכיו מייצגים קטגוריות‪/‬שמות ולא כמויות‪.‬‬
‫ערכיו ניתנים במילים (או במספרים חסרי משמעות כמותית‪ ,‬כמו המשתנה מגדר‪ = 0 :‬נקבה‪,‬‬
‫‪ = 1‬זכר)‪ .‬כמו‪-‬כן‪ ,‬לא ניתן לסדר את ערכיו של המשתנה הנומינאלי לפי סדר כלשהו בעל‬
‫משמעות‪.‬‬
‫דוגמאות‪ :‬מגדר‪ ,‬ארץ מוצא‪ ,‬עדה‪ ,‬סוג דם‪ ,‬אזור חיוג‪.‬‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏 :‬‬
‫‪4‬‬
‫‪07/03/2021‬‬
‫משתנה אורדינאלי (סדור)‪ :‬גם משתנה זה הינו איכותי שערכיו מייצגים קטגוריות‪/‬שמות (ולא‬
‫כמויות)‪ ,‬אלא שהפעם ניתן לסדר את ערכיו של המשתנה האורדינאלי לפי סדר כלשהו בעל‬
‫משמעות‪.‬‬
‫דוגמאות‪ :‬מידת שביעות רצון‪ ,‬רמת חרדה‪ ,‬דרגות בצבא‪.‬‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏 :‬‬
‫משתנה אינטרוואלי (רווח)‪ :‬משתנה זה הינו כמותי וערכיו ניתנים במספרים‪ .‬עבור משתנה זה יש‬
‫משמעות למרווחים (הפרשים) בין ערכי המשתנה‪ .‬כל משתנה בעל ערכים חיוביים ושליליים יחשב‬
‫משתנה אינטרוואלי‪ .‬במקרה זה ‪ 0‬הינו אחד מערכי המשתנה‪ ,‬ולא "האפס המוחלט"‪.‬‬
‫דוגמאות‪ :‬טמפרטורה‪ ,‬גובה ביחס לפני הים‪ ,‬רווח ממשחק הימורים‪.‬‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏, 𝑎 + 𝑏, 𝑎 − 𝑏 :‬‬
‫משתנה יחס (מנה)‪ :‬משתנה זה הינו כמותי וערכיו ניתנים במספרים‪ .‬עבור משתנה זה יש‬
‫משמעות לחלק ערך אחד של המשתנה בערך שני ולציין את היחס ביניהם‪ .‬במקר זה ‪ 0‬מציין את‬
‫"האפס המוחלט"‪ ,‬ה"ריק" או ה"אין" ואינו אחד מערכי המשתנה‪.‬‬
‫דוגמאות‪ :‬גובה‪ ,‬משקל‪ ,‬גיל‪ ,‬שכר‪ ,‬לחץ דם‪ ,‬מספר חדרים‪.‬‬
‫𝑏 𝑎‬
‫פעולות מתמטיות אפשריות‪.𝑎 = 𝑏, 𝑎 ≠ 𝑏, 𝑎 < 𝑏, 𝑎 > 𝑏, 𝑎 + 𝑏, 𝑎 − 𝑏, 𝑏 , 𝑎 :‬‬
‫סיכום‪:‬‬
‫הערה חשובה‪ :‬סולם המדידה של המשתנה אינו תמיד חד‪-‬משמעי‪ ,‬ולעתים תלוי בדרך בה החוקר‬
‫בחר להציג את המשתנה‪.‬‬
‫לדוגמא‪ :‬המשתנה "רמת השכלה"‪ .‬ניתן להציג‪/‬למדוד משתנה זה במספר דרכים שונות‪,:‬‬
‫‪ .1‬לפי מספר שנות לימוד‪ .‬במקרה זה מדובר במשתנה יחס‪.‬‬
‫‪ .2‬לפי תעודה אחרונה שנרכשה (תיכונית‪ ,‬תואר ראשון‪ ,‬תואר שני וכו')‪ .‬במקרה זה מדובר‬
‫במשתנה אורדינאלי‪.‬‬
‫‪5‬‬
‫‪07/03/2021‬‬
‫התאמת טכניקה סטטיסטית לסולם המדידה‬

‫משתנה ברמה גבוהה כולל בהכרח תכונות של משתנים ברמה נמוכה ממנו (ובנוסף גם תכונות‬
‫נוספות)‪ .‬לכן‪ ,‬עבור משתנה ברמה גבוהה יותר קיימות יותר פעולות מתמטיות אפשריות‪.‬‬
‫לפי רמת המדינה של המשתנים נתאים את שיטת הניתוח הסטטיסטי‪.‬‬
‫ניתן ליישם שיטה סטטיסטית המתאימה למשתנה ברמה נמוכה גם למשתנה ברמה גבוהה יותר‬
‫(אך לא ההפך)‪ .‬לדוגמא‪ ,‬שיטה סטטיסטית המתאימה למשתנה אורדינאלי‪ ,‬ניתן ליישמה גם עבור‬
‫משתנה אינטרוואלי ויחס‪.‬‬
‫אולם‪ ,‬שיטה סטטיסטית המבוססת על תכונות של משתנה ברמה גבוהה‪ ,‬לא תתאים בהכרח‬
‫למשתנה ברמה נמוכה‪ .‬לדוגמא‪ ,‬ניתן לחשב ממוצע עבור משתנה אינטרוואלי או יחס‪ ,‬אך לא‬
‫אפשרי לחשב ממוצע עבור משתנה נומינאלי או אורדינאלי‪ .‬לדוגמא‪ ,‬ניתן לחשב את ממוצע‬
‫המשכורות בארגון כלשהו (שכן מדובר במשתנה יחס)‪ ,‬אולם לא ניתן לחשב ממוצע למשתנה (ארץ‬
‫מוצא" (שכן מדובר במשתנה נומינאלי)‪.‬‬
‫בפועל‪ ,‬פעמים רבות במיון המשתנים נהוג להבחין רק בין שלוש רמות מדידה‪ :‬נומינאלית‪,‬‬
‫אורדינאלית ואינטרוואלית‪ ,‬כאשר את משתנה היחס נצרף למשתנה אינטרוואלי‪ ,‬שכן מדובר‬
‫במשתנים מאוד דומים‪.‬‬
‫‪6‬‬
‫‪14/03/2021‬‬
‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬

‫הרצאה ‪2‬‬
‫נושא ההרצאה‪ :‬סטטיסטיקה תיאורית‪ :‬הקדמה‪ ,‬מושגי יסוד‪,‬‬
‫טבלאות והצגות גרפיות‬
‫סטטיסטיקה תיאורית – הקדמה‬
‫הסטטיסטיקה התיאורית )‪ (Descriptive Statistics‬עוסקת בשיטות לארגון‪ ,‬תיאור ותמצות‬
‫הנתונים שהתקבלו במחקר הסטטיסטי שערכנו‪ .‬זאת נעשה על‪-‬ידי ארגון הנתונים בטבלאות‪,‬‬
‫גרפים ולוחות סטטיסטיים‪ ,‬סיכום הנתונים בעזרת מדדים למיקום ופיזור ההתפלגות‪ ,‬וניתוח‬
‫קשרים סטטיסטיים‪.‬‬
‫הסטטיסטיקה התיאורית עוסקת בתיאור הנתונים שנאספו במחקר כאוכלוסיית היעד של‬
‫המחקר‪ ,‬ולא בהכללה לקבוצות רחבות יותר‪.‬‬
‫מצגת זו והמצגות הבאות עוסקות בסטטיסטיקה תיאורית‪ .‬בהמשך נציג לוחות (טבלאות)‬
‫סטטיסטיים שונים‪.‬‬
‫לוחות סטטיסטיים – הקדמה‬
‫במצגת מס' ‪ 1‬הצגנו מספר דרכים מקובלות למיון משתנים ופירטנו את שלבי המחקר‬
‫הסטטיסטי‪.‬‬
‫לאחר אינסוף הנתונים לגבי המשתנים הנחקרים יש לארגנם בלוחות (טבלאות) סטטיסטיים‪.‬‬
‫הארגון בלוח סטטיסטי מאפשר הצגה מרוכזת של כמות רבה של נתונים ומהווה בסיס להמשך‬
‫העיבודים‪.‬‬
‫יש לדאוג שהלוח לא יהיה מסורבל במבנהו ויהיה קל לקריאה‪.‬‬
‫בהמשך המצגת נציג דוגמאות ללוח חד‪-‬ממדי וללוח דו‪-‬ממדי‪.‬‬
‫טבלת (לוח) שכיחויות חד‪-‬ממדית‬
‫בטבלת שכיחות (או לוח שכיחות) חד‪-‬ממדית מרוכזים נתונים אודות משתנה אחד‪ .‬הטבלה מציגה‬
‫את התפלגות המשתנה הנחקר‪.‬‬
‫טבלת שכיחות חד‪-‬ממדית מציגה את ערכי המשתנה ושכיחותם במדגם (כמה פעמים הופיעו‬
‫במדגם)‪.‬‬
‫טבלת שכיחות יכולה להתאים למשתנה איכותי וכמותי כאחד‪.‬‬
‫בעמודה אחת בטבלה יוצגו ערכי המשתנה הנחקר (נסמנם ב‪ .)𝑥-‬בעמודה נוספת יוצגו השכיחויות‬
‫של ערכי המשתנה במדגם‪ .‬את השכיחות של ערך 𝑥 כלשהו נסמן ב‪( 𝑓(𝑥)-‬מלשון ‪.)frequency‬‬
‫השורה האחרונה הינה שורת הסה"כ‪ .‬אם שורה זו לא קיימת יש להוסיפה‪.‬‬
‫‪1‬‬
‫‪14/03/2021‬‬
‫דוגמא‪:‬‬
‫משפחות חד‪-‬הוריות עם ילדים עד גיל ‪ ,24‬לפי מצב משפחתי של ההורה‬
‫)𝒙(𝒇 – מספר משפחות (באלפים)‬ ‫𝒙 – מצב משפחתי של ההורה‬

‫‪18.5‬‬ ‫נשוי‪/‬אה‪ ,‬חי‪/‬ה בנפרד‬
‫‪84.8‬‬ ‫גרוש‪/‬ה‬
‫‪28.4‬‬ ‫אלמן‪/‬ה‬
‫‪15.1‬‬ ‫רווק‪/‬ה‬
‫‪1.0‬‬ ‫לא ידוע‬
‫𝟖 ‪𝟏𝟒𝟔.‬‬ ‫סה"כ‬
‫בדוגמא זו מדובר במשתנה נומינאלי (שמי)‪ .‬מצד ימין מופיעים ערכי המשתנה‪ ,‬ומצד שמאל‬
‫השכיחויות (כמה פעמים כל ערך הופיע במדגם)‪.‬‬
‫דוגמא נוספת‪:‬‬
‫במשאל של ‪ 60‬חולים בבית חולים גדול בארץ‪ ,‬כל אחד נשאל לגבי מספר ימי אשפוז שהיו לו‬
‫החודש‪ .‬התקבלו התוצאות הבאות‪:‬‬
‫מס' ימי אשפוז של חולים‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – מס' ימי אשפוז‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔 = 𝒏‬ ‫סה"כ‬
‫בדוגמא זו מדובר במשתנה אינטרוואלי‪ .‬בדוגמא זו 𝑥 מציין את מספר ימי האשפוז של החולה‬
‫במשך החודש ו‪ 𝑓(𝑥)-‬מציין את שכיחות מספר האשפוזים‪.‬‬
‫טבלת שכיחויות למשתנה כמותי רציף‬
‫משתנה כמותי רציף מקבל כל ערך אפשרי בטווח ערכים מסוים‪ ,‬ולכן למשתנה רציף קיימים‬
‫אינסוף ערכים אפשריים‪ .‬מסיבה זו המשתנה הכמותי הרציף מוצג בטבלת שכיחות עם מחלקות‪.‬‬
‫ערכי המשתנה מוצגים בטווח של מספרים ולא כערך בודד‪.‬‬ ‫‪-‬‬
‫עלינו לקבוע כמה מחלקות נקבע ומה יהיה רוחבה של כל מחלקה‪.‬‬ ‫‪-‬‬
‫ההחלטה לגבי מספר המחלקות ורוחבן הינו שרירותי ותלוי במשתנה הנחקר‪ ,‬בחוקר ובמחקר‪ .‬אין‬
‫הכרח שכל המחלקות יהיו ברוחב שווה‪.‬‬
‫לעתים נבחר להציג בטבלת שכיחות עם מחלקות גם משתנה כמותי בדיד המקבל ערכים רבים‪,‬‬
‫לדוגמא המשתנה "משכורת"‪.‬‬
‫‪2‬‬
‫‪14/03/2021‬‬
‫סטודנטים מקבלי תואר ראשון לפי גיל‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל מקבל התואר‬
‫‪360‬‬ ‫‪16 − 21‬‬
‫‪4992‬‬ ‫‪22 − 24‬‬
‫‪10199‬‬ ‫‪25 − 29‬‬
‫‪1387‬‬ ‫‪30 − 34‬‬
‫‪685‬‬ ‫‪35 − 44‬‬
‫‪324‬‬ ‫‪45 − 54‬‬
‫‪72‬‬ ‫‪55 +‬‬
‫𝟗𝟏𝟎 ‪𝟏𝟖,‬‬ ‫סה"כ‬
‫בדוגמא זו מדובר במשתנה כמותי רציף‪.‬‬

‫גבולות אמיתיים וגבולות מדומים‬
‫לעתים תהיה נתונה לנו טבלת שכיחות בה אין רצף בין הגבגול העליון של מחלקה כלשהי לגבול‬
‫התחתון של המחלקה הבאה‪ .‬במקרים בהם לא יהיה רצף הקפיצה תהיה של יחידה אחת בין סוף‬
‫מחלקה לתחילת המחלקה הבאה (כמו בדוגמא הנ"ל בה המחלקה הראשונה מסתיימת במספר‬
‫‪ 21‬והמחלקה השנייה מתחילה במספר ‪ .22‬כך הדבר גם ביתר המחלקות)‪.‬‬
‫נהיה מעוניינים ליצור רצף בין סוף כל מחלקה לתחילת המחלקה הבאה‪ .‬למעשה יש שתי דרכים‬
‫עיקריות לעשות זאת – נציג רק את הדרך בה נשתמש לאורך הקורס‪.‬‬
‫הדרך לפיה נפעל מתבצעת בכך שמגדילים ביחידה רק את הגבול העליון של כל מחלקה (ולא‬
‫משנים כלל את הגבול התחתון)‪.‬‬
‫בדוגמא הנ"ל נתייחס למחלקה הראשונה כאל קבוצת הגילאים שבין ‪ 16‬ועד ל‪( 22-‬לא כולל את‬
‫הגיל ‪ 22‬בדיוק)‪ .‬המחלקה הבאה מתחילה מהגיל ‪ 22‬ועד לגיל ‪ 25‬בדיוק) וכו'‪.‬‬
‫הגבולות המקוריים בהם אין רצף נקראים גבולות מדומים‪ ,‬והגבולות החדשים שיצרנו‪ ,‬עבורם יש‬
‫רצף‪ ,‬נקראים גבולות אמיתיים‪.‬‬
‫הערה‪ :‬יהיו טבלאות עם מחלקות בהן יהיה כבר רצף בין המחלקות (גבולות אמיתיים)‪ .‬במקרה‬
‫זה לא נצטרך לשנות דבר‪.‬‬
‫הערה נוספת‪ :‬נשים לב שבטבלת השכיחות האחרונה שהוצגה‪ ,‬המחלקה האחרונה היא "מחלקה‬
‫פתוחה"‪ .‬רשום שטווח הגילאים במחלקה זו הוא ‪ .55 +‬אם כך‪ ,‬המחלקה מתחילה בגיל ‪.55‬‬
‫השאלה היא – באיזה גיל היא מסתיימת?‬
‫בהמשך‪ ,‬כאשר נציג את מדדי המרכז‪ ,‬בחישוב חלק מהמדדים נצטרך "לסגור" מחלקה זו‪ ,‬כלומר‬
‫לקבוע מה הגבול העליון של המחלקה‪ .‬נשאלת השאלה מה הערך הנכון לקבוע שיהיה הגבול‬
‫העליון‪ .‬אין לכך תשובה החלטית‪ ,‬וזה תלוי בסוג הטבלה ובחוקר‪.‬‬
‫הגיוני לקבוע בדוגמא זו שהמחלקה האחרונה תהיה ‪ 55 − 64‬בדומה למחלקות הקודמות אשר‬
‫גם הן מכילות טווח של ‪ 10‬שנים‪.‬‬
‫‪3‬‬
‫‪14/03/2021‬‬
‫דוגמא – טבלת שכיחות עם גבולות אמיתיים‪:‬‬

‫סטודנטים מקבלי תואר ראשון לפי גיל‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל מקבל התואר‬
‫‪360‬‬ ‫‪16 − 22‬‬
‫‪4992‬‬ ‫‪22 − 25‬‬
‫‪10199‬‬ ‫‪25 − 30‬‬
‫‪1387‬‬ ‫‪30 − 35‬‬
‫‪685‬‬ ‫‪35 − 45‬‬
‫‪324‬‬ ‫‪45 − 55‬‬
‫‪72‬‬ ‫‪55 − 65‬‬
‫𝟗𝟏𝟎 ‪𝟏𝟖,‬‬ ‫סה"כ‬
‫נקבל את הטבלה הבאה לאחר שנעבור לגבולות אמיתיים‪.‬‬
‫טבלת שכיחות דו‪-‬ממדית )‪(Crosstab‬‬

‫לוח שכיחות דו‪-‬ממדי מכיל נתונים אודות שני משתנים ולא אודות משתנה אחד בלבד כמו שראינו‬
‫עד כה בלוחות הקודמים‪.‬‬
‫בשורות הלוח יופיע המשתנה הראשון ובעמודות של הלוח יופיע המשתנה השני‪.‬‬
‫בטבלת שכיחות דו‪-‬ממדית נהיה מעוניינים לרוב גם לבדוק את היחסים בין שני המשתנים‬
‫המוצגים בלוח‪ .‬לרוב נוכל לאפיין משתנה אחד כמשתנה הבלתי‪-‬תלוי (מסביר) ואת השני כמשתנה‬
‫התלוי (מוסבר)‪ .‬במקרה זה נהיה מעוניינים לבדוק איך מושפע המשתנה התלוי מהמשתנה הבלתי‪-‬‬
‫תלוי‪.‬‬
‫סה"כ‬ ‫נשים‬ ‫גברים‬ ‫השכלה‬
‫𝟎𝟕𝟒‬ ‫‪145‬‬ ‫‪325‬‬ ‫תיכונית‬
‫𝟓𝟓𝟑‬ ‫‪150‬‬ ‫‪205‬‬ ‫תואר ראשון‬
‫𝟓𝟐𝟏‬ ‫‪55‬‬ ‫‪70‬‬ ‫תואר שני ומעלה‬
‫𝟎𝟓𝟗‬ ‫𝟎𝟓𝟑‬ ‫𝟎𝟎𝟔‬ ‫סה"כ‬
‫זוהי דוגמא לטבלת שכיחות דו‪-‬ממדית עבור שני משתנים‪ :‬רמת השכלה ומגדר‪ .‬המשתנה "רמת‬
‫השכלה" (משתנה אורדינאלי) מוצג בשורות הטבלה‪ .‬המשתנה "מגדר" (משתנה נומינאלי) מוצג‬
‫בעמודות הטבלה‪.‬‬
‫במקרה של לוח דו‪-‬ממדי תופיע גם שורת סה"כ וגם עמודת סה"כ‪.‬‬
‫הוסיפו כותרת מתאימה לטבלה‪.‬‬ ‫‪-‬‬
‫‪4‬‬
‫‪14/03/2021‬‬
‫הצגת נתוני הטבלה באחוזים‪:‬‬

‫בכדי לערוך השוואה בין הגברים לנשים‪ ,‬חובה לחשב תחילה אחוזים‪ .‬נהוג להשלים ל‪ 100%-‬את‬
‫הקטגוריות של המשתנה הבלתי תלוי ("מגדר" בדוגמא)‪ .‬לכן כל עמודה תסתכם ל‪ .100%-‬בכך‬
‫ניתן לערוך בקלות השוואה בין גברים לנשים גם כאשר גודל הקבוצות אינו שווה‪.‬‬
‫סה"כ‬ ‫נשים‬ ‫גברים‬ ‫השכלה‬
‫𝟎𝟕𝟒‬ ‫‪145‬‬ ‫‪325‬‬ ‫תיכונית‬
‫)‪(100%‬‬ ‫)‪(41.4%‬‬ ‫)‪(54.2%‬‬
‫𝟓𝟓𝟑‬ ‫‪150‬‬ ‫‪205‬‬ ‫תואר ראשון‬
‫)‪(100%‬‬ ‫)‪(42.8%‬‬ ‫)‪(34.2%‬‬
‫𝟓𝟐𝟏‬ ‫‪55‬‬ ‫‪70‬‬ ‫תואר שני ומעלה‬
‫)‪(100%‬‬ ‫)‪(15.7%‬‬ ‫)‪(11.6%‬‬
‫𝟎𝟓𝟗‬ ‫𝟎𝟓𝟑‬ ‫𝟎𝟎𝟔‬ ‫סה"כ‬
‫)‪(100%‬‬ ‫)‪(100%‬‬ ‫)‪(100%‬‬
‫בחינת קשר בין המשתנים המופיעים בלוח‪:‬‬

‫בלוח דו‪-‬ממדי ישנה אינפורמציה אודות שני משתנים‪ .‬חלק מהניתוחים שניתן לעשות הינו בחינת‬
‫קשר בין שני המשתנים המחקרים (דבר זה לא ניתן לעשות בלוח חד‪-‬ממדי מכיוון שמופיע בו רק‬
‫משתנה אחד)‪.‬‬
‫נרצה לבחון האם המשתנה הבלתי‪-‬תלוי (מגדר) משפיע על המשתנה התלוי (השכלה)‪ .‬במילים‬
‫אחרות‪ ,‬נבדוק האם קיים קשר בין המגדר לבין ההשכלה‪.‬‬
‫בדוגמא ניתן לראות שאחוז הגברים בעלי השכלה תיכונית )‪ (54.2%‬גבוה מאחוז הנשים בעלות‬
‫השכלה תיכונית )‪.(41.4%‬‬
‫אחוז הנשים בעלות תואר ראשון )‪ (42.8%‬גבוה מאחוז הגברים בעלי תואר ראשון )‪.(34.2%‬‬
‫כמו‪-‬כן‪ ,‬אחוז הנשים בעלות תואר שני ומעלה )‪ (15.7%‬גבוה מאחוז הגברים בעלי תואר שני‬
‫ומעלה )‪.(11.6%‬‬
‫אם כך‪ ,‬הדבר מצביע שנשים משכילות יותר מגברים לפי נתוני המדגם‪ ,‬אם כי לא בפערים גדולים‬
‫מאוד‪.‬‬
‫לסיכום‪ ,‬נרה שיש קשר בין מגדר להשכלה – נראה שנשים פונות יותר לתארים מתקדמים לעומת‬
‫גברים‪.‬‬
‫‪5‬‬
‫‪14/03/2021‬‬
‫סטודנטים לתואר שני‬ ‫סטודנטים לתואר ראשון‬ ‫מס' היעדרויות בסמסטר‬
‫‪20‬‬ ‫‪42‬‬ ‫𝟎‬
‫‪8‬‬ ‫‪23‬‬ ‫𝟏‬
‫‪4‬‬ ‫‪10‬‬ ‫𝟐‬
‫‪3‬‬ ‫‪5‬‬ ‫𝟑‬
‫‪0‬‬ ‫‪2‬‬ ‫‪𝟒+‬‬
‫גם בדוגמא זו ישנם נתונים אודות שני משתנים‪ :‬מספר היעדרויות בסמסטר והתואר (ראשון‪/‬שני)‬
‫של הסטודנט‪.‬‬
‫הוסיפו סה"כ היכן שנדרש‪.‬‬ ‫‪-‬‬
‫הוסיפו כותרת מתאימה‪.‬‬ ‫‪-‬‬
‫הציגו את הנתונים באחוזים‪.‬‬ ‫‪-‬‬
‫הציגו מסקנות‪.‬‬ ‫‪-‬‬
‫הצגה גראפית של נתונים‬
‫הצגות גרפיות הינן דרכים ויזואליות יותר להצגת נתוני המחקר‪ ,‬בעזרתן קל יותר "לראות" את‬
‫הסטטיסטיקה‪.‬‬
‫מאפשרות התרשמות חזותית של התפלגות הנתונים‪.‬‬ ‫‪-‬‬
‫דרך נפוצה לפרסום של נתונים סטטיסטיים‪.‬‬ ‫‪-‬‬
‫בחירת סוג ההצגה הגראפית נעשית בהתאם לסוג המשתנה‪.‬‬ ‫‪-‬‬
‫נלמד ארבע הצגות גראפיות עיקריות‪ :‬דיאגרמת מעל‪ ,‬דיאגרמת מקלות‪ ,‬היסטוגרמה ודיאגרמת‬
‫פיזור‪ .‬קיימות הצגות גראפיות נוספות – כמו "קו מגמה"‪.‬‬
‫דוגמא להצגה גראפית – קו מגמה )‪:(Trend Line‬‬
‫שיעור פריון כולל (הלשכה המרכזית לסטטיסטיקה)‬
‫גרף זה מתאים לנתונים שיש עליהם מגמה לאורך הזמן‪.‬‬
‫‪6‬‬
‫‪14/03/2021‬‬
‫הגדרות נוספות‬
‫הגדרה – שכיחות יחסית‪ :‬שכיחות יחסית של ערך 𝑥 הינה היחס בין שכיחות הערך לבין מספר‬
‫)𝑥(𝑓‬
‫‪.‬‬ ‫התצפיות הכולל במדגם‪ ,‬כלומר‬
‫𝑛‬
‫שכיחות יחסית נקראת גם פרופורציה‪.‬‬

‫השכיחות היחסית הינה בהכרח מספר בין ‪ 0‬ל‪.1-‬‬
‫סכום השכיחויות היחסיות של כל ערכי המשתנה הינו ‪.1‬‬
‫הגדרה – אחוזים‪ :‬האחוז בו מופיע ערך מסוים של המשתנה במדגם מתקבל על‪-‬ידי הכפלת‬
‫השכיחות היחסית של הערך ב‪.100-‬‬
‫מהעובדה שסכום השכיחויות היחסיות של כל ערכי המשתנה שווה ל‪ ,1-‬אנו מקבלים (כידוע)‬
‫שסכום כל האחוזים שווה ל‪.100-‬‬
‫דיאגרמת מעגל (פאי)‬
‫דיאגרמת מעגל מתאימה בעיקר להצגה של משתנה איכותי (נומינאלי)‪ .‬לדוגמא‪ :‬מגדר‪ ,‬ארץ‬
‫מוצא‪ ,‬מקצוע‪ ,‬תחום לימוד‪ ,‬עדה‪ ,‬אזור מגורים ועוד‪.‬‬
‫דיאגרמת מעגל הינה תרשים בצורת מעגל‪ .‬את המעגל אנו מחלקים לפרוסות כמספר ערכי‬
‫המשתנה‪ .‬לכל קטגוריה‪/‬ערך של המשתנה נתאים פרוסה שגודלה פרופורציוני לשכיחותה‪ .‬למעשה‬
‫כל פרוסה תהיה בגודל השווה לאחוז של אותה הקטגוריה‪.‬‬
‫טבלת שכיחות חד‪-‬ממדית‪:‬‬
‫)𝒙(𝒇 – מספר משפחות (באלפים)‬ ‫𝒙 – מצב משפחתי של ההורה‬

‫‪18.5‬‬ ‫נשוי‪/‬אה‪ ,‬חי‪/‬ה בנפרד‬
‫‪84.8‬‬ ‫גרוש‪/‬ה‬
‫‪28.4‬‬ ‫אלמן‪/‬ה‬
‫‪15.1‬‬ ‫רווק‪/‬ה‬
‫‪1.0‬‬ ‫לא ידוע‬
‫𝟖 ‪𝟏𝟒𝟔.‬‬ ‫סה"כ‬
‫‪ - %‬אחוזים‬ ‫)𝒙(𝒇‬ ‫)𝒙(𝒇 – מספר משפחות‬ ‫𝒙 – מצב משפחתי של‬

‫𝒏 – שכיחות‬
‫ההורה‬
‫יחסית‬
‫‪12.6%‬‬ ‫‪18.5‬‬ ‫‪18.5‬‬ ‫נשוי‪/‬אה‪ ,‬חי‪/‬ה בנפרד‬
‫‪= 0.126‬‬
‫‪146.8‬‬
‫‪57.8%‬‬ ‫‪84.8‬‬ ‫‪84.8‬‬ ‫גרוש‪/‬ה‬
‫‪= 0.578‬‬
‫‪146.8‬‬
‫‪19.3%‬‬ ‫‪28.4‬‬ ‫‪28.4‬‬ ‫אלמן‪/‬ה‬
‫‪= 0.193‬‬
‫‪146.8‬‬
‫‪10.3%‬‬ ‫‪15.1‬‬ ‫‪15.1‬‬ ‫רווק‪/‬ה‬
‫‪= 0.103‬‬
‫‪146.8‬‬
‫‪𝟏𝟎𝟎%‬‬ ‫𝟏‬ ‫𝟖 ‪𝒏 = 𝟏𝟒𝟔.‬‬ ‫סה"כ‬
‫‪7‬‬
‫‪14/03/2021‬‬
‫דיאגרמת מעגל‪:‬‬
‫בדוגמא זו מדובר במשתנה נומינאלי ולכן בחרנו להציגו בדיאגרמת מעגל‪.‬‬

‫ממצא‪ :‬גירושין הינם הגורם העיקרי להיווצרותן של משפחות חד‪-‬הוריות‪.‬‬
‫להלן נתונים אודות צבע העיניים של מדגם מקרי של אמריקאיים ומדגם מקרי של אירופאים‪.‬‬
‫סה"כ‬ ‫אירופאים‬ ‫אמריקאים‬ ‫צבע עיניים‬
‫𝟐𝟎𝟏‬ ‫‪50‬‬ ‫‪52‬‬ ‫חום‬
‫𝟔𝟑‬ ‫‪25‬‬ ‫‪11‬‬ ‫ירוק‬
‫𝟐𝟐‬ ‫‪15‬‬ ‫‪7‬‬ ‫כחול‬
‫𝟎𝟔𝟏‬ ‫𝟎𝟗‬ ‫𝟎𝟕‬ ‫סה"כ‬
‫הציגו את הנתונים בצורה גראפית‪ .‬מה מסקנתכם?‬ ‫‪-‬‬

‫הצגה באחוזים‪:‬‬
‫סה"כ‬ ‫אירופאים‬ ‫אמריקאים‬ ‫צבע עיניים‬
‫‪𝟔𝟑. 𝟕%‬‬ ‫‪55.5%‬‬ ‫‪74.3%‬‬ ‫חום‬
‫‪𝟐𝟐. 𝟓%‬‬ ‫‪27.8%‬‬ ‫‪15.7%‬‬ ‫ירוק‬
‫‪𝟏𝟑. 𝟖%‬‬ ‫‪16.7%‬‬ ‫‪10%‬‬ ‫כחול‬
‫‪𝟏𝟎𝟎%‬‬ ‫‪𝟏𝟎𝟎%‬‬ ‫‪𝟏𝟎𝟎%‬‬ ‫סה"כ‬
‫דיאגרמת מעגל‪:‬‬
‫‪8‬‬
‫‪14/03/2021‬‬
‫משתי הדיאגרמות ניתן לראות שבקרב האירופאים יש אחוז גבוה יותר בעלי עיניים בהירות‬
‫(כחולות וירוקות) מאשר בקרב האמריקאים‪ .‬בקרב האמריקאים ל‪ 75%-‬יש עיניים חומות בעוד‬
‫בקרב האירופאים ל‪ 55%-‬עיניים חומות‪.‬‬
‫דיאגרמת מקלות‬
‫דיאגרמת מקלות מתאימה בעיקר להצגה עבור משתנה איכותי סדור (אורדינאלי) או עבור משתנה‬
‫כמותי בדיד (אינטרוואלי או יחס) המוצג בטבלת שכיחות עם ערכים בודדים (ולא בטבלת שכיחות‬
‫עם מחלקות)‪ .‬לדוגמא‪ :‬מספר חדרים בבית‪ ,‬מספר ילדים במשפחה‪ ,‬מספר היעדרויות בסמסטר‪,‬‬
‫רמת השכלה‪ ,‬שביעות רצון ועוד‪.‬‬
‫בדיאגרמת מקלות יופיעו על הציר האופקי ערכי המשתנה‪ .‬לכל ערך של המשתנה נתאים "מקל"‬
‫אשר גובהו פרופורציוני לשכיחותו במדגם (או לאחוז שלו במדגם)‪.‬‬
‫ערכי המשתנה יופיעו על הציר האופקי לפי הסדר (מהקטן לגדול)‪.‬‬
‫מספר סטודנטים לפי תואר ‪2006/7‬‬
‫)𝒙(𝒇 – מספר‬ ‫𝒙 – תואר‬
‫סטודנטים‬
‫‪11,875‬‬ ‫תואר ראשון‬
‫‪6,895‬‬ ‫תואר שני‬
‫‪2,700‬‬ ‫דוקטורט‬
‫𝟎𝟕𝟒 ‪𝟐𝟏,‬‬ ‫סה"כ‬
‫הצגה בדיאגרמת מקלות לפי שכיחויות‪:‬‬
‫הצגה באחוזים‪:‬‬
‫‪ - %‬אחוזים‬ ‫)𝒙(𝒇 – מספר‬ ‫𝒙 – תואר‬
‫סטודנטים‬
‫‪55.3‬‬ ‫‪11,875‬‬ ‫תואר ראשון‬
‫‪32.1‬‬ ‫‪6,895‬‬ ‫תואר שני‬
‫‪12.6‬‬ ‫‪2,700‬‬ ‫דוקטורט‬
‫𝟎𝟎𝟏‬ ‫𝟎𝟕𝟒 ‪𝟐𝟏,‬‬ ‫סה"כ‬
‫‪9‬‬
‫‪14/03/2021‬‬
‫הצגה בדיאגרמת מקלות לפי אחוזים‪:‬‬
‫היסטוגרמה‬
‫היסטוגרמה מתאימה להצגה של משתנה כמותי רציף (משתנה אינטרוולי או משתנה יחס)‪.‬‬
‫דוגמא‪ :‬גיל‪ ,‬משקל‪ ,‬גובה‪.‬‬
‫היסטוגרמה מתאימה למקרים בהם המשתנה מופיע בטבלת שכיחות עם מחלקות‪.‬‬
‫בדומה לדיאגרמת מקלות‪ ,‬על הציר האופקי נציג את ערכי המשתנה‪ .‬לעומת זאת‪ ,‬על הציר האנכי‬
‫נציג את הצפיפות של כל מחלקה‪.‬‬
‫הגדרה – צפיפות‪ :‬שכיחות ליחידה אחת של המשתנה הנחקר‪ .‬אם כך‪ ,‬הצפיפות במחלקה שווה‬
‫לשכיחות של המחלקה חלקי רוחב המחלקה‪ .‬את הצפיפות נסמן באות 𝑑‪.‬‬
‫נשים נשואות בכוח העבודה האזרחי בישראל לפי גיל (באלפים)‬
‫)𝑥(𝑓‬ ‫𝒍 – רוחב מחלקה‬ ‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬
‫𝒅 – צפיפות 𝑙 = 𝑑‬
‫‪33.8‬‬ ‫‪7‬‬ ‫‪33.8‬‬ ‫‪18 − 25‬‬
‫‪= 4.82‬‬
‫‪7‬‬
‫‪230.1‬‬ ‫‪10‬‬ ‫‪230.1‬‬ ‫‪25 − 35‬‬
‫‪= 23.01‬‬
‫‪10‬‬
‫‪437.9‬‬ ‫‪20‬‬ ‫‪437.9‬‬ ‫‪35 − 55‬‬
‫‪= 21.89‬‬
‫‪20‬‬
‫‪80.2‬‬ ‫‪10‬‬ ‫‪80.2‬‬ ‫‪55 − 65‬‬
‫‪= 8.02‬‬
‫‪10‬‬
‫𝟐𝟖𝟕‬ ‫סה"כ‬
‫נשים לב שרוחב המחלקה הראשונה לדוגמא הינו ‪( 7‬ולא ‪ )6‬שכן המחלקה מתחילה בגיל ‪18‬‬
‫ומסתיימת בגיל ‪( 25‬לא כולל ‪ ,)25‬ולא בגיל ‪( 24‬בכדי ליצור רצף בין הגבולות של המחלקות)‪.‬‬
‫ניתן לראות שהמחלקה עם השכיחות הגבוהה ביותר הינה המחלקה השלישית )‪ (35 − 55‬בעוד‬
‫שהמחלקה הצפופה ביותר הינה המחלקה השנייה )‪ .(25 − 35‬הסיבה לכך היא שהמחלקה‬
‫השנייה פחות רחבה מהמחלקה השלישית‪ ,‬דבר הגורם לה בסופו של דבר להיות צפופה יותר‪.‬‬
‫‪10‬‬
‫‪14/03/2021‬‬
‫היסטוגרמה‪:‬‬
‫בדוגמא זו מדובר במשתנה כמותי רציף (משתנה יחס) ולכן בחרנו להציגו בהיסטוגרמה‪.‬‬
‫מצולע שכיחויות (פוליגון)‬
‫בכדי לבנות מצולע שכיחויות עלינו לחבר את אמצעי הבסיסים העליונים של כל שני מלבנים‬
‫עוקבים בהיסטוגרמה על‪-‬ידי קו ישר‪.‬‬
‫מצולע זה נותן תמונה סדירה של מהלך ההתפלגות‪.‬‬
‫בקצוות מחברים את אמצע כל בסיס חיצוני על‪-‬ידי קו ישיר לציר ה‪( 𝑋 -‬הציר האופקי)‪ ,‬במרחק‬
‫מחצית רוחב הבסיס‪ ,‬בכדי לסגור את המצולע‪.‬‬
‫מצולע שכיחויות עבור הדוגמא הנ"ל‪:‬‬
‫‪11‬‬
‫‪14/03/2021‬‬
‫טבלת שכיחויות חד‪-‬ממדית‪:‬‬
‫עובדים בארגון לפי גיל‬
‫𝒅 – צפיפות‬ ‫𝒍 – רוחב מחלקה‬ ‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬
‫‪5.67‬‬ ‫‪6‬‬ ‫‪34‬‬ ‫‪16 − 22‬‬
‫‪20.67‬‬ ‫‪3‬‬ ‫‪62‬‬ ‫‪22 − 25‬‬
‫‪26‬‬ ‫‪5‬‬ ‫‪130‬‬ ‫‪25 − 30‬‬
‫‪23‬‬ ‫‪5‬‬ ‫‪115‬‬ ‫‪30 − 35‬‬
‫‪15.2‬‬ ‫‪10‬‬ ‫‪152‬‬ ‫‪35 − 45‬‬
‫‪8.4‬‬ ‫‪10‬‬ ‫‪84‬‬ ‫‪45 − 55‬‬
‫‪3.2‬‬ ‫‪15‬‬ ‫‪48‬‬ ‫‪55 − 70‬‬
‫𝟓𝟐𝟔‬ ‫סה"כ‬
‫היסטוגרמה‪:‬‬
‫בדוגמא זו מדובר במשתנה כמותי רציף (משתנה יחס) ולכן בחרנו להציגו בהיסטוגרמה‪.‬‬
‫התפלגויות פופולאריות‬
‫מוקדם יותר כאשר עסקנו בהצגה גרפית של נתונים כמותיים הצגנו את דיאגרמת המקלות‬
‫וההיסטוגרמה‪ .‬נהוג לחבר בקווים ישרים את ראשי המקלות (כאשר מדובר בדיאגרמת מקלות) או‬
‫את ראשי מרכז המלבנים (כאשר מדובר בהיסטוגרמה) ובכך לקבל קו שבור לאורך הגרף הנקרא‬
‫מצולע שכיחויות או פוליגון‪ .‬את המצולע שמתקבל נהוג "להחליק" (ליצור צורה חלקה אחת‬
‫במקום הקו השבור) ובכך מקבלים עקומה חלקה של המשתנה הנחקר‪ .‬בעזרת עקומה חלקה זו קל‬
‫לראות האם מדובר בעקומה סימטרית או בעקומה שאינה סימטרית‪ ,‬האם עיקר התצפיות‬
‫מרוכזות במרכז או בקצוות ועוד‪.‬‬
‫‪12‬‬
‫‪14/03/2021‬‬
‫בשקפים הבאים נציג מספר עקומות‪/‬התפלגויות פופולאריות‪.‬‬

‫התפלגות פעמונית סימטרית (נורמאלית)‬
‫התפלגות פעמונית סימטרית‪ :‬התפלגות פעמונית סימטרית (הנקראת גם התפלגות נורמאלית או‬
‫התפלגות חד‪-‬שיאית סימטרית) הינה עקומה סימטרית בה רוב התצפיות נמצאות במרכז העקומה‬
‫ומעט בקצוות‪.‬‬
‫משתנים רבים במציאות מפולגים בקירוב לפי התפלגות זו‪ ,‬כגון גובה‪ ,‬משקל‪ ,‬טמפרטורה‪ ,‬לחץ‬
‫דם‪ ,‬ציוני ‪ I.Q‬ועוד‪.‬‬
‫דוגמא למשתנה שמפולג בקירוב נורמאלית‪:‬‬

‫התפלגות הציון המשוקלל של סטודנטים‬
‫התפלגות ‪ U‬סימטרית‬
‫התפלגות ‪ :U‬התפלגות ‪ U‬הינה סימטרית‪ ,‬בה רוב התצפיות נמצאות בקצוות העקומה ומעט‬
‫במרכז‪.‬‬
‫למעשה התפלגות זו הפוכה להתפלגות הפעמונית הסימטרית שכן בהתפלגות זו מעט תצפיות‬
‫במרכז ההתפלגות ועיקר המסה נמצאת בקצוות‪.‬‬
‫‪13‬‬
‫‪14/03/2021‬‬
‫התפלגות אחידה‬
‫התפלגות אחידה‪ :‬בהתפלגות זו יש פיזור אחיד לאורך כל העקומה‪ .‬עקומה זו מתקבלת כאשר‬
‫השכיחויות של כל ערכי המשתנה שוות בקירוב‪ .‬צורתה של העקומה האחידה הינה קו ישר‬
‫המקביל לציר האופקי‪ .‬למעשה גם זו עקומה סימטרית‪.‬‬
‫דוגמא‪ :‬תוצאת הטבלת קובייה עבור מספר רב של ניסויים‪ .‬מדובר בהתפלגות אחידה בקירוב שכן‬
‫הקובייה סימטרית (הסתברות שווה לכל פאה) ולכן נצפה לקבל שכיחויות דמות לששת ערכי‬
‫הקוביה‪.‬‬
‫התפלגות א‪-‬סימטרית חיובית ("זנב ימין")‬

‫התפלגות א‪-‬סימטרית חיובית (ימנית)‪ :‬התפלגות זו אינה סימטרית‪ ,‬בה רוב התצפיות מרוכזות‬
‫בערכים נמוכים של המשתנה וישנן מעט תצפיות חריגות בערכים גבוהים של המשתנה‪ .‬בגלל‬
‫עובדה זו לעקומה יש "זנב" בצד ימין‪.‬‬
‫דוגמא‪ :‬התפלגות המשכורות במדינת ישראל‪.‬‬
‫התפלגות א‪-‬סימטרית שלילית ("זנב שמאל")‬

‫התפלגות א‪-‬סימטרית שלילית (שמאלית)‪ :‬עקומה זו אינה סימטרית‪ ,‬ועבורה רוב התצפיות‬
‫מרוכזות בערכים גבוהים של המשתנה וישנן מעט תצפיות חריגות בערכים נמוכים של המשתנה‪.‬‬
‫בגלל עובדה זו לעקומה יש "זנב" בצד שמאל‪.‬‬
‫‪14‬‬
‫‪14/03/2021‬‬
‫שאלה‪ :‬לאיזו התפלגות ציונים אתם צריכים לייחל במבחן סוף השנה?‬
‫תשובה‪ :‬התפלגות א‪-‬סימטרית שלילית ("זנב שמאל") – שרוב הציונים יהיו גבוהים‪.‬‬
‫‪15‬‬
‫‪21/03/2021‬‬

‫נושא ההרצאה‪ :‬מדדי מיקום מרכזי‪ :‬ממוצע‪ ,‬חציון ושכיח‬
‫מדדי מרכז – ממוצע‪ ,‬חציון ושכיח‬
‫מדדי מיקום מרכזי (או בקיצור מדדי מרכז) מודדים סביב איזה ערך הנתונים מתרכזים‪ .‬למעשה‬
‫הם בודקים היכן מרכז הכובד של סדרת התצפיות‪ .‬נלמד שלושה מדדי מיקום מרכזי‪ :‬ממוצע‪,‬‬
‫חציון ושכיח‪.‬‬
‫הממוצע רלוונטי רק כאשר המשתנה הנחקר הוא משתנה כמותי‪ .‬לא ניתן לדבר על הממוצע כאשר‬
‫מדובר במשתנה איכותי‪ .‬החציון רלוונטי כאשר מדובר במשתנה כמותי או במשנה איכותי סדור‬
‫(אורדינאלי)‪ ,‬אך בעיקר רלוונטי למשתנה כמותי‪ .‬השכיח רלוונטי לכל סוגי המשתנים‪ .‬בהתאם‬
‫לזאת‪ ,‬רוב הדוגמאות שנציג מעתה יהיו עבור משתנים כמותיים‪.‬‬
‫צורות הצגה אפשריות של הנתונים‬
‫באופן כללי בבואנו לחשב את ערכם של מדדי המיקום‪ ,‬הנתונים אודות המשתנה יכולים להופיע‬
‫בשלוש צורות עיקריות‪:‬‬
‫רשימת תצפיות‪ :‬זוהי הצורה הבסיסית ביותר בה הנתונים מופיעים כרשימה של‬ ‫א‪.‬‬
‫מספרים שאינם מסודרים בטבלה‪.‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬התצפיות מרוכזות בטבלת שכיחות‬ ‫ב‪.‬‬
‫בה ערכי המשתנה בטבלה הינם ערכים בודדים‪.‬‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬התצפיות ירוכזו בטבלת שכיחות כאשר‬ ‫ג‪.‬‬
‫המשתנה מוצג בטווח של ערכים (ולא ערכים בודדים)‪.‬‬
‫עבור כל אחת מבין שלוש צורות ההצגה שלעיל נציג את אופן החישוב של שלושת מדדי המיקום‬
‫(ממוצע‪ ,‬חציון ושכיח)‪.‬‬
‫הבדלים בין מדדי המיקום‬
‫כל אחד מבין שלושת מדדי המיקום המרכזי בודק בצורה מעט שונה היכן המרכז של סדרת‬
‫התצפיות שבמדגם‪.‬‬
‫נציג תחילה את ההגדרה והסימון של כל מדד מבין שלושת מדדי המיקום‪ .‬לאחר מכן נציג את‬
‫הנוסחא ואופן החישוב של כל אחד מהמדדים‪ ,‬תוך הבחנה באופן בו מוצגים הנתונים (נציין שאין‬
‫הבדל גדול בחישוב של מדדי המיקום בין שלוש צורות ההצגה אשר הוצגו בשקף הקודם‪ .‬לרוב‬
‫השינויים קטנים ונובעים מהצורה השונה בה הנתונים מופיעים)‪.‬‬
‫ממוצע )‪(Mean/Average‬‬
‫הממוצע של קבוצת מספרים הינו סכום כל המספרים מחולק במספרם‪.‬‬
‫ננסה לתת הסבר אינטואיטיבי לממוצע‪ .‬הממוצע הינו "ערך סוציאליסטי" – אם למשל התצפיות‬
‫הינן משכורות חודשיות‪ ,‬אזי הממוצע מבטא את המשכורת שכל פרט בקבוצה היה מקבל אם סך‬
‫כל המשכורות היו מחולקות שווה בשווה בין כל הפרטים בקבוצה‪.‬‬
‫סימון‪ :‬את הממוצע של משתנה מקרי 𝑋 נסמן ב‪.𝑋̅ -‬‬
‫‪1‬‬
‫‪21/03/2021‬‬
‫אופן החישוב‪ :‬את הממוצע נחשב על‪-‬ידי סכימת כל התצפיות וחלוקת הסכום במספר התצפיות‪.‬‬
‫נציג את הנוסחא לחישוב הממוצע בכל אחת משלוש צורות ההצגה האפשריות של המשתנה‪:‬‬
‫רשימת תצפיות‪ :‬כאשר הנתונים מופיעים כרשימה של 𝑛 תצפיות אשר מסומנות ב‪-‬‬ ‫א‪.‬‬
‫𝑛𝑥 ‪ ,𝑥1 , 𝑥2 , … ,‬ממוצע התצפיות הינו‪:‬‬
‫𝑛𝑥 ‪∑ 𝑥𝑖 𝑥1 + 𝑥2 + ⋯ +‬‬
‫= ̅𝑋‬ ‫=‬
‫𝑛‬ ‫𝑛‬
‫דוגמא‪ :‬בדקנו את רמת ההמוגלובין בדם של ‪ 10‬נשים לאחר לידה‪ .‬להלן הנתונים‪:‬‬
‫‪10.7, 11.2, 10.9, 10, 7.4, 7, 8.1, 11.9, 9.3, 10.4‬‬
‫נחשב את ממוצע רמת ההמוגלובין עבור המדגם של ‪ 10‬הנשים‪:‬‬
‫‪∑ 𝑥𝑖 10.7 + 11.2 + 10.9 + ⋯ + 10.4 96.9‬‬
‫= ̅𝑋‬ ‫=‬ ‫=‬ ‫‪= 9.69‬‬
‫𝑛‬ ‫‪10‬‬ ‫‪10‬‬
‫קיבלנו שרמת ההמוגלובין הממוצע של ‪ 10‬הנשים הינה ‪.9.69‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬כאשר לפנינו טבלת שכיחות‬ ‫ב‪.‬‬
‫הכוללת מספר ערכים של המשתנה (נניח 𝑘 ערכים)‪ ,‬הממוצע יחושב על‪-‬ידי סכימה של‬
‫מכפלת כל ערך בשכיחותו וחלוקת הסכום במספר התצפיות – 𝑛‪ .‬כלומר‪:‬‬
‫) 𝑘𝑥(𝑓 ⋅ 𝑘𝑥 ‪∑ 𝑥 ⋅ 𝑓(𝑥) 𝑥1 ⋅ 𝑓(𝑥1 ) + 𝑥2 ⋅ 𝑓(𝑥2 ) + ⋯ +‬‬
‫= ̅𝑋‬ ‫=‬
‫𝑛‬ ‫𝑛‬
‫נציין שאין למעשה הבדל בין אופן החישוב של הממוצע‪ :‬אנו עדיין סוכמים את כל‬
‫התצפיות ומחלקים במספר התצפיות הכולל – 𝑛‪.‬‬
‫דוגמא‪ :‬במשאל של ‪ 60‬חולים בבית חולים גדול‪ ,‬כל חולה נשאל לגבי מספר ימי האשפוז‬
‫שהיו לו בחודש האחרון‪ .‬להלן התוצאות‪:‬‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – מס' ימי אשפוז‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔 = 𝒏‬ ‫סה"כ‬
‫נחשב את ממוצע מספר ימי האשפוז בחודש‪ ,‬בעזרת הנוסחא המתאימה לטבלת שכיחות‬
‫עם ערכים בודדים‪:‬‬
‫)𝑥(𝑓 ⋅ 𝑥 ∑‬
‫= ̅𝑋‬
‫𝑛‬
‫‪2‬‬
‫‪21/03/2021‬‬
‫טבלת עזר לחישובים‪ :‬רצוי להוסיף לטבלת השכיחות עמודה נוספת (מכפלה בין הערכים‬
‫לבין השכיחויות) אשר תסייע לנו בחישוב הממוצע‪.‬‬
‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪2‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪42‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪48‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪28‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪15‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪7‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟐𝟓𝟏‬ ‫𝟎𝟔 = 𝒏‬ ‫סה"כ‬
‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 152‬‬

‫= ̅𝑋‬ ‫=‬ ‫‪= 2.5333‬‬
‫𝑛‬ ‫‪60‬‬
‫מסקנה מהדוגמא‪ :‬ממוצע מספר ימי האשפוז בחודש הינו ‪.2.5333‬‬
‫דוגמא נוספת‪ :‬להלן טבלת שכיחות עם ערכים בודדים עבור דירות חדשות לפי מספר‬
‫חדרים בדירה‪ ,‬ישראל ‪ .2003‬חשבו את מספר החדרים לדירה‪.‬‬
‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬

‫‪173‬‬ ‫‪1‬‬
‫‪331‬‬ ‫‪2‬‬
‫‪4,338‬‬ ‫‪3‬‬
‫‪14,586‬‬ ‫‪4‬‬
‫‪8,447‬‬ ‫‪5‬‬
‫‪5,622‬‬ ‫‪6+‬‬
‫נחשב את ממוצע מספר החדרים לדירה בעזרת הנוסחא המתאימה לטבלת שכיחות עם‬
‫ערכים בודדים‪:‬‬
‫)𝑥(𝑓 ⋅ 𝑥 ∑‬
‫= ̅𝑋‬
‫𝑛‬
‫בעיה‪ :‬הערך האחרון בטבלה הינו ‪ 6 +‬המציין ששה חדרים ומעלה‪ .‬מה נעשה עם ערך זה?‬
‫איך נתייחס אליו בטבלת השכיחות?‬
‫פתרון‪ :‬אין לבעיה זו פתרון יחיד‪/‬אוניברסאלי‪ .‬נפתור בעיה זו בכך שנחליט להציב את‬
‫הערך ‪ 7‬במקום הערך ‪ 6 +‬בנוסחא של הממוצע‪.‬‬
‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 1 ⋅ 173 + 2 ⋅ 331 + ⋯ + 7 ⋅ 5,622 153,782‬‬
‫= ̅𝑋‬ ‫=‬ ‫=‬ ‫‪= 4.59‬‬
‫𝑛‬ ‫‪33,497‬‬ ‫‪33,497‬‬
‫פירוש התוצאה‪ :‬בדירות חדשות בישראל‪ ,‬נכון לשנת ‪ ,2003‬ישנם ‪ 4.59‬חדרים בממוצע‪.‬‬
‫פירוש נוסף‪ :‬אם היינו מחלקים שווה בשווה את סה"כ החדרים בין כל הדירות החדשות‪,‬‬
‫בכל דירה היו ‪ 4.59‬חדרים‪.‬‬
‫‪3‬‬
‫‪21/03/2021‬‬
‫טבלת עזר לחישובים‪ :‬ניתן להוסיף לטבלת השכיחות עמודה נוספת אשר תסייע לנו‬
‫בחישוב הממוצע‪.‬‬
‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬
‫‪173‬‬ ‫‪173‬‬ ‫‪1‬‬
‫‪662‬‬ ‫‪331‬‬ ‫‪2‬‬
‫‪13,014‬‬ ‫‪4,338‬‬ ‫‪3‬‬
‫‪58,344‬‬ ‫‪14,586‬‬ ‫‪4‬‬
‫‪42,235‬‬ ‫‪8,447‬‬ ‫‪5‬‬
‫‪39,354‬‬ ‫‪5,622‬‬ ‫‪6+‬‬
‫𝟐𝟖𝟕 ‪𝟏𝟓𝟑,‬‬ ‫𝟕𝟗𝟒 ‪𝟑𝟑,‬‬ ‫סה"כ‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬במקרה זה בוואנו לחשב את הממוצע‪ ,‬לא‬ ‫ג‪.‬‬
‫נוכל לבצע מכפלה בין המחלקה (המייצגת טווח ערכים) לבין שכיחותה‪ ,‬שכן לא ניתן‬
‫לכפול טווח של מספרים במספר‪ .‬המכפלה תתבצע בין אמצע המחלקה‪ ,‬שנסמנו ב‪𝑥̂ -‬‬
‫(המייצג מספר בודד)‪ ,‬לבין שכיחותה של המחלקה‪.‬‬
‫אם כן‪ ,‬בטבלת שכיחות (בעלת 𝑘 מחלקות לדוגמא) הממוצע יהיה‪:‬‬
‫̂ )𝑥(𝑓 ⋅ ̂𝑥 ∑‬ ‫𝑥 ‪𝑥1 ⋅ 𝑓(𝑥1 ) +‬‬

‫𝑥 ‪̂2 ⋅ 𝑓(𝑥2 ) + ⋯ +‬‬
‫) 𝑘𝑥(𝑓 ⋅ 𝑘̂‬
‫= ̅𝑋‬ ‫=‬
‫𝑛‬ ‫𝑛‬
‫דוגמא‪ :‬ברצוננו לבדוק מהו ממוצע הגיל של עובדים בקופת חולים באור יהודה‪ .‬לשם כך‬
‫דגמנו ‪ 85‬עובדים בקופת חולים זו‪ .‬את תוצאת המשאל ריכזנו בטבלת שכיחות עם‬
‫מחלקות הבאה‪:‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫בחרנו להציג את הנתונים בטבלת שכיחות עם מחלקות ולא בטבלת שכיחות בעלת ערכים‬
‫בודדים שכן התקבלו גילאים רבים ושונים ומטרתנו לתמצת את הנתונים ולהציגם בצורה‬
‫לא מסורבלת‪ .‬קביעת המחלקות ורוחבן יכולה להיות גם שונה מהאופן שבחרנו להציג‪.‬‬
‫נוסיף לטבלה עמודה עם אמצע מחלקה ̂𝑥‪ ,‬ועמודה של מכפלת אמצע המחלקה בשכיחות‪,‬‬
‫בהן ניעזר בחישוב הממוצע‪:‬‬
‫)𝒙(𝒇 ⋅ ̂‬
‫𝒙‬ ‫𝒙‬‫̂‬ ‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬
‫‪180‬‬ ‫‪22.5‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪550‬‬ ‫‪27.5‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪715‬‬ ‫‪32.5‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪720‬‬ ‫‪40‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪500‬‬ ‫‪50‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪437.5‬‬ ‫‪62.5‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓 ‪𝟑𝟏𝟎𝟐.‬‬ ‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫‪4‬‬
‫‪21/03/2021‬‬
‫‪∑ 𝑥̂ ⋅ 𝑓(𝑥) 22.5 ⋅ 8 + 27.5 ⋅ 20 + ⋯ + 62.5 ⋅ 7 3102.5‬‬

‫= ̅𝑋‬ ‫=‬ ‫=‬ ‫‪= 36.5‬‬
‫𝑛‬ ‫‪85‬‬ ‫‪85‬‬
‫תכונת הממוצע‬
‫טענה‪ :‬סכום הסטיות של כל התצפיות מהממוצע שווה לאפס‪ .‬במילים אחרות‪ ,‬סכום הסטיות של‬
‫הערכים שקטנים מהממוצע שווה לסכום הסטיות של הערכים שגדולים ממנו‪.‬‬
‫נציג את הטענה בצורה פורמאלית‪ :‬הסטייה של תצפית 𝑖 מהממוצע מוגדרת כהפרש בין ערך‬
‫התצפית לערך הממוצע כלומר‪.(𝑥𝑖 − 𝑋̅) :‬‬
‫מהטענה נובע ש‪:‬‬
‫𝑛‬
‫‪∑(𝑥𝑖 − 𝑋̅) = 0‬‬

‫‪𝑖=1‬‬
‫דוגמא‪ :‬נמחיש את הטענה בדוגמא הבאה‪:‬‬

‫נתונה סדרה הכוללת ‪ 5‬מספרים‪.7, 12, 0, 3, 18 :‬‬
‫תחילה נחשב את ממוצע הסדרה‪:‬‬
‫‪7 + 12 + 0 + 3 + 18‬‬
‫= ̅𝑋‬ ‫‪=8‬‬
‫‪5‬‬
‫כעת נחשב את סכום הסטיות של חמש התצפיות מהממוצע‪ ,‬ונקבל שהוא אפס‪:‬‬
‫‪5‬‬
‫= )‪∑(𝑥𝑖 − 𝑋̅) = (7 − 8) + (12 − 8) + (0 − 8) + (3 − 8) + (18 − 8‬‬

‫‪𝑖=1‬‬
‫‪= −1 + 4 − 8 − 5 + 10 = 0‬‬
‫חציון )‪(Median‬‬
‫חציון הינו הערך כך שלפחות מחצית מהתצפיות קטנות או שוות לו ולפחות מחצית מהתצפיות‬
‫גדולות או שוות לו‪.‬‬
‫במילים אחרות‪ ,‬החציון הינו הערך האמצעי ברשימה המסודרת של התצפיות‪.‬‬
‫סימון‪ :‬את החציון של משתנה 𝑋 נסמן ב‪.𝑀𝑒(𝑋)-‬‬
‫אופן החישוב‪ :‬נציג את אופן חישוב החציון בכל אחת משלוש צורות ההצגה שהמשתנה יכול‬
‫להופיע בהן‪:‬‬
‫רשימת תצפיות‪ :‬כאשר הנתונים מופיעים כרשימה של 𝑛 תצפיות אשר מסומנות ב‪-‬‬ ‫א‪.‬‬
‫𝑛𝑥 ‪ ,𝑥1 , 𝑥2 , … ,‬חישוב החציון יתבצע בשני שלבים‪ .‬בשלב הראשון נסדר את התצפיות‬
‫בסדר עולה ובשלב השני נבדוק את ערכה של התצפית האמצעית ברשימה המסודרת‪.‬‬
‫בבואנו לבדו את ערך התצפית במקום האמצעי עלינו לעשות הבחנה אם מספר התצפיות‬
‫)𝑛( זוגי או אי‪-‬זוגי‪.‬‬
‫‪𝑛+1‬‬
‫‪.‬‬ ‫כאשר 𝑛 אי‪-‬זוגי ישנה תצפית אחת אמצעית‪ :‬התצפית במקום ה‪-‬‬
‫‪2‬‬
‫𝑛‬
‫כאשר 𝑛 זוגי ישנן שתי תצפיות אמצעיות‪ :‬התצפית במקום ה‪ 2 -‬והתצפית במקום‬
‫𝑛‬
‫ה‪. 2 + 1 -‬‬
‫‪5‬‬
‫‪21/03/2021‬‬
‫דוגמא‪ :‬נשתמש בדוגמא שהצגנו מוקדם יותר‪ :‬דגמנו ‪ 10‬נשים לאחר לידה ומדדנו את‬
‫רמת ההמוגלובין שלהן‪:‬‬
‫‪10.7, 11.2, 10.9, 10, 7.4, 7, 8.1, 11.9, 9.3, 10.4‬‬
‫נחשב את חציון רמת ההמוגלובין עבור המדגם של ‪ 10‬הנשים‪ .‬בשלב הראשון נסדר את‬
‫התצפיות בסדר עולה‪:‬‬
‫‪7, 7.4, 8.1, 9.3, 𝟏𝟎, 𝟏𝟎. 𝟒, 10.7, 10.9, 11.2, 11.9‬‬
‫נשים לב שבדוגמא מספר תצפיות זוגי‪ ,‬שכן ‪ ,𝑛 = 10‬ולכן יש שתי תצפיות אמצעיות‪:‬‬
‫תצפית ‪ 5‬ותצפית ‪ 6‬ברשימה המסודרת‪.‬‬
‫‪10 + 10.4‬‬
‫= )𝑋(𝑒𝑀‬ ‫‪= 10.2‬‬
‫‪2‬‬
‫מכיוון שמספר התצפיות זוגי ולכן יש שתי תצפיות אמצעיות‪ ,‬חציון הגובה התקבל על‪-‬ידי‬
‫הממוצע של שתי התצפיות האמצעיות – התצפית במקום החמישי והתצפית במקום‬
‫השישי‪ ,‬שערכיהן ‪ 10‬ו‪ 10.4-‬בהתאמה‪ .‬קיבלנו שחציון רמת ההמוגלובין במדגם שווה ל‪-‬‬
‫‪.10.2‬‬
‫משמעות התוצאה‪ 10.2 :‬זו רמת ההמוגלובין האמצעית בסדרה – למחצית מהנשים‬
‫במדגם יש רמת המוגלובין נמוכה מ‪ 10.2-‬ולמחצית יש רמת המוגלובין גבוהה יותר‪.‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬כאשר נתונה לנו טבלת שכיחות עם‬ ‫ב‪.‬‬
‫ערכים בודדים ונדרש לחשב חציון‪ ,‬נוסיף תחילה עמודה חדשה הנקראת עמודת השכיחות‬
‫המצטברת‪ ,‬המסומנת ב‪ .𝐹(𝑥)-‬עמודה זו מתקבלת על‪-‬ידי סכימת השכיחויות הרגילות‪.‬‬
‫𝑛‬
‫בכדי לחשב את החציון נחשב תחילה את הערך ‪( 2‬הפעם אין צורך לעשות הבחנה בין‬
‫המקרה ש‪ 𝑛-‬זוגי למקרה ש‪ 𝑛-‬אי‪-‬זוגי)‪ ,‬ולאחר מכן נבדוק מתי לראשונה גודל זה מופיע‬
‫בעמודת השכיחות המצטברת )𝑥(𝐹‪ .‬הערך עבורו זה מתקבל הינו החציון‪.‬‬
‫דוגמא‪ :‬במשאל של ‪ 60‬חולים בבית חולים גדול‪ ,‬החולים נשאלו לגבי מספר ימי האשפוז‬
‫שלהם בחודש האחרון‪ .‬להלן התוצאות‪:‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬
‫‪6‬‬
‫‪21/03/2021‬‬
‫נחשב את חציון מספר ימי האשפוז‪ .‬לשם כך נוסיף לטבלה עמודה חדשה של השכיחות‬
‫המצטברת‪.𝐹(𝑥) :‬‬
‫)𝒙(𝑭‬ ‫)𝒙(𝒇‬ ‫𝒙‬

‫‪12‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪33‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪49‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪56‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪59‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪60‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬
‫𝑛‬
‫נחשב את הגודל ‪ = 30‬ונחפשו לראשונה בעמודת )𝑥(𝐹‪ .‬אם כך‪ ,‬החציון שווה ל‪ 2-‬ימי‬
‫‪2‬‬
‫אשפוז – ‪.𝑀𝑒(𝑋) = 2‬‬
‫דוגמא נוספת‪ :‬להלן נתונים אודות דירות חדשות לפי מספר חדרים בדירה‪ ,‬ישראל‬
‫‪.2003‬‬
‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬

‫‪173‬‬ ‫‪1‬‬
‫‪331‬‬ ‫‪2‬‬
‫‪4,338‬‬ ‫‪3‬‬
‫‪14,586‬‬ ‫‪4‬‬
‫‪8,447‬‬ ‫‪5‬‬
‫‪5,622‬‬ ‫‪6+‬‬
‫עלינו למצוא ערך 𝑥 שעד אליו מתפלגים מחצית מהמקרים‪ ,‬כלומר‪ ,‬את חציון מספר‬
‫החדרים בדירות חדשות בישראל‪.‬‬
‫נחשב את חציון מספר החדרים בדירה‪ .‬לשם כך נוסיף לטבלה עמודה נוספת של השכיחות‬
‫המצטברת‪.𝐹(𝑥) :‬‬
‫)𝒙(𝑭 – שכיחות מצטברת‬ ‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬

‫‪173‬‬ ‫‪173‬‬ ‫‪1‬‬
‫‪504‬‬ ‫‪331‬‬ ‫‪2‬‬
‫‪4,842‬‬ ‫‪4,338‬‬ ‫‪3‬‬
‫‪19,428‬‬ ‫‪14,586‬‬ ‫‪4‬‬
‫‪27,875‬‬ ‫‪8,447‬‬ ‫‪5‬‬
‫‪33,497‬‬ ‫‪5,622‬‬ ‫‪6+‬‬
‫𝟕𝟗𝟒 ‪𝟑𝟑,‬‬ ‫סה"כ‬
‫𝑛‬
‫נחשב את הגודל ‪ 2 = 16,748.5‬ונחפשו לראשונה בעמודת )𝑥(𝐹‪ .‬אם כך‪ ,‬החציון‬
‫בדוגמא הינו ‪.𝑀𝑒(𝑋) = 4 – 4‬‬
‫‪7‬‬
‫‪21/03/2021‬‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬במקרה בו הנתונים מוצגים בטבלת שכיחות‬ ‫ג‪.‬‬
‫עם מחלקות חישוב החציון מורכב יותר‪ .‬בכדי לחשב את החציון‪ ,‬נמצא תחילה את‬
‫המחלקה בה נמצא החציון‪ ,‬ולאחר מכן נמצא את ערך החציון במחלקה זו‪ .‬חישוב החציון‬
‫יתבצע לפי שני השלבים הבאים‪:‬‬
‫בשלב הראשון‪ ,‬נמצא את המחלקה בה נמצא החציון‪ .‬בכדי למצוא את מחלקת החציון‬
‫𝑛‬
‫נחשב תחילה את הגודל ‪ . 2‬לאחר מכן נבדוק בעמודת השכיחות המצטברת – )𝑥(𝐹‪ ,‬מתי‬
‫לראשונה מתקבל ערך זה לפחות‪ .‬המחלקה עבורה התנאי מתקיים הינה מחלקת החציון‪.‬‬
‫בשלב השני נחשב את הערך המדויק של החציון במחלקה שמצאנו בשלב הראשון בעזרת‬
‫הנוסחא הבאה‪:‬‬
‫נוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות (משתנה רציף)‪:‬‬
‫𝑙‬ ‫𝑛‬
‫‪𝑀𝑒(𝑋) = 𝐿1 +‬‬ ‫) ‪⋅ ( − 𝐹1‬‬
‫‪𝑓(𝑥) 2‬‬
‫כאשר‪:‬‬
‫‪ 𝐿1‬הינו הגבול התחתון של מחלקת החציון (זו שמצאנו בשלב הראשון)‪.‬‬ ‫‪-‬‬
‫𝑙 הינו רוחב מחלקת החציון‪.‬‬ ‫‪-‬‬
‫‪ 𝐹1‬הינה השכיחות המצטברת של המחלקה הקודמת למחלקת החציון‪.‬‬ ‫‪-‬‬
‫)𝑥(𝑓 הינה השכיחות (הרגילה) של מחלקת החציון‪.‬‬ ‫‪-‬‬
‫דוגמא‪ :‬נשתמש בדוגמא שהצגנו מוקדם יותר עם הגילאים של ‪ 85‬עובדי קופת חולים‪.‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖‬ ‫סה"כ‬
‫נחשב את חציון הגיל עבור ‪ 85‬העובדים‪ .‬לשם כך‪ ,‬נוסיף לטבלה את עמודת השכיחות‬
‫המצטברת – )𝑥(𝐹‪.‬‬
‫)𝒙(𝑭‬ ‫)𝒙(𝒇‬ ‫𝒙‬

‫‪8‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪28‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪50‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪68‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪78‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪85‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫סה"כ‬ ‫𝟓𝟖‬ ‫סה"כ‬
‫𝑛‬ ‫‪85‬‬
‫בשלב הראשון נחשב את הגודל ‪ 2 = 2 = 42.5‬ונחפש מתי לראשונה הוא מופיע בעמודת‬
‫השכיחות המצטברת‪ .‬זה קורה בשורה השלישית‪ ,‬ולכן מחלקת החציון הינה המחלקה‬
‫‪.30 − 35‬‬
‫‪8‬‬
‫‪21/03/2021‬‬
‫בשלב השני נמצא את הערך המדויק של החציון בתוך המחלקה השלישית‪ ,‬אותה מצאנו‬
‫בשלב הראשון‪ .‬לשם כך נשתמש בנוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות‪:‬‬
‫𝑙‬ ‫𝑛‬ ‫‪35 − 30‬‬
‫‪𝑀𝑒(𝑋) = 𝐿1 +‬‬ ‫‪⋅ ( − 𝐹1 ) = 30 +‬‬ ‫‪⋅ (42.5 − 28) = 33.29‬‬
‫‪𝑓(𝑥) 2‬‬ ‫‪22‬‬
‫קיבלנו שחציון הגיל הינו ‪ ,33.29‬כלומר‪ ,‬זהו הגיל שמחצית מהעובדים מעליו ומחצית‬
‫מתחתיו‪.‬‬
‫דוגמא נוספת‪ :‬נשים נשואות בכוח העבודה האזרחי בישראל לפי גיל‪ ,‬בשנת ‪2003‬‬
‫(באלפים)‪.‬‬
‫)𝒙(𝒇 – מספר נשים‬ ‫𝒙 – גיל‬
‫‪33.8‬‬ ‫‪18 − 24‬‬
‫‪230.1‬‬ ‫‪25 − 34‬‬
‫‪437.9‬‬ ‫‪35 − 54‬‬
‫‪80.2‬‬ ‫‪55 − 64‬‬
‫נחשב מהו חציון גיל אישה נשואה עובדת עבור הנתונים בדוגמא‪ .‬נוסיף את עמודת‬
‫השכיחות המצטברת שתסייע לנו בחישוב החציון‪.‬‬
‫)𝒙(𝑭 – שכיחות מצטברת‬ ‫)𝒙(𝒇 – מספר נשים‬ ‫𝒙 – גיל‬
‫‪33.8‬‬ ‫‪33.8‬‬ ‫‪18 − 24‬‬
‫‪263.9‬‬ ‫‪230.1‬‬ ‫‪25 − 34‬‬
‫‪701.8‬‬ ‫‪437.9‬‬ ‫‪35 − 54‬‬
‫‪782‬‬ ‫‪80.2‬‬ ‫‪55 − 64‬‬
‫𝟐𝟖𝟕‬ ‫סה"כ‬
‫𝑛‬ ‫‪782‬‬
‫בשלב הראשון נחשב את הגודל ‪ 2 = 2 = 391‬ונחפש מתי לראשונה הוא מופיע‬
‫בעמודת השכיחות המצטברת‪ .‬זה קורה בשורה השלישית‪ ,‬ולכן מחלקת החציון הינה‬
‫המחלקה ‪.35 − 54‬‬
‫בשלב השני נמצא את הערך המדויק של החציון בתוך המחלקה השלישית‪ ,‬אותה מצאנו‬
‫בשלב הראשון‪ .‬לשם כך נשתמש בנוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות‪:‬‬
‫𝑙‬ ‫𝑛‬ ‫‪55 − 35‬‬
‫‪𝑀𝑒(𝑋) = 𝐿1 +‬‬ ‫‪⋅ ( − 𝐹1 ) = 35 +‬‬ ‫‪⋅ (391 − 263.9) = 40.805‬‬
‫‪𝑓(𝑥) 2‬‬ ‫‪437.9‬‬
‫קיבלנו שחציון הגיל של אישה נשואה עובדת הינו ‪ ,40.805‬כלומר‪ ,‬זהו הגיל שמחצית‬
‫מהנשים העובדות מעליו ומחצית מתחתיו‪.‬‬
‫שכיח )‪(Mode‬‬
‫השכיח הינו הערך השכיח‪/‬נפוץ ביותר מבין כל התצפיות‪.‬‬
‫סימון‪ :‬את השכיח של משתנה מקרי 𝑋 נסמן ב‪.𝑀𝑜(𝑋)-‬‬
‫הערה‪ :‬קיימות דוגמאות בהן ישנם מספר שכיחים‪ .‬כמו כן‪ ,‬אם כל התצפיות מופיעות מספר שווה‬
‫של פעמים‪ ,‬אזי נאמר שאין שכיח‪.‬‬
‫את השכיח (בניגוד לממוצע וחציון) ניתן לחשב (גם) למשתנה ברמת המדידה הנמוכה ביותר –‬
‫למשתנה נומינאלי‪ ,‬ולכן ניתן לחשבו גם לכל משתנה ברמת מדידה גבוהה יותר‪ .‬לכן‪ ,‬נציג בהמשך‬
‫דוגמאות לשכיח הן עבור משתנים כמותיים והן עבור משתנים איכותיים‪.‬‬
‫‪9‬‬
‫‪21/03/2021‬‬
‫דוגמא – רשימת תצפיות‪ :‬להלן רשימה של ‪ 12‬גבהים של גברים אשר נדגמו באופן מקרי‪:‬‬
‫‪𝟏𝟕𝟖, 172, 186, 180, 171, 163, 𝟏𝟕𝟓, 179, 𝟏𝟕𝟓, 𝟏𝟕𝟖, 182, 173‬‬
‫בדוגמא זו ישנם שני שכיחים‪ 175 :‬ו‪ ,178-‬שכן שני ערכים אלו מופיעים פעמיים בסדרה‪ ,‬בעוד‬
‫יתר הערכים מופיעים רק פעם אחת‪ .‬נרשום זאת בצורה פורמלית‪.𝑀𝑜(𝑋) = 175, 178 :‬‬
‫דוגמא ‪ -‬טבלת שכיחות עם ערכים בודדים (משתנה בדיד)‪ :‬מספר ימי אשפוז בחודש האחרון‬
‫בקרב ‪ 60‬חולים בבית חולים כלשהו‪.‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬
‫השכיח בדוגמא זו הינו ‪ 2‬ימי אשפוז‪ ,‬שכן ערך זה מופיע הכי הרבה פעמים במדגם‪ .‬רישום‬
‫פורמאלי‪.𝑀𝑜(𝑋) = 2 :‬‬
‫חישוב שכיח בטבלת שכיחות עם מחלקות‪ :‬כאשר המשתנה הנחקר מופיע בטבלת שכיחות עם‬
‫מחלקות‪ ,‬נהוג לקבוע שהשכיח הינו אמצע המחלקה בעלת הצפיפות הגבוהה ביותר‪.‬‬
‫בשלב הראשון נחשב את הצפיפות בכל מחלקה ומחלקה‪ .‬לאחר מכן נבדוק מי היא המחלקה‬
‫הצפופה ביותר‪ ,‬ונקבע שהשכיח הינו אמצע מחלקה זו‪.‬‬
‫תזכורת – הגדרה של צפיפות במחלקה‪ :‬שכיחות ליחידה אחת של המשתנה הנחקר‪ .‬אם כך‪,‬‬
‫הצפיפות במחלקה שווה לשכיחות של המחלקה חלקי רוחב המחלקה‪ .‬את הצפיפות סימנו ב‪,𝑑 -‬‬
‫והנוסחא הינה‪:‬‬
‫)𝑥(𝑓‬
‫=𝑑‬
‫𝑙‬
‫דוגמא – טבלת שכיחות עם מחלקות‪ :‬גילאים בקופת חולים עבור מדגם של ‪ 85‬עובדים‪.‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫נחשב את השכיח‪ .‬בכדי לחשב את השכיח‪ ,‬נוסיף עמודה נוספת – צפיפות במחלקה 𝑑‪ ,‬המחושבת‬
‫על‪-‬פי הנוסחא‪:‬‬
‫)𝑥(𝑓‬
‫=𝑑‬
‫𝑙‬
‫‪10‬‬
‫‪21/03/2021‬‬
‫𝒅‬ ‫)𝒙(𝒇‬ ‫𝒙‬

‫‪8‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫𝟔 ‪= 𝟏.‬‬
‫‪5‬‬
‫‪20‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫𝟒=‬
‫‪5‬‬
‫‪22‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫𝟒 ‪= 𝟒.‬‬
‫‪5‬‬
‫‪18‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫𝟖 ‪= 𝟏.‬‬
‫‪10‬‬
‫‪10‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫𝟏=‬
‫‪10‬‬
‫‪7‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟕𝟒 ‪= 𝟎.‬‬
‫‪15‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫המחלקה הצפופה ביותר הינה המחלקה השלישית ‪ ,30 − 35‬ולכן השכיח מוגדר להיות אמצע‬
‫מחלקה זו‪ ,‬כלומר‪.𝑀𝑜(𝑋) = 32.5 – 32.5 ,‬‬
‫טבלת סיכום – באילו ערכים מרכזיים ניתן להשתמש לכל סוג משתנה‬
‫יחס‬ ‫אינטרוואלי‬ ‫אורדינאלי‬ ‫נומינאלי‬
‫שכיח‬ ‫שכיח‬ ‫שכיח‬ ‫שכיח‬
‫חציון‬ ‫חציון‬ ‫חציון‬
‫ממוצע‬ ‫ממוצע‬
‫הבדלים עיקריים בין שלושת מדדי המיקום‬

‫כל אחד מבין שלושת מדדי המיקום בודק בצורה מעט שונה היכן המרכז של סדרת הנתונים‪.‬‬
‫הממוצע והחציון נחשבים למדדי מיקום פופולאריים ושימושיים יותר‪ ,‬מכיוון שהשכיח מתייחס‬
‫רק לערך שמופיע הכי הרבה פעמים ומתעלם מיתר הערכים‪.‬‬
‫הממוצע והחציון מושפעים באופן שונה מקיומם של ערכים קיצוניים בסדרה‪/‬במדגם‪ .‬הממוצע‬
‫מושפע מערכיהם של כל התצפיות‪ ,‬ולכן קיום ערך קיצוני ישפיע על הממוצע‪ .‬לעומת זאת‪ ,‬החציון‬
‫מתייחס רק לסדר הערכים אך לא לערכם‪ ,‬לכן לא יושפע מערך קיצוני‪.‬‬
‫דוגמא‪ :‬נמחיש זאת בדוגמא הבאה‪:‬‬
‫עבור סדרה הכוללת את חמש התצפיות הבאות‪:‬‬
‫‪1, 2, 3, 4, 5‬‬
‫אנו מקבלים שהממוצע והחציון שווים ל‪.3-‬‬
‫כעת‪ ,‬נגדיל את התצפית החמישית מ‪ 5-‬ל‪500-‬‬
‫ובכך יתקבל ערך קיצוני בסדרה‪ .‬הסדרה החדשה הינה‪:‬‬
‫‪1, 2, 3, 4, 500‬‬
‫בעקבות שינוי זה הממוצע גדל בצורה משמעותית וערכו החדש הינו ‪ .102‬לעומת זאת‪ ,‬החציון‬
‫נשאר ‪ 3‬שכן התצפית השלישית שערכה ‪ 3‬היא עדיין התצפית האמצעית ברשימה‪ .‬כפי שראינו‬
‫מהדוגמא‪ ,‬הערך הקיצוני ‪ 500‬השפיע רק על הממוצע (הגדיל אותו בצורה ניכרת) אך לא השפיע‬
‫כלל על החציון‪.‬‬
‫‪11‬‬
‫‪21/03/2021‬‬
‫תרגיל‪:‬‬
‫שאלה‪ :‬לפניכם נתונים על שנות ותק בעבודה של ‪ 11‬עובדים‪:‬‬
‫‪4, 6, 8, 9, 11, 13, 14, 16, 16, 16, 19‬‬
‫מהו הוותק השכיח‪ ,‬החציוני והממוצע עבור המדגם?‬
‫תשובה‪ :‬שכיח = ‪ ,16‬חציון = ‪ ,13‬ממוצע = ‪.12‬‬
‫שאלה‪ :‬התברר כי חלה טעות ברישום‪ ,‬והוותק של העובד בעל ‪ 4‬שנות ותק הוא למעשה ‪ 7‬שנות‬
‫ותק‪ .‬ללא חישובים‪ ,‬כיצד ישפיע תיקון הטעות על כל אחד מהערכים המרכזיים (יקטן‪/‬יגדל‪/‬לא‬
‫ישתנה)?‬
‫תשובה‪ :‬השכיח והחציון לא ישתנו‪ ,‬והממוצע יגדל‪.‬‬
‫שאלה למחשבה‪ :‬נתונה הסדרה הבאה‪:‬‬
‫‪5, 5, 7, 10, 12, 15, 17‬‬
‫באילו מהמקרים הבאים הוספת שני המספרים תשנה את חציון הסדרה?‬
‫‪ – 2, 3‬תשפיע‪.‬‬ ‫א‪.‬‬
‫‪ – 11, 9‬לא תשפיע‪.‬‬ ‫ב‪.‬‬
‫‪ – 16, 4‬לא תשפיע‪.‬‬ ‫ג‪.‬‬
‫‪ – 21, 11‬תשפיע‪.‬‬ ‫ד‪.‬‬
‫מדדי המרכז עבור מספר עקומות פופולאריות‬
‫בהרצאה ‪ 2‬הצגנו מספר התפלגויות פופולאריות המתקבלות מדיאגרמת המקלות או‬
‫מהיסטוגרמה עבור דוגמא כלשהי‪.‬‬
‫מצורת העקומה של ההתפלגות קל לראות האם מדובר בעקומה סימטרית או בעקומה שאינה‬
‫סימטרית‪ ,‬האם עיקר התצפיות מרוכזות במרכז או בקצוות ועוד‪.‬‬
‫נציג שוב את העקומות‪/‬ההתפלגויות הפופולאריות שהוצגו בהרצאה ‪ ,2‬ועבור כל אחת נקבע היכן‬
‫מתקבלים שלושת מדדי המיקום‪:‬‬
‫התפלגות פעמונית סימטרית (נורמאלית)‪ :‬התפלגות פעמונית סימטרית (הנקראת גם התפלגות‬
‫נורמאלית) הינה עקומה סימטרית בה רוב התצפיות נמצאות במרכז העקומה ומעט בקצוות‪.‬‬
‫בעקומה זו מתקיים ששלושת מדדי המיקום שווים ומתקבלים בנקודת הסימטריה של העקומה‪.‬‬
‫כלומר‪ ,‬ממוצע = חציון = שכיח‪.‬‬
‫‪12‬‬
‫‪21/03/2021‬‬
‫דוגמא למשתנה שמפולג בקירוב נורמאלית‪:‬‬

‫ציון משוקלל של סטודנט בסוף שנה א'‬
‫התפלגות ‪ U‬סימטרית‪ :‬התפלגות ‪ U‬הינה סימטרית‪ ,‬בה רוב התצפיות נמצאות בקצוות העקומה‬
‫ומעט במרכז‪.‬‬
‫התפלגות זו הפוכה להתפלגות הפעמונית הסימטרית שכן בהתפלגות זו מעט תצפיות במרכז‬
‫ההתפלגות ועיקר המסה נמצאת בקצוות‪.‬‬
‫בעקומה זו מתקיים שהממוצע שווה לחציון‪ ,‬והם מתקבלים בנק' הסימטריה‪ .‬כמו‪-‬כן‪ ,‬ישנם שני‬
‫שכיחים הנמצאים בקצוות ההתפלגות‪.‬‬
‫התפלגות אחידה‪ :‬בהתפלגות זו יש פיזור אחיד לאורך כל העקומה‪ .‬התפלגות זו מתקבלת כאשר‬
‫השכיחויות של כל ערכי המשתנה שוות (או כמעט שוות)‪ .‬צורתה של העקומה האחידה הינה קו‬
‫ישר המקביל לציר האופקי‪.‬‬
‫למעשה גם זו עקומה סימטרית‪ ,‬בה הממוצע שווה לחציון‪ ,‬והם מתקבלים בנקודת הסימטריה של‬
‫העקומה‪ .‬לגבי השכיח – בעקומה זו אין שכיח‪ ,‬שכן אין נקודה בה ההתפלגות הכי גבוהה‪.‬‬
‫‪13‬‬
‫‪21/03/2021‬‬
‫התפלגות א‪-‬סימטרית חיובית (ימנית)‪ :‬התפלגות זו אינה סימטרית‪ ,‬בה רוב התצפיות מרוכזות‬
‫בערכים נמוכים של המשתנה וישנן מעט תצפיות חריגות בערכים גבוהים של המשתנה‪ .‬בגלל‬
‫עובדה זו להתפלגות יש "זנב" בצד ימין‪.‬‬
‫עבור התפלגות זו הממוצע גבוה ביחס ליתר מדדי המיקום שכן תצפיות חריגות בערכים גבוהים‬
‫של המשתנה מגדילות את הממוצע‪ .‬כמו כן‪ ,‬השכיח נמוך ביחס ליתר מדדי המיקום‪ ,‬שכן עיקר‬
‫התצפיות מרוכזות בערכים נמוכים של המשתנה‪ .‬לכן‪ ,‬עבור התפלגות א‪-‬סימטרית חיובית‬
‫מתקיים‪ :‬ממוצע < חציון < שכיח‪.‬‬
‫התפלגות א‪-‬סימטרית שלילית (שמאלית)‪ :‬התפלגות זו אינה סימטרית‪ ,‬עבורה רוב התצפיות‬
‫מרוכזות בערכים גבוהים של המשתנה וישנן מעט תצפיות חריגות בערכים נמוכים של המשתנה‪.‬‬
‫בגלל עובדה זו להתפלגות יש "זנב" בצד שמאל‪.‬‬
‫עבור התפלגות זו הממוצע נמוך ביחס ליתר מדדי המיקום שכן תצפיות חריגות בערכים נמוכים‬
‫של המשתנה מקטינות את הממוצע‪ .‬כמו כן‪ ,‬בהתפלגות זו השכיח גבוה ביחס ליתר מדדי המיקום‪,‬‬
‫שכן עיקר התצפיות מרוכזות בערכים גבוהים של המשתנה‪ .‬לכן‪ ,‬עבור בהתפלגות א‪-‬סימטרית‬
‫שלילית‪ :‬שכיח < חציון < ממוצע‪.‬‬
‫‪14‬‬
‫‪11/04/2021‬‬

‫נושא ההרצאה‪ :‬מדדי פיזור‪ :‬שונות וסטיית תקן‬
‫מדדי פיזור – הקדמה‬
‫תפקידם של מדדי הפיזור הוא לאפיין את מידת הפיזור של הנתונים‪/‬תצפיות‪.‬‬
‫מדדי המיקום אשר למדנו (ממוצע‪ ,‬חציון ושכיח) אינם מספיקים כדי לתאר ולאפיין את המשתנה‬
‫הנחקר‪ ,‬שכן הם מתייחסים רק למיקומן של התצפיות אך לא לפיזור שבין התצפיות‪ .‬אנו נרצה‬
‫לאפיין את המשתנה לא רק בעזרת מדדים אשר תפקידם לבדוק את מיקומו אלא גם בעזרת‬
‫מדדים אשר מטרתם לבחון את פיזורו‪.‬‬
‫נמחיש זאת בדוגמא הבאה – נתונות שתי סדרות בעלות חמישה מספרים‪:‬‬
‫‪0, 2, 3, 5, 10‬‬ ‫א‪.‬‬
‫‪−2, 0, 3, 7, 12‬‬ ‫ב‪.‬‬
‫קל להיווכח שבשתי הסדרות הללו הממוצע שווה ל‪ ,4-‬החציון שווה ל‪ 3-‬ואין שכיח‪ .‬כלומר‪,‬‬
‫שלושת מדדי המיקום מקבלים ערך זהה בשתי הסדרות‪ .‬לעומת זאת‪ ,‬שתי הסדרות אינן זהות –‬
‫ניתן לראות שהסדרה השנייה מפוזרת יותר מהראשונה‪ .‬נהיה מעוניינים במדדים נוספים שיבדקו‬
‫את רמת הפיזור של הנתונים‪.‬‬
‫לכן‪ ,‬מדדים סטטיסטיים המתארים את מידת הפיזור או ההטרוגניות של הנתונים הם חשובים‪.‬‬
‫כמו כן‪ ,‬בעזרת מדדי הפיזור נוכל להשוות בין הפיזור של מספר סדרות שונות של נתונים‪.‬‬
‫קיימים ‪ 4‬מדדי פיזור עיקריים‪ :‬תחום (טווח)‪ ,‬תחום בין רבעוני‪ ,‬שונות וסטיית תקן‪ .‬נציג את שני‬
‫המדדים האחרונים שהם החשובים ביותר‪.‬‬
‫דרישות ממדדי הפיזור‪:‬‬
‫‪ .1‬המדד יקבל ערך אי‪-‬שלישי בלבד (שכן אין משמעות לפיזור שלילי)‪.‬‬
‫‪ .2‬המדד יתאפס כאשר אין פיזור כלל בין התצפיות (כאשר כל התצפיות שוות זו לזו)‪.‬‬
‫‪ .3‬ככל שהפיזור גדול יותר המדד יקבל ערך גבוה יותר וההפך‪.‬‬
‫באופן כללי‪ ,‬ראינו שהנתונים אודות המשתנה יכולים להופיע בשלוש צורות עיקריות‪:‬‬
‫רשימת תצפיות‪ :‬הצורה הבסיסית ביותר‪ ,‬בה הנתונים יופיעו כרשימה של מספרים‬ ‫א‪.‬‬
‫שאינם מסודרים בטבלה‪.‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬במקרה זה התצפיות ירוכזו בטבלת‬ ‫ב‪.‬‬
‫שכיחות כאשר ערכי המשתנה בטבלה הינם ערכים בודדים‪.‬‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬התצפיות ירוכזו בטבלת שכיחות כאשר‬ ‫ג‪.‬‬
‫המשתנה מצוי בתחום של ערכים‪.‬‬
‫שונות )‪(Variance‬‬
‫השונות של סדרת תצפיות שווה לממוצע ריבועי הסטיות של התצפיות מהממוצע‪.‬‬
‫בחישוב מדד פיזור זה אנו מעלים בריבוע את הסטייה של כל תצפית מהממוצע ולאחר מכן אנו‬
‫מחשבים ממוצע לריבועי הסטיות הללו‪.‬‬
‫נפרט‪ :‬הסטייה של כל תצפית מהממוצע מוגדרת כהפרש בין ערך התצפית לבין ממוצע הסדרה‪.‬‬
‫הסטייה של תצפית 𝑖 מהממוצע הינה ̅𝑋 ‪ .𝑥𝑖 −‬גודל זה יכול להיות חיובי‪/‬שלילי‪/‬אפס‪ .‬בכדי‬
‫שסטיות חיוביות לא יתקזזו עם סטיות שליליות הוחלט להעלות בריבוע כל סטייה‪ .‬לבסוף יש‬
‫לסכום את כל הסטיות הריבועיות הללו ולחלק את התוצאה בגודל המדגם‪ .‬המספר שמתקבל הינו‬
‫השונות של הסדרה‪.‬‬
‫‪1‬‬
‫‪11/04/2021‬‬
‫לפי הגדרת השונות‪ ,‬הפיזור נמדד על סמך ריבוע הסטייה של כל תצפית מהממוצע‪ .‬כאשר‬
‫המרחקים בין התצפיות לממוצע גדולים במיוחד השונות תקבל ערך גבוה‪ ,‬וההפך‪ .‬במילים‬
‫אחרות‪ ,‬השונות תגדל ככל שהפיזור בין התצפיות גדול יותר‪.‬‬
‫אם כל התצפיות שוות זו לזו‪ ,‬השונות בהכרח תהיה שווה לאפס‪.‬‬
‫סימון‪ :‬את השונות נסמן ב‪.𝑆2 -‬‬
‫אופן החישוב‪ :‬נציג את הנוסחא ואופן החישוב של השונות בכל אחת מבין שלוש צורות ההצגה‬
‫הבאות‪ :‬רשימת תצפיות‪ ,‬טבלת שכיחות בעלת ערבים בודדים וטבלת שכיחות עם מחלקות‪:‬‬
‫רשימת תצפיות‪ :‬כאמור‪ ,‬השונות הינה ממוצע ריבועי הסטיות מהממוצע‪ ,‬ולכן‪:‬‬ ‫א‪.‬‬
‫‪2‬‬
‫‪∑(𝑥𝑖 − 𝑋̅)2‬‬
‫= 𝑆‬
‫𝑛‬
‫אופן השימוש בנוסחא‪ :‬תחילה נחשב את הממוצע‪ .‬לאחר מכן נחשב את הסטייה של כל‬
‫תצפית מהממוצע‪ .‬סטייה זו נעלה בריבוע‪ ,‬ונחבר את סכום כל ריבועי הסטיות מהממוצע‪.‬‬
‫לבסוף את התוצאה נחלק בגודל המדגם‪.‬‬
‫דוגמא‪ :‬דגמנו ‪ 12‬גברים ומדדנו את גובהם‪ .‬להלן הגבהים (בס"מ) של ‪ 12‬הגברים‪:‬‬
‫‪178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173‬‬
‫נחשב את שונות הגובה במדגם‪ .‬תחילה נחשב את ממוצע המדגם‪:‬‬
‫‪∑ 𝑥𝑖 178 + 172 + ⋯ + 173‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 176‬‬
‫𝑛‬ ‫‪12‬‬
‫נחשב את השונות‪:‬‬
‫‪∑(𝑥𝑖 − 𝑋̅)2 (178 − 176)2 + (172 − 176)2 + ⋯ + (173 − 176)2‬‬
‫= ‪𝑆2‬‬ ‫=‬ ‫=‬
‫𝑛‬ ‫‪12‬‬
‫‪4 + 16 + ⋯ + 9 390‬‬
‫=‬ ‫=‬ ‫‪= 32.5‬‬
‫‪12‬‬ ‫‪12‬‬
‫נוסחת עבודה לחישוב שונות‪ :‬ישנה נוסחא נוספת לחישוב שונות עבורה כמות העבודה‬
‫הנדרשת לחישוב השונות קטנה יותר‪ .‬נוסחא זאת נקראת "נוסחת עבודה" ויהיה מהיר‬
‫יותר להשתמש בה‪ .‬כמובן שנקבל תוצאה זהה בין אם משתמש בנוסחה המקורית‬
‫שהוצגה בשקפים הקודמים או בנוסחת העבודה‪ .‬להלן נוסחת העבודה לחישוב השונות‬
‫עבור סדרת תצפיות‪:‬‬
‫‪∑ 𝑥𝑖2‬‬
‫‪2‬‬
‫= 𝑆‬ ‫‪− 𝑋̅ 2‬‬
‫𝑛‬
‫דוגמא‪ :‬נשתמש באותם הנתונים של הדוגמא הקודמת – גבהים של ‪ 12‬הגברים‪:‬‬
‫‪178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173‬‬
‫נחשב את שונות הגובה במדגם תוך שימוש בנוסחת העבודה‪.‬‬
‫תחילה נחשב את ממוצע המדגם‪:‬‬
‫‪∑ 𝑥𝑖 178 + 172 + ⋯ + 173‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 176‬‬
‫𝑛‬ ‫‪12‬‬
‫נחשב את השונות‪:‬‬
‫‪∑ 𝑥𝑖2‬‬ ‫‪1782 + 1722 + ⋯ + 1732‬‬ ‫‪372102‬‬
‫‪2‬‬
‫= 𝑆‬ ‫= ‪− 𝑋̅ 2‬‬ ‫= ‪− 1762‬‬ ‫‪− 30976 = 32.5‬‬
‫𝑛‬ ‫‪12‬‬ ‫‪12‬‬
‫‪2‬‬
‫‪11/04/2021‬‬
‫טבלת שכיחות בעלת ערכים בודדים (משתנה בדיד)‪ :‬כאשר נתונה לנו טבלת שכיחות‬ ‫ב‪.‬‬
‫הכוללת מספר ערכים של המשתנה‪ ,‬נחשב את השונות על‪-‬סמך הנוסחא הבאה‪:‬‬
‫)𝑥(𝑓 ⋅ )̅𝑋 ‪∑(𝑥 −‬‬
‫= ‪𝑆2‬‬
‫𝑛‬
‫נוסחא זו דומה מאוד לנוסחא הקודמת (חישוב שונות עבור רשימת תצפיות)‪ ,‬אלא‬
‫שהפעם אנו מכפילים את ריבוע הסטייה של כל ערך בשכיחותו‪.‬‬
‫דוגמא‪ :‬נשתמש בדוגמא הבאה בכדי לחשב את השונות עבור משתנה המוצג בטבלת‬
‫שכיחות עם ערכים בודדים‪ .‬בדוגמא זו‪ ,‬המשתנה 𝑋 מייצג את מס' ימי האשפוז בבית‬
‫חולים עבור מדגם של ‪ 60‬חולים‪.‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬
‫‪21‬‬ ‫‪2‬‬
‫‪16‬‬ ‫‪3‬‬
‫‪7‬‬ ‫‪4‬‬
‫‪3‬‬ ‫‪5‬‬
‫‪1‬‬ ‫‪7‬‬
‫𝟎𝟔‬ ‫סה"כ‬
‫נוסיף לטבלה מספר עמודות נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬
‫)𝒙(𝒇 ⋅ 𝟐) ̅‬
‫𝑿 ‪(𝒙 −‬‬ ‫𝑿 ‪(𝒙 −‬‬‫𝟐) ̅‬ ‫𝑿‪𝒙−‬‬ ‫̅‬ ‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪28.2‬‬ ‫‪2.35‬‬ ‫‪−1.533‬‬ ‫‪12‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪5.964‬‬ ‫‪0.284‬‬ ‫‪−0.533‬‬ ‫‪42‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪3.488‬‬ ‫‪0.218‬‬ ‫‪0.467‬‬ ‫‪48‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪15.064‬‬ ‫‪2.152‬‬ ‫‪1.467‬‬ ‫‪28‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪18.258‬‬ ‫‪6.086‬‬ ‫‪2.467‬‬ ‫‪15‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪19.954‬‬ ‫‪19.954‬‬ ‫‪4.467‬‬ ‫‪7‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟖𝟐𝟗 ‪𝟗𝟎.‬‬ ‫𝟐𝟓𝟏‬ ‫𝟎𝟔‬ ‫סה"כ‬
‫𝟏𝟓 ‪𝟏.‬‬ ‫שונות‪:‬‬ ‫𝟑𝟑𝟓 ‪𝟐.‬‬ ‫ממוצע‪:‬‬
‫בכדי לחשב את שונות מס' ימי האשפוז‪ ,‬עלינו לחשב תחילה את הממוצע‪:‬‬
‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 152‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 2.533‬‬
‫𝑛‬ ‫‪60‬‬
‫כעת נחשב את השונות של המשתנה בעזרת הנוסחא וטבלת העזר שבנינו‪:‬‬
‫‪∑(𝑥 − 𝑋̅)2 ⋅ 𝑓(𝑥) 90.928‬‬
‫= ‪𝑆2‬‬ ‫=‬ ‫‪= 1.51‬‬
‫𝑛‬ ‫‪60‬‬
‫קיבלנו ששונות מספר ימי האשפוז הינה ‪.1.51‬‬
‫נוסחת עבודה לחישוב שונות‪ :‬גם במקרה זה ישנה נוסחת עבודה לחישוב השונות בה‬
‫המאמץ החישובי קטן יותר ולכן היא מומלצת יותר לשימוש‪ .‬להלן נוסחת העבודה‬
‫לחישוב שונות בטבלת שכיחות עם ערכים בודדים‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥 2‬‬
‫= ‪𝑆2‬‬ ‫‪− 𝑋̅ 2‬‬
‫𝑛‬
‫‪3‬‬
‫‪11/04/2021‬‬
‫דוגמא‪ :‬נשתמש באותם הנתונים של הדוגמא הקודמת‪ .‬נוסיף לטבלה מספר עמודות‬
‫נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬
‫𝟐) ̅‬
‫𝑿 ‪(𝒙 −‬‬ ‫𝟐𝒙‬ ‫)𝒙(𝒇 ⋅ 𝒙‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪12‬‬ ‫‪1‬‬ ‫‪12‬‬ ‫‪12‬‬ ‫‪1‬‬
‫‪84‬‬ ‫‪4‬‬ ‫‪42‬‬ ‫‪21‬‬ ‫‪2‬‬
‫‪144‬‬ ‫‪9‬‬ ‫‪48‬‬ ‫‪16‬‬ ‫‪3‬‬
‫‪112‬‬ ‫‪16‬‬ ‫‪28‬‬ ‫‪7‬‬ ‫‪4‬‬
‫‪75‬‬ ‫‪25‬‬ ‫‪15‬‬ ‫‪3‬‬ ‫‪5‬‬
‫‪49‬‬ ‫‪49‬‬ ‫‪7‬‬ ‫‪1‬‬ ‫‪7‬‬
‫𝟔𝟕𝟒‬ ‫𝟐𝟓𝟏‬ ‫𝟎𝟔‬ ‫סה"כ‬
‫𝟑𝟑𝟓 ‪𝟐.‬‬ ‫ממוצע‪:‬‬
‫בכדי לחשב את שונות מס' ימי האשפוז‪ ,‬עלינו לחשב תחילה את הממוצע‪:‬‬
‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 152‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 2.533‬‬
‫𝑛‬ ‫‪60‬‬
‫כעת נחשב את השונות של המשתנה בעזרת נוסחת העבודה וטבלת העזר שבנינו‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥 2‬‬ ‫‪476‬‬
‫‪2‬‬
‫= 𝑆‬ ‫= ‪− 𝑋̅ 2‬‬ ‫‪− 2.5332 = 1.51‬‬
‫𝑛‬ ‫‪60‬‬
‫קיבלנו ששונות מספר ימי האשפוז הינה ‪.1.51‬‬
‫טבלת שכיחות עם מחלקות (משתנה רציף)‪ :‬במקרה זה‪ ,‬בבואנו לחשב את השונות לא‬ ‫ג‪.‬‬
‫נוכל לחשב את ההפרש בין המחלקה (המייצגת תחום ערכים) לבין הממוצע כנדרש‬
‫בנוסחא של השונות‪ ,‬שכן לא ניתן לבצע הפרש בין תחום מספרים לבין מספר‪ .‬לכן ההפרש‬
‫יתבצע בין אמצע המחלקה ̂𝑥 (המייצג מספר בודד)‪ ,‬לבין הממוצע‪ .‬אם כן‪ ,‬בטבלת שכיחות‬
‫עם מחלקות השונות תחושב על סמך הנוסחא הבאה‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑(𝑥̂ − 𝑋̅)2‬‬
‫‪2‬‬
‫= 𝑆‬
‫𝑛‬
‫דוגמא‪ :‬נשתמש בדוגמא הבאה בכדי לחשב את השונות עבור משתנה המוצג בטבלת‬
‫שכיחות עם מחלקות‪ .‬בדוגמא זו‪ ,‬המשתנה 𝑋 מייצג את גיל העובד עבור מדגם של ‪85‬‬
‫עובדים בקופת חולים‪.‬‬
‫)𝒙(𝒇‬ ‫𝒙‬
‫‪8‬‬ ‫‪20 − 25‬‬
‫‪20‬‬ ‫‪25 − 30‬‬
‫‪22‬‬ ‫‪30 − 35‬‬
‫‪18‬‬ ‫‪35 − 45‬‬
‫‪10‬‬ ‫‪45 − 55‬‬
‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫‪4‬‬
‫‪11/04/2021‬‬
‫נוסיף לטבלה מספר עמודות עזר נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬
‫𝒙(‬
‫𝑿‪̂−‬‬‫)𝒙(𝒇 ⋅ 𝟐) ̅‬ ‫𝒙(‬
‫𝑿‪̂−‬‬ ‫𝒙 𝟐) ̅‬
‫𝑿‪̂−‬‬ ‫𝒙 ̅‬
‫)𝒙(𝒇 ⋅ ̂‬ ‫𝒙‬‫̂‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪1568‬‬ ‫‪196‬‬ ‫‪−14‬‬ ‫‪180‬‬ ‫‪22.5‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪1620‬‬ ‫‪81‬‬ ‫‪−9‬‬ ‫‪550‬‬ ‫‪27.5‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪352‬‬ ‫‪16‬‬ ‫‪−4‬‬ ‫‪715‬‬ ‫‪32.5‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪220.5‬‬ ‫‪12.25‬‬ ‫‪3.5‬‬ ‫‪720‬‬ ‫‪40‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪1822.5‬‬ ‫‪182.25 13.5‬‬ ‫‪500‬‬ ‫‪50‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪4732‬‬ ‫‪676‬‬ ‫‪26‬‬ ‫‪437.5‬‬ ‫‪62.5‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓 ‪𝟏𝟎𝟑𝟏𝟓.‬‬ ‫𝟓 ‪𝟑𝟏𝟎𝟐.‬‬ ‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫𝟓𝟑 ‪𝟏𝟐𝟏.‬‬ ‫שונות‪:‬‬ ‫ממוצע‪𝟑𝟔. 𝟓 :‬‬
‫תחילה יש לחשב את ממוצע הגיל‪:‬‬

‫‪∑ 𝑥̂ ⋅ 𝑓(𝑥) 3102.5‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 36.5‬‬
‫𝑛‬ ‫‪85‬‬
‫לאחר מכן ניתן לחשב את השונות תוך שימוש בנוסחא ובטבלת העזר שבנינו‪:‬‬
‫‪2‬‬
‫)𝑥(𝑓 ⋅ ‪∑(𝑥̂ − 𝑋̅)2‬‬ ‫‪10315‬‬
‫= 𝑆‬ ‫=‬ ‫‪= 121.35‬‬
‫𝑛‬ ‫‪85‬‬
‫קיבלנו ששונות הגיל הינה ‪.121.35‬‬
‫נוסחת עבודה לחישוב שונות‪ :‬גם במקרה זה ישנה נוסחת עבודה לחישוב השונות בה‬
‫המאמץ החישובי קטן יותר ולכן היא מומלצת יותר לשימוש‪ .‬להלן נוסחת העבודה‬
‫לחישוב שונות בטבלת שכיחות עם מחלקות‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥̂ 2‬‬
‫= 𝑆‬ ‫‪2‬‬
‫‪− 𝑋̅ 2‬‬
‫𝑛‬
‫דוגמא‪ :‬נשתמש באותם הנתונים של הדוגמא הקודמת‪ .‬נוסיף לטבלה מספר עמודות‬
‫נוספות אשר יסייעו לנו בחישוב השונות‪:‬‬
‫)𝒙(𝒇 ⋅ 𝟐̂‬
‫𝒙‬ ‫𝟐̂‬
‫𝒙‬ ‫𝑿‪̂−‬‬
‫𝒙‬ ‫̅‬ ‫)𝒙(𝒇 ⋅ ̂‬
‫𝒙‬ ‫𝒙‬‫̂‬ ‫)𝒙(𝒇‬ ‫𝒙‬
‫‪4050‬‬ ‫‪506.25‬‬ ‫‪−14‬‬ ‫‪180‬‬ ‫‪22.5‬‬ ‫‪8‬‬ ‫‪20 − 25‬‬
‫‪15125‬‬ ‫‪756.25‬‬ ‫‪−9‬‬ ‫‪550‬‬ ‫‪27.5‬‬ ‫‪20‬‬ ‫‪25 − 30‬‬
‫‪23237.5‬‬ ‫‪1056.25‬‬ ‫‪−4‬‬ ‫‪715‬‬ ‫‪32.5‬‬ ‫‪22‬‬ ‫‪30 − 35‬‬
‫‪28800‬‬ ‫‪1600‬‬ ‫‪3.5‬‬ ‫‪720‬‬ ‫‪40‬‬ ‫‪18‬‬ ‫‪35 − 45‬‬
‫‪25000‬‬ ‫‪2500‬‬ ‫‪13.5‬‬ ‫‪500‬‬ ‫‪50‬‬ ‫‪10‬‬ ‫‪45 − 55‬‬
‫‪27343.75‬‬ ‫‪3096.25‬‬ ‫‪26‬‬ ‫‪437.5‬‬ ‫‪62.5‬‬ ‫‪7‬‬ ‫‪55 − 70‬‬
‫𝟓𝟐 ‪𝟏𝟐𝟑𝟓𝟓𝟔.‬‬ ‫𝟓 ‪𝟑𝟏𝟎𝟐.‬‬ ‫𝟓𝟖 = 𝒏‬ ‫סה"כ‬
‫𝟓 ‪𝟑𝟔.‬‬ ‫ממוצע‪:‬‬
‫תחילה יש לחשב את ממוצע הגיל‪:‬‬

‫‪∑ 𝑥̂ ⋅ 𝑓(𝑥) 3102.5‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 36.5‬‬
‫𝑛‬ ‫‪85‬‬
‫לאחר מכן ניתן לחשב את השונות תוך שימוש בנוסחת העבודה ובטבלת העזר שבנינו‪:‬‬
‫)𝑥(𝑓 ⋅ ‪∑ 𝑥̂ 2‬‬ ‫‪123556.25‬‬
‫= ‪𝑆2‬‬ ‫= ‪− 𝑋̅ 2‬‬ ‫‪− 36.52 = 121.35‬‬
‫𝑛‬ ‫‪85‬‬
‫קיבלנו ששונות הגיל הינה ‪.121.35‬‬
‫‪5‬‬
‫‪11/04/2021‬‬
‫סטיית תקן )‪(Standard Deviation‬‬

‫הגדרה‪ :‬סטיית תקן הינה השורש (החיובי) של השונות‪.‬‬
‫סימון‪ :‬את סטיית התקן נסמן ב‪.𝑆 -‬‬
‫אופן החישוב‪ :‬בכדי לחשב את סטיית התקן של משתנה כלשהו‪ ,‬נחשב תחילה את השונות של‬
‫המשתנה ולאחר מכן נוציא שורש‪ ,‬ובכך נקבל את סטיית התקן‪.‬‬
‫דוגמא‪ :‬בדוגמא הראשונה שהצגנו עבור השונות (כאשר הנתונים מופיעים כרשימת תצפיות)‬
‫קיבלנו ששונות הגובה של ‪ 12‬החיילים הינה ‪ ,32.5‬ולכן סטיית התקן של גובה החיילים הינה‬
‫‪:5.7‬‬
‫‪𝑆 = √𝑆 2 = √32.5 = 5.7‬‬

‫דוגמא‪ :‬בדוגמא השנייה שהצגנו עבור השונות (כאשר הנתונים מופיעים בטבלת שכיחות בעלת‬
‫ערכים בודדים) קיבלנו ששונות מספר ימי האשפוז הינה ‪ ,1.515‬ולכן סטיית התקן של מספר ימי‬
‫האשפוז הינה ‪:1.23‬‬
‫‪𝑆 = √𝑆 2 = √1.51 = 1.23‬‬

‫דוגמא‪ :‬בדוגמא השלישית שהצגנו עבור השונות (כאשר הנתונים בטבלת שכיחות עם מחלקות)‬
‫קיבלנו ששונות הגיל הינה ‪ ,121.35‬ולכן סטיית התקן של הגיל הינה ‪:11.02‬‬
‫‪𝑆 = √𝑆 2 = √121.35 = 11.02‬‬

‫משמעות סטיית התקן‬
‫עבור שני מדדי הפיזור האחרונים שלמדנו – שונות וסטיית תקן‪ ,‬נוכחנו לדעת שמדד אחד מתקבל‬
‫באופן ישיר על‪-‬ידי המדד האחר‪ .‬סטיית התקן הינה השורש של השונות‪ .‬נשאלת השאלה מדוע יש‬
‫צורך בסטיית התקן‪ .‬התשובה לשאלה זו נעוצה בעובדה שלסטיית התקן יש משמעות מסוימת‬
‫בעוד שלשונות אין‪ .‬בעזרת סטיית התקן נוכל לדעת עד כמה נחשב תצפית מסוימת לקיצונית ביחס‬
‫לסדרה‪ .‬במרבית ההתפלגויות רוב התצפיות או אפילו כולן נמצאות בתחום שבין שתי סטיות תקן‬
‫משמאל לממוצע לבין שתי סטיות תקן מימין לממוצע‪ .‬תצפית אשר רחוקה מהממוצע שתי‬
‫סטיות תקן (או יותר) נחשבת לקיצונית‪ .‬סטייה של ‪ 3‬סטיות תקן ומעלה מהממוצע נחשבת‬
‫לסטייה קיצונית מאוד‪.‬‬
‫החיסרון העיקרי של השונות הינו העובדה שאין משמעות לתוצאה שמתקבלת בחישוב השונות‪.‬‬
‫השונות הינה ממוצע ריבועי הסטיות מהממוצע ותו לא‪ .‬אנו מחפשים מדד בעל פירוש יותר‬
‫אינטואיטיבי או בעל תכונה ייחודית כמו זה שיש לסטיית התקן‪.‬‬
‫בעזרת השונות לא ניתן לקבוע האם תצפית מסוימת נחשבת לחריגה‪/‬קיצונית ביחס ליתר‬
‫התצפיות‪ .‬לצורך קביעה שכזאת עלינו להשתמש בערכה של סטיית התקן‪ ,‬ולבדוק כמה סטיות‬
‫תקן רחוקה התצפית מהממוצע‪.‬‬
‫דוגמא‪ :‬נשתמש בדוגמא שהצגנו עם גובה החיילים‪ :‬דגמנו ‪ 12‬חיילים ומדדנו את גובהם‪ .‬להלן‬
‫הגבהים (בס"מ) של ‪ 12‬החיילים‪:‬‬
‫‪178, 172, 186, 180, 171, 163, 175, 179, 175, 178, 182, 173‬‬
‫עבור דוגמא זו כבר חישבנו את הממוצע‪ ,‬השונות וסטיית התקן‪ .‬להלן התוצאות‪ :‬ממוצע = ‪,176‬‬
‫שונות = ‪ ,32.5‬סטיית תקן = ‪.5.7‬‬
‫‪6‬‬
‫‪11/04/2021‬‬
‫גובהו של החייל הכי גבוה במדגם זה הינו ‪ .186‬נבדוק אם הוא נחשב לקיצוני ביחס ליתר‬
‫החיילים אשר במדגם‪ .‬נבדוק כמה סטיות תקן חייל זה גבוה מהממוצע‪ .‬החייל גבוה ב‪ 10-‬ס"מ‬
‫‪10‬‬
‫מהממוצע‪ ,‬אשר מהווים ‪ 5.7 = 1.75‬סטיות תקן‪ .‬לכן‪ ,‬ניתן לומר שחייל זה נחשב יחסית לקיצוני‬
‫ביחס ליתר החיילים‪ ,‬אך לא בצורה רבה מאוד‪.‬‬
‫נבדוק כמה סטיות תקן סוטה החייל הנמוך ביותר מהממוצע‪ .‬גובהו של החייל הנמוך ביותר הוא‬
‫‪13‬‬
‫‪ .163‬החייל נמוך ב‪ 13-‬ס"מ מהממוצע‪ ,‬אשר מהווים ‪ 5.7 = 2.28‬סטיות תקן‪ .‬אם כך‪ ,‬חייל זה‬
‫נחשב בהחלט לקיצוני ביחס ליתר החיילים‪ ,‬שכן גובהו נמוך ביותר משתי סטיות תקן מהממוצע‪.‬‬
‫שאלה למחשבה‬
‫נתונה סדרה סטטיסטית בת ‪ 100‬תצפיות‪ .‬ממוצע הסדרה הוא ‪ 75‬עם סטיית תקן ‪ .10‬נוספו‬
‫לסדרה זו עוד ‪ 3‬תצפיות‪.75, 75, 75 :‬‬
‫לכל ‪ 103‬התצפיות יש להסביר‪:‬‬
‫האם הממוצע יגדל‪/‬יקטן‪/‬לא ישתנה‪/‬לא ניתן לדעת? – הממוצע לא ישתנה‪ ,‬מכיוון שערך‬ ‫א‪.‬‬
‫התצפיות שנוספו זהה לממוצע‪.‬‬
‫האם סטיית התקן תקטן‪/‬תגדל‪/‬לא תשתנה‪/‬לא ניתן לדעת? – אילו הממוצע היה משתנה‪,‬‬ ‫ב‪.‬‬
‫לא היינו יכולים לדבר על סטיית התקן‪ .‬השונות תקטן‪ ,‬ולכן גם סטיית התקן תקטן‪.‬‬
‫‪7‬‬
‫‪18/04/2021‬‬

‫נושא ההרצאה‪ :‬ציוני תקן ואחוזונים‬
‫מיקום יחסי – הקדמה‬
‫לעיתים נרצה להשוות בין מספר תצפיות אשר אינן לקוחות מאותו משתנה‪.‬‬
‫לדוגמא‪ ,‬נניח ישנם שני משתנים 𝑋 ו‪ 𝑌 -‬אשר מציינים את הציון במבחן באנגלית ובמבחן‬
‫בסטטיסטיקה‪ ,‬בהתאמה‪ .‬סטודנט כלשהו נבחן בשני המקצועות הללו והסטודנט מעוניין להשוות‬
‫בין שני הציונים שקיבל‪ .‬שאלה מעניינת הינה באיזה מקצוע ציוני היחסי טוב יותר‪ .‬בכדי לענות על‬
‫שאלה זו נצטרך להשוות את ציונו בכל מקצוע ביחס לממוצע הכיתתי תוך התחשבות גם בפיזור‬
‫הציונים בכל מקצוע‪ .‬בכדי להשתכנע מדוע עלינו להתחשב גם בפיזור של הציונים (ולא להסתפק‬
‫רק בממוצע)‪ ,‬נציג את הדוגמא הבאה‪.‬‬
‫דוגמא‪ :‬רותם נבחן באנגלית ובסטטיסטיקה‪ .‬ציונו של רותם בשני המקצועות הינו ‪ .90‬בכל‬
‫מקצוע נבחנו ‪ 5‬סטודנטים (כולל רותם) ולהלן ציוניהם‪:‬‬
‫הציונים באנגלית‪.60, 70, 80, 𝟗𝟎, 100 :‬‬
‫הציונים בסטטיסטיקה‪.70, 75, 80, 85, 𝟗𝟎 :‬‬
‫קל לראות שבשני המקצועות הממוצע הכיתתי הינו ‪ ,80‬ולכן בשני המקצועות אותם קיבל ‪10‬‬
‫נקודות מעל הממוצע הכיתתי‪ .‬אולם‪ ,‬ציונו היחסי אינו זהה בשני המקצועות‪ .‬באנגלית ציונו אינו‬
‫הכי גבוה‪ ,‬בעוד שבסטטיסטיקה הוא הגבוה ביותר‪ .‬קל לראות שפיזור הציונים בסטטיסטיקה‬
‫קטן יותר מזה שבאנגלית‪ ,‬דבר הגורם לציונו היחסי בסטטיסטיקה להיות גבוה יותר‪.‬‬
‫מדדי מיקום יחסי‬
‫מדדי המיקום היחסי הפופולאריים ביותר הינם אחוזונים וציוני תקן‪ .‬בעזרתם נוכל לחשב מיקום‬
‫יחסי של תצפית כלשהי ביחס לנתונים כולם‪ ,‬ובכך נוכל להשוות בינה בין תצפיות אחרות‪ .‬נציג‬
‫תחילה חישוב ציוני תקן ונעבור אח"כ לחישוב אחוזונים‪.‬‬
‫ציון תקן )‪(Standard Score‬‬

‫הגדרה‪ :‬ציון תקן של תצפית כלשהי מוגדר כמספר סטיות התקן שהתצפית רחוקה מהממוצע‪.‬‬
‫במילים אחרות‪ ,‬אנו בודקים את המרחק שהתצפית רחוקה מהממוצע‪ ,‬כאשר המרחק נמדד‬
‫ביחידות של סטיות תקן‪.‬‬
‫מההגדרה נובע שציון תקן הינו מדד המתייחס הן למיקום של התצפית (באמצעות הממוצע) והן‬
‫לפיזורה (באמצעות סטיית התקן)‪.‬‬
‫נסמן ב‪ 𝑍𝑖 -‬את ציון התקן של תצפית 𝑖‪ ,‬וב‪ 𝑥𝑖 -‬את ערך תצפית 𝑖‪ .‬מההגדרה מתקבל‪:‬‬
‫̅𝑋 ‪𝑥𝑖 −‬‬
‫= 𝑖𝑍‬
‫𝑋𝑆‬
‫ציון תקן משמש לייצוג המקום היחסי של נבדק מסוים ביחס לממוצע הקבוצתי‪ ,‬ובהתחשב‬
‫בסטיית התקן הקבוצתית‪.‬‬
‫ציון התקן הוא מספר טהור‪ ,‬שאינו תלוי ביחידות המדידה של הנתון הגולמי המקורי‪ ,‬ולכן‬
‫מאפשר להשוות בין משתנים בעלי יחידות מדידה שונות‪.‬‬
‫ציון תקן יהיה חיובי כאשר ערך התצפית גבוה מהממוצע‪ ,‬שלילי כאשר ערך התצפית נמוך‬
‫מהממוצע‪ ,‬ואפס כאשר ערך התצפית שווה לממוצע‪.‬‬
‫‪1‬‬
‫‪18/04/2021‬‬
‫לדוגמא‪ ,‬ציון תקן של ‪ +1‬עבור תצפית כלשהי מציין שהתצפית גבוהה מהממוצע בסטיית תקן‬
‫אחת‪ .‬ציון תקן של ‪ −1.5‬עבור תצפית אחרת מציין שהתצפית נמוכה מהממוצע סטיית תקן וחצי‪.‬‬
‫דוגמא‪ :‬דניאל קיבל ציון ‪ 90‬במתמטיקה‪ .‬ממוצע הכיתה במקצוע זה הינו ‪ ,70‬וסטיית התקן ‪.20‬‬
‫באנגלית קיבל דניאל ציון ‪ ,85‬כאשר ממוצע הכיתה ‪ ,70‬וסטיית התקן ‪ .12‬באיזה מקצוע נחשב‬
‫דניאל למוכשר יותר ביחס לכיתתו?‬
‫למעשה‪ ,‬נשאלת השאלה באיזה מקצוע ציוני היחסי גבוה יותר‪ .‬לשם כך נחשב את ציון התקן של‬
‫דניאל במתמטיקה ) 𝑀𝑍( ובאנגלית ) 𝐸𝑍(‪ ,‬ונבדוק איזה מהם גבוה יותר‪.‬‬
‫‪90 − 70‬‬ ‫‪85 − 70‬‬
‫= 𝑀𝑍 ⟸ 𝐸𝑍 < 𝑀𝑍‬ ‫‪= 1,‬‬ ‫= 𝐸𝑍‬ ‫‪= 1.25‬‬
‫‪20‬‬ ‫‪12‬‬
‫קיבלנו שדניאל מוכשר יותר באנגלית ביחס לכיתתו‪ ,‬שכן במקצוע זה הוא קיבל ציון הגבוה ב‪-‬‬
‫‪ 1.25‬סטיות תקן מממוצע הכיתה‪ ,‬בעוד שבמתמטיקה הוא קיבל ציון הגבוה בסטיית תקן אחת‬
‫מממוצע הכיתה‪.‬‬
‫הערה כללית‪ :‬ציון תקן הגדול בערכו המוחלט מ‪ 2-‬נחשב לציון תקן חריג‪ .‬במילים אחרות‪ ,‬הסיכוי‬
‫שתצפית כלשהי תתרחק מהממוצע יותר מ‪ 2-‬סטיות תקן (ימינה או שמאלה) בהחלט נמוך‪.‬‬
‫דוגמא‪ :‬סטודנט נבחר בשני מבחנים שונים‪:‬‬
‫במבחן א' קיבל את הציון ‪ 71‬והממוצע של כלל הנבחנים הינו ‪.80‬‬
‫במבחן ב' קיבל את הציון ‪ 60‬והממוצע של כלל הנבחנים הינו ‪.78‬‬
‫נכון‪/‬לא נכון‪ :‬מכאן נובע כי סטיית התקן של הציונים במבחן א' גדולה מסטיית התקן של הציונים‬
‫במבחן ב' – נכון‪/‬לא נכון‪.‬‬
‫‪71 − 80‬‬ ‫‪60 − 78‬‬
‫= 𝐴𝑍 ⟸ ‪𝑆𝐴 = 12‬‬ ‫‪= −0.75,‬‬ ‫= 𝐵𝑍‬ ‫‪= −1.5 ⟹ 𝑆𝐵 = 12‬‬
‫ֹֹ 𝐴𝑆‬ ‫𝐵𝑆‬
‫קיבלנו שסטיות התקן שוות‪.‬‬
‫דוגמא‪ :‬להלן הנתונים אודות המשכורת של שני חברים העובדים בחברות שונות‪ :‬אורן מרוויח‬
‫‪ ,₪ 8500‬וידוע שממוצע השכר בחברה בה הוא עובד הינו ‪ ₪ 6000‬וסטיית התקן ‪ .₪ 2000‬חיים‬
‫עובד בחברה אחרת בה ממוצע השכר הינו ‪ ₪ 7000‬וסטיית התקן ‪.₪ 1500‬‬
‫ידוע שמיקומו היחס בשכר של שני החברים זהה‪ .‬בדקו למי יש משכורת גבוהה יותר‪.‬‬
‫פתרון‪:‬‬
‫‪8500 − 6000‬‬
‫= 𝑂𝑍‬ ‫‪= 1.25‬‬
‫‪2000‬‬
‫‪𝑥 − 7000‬‬
‫= 𝐻𝑍‬ ‫‪= 1.25 ⟹ 𝑥 = 8875‬‬
‫‪1500‬‬
‫תשובה סופית‪ :‬משכורתו של חיים גבוהה יותר‪.₪ 8875 :‬‬
‫‪2‬‬
‫‪18/04/2021‬‬
‫דוגמא‪ :‬גובהו של נדב ‪ 185‬ס"מ‪ ,‬משקלו ‪ 70‬ק"ג ומנת משכלו ‪ .100‬להלן הממוצע וסטיית התקן‬
‫של ‪ 3‬המשתנים הללו (גובה‪ ,‬משקל ומנת משכל) בכיתתו של נדב‪:‬‬
‫גובה‪ :‬ממוצע‪ ,175 :‬סטיית תקן‪.10 :‬‬
‫משקל‪ :‬ממוצע‪ ,60 :‬סטיית תקן‪.12 :‬‬
‫מנת משכל‪ :‬ממוצע ‪ ,100‬סטיית תקן‪.15 :‬‬
‫באיזו תכונה מבין ‪ 3‬התכונות מתבלט נדב בצורה הבולטת ביותר?‬
‫תשובה סופית‪ :‬בגובה‪ .‬ציון התקן של גובהו הוא הגבוה ביותר בערכו המוחלט‪.‬‬
‫ממוצע וסטיית התקן של ציוני התקן‬
‫טענה‪:‬‬
‫ממוצע ציוני התקן עבור כל סדרה של תצפיות שווה ל‪.0-‬‬ ‫‪.i‬‬
‫סטיית התקן של ציוני התקן עבור כל סדרה של תצפיות שווה ל‪.1-‬‬ ‫‪.ii‬‬
‫דוגמא‪ :‬להלן המשקלים (בק"ג) של חמישה נדגמים‪:‬‬
‫‪67, 75, 57, 82, 69‬‬
‫חשבו את הממוצע ואת סטיית התקן של סדרת חמשת המשקלים‪.‬‬ ‫א‪.‬‬
‫חשבו את ציוני התקן של החמישה‪.‬‬ ‫ב‪.‬‬
‫חשבו את הממוצע של חמשת ציוני התקן ואת סטיית התקן של חמשת ציוני התקן‪ .‬ודאו‬ ‫ג‪.‬‬
‫שקיבלתם ממוצע = ‪ 0‬וסטיית תקן = ‪.1‬‬
‫אחוזונים )‪(Percentile‬‬
‫לפי העיקרון של חלוקת ההתתפלגות לחציון ולרבעונים‪ ,‬ניתן להגדיר ערכי חלוקה לכל אחוז שבין‬
‫‪ 0%‬לבין ‪.(0 < 𝑝 < 100) 100%‬‬
‫נחשב אחוזונים רק כאשר הנתונים מופיעים בטבלת שכיחות עם מחלקות‪ .‬נעשה זאת באמצעות‬
‫הנוסחא הבאה שמזכירה את הנוסחא בה השתמשנו לחישוב החציון‪ ,‬כאשר הנתונים הוצגו‬
‫בטבלת שכיחות עם מחלקות‪:‬‬
‫𝑙‬ ‫𝑝𝑛‬
‫‪𝑋𝑝 = 𝐿1 +‬‬ ‫(⋅‬ ‫) ‪− 𝐹1‬‬
‫‪𝑓(𝑥) 100‬‬
‫𝑝𝑋 מייצג את האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫‪ 𝐿1‬מייצג את הגבול התחתון של המחלקה בה נמצא האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫𝑙 הינו רוחב מחלקת האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫‪ 𝐹1‬הינה השכיחות המצטברת של המחלקה הקודמת למחלקה בה נמצא האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫)𝑥(𝑓 הינה השכיחות (הרגילה) של המחלקה בה נמצא האחוזון ה‪.𝑝-‬‬ ‫‪-‬‬
‫𝑝𝑛‬
‫‪ 100‬מייצג גודל הקשור לאחוזון אותו אנו מחפשים‪.‬‬ ‫‪-‬‬
‫‪3‬‬
‫‪18/04/2021‬‬
‫דוגמאות לאחוזונים‪ :‬כאמור‪ 𝑋𝑝 ,‬מייצג את האחוזון ה‪ ,𝑝-‬כלומר עבור ערך זה ‪ 𝑝%‬מהתצפיות‬

‫קטנות ממנו והיתר גדולות ממנו‪.‬‬
‫‪ 𝑋10‬מייצג את האחוזון ה‪ ,10-‬כלומר ‪ 10%‬מהתצפיות קטנות ממנו ו‪ 90%-‬גדולות‬ ‫‪-‬‬
‫ממנו‪ .‬אחוזון זה נקרא גם עשירון תחתון‪.‬‬
‫ממנו‪ .‬אחוזון זה נקרא גם עשירון עליון‪.‬‬
‫ממנו‪ .‬אחוזון זה נקרא גם עשירון שלישי‪.‬‬
‫מה מייצג אם כך ‪ – ?𝑋50‬חציון‪.‬‬ ‫‪-‬‬
‫העשירון התחתון ) 𝟎𝟏𝑿(‬

‫העשירון התחתון הינו ערך המשתנה הנחקר כך שעשירית מהמקרים קטנים או שווים לו‪ ,‬ותשע‬
‫עשיריות מהמקרים גדולים או שווים לו‪.‬‬
‫נוסחא לחישוב העשירון התחתון (בטבלת שכיחות עם מחלקות)‪:‬‬
‫𝑙‬
‫‪𝑋10 = 𝐿1 +‬‬ ‫) ‪(0.1𝑛 − 𝐹1‬‬
‫)𝑥(𝑓‬
‫הערה‪ :‬העשירון התחתון (או הראשון) נקרא גם מאון ‪ ,10‬העשירון השני מאון ‪ 20‬וכו'‪.‬‬
‫העשירון העליון ) 𝟎𝟗𝑿(‬

‫העשירון העליון הינו ערך המשתנה הנחקר כך שתשע עשיריות מהמקרים קטנים או שווים לו‪,‬‬
‫ועשירית מהמקרים גדולים או שווים לו‪.‬‬
‫נוסחא לחישוב העשירון העליון (בטבלת שכיחות עם מחלקות)‪:‬‬
‫𝑙‬
‫‪𝑋90 = 𝐿1 +‬‬ ‫) ‪(0.9𝑛 − 𝐹1‬‬
‫)𝑥(𝑓‬
‫דוגמא – חישוב עשירון עליון ותחתון‬
‫בדוגמא הבאה ישנם נתונים עבור גיל הנישואים של ‪ 39678‬כלות בזמן נישואיהן‪.‬‬
‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬

‫‪7271‬‬ ‫‪17 − 19‬‬
‫‪15596‬‬ ‫‪20 − 24‬‬
‫‪11497‬‬ ‫‪25 − 29‬‬
‫‪3177‬‬ ‫‪30 − 34‬‬
‫‪979‬‬ ‫‪35 − 39‬‬
‫‪477‬‬ ‫‪40 − 44‬‬
‫‪268‬‬ ‫‪45 − 49‬‬
‫‪413‬‬ ‫‪50 +‬‬
‫𝟖𝟕𝟔 ‪𝟑𝟗,‬‬ ‫סה"כ‬
‫המחלקה האחרונה אינה סגורה ולכן נתייחס אליה כאל מחלקה שבין גיל ‪ 50‬לבין גיל ‪.65‬‬
‫כמו‪-‬כן‪ ,‬יש לעבור מגבולות מדומים (ללא רצף) לגבולות אמיתיים (עם רצף)‪.‬‬
‫‪4‬‬
‫‪18/04/2021‬‬
‫חישוב עשירון תחתון‪ :‬בשלב הראשון (בדומה לשלב הראשון כאשר חישבנו את החציון‪ ,‬הרבעון‬
‫העליון והרבעון התחתון בטבלת שכיחות עם מחלקות) נבדוק מהי המחלקה בה נמצא העשירון‬
‫התחתון על‪-‬ידי חישוב הגודל 𝑛‪ 0.1‬ומציאתו (לפחות) בעמודת השכיחות המצטברת‪.‬‬
‫‪ ,0.1𝑛 = 3967.8‬ולכן המחלקה בה נמצא העשירון התחתון הינה המחלקה הראשונה‪:‬‬
‫‪.17 − 20‬‬
‫בשלב השני נשתמש בנוסחא לחישוב העשירון התחתון ונקבל‪:‬‬
‫𝑙‬ ‫‪3‬‬
‫‪𝑋10 = 𝐿1 +‬‬ ‫‪(0.1𝑛 − 𝐹1 ) = 17 +‬‬ ‫‪(3967.8 − 0) = 18.64‬‬
‫)𝑥(𝑓‬ ‫‪7271‬‬
‫חישוב עשירון עליון‪ :‬בשלב הראשון נבדוק מהי המחלקה בה נמצא העשירון העליון על‪-‬ידי חישוב‬
‫הגודל 𝑛‪ 0.9‬ומציאתו (לפחות) בעמודת השכיחות המצטברת‪ ,0.9𝑛 = 35710.2 .‬ולכן המחלקה‬
‫בה נמצא העשירון העליון הינה המחלקה הרביעית‪.30 − 35 :‬‬
‫בשלב השני נשתמש בנוסחא לחישוב העשירון העליון ונקבל‪:‬‬
‫𝑙‬ ‫‪5‬‬
‫‪𝑋90 = 𝐿1 +‬‬ ‫‪(0.9𝑛 − 𝐹1 ) = 30 +‬‬ ‫‪(35710.2 − 34364) = 31.12‬‬
‫)𝑥(𝑓‬ ‫‪3177‬‬
‫מסקנות‪:‬‬
‫העשירון התחתון הינו ‪ ,18.64‬כלומר ‪ 10%‬מהכלות בישראל נישאות עד לגיל זה‪ ,‬ו‪-‬‬ ‫‪-‬‬
‫‪ 90%‬מהכלות בישראל נישאות מגיל זה ואילך‪.‬‬
‫העשירון העליון הינו ‪ ,32.12‬כלומר ‪ 90%‬מהכלות בישראל נישאות עד לגיל זה‪ ,‬ו‪10%-‬‬ ‫‪-‬‬
‫מהכלות בישראל נישאות מגיל זה ואילך‪.‬‬
‫הערה‪ :‬בעזרת הנוסחא לחישוב אחוזונים יש ביכולתנו לחשב כל אחוזון שנרצה באופן דומה לדרך‬
‫בה חישבנו את העשירון התחתון (אחוזון ‪ )10‬ואת העשירון העליון (אחוזון ‪ )90‬בדוגמא‪.‬‬
‫שאלת תרגול לבית‬
‫שכיחות התיירים – )𝒙(𝒇‬ ‫גיל – 𝒙‬
‫‪46.8‬‬ ‫‪0−4‬‬
‫‪208.6‬‬ ‫‪5 − 19‬‬
‫‪485.8‬‬ ‫‪20 − 34‬‬
‫‪335.8‬‬ ‫‪35 − 44‬‬
‫‪730.3‬‬ ‫‪45 − 64‬‬
‫‪293.3‬‬ ‫‪65 +‬‬
‫𝟔 ‪𝟐𝟏𝟎𝟎.‬‬ ‫סה"כ‬
‫חשבון את העשירון השלישי (אחוזון ה‪ )30-‬של גיל התיירים שהגיעו לישראל בשנת ‪1996‬‬
‫(המספרים בדוגמא הם באלפים)‪.‬‬
‫תשובה סופית‪.31.57 :‬‬
‫‪5‬‬
‫‪25/04/2021‬‬

‫נושא ההרצאה‪ :‬ההתפלגות הנורמאלית‬
‫התפלגות נורמאלית – הקדמה‬
‫ההתפלגות הנורמאלית )‪ (Normal Distribution‬הינה התפלגות בצורת פעמון סימטרי כך‬
‫שמרבית התצפיות נמצאות במרכז ומעט בקצוות‪.‬‬
‫התפלגות זו נקראת גם התפלגות פעמונית או התפלגות גאוס על‪-‬שם המתמטיקאי קרל פרידריך‬
‫גאוס שמצא אותה לראשונה‪.‬‬
‫התפלגות זו הינה ככל הנראה ההתפלגות הפופולארית והחשובה ביותר מבין כל ההתפלגויות‬
‫הרציפות והבדידות כאחד‪.‬‬
‫התפלגות זו כה חשובה מכיוון שתופעות רבות ומשתנים רבים בטבע מפולגים (בקירוב) לפי‬
‫ההתפלגות הנורמאלית‪ .‬לדוגמא‪ :‬משקל‪ ,‬גובה‪ ,‬לחץ דם ועוד משתנים רבים נוספים‪ .‬בנוסף‪,‬‬
‫משתנים רבים הקשורים בציונים (כגון ציוני פסיכומטרי וציוני ‪ )I.Q‬בנויים בצורה כזאת‬
‫שהתפלגות הציונים תהיה בקירוב לפי ההתפלגות הנורמאלית‪.‬‬
‫גורם נוסף ההופך את ההתפלגות הנורמאלית לכה חשובה הוא משפט הגבול המרכזי‪ .‬משפט‬
‫הגבול המרכזי קובע שממוצע (או סכום) של משתנים מקריים בלתי תלויים שאינם מפולגים‬
‫נורמאלית‪ ,‬מפולג בקירוב נורמאלית תחת תנאים מסוימים (לא נלמד בקורס)‪.‬‬
‫צורת הפעמון של ההתפלגות הנורמאלית‬
‫צורת הפעמון נקבעת על‪-‬ידי שני פרמטרים‪ :‬ממוצע ההתפלגות והשונות של ההתפלגות‪.‬‬
‫הממוצע (נקרא גם תוחלת) קובע את מיקום מרכז ההתפלגות‪ ,‬והשונות קובעת את מידת הפיזור‬
‫סביב הממוצע‪.‬‬
‫נהוג לסמן את ממוצע ההתפלגות באות 𝜇 ואת סטיית התקן ב‪.𝜎 -‬‬
‫הסימון עבור התפלגות נורמאלית הוא‪.𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :‬‬
‫‪1‬‬
‫‪25/04/2021‬‬
‫מספר תכונות של ההתפלגות הנורמאלית‬

‫שלושת הערכים המרכזיים (ממוצע‪ ,‬חציון ושכיח) מתלכדים במרכז ההתפלגות‬ ‫‪-‬‬
‫ומתקיים‪ :‬ממוצע = שכיח = חציון‪.‬‬
‫השטח מתחת לפעמון שווה ל‪ 1-‬ומתאר ‪ 100%‬של המקרים‪ 50% .‬מהמקרים הם מתחת‬ ‫‪-‬‬
‫לממוצע‪ ,‬ו‪ 50%-‬מהמקרים מעליו (מכיוון שההתפלגות סימטרית)‪.‬‬
‫בכל התפלגות נורמאלית מתקיים‪:‬‬ ‫‪-‬‬
‫‪ o‬בתחום בין 𝜎 ‪ 𝜇 +‬לבין 𝜎 ‪ 𝜇 −‬נמצאים ‪ 68.26%‬מהמקרים‪.‬‬
‫‪ o‬בתחום בין 𝜎‪ 𝜇 + 2‬לבין 𝜎‪ 𝜇 − 2‬נמצאים ‪ 95.44%‬מהמקרים‪.‬‬
‫‪ o‬בתחום בין 𝜎‪ 𝜇 + 3‬לבין 𝜎‪ 𝜇 − 3‬נמצאים ‪ 99.74%‬מהמקרים‪.‬‬
‫ההתפלגות הנורמאלית הסטנדרטית‬

‫ההתפלגות הנורמאלית הסטנדרטית הינה התפלגות נורמאלית מאוד ספציפית‪ ,‬עבורה ממוצע‬
‫ההתפלגות שווה ל‪ 0-‬וסטיית התקן (וגם השונות) של ההתפלגות שווה ל‪.1-‬‬
‫נסמן את ההתפלגות הנורמאלית הסטנדרטית באות 𝑍‪ ,𝑍 ~ 𝑁(𝜇 = 0, 𝜎 2 = 1) :‬או בקיצור‪:‬‬
‫)‪.𝑍 ~ 𝑁(0, 1‬‬
‫כל תכונות ההתפלגות הנורמאלית חלות כמובן גם על התפלגות זו‪.‬‬
‫טבלת 𝒁 – טבלת ההתפלגות הנורמאלית הסטנדרטית‬

‫כאמור‪ ,‬השטח מתחת להתפלגות הנורמאלית שווה ל‪( 1-‬או ל‪.)100%-‬‬
‫כמו‪-‬כן‪ ,‬התפלגות זו סימטרית סביב הערך אפס‪ ,‬שכן מדובר בהתפלגות נורמאלית סטנדרטית‪.‬‬
‫נשתמש בטבלה כדי לחשב שטחים מימין או משמאל לערך מסוים‪ .‬בטבלה זו ריכזו עבורנו את כל‬
‫השטחים משמאל לערך כלשהו‪ .‬בטבלה זו נשתמש בהמשך גם כאשר נדרש לחשב הסתברויות‬
‫עבור התפלגות נורמאלית כללית (לא סטנדרטית)‪ ,‬אך לפני כן נצטרף לבצע פעולה שנקראת‬
‫תקנון‪/‬נרמול (נראה זאת בהמשך)‪.‬‬
‫שימוש בטבלת 𝒁‪ :‬בטבלת ההתפלגות הנורמאלית הסטנדרטית (טבלת 𝑍) מחושבים השטחים‬
‫(הסתברויות) משמאל לערך מסוים‪ ,‬ולכן טבלה זו הינה טבלת ההתפלגות המצטברת של משתנה‬
‫מקרי נורמאלי סטנדרטי‪.‬‬
‫בטבלה זו ישנן שתי קבוצות מספרים‪:‬‬
‫‪ .1‬מספרים בשולי הטבלה – בעמודה השמאלית ביותר ובשורה העליונה ביותר (החל מ‪0-‬‬
‫ועד ‪.)3.59‬‬
‫‪ .2‬מספרים בתוך הטבלה (החל מ‪ 0.5000-‬ועד ‪.)0.9998‬‬
‫הקבוצה הראשונה מייצגת ערכים שהמשתנה הנורמאלי הסטנדרטי יכול לקבל (בקפיצות של‬
‫‪ ,)0.01‬והקבוצה השנייה מציינת את השטח הנמצא משמאל לערכים המתאימים שבשולי הטבלה‪.‬‬
‫‪2‬‬
‫‪25/04/2021‬‬
‫טבלת 𝒁 (טבלה חלקית – הטבלה המלאה מופיעה ב‪:)Moodle-‬‬
‫סימון‪ :‬נהוג לסמן ב‪ Φ(𝑔)-‬את השטח בהתפלגות הנורמאלית הסטנדרטית שנמצא עד לנקודה 𝑔‬
‫(כלומר משמאל ל‪ ,)𝑔-‬כלומר‪.Φ(𝑔) = 𝑃(𝑍 < 𝑔) :‬‬
‫דוגמא‪ :‬מצאו מהו השטח עד לערך ‪.1.2‬‬
‫‪𝑃(𝑍 < 1.2) = Φ(1.2) = 0.8849‬‬
‫דוגמא‪ :‬מצאו את השטח הנמצא משמאל לערך ‪.2.39‬‬
‫‪𝑃(𝑍 < 2.39) = Φ(2.39) = 0.9916‬‬
‫דוגמא‪ :‬חשבו מהו השטח עד לערך ‪.3.85‬‬
‫פתרון‪.Φ(3.85) = 1 :‬‬
‫הסבר‪ :‬בטבלה‪ ,‬הערך האחרון הנמצא בשולי הטבלה הינו ‪ ,3.59‬ועד אליו יש שטח של‬
‫‪ ,0.9998‬כלומר‪.Φ(3.59) = 0.9998 :‬‬
‫לכן‪ ,‬עבור ערך הגבוה מ‪ ,3.59-‬השטח הנמצא משמאלו בהכרח גדול מ‪ ,0.9998-‬ולכן‬
‫שווה בקירוב ל‪.1-‬‬
‫‪3‬‬
‫‪25/04/2021‬‬
‫חישוב שטח מימין לערך כלשהו בהתפלגות 𝒁‪ :‬נשים לב שהטבלה מחשבת שטחים (הסתברויות)‬
‫משמאל לערך מסוים‪ .‬כמו‪-‬כן‪ ,‬השטח המצוי בין עקומת ההתפלגות הנורמאלית לבין הציר‬
‫האופקי שווה ל‪ .1-‬לכן‪ ,‬כדי לחשב את השטח הנמצא מימין לערך מסוים‪ ,‬נמצא את השטח‬
‫משמאל לאותו ערך ונחסר גודל זה מ‪ ,1-‬ובכך נקבל את התוצאה הרצויה‪ .‬כלומר‪:‬‬
‫)𝑔(𝜙 ‪𝑃(𝑍 > 𝑔) = 1 − 𝑃(𝑍 ≤ 𝑔) = 1 −‬‬
‫דוגמא‪ :‬מצא את השטח מימין לערך ‪.1.09‬‬
‫‪𝑃(𝑍 > 1.09) = 1 − 𝑃(𝑍 ≤ 1.09) = 1 − Φ(1.09) = 1 − 0.8621 = 0.1379‬‬
‫דוגמא‪ :‬מהו השטח המסומן?‬
‫‪𝑃(𝑍 > 1.25) = 1 − 𝑃(𝑍 < 1.25) = 1 − Φ(1.25) = 1 − 0.8944 = 0.1056‬‬
‫‪𝑃(𝑍 > 0.83) = 1 − 𝑃(𝑍 < 0.83) = 1 − Φ(0.83) = 1 − 0.7967 = 0.2033‬‬
‫חישוב הסתברויות מימין‪/‬משמאל לערכים שליליים בהתפלגות 𝒁‪ :‬בשולי הטבלה נמצאים רק‬
‫ערכים אי‪-‬שליליים (החל מ‪ 0-‬עד ל‪.)3.59-‬‬
‫בכדי לחשב שטחים הנמצאים משמאל או מימין לערכים שליליים‪ ,‬נשתמש בעובדה שהטבלה‬
‫סימטרית סביב אפס‪ ,‬ולכן‪:‬‬
‫)𝑔(‪𝑃(𝑍 ≥ −𝑔) = 𝑃(𝑍 ≤ 𝑔) = Φ‬‬
‫)𝑔(‪𝑃(𝑍 ≤ −𝑔) = 𝑃(𝑍 ≥ 𝑔) = 1 − 𝑃(𝑍 ≤ 𝑔) = 1 − Φ‬‬
‫‪4‬‬
‫‪25/04/2021‬‬
‫דוגמא‪ :‬מצא את השטח מימין לערך ‪.−0.5‬‬

‫‪𝑃(𝑍 > −0.5) = 𝑃(𝑍 < 0.5) = Φ(0.5) = 0.6915‬‬
‫דוגמא‪ :‬מצא את השטח משמאל לערך ‪.−2.75‬‬
‫‪𝑃(𝑍 < −2.75) = 𝑃(𝑍 > 2.75) = 1 − 𝑃(𝑍 ≤ 2.75) = 1 − 0.997 = 0.003‬‬
‫‪𝑃(𝑍 < −1.37) = 𝑃(𝑍 > 1.37) = 1 − Φ(1.37) = 1 − 0.9147 = 0.0853‬‬
‫‪𝑃(𝑍 < −0.09) = 𝑃(𝑍 > 0.09) = 1 − Φ(0.09) = 1 − 0.5359 = 0.4641‬‬
‫חישוב הסתברויות בין שני ערכים בהתפלגות 𝒁‪ :‬אם ברצוננו לחשב שטח הנמצא בין שני ערכים‪,‬‬
‫נחשב את השטח הנמצא משמאל לערך הגדול מבין השניים ונחסר ממנו את השטח הנמצא‬
‫משמאל לערך הקטן מבין השניים‪ .‬כלומר‪ ,‬עבור ‪:𝑔2 > 𝑔1‬‬
‫) ‪𝑃(𝑔1 ≤ 𝑍 ≤ 𝑔2 ) = 𝑃(𝑍 ≤ 𝑔2 ) − 𝑃(𝑍 ≤ 𝑔1 ) = Φ(𝑔2 ) − Φ(𝑔1‬‬
‫דוגמא‪ :‬מצא את השטח שבין ‪ −0.4‬לבין ‪.1.17‬‬
‫= )‪𝑃(−0.4 ≤ 𝑍 ≤ 1.17) = 𝑃(𝑍 ≤ 1.17) − 𝑃(𝑍 ≤ −0.4) = 0.879 − 𝑃(𝑍 ≥ 0.4‬‬
‫‪= 0.879 − (1 − Φ(0.4)) = 0.879 − (1 − 0.6554) = 0.5344‬‬
‫‪5‬‬
‫‪25/04/2021‬‬
‫= )‪𝑃(1.23 ≤ 𝑍 ≤ 2.3) = 𝑃(𝑍 ≤ 2.3) − 𝑃(𝑍 ≤ 1.23) = Φ(2.3) − Φ(1.23‬‬
‫‪= 0.9893 − 0.8907 = 0.0986‬‬
‫חישוב הסתברויות בין שני ערכים סימטריים בהתפלגות 𝒁‪ :‬חישוב שטח בין שני ערכים‬
‫סימטריים סביב אפס‪:‬‬
‫‪𝑃(−𝑔 ≤ 𝑍 ≤ 𝑔) = 2 ⋅ Φ(𝑔) − 1‬‬
‫נוכיח זאת באמצעות דוגמא‪.‬‬
‫דוגמא‪ :‬מצא את השטח שבין ‪ −2‬לבין ‪.2‬‬
‫= )‪𝑃(−2 ≤ 𝑍 ≤ 2) = 𝑃(𝑍 ≤ 2) − 𝑃(𝑍 ≤ −2) = Φ(2) − 𝑃(𝑍 ≥ 2‬‬
‫‪= Φ(2) − (1 − Φ(2)) = 2 ⋅ Φ(2) − 1 = 2 ⋅ 0.9772 − 1 = 0.9544‬‬
‫התפלגות נורמאלית שאינה סטנדרטית‬
‫עד כה טיפלנו במשתנה מקרי נורמאלי סטנדרטי – משתנה נורמאלי בעל ממוצע ‪ 0‬וסטיית תקן ‪.1‬‬
‫מריב הדוגמאות (אם לא כולן) עוסקות במשתנה נורמאלי כללי‪ ,‬כלומר‪ ,‬במשתנה שהממוצע שלו‬
‫אינו שווה ל‪ 0-‬בהכרח‪ ,‬וסטיית התקן שלו אינה שווה ל‪ 1-‬בהכרח‪.‬‬
‫בשלב הבא נלמד איך לחשב הסתברויות עבור משתנה נורמאלי כללי‪ .‬נסמן ב‪ 𝑋 -‬את המשתנה‬
‫הנורמאלי הכללי‪.𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :‬‬
‫כדי שנוכל להשתמש בטבלת 𝑍 אשר מתאימה למשתנה נורמאלי סטנדרטי (ממוצע ‪ 0‬וסטיית תקן‬
‫‪ ,)1‬נצטרך לבצע פעולה חשבונית הנקראת פעולת התקנון‪/‬הנרמול‪.‬‬
‫‪6‬‬
‫‪25/04/2021‬‬
‫פעולת הנרמול‪/‬התקנון‬
‫פעולת הנרמול נועדה להפוך משתנה נורמאלי כללי (לא סטנדרטי) למשתנה נורמאלי סטנדרטי‪.‬‬
‫פעולת הנרמול מתבטאת בהסרת הממוצע מהמשתנה הנורמאלי הכללי וחלוקה בסטיית התקן‬
‫שלו‪ .‬כלומר‪ ,‬אם לפנינו משתנה נורמאלי כללי 𝑋‪ ,𝑋 ~ 𝑁(𝜇, 𝜎 2 ) :‬מתקיים ש‪:‬‬
‫𝜇‪𝑋−‬‬
‫)‪⟶ 𝑍 ~ 𝑁(0, 1‬‬
‫𝜎‬
‫𝜇‪𝑋−‬‬
‫אשר ממוצעו שווה ל‪ 0-‬וסטיית התקן שלו שווה ל‪,1-‬‬ ‫במילים אחרות‪ ,‬יצרנו משתנה חדש‬
‫𝜎‬
‫כלומר‪ ,‬המשתנה החדש הוא נורמאלי סטנדרטי‪ ,‬וכעת ניתן להשתמש בטבלת 𝑍‪.‬‬
‫נשים לב שפעולת הנרמול מזכירה למעשה חישוב של ציון תקן‪ .‬כאשר למדנו על ציוני התקן ראינו‬
‫שחישוב ציון תקן לערך כלשהו מתבטא בהחסרת הממוצע מהערך וחלוקה בסטיית התקן‪ .‬זו‬
‫בדיוק הפעולה שאנו עושים כעת‪:‬‬
‫𝜇‪𝑋−‬‬
‫=𝑍‬
‫𝜎‬
‫בפעולת הנרמול אנו מחשבים את ציון התקן של הערך עבורו אנו נדרשים לחשב הסתברות‪ .‬לאחר‬
‫שנחשב את ציון התקן של הערך‪ ,‬נבדוק את ההסתברות הרצויה בעזרת טבלת 𝑍‪.‬‬
‫למעשה‪ ,‬טבלת 𝑍 הינה טבלת ציוני תקן‪.‬‬
‫דוגמא‪ :‬הניחו שציוני המבחן הפסיכומטרי מפולגים (בקירוב) נורמאלית‪ ,‬עם ממוצע ‪ 520‬וסטיית‬
‫תקן ‪ ,100‬כלומר‪.𝑍 ~ 𝑁(520, 1002 ) :‬‬
‫מהו אחוז הנבחנים שקיבלו ציון עד ‪?640‬‬ ‫א‪.‬‬
‫פתרון‪ :‬אנו נדרשים לחשב את השטח משמאל ל‪.640-‬‬
‫תחילה נחשב את ציון התקן של ערך זה‪:‬‬

‫‪640 − 520‬‬
‫=𝑍‬ ‫‪= 1.2‬‬
‫‪100‬‬
‫בשלב הבא נחשב את השטח משמאל לערך ‪ 1.2‬בהתפלגות 𝑍‪:‬‬
‫‪𝑃(𝑍 < 1.2) = Φ(1.2) = 0.8849‬‬
‫קיבלנו ש‪ 88.49%-‬מהנבחנים קיבלו ציון עד ‪.640‬‬
‫‪7‬‬
‫‪25/04/2021‬‬
‫מהו אחוז הנבחנים שקיבלו ציון גבוה מ‪?725-‬‬ ‫ב‪.‬‬
‫פתרון‪ :‬בסעיף זה אנו נדרשים לחשב את השטח מימין ל‪.725-‬‬

‫‪725 − 520‬‬
‫=𝑍‬ ‫‪= 2.05‬‬
‫‪100‬‬
‫בשלב הבא נחשב את השטח מימין ל‪ 2.05-‬בהתפלגות 𝑍‪:‬‬
‫‪𝑃(𝑍 > 2.05) = 1 − Φ(2.05) = 1 − 0.9798 = 0.0202‬‬
‫קיבלנו ש‪ 2.02%-‬מהנבחנים קיבלו ציון גבוה מ‪.725-‬‬
‫מהו אחוז הנבחנים שקיבלו ציון פסיכומטרי נמוך מ‪?470-‬‬ ‫ג‪.‬‬
‫פתרון‪ :‬בסעיף זה אנו נדרשים לחשב את השטח משמאל ל‪.470-‬‬

‫‪470 − 520‬‬
‫=𝑍‬ ‫‪= −0.5‬‬
‫‪100‬‬
‫בשלב הבא נחשב את השטח משמאל ל‪ −0.5-‬בהתפלגות 𝑍‪:‬‬
‫‪𝑃(𝑍 < −0.5) = 𝑃(𝑍 > 0.5) = 1 − Φ(0.5) = 1 − 0.6915 = 0.3085‬‬
‫קיבלנו ש‪ 30.85%-‬מהנבחנים קיבלו ציון נמוך מ‪.470-‬‬
‫‪8‬‬
‫‪25/04/2021‬‬
‫מהו אחוז הנבחנים שקיבלו ציון בין ‪ 500‬ל‪?700-‬‬ ‫ד‪.‬‬

‫פתרון‪ :‬אנו נדרשים לחשב את השטח שבין ‪ 500‬לבין ‪.700‬‬
‫תחילה נחשב את ציוני התקן של ערכים אלו‪:‬‬

‫‪700 − 520‬‬ ‫‪500 − 520‬‬
‫= ‪𝑍1‬‬ ‫‪= 1.8,‬‬ ‫= ‪𝑍2‬‬ ‫‪= −0.2‬‬
‫‪100‬‬ ‫‪100‬‬
‫בשלב הבא נחשב את השטח ביניהם‪:‬‬
‫= )‪𝑃(−0.2 ≤ 𝑍 ≤ 1.8) = 𝑃(𝑍 ≤ 1.8) − 𝑃(𝑍 ≤ −0.2) = 0.9641 − 𝑃(𝑍 ≥ 0.2‬‬
‫‪= 0.9641 − (1 − Φ(0.2)) = 0.9641 − (1 − 0.5793) = 0.5434‬‬
‫קיבלנו ש‪ 54.34%-‬מהנבחנים קיבלו ציון בין ‪ 500‬ל‪.700-‬‬

‫דוגמא לתרגול עצמי‪ :‬מהירות הנסיעה בכביש ירושלים‪-‬תל אביב היא משתנה מקרי נורמאלי עם‬
‫מהירות ממוצעת השווה ל‪ 95-‬קמ"ש וסטיית תקן השווה ל‪ 10-‬קמ"ש‪ .‬נהג הנתפס נוהג במהירות‬
‫שבין ‪ 90‬ל‪ 100-‬מקבל דו"ח אזהרה‪ ,‬נהג הנתפס במהירות שבין ‪ 100‬לבין ‪ 120‬מקבל דו"ח‬
‫תנועה‪ ,‬ונהג הנתפס נוהג במהירות הגבוהה מ‪ 120-‬קמ"ש מורד מהכביש‪.‬‬
‫מהם הסיכויים‪:‬‬
‫שנהג לא ייעצר על‪-‬ידי המשטרה?‬ ‫א‪.‬‬
‫שיקבל אזהרה?‬ ‫ב‪.‬‬
‫שיקבל דו"ח תנועה?‬ ‫ג‪.‬‬
‫שיורד מהכביש?‬ ‫ד‪.‬‬
‫דוגמא לתרגול עצמי‪ :‬השכר בארגון מפולג (בקירוב) נורמאלית עם ממוצע של ‪ ₪ 7500‬וסטיית‬
‫תקן של ‪.₪ 1750‬‬
‫מה אחוז העובדים בארגון שמשתכרים יותר מ‪?₪ 10000-‬‬ ‫א‪.‬‬
‫מנהל מחקת משאבי אנוש דיווח שציון התקן של שכרו הינו ‪ .2.7‬חשבו את משכורתו‪.‬‬ ‫ב‪.‬‬
‫מה אחוז העובדים בארגון להם שכר הנמוך מ‪?₪ 6000-‬‬ ‫ג‪.‬‬
‫כל העובדים אשר ציון התקן של שכרם נמוך מ‪ −2-‬התחילו בשביתה‪ .‬מה השכר הגבוה‬ ‫ד‪.‬‬
‫ביותר מבין אלו ששובתים?‬
‫מה אחוז העובדים שמשכורתם בין ‪ ₪ 6300‬לבין ‪?₪ 9100‬‬ ‫ה‪.‬‬
‫‪9‬‬
‫‪02/05/2021‬‬

‫נושא ההרצאה‪ :‬הסקה סטטיסטית – הקדמה ומושגים בסיסיים‬
‫הסקה סטטיסטית – הקדמה‬
‫הסקה סטטיסטית עוסקת בשיטה להסקה על האוכלוסייה כולה מתוך מדגם מקרי מייצג הנלקח‬
‫מאוכלוסיית היעד‪.‬‬
‫במרבית המקרים כאשר נרצה לבחון תופעה כלשהי באוכלוסייה לא נוכל לבדוק את כל‬
‫האוכלוסייה ונאלץ להסתפק במדגם מקרי הנלקח מאוכלוסייה זו‪ .‬לכן‪ ,‬מרבית המחקרים‬
‫הסטטיסטיים מבוססים על מדגם מתוך אוכלוסיית המחקר ולא על האוכלוסייה כולה‪.‬‬
‫החוקר יקבל את תוצאות המדגם ומטרתו תהיה להכליל תוצאות אלו על כל האוכלוסייה‪.‬‬
‫ההסקה ממדגם לאוכלוסייה איננה ודאית אלא הסתברותית‪ .‬ניתן להסיק מהמדגם לאוכלוסייה‬
‫אף בהסתברות גבוהה ביותר‪ ,‬אולם תמיד קיימת הסתברות לכך שנבצע טעויות בהסקה‪.‬‬
‫לכן‪ ,‬חשוב לציין בנוסף למסקנה המחקרית גם את ההסתברות לטעות במסקנה שהתקבלה‪.‬‬
‫ישנן שיטות דגימה הסתברותיות רבות‪ :‬מדגם מקרי פשוט‪ ,‬מדגם שכבות‪ ,‬מדגם אשכולות ומדגם‬
‫שיטתי‪ .‬נדון בשיטות להסקה סטטיסטית המבוססות רק בשיטת המדגם המקרי הפשוט‪.‬‬
‫מושגים חשובים‬
‫פרמטר‪ :‬ערך של המשתנה הנחקר המתאר את האוכלוסייה כולה‪ .‬לרוב ערך זה לא יהיה ידוע ואנו‬
‫נהיה מעוניינים לאמוד אותו‪.‬‬
‫נהוג לסמן את הפרמטרים באותיות יווניות‪ .‬לדוגמא‪:‬‬
‫𝜇 הינו הסימון המקובל לממוצע באוכלוסייה כולה (נקרא גם תוחלת)‪.‬‬ ‫‪-‬‬
‫𝜎 הינה הסימון המקובל לסטיית התקן של האוכלוסייה‪.‬‬ ‫‪-‬‬
‫סטטיסטי‪/‬אומד‪ :‬ערך המשתנה הנחקר המתאר את המדגם‪ .‬כלומר‪ ,‬עבור מדגם מסוים נוכל‬
‫לחשב את הסטטיסטי‪.‬‬
‫את הסטטיסטים נהוג לסמן באותיות אנגליות‪ .‬לדוגמא‪:‬‬
‫̅𝑋 הינו הסימון המקובל לממוצע המדגם‪.‬‬ ‫‪-‬‬
‫𝑆 הינה הסימון המקובל לסטיית התקן של המדגם‪.‬‬ ‫‪-‬‬
‫נושאים בהסקה סטטיסטית‬
‫הסקה סטטיסטית עוסקת בשיטות להסקה מערך הסטטיסטי (שהתקבל במדגם) לפרמטר (הערך‬
‫באוכלוסייה כולה)‪.‬‬
‫נושאים בולטים הנידונים בהקשר של הסקה סטטיסטית הינם‪:‬‬
‫‪ .1‬אמידה נקודתית (לא נדון בנושא זה במסגרת הקורס)‪.‬‬
‫‪ .2‬אמידה על‪-‬ידי אינטרוול – רווח סמך‪.‬‬
‫‪ .3‬בדיקת השערות‪.‬‬
‫בהמשך ההרצאה נערוך הקדמה קצרה ונדון בנקודות עיקריות בהקשר של שני הנושאים‬
‫האחרונים‪ :‬רווח סמך ובדיקת השערות‪.‬‬
‫‪1‬‬
‫‪02/05/2021‬‬
‫רווח סמך – הקדמה‬

‫בנושא של רווחי סמך ישנו פרמטר לא ידוע (לדוגמא‪ ,‬ממוצע לחץ דם בקרב אוכלוסייה מסוימת)‪,‬‬
‫ומטרתנו לבנות אינטרוול (קטע) אשר יכיל את הפרמטר הלא ידוע בהסתברות גבוהה‪.‬‬
‫רווח סמך הינו אינטרוול (קטע) אשר מכסה את הפרמטר הלא ידוע בהסתברות גבוהה אשר‬
‫תיקבע מראש על‪-‬ידינו‪.‬‬
‫לאינטרוול זה קוראים רווח סמך‪ ,‬ולהסתברות בה האינטרוול יכסה את הפרמטר הלא ידוע‬
‫קוראים רמת ביטחון (או רמת סמך)‪.‬‬
‫רווח סמך – סימונים‬
‫את גבולות רווח הסמך נסמן ב‪ 𝐿1 -‬וב‪ ,𝐿2 -‬כאשר ‪ 𝐿1‬מייצג את הגבול התחתון (ההתחלה) של רווח‬
‫הסמך‪ ,‬ו‪ 𝐿2 -‬הוא הגבול העליון (הסוף) של רווח הסמך‪.‬‬
‫את רמת הביטחון (ההסתברות שרווח הסמך יכסה את הפרמטר הלא ידוע נסמן ב‪.1 − 𝛼 -‬‬
‫נהוג לקחת רמות ביטחון גבוהות‪ ,‬כגון‪ ,0.99, 0.9, 0.95 :‬מכיוון שאנו רוצים להבטיח הסתברות‬
‫גבוהה שרווח הסמך יכסה את הפרמטר הלא ידוע‪.‬‬
‫משמעות רווח הסמך‬
‫כאמור‪ ,‬נבנה רווח סמך אשר יכסה את הפרמטר הלא ידוע בהסתברות גבוהה כלשהי 𝛼 ‪.1 −‬‬
‫נרשום זאת בצורה פורמאלית‪:‬‬
‫𝛼 ‪ ≤ 𝐿2 ) = 1 −‬פרמטר לא ידוע ≤ ‪𝑃(𝐿1‬‬
‫לדוגמא‪ ,‬בנינו רווח סמך לאחוז הבוחרים במפלגת הליכוד בבחירות הבאות ברמת ביטחון של‬
‫‪ 95%‬על סמך מדגם מקרי של ‪ 80‬אזרחים והתקבל רווח הסמך הבא‪.[24.3%, 27.8%] :‬‬
‫משמעות התוצאה‪ :‬בהסתברות של ‪ 0.95‬אחוז הבוחרים בבחירות הקרובות למפלגת הליכוד ינוע‬
‫בין ‪ 24.3%‬לבין ‪.27.8%‬‬
‫מה נרצה מרווח הסמך?‬
‫בכדי לקבל רווח סמך יעיל נרצה שיתקיימו עבורו שני התנאים הבאים‪:‬‬
‫‪ .1‬רווח סמך צר‪ ,‬שכן אנו בונים רווח סמך לפרמטר לא ידוע‪ ,‬ונרצה אינטרוול מצומצם אשר‬
‫יכלול כמה שפחות ערכים‪.‬‬
‫‪ .2‬רמת סמך גבוהה‪ ,‬שכן נרצה לדעת שרווח הסמך שבנינו מכסה את הפרמטר הלא ידוע‬
‫בהסתברות גבוהה‪.‬‬
‫נזכור שאת רמת הסמך אנו קובעים מלכתחילה‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬
‫טענה‪ :‬כאשר נגדיל את רמת הסמך (וכל יתר הפרמטרים יישארו ללא שינוי)‪ ,‬אורכו של רווח‬
‫הסמך בהכרח יגדל‪ .‬במילים אחרות‪ ,‬שתי הדרישות הנ"ל באות אחת על חשבון השנייה‪.‬‬
‫נשאלת השאלה – מה עדיף‪ ,‬להגדיל במקצת את רמת הביטחון על חשבון הגדלת אורך רווח‬
‫הסמך‪ ,‬או ההפך? זה כבר תלוי בחוקר ובמקר – אין תשובה החלטית‪.‬‬
‫רמת הביטחון הפופולארית ביותר הינה ‪ ,95%‬ולכן במרבית המחקרים זו רמת הביטחון בה‬
‫משתמשים‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬
‫‪2‬‬
‫‪02/05/2021‬‬
‫מקרים שונים של רווחי סמך‬

‫במסגרת נושא זה של רווח סמך נלמד שלושה מקרים של רווחי סמך (עליהם נלמד בהרצאה‬
‫הבאה)‪:‬‬
‫‪ .1‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) ידועה‪.‬‬
‫‪ .2‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה‪.‬‬
‫‪ .3‬רווח סמך לפרופורציה‪.‬‬
‫בדיקת השערות‬
‫בנושא זה של בדיקת השערות יהיה פרמטר לא ידוע‪ ,‬ואנו נדרש להכריע בין שתי השערות נתונות‪.‬‬
‫לדוגמא‪ ,‬יהיה נתון משתנה מהתפלגות נורמאלית אשר הממוצע שלו באוכלוסייה אינו ידוע‪ ,‬ויהיו‬
‫נתונות שתי השערות בנוגע לערכיו של פרמטר זה‪.‬‬
‫כל השערה תדווח על טווח ערכים שהפרמטר מצוי בו‪ ,‬ואנו בסופו של דבר נצטרך להכריע בין שתי‬
‫ההשערות הללו‪.‬‬
‫תמיד יהיו שתי השערות בלבד‪ ,‬שרק אחת מהן נכונה‪ ,‬ונדרש לקבוע איזו השערה אנו מקבלים‬
‫מבין השתיים‪ .‬זאת נעשה בהסתמך על תצפיות שנאסוף ממדגם מקרי‪ .‬תהליך בירור ההשערה‬
‫הנכונה נקרא "מבחן לבדיקת השערות"‪.‬‬
‫בדיקת השערות – סימונים‬
‫שתי ההשערות תמיד יהיו זרות (אין להן משותף)‪ ,‬כלומר‪ ,‬כל אחת מדברת על ערכים שונים‬
‫שהפרמטר הלא ידוע יכול לקבל‪.‬‬
‫ההשערה הראשונה מכונה "השערת האפס" וסימונה הינו ‪ .𝐻0‬השערה זו מייצגת את המצב‬
‫הקיים‪ ,‬מה שהיה נהוג לחשוב עד כה‪ .‬השערה זו מכונה גם "ההשערה השמרנית"‪.‬‬
‫ההשערה השנייה נקראת "השערת המחקר" וסימונה הינו ‪ .𝐻1‬השערה זו הינה ההשערה אותה‬
‫אנו נדרש לבדוק בתרגיל כלשהו‪.‬‬
‫במרבית הדוגמאות יהיה קל יותר לנסח תחילה את ‪ ,𝐻1‬ולאחר מכן הניסוח של ‪ 𝐻0‬יהיה פשו‬
‫השלילה (ההפך) מהניסוח של ‪.𝐻1‬‬
‫בדיקת השערות – דוגמאות‬
‫דוגמא 𝟏‪ :‬חברת תרופות טוענת שמצאה תרופה טובה יותר מזו שקיימת בשוק למחלקה כלשהי‪.‬‬
‫ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬התרופה החדשה אינה טובה מהקיימת בשוק‪.‬‬
‫‪ :𝐻1‬התרופה החדשה טובה יותר מהקיימת בשוק‪.‬‬
‫דוגמא 𝟐‪ :‬חוקר מעוניין לבדוק האם ממוצע ציוני ‪ I.Q‬של גברים שונה מזה של הנשים בישראל‪.‬‬
‫ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬ממוצע ציוני ה‪ I.Q-‬של גברים בישראל אינו שונה (שווה) מממוצע ציוני ה‪ I.Q-‬של נשים‬
‫בישראל‪.‬‬
‫‪ :𝐻1‬ממוצע ציוני ה‪ I.Q-‬של גברים בישראל שונה מממוצע ציוני ה‪ I.Q-‬של נשים בישראל‪.‬‬
‫דוגמא 𝟑‪ :‬מרצה מעוניין לבדוק האם קיימים הבדלים בציונים במתמטיקה בין ‪ 3‬התמחויות‬
‫לימוד (שיווק‪ ,‬משא"נ‪ ,‬מימון)‪ .‬ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬ממוצע הציונים אינו שונה בין שלוש התמחויות הלימוד‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים שונה בין שלוש התמחויות הלימוד‪.‬‬
‫‪3‬‬
‫‪02/05/2021‬‬
‫דוגמא 𝟒‪ :‬דיאטה חדשה מבטיחה ירידה משמעותית במשקל‪ .‬מעוניינים לבדוק האם הדיאטה‬
‫החדשה אכן יעילה‪ .‬ניסוח ההשערות יהיה‪:‬‬
‫‪ :𝐻0‬המשקל לאחר הדיאטה אינו נמוך מהמשקל לפני‪.‬‬
‫‪ :𝐻1‬המשקל לאחר הדיאטה נמוך מהמשקל לפני‪.‬‬
‫ניסוח 𝟎𝑯 וניסוח 𝟏𝑯‬

‫שימו לב שבכל ארבע הדוגמאות שהצגנו‪ ,‬שתי ההשערות היו משלימות (הפוכות) זו לזו‪.‬‬
‫בפועל‪ ,‬כאשר נדרש מתוך טקסט נתון לנסח את ‪ 𝐻0‬ואת ‪ ,𝐻1‬פשוט יותר לנסח תחילה דווקא את‬
‫‪ 𝐻1‬שהיא השערת המחקר – מה שמעוניינים לבדוק בשאלה‪ .‬לאחר שניסחנו את ‪ ,𝐻1‬הניסוח של‬
‫‪ 𝐻0‬יהיה פשוט הניסוח ההפוך מזה שהצגנו עבור ‪.𝐻1‬‬
‫מינוחים מקובלים בבדיקת השערות‬
‫כאשר נדרש לערוך מבחן לבדיקת השערות‪ ,‬נצטרך בסופו של דבר להכריע בין שתי ההשערות‬
‫ולקבל אחת מהן (ובכך השנייה תידחה)‪.‬‬
‫כאשר נחליט שאנו מקבלים את ‪ ,𝐻0‬המינוח המקובל הינו "לא נדחה את 𝟎𝑯"‪ ,‬שזה‬ ‫‪-‬‬
‫שקול לכך שקיבלנו את ‪.𝐻0‬‬
‫כאשר נחליט שאנו מקבלים את ‪ ,𝐻1‬המינוח המקובל הינו "נדחה את 𝟎𝑯"‪ ,‬כלומר‪ ,‬אנו‬ ‫‪-‬‬
‫מקבלים בכך את ‪.𝐻1‬‬
‫כלומר‪ ,‬נקודת הייחוס שלנו היא ‪ ,𝐻0‬אשר מייצגת את ההשערה השמרנית – מעין ברירת מחדל‪.‬‬
‫הרציונל בבדיקת השערות‬
‫כפי שנאמר‪ ,‬נקודת הייחוס שלנו היא ‪ ,𝐻0‬אשר מייצגת את ההשערה השמרנית‪ .‬כך יהיה הדבר גם‬
‫כאשר נדרש לבצע את המבחן לבדיקת ההשערות ולהכריע ביניהן‪.‬‬
‫אנו נבדוק למעשה האם התוצאה שקיבלנו במדגם הגיונית‪/‬סבירה תחת ‪ .𝐻0‬במידה וכן‪ ,‬אנו לא‬
‫נדחה את ‪ ,𝐻0‬ונאמין שזו ההשערה הנכונה‪ .‬אולם‪ ,‬במידה ונקבל תוצאה שמאוד לא‬
‫סבירה‪/‬הגיונית תחת ‪ ,𝐻0‬נסיק שככל הנראה ‪ 𝐻0‬אינה הנכונה ולכן נדחה את ‪( 𝐻0‬ובכך נקבל את‬
‫‪.)𝐻1‬‬
‫השערות חד‪-‬צדדיות והשערות דו‪-‬צדדיות‬
‫השערות חד‪-‬צדדיות הינן השערות עבורן לשתי ההשערות ( ‪ 𝐻0‬ו‪ )𝐻1 -‬יש כיוון‪ ,‬כלומר‪ ,‬כל השערה‬
‫מצביעה על כיוון כלשהו‪ .‬בניסוח ההשערות נראה מילים כגון קטן‪/‬גדול‪/‬אינו קטן‪/‬אינו גדול‪.‬‬
‫השערות דו‪-‬צדדיות הינן השערות עבורן לשתי ההשערות ( ‪ 𝐻0‬ו‪ )𝐻1 -‬אין כיוון‪ ,‬כלומר‪ ,‬בניסוח‬
‫ההשערות נראה מילים כגון שווה‪/‬שונה‪/‬הבדל (מילים נטולות כיוון)‪ .‬במקרה של השערות דו‪-‬‬
‫צדדיות תמיד ב‪ 𝐻0 -‬תופיע המילה שווה‪/‬זהה‪/‬אין הבדל וב‪ 𝐻1 -‬תופיע המילה שונה‪/‬יש הבדל‪.‬‬
‫נחזור לארבע הדוגמאות שהצגנו עבור בדיקת השערות‪ ,‬ועבור כל אחת מהן נקבע האם ההערות‬
‫חד‪-‬צדדיות או דו‪-‬צדדיות‪.‬‬
‫דוגמא ‪ :1‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬שכן לשתי ההשערות יש כיוון ( ‪ 𝐻0‬טוענת שהתרופה אינה‬
‫טובה מהקיימת‪ ,‬ואילו ‪ 𝐻1‬טוענת שהתרופה החדשה טובה מהקיימת)‪.‬‬
‫דוגמא ‪ :2‬מדובר בהשערות דו‪-‬צדדיות‪ ,‬שכן לשתי ההשערות אין כיוון ( ‪ 𝐻0‬טוענת שהממוצע של‬
‫הציונים בשתי הקבוצות שווה‪ ,‬ואילו ‪ 𝐻1‬טוענת שהממוצע של הציונים בשתי הקבוצות שונה)‪.‬‬
‫‪4‬‬
‫‪02/05/2021‬‬
‫דוגמא ‪ :3‬מדובר בהשערות דו‪-‬צדדיות‪ ,‬שכן לשתי ההשערות אין כיוון ( ‪ 𝐻0‬טוענת שאין הבדל‬
‫בממוצעי הציונים בין ‪ 3‬ההתמחויות‪ ,‬ואילו ‪ 𝐻1‬טוענת שקיים הבדל)‪.‬‬
‫דוגמא ‪ :4‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬שכן לשתי ההשערות יש כיוון ( ‪ 𝐻0‬טוענת שהמשקל לאחר‬
‫הדיאטה אינו נמוך מהמשקל לפני הדיאטה‪ ,‬ואילו ‪ 𝐻1‬טוענת שהמשקל לאחר הדיאטה נמוך‬
‫מהמשקל לפני הדיאטה)‪.‬‬
‫טעות מסוג ראשון וטעות מסוג שני‬
‫כאמור‪ ,‬קיימות שתי השערות שרק אחת מהן נכונה ( ‪ 𝐻0‬נכונה או ‪ 𝐻1‬נכונה)‪ ,‬ואנו יכולים להחליט‬
‫שתי החלטות במבחן שערכנו לבדיקת ההשערות (קבלת ‪ 𝐻0‬או קבלת ‪ ,)𝐻1‬לכן ייתכנו סה"כ‬
‫ארבעה מצבים אפשריים‪ ,‬כמוצג בטבלה‪ .‬בשני מצבים אנו מבצעים החלטה נכונה‪ ,‬ובשניים‬
‫מבצעים החלטה לא נכונה‪ ,‬כלומר‪ ,‬מבצעים טעות‪.‬‬
‫טעות מסוג ראשון הינה דחיית ‪( 𝐻0‬כלומר‪ ,‬קבלת ‪ )𝐻1‬כאשר ‪ 𝐻0‬היא הנכונה‪.‬‬
‫טעות מסוג שני הינה קבלת ‪ 𝐻0‬כאשר המציאות הינה ‪.𝐻1‬‬
‫נרצה כמובן למזער ככל הניתן את ההסתברויות לטעות מסוג ראשון ושני‪ ,‬אלא שלעתים הקטנת‬
‫האחת בא על חשבון הגדלת האחרת‪.‬‬
‫חומרת הטעויות‪ :‬ההשלכות של ביצוע טעות מסוג ראשון וביצוע טעות מסוג שני שונות בדרך כלל‪.‬‬
‫לרוב‪ ,‬אנו חוששים יותר מביצוע טעות מסוג ראשון מאשר ביצוע טעות מסוג שני‪ ,‬מכיוון‬
‫שהשלכותיה חמורות יותר‪.‬‬
‫בדוגמא הראשונה עם התרופות‪ ,‬טעות מסוג ראשון הינה דחיית ‪ 𝐻0‬כאשר ‪ 𝐻0‬היא הנכונה‪,‬‬
‫כלומר‪ ,‬במקרה של טעות מסוג ראשון נסיק שהתרופה החדשה טובה יותר מהקיימת בשוק כאשר‬
‫למעשה היא לא‪ .‬בפועל‪ ,‬נחליף לחולים את התרופה הקיימת בתרופה החדשה שהיא פחות טובה‪,‬‬
‫כלומר‪ ,‬נרע את מצב החולים‪.‬‬
‫טעות מסוג שני הינה קבלת ‪ 𝐻0‬כאשר המציאות הינה ‪ ,𝐻1‬כלומר‪ ,‬נסיק שהתרופה החדשה איננה‬
‫טובה יותר מהקיימת‪ ,‬כאשר למעשה היא כן טובה יותר‪ .‬בפועל‪ ,‬נמשיך לתת לחולים שלנו את‬
‫התרופה הישנה כאשר היה ניתן לתת להם תרופה טובה יותר‪ ,‬כלומר‪ ,‬נפספס הזדמנות‪.‬‬
‫לכן‪ ,‬טעות מסוג ראשון נתפסת לרוב כהרעה‪ ,‬לעומת טעות מסוג שני שנתפסת יותר בגדר פספוס‪.‬‬
‫במרבית המקרים הרעה של מצב קיים חמורה יותר מפספוס הזדמנות חדשה‪ .‬לכן‪ ,‬טעות מסוג‬
‫ראשון נתפסת כחמורה יותר מטעות מסוג שני‪.‬‬
‫המסקנה מהאמור לעיל היא שמבצע המחקר ירצה להגן על עצמו בראש ובראשונה מפני ביצוע‬
‫טעות מסוג ראשון‪ ,‬כלומר‪ ,‬הוא ייתן חסם עליון להסתברות שטעות מסוג ראשון תתרחש‪ .‬חסם‬
‫מקובל הינו של ‪ ,0.05‬כלומר‪ ,‬נאפשר שלכל היותר ב‪ 5%-‬מהמקרים עבורם ‪ 𝐻0‬הינה הנכונה נבצע‬
‫טעות ונדחה את ‪ .𝐻0‬חסם זה נקרא רמת מובהקות (ר"מ)‪.‬‬
‫‪5‬‬
‫‪02/05/2021‬‬
‫רמת המובהקות של המבחן‬

‫הגדרה‪ :‬רמת המובהקות (ר"מ) של המבחן הינה ההסתברות לבצע טעות מסוג ראשון‪.‬‬
‫סימון של רמת המובהקות‪ :‬את רמת המובהקות נסמן באות היוונית 𝛼‪.‬‬
‫מכיוון שאנו מפחדים יותר מביצוע טעות מסוג ראשון‪ ,‬נהוג לקבוע רמת מובהקות נמוכה יחסית‬
‫(רמות מובהקות מקובלות הינן ‪ ,)0.01, 0.1, 0.05‬ובהתאם לרמת המובהקות שקבענו נבצע את‬
‫מבחן בדיקת ההשערות‪.‬‬
‫אם קבענו שאנו מבצעים את המבחן לבדיקת ההשערות ברמת מובהקות של ‪ 0.05‬לדוגמא‪ ,‬אנו‬
‫קובעים חסם עליון לטעות מסוג ראשון – במקרה הכי גרוע נבצע טעות מסוג ראשון ב‪5%-‬‬
‫מהמקרים‪.‬‬
‫כלל הדחייה של המבחן‬
‫את רמת המובהקות נהוג לקבוע מראש‪ ,‬בהתאם להשלכות של ביצוע טעות מסוג ראשון (כאמור‪,‬‬
‫רמת מובהקות מקובלת ביותר הינה ‪.)0.05‬‬
‫בהתאם לרמת המובהקות שקבענו‪ ,‬ייקבע כלל הדחייה של המבחן‪ .‬כלל הדחייה מפרט עבור אילו‬
‫ערכים (של ממוצע המדגם‪ ,‬לדוגמא) נדחה את השערת האפס‪ ,‬ועבור אילו ערכים לא נדחה אותה‪.‬‬
‫כלומר‪ ,‬כלל הדחייה קובע מהם אזורי הדחייה של ‪ 𝐻0‬ומהם אזורי הקבלה של ‪ .𝐻0‬ככל שרמת‬
‫המובהקות גבוהה יותר‪ ,‬אנו חוששים פחות מפני ביצוע טעות מסוג ראשון‪ ,‬ולכן אזור הדחייה של‬
‫‪ 𝐻0‬יהיה גדול יותר‪ ,‬וההפך‪.‬‬
‫לאחר מכן דוגמים מדגם מקרי‪ ,‬ובהתאם לתוצאת המדגם ולכלל הדחייה מחליטים האם יש‬
‫לדחוף את השערת האפס או לא‪.‬‬
‫במרבית המקרים בהם נעסוק בקורס זה המשתנים הנחקרים יהיו מפולגים לפי ההתפלגות‬
‫הנורמאלית‪ .‬לכן‪ ,‬נמחיש את אזורי הדחייה והקבלה של המבחן בעזרת ההתפלגות הנורמאלית‪.‬‬
‫דוגמא‪ :‬נניח שחוקר מעוניין לבדוק את ההשערה שלישראלים יש ממוצע ציון ‪ I.Q‬גבוה יותר‬
‫מהממוצע העולמי אשר שווה ל‪ .100-‬במקרה זה ההשערות הן‪:‬‬
‫‪ :𝐻0‬ממוצע ציון ה‪ I.Q-‬של הישראלים אינו גבוה מהממוצע העולמי‪.‬‬
‫‪ :𝐻1‬ממוצע ציון ה‪ I.Q-‬של הישראלים גבוה מהממוצע העולמי‪.‬‬
‫מדובר בהשערות חד‪-‬צדדיות (עם כיוון)‪ ,‬כאשר ‪ 𝐻1‬מורה על כיוון ימין (המילה "גבוה")‪ ,‬ולכן אזור‬
‫הדחייה של ‪ 𝐻0‬יהיה בצד ימין של ההתפלגות הנורמאלית‪.‬‬
‫‪6‬‬
‫‪02/05/2021‬‬
‫דוגמא‪ :‬מעוניינים לבדוק האם לישראלים יש ממוצע ציון ‪ I.Q‬השונה מהממוצע העולמי (אשר‬
‫שווה ל‪ .)100-‬במקרה זה ההשערות הן‪:‬‬
‫‪ :𝐻0‬ממוצע ציון ה‪ I.Q-‬של הישראלים אינו שונה מהממוצע העולמי‪.‬‬
‫‪ :𝐻1‬ממוצע ציון ה‪ I.Q-‬של הישראלים שונה מהממוצע העולמי‪.‬‬
‫הפעם‪ ,‬מדובר בהשערות דו‪-‬צדדיות (ללא כיוון)‪ ,‬ולכן אזור הדחייה של ‪ 𝐻0‬יהיה בשני צדי‬
‫ההתפלגות הנורמאלית‪.‬‬
‫‪𝒑-value‬‬
‫הגדרה‪ :‬ה‪( 𝑝-value-‬ערך 𝑝) של המבחן מוגדר כרמת המובהקות המינימאלית עבורה נדחה את‬
‫השערת האפס‪.‬‬
‫כלומר‪ ,‬זוהי רמת המובהקות הקטנה ביותר שניתן לקחת עבורה השערת האפס תידחה‪ ,‬ואם ניקח‬
‫רמת מובהקות נמוכה יותר (אפילו במעט) כבר לא נדחה את השערת האפס‪.‬‬
‫כאשר מתקבל ‪ 𝑝-value‬מאוד נמוך (נמוך מ‪ ,)0.005-‬אומרים שהתוצאה מובהקת‪ ,‬כלומר‪ ,‬לכל‬
‫רמת מובהקות סבירה נדחה את השערת האפס‪.‬‬
‫דוגמא‪ :‬נניח שעבור דוגמא מסוימת נמצא שה‪ 𝑝-value-‬שווה ל‪ .0.023-‬משמעות התוצאה היא‬
‫שעבור כל רמת מובהקות שניקח אשר גדולה או שווה מ‪ 0.023-‬אנו נדחה את ‪ ,𝐻0‬ועבור רמת‬
‫מובהקות שקטנה מ‪ 0.023-‬אנו לא נדחה את ‪ .𝐻0‬במילים אחרות‪ ,‬רמת המובהקות המינימאלית‬
‫עבורה נדחה את ‪ 𝐻0‬הינה ‪.0.023‬‬
‫שלבים עיקריים במבחן לבדיקת השערות‬
‫בקורס זה נעסוק במספר מקרים של בדיקת השערות‪ .‬בנושא זה של בדיקת השערות‪ ,‬שלבי‬
‫העבודה יהיו השלבים הבאים‪:‬‬
‫ניסוח ‪ 𝐻0‬ו‪.𝐻1 -‬‬ ‫‪-‬‬
‫חישוב "ערך סטטיסטי" אשר מבוסס על תוצאות המדגם שנלקח‪.‬‬ ‫‪-‬‬
‫השוואת ערך הסטטיסטי שחושב ל"ערך קריטי" אשר נלקח מתוך טבלה מתאימה‪.‬‬ ‫‪-‬‬
‫בהתאם לכך‪ ,‬נקבל החלטה האם אנו דוחים את ‪ 𝐻0‬או לא דוחים את ‪.𝐻0‬‬
‫מתן מסקנה סופית במונחי הדוגמא‪.‬‬ ‫‪-‬‬
‫‪7‬‬
‫‪09/05/2021‬‬

‫נושא ההרצאה‪ :‬רווחי סמך‬
‫רווח סמך – הקדמה‬
‫בנושא של רווחי סמך ישנו פרמטר לא ידוע (לדוגמא‪ ,‬ממוצע לחץ דם בקרב אוכלוסייה מסוימת)‪,‬‬
‫ומטרתנו לבנות אינטרוול (קטע) אשר יכיל את הפרמטר הלא ידוע בהסתברות גבוהה‪.‬‬
‫רווח סמך הינו אינטרוול (קטע) אשר מכסה את הפרמטר הלא ידוע בהסתברות גבוהה אשר‬
‫תיקבע מראש על‪-‬ידינו‪.‬‬
‫לאינטרוול זה קוראים רווח סמך‪ ,‬ולהסתברות בה האינטרוול יכסה את הפרמטר הלא ידוע‬
‫קוראים רמת ביטחון (או רמת סמך)‪.‬‬
‫רווח סמך – סימונים‬
‫את גבולות רווח הסמך נסמן ב‪ 𝐿1 -‬וב‪ ,𝐿2 -‬כאשר ‪ 𝐿1‬מייצג את הגבול התחתון (ההתחלה) של רווח‬
‫הסמך‪ ,‬ו‪ 𝐿2 -‬הוא הגבול העליון (הסוף) של רווח הסמך‪.‬‬
‫את רמת הביטחון (ההסתברות שרווח הסמך יכסה את הפרמטר הלא ידוע נסמן ב‪.1 − 𝛼 -‬‬
‫נהוג לקחת רמות ביטחון גבוהות‪ ,‬כגון‪ ,0.99, 0.9, 0.95 :‬מכיוון שאנו רוצים להבטיח הסתברות‬
‫גבוהה שרווח הסמך יכסה את הפרמטר הלא ידוע‪.‬‬
‫משמעות רווח הסמך‬
‫כאמור‪ ,‬נבנה רווח סמך אשר יכסה את הפרמטר הלא ידוע בהסתברות גבוהה כלשהי 𝛼 ‪.1 −‬‬
‫נרשום זאת בצורה פורמאלית‪:‬‬
‫𝛼 ‪ ≤ 𝐿2 ) = 1 −‬פרמטר לא ידוע ≤ ‪𝑃(𝐿1‬‬
‫לדוגמא‪ ,‬בנינו רווח סמך לאחוז הבוחרים במפלגת הליכוד בבחירות הבאות ברמת ביטחון של‬
‫‪ 95%‬על סמך מדגם מקרי של ‪ 80‬אזרחים והתקבל רווח הסמך הבא‪.[24.3%, 27.8%] :‬‬
‫משמעות התוצאה‪ :‬בהסתברות של ‪ 0.95‬אחוז הבוחרים בבחירות הקרובות למפלגת הליכוד ינוע‬
‫בין ‪ 24.3%‬לבין ‪.27.8%‬‬
‫מה נרצה מרווח הסמך?‬
‫בכדי לקבל רווח סמך יעיל נרצה שיתקיימו עבורו שני התנאים הבאים‪:‬‬
‫‪ .1‬רווח סמך צר‪ ,‬שכן אנו בונים רווח סמך לפרמטר לא ידוע‪ ,‬ונרצה אינטרוול מצומצם אשר‬
‫יכלול כמה שפחות ערכים‪.‬‬
‫‪ .2‬רמת סמך גבוהה‪ ,‬שכן נרצה לדעת שרווח הסמך שבנינו מכסה את הפרמטר הלא ידוע‬
‫בהסתברות גבוהה‪.‬‬
‫נזכור שאת רמת הסמך אנו קובעים מלכתחילה‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬
‫טענה‪ :‬כאשר נגדיל את רמת הסמך (וכל יתר הפרמטרים יישארו ללא שינוי)‪ ,‬אורכו של רווח‬
‫הסמך בהכרח יגדל‪ .‬במילים אחרות‪ ,‬שתי הדרישות הנ"ל באות אחת על חשבון השנייה‪.‬‬
‫נשאלת השאלה – מה עדיף‪ ,‬להגדיל במקצת את רמת הביטחון על חשבון הגדלת אורך רווח‬
‫הסמך‪ ,‬או ההפך? זה כבר תלוי בחוקר ובמקר – אין תשובה החלטית‪.‬‬
‫‪1‬‬
‫‪09/05/2021‬‬
‫רמת הביטחון הפופולארית ביותר הינה ‪ ,95%‬ולכן במרבית המחקרים זו רמת הביטחון בה‬
‫משתמשים‪ ,‬ובהתאם אליה נקבע רווח הסמך ואורכו‪.‬‬
‫מקרים שונים של רווחי סמך‬
‫במסגרת נושא זה של רווח סמך נלמד שלושה מקרים של רווחי סמך (עליהם נלמד בהרצאה‬
‫הבאה)‪:‬‬
‫‪ .1‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) ידועה‪.‬‬
‫‪ .2‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה‪.‬‬
‫‪ .3‬רווח סמך לפרופורציה‪.‬‬
‫מקרה 𝟏‪ :‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה)‬

‫ידועה‬
‫במקרה זה יהיה לפנינו משתנה מהתפלגות נורמאלית‪ ,‬אשר התוחלת שלו אינה ידועה‪ .‬השונות‬
‫באוכלוסייה כן תהיה ידועה ונתונה‪:‬‬
‫‪ − 𝜎 2 ,‬ידועה‬ ‫‪ − 𝜇,‬לא ידוע‬ ‫) ‪𝑋 ~ 𝑁(𝜇, 𝜎 2‬‬
‫נרצה לבנות רווח סמך ברמת ביטחון 𝛼 ‪ 1 −‬לתוחלת 𝜇‪ .‬רווח הסמך יהיה מבוסס על ממוצע‬
‫המדגם ̅𝑋‪ .‬ממוצע המדגם יהיה נקודת האמצע של רווח הסמך ומסביב לממוצע נפתח את‬
‫האינטרוול‪.‬‬
‫נוסחא‪ :‬רווח הסמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) ידועה הינו‪:‬‬
‫𝜎‬
‫‪𝑋̅ ±‬‬ ‫𝛼‪⋅ 𝑍1−‬‬
‫𝑛√‬ ‫‪2‬‬
‫כלומר‪ ,‬רווח הסמך הינו‪:‬‬

‫𝜎‬ ‫𝜎‬
‫‪[𝑋̅ −‬‬ ‫‪⋅ 𝑍1−𝛼 , 𝑋̅ +‬‬ ‫] 𝛼‪⋅ 𝑍1−‬‬
‫𝑛√‬ ‫‪2‬‬ ‫𝑛√‬ ‫‪2‬‬
‫הערה‪ :‬ניתן להשתמש בנוסחא זו של רווח הסמך גם אם המשתנה הנחקר אינו מפולג נורמאלית‬
‫בתנאים שברשותנו מדגם בגודל ‪ 30‬ומעלה של תצפיות בלתי תלויות (לפי משפט הגבול המרכזי‪,‬‬
‫ממוצע המדגם מפולג בקירוב נורמאלית)‪.‬‬
‫דוגמא‪ :‬חוקר מעוניין לחשב רווח סמך לתוחלת ציון ה‪ I.Q-‬עבור סטודנטים לרפואה בישראל‪.‬‬
‫לשם כך החוקר דגם ‪ 40‬סטודנטים לרפואה ובדק מהו ציון ה‪ I.Q-‬של כל אחד‪ .‬החוקר קיבל‬
‫שממוצע ציוני ה‪ I.Q--‬של ‪ 40‬הנדגמים הוא ‪ .107.3‬החוקר מניח ששונות ציוני ה‪ I.Q--‬של‬
‫סטודנטים לרפואה שווה לשונות ציוני ה‪ I.Q--‬של כל האוכלוסייה ששווה ל‪( 225-‬סטיית תקן‬
‫‪.)15‬‬
‫מצאו רווח סמך ברמת ביטחון ‪ 95%‬לתוחלת ציוני ה‪ I.Q--‬עבור סטודנטים לרפואה‬ ‫א‪.‬‬
‫בישראל‪.‬‬
‫מה יקרה לרווח הסמך אם נחשבו עבור רמת ביטחון גבוהה יותר של ‪ ?99%‬חשבו אותו‬ ‫ב‪.‬‬
‫מחדש עבור רמת ביטחון זו‪.‬‬
‫ידוע שתוחלת ציוני ה‪ I.Q-‬בעולם שווה ל‪ .100-‬לאור התוצאה שקיבלתם בסעיף א'‪ ,‬קבעו‬ ‫ג‪.‬‬
‫האם ניתן להסיק ברמת ביטחון של ‪ 95%‬שתוחלת ציוני ה‪ I.Q-‬של סטודנטים לרפואה‬
‫בישראל גבוהה מהתוחלת העולמית המקובלת‪.‬‬
‫‪2‬‬
‫‪09/05/2021‬‬
‫בדוגמא זו גודל המדגם מעל ‪ 30‬ולכן אין צורך בהנחה שההתפלגות המקורית (ציוני ‪I.Q‬‬ ‫א‪.‬‬
‫של סטודנטים לרפואה) הינה נורמאלית‪.‬‬
‫𝛼‬
‫תחילה נחשב את הגודל ‪ .1 − 2‬רוצים רמת סמך של ‪ ,0.95‬ולכן‪:‬‬
‫𝛼‬ ‫𝛼‬
‫⟹ ‪1 − 𝛼 = 0.95 ⟹ 𝛼 = 0.05‬‬ ‫‪= 0.025 ⟹ 1 − = 1 − 0.025 = 0.975‬‬
‫‪2‬‬ ‫‪2‬‬
‫נמצא את רווח הסמך‪:‬‬
‫𝜎‬ ‫‪15‬‬ ‫‪15‬‬
‫‪𝑋̅ ±‬‬ ‫‪⋅ 𝑍1−𝛼 = 107.3 ±‬‬ ‫‪⋅ 𝑍0.975 = 107.3 ±‬‬ ‫= ‪⋅ 1.96 = 107.3 ± 4.65‬‬
‫𝑛√‬ ‫‪2‬‬ ‫‪√40‬‬ ‫‪√40‬‬
‫]‪= [102.65, 111.95‬‬
‫משמעות התוצאה‪ :‬קיבלנו שרווח הסמך לתוחלת ציוני ה‪ I.Q-‬של סטודנטים לרפואה הינו‬
‫האינטרוול ]‪ [102.65, 111.95‬ברמת ביטחון של ‪.95%‬‬
‫כלומר‪ ,‬התוחלת האמיתית של ציוני ה‪ I.Q-‬בקרב כל הסטודנטים לרפואה (שאינה ידועה) נמצאת‬
‫בין ‪ 102.65‬לבין ‪ 111.95‬בהסתברות של ‪ .0.95‬בצורה פורמאלית‪:‬‬
‫‪𝑃(102.65 ≤ 𝜇 ≤ 111.95) = 0.95‬‬
‫רווח הסמך יגדל לאינטרוול הבא‪.[101.19, 113.41] :‬‬ ‫ב‪.‬‬
‫כן‪ ,‬מכיוון שכל רווח הסמך שקיבלנו בסעיף א' נמצא מימין ל‪ .100-‬במילים אחרות‪,‬‬ ‫ג‪.‬‬
‫אפילו הגבול התחתון של רווח הסמך )‪ (102.65‬גבוה מ‪( .100-‬במידה וחלק מרווח‬
‫הסמך היה משמאל ל‪ 100-‬לא היינו יכולים לקבוע שתוחלת ציוני ה‪ I.Q-‬של סטודנטים‬
‫לרפואה בישראל גבוהה מהתוחלת העולמית ברמת ביטחון ‪.95%‬‬
‫אורך רווח הסמך‬
‫אורך רווח הסמך (המסומן באות 𝑙) הינו ההפרש בין הגבול העליון של רווח הסמך לגבול התחתון‪.‬‬
‫אם כל‪ ,‬מקבלים שאורך רווח הסמך הינו הביטוי הבא‪:‬‬
‫𝜎‬
‫⋅‪𝑙 = 2‬‬ ‫𝛼‪⋅ 𝑍1−‬‬
‫𝑛√‬ ‫‪2‬‬
‫בדוגמא שהצגנו‪ ,‬בסעיף הראשון ‪ ,𝑙 = 9.3‬ובסעיף השני אורך רווח הסמך גדל ל‪.𝑙 = 12.22-‬‬
‫ניתן לראות מנוסחת אורך רווח הסמך ששלושה גורמים משפיעים על אורך רווח הסמך‪ :‬גודל‬
‫המדגם‪ ,‬סטיית התקן באוכלוסייה ורמת הביטחון‪ .‬נראה איך כל מרכיב מהשלושה משפיע על‬
‫אורכו של רווח הסמך‪.‬‬
‫ככל שסטיית התקן באוכלוסייה גדולה יותר‪ ,‬כך אורכו של רווח הסמך גדול יותר‪.‬‬
‫לעומת זאת‪ ,‬הגדלת גודל המדגם מקטינה את אורכו של רווח הסמך (שכן 𝑛 נמצא במכנה השבר)‪.‬‬
‫𝛼‬
‫ככל שרמת הביטחון גדלה‪ ,‬כך גדל הביטוי ‪ ,1 − 2‬ובעקבותיו גדל הביטוי 𝛼‪ .𝑍1−‬אם כן‪ ,‬רמת‬
‫‪2‬‬
‫ביטחון גדולה יותר מגדילה את אורכו של רווח הסמך‪.‬‬
‫מהאמור לעיל נובע שניתן גם להגדיל את רמת הביטחון וגם להקטין את אורכו של רווח הסמך‬
‫על‪-‬ידי הגדלת גודל המדגם 𝑛‪.‬‬
‫‪3‬‬
‫‪09/05/2021‬‬
‫מקרה 𝟐‪ :‬רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה)‬

‫אינה ידועה‬
‫במקרה זה יהיה לפנינו משתנה מהתפלגות נורמאלית‪ ,‬אשר התוחלת שלו אינה ידועה וגם השונות‬
‫שלו אינה ידועה‪:‬‬
‫‪ − 𝜎 2 ,‬אינה ידועה‬ ‫‪ − 𝜇,‬לא ידוע‬ ‫) ‪𝑋 ~ 𝑁(𝜇, 𝜎 2‬‬
‫נרצה לבנות רווח סמך ברמת ביטחון 𝛼 ‪ 1 −‬לתוחלת 𝜇‪ .‬כמו במקרה הקודם‪ ,‬גם הפעם רווח‬
‫הסמך יהיה מבוסס על ממוצע המדגם‪ .‬ההבדל היחיד הוא שהפעם השונות אינה ידועה ולכן‬
‫נצטרך לאמוד אותה על סמך המדגם‪.‬‬
‫אמידת השונות‬
‫את השונות באוכלוסייה ‪ 𝜎 2‬שאינה ידועה במקרה זה נאמוד על סמך השונות במדגם לפי הנוסחא‬
‫הבאה‪:‬‬
‫‪∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2‬‬ ‫‪∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2‬‬
‫= ‪𝑆2‬‬ ‫=⋯=‬
‫‪𝑛−1‬‬ ‫‪𝑛−1‬‬
‫לאחר שחישבנו את שונות המדגם‪ ,‬נוציא שורש כדי לקבל את סטיית התקן של המדגם‪ ,‬כלומר‪,‬‬
‫את 𝑆‪ .‬לכן‪ ,‬בנוסחא של רווח הסמך שקיבלנו למקרה ‪ 1‬נחליף כעת את 𝜎 ב‪.𝑆 -‬‬
‫הבדל נוסף בין מקרה 𝟏 למקרה 𝟐‬

‫מכיוון שאמדנו את השונות על סמך מדגם‪ ,‬כאשר אנו מנרמלים את ממוצע המדגם לא נקבל גורם‬
‫הסתברותי הלקוח מההתפלגות הנורמאלית הסטנדרטית 𝑍‪ ,‬אלא נקבל גורם הסתברותי הלקוח‬
‫מהתפלגות אחרת (שונה במקצת)‪ ,‬הנקראת התפלגות 𝑡‪.‬‬
‫התפלגות 𝒕‬
‫התפלגות 𝑡‪ ,‬כמו התפלגות 𝑍‪ ,‬הינה התפלגות סימטרית סביב הערך ‪ ,0‬אלא שיש לה פיזור מעט‬
‫גדול יותר ביחס ל‪ :𝑍 -‬היא נמוכה יותר במרכז ההתפלגות וגבוהה יותר בקצוות‪.‬‬
‫להתפלגות זו יש פרמטר הנקרא דרגות חופש (ד"ח) והוא נקבע על‪ -‬סמך גודל המדגם פחות אחד‪:‬‬
‫ד"ח = ‪.𝑛 − 1‬‬
‫פרמטר זה קובע עד כמה ההתפלגות 𝑡‬
‫מפוזרת יותר ביחס להתפלגות 𝑍‪ .‬ככל‬
‫שלהתפלגות 𝑡 יותר דרגות חופש‪ ,‬כך היא‬
‫קרובה יותר להתפלגות 𝑍‪ ,‬וההפך‪.‬‬
‫ההתפלגות 𝑡 עם ‪ 30‬דרגות חופש ומעלה‬
‫כבר מאוד קרובה להתפלגות 𝑍‪ ,‬ולכן‬
‫במקרה זה נוכל להשתמש בערכי התפלגות‬
‫𝑍‪.‬‬
‫‪4‬‬
‫‪09/05/2021‬‬
‫טבלת התפלגות 𝒕‪ :‬שורות טבלת 𝑡 מציינות את דרגות החופש‪ .‬ניתן לראות שיש אינפורמציה עבור‬
‫דרגות חופש החל מ‪ 1-‬ועד ל‪ 30-‬באופן רציף‪.‬‬
‫רווח סמך (בניגוד לבדיקת השערות) הינו תמיד דו‪-‬צדדי‪ ,‬ולכן נשתמש בנושא זה רק בחלק של‬
‫טבלת 𝒕 המתאים למבחן דו‪-‬צדדי‪.‬‬
‫את רמת הביטחון הינה לדוגמא ‪ 95%‬נובע ש‪ .1 − 𝛼 = 0.95-‬כלומר‪ ,‬במקרה זה ‪,𝛼 = 0.05‬‬
‫ולכן יהיה עלינו לבדוק מהו הערך המתאים בטבלת 𝑡 למבחן דו‪-‬צדדי בעמודה ‪.0.05‬‬
‫רווח הסמך למקרה 𝟐‬

‫רווח הסמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה הינו‪:‬‬
‫𝑆‬
‫‪𝑋̅ ±‬‬ ‫)‪⋅ 𝑡(𝑛−1‬‬
‫𝑛√‬
‫כלומר‪ ,‬רווח הסמך הינו‪:‬‬
‫𝑆‬ ‫‪S‬‬
‫‪[𝑋̅ −‬‬ ‫‪⋅ 𝑡(𝑛−1) , 𝑋̅ +‬‬ ‫] )‪⋅ 𝑡(𝑛−1‬‬
‫𝑛√‬ ‫𝑛√‬
‫הערה‪ :‬כאשר מספר דרגות החופש מעל ‪ 30‬נשתמש בהתפלגות 𝑍 ולא בהתפלגות 𝑡‪ ,‬מכיוון‬
‫שההבדלים בין שתי ההתפלגויות כבר זניחים‪.‬‬
‫דוגמא‪ :‬מעוניינים לבנות רווח סמך לתוחלת רמת ההמוגלובין בדם בקרב נשים בהריון‪ .‬לשם כך‬
‫דגמנו ‪ 10‬נשים ובדקנו עבור כל אחת את רמת ההמוגלובין בדם‪ .‬הניחו שהמשתנה הנחקר (רמת‬
‫ההמוגלובין בדם בקרב נשים בהריון) מפולג נורמאלית‪.‬‬
‫להלן רמות ההמוגלובין שנמצאו במדגם של ‪ 10‬הנשים‪:‬‬
‫‪13.8, 14.2, 12.2, 12.5, 15, 11.3, 14.1, 9.7, 15.5, 13‬‬
‫בנו רווח סמך ברמת ביטחון ‪ 95%‬לתוחלת רמת ההמוגלובין בדם בקרב נשים בהריון‪.‬‬
‫פתרון‪ :‬תחילה נחשב את ממוצע רמת ההמוגלובין בדם‪:‬‬
‫‪13.8 + ⋯ + 13 131.3‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 13.13‬‬
‫‪10‬‬ ‫‪10‬‬
‫נחשב את השונות וסטיית התקן של רמת ההמוגלובין במדגם‪:‬‬
‫‪2‬‬
‫‪∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2 13.82 + 14.22 + ⋯ + 132 − 10 ⋅ (13.13)2 28.041‬‬
‫= 𝑆‬ ‫=‬ ‫=‬ ‫=‬
‫‪𝑛−1‬‬ ‫‪9‬‬ ‫‪9‬‬
‫‪= 3.11‬‬
‫‪𝑆 = 1.76‬‬
‫נבדוק בלוח 𝑡 (דו‪-‬צדדי) מהו הערך עבור ‪ (10 − 1) 9‬דרגות חופש (יש לבדוק תחת מבחן דו‪-‬‬
‫צדדי)‪:‬‬
‫‪𝑡(𝑛−1) − 𝑡(9) = 2.262‬‬
‫רווח הסמך לתוחלת רמת ההמוגלובין בקרב נשים בהריון‪:‬‬
‫𝑆‬ ‫‪1.76‬‬
‫‪𝑋̅ ±‬‬ ‫‪⋅ 𝑡(𝑛−1) = 13.13 ±‬‬ ‫]‪⋅ 2.262 = 13.13 ± 1.26 = [11.87, 14.39‬‬
‫𝑛√‬ ‫‪√10‬‬
‫‪5‬‬
‫‪09/05/2021‬‬
‫משמעות התוצאה‪ :‬בביטחון ‪ 95%‬ניתן לומר שתוחלת רמת ההמוגלובין בדם של נשים בהריון‬
‫נעה בין ‪ 11.87‬לבין ‪.14.39‬‬
‫סיכום ביניים‬
‫עד כה הצגנו את שני המקרים הבאים של רווח סמך‪:‬‬
‫רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה( ידועה‪.‬‬ ‫‪-‬‬
‫רווח סמך לתוחלת בהתפלגות נורמאלית כאשר השונות (באוכלוסייה) אינה ידועה‪.‬‬ ‫‪-‬‬
‫רווח הסמך הראשון התבסס על התפלגות 𝑍‪ ,‬בעוד השני התבסס על התפלגות 𝑡 מכיוון שאמדנו‬
‫את השונות באוכלוסייה על סמך השונות במדגם‪.‬‬
‫נציג מקרה נוסף של רווח סמך‪ :‬רווח סמך לפרופורציה‪.‬‬
‫מקרה 𝟑‪ :‬רווח סמך לפרופורציה‬

‫בניגוד לשני המקרים הקודמים‪ ,‬ההתפלגות המקורית איננה התפלגות נורמאלית אלא התפלגות‬
‫אחרת (התפלגות ברנולית)‪ .‬כעת כל נדגם (תצפית) יכול לקבל שני מצבים בלבד‪" :‬הצלחה"‬
‫ו"כישלון"‪ .‬יהיו לפנינו 𝑛 נדגמים כאלו בלתי תלויים זה בזה‪.‬‬
‫דוגמאות‪ :‬רווח סמך לפרופורציית המעשנים בקרב מבוגרים בישראל; רווח סמך לפרופורציית‬
‫התומכים במועמד א' לראשות העיר ירושלים; רווח סמך לפרופורציית המוצרים הפגומים בפס‬
‫ייצור‪.‬‬
‫בכל הדוגמאות הללו המשתנה הנחקר יכול לקבל אך ורק שתי תוצאות ביחס לשאלת המחקר‪.‬‬
‫בניית רווח סמך למקרה 𝟑‬

‫אם כך‪ ,‬נבנה את רווח הסמך למקרה ‪ 3‬לפי המבנה הכללי של רווח הסמך‪ :‬האומד הנקודתי‬
‫לפרמטר לא ידוע פלוס‪/‬מינוס סטיית התקן שלו כפול גורם הסתברותי מהתפלגות 𝑍 או 𝑡‪.‬‬
‫נשים לב שההתפלגות המקורית אינה נורמאלית‪ ,‬ולכן כדי שנוכל להשתמש במשפט הגבול המרכזי‬
‫עלינו להבטיח שגודל המדגם יהיה מעל ‪ .30‬לכן‪ ,‬בכל הדוגמאות במקרה ‪ 3‬גודם המדגם יהיה מעל‬
‫‪.30‬‬
‫כזכור מהמקרה הקודם‪ ,‬כאשר גודל המדגם מעל ‪ 30‬נהוג להשתמש בהתפלגות 𝑍 גם אם השונות‬
‫אינה ידועה‪ ,‬שכן ההבדלים בין שתי ההתפלגות ( 𝑍 ו‪ 𝑡-‬מינוריים)‪.‬‬
‫נוסחת רווח סמך לפרופורציה (מקרה 𝟑)‬

‫רווח הסמך לפרופורציה ברמת ביטחון 𝛼 ‪ 1 −‬הינו‪:‬‬
‫̂𝑞 ⋅ ̂𝑝‬
‫√ ‪𝑝̂ ±‬‬ ‫𝛼‪⋅ 𝑍1−‬‬
‫𝑛‬ ‫‪2‬‬
‫כאשר ̂𝑝 הינו הפרופורציה במדגם‪.‬‬

‫לדוגמא‪ ,‬אם מעוניינים לבנות רווח סמך לפרופורציית המעשנים באוכלוסייה‪ ,‬ודגמנו ‪ 100‬אנשים‬
‫‪35‬‬
‫ומצאנו ש‪ 35-‬מתוכם מעשנים‪ ,‬נקבל ש‪.𝑝̂ = 100 = 0.35-‬‬
‫‪6‬‬
‫‪09/05/2021‬‬
‫דוגמא‪ :‬לראשות העיר ירושלים שני מועמדים‪ :‬מועמד א' ומועמד ב'‪ .‬מתוך סקר שנערך ערב‬
‫הבחירות בקרב ‪ 100‬תושבי העיר נמצא ש‪ 58-‬מהם תומכים במועמד א' והיתר במועמד ב'‪.‬‬
‫בנו רווח סמך לפרופורציית התומכים במועמד א' ברמת סמך ‪.0.95‬‬ ‫א‪.‬‬
‫לאור תוצאת רווח הסמך שקיבלתם קבעו האם למועמד ב' יש עדיין סיבות לאופטימיות‬ ‫ב‪.‬‬
‫ברמת ביטחון ‪.95%‬‬
‫חשבו רווח סמך לפרופורציית התומכים במועמד א' עבור רמת ביטחון של ‪.99%‬‬ ‫ג‪.‬‬
‫תחילה נחשב את פרופורציית התומכים במועמד א' במדגם‪ .‬נתון ש‪ 58-‬מתוך ה‪100-‬‬ ‫א‪.‬‬
‫שבמדגם תמכו במועמד א'‪ ,‬ולכן ‪.𝑝̂ = 0.58‬‬
‫רווח הסמך לפרופורציית התומכים במועמד א' ברמת סמך ‪:0.95‬‬
‫̂𝑞 ⋅ ̂𝑝‬ ‫‪0.58 ⋅ 0.42‬‬ ‫‪0.58 ⋅ 0.42‬‬

‫√ ‪𝑝̂ ±‬‬ ‫√ ‪⋅ 𝑍1−𝛼 = 0.58 ±‬‬ ‫√ ‪⋅ 𝑍0.975 = 0.58 ±‬‬ ‫= ‪⋅ 1.96‬‬
‫𝑛‬ ‫‪2‬‬ ‫‪100‬‬ ‫‪100‬‬
‫]‪= 0.58 ± 0.097 = [0.483, 0.677‬‬
‫נפרש תחילה את תוצאת רווח הסמך שהתקבלה‪ :‬ברמת ביטחון של ‪ 95%‬אחוז הבוחרים‬ ‫ב‪.‬‬
‫במועמד א' בבחירות לראשות העיר ינוע בין ‪ 48.3%‬לבין ‪ .67.7%‬מכיוון שרווח הסמך‬
‫כולל את הערך ‪ ,(50%) 0.5‬למועמד ב' עדיין יש סיבות לאופטימיות ברמת ביטחון זו‪.‬‬
‫מה שמשתנה לעומת סעיף א' זה רק ערך 𝑍 שיהיה כעת גבוה יותר‪.‬‬ ‫ג‪.‬‬
‫𝛼‬ ‫‪0.01‬‬
‫‪1−‬‬ ‫‪= 1−‬‬ ‫‪= 0.995‬‬
‫‪2‬‬ ‫‪2‬‬
‫‪𝑍1−𝛼 = 𝑍0.995 = 2.57‬‬
‫‪2‬‬
‫רווח הסמך שמתקבל הינו‪:‬‬
‫̂𝑞 ⋅ ̂𝑝‬ ‫‪0.58 ⋅ 0.42‬‬

‫√ ‪𝑝̂ ±‬‬ ‫√ ‪⋅ 𝑍1−𝛼 = 0.58 ±‬‬ ‫]‪⋅ 2.57 = 0.58 ± 0.127 = [0.453, 0.707‬‬
‫𝑛‬ ‫‪2‬‬ ‫‪100‬‬
‫כצפוי‪ ,‬רווח הסמך כעת רחב יותר‪.‬‬
‫‪7‬‬
‫‪23/05/2021‬‬

‫נושא ההרצאה‪ :‬בדיקת השערות על התוחלת כאשר השונות‬
‫באוכלוסייה ידועה‬
‫בדיקת השערות על התוחלת‬
‫בהרצאה זו נציג מבחן לבדיקת השערות על התוחלת בהתפלגות נורמאלית כאשר השונות‬
‫באוכלוסייה ידועה‪.‬‬
‫במבחן זה אנו בודקים השערות בנוגע לתוחלת של קבוצה מסוימת בהשוואה לתוחלת המקובלת‬
‫בקרב כלל האוכלוסייה‪.‬‬
‫מבחן זה מניח התפלגות נורמאלית של הנתונים מהם נלקח המדגם‪ .‬ניתן לוותר על הנחה זו כאשר‬
‫גודל המדגם גדול (מעל ‪ 30‬תצפיות)‪.‬‬
‫מבחן זה מתבסס על ההתפלגות הנורמאלית – הערך הקריטי אשר בו נשתמש לצורך הכרעה בין‬
‫ההשערות יילקח מההתפלגות הנורמאלית הסטנדרטית 𝑍‪.‬‬
‫במבחן זה יהיה נתון לנו בשאלה מדגם יחיד מההתפלגות אותה אנו רוצים לבחון‪ .‬עבור מדגם זה‬
‫נחשב ממוצע (או שהממוצע יהיה כבר נתון לנו בשאלה)‪ .‬כמו‪-‬כן‪ ,‬במבחן זה תהיה נתונה לנו‬
‫התוחלת של כלל האוכלוסייה‪ .‬אנו נשווה בין הממוצע שחושב עבור הקבוצה הנבחנת לתוחלת של‬
‫כלל האוכלוסייה‪ ,‬ובהתאם לערכים אלו ולערכים נוספים נכריע בין שתי ההשערות‪.‬‬
‫במבחן זה השונות (או סטיית התקן) של האוכלוסייה כולה תהיה ידועה ונתונה עבורנו בשאלה‪.‬‬
‫במבחן הבא שנציג (מבחן 𝑡 – הרצאה ‪ )10‬השונות באוכלוסייה לא תהיה ידועה ונצטרך בין היתר‬
‫לאמוד אותה על סמך המדגם‪.‬‬
‫ניסוח ההשערות‬
‫במבחן לבדיקת השערות על התוחלת ההשערות יכולות להיות דו‪-‬צדדיות (ללא כיוון( או חד‪-‬‬
‫צדדיות (עם כיוון) בהתאם לניסוח שאלת המחקר בשאלה‪ .‬נמחיש זאת בדוגמאות הבאות‪:‬‬
‫דוגמא 𝟏‪ :‬בבית ספר כלשהו ממוצע הציונים במתמטיקה הינו ‪ .75‬לאחרונה הופעלה שיטת לימוד‬
‫חדשה להוראת המתמטיקה‪ .‬מנהל בית ספר מעוניין לבדוק את הטענה ששיטת ההוראה החדשה‬
‫הביאה לשינוי ברמת הציונים במתמטיקה‪.‬‬
‫סוג ההשערות לדוגמא 𝟏‪ :‬בדוגמא זו מדובר בהשערות דו‪-‬צדדיות מכיוון שלהשערת המחקר ‪𝐻1‬‬
‫אין כיוון (למילה "שינוי" אין כיוון)‪.‬‬
‫ננסח את ההשערות עבור דוגמא 𝟏‪:‬‬
‫‪ :𝐻0‬ממוצע הציונים בשיטת הלימוד החדשה אינו שונה ממוצע הציונים שהיה לפני הפעלת‬
‫השיטה‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים בשיטת הלימוד החדשה שונה מממוצע הציונים שהיה לפני הפעלת השיטה‪.‬‬
‫דוגמא 𝟐‪ :‬בבית ספר כלשה ממוצע הציונים במתמטיקה הינו ‪ .75‬לאחרונה הופעלה שיטת לימוד‬
‫הביאה לעלייה ברמת הציונים במתמטיקה‪.‬‬
‫סוג ההשערות לדוגמא 𝟐‪ :‬בדוגמא זו שינינו מילה אחת בלבד – במקום "שינוי" רשמנו "עלייה"‪.‬‬
‫לכו‪ ,‬בדוגמא זו מדובר בהשערות חד‪-‬צדדיות‪ ,‬מכיוון שלהשערת המחקר ‪ 𝐻1‬יש כיוון (למילה‬
‫"עלייה" יש כיוון)‪.‬‬
‫‪1‬‬
‫‪23/05/2021‬‬
‫ננסח את ההשערות עבור דוגמא 𝟐‪:‬‬

‫‪ :𝐻0‬ממוצע הציונים בשיטת הלימוד החדשה אינו גבוה מממוצע הציונים שהיה לפני הפעלת‬
‫‪ :𝐻1‬ממוצע הציונים בשיטת הלימוד החדשה גבוה מממוצע הציונים שהיה לפני הפעלת השיטה‪.‬‬
‫דוגמא 𝟑‪ :‬בבית ספר כלשהו ממוצע הציונים במתמטיקה הינו ‪ .75‬לאחרונה הופעלה שיטת לימוד‬
‫הביאה לירידה ברמת הציונים במתמטיקה‪.‬‬
‫בדוגמא זו מדובר בהשערות חד‪-‬צדדיות אשר הפוכות מאלו של דוגמא ‪ – 2‬הפעם ‪ 𝐻1‬טוענת שיש‬
‫ירידה בציונים עקב שינוי שיטת הלימוד‪.‬‬
‫‪ :𝐻0‬ממוצע הציונים בשיטת הלימוד החדשה אינו נמוך מממוצע הציונים שהיה לפני הפעלת‬
‫‪ :𝐻1‬ממוצע הציונים בשיטת הלימוד החדשה נמוך מממוצע הציונים שהיה לפני הפעלת השיטה‪.‬‬
‫אזורי הדחייה בדוגמאות שהוצגו‪:‬‬
‫בדוגמא מס' ‪ 1‬מדובר בהשערות דו‪-‬צדדיות‪ ,‬ולכן בדוגמא ‪ 1‬אזור הדחייה של ‪ 𝐻0‬יהיה‬ ‫‪-‬‬
‫בשני הקצוות של ההתפלגות הנורמאלית‪.‬‬
‫בדוגמא מס' ‪ 2‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬כאשר ‪ 𝐻1‬טוענת שחלה עלייה ברמת‬ ‫‪-‬‬
‫הציונים‪ ,‬ולכן בדוגמא ‪ 2‬אזור הדחייה של ‪ 𝐻0‬יהיה בזנב הימני של ההתפלגות‬
‫הנורמאלית‪.‬‬
‫בדוגמא מס' ‪ 3‬מדובר בהשערות חד‪-‬צדדיות‪ ,‬כאשר ‪ 𝐻1‬טוענת שחלה ירידה ברמת‬ ‫‪-‬‬
‫הציונים‪ ,‬ולכן בדוגמא ‪ 3‬אזור הדחייה של ‪ 𝐻0‬יהיה בזנב השמאלי של ההתפלגות‬
‫הנורמאלית‪.‬‬
‫חישוב ערך הסטטיסטי‬
‫כדי להכריע בין ‪ 𝐻0‬לבין ‪ 𝐻1‬נחשב את ערך הסטטיסטי המבוסס על נתוני המדגם‪ .‬לאחר מכן‬
‫נשווה את ערך הסטטיסטי לערך קריטי הלקוח מההתפלגות הנורמאלית‪ ,‬בהתאם לרמת‬
‫המובהקות הנתונה בשאלה‪.‬‬
‫ערך הסטטיסטי לבדיקת ההשערות על הממוצע מסומן ב‪ ,𝑍𝑋̅ -‬ולכן נוסחתו‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬
‫= ̅𝑋𝑍‬ ‫𝜎‬
‫𝑛√‬
‫̅𝑋 הינו ממוצע המדגם‬ ‫‪-‬‬
‫𝜇 הינו הממוצע באוכלוסייה שהיה מקובל עד כה‬ ‫‪-‬‬
‫𝜎 הינה סטיית התקן באוכלוסייה (ערך זה יהיה נתון בשאלה)‬ ‫‪-‬‬
‫𝑛 הינו גודל המדגם‬ ‫‪-‬‬
‫‪2‬‬
‫‪23/05/2021‬‬
‫מציאת הערך הקריטי‬

‫לאחר שחישבנו את ערך הסטטיסטי‪ ,‬יש להשוותו לערך קריטי הלקוח מההתפלגות הנורמאלית‬
‫(בהתאם לרמת המובהקות הנתונה בשאלה) כדי להכריע בין שתי ההשערות‪.‬‬
‫באופן כללי‪ ,‬אם ערך הסטטיסטי שחושב קיצוני יותר (גדול יותר בערכו המוחלט) מהערך הקריטי‬
‫הלקוח מההתפלגות הנורמאלית 𝑍‪ ,‬נדחה את השערת האפס‪ ,‬ואילו אם ערך הסטטיסטי שחושב‬
‫אינו קיצוני יותר מהערך הקריטי‪ ,‬לא נדחה את השערת האפס‪.‬‬
‫בהמשך נפרט את כלל הדחייה עבור מבחן חד‪-‬צדדי ועבור מבחן דו‪-‬צדדי‪.‬‬
‫כלל הדחייה במבחן חד‪-‬צדדי‬
‫כאשר עלינו להכריע בין השערות ומדובר בהשערות חד‪-‬צדדיות‪:‬‬
‫לאחר שחישבנו את ערך הסטטיסטי ̅𝑋𝑍 עלינו לבדוק בטבלת ההתפלגות הנורמאלית 𝑍 מהו הערך‬
‫הקריטי 𝛼‪.𝑍1−‬‬
‫בשלב הבא‪ ,‬נשווה בין שני ערכים אלו‪:‬‬
‫אם 𝛼‪ ,|𝑍𝑋̅ | ≥ 𝑍1−‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אם 𝛼‪ ,|𝑍𝑋̅ | < 𝑍1−‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אזורי הדחייה במבחן חד‪-‬צדדי ימני‪:‬‬
‫דוגמא‪ :‬נניח שרוצים לבדוק את ההשערות עבור רמת מובהקות ‪ 0.05‬ומדובר בהשערות חד‪-‬‬
‫צדדיות‪.‬‬
‫תחילה‪ ,‬נבדוק מהו הערך 𝛼‪ 𝑍1−‬בטבלת ההתפלגות הנורמאלית 𝑍‪.‬‬
‫‪𝑍1−𝛼 = 𝑍1−0.05 = 𝑍0.95 = 1.64‬‬
‫כעת‪ ,‬יש להשוות את ערך הסטטיסטי לערך הקריטי ‪ 1.64‬באופן הבא‪:‬‬
‫אם ‪ ,|𝑍𝑋̅ | ≥ 1.64‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אם ‪ ,|𝑍𝑋̅ | < 1.64‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫‪3‬‬
‫‪23/05/2021‬‬
‫כלל הדחייה במבחן דו‪-‬צדדי‬

‫כאשר עלינו להכריע בין שתי השערות ומדובר בהשערות דו‪-‬צדדיות‪:‬‬
‫לאחר שחישבנו את ערך הסטטיסטי ̅𝑋𝑍 עלינו לבדוק בטבלת ההתפלגות הנורמאלית 𝑍 מהו הערך‬
‫הקריטי 𝛼‪.𝑍1−‬‬
‫‪2‬‬

‫אם 𝛼‪ ,|𝑍𝑋̅ | ≥ 𝑍1−‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫‪2‬‬
‫אם 𝛼‪ ,|𝑍𝑋̅ | < 𝑍1−‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫‪2‬‬
‫אזורי הדחייה במבחן דו‪-‬צדדי‪:‬‬
‫דוגמא‪ :‬נניח שרוצים לבדוק את ההשערות עבור רמת מובהקות ‪ 0.05‬ומדובר בהשערות דו‪-‬‬
‫צדדיות‪.‬‬
‫תחילה‪ ,‬נבדוק מהו הערך 𝛼‪ 𝑍1−‬בטבלת ההתפלגות הנורמאלית 𝑍‪.‬‬
‫‪2‬‬
‫𝑍 = 𝛼‪𝑍1−‬‬ ‫‪0.05‬‬ ‫‪= 𝑍1−0.025 = 𝑍0.975 = 1.96‬‬

‫‪2‬‬ ‫‪1−‬‬
‫‪2‬‬
‫כעת‪ ,‬יש להשוות את ערך הסטטיסטי לערך הקריטי ‪ 1.96‬באופן הבא‪:‬‬

‫אם ‪ ,|𝑍𝑋̅ | ≥ 1.96‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫אם ‪ ,|𝑍𝑋̅ | < 1.96‬לא נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫דוגמא‪ :‬בבית ספר כלשהו ממוצע הציונים במתמטיקה הינו ‪ 75‬וסטיית התקן ‪ .12‬לאחרונה‬
‫הופעלה שיטת לימוד חדשה להוראת המתמטיקה‪ .‬מנהל בית ספר מעוניין לבדוק את הטענה‬
‫ששיטת ההוראה החדשה הביאה לשינוי ברמת הציונים במתמטיקה‪ .‬לשם כך לקח מדגם של ‪50‬‬
‫תלמידים אשר למדו בשיטת ההוראה החדשה ונמצא כי ממוצע ציוניהם הינו ‪.77.4‬‬
‫בדקו את הטענה כי חל שינוי ברמת הציונים במתמטיקה ברמת מובהקות של ‪.0.05‬‬
‫‪4‬‬
‫‪23/05/2021‬‬
‫פתרון‪ :‬מדובר בהשערות דו‪-‬צדדיות (להשערת המחקר אין כיוון)‪:‬‬

‫‪ :𝐻0‬ממוצע הציונים לאחר הפעלת שיטת הלימוד החדשה אינו שונה מממוצע הציונים שהיה לפני‬
‫הפעלת השיטה‪.‬‬
‫‪ :𝐻1‬ממוצע הציונים לאחר הפעלת שיטת הלימוד החדשה שונה מממוצע הציונים שהיה לפני‬
‫הפעלת השיטה‪.‬‬
‫בשלב הבא נחשב את ערך הסטטיסטי‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬ ‫‪77.4 − 75‬‬ ‫‪2.4‬‬
‫= ̅𝑋𝑍‬ ‫= 𝜎‬ ‫=‬ ‫‪= 1.41‬‬
‫‪12‬‬ ‫‪1.697‬‬
‫𝑛√‬ ‫‪√50‬‬
‫נמצא את הערך הקריטי (עבור מבחן דו‪-‬צדדי)‪:‬‬
‫𝑍 = 𝛼‪𝑍1−‬‬ ‫‪0.05‬‬ ‫‪= 𝑍0.975 = 1.96‬‬
‫‪2‬‬ ‫‪1−‬‬
‫‪2‬‬
‫השוואה בין ערך הסטטיסטי לערך הקריטי‪:‬‬

‫ערך הסטטיסטי )‪ (1.41‬אינו קיצוני יותר מהערך הקריטי )‪ ,(1.96‬או בצורה פורמאלית יותר‪:‬‬
‫‪ , |𝑍𝑋̅ | = 1.41 < 1.96‬ולכן לא נדחה את ‪ 𝐻0‬עבור רמת מובהקות של ‪.0.05‬‬
‫במילים אחרות‪ ,‬ערך הסטטיסטי "נופל" באזור הקבלה של ‪ ,𝐻0‬ולכן מקבלים את ‪.𝐻0‬‬
‫מסקנה‪ :‬ממוצע הציונים בשיטת הלימוד החדשה דומה לממוצע הציונים שהיה לפני כן‪ .‬במילים‬
‫אחרות‪ ,‬לא כדאי לאמץ את שיטת הלימוד החדשה שכן לא נמצא באופן מובהק שהיא משנה את‬
‫ציוני התלמידים‪.‬‬
‫‪( 𝒑-value‬ערך 𝒑)‬

‫‪ 𝒑-value‬הינה רמת המובהקות המינימאלית עבורה נדחה את 𝟎𝑯‪.‬‬
‫במילים אחרות‪ ,‬זוהי רמת המובהקות הראשונה (הנמוכה ביותר) עבורה כבר נדחה את השערת‬
‫האפס‪ .‬נסמנה בקיצור באות 𝑝‪.‬‬
‫אנו יודעים שאם אנו דוחים את ‪ 𝐻0‬ברמת מובהקות ‪ 0.05‬נובע ש‪ ,𝑝 < 0.05-‬ואם אנו לא דוחים‬
‫את ‪ 𝐻0‬ברמת מובהקות ‪ 0.05‬נובע ש‪.𝑝 > 0.05-‬‬
‫במבחן לבדיקת השערות המתואר בהרצאה זו אנו יכולים לחשב את הערך המדויק של ה‪-‬‬
‫‪ 𝑝-value‬עבור דוגמא כלשהי (ולא רק לדעת אם הוא גדול או קטן מ‪.)0.05-‬‬
‫הסיבה לכך שנוכל למצוא את ערך 𝑝 המדויק הינה בגלל שהמבחן מתבסס על ההתפלגות‬
‫הנורמאלית 𝑍 עבורה נוכל למצוא ערך מדויק בעזרת הטבלה‪.‬‬
‫אופן חישוב ה‪:𝒑-value-‬‬
‫כאמור‪ ,‬ה‪ 𝑝-value-‬הינו רמת המובהקות המינימאלית עבורה נדחה את ‪ .𝐻0‬אנו דוחים את ‪𝐻0‬‬
‫כאשר ערך הסטטיסטי המחושב קיצוני יותר מהערך הקריטי הנמצא בטבלת 𝑍‪ .‬לכן‪ ,‬כדי לדחות‬
‫את ‪ 𝐻0‬לראשונה עלינו לקחת רמת מובהקות אשר מכסה בדיוק את ערך הסטטיסטי‪ .‬לכן‪ ,‬ה‪-‬‬
‫‪ 𝑝-value‬עבור דוגמא כלשהי שווה לשטח הנמצא החל מערך הסטטיסטי שחושב וקיצוני יותר‪.‬‬
‫‪5‬‬
‫‪23/05/2021‬‬
‫עבור מבחן חד‪-‬צדדי ימני חישוב ה‪ 𝑝-value-‬ייעשה בכך שנחשב את השטח שנמצא מערך‬ ‫‪-‬‬
‫הסטטיסטי ̅𝑋𝑍 וימינה‪.‬‬
‫עבור מבחן חד‪-‬צדדי שמאלי חישוב ה‪ 𝑝-value-‬ייעשה בכך שנחשב את השטח שנמצא‬ ‫‪-‬‬
‫מערך הסטטיסטי ̅𝑋𝑍 ושמאלה‪.‬‬
‫עבור מבחן דו‪-‬צדדי חישוב ה‪ 𝑝-value-‬ייעשה בכך שנחשב את השטח שנמצא מערך‬ ‫‪-‬‬
‫הסטטיסטי ̅𝑋𝑍 ולכיוון זנב ההתפלגות כפול 𝟐‪.‬‬
‫הסיבה לכך שבמבחן דו‪-‬צדדי יש להכפיל ב‪ 2-‬את השטח המחושב נעוצה בסיבה שבמבחן‬
‫דו‪-‬צדדי רמת המובהקות מחולקת לשני זנבות ההתפלגות‪ ,‬ולכן כדי לדחות את ‪ 𝐻0‬צריך‬
‫לקחת רמת מובהקות כפולה מזו שנלקחת במבחן החד‪-‬צדדי‪.‬‬
‫‪ 𝒑-value‬עבור מבחן חד‪-‬צדדי ימני‪:‬‬
‫‪ 𝒑-value‬עבור מבחן חד‪-‬צדדי שמאלי‪:‬‬
‫‪ 𝒑-value‬עבור מבחן דו‪-‬צדדי‪:‬‬
‫‪6‬‬
‫‪23/05/2021‬‬
‫דוגמא‪ :‬לצורך התרגול נשתמש בנתוני הדוגמא האחרונה (עם שיטת ההוראה החדשה) כדי לחשב‬
‫את רמת המובהקות המינימאלית בה נדחה את ‪.𝐻0‬‬
‫פתרון‪ :‬אנו נדרשים לחשב את ה‪ 𝑝-value-‬עבור הדוגמא‪.‬‬
‫כזכור מסעיף א'‪ ,‬ברמת מובהקות של ‪ 0.05‬לא דחינו את ‪ ,𝐻0‬ולכן כבר מסעיף א' אנו מסיקים ש‪-‬‬
‫‪ .𝑝 > 0.05‬כעת אנו נדרשים לומר מהו הערך המדויק של 𝑝‪.‬‬
‫בדוגמא זו מדובר במבחן דו‪-‬צדדי‪ ,‬ולכן ערך ה‪ 𝑝-‬יהיה השטח שמערך הסטטיסטי ולכיוון זנב‬
‫ההתפלגות כפול ‪.2‬‬
‫את ערך הסטטיסטי כבר מצאנו בסעיף א'‪.𝑍𝑋̅ = 1.41 :‬‬
‫בעזרת טבלת ההתפלגות הנורמאלית 𝑍 נחשב את השטח הנמצא מערך הסטטיסטי )‪(1.41‬‬
‫ולכיוון הזנב‪ ,‬כלומר ימינה (אם היה מדובר בערך שלילי היינו מחשבים את הערך ממנו ושמאלה)‪.‬‬
‫את התוצאה יש להכפיל לבסוף ב‪( 2-‬כי מדובר במבחן דו‪-‬צדדי)‪.‬‬
‫‪𝑃(𝑍 > 1.41) = 1 − 𝑃(𝑍 < 1.41) = 1 − 𝜙(1.41) = 1 − 0.9207 = 0.0793‬‬
‫את התוצאה שקיבלנו )‪ (0.0793‬יש להכפיל ב‪ ,2-‬ולכן מקבלים שערך ה‪ 𝑝-‬הינו‬
‫‪.2 ⋅ 0.0793 = 0.1586‬‬
‫‪𝑝-value = 0.1586 = 15.86%‬‬
‫משמעות התוצאה‪ :‬ה‪ 𝑝-value-‬הינו רמת המובהקות המינימאלית בה נדחה את ‪.𝐻0‬‬
‫קיבלנו בדוגמא שרמת המובהקות המינימאלית בה נדחה את ‪ 𝐻0‬שווה ל‪.0.1586-‬‬
‫כלומר‪ ,‬עבור רמות מובהקות שגדולות (או שוות) ל‪ 0.1586-‬אנו נדחה את ‪ ,𝐻0‬ועבור רמות‬
‫מובהקות נמוכות מ‪ 0.1586-‬לא נדחה את ‪.𝐻0‬‬
‫תוצאה זו מתיישבת עם תוצאות סעיף א' בו לא דחינו את ‪ 𝐻0‬עבור רמת מובהקות של ‪ 0.05‬אשר‬
‫קטנה מ‪.0.1586-‬‬
‫דוגמא מסכמת‬
‫חברת מקדונלד'ס פרסמה שממוצע משקל קציצת ההמבורגר שלה הינו ‪ 150‬גרם וסטיית התקן ‪6‬‬
‫גרם‪ .‬לקוחות בסניף אור יהודה טוענים שבסניף זה ממוצע משקל הקציצה נמוך מ‪ 150-‬גרם‪ .‬לשם‬
‫בדיקת טענתם נעזרו הלקוחות בסטטיסטיקאי אשר דגם מדגם מקרי של ‪ 100‬קציצות ומצא‬
‫שממוצע המשקל שלהן הינו ‪ 148.7‬גרם‪.‬‬
‫בדקו האם יש צדק בטענת הלקוחות עבור רמת מובהקות ‪ 5%‬וחשבו את ערך ה‪-‬‬ ‫א‪.‬‬
‫‪ 𝑝-value‬של המבחן‪.‬‬
‫חזרו על סעיף א' כאשר טענת הלקוחות שממוצע משקל ההמבורגר שונה ממה שהחברה‬ ‫ב‪.‬‬
‫התחייבה‪.‬‬
‫מדובר בהשערות חד‪-‬צדדיות (שכן הלקוחות טוענים שמשקל הקציצה נמוך מ‪,150-‬‬ ‫א‪.‬‬
‫כלומר‪ ,‬יש כיוון להשערת המחקר)‪:‬‬
‫‪ :𝐻0‬ממוצע משקל קציצה בסניף אור יהודה אינו נמוך מ‪ 150-‬גרם‪.‬‬

‫‪ :𝐻1‬ממוצע משקל קציצה בסניף אור יהודה נמוך מ‪ 150-‬גרם‪.‬‬
‫‪7‬‬
‫‪23/05/2021‬‬
‫ערך הסטטיסטי‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬ ‫‪148.7 − 150‬‬ ‫‪1.3‬‬
‫= ̅𝑋𝑍‬ ‫= 𝜎‬ ‫‪=−‬‬ ‫‪= −2.17‬‬
‫‪6‬‬ ‫‪0.6‬‬
‫𝑛√‬ ‫‪√100‬‬
‫הערך הקריטי (עבור מבחן חד‪-‬צדדי ברמת מובהקות 𝟓𝟎 ‪:)𝟎.‬‬
‫‪𝑍1−𝛼 = 𝑍1−0.05 = 𝑍0.95 = 1.64‬‬
‫ערך הסטטיסטי )‪ (−2.17‬קיצוני יותר מהערך הקריטי )‪ ,(1.64‬או בצורה פורמאלית‬
‫יותר‪ ,|𝑍𝑋̅ | = 2.17 > 𝑍1−𝛼 = 1.64 :‬ולכן נדחה את ‪ 𝐻0‬עבור רמת מובהקות של ‪.5%‬‬
‫מסקנה‪ :‬ממוצע משקל קציצת ההמבורגר בסניף מקדונלד'ס באור יהודה נמוך יותר ממה‬
‫שהחברה התחייבה (‪ 150‬גרם)‪ ,‬ולכן יש צדק בטענת לקוחות הסניף‪.‬‬
‫כעת נחשב את ה‪ 𝒑-value-‬של המבחן‪ .‬מדובר בהשערות חד‪-‬צדדיות ולכן ה‪𝑝-value-‬‬
‫הינו השטח הנמצא מערך הסטטיסטי שקיבלנו )‪ (−2.17‬ושמאלה‪:‬‬
‫‪𝑝-value = 𝑃(𝑍 < −2.17) = 𝑃(𝑍 > 2.17) = 1 − 𝜙(2.17) = 1 − 0.985 = 0.015‬‬
‫‪𝑝-value = 0.015 = 1.5%‬‬
‫קיבלנו שרמת המובהקות המינימאלית בה נדחה את ‪( 𝐻0‬ערך ה‪ 𝑝-value-‬של המבחן)‬
‫שווה ל‪.0.015-‬‬
‫כלומר‪ ,‬זוהי רמת המובהקות הנמוכה ביותר עבורה כבר ניתן לדחות את ‪ .𝐻0‬במילים‬
‫אחרות‪ ,‬עבור רמות מובהקות שגדולות (או שוות) ל‪ 0.015-‬אנו נדחה את ‪ ,𝐻0‬ועבור רמות‬
‫מובהקות נמוכות מ‪ 0.015-‬לא נדחה את ‪.𝐻0‬‬
‫תוצאה זו מתיישבת כמובן עם העובדה שדחינו את ‪ 𝐻0‬עבור רמת מובהקות ‪( 0.05‬אשר‬
‫גבוהה יותר מ‪.)0.015-‬‬
‫בסעיף זה טענת הלקוחות הינה שממוצע משקל ההמבורגר שונה ממה שהחברה‬ ‫ב‪.‬‬
‫התחייבה‪ ,‬כלומר‪ ,‬הפעם מדובר בהשערות דו‪-‬צדדיות‪.‬‬
‫‪ :𝐻0‬ממוצע משקל קציצה בסניף אור יהודה אינו נמוך מ‪ 150-‬גרם‪.‬‬

‫‪ :𝐻1‬ממוצע משקל קציצה בסניף אור יהודה נמוך מ‪ 150-‬גרם‪.‬‬
‫ערך הסטטיסטי ללא שינוי‪.𝑍𝑋̅ = −2.17 :‬‬
‫הערך הקריטי למבחן דו‪-‬צדדי (ברמת מובהקות 𝟓𝟎 ‪ )𝟎.‬הינו‪:‬‬

‫𝑍 = 𝛼‪𝑍1−‬‬ ‫‪0.05‬‬ ‫‪= 𝑍1−0.025 = 𝑍0.975 = 1.96‬‬
‫‪2‬‬ ‫‪1−‬‬
‫‪2‬‬

‫ערך הסטטיסטי )‪ (−2.17‬גם בסעיף זה קיצוני יותר מהערך הקריטי )‪ ,(1.96‬או בצורה‬
‫פורמאלית‪ ,|𝑍𝑋̅ | = 2.17 > 𝑍1−𝛼 = 1.96 :‬ולכן נדחה את ‪ 𝐻0‬עבור רמת מובהקות של‬
‫‪2‬‬
‫‪.5%‬‬
‫‪8‬‬
‫‪23/05/2021‬‬
‫מסקנה‪ :‬ממוצע משקל קציצת ההמבורגר בסניף מקדונלד'ס באור יהודה שונה ממה‬
‫שהחברה התחייבה (‪ 150‬גרם)‪ ,‬ולכן יש צדק בטענת לקוחות הסניף‪.‬‬
‫ערך ה‪ 𝒑-value-‬של המבחן עבור סעיף ב'‪ :‬בסעיף זה מדובר במבחן דו‪-‬צדדי‪ ,‬לעומת‬
‫סעיף א' בו חישבנו עבור מבחן חד‪-‬צדדי‪.‬‬
‫לכן‪ ,‬את התוצאה שקיבלנו בסעיף ב' )‪ (0.015‬יש להכפיל ב‪:2-‬‬
‫‪𝑝-value = 2 ⋅ 0.015 = 0.03‬‬
‫‪𝑝-value = 0.03 = 3%‬‬
‫בדיקת השערות כאשר סטיית התקן אינה ידועה‬
‫בהרצאה זו עסקנו בנבחן לבדיקת השערות על הממוצע באוכלוסייה כאשר סטיית התקן (או‬
‫השונות) באוכלוסייה ידועה ונתונה בשאלה‪ .‬המבחן המתאים למקרה זה הינו מבחן 𝑍 המבוסס על‬
‫ההתפלגות הנורמאלית הסטנדרטית 𝑍‪.‬‬
‫נציין שבמקרית המקרים במציאות לא תהיה לנו אינפורמציה על אודות סטיית התקן‬
‫באוכלוסייה‪ ,‬ולכן מבחן 𝑍 לא כ"כ ריאלי‪ .‬במקרה בו לא נתונה לנו סטיית התקן באוכלוסייה‬
‫נצטרך לאמוד אותה על‪-‬סמך המדגם (נשתמש בנוסחא ל‪ :𝑆-‬סטיית התקן במדגם)‪ ,‬ונשתמש בלוח‬
‫𝑡 ולא בלוח 𝑍‪ .‬המבחן לבדיקת השערות למקרה בו סטיית התקן באוכלוסייה אינה ידועה נקרא‬
‫מבחן 𝑡‪.‬‬
‫בהרצאה הבאה נציג ונלמד מבחן זה‪ ,‬אשר גם בודק השערות בנוגע לתוחלת‪ ,‬אולם השונות (או‬
‫סטיית התקן) באוכלוסייה אינה ידועה ולכן נצטרך לאמוד אותה על‪-‬סמך המדגם‪.‬‬
‫לסיכום‪ ,‬במבחן 𝑍 משתמשים כאשר סטיית התקן באוכלוסייה ידועה‪ ,‬ובמבחן 𝑡 משתמשים‬
‫כאשר סטיית התקן אינה ידועה‪ ,‬ונצטרך לאמוד אותה על‪-‬סמך המדגם‪.‬‬
‫‪9‬‬
‫‪30/05/2021‬‬

‫נושא ההרצאה‪ :‬בדיקת השערות על התוחלת כאשר השונות‬
‫באוכלוסייה לא ידועה‬
‫בדיקת השערות על התוחלת‬
‫בהרצאה הקודמת (הרצאה מס' ‪ )9‬הצגנו מבחן לבדיקת השערות על התוחלת כאשר בשאלה‬
‫השונות (או סטיית התקן) באוכלוסייה הייתה ידועה ונתונה‪.‬‬
‫במצגת זו נציג מבחן דומה לקודם‪ ,‬אלא שהפעם השונות (או סטיית התקן) באוכלוסייה לא תהיה‬
‫ידועה ונצטרך לאמוד אותה על סמך המדגם אשר יינתן בשאלה‪ .‬למעשה‪ ,‬זה המצב השכיח יותר‬
‫במציאות‪.‬‬
‫בדומה למקרה זה אותו למדנו בהקשר של רווחי סמך (מקרה ‪ ,)2‬גם הפעם יהיה עלינו להשתמש‬
‫בלוח 𝑡 ולא בלוח 𝑍‪.‬‬
‫ההשערות יכולות להיות חד‪-‬צדדיות או דו‪-‬צדדיות‪ ,‬בדומה למבחן הקודם‪.‬‬
‫חישוב ערך הסטטיסטי‬
‫כדי להכריע בין ‪ 𝐻0‬לבין ‪ ,𝐻1‬נחשב את ערך הסטטיסטי המבוסס על נתוני המדגם‪ .‬לאחר מכן‬
‫נשווה את ערך הסטטיסטי לערך קריטי הלקוח מהתפלגות 𝑡‪ ,‬בהתאם לרמת המובהקות הנתונה‬
‫בשאלה‪.‬‬
‫ערך הסטטיסטי לבדיקת השערות על הממוצע מסומן ב‪ 𝑡𝑆 -‬ולהלן נוסחתו‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬
‫= 𝑆𝑡‬
‫𝑆‬
‫𝑛√‬
‫̅𝑋 הינו ממוצע המדגם‬ ‫‪-‬‬
‫𝜇 הינו הממוצע באוכלוסייה שהיה מקובל עד‪-‬כה‬ ‫‪-‬‬
‫𝑆 הינה סטיית התקן במדגם‬ ‫‪-‬‬
‫𝑛 הינו גודל המדגם‬ ‫‪-‬‬
‫אמידת סטיית התקן‬
‫במקרה זה סטיית התקן באוכלוסייה 𝜎 אינה ידועה‪ ,‬ולכן נחליף אותה בסטיית התקן במדגם‪.‬‬
‫תחילה‪ ,‬נחשב את השונות במדגם‪ ,‬ולאחר מכן נוציא שורש לתוצאה‪ .‬את שונות המדגם נחשב על‬
‫סמך הנוסחא הבאה (אותה נוסחא שהוצגה במקרה ‪ 2‬של רווח סמך)‪:‬‬
‫‪2‬‬
‫‪∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2‬‬ ‫‪∑𝑛𝑖=1 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2‬‬
‫= 𝑆‬ ‫=⋯=‬
‫‪𝑛−1‬‬ ‫‪𝑛−1‬‬
‫לאחר שחישבנו את שונות המדגם‪ ,‬נוציא שורש כדי לקבל את סטיית התקן של המדגם‪ ,‬כלומר את‬
‫𝑆‪.‬‬
‫‪1‬‬
‫‪30/05/2021‬‬
‫מציאת ערך קריטי‬

‫לאחר שחישבנו את ערך הסטטיסטי‪ ,‬יש להשוותו לערך קריטי הלקוח מהתפלגות 𝑡 כדי להכריע‬
‫בין ההשערות‪ .‬ערך הקריטי שנוציא מלוח 𝑡 יהיה בהתאם לרמת המובהקות הנתונה בשאלה‬
‫ובהתאם לעובדה האם לפנינו מבחן חד‪-‬צדדי או דו‪-‬צדדי‪.‬‬
‫מספר דרגות החופש בלוח 𝑡 הינו ‪.𝑛 − 1‬‬ ‫‪-‬‬
‫חד צדדי‬
‫את הערך הקריטי עבור ‪ 𝑛 − 1‬דרגות חופש ורמת מובהקות 𝛼 למבחן‬ ‫ב‪𝑡(𝑛−1,𝛼) -‬‬
‫נסמן‬ ‫‪-‬‬
‫השערות חד‪-‬צדדי‪.‬‬
‫דו צדדי‬
‫נסמן ב‪ 𝑡(𝑛−1,𝛼) -‬את הערך הקריטי עבור ‪ 𝑛 − 1‬דרגות חופש ורמת מובהקות 𝛼 למבחן‬ ‫‪-‬‬
‫השערות דו‪-‬צדדי‪.‬‬
‫דוגמא‪ :‬אם לפנינו מבחן חד‪-‬צדדי המבוסס על ‪ 18‬תצפיות ואנו רוצים לבדוק את ההשערות עבור‬
‫רמת מובהקות של ‪ ,5%‬הערך הקריטי המתאים הינו‪:‬‬
‫חד צדדי‬ ‫חד צדדי‬
‫‪𝑡(𝑛−1,𝛼) = 𝑡(17,0.05) = 1.74‬‬
‫דוגמא‪ :‬אם לפנינו מבחן דו‪-‬צדדי המבוסס על ‪ 25‬תצפיות ואנו רוצים לבדוק את ההשערות עבור‬
‫רמת מובהקות של ‪ ,1%‬הערך הקריטי המתאים הינו‪:‬‬
‫דו צדדי‬ ‫דו צדדי‬
‫‪𝑡(𝑛−1,𝛼) = 𝑡(24,0.01) = 2.797‬‬
‫הכרעה בין ההשערות‬

‫באופן כללי‪ ,‬אם ערך הסטטיסטי שחושב קיצוני יותר (גדול יותר בערכו המוחלט) מהערך הקריטי‬
‫הלקוח מהתפלגות 𝑡‪ ,‬נדחה את השערת האפס‪ ,‬ואילו אם ערך הסטטיסטי שחושב אינו קיצוני‬
‫יותר מהערך הקריטי‪ ,‬לא נדחה את השערת האפס‪.‬‬
‫בהמשך נפרט את כלל המבחן עבור מבחן חד‪-‬צדדי ועבור מבחן דו‪-‬צדדי‪.‬‬
‫כלל הדחייה במבחן חד‪-‬צדדי‬
‫כאשר עלינו להכריע בין השערות ומדובר בהשערות חד‪-‬צדדיות‪:‬‬
‫חד צדדי‬
‫לאחר שחישבנו את ערך הסטטיסטי 𝑆𝑡 עלינו לבדוק בלוח 𝑡 מהו הערך הקריטי )𝛼‪.𝑡(𝑛−1,‬‬
‫חד צדדי‬
‫אם )𝛼‪ ,|𝑡𝑆 | ≥ 𝑡(𝑛−1,‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫חד צדדי‬
‫< | 𝑆𝑡|‪ ,‬לא נדחה את ‪.𝐻0‬‬ ‫)𝛼‪𝑡(𝑛−1,‬‬ ‫אם‬ ‫‪-‬‬
‫כלל הדחייה במבחן דו‪-‬צדדי‬

‫כאשר עלינו להכריע בין שתי השערות ומדובר בהשערות דו‪-‬צדדיות‪:‬‬
‫דו צדדי‬
‫לאחר שחישבנו את ערך הסטטיסטי 𝑆𝑡 עלינו לבדוק בלוח 𝑡 מהו הערך הקריטי )𝛼‪.𝑡(𝑛−1,‬‬
‫דו צדדי‬
‫אם )𝛼‪ ,|𝑡𝑆 | ≥ 𝑡(𝑛−1,‬נדחה את ‪.𝐻0‬‬ ‫‪-‬‬
‫דו צדדי‬
‫< | 𝑆𝑡|‪ ,‬לא נדחה את ‪.𝐻0‬‬ ‫)𝛼‪𝑡(𝑛−1,‬‬ ‫אם‬ ‫‪-‬‬
‫‪2‬‬
‫‪30/05/2021‬‬
‫דוגמא‬
‫לאחרונה נשמעת טענה בקרב מספר חוקרים כי חלה עלייה בגובה גברים בדור הנוכחי לעומת‬
‫תוחלת הגובה בדור הקודם השווה ל‪ 175-‬ס"מ‪ .‬לשם בדיקת טענה זו נלקח מדגם של ‪ 8‬גברים‬
‫צעירים ולהלן הגבהים שנמדדו‪:‬‬
‫‪179, 175, 188, 169, 180, 176, 171, 182‬‬
‫הניחו שהמשתנה הנחקר (גובה גברים) מפולג נורמאלית‪ ,‬ושהנדגמים בלתי תלויים זה בזה‪.‬‬
‫נסחו השערות ובדקו אותן ברמת מובהקות ‪ .5%‬מה מסקנתכם?‬ ‫‪-‬‬
‫מה ניתן לקבוע בנוגע ל‪ 𝑝-value-‬של המבחן בדוגמא זו?‬ ‫‪-‬‬
‫פתרון‪ :‬מדובר בהשערות חד‪-‬צדדיות‪:‬‬
‫‪ :𝐻0‬ממוצע גובה גברים בדור הנוכחי אינו גבוה מ‪ 175-‬ס"מ‪.‬‬
‫‪ :𝐻1‬ממוצע גובה גברים בדור הנוכחי גבוה מ‪ 175-‬ס"מ‪.‬‬
‫נחשב תחילה את הממוצע וסטיית התקן במדגם‪:‬‬
‫‪∑ 𝑥𝑖 1420‬‬
‫= ̅𝑋‬ ‫=‬ ‫‪= 177.5‬‬
‫𝑛‬ ‫‪8‬‬
‫‪2‬‬
‫‪∑ 𝑥𝑖2 − 𝑛 ⋅ 𝑋̅ 2 1792 + ⋯ + 1822 − 8 ⋅ 177.52‬‬
‫= 𝑆‬ ‫=‬ ‫‪= 37.43‬‬
‫‪𝑛−1‬‬ ‫‪7‬‬
‫‪𝑆 = √37.43 = 6.12‬‬
‫נחשב את ערך הסטטיסטי בדוגמא‪:‬‬
‫𝜇 ‪𝑋̅ −‬‬ ‫‪177.5 − 175‬‬
‫= 𝑆𝑡‬ ‫=‬ ‫‪= 1.155‬‬
‫𝑆‬ ‫‪6.12‬‬
‫𝑛√‬ ‫‪√8‬‬
‫מציאת ערך קריטי מלוח 𝑡 עבור רמת מובהקות של ‪:5%‬‬
‫חד צדדי‬ ‫חד צדדי‬
‫‪𝑡(𝑛−1,𝛼) = 𝑡(7,0.05) = 1.895‬‬
‫ערך הסטטיסטי קטן מהערך הקריטי‪ ,‬ולכן לא דוחים את השערת האפס ברמת מובהקות ‪,5%‬‬
‫ולכן לא ניתן להסיק שחלה עלייה בגובה גברים‪.‬‬
‫כזכור‪ 𝑝-value ,‬הינה רמת המובהקות המינימאלית עבורה נדחה את השערת האפס‪.‬‬
‫בדוגמא האחרונה לא דחינו את השערת האפס עבור רמת מובהקות של ‪( 5%‬ובהכרח שלא נדחה‬
‫עבור רמת מובהקות נמוכה יותר של ‪ ,)1%‬ולכן בהכרח בדוגמא זו ה‪ 𝑝-value-‬של המבחן הוא‬
‫מעל ‪:5%‬‬
‫‪𝑝-value > 0.05‬‬
‫הערה עבור הדוגמא‪ :‬בדוגמא זו אמנם קיבלנו ממוצע של ‪ ,177.5‬שנראה על פניו מספיק‬
‫משמעותי לעומת התוחלת של ‪ 175‬כדי לדחות את השערת האפס ולהסיק שחלה עלייה בגובה‬
‫הגברים‪ ,‬ובכל זאת לא הצלחנו לדחות את השערת האפס‪ .‬הסיבה העיקרית לכך נעוצה בעובדה‬
‫שגודל המדגם קטן מאוד בדוגמא זו (‪ 8‬תצפיות בלבד) – דבר המקשה על הדחייה של השערת‬
‫האפס‪ .‬כלומר‪ ,‬כאשר לוקחים מעט תצפיות‪ ,‬צריך תוצאה מאוד "מרשימה" כדי שהשערת האפס‬
‫תידחה‪ ,‬מה שבדוגמא הזו לא קרה‪.‬‬
‫‪3‬‬
‫‪30/05/2021‬‬
‫דוגמא לתרגול עצמי‬

‫הציון בסטטיסטיקה א' במנהל מערכות בריאות מפולג נורמאלית עם תוחלת של ‪ .75‬מעוניינים‬
‫לבדוק האם שיעורי תגבור שנערכים פעם בשבועיים מביאים לשיפור הציון‪ .‬לשם כך דגמנו באופן‬
‫מקרי ‪ 10‬סטודנטים בקורס זה שקיבלו שיעורי תגבור אחת לשבועיים‪ .‬להלן ציוניהם בבחינה‬
‫הסופית‪:‬‬
‫‪84, 78, 70, 93, 68, 100, 89, 78, 76, 95‬‬
‫נסחו השערות ובדקו אותן ברמות מובהקות ‪ 5%‬ו‪ .1%-‬רשמו מסקנה בהתאם‪.‬‬ ‫‪-‬‬
‫מה ניתן לומר על ערך ה‪ 𝑝-value-‬בדוגמא זו?‬ ‫‪-‬‬
‫‪4‬‬
‫‪06/06/2021‬‬

‫נושא ההרצאה‪ :‬מבחן "חי בריבוע" לבדיקת אי‪-‬תלות‬
‫מבחנים פרמטריים לעומת מבחנים א‪-‬פרמטריים‬
‫המבחנים הסטטיסטיים בהם עסקנו עד עתה עסקו בהשוואת ממוצעים עבור שני משתנים (מבחן‬
‫𝑡 למדגמים בלתי‪-‬תלויים ולמדגמים תלויים)‪ .‬במבחנים אלו הנחנו הנחות‪ ,‬כמו התפלגות‬
‫נורמאלית של התצפיות‪ ,‬או שוויון שונויות‪ .‬מבחנים אלו‪ ,‬המניחים הנחות כלשהן אודות התפלגות‬
‫המשתנה‪ ,‬נקראים מבחנים פרמטריים‪.‬‬
‫פעמים רבות איננו יודעים מה צורת התפלגות של המשתנה‪ ,‬ולכן לא נוכל להניח שהמשתנה מפולג‬
‫נורמאלית‪ ,‬או שלא נוכל להניח שוויון שונויות‪ .‬במקרים אלו‪ ,‬לא נוכל להשתמש במבחנים‬
‫הפרמטריים‪ ,‬ולשם כך קיימים מבחנים א‪-‬פרמטריים שלא מבוססים על הנחות מוקדמות‪.‬‬
‫מבחן חי בריבוע לבדיקת אי‪-‬תלות‬
‫מבחן זה הינו מבחן א‪-‬פרמטרי הבודק האם יש קשר (תלות) בין שני משתנים איכותיים‪.‬‬
‫מבחן זה מתאים למצב בו שני המשתנים הינם משתנים נומינאליים (שמיים) או שאחד מהם הוא‬
‫משתנה נומינאלי והשני אורדינאלי (סדר)‪ .‬במילים אחרות‪ ,‬אם לפחות משתנה אחד מבין השניים‬
‫הוא נומינאלי‪ ,‬נשתמש במבחן חי בריבוע‪.‬‬
‫דוגמאות‪ :‬קשר בין השכלת האב לבין המשך לתארים מתקדמים בקרב סטודנטים מצטיינים‪,‬‬
‫קשר בין מין הסטודנט לבין הפקולטה אליה הוא שייך‪ ,‬קשר בין מין לבין עמדה פוליטית‪ ,‬קשר בין‬
‫מין הנהג לבין מספר עבירות התנועה שלו בשנה‪.‬‬
‫ניסוח ההשערות למבחן חי בריבוע‬
‫במבחן זה ננסח את שתי ההשערות באופן הבא‪ :‬השערת האפס (המייצגת את ההשערה השמרנית)‬
‫טוענת שלא קיים קשר בין שני המשתנים הנחקרים‪ .‬לעומת זאת‪ ,‬השערת המחקר טוענת שקיים‬
‫קשר בין שני המשתנים‪.‬‬
‫‪ :𝐻0‬לא קיים קשר בין שני המשתנים‪.‬‬
‫‪ :𝐻1‬קיים קשר בין שני המשתנים‪.‬‬
‫המבחן לבדיקת ההשערות למקרה זה נקרא מבחן חי בריבוע‪.‬‬
‫דוגמא‬
‫נציג את הפרוצדורה של מבחן חי בריבוע שלו בעזרת הדוגמא הבאה‪.‬‬
‫חוקר מעוניין לבדוק האם יש השפעה להשכלת האבות על ההחלטה בקרב בניהם הסטודנטים‬
‫האם להמשיך ללימודים מתקדמים (לימודים מעבר לתואר ראשון)‪ .‬להלן התוצאות עבור מדגם‬
‫של ‪ 184‬סטודנטים (בדוגמא זו שני המשתנים הנחקרים הינם איכותיים שמיים)‪.‬‬
‫‪1‬‬
‫‪06/06/2021‬‬
‫ניתוח ראשוני של הממצאים‪:‬‬

‫מטבלת השכיחות אנו למדים כי‪:‬‬
‫מתוך ‪ 184‬הסטודנטים שנדגמו‪( 159 ,‬המהווים ‪ )86.4%‬המשיכו לתואר מתקדם‪ ,‬ואילו‬ ‫‪-‬‬
‫‪( 25‬המהווים ‪ )13.6%‬לא המשיכו‪.‬‬
‫בקרב ‪ 82‬הסטודנטים להם אין אב בעל השכלה אקדמית‪( 64 ,‬המהווים ‪ )78%‬המשיכו‬ ‫‪-‬‬
‫לתואר מתקדם‪ ,‬ואילו ‪( 18‬המהווים ‪ )22%‬לא המשיכו לתואר מתקדם‪.‬‬
‫בקרב ‪ 102‬הסטודנטים להם יש אב בעל השכלה אקדמית‪( 95 ,‬המהווים ‪)93.1%‬‬ ‫‪-‬‬
‫המשיכו לתואר מתקדם‪ ,‬ואילו ‪( 7‬המהווים ‪ )6.9%‬לא המשיכו לתואר מתקדם‪.‬‬
‫מהטבלה נראה כי קיים קשר כלשהו בין השכלת האבות לבין המשך לתארים מתקדמים עבור‬
‫בניהם‪ :‬אחוז הממשיכים לתארים מתקדמים בקרב אבות בעלי השכלה אקדמית גבוה יותר‬
‫מאחוז הממשיכים לתארים מתקדמים בקרב אבות שאינם בעלי תואר אקדמי‪.‬‬
‫כסטטיסטיקאים‪ ,‬איננו יכולים להסתמך על מראית עין בלבד‪ ,‬אלא עלינו להשתמש במבחנים‬
‫סטטיסטיים כדי לבחון האם השערתנו נכונה‪ .‬כמו‪-‬כן‪ ,‬יש לבדוק האם התוצאה מובהקת‪.‬‬
‫כדי לבחון האם קיים קשר סטטיסטי בין שני המשתנים נשתמש במבחן ‪( 𝜒 2‬חי‪-‬בריבוע)‪.‬‬
‫ניסוח ההשערות עבור הדוגמא‪:‬‬
‫‪ :𝐻0‬לא קיים קשר בין השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫‪ :𝐻1‬קיים קשר בין השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫הערה‪ :‬בדוגמא ניתן לסווג את שני המשתנים למשתנה בלתי תלוי ומשתנה תלוי‪ .‬בדוגמא‪,‬‬
‫המשתנה הבלתי תלוי (משתנה מסביר) הינו "השכלת האב"‪ ,‬והמשתנה התלוי (משתנה מוסבר)‬
‫הינו "המשך לתואר מתקדם בקרב הבן"‪ .‬במקרה שכזה‪ ,‬בניסוח שתי ההשערות נרשום לא‬
‫קיים‪/‬קיים קשר בין המשתנה הבלתי תלוי לבין המשתנה התלוי‪.‬‬
‫טבלת ה‪ Observed-‬וטבלת ה‪Expected-‬‬

‫לרשותנו טבלת הנתונים שאספנו מהמדגם‪ .‬בדוגמא שהוצגה דגמנו ‪ 184‬סטודנטים ובדקנו עבור‬
‫כל אחד האם הסטודנט המשיך לתואר מתקדם והאם לאביו השכלה אקדמית‪.‬‬
‫את תוצאת המשאל ריכזנו בטבלה שהוצגה‪ .‬טבלה זו‪ ,‬המתקבלת כתוצאה של הדגימה האקראית‪,‬‬
‫נקראת טבלת ה‪( Observed-‬טבלת הנתונים)‪.‬‬
‫בשלב הבא נבנה טבלה נוספת הנקראת טבלת ה‪ .Expected-‬טבלה זו נבנית מתוך הנחה שאין‬
‫קשר בין שני המשתנים הנחקרים‪ :‬השכחת האבות והמשך לימודים לתארים מתקדמים בקרב‬
‫בניהם‪.‬‬
‫בניית טבלת ה‪Expected-‬‬

‫אופן בניית טבלת ה‪ :Expected-‬כאמור‪ ,‬אנו מניחים בבניית טבלה זו שאין קשר בין שני‬
‫המשתנים‪ .‬כלומר‪ ,‬צריך שאחוז הסטודנטים שהמשיכו לתואר מתקדם יהיה זהה הן עבור‬
‫סטודנטים להם אב בעל השכלה אקדמית והן עבור סטודנטים להם אין אב בעל השכלה אקדמית‪.‬‬
‫במילים אחרות‪ ,‬נצטרך לבנות טבלה בה מתקיים שבקרב הסטודנטים להם יש אב בעל השכלה‬
‫אקדמית‪ 86.4% ,‬מהם המשיכו לתואר מתקדם ו‪ 13.6%-‬מהם לא המשיכו לתואר מתקדם‪.‬‬
‫כמו‪-‬כן‪ ,‬אותם אחוזים בדיוק יהיו גם עבור הסטודנטים להם אין אב ללא השכלה אקדמית‪ .‬כיצד‬
‫נעשה זאת?‬
‫‪2‬‬
‫‪06/06/2021‬‬
‫בניית טבלת ה‪ :Expected-‬נבנה טבלה באותם הממדים ונעתיק את שורת הסה"כ ואת עמודת‬
‫הסה"כ הקיימות בטבלת ה‪ .Observed-‬כל תא ותא בטבלה יחושב על‪-‬ידי מכפלת הסה"כ‬
‫שבשורה והעמודה המתאימה חלקי הסה"כ הכללי (השווה ל‪ .)184-‬נקבל את טבלת ה‪Expected-‬‬
‫הבאה‪:‬‬
‫חישוב מדד חי בריבוע‬

‫מדד חי בריבוע (המייצג את ערך הסטטיסטי לבדיקת ההשערות) בודק עד כמה שתי הטבלאות‬
‫(טבלת ה‪ Observed-‬וטבלת ה‪ )Expected-‬שונות זו מזו ביחס לערכיהן‪ .‬אם הן מאוד שונות זו‬
‫מזו‪ ,‬המדד יקבל ערך גבוה (דבר המעיד על קיום קשר בין שני המשתנים)‪ ,‬ואם הן מאוד דומות זו‬
‫לזו המדד יקבל ערך נמוך (דבר המעיד על כך שלא קיים קשר בין שני המשתנים)‪ .‬כאשר שתי‬
‫הטבלאות זהות לחלוטין‪ ,‬המדד יהיה שווה ל‪.0-‬‬
‫ערך הסטטיסטי חי בריבוע מסומן ב‪ ,𝜒 2 -‬ולהלן הנוסחא לחישובו‪:‬‬
‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫‪𝜒𝑆2‬‬ ‫∑=‬
‫𝑖𝑒‬
‫בדוגמא‪ ,‬ניתן להכין טבלת עזר אשר תסייע בחישוב ערך הסטטיסטי ‪:𝜒𝑆2‬‬
‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫‪𝜒𝑆2‬‬ ‫∑=‬ ‫‪= 8.817‬‬
‫𝑖𝑒‬
‫כמובן שניתן לחשב את ערך הסטטיסטי ‪ 𝜒𝑆2‬באופן ישיר על‪-‬ידי הצבה בנוסחא מבלי לבנות את‬
‫טבלת העזר‪:‬‬
‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫∑ = ‪𝜒𝑆2‬‬ ‫=‬
‫𝑖𝑒‬
‫‪(18 − 11.14)2 (7 − 13.86)2 (64 − 70.86)2 (95 − 88.14)2‬‬
‫=‬ ‫‪+‬‬ ‫‪+‬‬ ‫‪+‬‬
‫‪11.14‬‬ ‫‪13.86‬‬ ‫‪70.86‬‬ ‫‪88.14‬‬
‫‪= 8.817‬‬
‫‪3‬‬
‫‪06/06/2021‬‬
‫השוואת ערך הסטטיסטי לערך הקריטי‬

‫לאחר שחישבנו את ערך הסטטיסטי ‪ ,𝜒𝑆2‬עלינו להשוותו לערך קריטי הנמצא בטבלת חי בריבוע‪,‬‬
‫כדי להכריע בין ‪ 𝐻0‬לבין ‪.𝐻1‬‬
‫טבלת ערכים קריטיים של חי בריבוע‪ :‬שורות הטבלה מייצגות את דרגות החופש ועמודות‬
‫הטבלה את רמת המובהקות‪.‬‬
‫דרגות החופש‪ :‬דרגות החופש (המסומנות ב‪ )𝑑𝑓 -‬למבחן חי בריבוע שוות לביטוי הבא‪:‬‬
‫)‪ ,𝑑𝑓 = (𝑅 − 1)(𝐶 − 1‬כאשר 𝑅 מייצג את מספר הקטגוריות שיש למשתנה הראשון (זה‬
‫שהופיע בשורות טבלת ה‪ ,)Observed-‬ו‪ 𝐶 -‬מייצג את מספר הקטגוריות שיש למשתנה השני (זה‬
‫שהופיע בעמודות טבלת ה‪.)Observed-‬‬
‫בדוגמא‪ ,‬כל אחד מבין שני המשתנים הנחקרים (השכלת האב והמשך לתואר מתקדם בקרב הבן)‬
‫קיבל רק שתי קטגוריות‪ ,‬ולכן בדוגמא‪ 𝑅 = 2 :‬ו‪ .𝐶 = 2-‬אם כך‪ ,‬מספר דרגות החופש לדוגמא‬
‫הינו ‪ 1‬בלבד‪.𝑑𝑓 = (𝑅 − 1)(𝐶 − 1) = (2 − 1)(2 − 1) = 1 :‬‬
‫נבדוק מהו הערך הקריטי בטבלת הערכים הקריטיים עבור ‪ 1‬דרגות חופש ורמת מובהקות ‪.0.05‬‬
‫‪2‬‬
‫)‪,𝜒(1,0.05‬‬ ‫הערך הקריטי למקרה זה הינו ‪ .3.84‬נרשום את הערך הקריטי באופן הבא‪= 3.84 :‬‬
‫כאשר ‪ 1‬הוא מספר דרגות החופש ו‪ 0.05-‬הוא רמת המובהקות‪.‬‬
‫הכרעה בין 𝟎𝑯 לבין 𝟏𝑯‬

‫כדי להכריע בין שתי ההשערות עלינו להשוות בין ערך הסטטיסטי שחישבנו לערך הקריטי הנמצא‬
‫בטבלת הערכים הקריטיים‪.‬‬
‫כאשר ערך הסטטיסטי שחושב גדול או שווה מהערך הקריטי המופיע בטבלה‪ ,‬נדחה את ‪ ,𝐻0‬ולכן‬
‫נסיק שיש קשר מובהק בין שני המשתנים הנחקרים‪.‬‬
‫כאשר ערך הסטטיסטי שחושב קטן מהערך הקריטי המופיע בטבלה‪ ,‬לא נדחה את ‪ ,𝐻0‬ולכן נסיק‬
‫שאין קשר מובהק בין שני המשתנים הנחקרים‪.‬‬
‫בדוגמא‪ ,‬קיבלנו שהערך הסטטיסטי הינו ‪ 𝑋𝑆2 = 8.817‬והערך הקריטי מהטבלה הינו‬
‫‪2‬‬
‫)‪.𝜒(1,0.05‬‬ ‫‪= 3.84‬‬
‫‪2‬‬
‫)‪ ,𝜒𝑆2 > 𝜒(1,0.05‬ולכן נדחה את ‪ 𝐻0‬ברמת מובהקות ‪ 0.05‬ונסיק שיש קשר מובהק בין‬ ‫אם כך‪,‬‬
‫השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫מסקנה‪ :‬ישנו קשר מובהק בין השכלת האב להחלטת הבן האם להמשיך לתואר מתקדם‪,‬‬
‫המתבטא בכך שסטודנטים להם יש אב בעל השכלה אקדמית נוטים יותר להמשיך לתואר מתקדם‬
‫מאשר סטודנטים להם אין אב בעל השכלה אקדמית‪.‬‬
‫‪𝒑-value‬‬
‫נבדוק האם ניתן לדחות את השערת האפס גם עבור רמת מובהקות של ‪ .0.01‬הערך הקריטי עבור‬
‫‪2‬‬
‫)‪ .𝜒(1,0.01‬ערך הסטטיסטי שחישבנו )‪ (8.817‬גבוה מהערך‬ ‫רמת מובהקות זו הינו ‪= 6.63‬‬
‫הקריטי‪ ,‬ולכן נדחה את השערת האפס גם עבור רמת מובהקות ‪.0.01‬‬
‫מכיוון שדחינו את השערת האפס גם ברמת מובהקות ‪ 5%‬וגם ברמת מובהקות ‪ ,1%‬נובע שערך‬
‫ה‪ 𝑝-value-‬של המבחן בדוגמא זו קטן מ‪.𝑝-value < 1% :1%-‬‬
‫‪4‬‬
‫‪06/06/2021‬‬
‫מדד לעוצמת הקשר‪ :‬מקדם המתאם של קרמר‬

‫במידה ודחינו את ‪ 𝐻0‬עבור רמת מובהקות ‪ ,0.05‬כלומר‪ ,‬מצאנו שיש קשר מובהק בין שני‬
‫המשתנים‪ ,‬נחשב את עוצמת הקשר בעזרת מקדם המתאם של קרמר‪.‬‬
‫נדגיש שאם לא דחינו את 𝟎𝑯 לא נחשב כלל את מדד קרמר‪.‬‬
‫מדד קרמר הינו מדד לבדיקת עוצמת הקשר בין שני משתנים נומינאליים‪ .‬מדד קרמר תמיד מקבל‬
‫ערכים בין ‪ 0‬לבין ‪.1‬‬
‫ככל שערכו של מדד קרמר גבוה יותר‪ ,‬הדבר מצביע על קשר חזק ביותר בין שני המשתנים‪.‬‬
‫סימון‪ :‬את מקדם המתאם של קרמר נסמן ב‪.𝑟𝑐 -‬‬
‫ערכו של מתקדם המתאם של קרמר מצביע על עוצמת הקשר בין שני המשתנים‪ .‬להלן עוצמת‬
‫הקשר עבור הערכים השונים שמקדם המתאם של קרמר יכול לקבל‪:‬‬
‫ערכים שבין ‪ 0‬לבין ‪ 0.1‬מצביעים על חוסר קשר בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.1‬לבין ‪ 0.2‬מצביעים על קשר חלש בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.2‬לבין ‪ 0.3‬מצביעים על קשר בינוני‪-‬חלש בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.3‬לבין ‪ 0.4‬מצביעים על קשר בינוני בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים שבין ‪ 0.4‬לבין ‪ 0.5‬מצביעים על קשר בינוני‪-‬חזק בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫ערכים החל מ‪ 0.5-‬ומעלה מצביעים על קשר חזק בין שני המשתנים‪.‬‬ ‫‪-‬‬
‫להלן הנוסחא לחישוב מקדם המתאם של מדד קרמר‪:‬‬
‫‪𝜒𝑆2‬‬
‫√ = 𝑐𝑟‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬
‫‪ 𝜒𝑆2‬הינו ערך הסטטיסטי שחישבנו‪.‬‬ ‫‪-‬‬
‫𝑛 מייצג את מספר הנדגמים הכולל בדוגמא‪.‬‬ ‫‪-‬‬
‫𝐿 שווה למינימום בין מספר הקטגוריות בשורות למספר הקטגוריות בעמודות‪.‬‬ ‫‪-‬‬
‫נחשב את מדד קרמר עבור הדוגמא‪:‬‬
‫‪𝜒𝑆2‬‬ ‫‪8.817‬‬
‫√ = 𝑐𝑟‬ ‫√=‬ ‫‪= √0.0479 = 0.219‬‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬ ‫)‪184 ⋅ (2 − 1‬‬
‫קיבלנו קשר בינוני‪-‬חלש בין השכלת האב לבין החלטת הסטודנט האם להמשיך לתואר מתקדם‪.‬‬
‫דוגמא‬
‫במחקר נבדק הקשר בין מין הנהג לבין מספר עבירות התנועה שלו בשנה‪ .‬התוצאות הראו שמבין‬
‫‪ 75‬נשים שהשתתפו במחקר‪ 45 ,‬ביצעו לכל היותר עבירה אחת‪ 18 ,‬ביצעו שתי עבירות‪ ,‬והיתר‬
‫ביצעו שלוש עבירות ומעלה‪ .‬מבין ‪ 125‬גברים שהשתתפו במחקר‪ 35 ,‬ביצעו עבירה אחת לכל‬
‫היותר‪ 32 ,‬ביצעו שתי עבירות‪ ,‬והיתר ביצעו שלוש עבירות ומעלה‪.‬‬
‫בנו על סמך האמור לעיל את טבלת ה‪.Observed-‬‬ ‫א‪.‬‬
‫נסחו השערות ובצעו את המבחן ברמת מובהקות ‪ .5%‬רשמו מסקנה בהתאם‪.‬‬ ‫ב‪.‬‬
‫‪5‬‬
‫‪06/06/2021‬‬
‫‪ :𝐻0‬לא קיים קשר בין מין הנהג לבין מספר עבירות התנועה שלו‪.‬‬
‫‪ :𝐻1‬קיים קשר בין מין הנהג לבין מספר עבירות התנועה שלו‪.‬‬
‫טבלת ה‪:Observed-‬‬
‫טבלת ה‪:Expected-‬‬
‫‪75⋅80‬‬
‫נציג רק את החישוב שנעשה עבור תא מס' )‪= 30 :(1‬‬
‫‪200‬‬
‫טבלת עזר לחישוב מדדי חי בריבוע‪:‬‬
‫‪(𝑜𝑖 − 𝑒𝑖 )2‬‬
‫‪𝜒𝑆2‬‬ ‫∑=‬ ‫‪= 24.43‬‬
‫𝑖𝑒‬
‫‪6‬‬
‫‪06/06/2021‬‬
‫השוואת ערך הסטטיסטי לערך הקריטי‪ :‬המשתנה "מין" מקבל ‪ 2‬קטגוריות והמשתנה "מספר‬
‫עבירות תנועה" מקבל ‪ 3‬קטגוריות‪ ,‬ולכן‪ 𝑅 = 2 :‬ו‪ .𝐶 = 3-‬אם כך‪ ,‬מספר דרגות החופש לדוגמא‬
‫הינו ‪.𝑑𝑓 = (𝑅 − 1)(𝐶 − 1) = (2 − 1)(3 − 1) = 2 :2‬‬
‫נבדוק מהו הערך הקריטי בטבלת הערכים הקריטיים עבור ‪ 2‬דרגות חופש ורמת מובהקות ‪.0.05‬‬
‫הערך הקריטי למקרה זה הינו ‪.5.99‬‬
‫‪2‬‬
‫)‪ ,24.43 = 𝜒𝑆2 > 𝜒(2,0,05‬ולכן נדחה את ‪ 𝐻0‬עבור רמת מובהקות של ‪.0.05‬‬ ‫‪= 5.99‬‬
‫מסקנה‪ :‬ישנו קשר מובהק בין מגדר הנהג למספר עבירות התנועה שהוא מבצע המתבטא בכך‬
‫שנשים מבצעות פחות עבירות תנועה מאשר גברים‪.‬‬
‫חישוב מקדם המתאם של קרמר‪ :‬מכיוון שמצאנו קשר מובהק בין שני המשתנים (דחינו את ‪,)𝐻0‬‬
‫נחשב כעת את עוצמת הקשר בעזרת מקדם המתאם של קרמר‪.‬‬
‫הגדלים הרלוונטיים לנוסחת קרמר בדוגמא‪:‬‬
‫‪𝜒𝑆2‬‬
‫√ = 𝑐𝑟‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬
‫‪𝜒𝑆2 = 24.43,‬‬ ‫‪𝑛 = 200,‬‬ ‫‪𝐿=2‬‬

‫(הסבר מדוע ‪ :𝐿 = 2‬מספר הקטגוריות של המשתנה "מין" הינו ‪ ,2‬ומספר הקטגוריות של‬
‫המשתנה "מספר עבירות תנועה" הינו ‪ ,3‬ולכן 𝐿‪ ,‬המייצג את המספר הקטן מבין השניים‪ ,‬הינו ‪)2‬‬
‫‪𝜒𝑆2‬‬ ‫‪24.43‬‬
‫√ = 𝑐𝑟‬ ‫√=‬ ‫‪= √0.12215 = 0.35‬‬
‫)‪𝑛 ⋅ (𝐿 − 1‬‬ ‫)‪200 ⋅ (2 − 1‬‬
‫קיבלנו קשר בעוצמה בינונית בין שני המשתנים‪.‬‬

‫סיכום שלבי המחקר במבחן חי בריבוע‬
‫נסכם בקצרה את שלבי העבודה שיש לבצע במבחן חי בריבוע‪:‬‬
‫ניסוח ההשערות‪.‬‬ ‫‪-‬‬
‫בניית טבלת ה‪.Expected-‬‬ ‫‪-‬‬
‫חישוב ערך הסטטיסטי ‪.𝜒𝑆2‬‬ ‫‪-‬‬
‫השוואת ערך הסטטיסטי לערך הקריטי והכרעה בין שתי ההשערות‪.‬‬ ‫‪-‬‬
‫במידה ודחינו את ‪( 𝐻0‬ישנו קשר מובהק בין המשתנים)‪ ,‬נחשב את עוצמת הקשר לפי‬ ‫‪-‬‬
‫מקדם המתאם של קרמר‪.‬‬
‫מסקנה סופית במונחי הדוגמא (יש‪/‬אין קשר‪ ,‬ואם יש קשר – מידת הקשר)‪.‬‬ ‫‪-‬‬
‫‪7‬‬
‫‪13/06/2021‬‬

‫נושא ההרצאה‪ :‬מקדם המתאם של פירסון ורגרסיה לינארית‬
‫קשר בין שני משתנים – הקדמה‬
‫בהרצאה הקודמת הצגנו את מדד חי בריבוע ואת מקדם המתאם של קרמר אשר בודק קשר בין‬
‫שני משתנים נומינאליים (שמיים)‪ .‬מחקרים רבים עוסקים בקשר בין שני משתנים כמותיים‪.‬‬
‫בהרצאה זו נציג את מקדם המתאם של פירסון – מדד הבודק קשר בין שני משתנים כמותיים‪.‬‬
‫דוגמאות‪ :‬מחקר הבודק את ההשפעה של שיעור האבטלה על האינפלציה‪ ,‬מחקר הבוחן את הקשר‬
‫בין השכלה לבין שכר‪ ,‬מחקר הבודק את ההשפעה של קצבאות הילדים על רמת הפריון‪ ,‬מחקר‬
‫הבודק את הקשר בין רמת עישון במדינה לבין שיעורי תמותה מסרטן ריאות במדינה‪.‬‬
‫אחת השאלות המרכזיות והמעניינות במחקר היא קיומו של קשר בין המשתנים‪ ,‬ואם קיים קשר‬
‫מה כיוונו ומה עוצמתו‪.‬‬
‫כדי לבדוק האם אכן קיים קשר סטטיסטי בין שני משתנים או יותר‪ ,‬אנו נעזרים במדדי קשר‪.‬‬
‫חישוב‪ :‬קיומו של קשר סטטיסטי אינו מעיד בהכרח על סיבתיות (כלומר‪ ,‬על קשר סיבתי)‪.‬‬
‫דיאגרמת פיזור‬
‫דיאגרמת פיזור הינה דרך גרפית להצגת שני המשתנים הנחקרים ובחינה ראשונית של הקשר‬
‫ביניהם‪ .‬לאחר שנדגום 𝑛 תצפיות משני משתנים‪ ,‬נשרטט מערכת צירים‪ ,‬בה כל תצפית תאופיין‬
‫על‪-‬ידי נקודה במישור‪ .‬על ציר ה‪ 𝑋 -‬יופיע המשתנה הראשון (נסמנו ב‪ ,)𝑋 -‬הנקרא המשתנה הבלתי‬
‫תלוי (או המשתנה המסביר)‪ ,‬ועל ציר ה‪ 𝑌 -‬יופיע המשתנה השני (נסמנו ב‪ ,)𝑌 -‬הנקרא המשתנה‬
‫התלוי (או המשתנה המסביר)‪.‬‬
‫באופן זה תתקבלנה 𝑛 נקודות בדיאגרמת הפיזור המייצגות את 𝑛 התצפיות שדגמנו משני‬
‫המשתנים‪ .‬מהסתכלות באוסף הנקודות שמתקבלות בדיאגרמה נוכל לראות מהי המגמה הכללית‬
‫בין שני המשתנים‪.‬‬
‫הצגה גרפית של סוגים שונים של קשרים‬
‫קשרים בין משתנים כמעט לעולם אינם "מושלמים"‪ .‬על‪-‬כן‪ ,‬לעתים רחוקות נראה את הנקודות‬
‫בגרף מסתדרות בדיוק על קו ישר אחד‪ .‬עם זאת‪ ,‬כאשר הקשר בין המשתנים אינו חלש מדי‪ ,‬ניתן‬
‫לזהות דפוסים לינאריים בגרף‪ .‬במילים אחרות‪ ,‬נבדוק עד כמה "ענן" הנקודות נמצא סביב קו‬
‫ישר‪.‬‬
‫ב) קשר לא לינארי‬ ‫א) קשר לינארי שלילי‬

‫ד) אין קשר (קשר חלש ביותר)‬ ‫ג) קשר לינארי חיובי‬
‫‪1‬‬
‫‪13/06/2021‬‬
‫בחירת מדד קשר בהתאם לסוג המשתנה‬

‫קיימים מדדי קשר רבים לבדיקת קיום קשר בין שני משתנים‪.‬‬
‫הבחירה באיזה מדד נשתמש עבור דוגמא כלשהי תלויה בעיקר בסוג המשתנים הנחקרים‬
‫(נומינאלי‪ ,‬אורדינאלי‪ ,‬אינטרוואלי או יחס)‪.‬‬
‫עיקר המחקרים והדוגמאות אשר יעניינו אותנו יעסקו במשתנים כמותיים (אינטרוואליים או‬
‫יחס)‪ ,‬ולכן נתרכז בקורס זה רק במדד קשר עבור שני משתנים כמותיים‪.‬‬
‫מדד הקשר במקרה זה הינו מקדם המתאם של פירסון‪.‬‬
‫מקדם המתאם של פירסון‬
‫בהרצאה זו נציג את מדד הקשר המתאים למקרה בו שני המשתנים הנחקרים הינם משתנים‬
‫אינטרוואליים לפחות‪ ,‬כלומר‪ ,‬כאשר מדובר במשתנים אינטרוואליים או יחס‪.‬‬
‫מדד הקשר המתאים במקרה זה הינו מקדם המתאם של פירסון‬
‫)‪ ,(Pearson Correlation Coefficient‬ונסמנו ב‪.𝑟𝑝 -‬‬
‫מדד זה בודק את קיומו של קשר לינארי (קווי) בין שני המשתנים‪.‬‬
‫דוגמאות‪ :‬קשר בין גובה האב לגובה בנו‪ ,‬קשר בין מספר שנות לימוד לשכר‪ ,‬קשר בין מספר שנות‬
‫ותק לשכר‪ ,‬קשר בין ציון בבגרות לבין ציון במבחן הפסיכומטרי‪ ,‬קשר בין הכנסות משק בית‬
‫להוצאות ועוד‪.‬‬
‫מקדם המתאם של פירסון הינו מדד לבדיקת קשר (לינארי) בין שני משתנים כמותיים‪ .‬מקדם‬
‫המתאם בודק את כיוון הקשר ואת עוצמתו‪.‬‬
‫כשיש מתאם חיובי בין משתנים‪ ,‬ערכים שהם מעל לממוצע במשתנה אחד‪ ,‬מקבילים לערכים‬
‫שהם מעל לממוצע במשתנה השני‪ ,‬ולהיפך‪ .‬במילים אחרות‪ ,‬המגמה של הנקודות הינה מגמה‬
‫עולה‪.‬‬
‫כשיש מתאם שלילי בין משתנים‪ ,‬ערכים שהם מעל לממוצע במשתנה אחד‪ ,‬מקבילים לערכים‬
‫שהם מתחת לממוצע במשתנה השני‪.‬‬
‫מקדם המתאם של פירסון נע תמיד בין ‪ −1‬לבין ‪.−1 ≤ 𝑟𝑝 ≤ 1 :1‬‬
‫ערכו של מקדם המתאם של פירסון מצביע הן על כיוון הקשר בין שני המשתנים והן על עוצמתו‪.‬‬
‫לגבי כיוון הקשר (חיובי‪/‬שלילי‪/‬אפס)‪:‬‬
‫כאשר מגמת הנקודות בדיאגרמת הפיזור חיובית (ערכים גבוהים של המשתנה האחד‬ ‫‪-‬‬
‫נוטים להתקבל עם ערכים גבוהים של המשתנה האחר)‪ ,‬מקדם המתאם יקבל ערך חיובי‪.‬‬
‫כאשר מגמת הנקודות בדיאגרמת הפיזור שלילית (ערכים גבוהים של המשתנה האחד‬ ‫‪-‬‬
‫נוטים להתקבל עם ערכים נמוכים של המשתנה האחר)‪ ,‬מקדם המתאם יקבל ערך שלילי‪.‬‬
‫כאשר אין מגמה (לינארית) כלשהי בין הנקודות בדיאגרמת הפיזור‪ ,‬ערך מתאם פירסון‬ ‫‪-‬‬
‫יהיה אפס (או קרוב לאפס)‪.‬‬
‫לגבי עוצמת הקשר‪:‬‬
‫ככל שהנקודות קרובות יותר לקו לינארי כלשהו בעל שיפוע חיובי‪ ,‬מקדם המתאם יהיה‬ ‫‪-‬‬
‫קרוב יותר ל‪.1-‬‬
‫ככל שהנקודות קרובות יותר לקו לינארי כלשהו בעל שיפוע שלילי‪ ,‬מקדם המתאם יהיה‬ ‫‪-‬‬
‫קרוב יותר ל‪.−1-‬‬
‫אם כל הנקודות נמצאות על קו לינארי אחד בעל שיפוע חיובי‪ ,‬ערכו של מקדם המתאם‬ ‫‪-‬‬
‫יהיה ‪.1‬‬
‫אם כל הנקודות נמצאות על קו לינארי אחד בעל שיפוע שלילי‪ ,‬ערכו של מקדם המתאם‬ ‫‪-‬‬
‫יהיה ‪.−1‬‬
‫‪2‬‬
‫‪13/06/2021‬‬
‫לסיכום‪ ,‬ערכו בערך מוחלט של מקדם המתאם של פירסון מציין את עוצמת הקשר‪ ,‬וסימנו של‬
‫מקדם המתאם (חיובי‪ ,‬שלילי או אפס) מציין את כיוון הקשר‪ .‬כאשר מקדם המתאם שווה לאפס‬
‫(או קרוב לאפס)‪ ,‬נאמר שאין קשר לינארי בין שני המשתנים‪.‬‬
‫הערה‪ :‬נדגיש שמקדם המתאם בודק קשר לינארי (קווי) בלבד בין שני משתנים כמותיים‪ .‬ייתכן‬
‫מצב בו קיים קשר שאינו לינארי בין שני המשתנים ומקדם המתאם של פירסון יקבל ערך אפס‬
‫(ערך המצביע על העדר קשר לינארי בין שני המשתנים)‪.‬‬
‫דוגמאות לערכו של מקדם המתאם של פירסון עבור מספר דיאגרמות פיזור‪:‬‬
‫מקדם המתאם של פירסון – נוסחא‪ :‬להלן הנוסחא לחישוב מקדם המתאם של פירסון בין שני‬
‫משתנים 𝑋 ו‪:𝑌 -‬‬
‫̅𝑌̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫= 𝑝𝑟‬
‫) ‪√(∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2 ) ⋅ (∑𝑛𝑖=1 𝑌𝑖2 − 𝑛𝑌̅ 2‬‬
‫(הערה‪ :‬בספרות קיימים מספר אופנים שונים להצגת הנוסחא של מקדם המתאם של פירסון‪.‬‬
‫כמובן‪ ,‬בכולם נקבל תוצאה זהה)‬
‫טבלת עזר לביצוע החישובים‪ :‬רצוי להכין טבלת עזר בה נבצע את כל החישובים הנדרשים לחישוב‬
‫מקדם המתאם של פירסון‪.‬‬
‫להלן טבלת העזר עבור שימוש בנוסחת העבודה‪:‬‬
‫‪3‬‬
‫‪13/06/2021‬‬
‫דוגמא‬
‫חוקר מעוניין לבדוק האם לאבות גבוהים יש בנים גבוהים‪ .‬לשם כך נבדק הקשר בין גובה האב‬
‫לגובה בנו עבור ‪ 10‬אבות ובניהם‪.‬‬
‫בדוגמא זו גובה האב הינו המשתנה המסביר (בלתי תלוי)‪ ,‬וגובה הבן הינו המשתנה המוסבר‬
‫(תלוי)‪ ,‬ולכן גובה האב יסומן ב‪ ,𝑋-‬וגובה הבן יסומן ב‪ .𝑌 -‬להלן הגבהים (בסנטימטרים)‪:‬‬
‫האם נתונים אלו מוכיחים כי לאבות גבוהים יש בנים גבוהים?‬

‫דיאגרמת פיזור עבור הדוגמא‪ :‬מהסתכלות ראשונית בתוצאות שהתקבלו בטבלה קצת קשה‬
‫לראות האם קיים קשר בין שני המשתנים‪ .‬לכן‪ ,‬נציג את הגבהים שהתקבלו עבור ‪ 10‬האבות‬
‫ובניהם בדיאגרמת הפיזור הבאה‪:‬‬
‫ניתוח ראשוני המתקבל מדיאגרמת הפיזור‪ :‬מהסתכלות ראשונית בדיאגרמת הפיזור קל יותר‬
‫לבחון את הקשר בין שני המשתנים‪ .‬נעשה ניתוח ראשוני של הקשר בין שני המשתנים מתוך‬
‫הסתכלות בדיאגרמת הפיזור בלבד‪ .‬ניתן לראות באופן כללי שישנו קשר חיובי בין גובה האב‬
‫לגובה בנו‪ .‬הקשר בין שני המשתנים חיובי מכיוון שמגמת הנקודות בדיאגרמה הינה מגמה עולה –‬
‫ככל שהאב גבוה יותר לרוב גם בנו גבוה יותר‪ ,‬וככל שהאב נמוך יותר לרוב גם בנו נמוך יותר‪.‬‬
‫כמו‪-‬כן‪ ,‬מתקבל הרושם שהקשר (החיובי) בין שני המשתנים חזק יחסית‪ ,‬מכיוון שהמגמה‬
‫החיובית של הנקודות די ברורה‪ ,‬ורוב הנקודות מקיימות אותה‪.‬‬
‫‪4‬‬
‫‪13/06/2021‬‬
‫חישוב מקדם המתאם של פירסון – טבלת עזר‪ :‬כדי לחשב את ערכו של מקדם המתאם של‬
‫פירסון (נוסחת העבודה) נשתמש בטבלת העזר הבאה בה מרוכזים החישובים הנדרשים‪:‬‬
‫חישוב מקדם המתאם של פירסון‪ :‬לסיכום‪ ,‬קיבלנו מטבלת העזר‪:‬‬

‫𝑛‬ ‫𝑛‬
‫‪∑ 𝑋𝑖 = 1743,‬‬ ‫‪∑ 𝑌𝑖 = 1771‬‬

‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫‪𝑋̅ = 174.3,‬‬ ‫‪𝑌̅ = 177.1‬‬

‫𝑛‬ ‫𝑛‬
‫‪∑ 𝑋𝑖2‬‬ ‫‪= 304211,‬‬ ‫‪∑ 𝑌𝑖2 = 314173‬‬

‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫𝑛‬
‫‪∑ 𝑋𝑖 𝑌𝑖 = 309014‬‬
‫‪𝑖=1‬‬
‫כעת‪ ,‬נציב את כל הביטויים בנוסחת העבודה של מקדם המתאם של פירסון ונקבל‪:‬‬

‫̅𝑌̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫= 𝑝𝑟‬ ‫=‬
‫‪√(∑𝑛𝑖=1 𝑋𝑖2‬‬ ‫‪−‬‬ ‫) ‪𝑛𝑋̅ 2‬‬ ‫⋅‬ ‫‪(∑𝑛𝑖=1 𝑌𝑖2‬‬ ‫‪−‬‬ ‫) ‪𝑛𝑌̅ 2‬‬
‫‪309014 − 10 ⋅ 174.3 ⋅ 177.1‬‬
‫=‬ ‫=‬
‫) ‪√(304211 − 10 ⋅ 174.32 ) ⋅ (314173 − 10 ⋅ 177.12‬‬
‫‪328.7‬‬
‫=‬ ‫‪= 0.709‬‬
‫)‪√(406.1) ⋅ (528.9‬‬
‫קיבלנו שיש קשר חיובי ודי חזק בין גובה האב לגובה בנו‪.‬‬
‫סיכום הדוגמא‪ :‬בדוגמא זו בדקנו את טענת החוקר שסבר שלאבות גבוהים יש בנים גבוהים‪ ,‬או‬
‫במילים אחרות שישנו קשר (חיובי) בין גובה האב לגובה בנו‪.‬‬
‫חישבנו את מקדם המתאם של פירסון עבור הנתונים שאספנו במדגם וקיבלנו שערך מקדם‬
‫המתאם של פירסון הינו ‪ ,0.709‬ערך המצביע על קיום קשר חיובי ודי חזק בין גובה האב לגובה‬
‫בנו‪.‬‬
‫לסיכום‪ ,‬אכן נמצא קשר חיובי בין שני המשתנים הנחקרים‪.‬‬
‫‪5‬‬
‫‪13/06/2021‬‬
‫רגרסיה לינארית – הקדמה‬

‫רגרסיה לינארית הינה המשך ישיר לנושא הקודם אשר דן בקשר בין שני משתנים כמותיים‬
‫ובמקדם המתאם של פירסון‪ .‬כזכור‪ ,‬לפנינו שני משתנים‪ :‬משתנה בלתי תלוי המסומן ב‪( 𝑋-‬נקרא‬
‫גם משתנה מסביר) ומשתנה תלוי המסומן ב‪( 𝑌 -‬נקרא גם משתנה מוסבר) שנמצא שיש ביניהם‬
‫קשר לינארי כלשהו‪.‬‬
‫המטרה ברגרסיה לינארית היא למצוא את משוואת הישר המתאים ביותר לאפיון הקשר בין שני‬
‫המשתנים‪ .‬בעזרת משוואת הישר נוכל לנבא את ערכו של המשתנה התלוי (משתנה 𝑌) על‪-‬סמך‬
‫ידיעת ערכו של המשתנה הבלתי תלוי (משתנה 𝑋) בלבד‪.‬‬
‫כאמור‪ ,‬הרגרסיה הלינארית הינה כלי סטטיסטי המאפשר לנו לנבא את ערכו של המשתנה התלוי‬
‫על‪-‬סמך ידיעת ערכו של המשתנה הבלתי תלוי‪.‬‬
‫ברגרסיה לינארית פשוטה ישנו משתנה תלוי אחד ומשתנה בלתי תלוי יחיד‪.‬‬
‫ברגרסיה לינארית מרובה ישנו משתנה תלוי אחד ומספר משתנים בלתי תלויים‪.‬‬
‫הרגרסיה הלינארית משמשת אותנו כאשר המשתנה התלוי (המנובא) הוא כמותי‪ .‬המשתנים‬
‫הבלתי תלויים ברגרסיה הלינארית יכולים להיות מכל רמת מדידה (יכולים להיות גם איכותיים)‪.‬‬
‫רגרסיה לינארית – מבוא‬
‫למדנו כי מקדם המתאם של פירסון מעיד על קיומו של קשר לינארי בין שני משתנים‪ ,‬על כיוונו‬
‫ועל חוזקו‪.‬‬
‫כאשר ‪ ,𝑟(𝑋, 𝑌) = ±1‬כל הנקודות בדיאגרמת הפיזור נופלות על קו ישר‪ ,‬ומידיעת ערך 𝑋 אנו‬
‫יכולים לדעת את ערכו המדויק של 𝑌 (ניבוי מושלם)‪.‬‬
‫‪6‬‬
‫‪13/06/2021‬‬
‫אך מה קורה כאשר מוצאים שיש קשר לינארי‪ ,‬אך מקדם המתאם של פירסון לא שווה בדיוק ל‪-‬‬
‫𝟏 או ל‪?−𝟏-‬‬
‫במקרה כזה ישנן נקודות ש"נופלות" בדיוק על הקו הישר‪ ,‬אך ישנן גם נקודות שנמצאות מסביבו‪.‬‬
‫במקרה כזה איננו יכולים לדעת בדיוק מהו ערכו של 𝑌 בהסתמך על ידיעת ערכו של 𝑋‪ .‬נשאלת‬
‫השאלה – מהו הקו האופטימאלי במקרה זה?‬
‫מהו קו הרגרסיה הטוב ביותר לניבוי 𝒀?‬
‫‪7‬‬
‫‪13/06/2021‬‬
‫משוואת הקו הישר – תזכורת‬

‫משוואה כללית של הקו הישר הינה 𝑎 ‪ ,𝑌 = 𝑏𝑋 +‬כאשר 𝑏 הינו שיפוע הקו ו‪ 𝑎 -‬הינו נקודת‬
‫החיתוך של הישר עם ציר ה‪( 𝑌 -‬נקרא גם קבוע הישר)‪.‬‬
‫תרגול עצמי‪ :‬שרטטו את הישרים הבאים‪:‬‬
‫‪𝑌 = 2𝑋 + 1‬‬ ‫א‪.‬‬
‫‪𝑌 = −0.5𝑋 + 2‬‬ ‫ב‪.‬‬
‫‪𝑌 = 3𝑋 − 4‬‬ ‫ג‪.‬‬
‫את ישר הרגרסיה (הנקרא גם ישר הניבויים) נהוג לסמן ב‪.𝑌̂ = 𝑏𝑋 + 𝑎-‬‬
‫קו הרגרסיה לניבוי 𝒀 על סמך 𝑿‬

‫קו הרגרסיה לניבוי 𝑌 על סמך 𝑋 הינו ישר הרגרסיה הטוב ביותר במקרה בו המשתנה התלוי הינו‬
‫𝑌 והמשתנה הבלתי תלוי הינו 𝑋‪ .‬בהמשך נראה מה הקריטריון הקובע מיהו הישר הטוב ביותר‪.‬‬
‫במרבית המקרים הסיווג של שני המשתנים למשתנה בלתי תלוי (מסביר) ומשתנה תלוי (מוסבר)‬
‫יהיה ברור ויחיד‪ .‬כאשר כך הדבר‪ ,‬המשתנה הבלתי תלוי יסומן ב‪ ,𝑋 -‬והמשתנה התלוי יסומן ב‪.𝑌 -‬‬
‫דוגמאות‪ :‬שנות לימוד ושכר‪ ,‬ותק ושכר‪ ,‬גובה האב וגובה בנו‪ ,‬גיל ומהירות נסיעה‪ ,‬גיל ומספר‬
‫תאונות דרכים‪.‬‬
‫תרגול עצמי‪ :‬בכל דוגמא קבעו מיהו המשתנה הבלתי תלוי ומיהו המשתנה התלוי‪.‬‬
‫עיקרון הריבועים הפחותים )‪(OLS = Ordinary Least Squares‬‬

‫נשאלת השאלה איזה עיקרון‪/‬קריטריון ינחה אותנו במציאת הקו הלינארי המתאים ביותר לאפיון‬
‫הקשר בין המשתנה 𝑋 למשתנה 𝑌‪/‬‬
‫כזכור‪ 𝑦𝑖 ,‬הינו ערך המשתנה המוסבר (משתנה 𝑌) עבור תצפית 𝑖 במדגם שדגמנו‪ .‬לעומת זאת‪𝑦̂𝑖 ,‬‬
‫הינו ערך מנובא על‪-‬ידי ישר הרגרסיה למשתנה המוסבר 𝑌 עבור תצפית 𝑖‪ .‬כלומר‪ 𝑦̂𝑖 ,‬מתקבל על‪-‬‬
‫ידי הצבת הערך 𝑖𝑥 במשוואת ישר הרגרסיה‪.‬‬
‫נזכור שהמשתנה 𝑌 הינו המשתנה המוסבר‪ ,‬ולכן הוא המשתנה המעניין אותנו בדיון‪.‬‬
‫‪8‬‬
‫‪13/06/2021‬‬
‫הקו האופטימאלי יהיה הקו אשר ממזער את סכום ריבועי הסטיות בין 𝑖𝑦 (ערך בפועל של תצפית‬
‫𝑖) לבין 𝑖̂𝑦 (ערך מנובא על‪-‬ידי הישר לתצפית 𝑖)‪.‬‬
‫עקרון זה‪ ,‬בו אנו רוצים למזער את סכום ריבועי הסטיות בין 𝑖𝑦 לבין 𝑖̂𝑦‪ ,‬נקרא "עיקרון‬
‫הריבועים הפחותים"‪.‬‬
‫נרשום אותו בצורה פורמאלית‪:‬‬
‫𝑛‬ ‫𝑛‬
‫‪2‬‬
‫‪)2‬‬
‫} ))𝑎 ‪min {∑(𝑦𝑖 − 𝑦̂𝑖 } = min {∑(𝑦𝑖 − (𝑏𝑥𝑖 +‬‬
‫‪𝑖=1‬‬ ‫‪𝑖=1‬‬
‫המחשה‪:‬‬
‫כדי למצוא מינימום של הביטוי שהוצג (סכום ריבועי הסטיות מהקו)‪ ,‬עלינו לגזור את הביטוי פעם‬
‫לפי 𝑎 ופעם לפי 𝑏‪ ,‬ולהשוות כל נגזרת לאפס‪ .‬בכך מתקבלות שתי משוואות עם שני נעלמים (𝑎 ו‪-‬‬
‫𝑏)‪ .‬פותרים את שתי המשוואות ובכך מקבלים ביטויים מפורשים ל‪ 𝑎 -‬ול‪.𝑏 -‬‬
‫מתקבלים הביטויים הבאים‪:‬‬
‫̅𝑋𝑏 ‪𝑎 = 𝑌̅ −‬‬
‫)̅𝑌 ‪∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅) ⋅ (𝑌𝑖 −‬‬ ‫̅𝑌 ⋅ ̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫=𝑏‬ ‫=‬ ‫⋯‬ ‫=‬
‫‪∑𝑛𝑖=1(𝑥𝑖 − 𝑋̅)2‬‬ ‫‪∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2‬‬
‫משוואת ישר הרגרסיה לניבוי 𝒀 על סמך 𝑿 – סיכום‬

‫את ישר הרגרסיה לניבוי 𝑌 על סמך 𝑋 נסמן ב‪.𝑌̂ = 𝑏𝑋 + 𝑎 :‬‬
‫במקרה זה המשתנה המוסבר הינו 𝑌 והמשתנה המסביר הינו 𝑋‪.‬‬
‫הביטויים לשיפוע של הישר )𝑏( ולחותך של הישר )𝑎( נתונים על‪-‬ידי המשוואות הבאות‪:‬‬
‫̅𝑋𝑏 ‪𝑎 = 𝑌̅ −‬‬
‫̅𝑌 ⋅ ̅𝑋𝑛 ‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 −‬‬
‫=𝑏‬
‫‪∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2‬‬
‫‪9‬‬
‫‪13/06/2021‬‬
‫דוגמא‬
‫כאשר הצגנו את מקדם המתאם של פירסון‪ ,‬הצגנו את הדוגמא הבאה‪:‬‬
‫לפנינו הגבהים של ‪ 10‬אבות ובניהם‪ .‬בדוגמא זו גובה האב הינו המשתנה הבלתי תלוי‪ ,‬וגובה הבן‬
‫הינו המשתנה התלוי‪ ,‬ולכן גוב האב יסומן ב‪ ,𝑋 -‬וגובה הבן יסומן ב‪ .𝑌 -‬להלן הגבהים‪:‬‬
‫נחשב את ישר הרגרסיה לניבוי גובה הבן על סמך גובה אביו‪.‬‬

‫טבלת עזר‪ :‬כדי לחשב את ישר הרגרסיה לניבוי גובה הבן על סמך גובה אביו נשתמש בטבלת העזר‬
‫הבאה בה מרוכזים החישובים הנדרשים‪:‬‬
‫נמצא את ישר הרגרסיה לניבוי גובה הבן )𝑌( על סמך גובה האב )𝑋(‪.‬‬
‫משוואת הישר הינה 𝑎 ‪.𝑌̂ = 𝑏𝑋 +‬‬

‫תחילה נמצא את המקדם 𝑏 (השיפוע) במשוואת הישר‪:‬‬
‫‪∑𝑛𝑖=1 𝑋𝑖 𝑌𝑖 − 𝑛𝑋̅ ⋅ 𝑌̅ 309014 − 10 ⋅ 174.3 ⋅ 177.1 328.7‬‬
‫=𝑏‬ ‫=‬ ‫=‬ ‫‪≅ 0.81‬‬
‫‪∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋̅ 2‬‬ ‫‪304211 − 10 ⋅ 174.32‬‬ ‫‪406.1‬‬
‫כעת נמצא את המקדם 𝑎 (החותך‪/‬הקבוע) במשוואת הישר‪:‬‬

‫‪𝑎 = 𝑌̅ − 𝑏𝑋̅ = 177.1 − 0.81 ⋅ 174.3 ≅ 35.9‬‬
‫קיבלנו‪:‬‬
‫‪𝑎 = 35.9,‬‬ ‫‪𝑏 = 0.81‬‬
‫ולכן‪ ,‬משוואת ישר הרגרסיה לניבוי גובה הבן על סמך גובה אביו הינה‪:‬‬
‫‪𝑌̂ = 0.81𝑋 + 35.9‬‬
‫‪10‬‬
‫‪13/06/2021‬‬
‫שימוש בישר הרגרסיה לצרכי ניבוי‬

‫כאשר יש ברשותנו את משוואת ישר הרגרסיה‪ ,‬נוכל להשתמש בה לשם ניבוי ערך 𝑦 על סמך ערך 𝑥‬
‫בלבד‪ ,‬עבור תצפית חדשה‪ .‬הניבוי ייעשה על‪-‬ידי הצבת ערך 𝑥 (הידוע לנו) במשוואת קו הרגרסיה‪,‬‬
‫ובכך נקבל את הניבוי לערך 𝑦‪.‬‬
‫את הניבוי לערך 𝑖𝑥 נהוג לסמן ב‪ .𝑌̂𝑥𝑖 -‬לדוגמא‪ ,‬את גובה הבן שננבא לאב אשר גובהו ‪ 180‬נסמן ב‪-‬‬
‫‪.𝑌̂180‬‬
‫דוגמא‪ :‬נשתמש בדוגמא עם גבהי האבות ובניהם‪ .‬בדוגמא זו קיבלנו שישר הרגרסיה הינו‪:‬‬
‫‪𝑌̂ = 0.81𝑋 + 35.9‬‬

‫נניח ואנו רוצים לנבא לאב שגובהו ‪ 180‬ס"מ מה יהיה גובה בנו‪ .‬לשם כך אנו מציבים את הערך‬
‫‪ 180‬במקום המשתנה 𝑥 בישר הרגרסיה ומקבלים את הניבוי לגובה הבן‪:‬‬
‫‪𝑌̂180 = 0.81 ⋅ 180 + 35.9 = 181.7‬‬

‫אם כך‪ ,‬ננבא לאב שגובהו ‪ 180‬ס"מ שגובה בנו יהיה ‪ 181.7‬ס"מ‪.‬‬
‫פירוש‪/‬משמעות המקדמים של ישר הרגרסיה‬
‫דוגמא‪ :‬בבדיקת הקשר בין מספר שנות ותק בחברה מסוימת לבין השכר (בשקלים) נמצא שיש‬
‫הרגרסיה לניבוי השכר על סמך הוותק הינו הישר הבא‪:‬‬
‫𝑋‪𝑌̂ = 5550 + 350‬‬

‫מה המשמעות של השיפוע )‪ (350‬במונחי השאלה?‬ ‫א‪.‬‬
‫מה המשמעות של החותך )‪ (5500‬במונחי השאלה?‬ ‫ב‪.‬‬
‫משמעות של השיפוע‪ :‬כל שנת ותק מגדילה בממוצע את שכר העובד ב‪.₪ 350-‬‬ ‫א‪.‬‬
‫משמעות של החותך‪ :‬ננבא לאדם חדש בחברה (אדם בעל אפס שנות ותק) שכר התחלתי‬ ‫ב‪.‬‬
‫של ‪.₪ 5500‬‬
‫‪11‬‬

2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא

Uploaded by

Copyright:

Available Formats

You might also like

2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

2021 איחוד סיכומי הרצאות רועי אוסקר שיטות סטטיסטיות תשפא

Uploaded by

Copyright:

Available Formats

‫‪07/03/2021‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות למדעי המחשב – הרצאה‬

‫סיכום שלבי המחקר הסטטיסטי‪:‬‬

‫מיון וסיווג משתנים‬

‫מיון לפי סולם המדידה‪:‬‬ ‫ב‪.‬‬

‫התאמת טכניקה סטטיסטית לסולם המדידה‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬

‫)𝒙(𝒇 – מספר משפחות (באלפים)‬ ‫𝒙 – מצב משפחתי של ההורה‬

‫בדוגמא זו מדובר במשתנה כמותי רציף‪.‬‬

‫דוגמא – טבלת שכיחות עם גבולות אמיתיים‪:‬‬

‫נקבל את הטבלה הבאה לאחר שנעבור לגבולות אמיתיים‪.‬‬

‫טבלת שכיחות דו‪-‬ממדית )‪(Crosstab‬‬

‫הצגת נתוני הטבלה באחוזים‪:‬‬

‫בחינת קשר בין המשתנים המופיעים בלוח‪:‬‬

‫גרף זה מתאים לנתונים שיש עליהם מגמה לאורך הזמן‪.‬‬

‫שכיחות יחסית נקראת גם פרופורציה‪.‬‬

‫)𝒙(𝒇 – מספר משפחות (באלפים)‬ ‫𝒙 – מצב משפחתי של ההורה‬

‫‪ - %‬אחוזים‬ ‫)𝒙(𝒇‬ ‫)𝒙(𝒇 – מספר משפחות‬ ‫𝒙 – מצב משפחתי של‬

‫בדוגמא זו מדובר במשתנה נומינאלי ולכן בחרנו להציגו בדיאגרמת מעגל‪.‬‬

‫הציגו את הנתונים בצורה גראפית‪ .‬מה מסקנתכם?‬ ‫‪-‬‬

‫הצגה בדיאגרמת מקלות לפי שכיחויות‪:‬‬

‫הצגה בדיאגרמת מקלות לפי אחוזים‪:‬‬

‫בשקפים הבאים נציג מספר עקומות‪/‬התפלגויות פופולאריות‪.‬‬

‫דוגמא למשתנה שמפולג בקירוב נורמאלית‪:‬‬

‫התפלגות א‪-‬סימטרית חיובית ("זנב ימין")‬

‫התפלגות א‪-‬סימטרית שלילית ("זנב שמאל")‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬

‫‪∑ 𝑥 ⋅ 𝑓(𝑥) 152‬‬

‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬

‫אם כן‪ ,‬בטבלת שכיחות (בעלת 𝑘 מחלקות לדוגמא) הממוצע יהיה‪:‬‬

‫̂ )𝑥(𝑓 ⋅ ̂𝑥 ∑‬ ‫𝑥 ‪𝑥1 ⋅ 𝑓(𝑥1 ) +‬‬

‫‪∑ 𝑥̂ ⋅ 𝑓(𝑥) 22.5 ⋅ 8 + 27.5 ⋅ 20 + ⋯ + 62.5 ⋅ 7 3102.5‬‬

‫‪∑(𝑥𝑖 − 𝑋̅) = 0‬‬

‫דוגמא‪ :‬נמחיש את הטענה בדוגמא הבאה‪:‬‬

‫= )‪∑(𝑥𝑖 − 𝑋̅) = (7 − 8) + (12 − 8) + (0 − 8) + (3 − 8) + (18 − 8‬‬

‫)𝒙(𝑭‬ ‫)𝒙(𝒇‬ ‫𝒙‬

‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬

‫)𝒙(𝑭 – שכיחות מצטברת‬ ‫)𝒙(𝒇 – מס' דירות‬ ‫𝒙 – מס' חדרים‬

‫נוסחא לחישוב חציון עבור טבלת שכיחות עם מחלקות (משתנה רציף)‪:‬‬

‫)𝒙(𝑭‬ ‫)𝒙(𝒇‬ ‫𝒙‬

‫𝒅‬ ‫)𝒙(𝒇‬ ‫𝒙‬

‫הבדלים עיקריים בין שלושת מדדי המיקום‬

‫דוגמא למשתנה שמפולג בקירוב נורמאלית‪:‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬

‫תחילה יש לחשב את ממוצע הגיל‪:‬‬

‫תחילה יש לחשב את ממוצע הגיל‪:‬‬

‫סטיית תקן )‪(Standard Deviation‬‬

‫‪𝑆 = √𝑆 2 = √32.5 = 5.7‬‬

‫‪𝑆 = √𝑆 2 = √1.51 = 1.23‬‬

‫‪𝑆 = √𝑆 2 = √121.35 = 11.02‬‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬

‫ציון תקן )‪(Standard Score‬‬

‫דוגמאות לאחוזונים‪ :‬כאמור‪ 𝑋𝑝 ,‬מייצג את האחוזון ה‪ ,𝑝-‬כלומר עבור ערך זה ‪ 𝑝%‬מהתצפיות‬

‫העשירון התחתון ) 𝟎𝟏𝑿(‬

‫העשירון העליון ) 𝟎𝟗𝑿(‬

‫)𝒙(𝒇 – שכיחות‬ ‫𝒙 – גיל‬

‫𝟐𝟔𝟑‪ – 𝟖𝟗-‬שיטות סטטיסטיות במדעי המחשב –‬

‫מספר תכונות של ההתפלגות הנורמאלית‬

‫ההתפלגות הנורמאלית הסטנדרטית‬