Professional Documents
Culture Documents
חוברת 3
חוברת 3
1
x x
ערך ה) b -גודל ה b -בערך מוחלט( מתאר את מידת ההשתנות )תלילות הקו( –
ככל ש b -גדול יותר ,כך שינוי ביחידה אחת ב x -גורר שינוי גדול יותר ב.y -
x x
עוצמת הקשר הליניארי :משתנה בהתאם לפיזור ערכי התצפיות )אינה תלויה
בשיפוע הקו( .ככל שהתצפיות מקבלות ערכים המפוזרים הרחק יותר מהקו
הליניארי ,כך עוצמת הקשר פחותה יותר .כאשר התצפיות נופלות כולן על אותו קו
ישר ,ישנו קשר מושלם! זאת משום שבמצב כזה הניבוי מושלם.
)זכרו כי כיוון הקשר להלן דוגמאות לעוצמות שונות ולכיוונים שונים של קשר לינארי
עולה ו y -יורד(: הליניארי יכול להיות חיובי -כאשר xעולה ו y -עולה או יכול להיות שלילי – כאשר x
2
בגלל ש b -שלילי אנו יכולים להסיק שהשיפוע שלילי.
את נקודת החיתוך עם ציר yנקבל ע"י הצבת ) x=0): -2·0+3=3נקודות החיתוך )
(0,3
את נקודת החיתוך עם ציר ה x -נקבל ע"י הצבת )):y=0
כאשר אנו מזהים מגמה של קשר לינארי בין שני משתנים ,עלינו להגדירו בעזרת
מדד מסוים .מדד זה יראה האם הקשר מובהק ,מהי עוצמתו ומהו כיוונו .כמדד
לכיוון הקשר הליניארי ועוצמתו משתמשים במקדם המתאם של פירסון.
שונויות
הגדרה :השונות היא מדד לפיזור הציונים .היא מהווה ,כפי שכבר למדנו ,את
ממוצע סכום ריבועי סטיות הציונים מן הממוצע )כלומר ,השונות מייצגת את
הסטייה הממוצעת של הציונים מממוצע ההתפלגות(.
כזכור ממערך השיעור העוסק בשונות:
ע"י .x
3
שונות טעות )לא מוסברת( – הסטייה של הציון הספציפי מהציון .2
דוגמא :ידוע כי קיים קשר בין משקל וגובה .גובהו של יוני הוא 198ס"מ .על מנת
להבין מדוע יוני סוטה מהממוצע ) 180ס"מ( נתייחס למשקלו .יוני שוקל 85ק"ג.
הגובה המנובא למשקל זה הוא 190ס"מ .ההפרש בין 190ל 180 -מוסבר על ידי
משקלו של יוני )העובדה שהוא שוקל 85ק"ג( ,אך ההפרש בין 198ל 190 -איננו
יכול להיות מוסבר ע"י המשקל ולכן נחשב כסטייה הנובעת ממשתנים אחרים.
- Yגובה
שונות בלתי
מוסברת – שונות
198 בגובה שאינה yi
מוסברת ע"י שונות מוסברת
המשקל -שונות בגובה
190 שמוסברת ע"י
ỹ המשקל
הגובה -ממוצע 180
y
- Xמשקל
80 90
יישום עיקרון זה לחישוב שונות :השונות הכללית מורכבת משונות המוסברת ע"י
s²y = Σ (yi –y)² = Σ (ỹ– y)² + Σ (yi – ỹ)²
n n n
השונות המוסברת ע"י השונות הנובעת מטעות
שונות בלתי מוסברת השונות הכללית
הקשר בין xלy -
4
) – (yi –yהסטייה של התצפית )שהתקבלה בפועל( מן הממוצע
– nמס' התצפיות במדגם )לכל תצפית יש ערך xוערך (y
5
הקשר בין מקדם המתאם של פירסון והשונות
ריבוע מקדם המתאם ) (r²מבטא את אחוז השונות המוסברת .ככל שהקשר בין x
ל y -חזק יותר ,תהינה פחות טעויות בלתי מוסברות ,כלומר ,תהינה פחות סטיות
של הציונים האמיתיים מהציונים המנובאים ,והתצפיות תהינה קרובות יותר לקו
הישר )קו הרגרסיה( ,כך שאחוז השונות המוסברת יהיה גדול יותר.
= r²אחוז )פרופורציית( השונות המוסברת מתוך השונות הכללית.
:r = 0.8משקל :yגובה( .כלומר ,משקל האדם r² = 0.64 , (x דוגמא :
מסביר 64%מהשונות בגובהו 36% .מהשונות מוסברת ע"י גורמים אחרים.
נוסחה:
רגרסיה
קו רגרסיה:
כאשר קיים קשר ליניארי מלא בין xלבין yניתן לנבא בלי שום טעות את yמתוך
xמתוך ערכי משתנה yאו להיפך .קו הרגרסיה לניבוי ערכי משתנה Xמתוך
ערכי משתנה ,Yשונה מקו הרגרסיה לניבוי ערכי משתנה Yמתוך ערכי משתנה
,Xכפי שנראה בהמשך.
על מנת שקו הרגרסיה יסייע בידינו בניבוי אופטימלי של ערכי משתנה אחד מתוך
ערכי המשתנה השני ,עליו לעמוד בדרישות הבאות:
6
א .סכום הסטיות של כל התצפיות )ציונים אמיתיים( מהקו הישר )ציונים מנובאים(
יהיה :0
. Σ (yi- ỹ)=0סכום התצפיות מצדו האחד של הקו שווה לסכום הסטיות מצדו
השני ,כך שסך כל הסטיות של התצפיות מן הקו מתקזז ל .0-כיוון שממוצע מוגדר
כערך שסכום הסטיות ממנו שווה לאפס ,קו הרגרסיה עובר דרך נקודת הממוצעים
).(x,y
ב .סכום ריבועי הסטיות של כל התצפיות מהקו הישר יהיה מינימלי )"עקרון
x
כפי שניתן לראות באיור בתחתית עמוד זה ,בכל דיאגרמת פיזור נתונה יהיו שני
קווי רגרסיה שונים – האחד לניבוי yמתוך (x (ỹ =bx+aוהשני לניבוי xמתוך y
.((x=by+aבמקרה הראשון ,מחפשים את הקו שממנו הסטייה המינימלית היא
בכיוון ) yמינימום מרחק אנכי בין הציון האמיתי לקו הרגרסיה) ובמקרה השני
מחפשים את הקו שממנו הסטייה המינימלית היא בכיוון ) xמינימום מרחק אופקי
בין הציון האמיתי לקו הרגרסיה( .שני קווי הרגרסיה נפגשים בנקודת הממוצעים,
נקודה בה הסטיות האופקית והאנכית הן מינימליות.
x=by+a
y ỹ =bx+a
ציון אמיתי
מרחק אנכי
ציון אמיתי
מרחק אופקי
x
7
*כאשר הקשר בין xל y -מלא )מקדם המתאם של פירסון ,(r=+1מתלכדים שני
קווי הרגרסיה לקו אחד ,שכל התצפיות נופלות עליו*.
ỹ = bx + a
=b n (Σ xiyi) - Σ xi · Σyi
nΣ xi² - (Σ xi)²
=b Σxiyi - n x · y
a = y - bx
לאחר שנחשב את aו) b -מתוך המדגם( ,נדע מהי משוואת הרגרסיה לניבוי y
מתוך ,xונוכל להציב את ערכי ה x -האמיתיים )מתוך האוכלוסייה( במשוואה
x = by + a
=b n (Σ xiyi) - Σ xi · Σyi
nΣ yi² - (Σ yi)²
=b Σxiyi - n x · y
a = x – by
לאחר שנחשב את aו) b -מתוך המדגם( ,נדע מהי משוואת הרגרסיה לניבוי x
מתוך ,yונוכל להציב את ערכי ה y -האמיתיים )מתוך האוכלוסייה( במשוואה
8
נוסחאות עבודה:
ỹ = bx + a x = by + a
b = r · sy b = r · sx
sx sy
ל r-של פירסון .כלומר ,שיפוע קו הרגרסיה מבטא את עוצמת הקשר בין
המשתנים.
כזכור ,ציון התקן של סטיית התקן הוא .((zsx = zsy = 1 1לכן:
*לכן זכור -כשההתפלגות ניתנת בציוני תקן תמיד שיפוע קו הרגרסיה שווה לr, -
,β= rאך יש לשים לב כי βשל ציוני תקן שונה מ b -של ציוני גלם !! *
r=1
r = -1
45º
9
קו הרגרסיה לניבוי yמתוך :x
10
תרגילי כיתה
bx + a
חוקר ניסה לגלות האם קיים קשר בין מספר החתלתולים בבית .2
משפחה לבין מספר קרטוני השמנת שמשפחה צורכת ביום .הוא אסף את
הנתונים הבאים:
11
במחקר בדקו האם קיים קשר בין מידת החרדה שאדם נמצא בה .3
בזמן מבחן לבין מספר השאלות עליהן הוא עונה נכון .נאספו הנתונים
הבאים:
)מידת החרדה( x: 1 2 5 6 4 1 8 8 7
כמות השתיה
לניבוי כמות השתיה ממידת השמחה. (1
לניבוי מידת השמחה מכמות השתיה. (2
לניבוי מידת השמחה מכמות השתייה וכן לניבוי כמות (3
השתייה ממידת השמחה.
אין לדעת מהנתונים. (4
חוקר בדק את הקשר בין חשיפה לאלימות בטלוויזיה )דורגה מ1- .5
עד (10לבין מספר הפשעים האלימים בקרב אוכלוסיית כלא מגידו .הוא
מצא את הנתונים הבאים:
12
ע"פ קו הרגרסיה – אם ג'ק המרטש נחשף לאלימות בטלוויזיה .1
ברמה ,4מה מספר הפשעים האלימים שתצפה שהוא יבצע?
צ'רלס מנסון ביצע 8פשעים אלימים .ע"פ קו הרגרסיה ,מהי הרמה .2
הצפויה של חשיפתו לאלימות בטלוויזיה?
בחישוב מתאם פירסון בין שני המשתנים נמצא כי . r= 0.6מהו אחוז .3
השונות במספר הפשעים האלימים של פושע שאינו מוסבר על ידי החשיפה
לאלימות בטלוויזיה?
.6נבדק הקשר בין גיל ילדים לבין מידת ההצלחה בהתמודדות עם תסכול.
במחקר נבדקו 5ילדים ונמצאו הנתונים הבאים:
חשב לפי נתונים אלו את קו הרגרסיה לניבוי גילה של שממית על .1
פי ציונה במבחן התסכול.
אם ידוע כי רק ילדים בעלי ציון 120ומעלה במבחן התמודדות עם .2
תסכול מסוגלים להישאר שפויים לנוכח התסכולים הרבים שבמבחני
הקבלה לפסטיגל ,בת כמה צריכה להיות נינט בשביל שנרשה לה להיבחן
במבחני הקבלה?
13
כיתה תשובות לתרגילי
.1א .ראשית ,ניתן לראות כי נקודת החיתוך עם ציר ה y -היא ) ,(0,3לפיכך ניתן לקבוע
גדל באחד y ,גדל באחד ,לכן מקדם השיפוע bשווה ל) 1-אפשר היה גם לקחת נקודה
נתונה על קו הרגרסיה על פי הציור ,להציב ולמצוא את , bכפי שעשינו בסעיף א'( .לכן,
משוואת קו הרגרסיה היא:
a = 1, b = 1 ỹ=x+1
נקודת החיתוך עם ציר ה y -היא ) ,(0,-2לכן .(a=(-2מציבים את הנקודה )(2,1 .3
שמופיעה בקו
הרגרסיה . b·2-2=1:לאחר חילוץ bמגלים כי הוא שווה ל . 1.5 -לפיכך ,משוואת קו
הרגרסיה היא:
a = -2, b = 1.5 ỹ = 1.5x - 2
.2
5
4
3
2
1
אפשר לראות שהנתונים מסתדרים באופן המקורב לליניארי ,כך שניתן לחשב .1
את קו הרגרסיה.
ניבוי yמתוך :x .2
14
0 1 0 0 1
0 0 0 0 0
סה"כ 16 17 59 64 59
ỹ = bx + a
= =b n (Σ xiyi) - Σ xi ·Σyi = = 7 ·59 - 16 ·17 413 -272
0.73
nΣ xi² - (Σ xi)² 7 ·64 - 16² 448 - 256
a = y – bx
x = Σx = 16 = 2.29 y = Σy = 17 = 2.43
n 7 n 7
X=3
ỹ = 0.76 + 0.73 ·3 = 2.95
משפחה בעלת שלושה חתולים תצרוך כ 2.95 -שמנות ביום.
.3א.
ב .מותר ,אך מיותר לחשב קו רגרסיה על הנתונים ,מכיוון שנראה שהקשר בין המשתנים
אינו ליניארי אלא בצורת Uהפוכה.
15
קווים אנכיים ואופקיים בין הנקודות בגרף לקו תשובה ב' נכונה .אם מותחים .4
הרגרסיה ,ניתן לראות כי המרחק האנכי בין הנקודות לקו הרגרסיה קטן מהמרחק
האופקי של הנקודות מהקו .משמעות הדבר ,שקו הרגרסיה מצמצם למינימום את
הטעות בניבוי ) yמידת השמחה( מתוך ) xכמות השתייה( ולא להיפך .כזכור ,אחת
מהדרישות מקו הרגרסיה ,על פי עיקרון הריבועים הפחותים ,היא שסכום ריבועי
הסטיות של כל התצפיות מהקו הישר יהיה מינימלי.
א.
16
ỹ = bx + a
= =b n (Σ xiyi) - Σ xi ·Σyi = 8 ·180- 28 ·58 = 1440 -1624- 1.05
a = y – bx
x = Σx = 28 = 3.5 y = Σy = 58 = 7.25
n 8 n 8
a = 7.25 – (-1.05 ·3.5) = 10.92 משוואת הרגרסיהỹ =– 1.05x + 10.92 :
ב.
x = by + a
17
.6א.
x y xy x² y²
95 6 570 9025 36
100 8 800 1000 64
0
120 10 1200 1440 100
0
105 7 735 1102 49
5
110 9 990 1210 81
0
סה"כ 530 40 429 565 330
5 50
ỹ = bx +a
= =b 5 ·4295- 530 ·40 = 21475 - 21200 0.15
a=y-bx
x = Σx = 530 = 106 y = Σy = 40 = 8
n 5 n 5
18
19
תרגילי בית מתאם ורגרסיה
.1אלה ממורמרת מכך שהיא יוצאת לדייטים ולא מצליחה למצוא אהבה .היא מאשימה את
אימה שגידלה אותה להיות בררנית מידי .האם נחרדה והחליטה לבדוק האם קיים קשר בין
מס' המחמאות שנותנות אמהות לבנותיהן בילדותן ,לבין מס' הדייטים הכושלים של הבנות
בבגרותן .היא דגמה חמישה זוגות של אמהות ובנותיהן וקיבלה את הנתונים הבאים:
x: 40,55,75,70,82מס' המחמאות
y: 57,60,83,60,82מס' דייטים
חשב את קו הרגרסיה לניבוי מס' הדייטים הכושלים של הבנות לפי מס' .1
המחמאות שנתנו האמהות.
צייר את הנתונים בדיאגרמת פיזור וצייר בה את קו הרגרסיה. .2
.2מנהלי השיווק של תנובה רצו לבדוק האם קיים קשר בין מס' הפעמים בהן משודרת
הפרסומת ליוגורט יופלה לבין מס' גביעי היופלה הנרכשים במרכולים .הם דגמו נתונים של
שיבעה ימים וקיבלו את הממצאים הבאים:
מס' השידורים x: 14, 19 , 25, 6 , 12, 9, 8
מס' גביעי יופלה y: 3, 5, 1, 8, 6, 7, 10
מצא מהי משוואת הרגרסיה לניבוי מס' הגביעים הנרכשים מתוך מס' שידורי .1
הפרסומת.
כמה גביעים סביר שירכוש אדם שצפה בשישה שידורים? .2
מצא מהי משוואת קו הרגרסיה לניבוי מספר השידורים ממס' הגביעים. .3
בכמה שידורים סביר שצפה אדם שרכש ארבעה גביעים? .4
ציירו את דיאגרמת הפיזור ואת קווי הרגרסיה .באיזו נקודה הם מתלכדים? .5
מה ניתן לומר על שונות הטעות בניבוי מס' הגביעים ממס' השידורים? .6
.3לפניך מס' המעריצים )במאות( את הראל סקעת ) (xואת הראל מויאל ) (yמכוכב נולד,
בשלוש ערים גדולות:
20
חשב את מקדם המתאם )(r .1
חשב את קו הרגרסיה לחיזוי Yמתוך . X .2
ברעננה רק עשרה אנשים מעריצים את הראל סקעת .כמה מעריצים סביר .3
שיהיו להראל מויאל ברעננה?
במחקר נאספו נתונים על מס' השעות שישנו שלושה סטודנטים בלילה .5
) (xועל מספר הפיהוקים שלהם בשיעור למחרת ):(y
x – 7, 5, 3
y - 3, 6, 10
א .הציגו את הנתונים בדיאגרמת פיזור ותארו את כיוון הקשר.
ב .חשבו את קו הרגרסיה לניבוי yמתוך .x
ג .איזה אחוז מהשונות במספר הפיהוקים מוסבר על ידי מספר שעות השינה?
ד .חוקר שינה מציע להשתמש בציוני תקן במקום יחידות גולמיות .מה יהיה המתאם
לפי הצעה זו ומה יהיה קו הרגרסיה לניבוי מס' פיהוקים לפי מס' שעות שינה?
ה .כמה פיהוקים צפויים למי שישן שעה וחצי בלבד?
ו .איזה מידע מכיל הפרמטר bבמשוואת הרגרסיה?
21
תשובות לתרגילי הבית
ב.
דייטים
22
מחמאות
כלומר ) (13.3,5.7שהיא גם נקודת ה .שני הקווים נפגשים בנקודה )(x, y
מס' גביעים
הממוצעים.
דיאגרמת הפיזור:
מס' שידורים
השונות המוסברת היא .r², 0.87²- = 0.76שונות הטעות שווה ל 1 -פחות השונות
המוסברת ,ולכן שווה ל. 0.24 -
.3
x y xy x² y²
24
מעלה 2 5 10 4 25
אדומים
כפר סבא 4 3 12 16 9
חיפה 6 1 6 36 1
סה"כ 12 9 28 56 35
א.
=r 3 ·28 – 12 ·9 = 1- :תשובה
)(3 ·56 - 12 ² ) · (3 ·35- 9 ²
ב .ניבוי yמתוך :x
=b 3 ·28 – 12 ·9 = 24- = 1-
3 ·56 - 12² 24
מס' פיהוקים
שעות שינה
25
ב .ניבוי yמתוך :x
x y xy x² y²
7 3 21 49 9
5 6 30 25 36
3 10 30 9 100
סה" 15 19 81 83 172
כ
Zy = r ·Zx
Zy = -0.69 ·Zx
ה .נציב x = 1.5
ỹ = -1.75·1.5 + 15.08 = 12.45
צפוי כי אדם שישן רק שעה וחצי בלילה ,יפהק 12.45פיהוקים. תשובה:
ו .המידע שמכיל הפרמטר bהוא :ככל שמס' שעות השינה בלילה גדל ביחידה אחת )שעה
26