Professional Documents
Culture Documents
4 Regresja 1
4 Regresja 1
4 Regresja 1
Cz. 1
• Plik – korelacja3.xls
• 30 przypadków
• 3 zmienne
– Płeć (proporcje 50/50)
– Wzrost (cm)
– Waga (kg)
Złammy założenia i zobaczmy co się stanie…
• Ograniczona wariancja
– Przesortujmy dane wg płci
– Sprawdźmy korelację tylko dla kobiet
– Współczynniki korelacji? Wykres?
• Outlier -> dodajmy specyficzny przypadek
– zamiast jednej z kobiet wpisujemy dane Rosalie Bradford -> 544kg;
169cm
– co się zmieniło?
– Współczynniki korelacji? Wykres?
– Co się stanie jeśli ta osoba ważyła by nadal 544kg, ale miała 300 cm
wzrostu?
– Współczynniki korelacji? Wykres?
Im cięższa osoba tym wyższa…
30
Predykcja 25
20
15
10
0
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
WYNIK Z MATURY
• Gdy nie znamy X’ów naszym najlepszym strzałem będzie?
• Średnia Y oczywiście ☺
• Gdy znamy X i Y to
• Średnia Y dla interesującego nas X’a
• Średnia punktacja ze statystyki = 23,5 dla tych co dostali z MATMY X = 45
• Czyli 23,5 jest naszym oczekiwanym wynikiem
• Ale chyba coś jest nie tak z naszym przewidywaniem… Tylko co?
• Ignorujemy całą resztę wyników
• n = 5 dla tych z X = 45, ale całkowite N = 50
Regresja
• Podstawowa idea regresji polega na opisaniu liniowego
związku
• Uwaga! niespodzianka…
Linią prostą!
Co pozwoli nam na przewidywanie wyników leżących
poza zakresem próby
Równanie linii prostej: y = bx + a
a – stała, czyli punkt przecięcia linii z osią y, gdy x = 0
b – nachylenie; wartość y gdy x = 1
14
13 y = bx + a = 0,5x + 3
12
11
10
9
8
7
6
5 b - kąt nachylenia linii prostej
4
3
2
1
a - stała
Y
0
0 2 4 6 8 10 12 14 16 18 20
1 3 5 7 9 11 13 15 17 19 21
X
Prosta
• Każdą prostą (w kartezjańskim układzie
współrzędnych – dwuwymiarowej przestrzeni)
można opisać wzorem:
Y = bX + a
Gdzie:
b nachylenie
a punkt przecięcia z osią Y
I tak na przykład:
Y = 2,5X + 4 i Y = 0,75X + 4 będą przecinać oś Y w tym samym (+4) punkcie
A proste Y = 0,75X + 4; Y = 0,75 X - 2 mają to samo nachylenie (0,75), w związku z tym
będą równoległe
Regresja „reintrodukcja”
• Idealna liniowa zależność:
Y’= 2X + 1
• Najprostsza (nomen omen) z możliwych
• Wszystkie punkty danych układają się na
linii regresji
• r = 1 a r2 = 1
α
•To jest nasze b (slope)
wpasować 30
prostą? 25
20
15
10
0
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
WYNIK Z MATURY
Y
Linia regresji
Yk
Yk – Y’k = ek
(błąd)
Yk
’
X
Błąd (reszta regresji)
• Zminimalizować błąd?
• Niebieska: ∑e = 2-1-1 =0 +2
+2 -1
• Czerwona: ∑e = 2+2-4=0
-1 -4 +2
• Czerwona:
• ∑e=|0|+|0|+|3|= 3
• Czerwona:
∑e 2 = 0 2 +3 2 +0 2 = 9
• Niebieska wygrywa!!!
Linia najlepszego dopasowania
zmienna zależna
19
18
17
reszta regresyjna (Yk – Y’)
16
15
14 Przewidywany wynik Ani (Y’) regresja
13
12 (Y’- Y)
11 średnia z Y2
10
9
8
7
6
5
4
3
2 linia regresji Y2’ = 1,93X + 0,4
1
Y2
0
0 1 2 3 4 5 6 7 8 9 10 11
a - stała predyktor
X
Odchylenie wyniku Ani (YJ) od średniej (MY)
dzielimy na:
odchylenie przewidywanego wyniku Ani (Y’) od średniej (MY)
(regresja) (to co „zyskaliśmy” dzięki regresji)
oraz
odchylenie rzeczywistego wyniku Ani (YJ) od wyniku
przewidywanego (Y’) (reszta)
Yk
Odchylenie nie
A co w wypadku Całkowite wyjaśniane
Ziutka Yz? odchylenie
Yk
’ Odchylenie wyjaśniane
regresją
Yz
Linia regresji
X
Podział całkowitej sumy kwadratów
odchyleń od średniej
(Y '− M Y ) 2
r 2
=
(Yi − M Y ) 2
Analiza
→ Regresja
→ Liniowa
Zmienna zależna
Y1 - waga
Predyktor(y)
X1 - wzrost
Informacja o tym jakie zmienne zostały
wprowadzone i jaką metodą
Ile procent zmienności wyjaśnia model?
Miara dokładności przewidywania wyniku na
Wartość współczynnika
podstawie modelu (przewidywana wartość
Korelacji wielokrotnej (R).
z równania +/- błąd std. oszacowania)
Korelacja zmiennej zależnej i
predyktora (jeśli jest tylko jeden!)
B - niestandaryzowany Wystandaryzowany
wpływ danego predyktora wpływ danego predyktora
(o ile się zmieni zm. zależna (współczynniki Beta można
gdy predyktor wzrośnie o 1) porównywać!)
Równanie regresji Y’ = bx + a
Dla zainteresowanych:
Bedyńska, S. i Książek, M. (red.). (2012). Statystyczny Drogowskaz 3. Praktyczny
przewodnik wykorzystania modeli regresji oraz równań strukturalnych.
Warszawa: Wydawnictwo Akademickie Sedno Spółka z o.o. Część I. Modele
regresji - rozdz. 1-4
Literatura dodatkowa (całość zajęć)
Francuz, P. i Mackiewicz, R. (2005). Liczby nie wiedzą skąd pochodzą. Przewodnik
po metodologii i statystyce nie tylko dla psychologów. Lublin: Wydawnictwo KUL.
Rozdz. 8.3 Analiza regresji (s. 527-578).