4 Regresja 1

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 57

Regresja liniowa

Cz. 1

Autorem części slajdów i plików jest dr Mikołaj Winiewski


Im wyższa osoba tym cięższa…

• Jak sprawdzić czy to powiedzenie ma odbicie


w świecie realnym?

• Możemy sprawdzić czy jest ZWIĄZEK między


ciężarem a wzrostem
• czyli policzyć korelację
Im wyższa osoba tym cięższa …

• Plik – korelacja3.xls
• 30 przypadków
• 3 zmienne
– Płeć (proporcje 50/50)
– Wzrost (cm)
– Waga (kg)
Złammy założenia i zobaczmy co się stanie…
• Ograniczona wariancja
– Przesortujmy dane wg płci
– Sprawdźmy korelację tylko dla kobiet
– Współczynniki korelacji? Wykres?
• Outlier -> dodajmy specyficzny przypadek
– zamiast jednej z kobiet wpisujemy dane Rosalie Bradford -> 544kg;
169cm
– co się zmieniło?
– Współczynniki korelacji? Wykres?
– Co się stanie jeśli ta osoba ważyła by nadal 544kg, ale miała 300 cm
wzrostu?
– Współczynniki korelacji? Wykres?
Im cięższa osoba tym wyższa…

• Nie sprawdzimy jednak czy to ciężar wpływa na wzrost,


czy wzrost na ciężar
• Nie możemy też powiedzieć o ile osoba wyższa o
centymetr będzie cięższa
• Nie będziemy też mogli przewidzieć wzrostu osoby,
która ma określoną wagę, a której wzrostu nie
zmierzyliśmy
Na pytania tego typu pomaga nam
odpowiadać analiza regresji
Wykorzystuje się ją między innymi do:
• Rozpoznawania wielkości i rodzaju wpływu jednej
zmiennej (lub więcej) na drugą
• Objaśniania zmienności jednej zmiennej za pomocą
zmienności drugiej zmiennej (lub większej ilości
zmiennych)
• Predykcji (przewidywania) wartości zmiennej zależnej
• Aby policzyć „wpływ” wzrostu na wagę użyjemy regresji
liniowej (ponieważ zakładamy liniowy związek między tymi
dwiema zmiennymi)
– UWAGA: istotne wyniki w analizie regresji nie oznaczają związku
przyczynowo-skutkowego! Regresja to metoda korelacyjna!
– Pamiętajmy, że współwystępowanie dwóch zjawisk może również
wynikać z wpływu innego, trzeciego zjawiska
• np. ilość strażaków gaszących pożar koreluje dodatnio z wielkością
zniszczeń ;-)
– tym co wpływa na oba wskaźniki jest… wielkość pożaru ☺
W analizie regresji:
• predyktor(y) – zmienna (zmienne) na podstawie
której (których) będziemy wnioskować o zmiennej
zależnej
• zmienna zależna (objaśniana) – zmienna, którą
chcemy objaśniać lub przewidywać
Analiza regresji liniowej

Dopasowanie do linii prostej


Predykcja „reintrodukcja”
• Współczynnik korelacji mówi nam o sile związku pomiędzy
X i Y.
• Jednak nie opisuje tego związku w stopniu wystarczającym
by przewidywać Y na podstawie X (lub na odwrót)
• A może jednak możemy?
• Wyobraźmy sobie, że mamy sporo Xów i Yów (N = 50)
oraz wiemy, że MX = 40; MY = 20,5; r = 0,56
• Czy na tej podstawie możemy przewidzieć wartość Y dla X
= 45?
Predykcja
• Załóżmy, że jesteśmy zainteresowani w tym jak pierwszaki
poradzą sobie na egzaminie ze STATYSTYKI.
• Zakładamy, że matura z matematyki pomoże nam
przewidzieć oceny.
• Z poprzednich lat wiemy, że te osoby które osiągnęły lepsze
wyniki na maturze z MATEMATYKI również lepiej wypadły
na egzaminie ze STATYSTYKI (r = 0,56)
• A w szczególności interesuje nas Marek który dostał 45
punktów z matury
35

30

Predykcja 25

20

15

10

0
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
WYNIK Z MATURY
• Gdy nie znamy X’ów naszym najlepszym strzałem będzie?
• Średnia Y oczywiście ☺
• Gdy znamy X i Y to
• Średnia Y dla interesującego nas X’a
• Średnia punktacja ze statystyki = 23,5 dla tych co dostali z MATMY X = 45
• Czyli 23,5 jest naszym oczekiwanym wynikiem
• Ale chyba coś jest nie tak z naszym przewidywaniem… Tylko co?
• Ignorujemy całą resztę wyników
• n = 5 dla tych z X = 45, ale całkowite N = 50
Regresja
• Podstawowa idea regresji polega na opisaniu liniowego
związku
• Uwaga! niespodzianka…
Linią prostą!
Co pozwoli nam na przewidywanie wyników leżących
poza zakresem próby
Równanie linii prostej: y = bx + a
a – stała, czyli punkt przecięcia linii z osią y, gdy x = 0
b – nachylenie; wartość y gdy x = 1
14
13 y = bx + a = 0,5x + 3
12
11
10
9
8
7
6
5 b - kąt nachylenia linii prostej
4
3
2
1
a - stała
Y

0
0 2 4 6 8 10 12 14 16 18 20
1 3 5 7 9 11 13 15 17 19 21

X
Prosta
• Każdą prostą (w kartezjańskim układzie
współrzędnych – dwuwymiarowej przestrzeni)
można opisać wzorem:
Y = bX + a
Gdzie:
b nachylenie
a punkt przecięcia z osią Y

I tak na przykład:
Y = 2,5X + 4 i Y = 0,75X + 4 będą przecinać oś Y w tym samym (+4) punkcie
A proste Y = 0,75X + 4; Y = 0,75 X - 2 mają to samo nachylenie (0,75), w związku z tym
będą równoległe
Regresja „reintrodukcja”
• Idealna liniowa zależność:
Y’= 2X + 1
• Najprostsza (nomen omen) z możliwych
• Wszystkie punkty danych układają się na
linii regresji
• r = 1 a r2 = 1
α
•To jest nasze b (slope)

a - punkt przecięcia z osią y


•b = 2/1 = 2 (intercept )
•Mówi nam o zmianie na skali Y powiązanej
ze zmianą X o jedną jednostkę Y` – „Y Prim” przewidywana wartość Y,
oznaczana czasem Ŷ – „Y HAT”
Regresja „reintrodukcja”
• A co z przypadkami nie tak oczywistymi?
Jak 35

wpasować 30

prostą? 25

20

15

10

0
34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
WYNIK Z MATURY
Y

Linia regresji

Yk

Yk – Y’k = ek
(błąd)

Yk

X
Błąd (reszta regresji)

• Różnica między wynikiem przewidywanym (przez


prostą regresji)
• a wynikiem rzeczywistym
Jak wpasować (najlepszą) prostą?

• Zminimalizować błąd?

• Niebieska: ∑e = 2-1-1 =0 +2
+2 -1
• Czerwona: ∑e = 2+2-4=0
-1 -4 +2

• Nie działa najlepiej…


Jak wpasować (najlepszą) prostą?
• Zminimalizować absolutne
wartości błędu?
+3
• Niebieska: + -1
2
∑|e|=|2|+|1|+|1|= 4 -1

• Czerwona:
• ∑e=|0|+|0|+|3|= 3

• Też słabo działa…


Jak wpasować (najlepszą) prostą?
• Zminimalizować kwadraty
błędu?
+ +
• Niebieska: 2 3-1
∑e2 = 2 2 +(-1) 2 +(-1) 2 = 6 -1

• Czerwona:
∑e 2 = 0 2 +3 2 +0 2 = 9

• Niebieska wygrywa!!!
Linia najlepszego dopasowania

• Wyznaczana tak, aby uzyskać w sumie jak


najmniejsze odległości wyników od linii
– Metoda najmniejszych kwadratów
• Ze wszystkich możliwych linii wybieramy tę, dla której suma
kwadratów reszt (błędów) jest najmniejsza
Przypominacz: R2, r2 i r
• Ocena mocy naszej predykcji
• Ignorując X najlepszym sposobem na przewidywanie Y jest
średnia ( )
• Używając wiedzy o związku X,Y możemy ulepszyć naszą
predykcję do (Ŷ)
– całkowite odchylenie Yk od średniej
– odchylenie wyjaśniane regresją
– odchylenie nie wyjaśniane (błąd)
20 Rzeczywisty wynik Ani (Y)

zmienna zależna
19
18
17
reszta regresyjna (Yk – Y’)
16
15
14 Przewidywany wynik Ani (Y’) regresja
13
12 (Y’- Y)
11 średnia z Y2
10
9
8
7
6
5
4
3
2 linia regresji Y2’ = 1,93X + 0,4
1
Y2

0
0 1 2 3 4 5 6 7 8 9 10 11

a - stała predyktor
X
Odchylenie wyniku Ani (YJ) od średniej (MY)
dzielimy na:
odchylenie przewidywanego wyniku Ani (Y’) od średniej (MY)
(regresja) (to co „zyskaliśmy” dzięki regresji)
oraz
odchylenie rzeczywistego wyniku Ani (YJ) od wyniku
przewidywanego (Y’) (reszta)

(YJ – MY) = (Y’ – MY) + (YJ – Y’)


odchylenie wyniku od średniej regresja reszta
Y

Yk

Odchylenie nie
A co w wypadku Całkowite wyjaśniane
Ziutka Yz? odchylenie
Yk
’ Odchylenie wyjaśniane
regresją

Yz

Linia regresji

X
Podział całkowitej sumy kwadratów
odchyleń od średniej

Σ(Yi – MY)2 = Σ(Y’ – MY)2 + Σ(Yi – Y’)2

Suma kwadratów wartości Suma kwadratów reszt


Całkowita suma przewidywanych - (błędów przewidywania) -
kwadratów wariancja wyjaśniona wariancja niewyjaśniona
(wariancja) (regresja) (reszta)

r 2 - Stosunek wariancji wyjaśnionej do wariancji całkowitej


(Y '− M Y ) 2
My – średnia r 2
=
Y’ – wartość przewidywana Y (Yi − M Y ) 2
Yi – rzeczywisty wynik
Współczynnik determinacji - stosunek
przewidywanej sumy kwadratów do całkowitej
sumy kwadratów

(Y '− M Y ) 2
r 2
=
(Yi − M Y ) 2

Współczynnik determinacji r 2 może być interpretowany jako


stopień zmienności Y wyjaśnianej przez zmienność X

Dla dwóch zmiennych r2 = R2


Ilustracja graficzna R2 - proporcjonalnej redukcji błędu
czyli wariancji wyjaśnionej przez predyktor
Predyktor
Bardzo dobry predyktor (zm. niezal.)
Predyktor bezsensowny
Predyktor Duża część
(zm. niezal.) zmienności
zmiennej zależnej Brak części wspólnej
„wyjaśniona” (R2 = 0)
przez predyktor
(początkowe) Zm. zależna
(0 < R2 < 1)

Zm. zależna Predyktor idealny


Predyktor
(zm. niezal.)
Predyktor „wyjaśnia”
całkowitą zmienność zm.
zależnej (R2 = 1)
Zm. zależna
Założenia analizy regresji liniowej
• TEORIA u podstaw budowania modelu!
– analizujemy wszystkie zmienne ważne z punktu widzenia teorii
– żadne zmienne nieistotne/nieważne nie są wprowadzone do modelu
– zmienne są odpowiednio mierzone,
– brak błędu pomiaru
• Związek liniowy między każdym predyktorem a zmienną zależną
– sprawdzić wykres/y!
• Zmienna zależna i predyktor/y są na skali ilościowej (min. 7 stopni)
– wyjątki dla predyktorów na skali dychotomicznej (0-1)
• Predyktory nie powinny być wysoko skorelowane między sobą (brak
współliniowości)
• Zmienna zależna i predyktory mają podobny rozkład
• Liczba osób: (30 +) minimum 15 osób na jeden predyktor
– brak „nadmiernego dopasowania” (overfitting) – zbyt dużo zmiennych w relacji do N
(problem przy małych próbach!)
• Błędy mają rozkład normalny
Założenia analizy regresji liniowej (c.d.)
- dla purystów statystycznych

• Błędy nie powinny być skorelowane ze zmienną zależną


– Jeśli są, to oznacza to zależność krzywoliniową między zmienną zależną
i predyktorem (możemy nie sprawdzać, jeśli obejrzeliśmy wykres/y
rozrzutu i nie stwierdziliśmy)

• Homoskedastyczność wariancji - wariancja błędów na


każdym poziomie predyktora powinna być podobna
Hipotezy
• H0: żaden z predyktorów nie jest istotny statystycznie
• czyli w populacji wszystkie współczynniki = 0

• H1: przynajmniej jeden z predyktorów jest istotny


statystycznie
• czyli przynajmniej jeden współczynnik jest różny od zera
w populacji
Weźmy rzeczywiste dane
(dane: korelacja3.sav)
• 30 przypadków
• 3 zmienne
– Płeć (proporcje 50/50)
– Wzrost (cm)
– Waga (kg)

• Od czego należy zacząć?


• Obejrzymy związek między X a Y
• Co możemy zrobić?
Kolejne kroki
1. Oglądamy zmienne (częstości, wykresy)
– sprawdzamy czy nie ma nietypowych wyników
• b. niskich lub b. wysokich (skrajnych)
2. Robimy wykres rozrzutu
– powinien być zbliżony do linii prostej (ale – jak w korelacji
- najważniejsze by nie przypominał żadnej krzywej!)
3. Liczymy korelację predyktora (wzrost) ze zmienną
zależną (waga)
– powinna być ;-)
4. Dopiero na końcu liczymy analizę regresji
Wykres rozrzutu
• Wykresy -> Wykresy tradycyjne -> Rozrzutu / Punktowy -> Prosty (dwie zmienne)
• W „zmienne tworzące macierz” wrzucamy X1 i Y1 czyli wzrost i wagę
Oglądamy ten wykres uważnie!
Szukamy:
- przypadków odstających
- wyraźnych krzywych
- nieprawidłowości
- podgrup
- Itp..
Wykres rozrzutu
• Wykresy -> Wykresy tradycyjne -> Rozrzutu / Punktowy -> Macierzowy (kilka zmiennych)
• W „zmienne tworzące macierz” wrzucamy X1 i Y1 czyli wzrost i wagę
Wykres macierzowy
gdy mamy dwie
zmienne…
Wykres
macierzowy gdy
mamy dużo więcej
zmiennych…
Anscomb
Jak to zrobić?

Analiza
→ Regresja
→ Liniowa
Zmienna zależna
Y1 - waga

Predyktor(y)
X1 - wzrost
Informacja o tym jakie zmienne zostały
wprowadzone i jaką metodą
Ile procent zmienności wyjaśnia model?
Miara dokładności przewidywania wyniku na
Wartość współczynnika
podstawie modelu (przewidywana wartość
Korelacji wielokrotnej (R).
z równania +/- błąd std. oszacowania)
Korelacja zmiennej zależnej i
predyktora (jeśli jest tylko jeden!)

Stopień dopasowania modelu do danych czyli procent


wyjaśnionej wariancji zmiennej zależnej.
TU: Zmienna wzrost wyjaśniła 63,5% wariancji zm. zależnej.
Informacja o tym czy model regresji
wnosi coś istotnego/znaczącego
(wyjaśnia więcej niż sama średnia)

Zaproponowany model prostoliniowy okazał się dobrze dopasowany do


danych F(1, 28) = 48,657; p < 0,001.
Wpływ poszczególnych zmiennych
Informacja czy wpływ
predyktora jest istotny
statystycznie

B - niestandaryzowany Wystandaryzowany
wpływ danego predyktora wpływ danego predyktora
(o ile się zmieni zm. zależna (współczynniki Beta można
gdy predyktor wzrośnie o 1) porównywać!)
Równanie regresji Y’ = bx + a

waga’ = 0,955 x wzrost – 98,836


Jaka będzie przewidywana waga osoby o wzroście np. 200 cm?
waga’ = 0,955 x 200 - 98,836 = 191 - 98,836 = 92,164 kg
Wpływ predyktora

Zależność między predyktorem a zmienną zależną jest silna i dodatnia


(β = 0,797). Im wyższa osoba tym większa waga.
Wartość współczynnika kierunkowego B wyniosła 0,955; t(28) = 6,975;
p < 0,001, a wartość stałej -98,836; t(28) = -4,120; p < 0,001. Oznacza to,
że osoba wyższa o centymetr jest cięższa o 0,955 kg
Regresja dwuzmiennowa w SPSS - wykresy
• Y1 - zm. zależna (waga)
• X1 - zm. niezależna (wzrost)
• Chcemy zrobić wykresy
– Wykresy reszt
– Zróbmy dodatkowe
Oglądamy dodatkowe tabele i wykresy by
„ocenić” założenia

Warto zwrócić uwagę na zakres reszt standaryzowanych…


+/- 3 oznacza „w normie” (rozkład normalny)
Wykresy reszt
standaryzowanych –
powinny być normalne
Wykresy rozrzutu – nie powinno być wyraźnych krzywych…
Przykładowy opis wyników
W celu sprawdzenia możliwości przewidywania wagi na podstawie wzrostu
respondenta przeprowadzono analizę regresji liniowej.
Zmienna wzrost wyjaśniła 63,5% wariancji zmiennej zależnej waga.
Zaproponowany model prostoliniowy okazał się dobrze dopasowany do
danych F(1, 28) = 48,657; p < 0,001.
Zależność między predyktorem a zmienną zależną jest silna i dodatnia
(beta = 0,797). Im wyższa osoba tym większa waga.
Wartość współczynnika kierunkowego B wyniosła 0,955; t(28) = 6,975; p < 0,001,
a wartość stałej -98,836; t(28) = -4,120; p < 0,001, Oznacza to, że osoba wyższa
o centymetr jest cięższa o 0,955 kg
[ALE lepiej zamieścić TABELĘ zamiast tego co na niebiesko!]
Założenia analizy regresji liniowej
1. Odpowiednia specyfikacja modelu (TEORIA!)
a) Relewantne (ważne) zmienne w modelu Tego nie sprawdzimy
b) Nierelwantne zmienne poza modelem SPSSem!
c) Liniowość relacji
d) Brak „nadmiernego dopasowania” (overfitting)
2. Dane
a) Zmienne mierzone na skalach ciągłych
b) Brak współliniowości
c) Brak obserwacji odstających (outliers)
d) Taki sam kształt rozkładu dla wszystkich zmiennych
3. Błędy
a) Niezależność obserwacji (błędów) – brak autokorelacji
b) Homoskedastyczność – stała wariancja błędu dla wszystkich
wartości X
c) Normalność rozkładu błędów.
Literatura (całość zajęć)
Bedyńska, S. i Cypryańska, M. (red.). (2012). Statystyczny drogowskaz 1.
Praktyczne wprowadzenie do wnioskowania statystycznego. Warszawa:
Wydawnictwo Akademickie Sedno Spółka z o.o.
Rozdz. 8 Jedno- i wielozmiennowa analiza regresji jako narzędzie przewidywania w
psychologii (s. 223-244)

Bedyńska, S. i Brzezicka, A. (red.). (2007). Statystyczny drogowskaz. Praktyczny


poradnik analizy danych w naukach społecznych na przykładach z
psychologii. Warszawa: Wydawnictwo SWPS Academica.
Rozdz. 14 Wprowadzenie do analizy regresji jedno- i wielozmiennowej (s. 364-384).

Dla zainteresowanych:
Bedyńska, S. i Książek, M. (red.). (2012). Statystyczny Drogowskaz 3. Praktyczny
przewodnik wykorzystania modeli regresji oraz równań strukturalnych.
Warszawa: Wydawnictwo Akademickie Sedno Spółka z o.o. Część I. Modele
regresji - rozdz. 1-4
Literatura dodatkowa (całość zajęć)
Francuz, P. i Mackiewicz, R. (2005). Liczby nie wiedzą skąd pochodzą. Przewodnik
po metodologii i statystyce nie tylko dla psychologów. Lublin: Wydawnictwo KUL.
Rozdz. 8.3 Analiza regresji (s. 527-578).

King, B.M. i Minium, E.W. (2009). Statystyka dla psychologów i pedagogów.


Warszawa: PWN.
Rozdz. 9 Predykcja (s. 202–224)
Rozdz. 10 Interpretacyjne aspekty korelacji i regresji (s. 225–249)

Wieczorkowska, G. i Wierzbiński, J. (2007). Statystyka. Analiza badań społecznych.


Warszawa: Wydawnictwo Naukowe Scholar.
Rozdz. 8 Testowanie związku między zmiennymi ilościowymi: analiza regresji i współczynnik
korelacji liniowej (s. 262-291).

You might also like