Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 46

Analiza korelacji

Statystyka z metodologią
kurs podstawowy

Wykład 05
Ale to już było… ale wraca
SCHEMAT KORELACYJNY
• Analizujemy związek między
dwiema lub większą liczbą
zmiennych
• Nie możemy wyciągać
wniosków przyczynowo
skutkowych
– Nawet jeżeli wydaje to się
absolutnie logiczne i klarowne!
Czym jest korelacja?
• To analiza związku liniowego
dwóch zmiennych
– Nie stosuje się jej wtedy, kiedy
związki dwóch zmiennych są
krzywoliniowe
– Przy związkach
krzywoliniowych stosuje się
inne, znacznie bardziej
zaawansowane metody
analizy
Na początku była… kowariancja
• Kowariancja
– Najprostsza miara związku
między zmiennymi
– „niesie najbardziej podstawową
informację o tym, co dzieje się z
odchyleniem od średniej
wartości jednej zmiennej, gdy
odchylenie zmienia się w
przypadku drugiej zmiennej”
(Ścibor-Rylski, 2013, s. 199)
Kowariancja
• Jest niewystandaryzowaną miarą związku
między dwiema zmiennymi
– Z tego wynika, że jest zależna od zastosowanej
skali
• Mówi o kierunku związku, ale nie o jego sile
– Dodatnia kowariancja
– Ujemna kowariancja
Przykład ze Statystycznego Drogowskazu

cov = Σ (x – Mx)(y – My) / N - 1


Cov = 22 / 4 = 5,5
Ścibor-Rylski (2013, s. 200)
Cov = 1320/ 4 = 330

Ta sama zależność, ale zamiast godzin -


minuty
r Pearsona
• Standaryzowany współczynnik
– Niezależny od skali i zastosowanych jednostek
– Wynik mieści się zawsze w przedziale <-1; 1>

Wartość r Interpretacja
0 – 0,30 Słaba korelacja
0,31 – 0,50 Umiarkowana korelacja
0,51 – 0,70 Silna korelacja
0,71 - 1 Bardzo silna korelacja
r Pearsona

• r Pearsona mówi nam o:


– Kierunku związku
– Sile związku

UWAGA: porównując siłę korelacji


patrzymy na jej wartość
bezwzględną (tj. ignorujemy znak Karl Pearson
minus) 1857 - 1936
np. korelacja – 0,7 jest silniejsza od
korelacji 0,6
Kierunek korelacji
• Dodatnia korelacja
– Zmienna X rośnie, zmienna Y rośnie
• Im więcej czytam, tym więcej wiem
• Wraz ze wzrostem ceny wzrasta postrzegana
subiektywnie jakość produktu
• Ujemna korelacja
– Zmienna X rośnie, zmienna Y maleje
• Im większe podatki, tym mniej firmy inwestują
• Im więcej biegam, tym mniej ważę
Obliczanie korelacji – r Pearsona
• Jasne… robi to za nas IBM SPSS – ale warto
wiedzieć co on tam właściwie robi 
• W zasadzie współczynnik korelacji obliczamy
dzieląc kowariancję przez iloczyn odchyleń
standardowych obu zmiennych
Obliczanie korelacji – r Pearsona

r = cov / SDgodziny * SDrefleks

r = 5,5/ 2,236 * 2,549 = 0,965 = 0,97


Testing…
Testing…

r = 0,97; p<0,01
Wady korelacji
• Nie ustalamy przyczynowości
– Zawsze może być trzecia zmienna, która wyjaśnia
obserwowany związek (mediator, por. wykład 1)
– Intuicja a uzasadnienie statystyczne

Inteligencja Zarobki

Wykształcenie
Hipotezy (korelacja)
• Stawiając hipotezy (lub wcześnie pytania
badawcze) w przypadku korelacji szukamy
informacji o dwóch zmiennych i ich:
– Związkach
– Relacjach
– Powiązaniach
Hipotezy (korelacja)
• Jest związek pomiędzy ilością godzin
poświęconych na naukę statystyki a
wiedzą statystyczną (hipoteza
bezkierunkowa)
• Jest dodatni związek pomiędzy ilością
godzin poświęconych na naukę
statystyki a wiedzą statystyczną
(hipoteza kierunkowa)
• Hipoteza zerowa:
– Nie ma związku (bezkierunkowa)
– Nie ma dodatniego związku (kierunkowa)
Założenia korelacji r Pearsona
• Związek zmiennych jest prostoliniowy
• Obie zmienne co najmniej na skali
przedziałowej
• Normalny rozkład obu zmiennych (czytaj: nie
odstający istotnie od rozkładu normalnego)
– Test Kołmogorowa-Smirnowa
– Test Shapiro-Wilka
Wyjaśnianie wariancji
• Oceniamy ile wariancji współdzielą dwie
zmienne
• Np. ilość godzin TV na dzień przed egzaminem
a wynik testu: r = 0,40
r = 0,40
R2 = (0,40)2
R2 = 0,16 = 16%
UWAGA: wykresy!
• Zanim wykonamy korelację r
Pearsona trzeba koniecznie obejrzeć
tzw. wykres rozrzutu obu zmiennych
• Jest to związane z faktem, że
korelacja Pearsona dotyczy tylko
związków prostoliniowych
– Jeżeli relacja naszych zmiennych jest
krzywoliniowa, nie możemy użyć r
Pearsona
UWAGA: wykresy!
Podsumowując
• Korelacja jako taka jest prosta to wykonania i
interpretacji
• Należy pamiętać o:
– sprawdzaniu wykresów – liniowości naszych
danych
– niemożności wyciągania wniosków przyczynowo
skutkowych
Pułapki korelacyjne 
• Dane Anscombe’a
Cztery pary zmiennych:
x1 y1
x2 y2
x3 y3
X4 y4
r = 0,82; p<0,01
r = 0,82; p<0,01
r = 0,82; p<0,01
r = 1; p<0,001
r = 0,82; p<0,01
Korelacja r Pearsona – przykład analizy
• Plik płyty.sav
• Poszukujemy związków między budżetem na
reklamę (w tys. Funtów brytyjskich, GBP) a
sprzedażą płyt (w tysiącach egzemplarzy)
• Hipoteza kierunkowa
– Badawcza (alternatywna): istnieje pozytywny dodatni
związek między wysokością budżetu na reklamę a
sprzedażą płyt
– Zerowa: nie istnieje pozytywny dodatni związek między
wysokością budżetu na reklamę a sprzedażą płyt
Zmienne:
advert
sales
Wybieramy istotność jednostronną,
ponieważ mamy hipotezę kierunkową.

Moglibyśmy też wziąć istotność


dwustronną i podzielić ją sami na dwa.

Należy pamiętać, że nawet przy wyniku


statystycznie istotnym nasza hipoteza
badawcza zyskuje potwierdzenie tylko
wtedy, jeżeli kierunek zależności jest
zgodny z przewidywaniem (w tym
przypadku wynik istotny dla korelacji
ujemnej nas nie urządza…)
Zapis wyniku: r = 0,58; p < 0,001

Interpretacja: Stwierdzono silną dodatnią korelację między


wysokością budżetu reklamowego a liczbą sprzedanych płyt, r =
0,58; p < 0,001.
A co jeżeli moje dane nie spełniają założeń?

• Założenia dla r Pearsona


– Skala co najmniej przedziałowa
– Normalny rozkład zmiennych
• Jeżeli któreś z założeń nie jest spełnione, to nie
panikujemy – korzystamy z tzw. korelacji
nieparametrycznych
rho Spearmana
• Stosowana kiedy:
– Rozkłady zmiennych ilościowych nie są normalne
– Co najmniej jedna zmienna jest na skali
porządkowej (nie stosujemy rho jeżeli któraś ze zmiennych jest
nominalna!)

Charles Spearman
1863 - 1945
rho Spearmana
tau-b Kendalla
• Miara dość podobna do rho Spearmana
• Jak zaznacza Field, choć rho Spearmana jest
częściej używane, to wielu badaczy uważa, że
tau-b Kendalla jest lepszą miarą dla danych
nieparametrycznych

Maurice George Kendall


1907 – 1983
tau-b Kendalla
rho vs tau-b
Ciekawostka – uwaga na zmienne

Skala ilorazowa? Oj, nie! Porządkowa!

You might also like