Professional Documents
Culture Documents
SZM - KP - Temat 05 - Analiza Korelacji
SZM - KP - Temat 05 - Analiza Korelacji
Statystyka z metodologią
kurs podstawowy
Wykład 05
Ale to już było… ale wraca
SCHEMAT KORELACYJNY
• Analizujemy związek między
dwiema lub większą liczbą
zmiennych
• Nie możemy wyciągać
wniosków przyczynowo
skutkowych
– Nawet jeżeli wydaje to się
absolutnie logiczne i klarowne!
Czym jest korelacja?
• To analiza związku liniowego
dwóch zmiennych
– Nie stosuje się jej wtedy, kiedy
związki dwóch zmiennych są
krzywoliniowe
– Przy związkach
krzywoliniowych stosuje się
inne, znacznie bardziej
zaawansowane metody
analizy
Na początku była… kowariancja
• Kowariancja
– Najprostsza miara związku
między zmiennymi
– „niesie najbardziej podstawową
informację o tym, co dzieje się z
odchyleniem od średniej
wartości jednej zmiennej, gdy
odchylenie zmienia się w
przypadku drugiej zmiennej”
(Ścibor-Rylski, 2013, s. 199)
Kowariancja
• Jest niewystandaryzowaną miarą związku
między dwiema zmiennymi
– Z tego wynika, że jest zależna od zastosowanej
skali
• Mówi o kierunku związku, ale nie o jego sile
– Dodatnia kowariancja
– Ujemna kowariancja
Przykład ze Statystycznego Drogowskazu
Wartość r Interpretacja
0 – 0,30 Słaba korelacja
0,31 – 0,50 Umiarkowana korelacja
0,51 – 0,70 Silna korelacja
0,71 - 1 Bardzo silna korelacja
r Pearsona
r = 0,97; p<0,01
Wady korelacji
• Nie ustalamy przyczynowości
– Zawsze może być trzecia zmienna, która wyjaśnia
obserwowany związek (mediator, por. wykład 1)
– Intuicja a uzasadnienie statystyczne
Inteligencja Zarobki
Wykształcenie
Hipotezy (korelacja)
• Stawiając hipotezy (lub wcześnie pytania
badawcze) w przypadku korelacji szukamy
informacji o dwóch zmiennych i ich:
– Związkach
– Relacjach
– Powiązaniach
Hipotezy (korelacja)
• Jest związek pomiędzy ilością godzin
poświęconych na naukę statystyki a
wiedzą statystyczną (hipoteza
bezkierunkowa)
• Jest dodatni związek pomiędzy ilością
godzin poświęconych na naukę
statystyki a wiedzą statystyczną
(hipoteza kierunkowa)
• Hipoteza zerowa:
– Nie ma związku (bezkierunkowa)
– Nie ma dodatniego związku (kierunkowa)
Założenia korelacji r Pearsona
• Związek zmiennych jest prostoliniowy
• Obie zmienne co najmniej na skali
przedziałowej
• Normalny rozkład obu zmiennych (czytaj: nie
odstający istotnie od rozkładu normalnego)
– Test Kołmogorowa-Smirnowa
– Test Shapiro-Wilka
Wyjaśnianie wariancji
• Oceniamy ile wariancji współdzielą dwie
zmienne
• Np. ilość godzin TV na dzień przed egzaminem
a wynik testu: r = 0,40
r = 0,40
R2 = (0,40)2
R2 = 0,16 = 16%
UWAGA: wykresy!
• Zanim wykonamy korelację r
Pearsona trzeba koniecznie obejrzeć
tzw. wykres rozrzutu obu zmiennych
• Jest to związane z faktem, że
korelacja Pearsona dotyczy tylko
związków prostoliniowych
– Jeżeli relacja naszych zmiennych jest
krzywoliniowa, nie możemy użyć r
Pearsona
UWAGA: wykresy!
Podsumowując
• Korelacja jako taka jest prosta to wykonania i
interpretacji
• Należy pamiętać o:
– sprawdzaniu wykresów – liniowości naszych
danych
– niemożności wyciągania wniosków przyczynowo
skutkowych
Pułapki korelacyjne
• Dane Anscombe’a
Cztery pary zmiennych:
x1 y1
x2 y2
x3 y3
X4 y4
r = 0,82; p<0,01
r = 0,82; p<0,01
r = 0,82; p<0,01
r = 1; p<0,001
r = 0,82; p<0,01
Korelacja r Pearsona – przykład analizy
• Plik płyty.sav
• Poszukujemy związków między budżetem na
reklamę (w tys. Funtów brytyjskich, GBP) a
sprzedażą płyt (w tysiącach egzemplarzy)
• Hipoteza kierunkowa
– Badawcza (alternatywna): istnieje pozytywny dodatni
związek między wysokością budżetu na reklamę a
sprzedażą płyt
– Zerowa: nie istnieje pozytywny dodatni związek między
wysokością budżetu na reklamę a sprzedażą płyt
Zmienne:
advert
sales
Wybieramy istotność jednostronną,
ponieważ mamy hipotezę kierunkową.
Charles Spearman
1863 - 1945
rho Spearmana
tau-b Kendalla
• Miara dość podobna do rho Spearmana
• Jak zaznacza Field, choć rho Spearmana jest
częściej używane, to wielu badaczy uważa, że
tau-b Kendalla jest lepszą miarą dla danych
nieparametrycznych