Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

Statystyka 2-LAB.

Istotność statystyczna

Wartość p

Poziom istotności statystycznej dla danego wyniku weryfikuje się poprzez wykonanie testu istotności
statystycznej. Efektem jego wykonania jest wartość istotności statystycznej (p, ang. p-value), którą następnie
należy porównać do przyjętej wartości poziomu istotności (α). Jeśli wartość p jest mniejsza lub równa
wartości α, możemy (w kategoriach statystycznych) odrzucić hipotezę zerową, która zazwyczaj zakłada brak
różnic.

Jeśli wartość p jest większa od przyjętego poziomu, hipoteza zerowa nie może zostać odrzucona. Dla
przykładu, poniższa tabela (tab.1) prezentuje wyniki dla zależności między zmiennymi ilość posiadanych
dzieci oraz ilość pokoi w gospodarstwie domowym, gdzie współczynnik korelacji Pearsona wynosi r = 0,45,
natomiast wartość p = 0,058 jest większa od zakładanego poziomu istotności α = 0,05. Pomimo, że sam
współczynnik r sugeruje istnienie umiarkowanie silnej korelacji między zmiennymi, wynik ten nie jest
istotny statystycznie.

Istotność statystyczna pozwala na zweryfikowanie hipotez stawianych przez testy statystyczne. Wartość p
mniejsza od wyznaczonego poziomu istotności statystycznej pozwala na odrzucenie hipotezy zerowej
mówiącej o braku różnic między grupami lub pomiarami. Celem większości wykonywanych analiz jest
wykazanie istnienia pewnych różnic, a więc pożądanym wynikiem jest p ≤ α.

Istnieją również jednak analizy, w których chcemy, aby wartość p była większa od α i pozwalała, aby
hipoteza zerowa nie została odrzucona. Zazwyczaj są to testy weryfikujące założenia wybranej analizy
statystycznej. Przykładem może tu być test Levene’a badający jednorodność wariancji, wykorzystywany w
analizie wariancji ANOVA czy teście t-Studenta dla prób niezależnych.

Testy t Studenta

Tego rodzaju testy będą dla nas przydatne, gdy chcemy stwierdzić, czy wyniki w jednej grupie są większe bądź
mniejsze niż w drugiej grupie i czy te różnice są istotne statycznie.

W zależności od tego, z jakich grup badawczych pochodzą średnie możemy wyróżnić 3 rodzaje testów t
Studenta:

1. test t Studenta dla jednej próby


2. test t Studenta dla prób zależnych
3. test t Studenta dla prób niezależnych

Interpretacja otrzymanych wyników testów t Studenta jest stosunkowo prosta. W zależności od wybranego testu t oraz
oprogramowania statystycznego otrzymamy informacje o średnich arytmetycznych, odchyleniu standardowym,
różnicy średnich, wyniku testu t, stopniach swobody oraz poziomie istotności testu. Najczęściej przyjmuje się, że jeśli
poziom istotności jest mniejszy niż 0,05, to różnice średnich są istotne statystycznie.

Jednoczynnikowa analiza wariancji (one-way ANOVA)

Jednoczynnikowa analiza wariancji – jak sama nazwa wskazuje – ma zastosowanie w przypadku analizy wpływu
jednego czynnika na badaną zmienną zależną.

Założenia jednoczynnikowej analizy wariancji

Przystępując do wykonania jednoczynnikowej analizy wariancji, należy spełnić kilka założeń aby można
było uznać, że otrzymane wyniki są prawdziwe:

1. Niezależność obserwacji. Dane zostały zebrane przy użyciu poprawnych metod badawczych i nie
ma ukrytych zależności między obserwacjami. Niezależność obserwacji oznacza, że nie ma
związku między obserwacjami w każdej grupie lub między samymi grupami. W każdej grupie są
różni uczestnicy badania i żaden uczestnik nie należy do więcej niż jednej grupy. To założenie jest
związane bardziej z realizacją projektu badawczego, niż z tym co można przetestować posiadając już
zebrane dane, ale warto podkreślić, że jest to ważne założenie dla wielu testów statystycznych.
2. Zmienna zależna mierzona na skali ilościowej. Zmienna zależna powinna być zmienną ilościową
(na poziom interwałowym lub ilorazowym).
3. Rozkład wyników w analizowanych grupach jest zbliżony do rozkładu normalnego.
Poszczególne rozkłady w grupach powinny być zbliżone do rozkładu normalnego. Oceny tego
założenia można dokonać stosując test Kołomogorowa-Smirnova lub Shapiro-Wilka. Kiedy
założenie to nie jest spełnione i wyniki odbiegają znacząco od rozkładu normalnego, możemy
również posłużyć się różnego rodzaju transformacjami danych, np. logarytmowaniem,
potęgowaniem.
4. Równoliczność obserwacji w grupach. Poszczególne kategorie zmiennej niezależnej powinny być
statystycznie równoliczne. Trzeba mieć na uwadze, że w tym założeniu nie chodzi o idealną
równoliczność poszczególnych grup i niewielkie różnice między grupami są do przyjęcia. Aby
sprawdzić, czy analizowane grupy różnią się istotnie statycznie pod względem liczebności, można
zastosować test zgodności Chi-kwadrat.
5. Wariancje w grupach są jednorodne (homogeniczność wariancji). Zmienność w każdej
porównywanej grupie powinna być podobna. Jeśli wariancje różnią się między grupami, to można
zastosować test Welcha lub Browna-Forsythe'a, które wprowadzają poprawkę na nierówne wariancje
do statystyki F. Można te testy stosować zamienienie, jednak test Welcha można uznać za bardziej
konserwatywny i mający większą moc wykrywania różnic. Założenie o homogeniczności wariancji
testujemy za pomocą testu Levene'a. Jeśli wynik testu Levene’a jest istotny statystycznie, oznacza to,
że założenie o jednorodności wariancji nie jest spełnione.

Jednoczynnikowa analiza wariancji jest testem, który pozwala określić, czy między porównywanymi
grupami predyktora a zmienną zależną występują istotne statystycznie różnice. Warto pamiętać, iż ten test
stosujemy, gdy porównywanych grup jest przynajmniej trzy, a zmienna zależna jest zmienną mierzoną na
skali ilościowej. Jednoczynnikowa analiza wariancji jest tzw. testem omnibusowym, który pozwala
stwierdzić, że występują różnicę w porównywanych średnich, ale nie wskazuje między którymi. W tym
celu, jeśli wynik testu F okaże się istotny statystycznie, możemy posłużyć się testami post-hoc, które
pozwalają zbadać, między którymi średnimi występują różnice. Należy również pamiętać przed
zastosowaniem testu ANOVA o tym, aby sprawdzić założenia dla tego testu, gdyż ich niespełnienie może
powodować błędne wyniki.
Statystyka F

Nazwa „F” została zaproponowana przez George'a W. Snedecora na cześć Sir Ronalda A. Fishera. Fisher w
latach dwudziestych XX wieku początkowo opracował tę statystykę

Dominanta

Dominanta wskazuje, jaka wartość występuje najczęściej w zbiorze wyników. Dominantę inaczej nazywaną
też modą lub modalną można wyznaczyć i intepretować już dla zmiennych na nominalnym poziomie
pomiaru. Nie każda zmienna może mieć dominantę, ze względu na brak wartości występujących częściej niż
inne. Ważną cechą dominanty jest to, że nie mają na nią wpływu wartości skrajne.

Mediana

Mediana dla zbioru wartości zmiennej, to wartość, która dzieli zmienną na dwie równe części. Oznacza to,
że połowa obserwacji przyjmuje niższą wartość, a druga połowa – wyższą.

Średnia arytmetyczna

Przejdźmy teraz do omówienia średniej arytmetycznej. Tradycyjnie, wartość średnią obliczamy jako sumę
wartości danej zmiennej dla wszystkich obserwacji i dzieląc tę sumę przez liczbę obserwacji. Średnią można
liczyć dla zmiennych co najmniej na przedziałowym poziomie pomiaru.

Odchylenie standardowe i standaryzacja

Odchylenie standardowe mierzy, jak bardzo dane rozpraszają się wokół średniej. Wartości, które znacznie
odbiegają od średniej, przy uwzględnieniu odchylenia standardowego, mogą być uznawane za odstające.
Prostym sposobem na identyfikację przypadków odstających będzie standaryzacja zmiennej. Jest to rodzaj
normalizacji zmiennej polegający na odjęciu od wartości zmiennej, jej średniej, a następnie podzielenie tej
wartości przez odchylenie standardowe (wzór poniżej). W rezultacie otrzymamy nową zmienną, w której
średnia wynosi 0, a odchylenie standardowe 1.

Korelacje – przegląd współczynników

Analiza korelacji pozwala na zmierzenie siły związku między dwiema zmiennymi. W tym artykule
przedstawione zostaną najbardziej podstawowe współczynniki korelacji. Istnieje wiele różnych miar zależności,
również takich, które nie zostały tu opisane. Dokonanie wyboru między nimi zależy przede wszystkim od
analizowanych danych.

Współczynnik korelacji r-Pearsona

Jednym z najczęściej wybieranych współczynników korelacji jest r-Pearsona. Pozwala na badanie siły
związku prostoliniowego (rys. 1) pomiędzy dwoma zmiennymi mierzonymi skalą liczbową. Wartość
współczynnika korelacji Pearsona może być wrażliwa na występowanie obserwacji odstających i inne
anomalie w danych, dlatego istotna jest ich wcześniejsza diagnostyka. Współczynnik korelacji r-Pearsona
może przyjmować wartości od –1 do 1.

Wartość współczynnika r-Pearsona można wykorzystać do wyliczenia współczynnika determinacji R 2


poprzez podniesienie jej do kwadratu. Wartość R2 może przyjmować wartości od 0 do 1. Współczynnik
determinacji informuje o tym, jaki procent zmienności badanej zmiennej jest wyjaśniany przez zmienną
niezależną.
Współczynnik korelacji rho Spearmana

Innym współczynnikiem korelacji jest rho Spearmana. Dzięki temu, że opiera się on na rangowaniu, można
wykorzystać go do analizy zmiennych mierzonych na skali porządkowej (np. wielkość miejsca
zamieszkania, poziom wykształcenia), co nie jest możliwe w przypadku klasycznego współczynnika
korelacji r-Pearsona.

Rho Spearmana jest często drugim wyborem, gdy posiadane dane nie spełniają warunków analizy korelacji
Pearsona. Korelacja rangowa Spearmana pozwala na analizę korelacyjną zmiennych posiadających
obserwacje odstające, których decydujemy się nie usuwać np. z powodu małej liczebności danych. Analiza
korelacji Spearmana pozwala na badanie dowolnej zależności monotonicznej (rys. 2), a nie tylko związku
prostoliniowego między zmiennymi. Współczynnik korelacji rho Spearmana może przyjmować wartości z
zakresu od –1 do 1.

Wykres rozrzutu

Wykres rozrzutu (inaczej też nazywany punktowy lub rozproszenia, ang. scatterplot) jest to wykres z dwiema
prostopadle ułożonymi osiami, na których są prezentowane dwie zmienne.

Ten rodzaj wykresu pozwala na określnie relacji między dwiema zmiennymi ilościowymi , co jest ważne np.
w analizie korelacji, regresji bądź klasyfikacji danych.

Co jest jego najważniejszą zaletą? Wykres rozrzutu nie tylko może prezentować kierunek korelacji oraz jej
siłę, ale może być również pomocny w wskazaniu skupień obserwacji o podobnych wartościach, w
sprawdzeniu poprawności klasyfikacji przypadków do wyznaczonych grup oraz do wstępnego określenia,
czy występują obserwacje odstające od ogólnego trendu.

Kierunek relacji a korelacja

Rozmieszczenie punktów prezentujących wartości dwóch zmiennych na wykresie rozrzutu może


analitykowi powiedzieć bardzo wiele o relacji między analizowanymi zmiennymi. Relacje między dwiema
zmiennymi można opisać za pomocą funkcji liniowej, kwadratowej, logarytmicznej, wykładniczej i innych.

Przyjrzyjmy się bliżej korelacji liniowej. Wykres rozrzutu może prezentować korelację dwóch zmiennych,
która może być liniowa dodatnia (korelacja pozytywna), linowa ujemna (korelacja negatywna) lub zerowa
(brak korelacji liniowej, zmienne nieskorelowane). Jeśli punkty na wykresie układają się od lewego dolnego
do prawego górnego rogu wskazuje to, że jest to dodatnia korelacja między analizowanymi zmiennymi
(wykres 3). Często w celu określenia kierunku relacji dwóch zmiennych pomocne jest dodanie do wykresy
rozrzuty linii dopasowania.

Jeśli układ punktów na wykresie kształtuje się od lewego górnego rogu do prawego dolnego, wskazuje to na ujemną
korelację
Wykres, na którym punkty rozrzucone są w formie chmury, najczęściej będzie wskazywał na brak liniowego związku
między analizowanymi zmiennymi

Podsumowując, prezentacja danych za pomocą wykresu rozrzutu pozwala:

 zaprezentować i zrozumieć relacje dwóch zmiennych ilościowych,


 wskazać wartości nietypowe,
 zidentyfikować skupienia w danych,
 dodać linię wraz funkcją dopasowania i wykorzystać ją do prognozowania nowych wartości danych.
chi-kwadrat Pearsona

Test niezależności chi-kwadrat Pearsona

Test niezależności chi-kwadrat jest jednym najpopularniejszych testów statystycznych. Stosuje się go w celu
sprawdzenia, czy między dwiema zmiennymi jakościowymi występuje istotna statystycznie zależność.
Bazuje on na porównywaniu ze sobą liczebności obserwowanych, tj. takich, które uzyskaliśmy w badaniu, z
liczebnościami oczekiwanymi, tj. takimi, które zakłada test, gdyby nie było żadnego związku między
zmiennymi. Jeżeli różnica pomiędzy liczebnościami obserwowanymi a oczekiwanymi jest duża (istotna
statystycznie) to można uznać, że zachodzi zależność między jedną zmienną a drugą. Test ten jest bardzo
popularny w przypadku badań ankietowych, w których dominują zmienne jakościowe. W badaniach
marketingowych test chi-kwadrat można wykorzystać np. do określenie czy, występuje zależności pomiędzy
wyborem typu opakowania produktu a płcią klienta. Innym przykładem zastosowania może być weryfikacja,
czy rodzaj uprawianego sportu jest zależny od wykształcenia badanych osób

Rozważmy teraz przykład. Załóżmy, że analityk chce sprawdzić, czy zmienna Dochód respondenta jest istotnie
statystycznie powiązana ze zmienną Płeć. Test niezależności chi-kwadrat zakłada, że zmienna Dochód oraz Płeć są
niezależne od siebie, czyli proporcje są takie same dla wszystkich kolumn, a wszelkie rozbieżności wynikają z
losowej zmienności. Test porównuje liczebności obserwowane z liczebnościami oczekiwanymi, których można by się
spodziewać, gdyby te dwie zmienne nie były ze sobą powiązane.

Gdy zmienne nie są powiązane, liczebności obserwowane i oczekiwane będą podobne, a wynik testu chi-kwadrat
okaże się nieistotny statystycznie, tym samym nie będziemy mogli przyjąć, że między badanymi zmiennymi
występuje istotna statystycznie zależność. Większa wartość statystyki chi-kwadrat oznacza większą rozbieżność
między liczebnościami obserwowanymi i oczekiwanymi, a tym samym hipoteza o niezależności zmiennych jest
błędna i można uznać, że między zmienną Płeć i Dochód występuje istotna statystycznie zależność.

Najważniejsze założenia testu chi-kwadrat:

1. Zmienne w analizie muszą być zmiennymi jakościowymi (zmienna nominalna lub porządkowa).
2. Próba z jakiej pochodzą wyniki została wybrana losowo z populacji.
3. Niezależność badanych kategorii (obserwacja nie może należeć jednocześnie do dwóch kategorii
jednej zmiennej).
4. Nie więcej niż 20% komórek ma liczebność oczekiwaną mniejszą niż 5.
5. Minimalna liczebność oczekiwana jest większa od 1.

Test zgodności chi-kwadrat możemy użyć, gdy mamy jedną zmienną jakościową. Często, choć nie zawsze, analityk
oczekuje, że kategorie będą miały równe proporcje, np. gdy używamy testu t dla grup niezależnych lub w przypadku
analizy wariancji. Test pozwala sprawdzić, czy rozkład częstości zmiennej kategorialnej znacząco różni się od naszych
oczekiwań. Innymi słowy test zgodności chi-kwadrat służy do oceny, czy rozkład empiryczny danych jest zgodny z
teoretycznym rozkładem, który jest opisany przez konkretną hipotezę zerową.
Podobną formą testu jest test jednorodności chi-kwadrat, który sprawdza, np. czy dwa rozkłady zmiennej mają takie
same proporcje względem siebie. Ogólnie test jednorodności chi-kwadrat służy do sprawdzenia, czy rozkład częstości
zmiennej kategorialnej różni się od innego zdefiniowanego rozkładu. Test ten jest wykorzystywany, gdy badacz chce
sprawdzić, czy istnieje istotna różnica między rozkładami przynajmniej dwóch zmiennych kategorycznych. Przykłady
hipotez zerowych, które można testować za pomocą testu
jednorodności chi-kwadrat, to: częstość występowania pewnego zdarzenia w różnych grupach, porównanie preferencji
konsumentów dla różnych produktów itp.
Wzór na liczbę stopni swobody jest następujący:

Liczba stopni swobody -df

k – liczba kategorii. df = k-1

You might also like