Download as pdf or txt
Download as pdf or txt
You are on page 1of 21

STATYSTYKI OPISOWE

Cele statystyki:

-porządkowanie danych surowych (jakościowych i ilościowych);


-wnioskowanie o charakterystykach populacji na podstawie zbadanej próby.

Statystyki opisowe i wykresy umożliwiają:

-eksplorację danych;
-wykrycie przypadków odstających i wpływowych;
-wykrycie błędów;
-sprawdzenie założeń testów statystycznych;
-podjęcie decyzji dotyczących wyboru testu.

MIARY TENDENCJI CENTRALNEJ

Średnia

Suma wszystkich wartości zmiennej podzielona przez ich liczbę (N), jest mało odporna na
odchylenie

Wzór:

Modalna

Inaczej dominanta (Mo), określa wartość najczęściej występującą w zbiorze, można ją


policzyć dla zmiennych mierzonych na każdej ze skal pomiarowych.

Jeśli w zbiorze występują dwie takie wartości, to jest to zmienna dwumodalna.

Mediana

Określa wartość dzielącą uporządkowany zbiór na pół. Liczona dla wszystkich skal, poza
nominalną.

Kwantyle

Mediana – na 2 części
Tercentyle – na 3 części
Kwartyle – na 4 części
Kwintyle – na 5 części
Decyle – na 10 części
Percentyle – na 100 części
Wykres skrzynkowy

MIARY ROZPROSZENIA

Rozstęp

Odległość między najniższym i najwyższym wynikiem danej zmiennej.

Wzór:

Wariancja

SD2 – w próbie

σ2 – w populacji

Miara rozproszenia wyników wokół średniej.

Wzory:

Odchylenie standardowe

SD – w próbie

σ – w populacji
Mówi o tym, jak szeroko wartości jakiejś wielkości są rozproszone wokół jej średniej. Im
większa wartość odchylenia tym obserwacje są bardziej rozproszone wokół średniej.

Wzór:

Standaryzacja

Wynik Z (wynik standaryzowany) określa odległość poszczególnego wyniku od średniej w


jednostkach odchylenia standardowego

Wzór:

Skośność

Miara symetrii rozkładu, jej wartość w przypadku rozkładu normalnego jest równa 0.

Rozkład prawoskośny – częstość wyników niskich jest większa niż wyników wysokich.

Rozkład lewoskośny – częstość wyników wysokich jest większa niż wyników niskich.

Test Shapiro-Wilka

x<100; jeżeli p<0,05 to rozkład odbiega od normalnego.

Test Kołomogorowa-Smirnowa

x>100; jeżeli p<0,05 to rozkład odbiega od normalnego.

Kurtoza

Miara skupienia wyników wokół wartości centralnej, jej wartość w przypadku rozkładu
normalnego jest równa 0.
Rozkład leptokurtyczny – znaczny stopień koncentracji wyników wokół średniej wartości
centralnej.

Rozkład platokurtyczny – duże rozproszenie wyników wokół wartości centralnej.

Jeżeli wynik x>2 lub x<-2 to rozkład odbiega od noramlego

PODSTAWY PRAWDOPODOBIEŃSTWA I WNIOSKOWANIA


STATYSTYCZNEGO
Populacja a próba

Na podstawie próby możemy wnioskować o cesze populacji wtedy i tylko wtedy, gdy dobór
próby jest losowy (wybór każdej próby jest równie prawdopodobny) i gdy próba jest
wystarczająco duża. Mimo tego, zawsze istnieje prawdopodobieństwo, że się mylimy.

Centralne twierdzenie graniczne

Średnie z prób losowych skupiają się wokół średniej w populacji tworząc krzywą dzwonową.
Skoro nie mamy wielu średnich z populacji, ale tylko jedną próbę, to na jej podstawie
musimy odtworzyć średnią dla populacji.

Założenia dla rozkładu normalnego (wynikające z CTG)

-Rozkłady średnich z prób mają kształt normalny i wartość środkową równą średniej w
populacji;

-SD w próbach jest węższe niż SD w populacji (SD w próbie = gdy próby są losowe i
odpowiednio liczebne;
-CTG jest prawdziwe, gdy próby są losowe, pochodzą z tej samej populacji oraz są
odpowiednio liczebne.
-rozkład normalny jest symetryczny, jednomodalny, skośność=0 i eksces=0.

Reguła 3 sigm

99,7% rozkładu normalnego znajduje się wokół trzech odchyleń standardowych od średniej
w obie strony.

Poszukiwanie średniej w populacji na podstawie średniej w próbie

Obliczając przedziały ufności dla próby robimy coś więcej niż w przypadku populacji.
Dzielimy SD przez pierwiastek z N otrzymując błąd standardowy.

Przedziały ufności w próbie są węższe niż przedziały ufności w populacji (zgodne z CTG).

Jeśli korzystamy z mniejszych przedziałów ufności, to są one bardziej precyzyjne (węższe),


ale mamy mniejszą pewność, że mamy rację.

Przedziały ufności

W przedziale między -2 a 2 SD znajduje się ok. 95% obserwacji.

95% (19/20) przedziałów ufności zawierałoby wynik prawdziwy dla średniej w populacji
gdyby badanie wykonać nieskończenie wiele razy – nigdy nie mamy pewności, czy
wylosowana przez nas próbka zawiera prawdziwą średnią w populacji, ale jest na to duże
prawdopodobieństwo.

Podsumowując

Na podstawie szacunkowego rozkładu z próby nie możemy odczytać średniej dla populacji,
ale możemy ją z dużym prawdopodobieństwem określić budując przedziały ufności.

Dla innej próby prawdopodobnie otrzymamy inny przedział ufności.


Na podstawie jednej próby, po obliczeniu średniej, SD i wyznaczeniu przedziałów ufności,
możemy z pewnym prawdopodobieństwem określić parametry populacji.

Rozszerzenie poziomu ufności wiąże się ze zwiększeniem przedziału ufności.

Zwiększenie liczby obserwacji wiąże się z bardziej precyzyjnymi przedziałami ufności.

Testowanie hipotez

95% średnich z prób skupia się na przestrzeni 2SD od prawdziwej średniej z populacji, ale
istnieje 5% szans, że średnia będzie poza 2SD rozkładu. Aby to sprawdzić obliczamy
prawdopodobieństwo testowe (wartość p).

Proces wnioskowania statystycznego

Wnioskowane statystyczne – procedura umożliwiająca wyciąganie wniosków na temat naszej


hipotezy badawczej. Aby sprawdzić, czy jest ona prawdziwa, należy sformułować jej
przeciwieństwo (hipotezę zerową – H0), a następnie poddać je statystycznej weryfikacji.

H0 mówi z reguły o braku różnic lub związku. Zwykle dążymy do podważenia


(sfalsyfikowania) H0 na rzecz hipotezy alternatywnej H1.

(1) Sprawdzamy założenia wybranej techniki statystycznej;

(2) Obliczamy wartości testu według procedury;

(3) Odczytujemy wartości krytyczne dla danej statystyki z tablic statystycznych;

(4) Odnosimy otrzymane wartości testu do ustalonego poziomu istotności;

(5) Sprawdzamy wartość p i porównujemy z ustalonym poziomem istotności (p<0,05 –


prawdopodobieństwo przypadku jest mniejsze niż 5%), które informuje nas o tym, jakie jest
prawdopodobieństwo uzyskania statystyki od danej wielkości (lub większej) przy prawdziwości H0.

Jeżeli p>0,05 to nie ma podstaw do odrzucenia H0.


Jeżeli p<0,05 to przyjmujemy H1.
0,05-0,1 – tendencja do istotności.

Błąd I rodzaju (α)

Odrzucenie prawdziwej H0 i przyjęcie nieprawdziwej H1.

Błąd II rodzaju (β)

Przyjęcie fałszywej H0 i odrzucenie prawdziwej H1.

Im większy błąd II rodzaju, tym mniejsza moc testu (zdolność do wykrycia efektu w przypadku gdy H0
jest fałszywa; służy do oceny zdolności testu do niepopełnienia błędu II rodzaju).
Błąd II rodzaju w teście powinien zostawać na poziomie 20% (omyłkowe orzeczenie stany w 1/5
obserwacji).

TESTY T-STUDENTA
Testy t-Studenta

William Gosset – 1908r.

Wraz ze wzrostem N rozkład t-Studenta przypomina rozkład normalny.

Testy t-Studenta są stosowane do testowania istotności różnic dwóch średnich w


schematach eksperymentalnych i quasi-eksperymentalnych.

Test t-Studenta dla prób niezależnych

Porównywanie średnich w dwóch grupach różnych osób (schemat międzygrupowy).

Założenia:

-zmienna zależna na skali ilościowej;


-zmienna niezależna na skali nominalnej dwuwartościowej;
-równoliczność grup;
-rozkład zmiennej zależnej w podgrupach zbliżony do normalnego - test S-W lub K-S;
-jednorodność wariancji w grupach (podobne zróżnicowanie wyników wokół średniej) – test
Levene’a (p<0,05 -> założenie o homogeniczności nie jest spełnione – wariancje nie są
podobne).

Wzór:

Przykładowe hipotezy:

H0: Nie ma różnic między osobami o niskiej i wysokiej inteligencji w średnim poziomie
rozwiązywania zadań matematycznych.
H1: Są różnice między osobami o niskiej i wysokiej inteligencji w średnim poziomie
rozwiązywania zadań matematycznych.

Zapis wyników:

Test t-Studenta dla prób zależnych

Porównywanie dwóch średnich wśród tych samych osób (powtarzane pomiary).

Założenia:

-zmienna zależna na skali ilościowej;


-rozkład zmiennej zależnej w obu pomiarach zbliżony do rozkładu normalnego

Wzór:

Przykładowe hipotezy:

H0: Nie ma różnic w średnim poziomie inteligencji przed i po treningu poznawczym.


H1: Są różnice w średnim poziomie inteligencji przed i po treningu poznawczym.

Zapis wyników:

Test t-Studenta dla jednej próby

Porównanie średniego wyniku uzyskanego w jednym pomiarze w jednej grupie ze średnią w


populacji lub ustalonym kryterium.

Założenia:

-zmienna zależna na skali ilościowej;


-rozkład zmiennej zależnej zbliżony do rozkładu normalnego.

Wzór:

Przykładowe hipotezy:
H0: Nie ma różnic między średnim poziomem inteligencji w grupie studentów i w populacji.
H1: Są różnice między średnim poziomem inteligencji w grupie studentów i w populacji.

Zapis wyników:

Istotność statystki t

Wartość t wzrasta wraz z:

-większą różnicą średnich wyników;


-mniejszym SD wyników;
-większą liczebnością próby.

Wzrost t przekłada się na szanse znalezienia różnic istotnych statystycznie.

Efekt wielkości: d Cohena

Miara wielkości efektu stosowana w testach różnic dwóch średnich (testy t-Studenta)/

d=x=0,2-0,4 – efekt słaby


d=x=0,5-0,8 – efekt umiarkowany
d=x>0,8 – efekt silny

ANALIZA WARIANCJI
Analiza wariancji

Metoda porządkowania danych zaproponowana przez R.A. Fishera, opisana w formie


twierdzeń matematycznych przez Cramera.

Stosowana do testowania istotności różnic więcej niż dwóch średnich w schematach


eksperymentalnych i quasi-eksperymentalnych.
Jednoczynnikowa analiza wariancji w planie międzygrupowym ANOVA

Porównanie średnich w przynajmniej trzech grupach różnych osób (schemat


międzygrupowy).

Założenia:

-zmienna zależna na skali ilościowej;


-zmienna niezależna (czynnik) na skali nominalnej co najmniej trzywartościowej;
-równoliczność grup;
-rozkład zmiennej zależnej w podgrupach zbliżony do normalnego - test S-W lub K-S;
-założenie o jednorodności wariancji w porównywanych grupach (podobne zróżnicowanie
wokół średniej) – test Levene’a.

Wzór:

Przykładowe hipotezy:

H0: Nie ma różnic między osobami o niskiej, średniej i wysokiej inteligencji w średnim
poziomie rozwiązywania zadań matematycznych.
H1: Są różnice między osobami o niskiej, średniej i wysokiej inteligencji w średnim poziomie
rozwiązywania zadań matematycznych.

Jednoczynnikowa analiza wariancji z powtarzanym pomiarem

Porównanie przynajmniej trzech średnich wśród tych samych osób (powtarzane pomiary).

Założenia:
-zmienna zależna na skali ilościowej;
-rozkład zmiennej zależnej w trzech pomiarach zbliżony do rozkładu normalnego.

Wzór:

Przykładowe hipotezy:

H0: Nie ma różnic w średnim poziomie inteligencji przed treningiem poznawczym, 1h po


treningu poznawczym i 1 tydzień po treningu poznawczym.
H1: Są różnice w średnim poziomie inteligencji przed treningiem poznawczym, 1h po
treningu poznawczym i 1 tydzień po treningu poznawczym.

Wynik testu F

F informuje, że średnie się różnią, ale nie wiemy, które istotnie się różnią i jakiej wielkości
jest między nimi różnica (sposób jej obliczania jest zależny od rodzaju analizy wariancji).

Analiza a posteriori (post hoc)

Eksploracyjna analiza wariancji – porównanie wszystkich możliwych par średnich jeśli nie ma
założeń co do różnic między konkretnymi średnimi).

-gdy wynik testu F jest istotny, dokonujemy porównań post hoc;


-czynnik przynajmniej trzypoziomowy;
-testy post hoc często zakładają poprawkę na wielokrotność porównań (poza testem NIR
czyli najmniejszej istotnej różnicy, którego raczej nie wykorzystujemy);
-testy post hoc są różne – od bardzo liberalnych do bardzo konserwatywnych (różnią się
mocą i prawdopodobieństwem popełnienia błędu)
-test Bonferroniego (polecany)

Analiza a priori (kontrasty)

Konfirmacyjna analiza wariancji – gdy badacz stawia kierunkowe pytania, ma wstępne


założenia, precyzyjne określenie porównań, które nas interesują).

Efekt wielkości: Eta kwadrat


Miara wielkości efektu stosowana w testach różnic więcej niż dwóch średnich.

Interpretacja η2:

x=0-0,003 – brak efektu


x=0,004-0,4 – efekt słaby
x=0,4-0,14 – efekt średni
x>0,14 – efekt silny

Zapis wyników analizy wariancji

Średnie, SD i liczba obserwacji dla grup/pomiarów; wynik testu F oraz poziom istotności
statystycznej; poziom istotności statystycznej dla testu post hoc porównującego pary
średnich.

ANALIZA KORELACJI
Analiza korelacji

Obliczamy korelację, gdy chcemy sprawdzić jaki jest związek (nie przyczyna ani różnice!)
między dwiema zmiennymi. Odpowiada ona na pytanie o istnienie współzmienności
pewnych zjawisk i cech.

Kowariancja

Niewystandaryzowana miara związku między dwiema zmiennymi (gdy zmienimy jednostki


zmieni się też wynik).
Opisuje zmianę wartości jednej zmiennej wraz ze zmianą drugiej zmiennej, ale wyników nie
można porównywać.
Znamy kierunek zależności, ale nie znamy jej siły.

Korelacja
Wystandaryzowana miara związku między dwiema zmiennymi (niezależna od jednostek).
Opisuje zmianę wartości jednej zmiennej wraz ze zmianą drugiej zmiennej, wyniki można
porównywać.
Znamy kierunek i siłę zależności.

Miary związku a rodzaj zmiennej

Współczynnik r Pearsona – zmienne ilościowe (od -1 do 1)


Współczynnik tau-b Kendalla i Rho Spearmana – zmienne porządkowe (od -1 do 1)
Phi – zmienne nominalne dwuwartościowe (od -1 do 1)
V Cramera – zmienne nominalne więcej niż dwuwartościowe (od 0 do 1)
Eta – zmienna ilościowa i nominalna (od 0 do 1)

Korelacja r Pearsona

Im bliżej 0 tym słabsza korelacja; im bliżej -1 lub 1 tym korelacja jest silniejsza.

Interpretacja współczynnika r Pearsona:

0-0,30 – brak/słaba korelacja


0,31-0,5 – umiarkowana korelacja
0,51-0,70 – silna korelacja
0,71-1 – bardzo silna korelacja

Założenia:

-zmienne na skali ilościowej;


-rozkład zmiennych zbliżony do rozkładu normalnego;
-liniowa zależność między zmiennymi;
-min. 30 obserwacji.

Kierunek związku:

Korelacja dodatnia – wraz ze wzrostem wartości jednej zmiennej wzrasta wartość drugiej
zmiennej.
Korelacja ujemna – wraz ze wzrostem wartości jednej zmiennej spada wartość drugiej
zmiennej.
Brak związku – wraz ze wzrostem wartości jednej zmiennej nie wzrasta ani nie spada
wartość drugiej zmiennej.

Przykład macierzy korelacji:

Przykłady wykresów:

Zapis testu korelacji r Pearsona

1. r=0,63; p < 0,001


2. r=0,04; p = n.i.
3. r=0,11; p = n.i.

REGRESJA LINIOWA

Analiza regresji to rozszerzenie analizy korelacji.


Pozwala odpowiedzieć na pytanie, w jakim stopniu zmieni się wartość zmiennej zależnej gdy
wartość zmiennej niezależnej (predyktora) zmieni się o jedną jednostkę.
Pozwala odpowiedzieć na pytanie, czy na podstawie zmiennej X możemy oszacować
wartość zmiennej Y.

Jednozmiennowa analiza regresji

Stosowana, gdy szacujemy wartość jednej zmiennej na podstawie jednego predyktora.

Założenia:

-zmienna zależna na skali ilościowej;


-predyktory na skali ilościowej lub jakościowej dwuwartościowej;
-model jest liniowy (wykres rozrzutu);
-przynajmniej 30 obserwacji.

Kroki postępowania:
Metoda najmniejszych kwadratów

Metoda polegająca na takim wyznaczeniu linii prostej (modelu liniowego) przez pary
wyników, aby linia ta była jak najlepiej dopasowana do danych (aby suma kwadratów błędów
była jak najmniejsza dla wszystkich obserwacji).
Gdyby zmienić punkt przecięcia linii regresji z osią Y lub kąt nachylenia linii regresji, to model
byłby gorszy – popełnialibyśmy większy błąd oszacowania wyznaczając wartość ZZ na
podstawie wartości ZN.
Metoda najmniejszych kwadratów nie jest odporna na wartości odstające w zbiorze danych.
Oszacowanie parametrów linii

Parametry niestandaryzowane: współczynniki nachylenia i stała

Y=B0+B1×x

Y – przewidywany wynik dla ZZ


B0 – stała (wyznacza punkt przecięcia OY przez linię regresji)
B1 – parametr kierunkowy (współczynnik nachylenia, określa stopień nachylenia względem
OX)
x – wynik uzyskany dla predyktora
Parametry standaryzowane: współczynnik beta

β – pozwala na interpretację zależności w kategoriach siły i kierunku podobnie jak r Pearsona; na jej
podstawie można porównywać modele.
beta=0,60; p<0,001

Określenie dobroci dopasowania modelu

Ile procent wariancji ZZ wyjaśnia cały model -> możliwość porównywania modeli między sobą.

R2x 100% - ile procent wariancji (zmienności) ZZ udaje się wyjaśnić za pomocą
predyktora/predyktorów

R2=36% - 36% wyjaśnionej wariancji (zróżnicowania) wartości ZZ (wyniku z matury w %)

Założenia analizy regresji jednozmiennowej:

-ZZ na skali ilościowej


-predyktory na skali ilościowej lub jakościowej dwuwartościowej
-model liniowy (wykres rozrzutu)
-przynajmniej 30 obserwacji

Zapis raportu

Wielozmiennowa analiza regresji

Stosowana gdy szacujemy wartość zmiennej zależnej na podstawie więcej niż jednego predyktora.

You might also like