Professional Documents
Culture Documents
Statystyka Wykład
Statystyka Wykład
Cele statystyki:
-eksplorację danych;
-wykrycie przypadków odstających i wpływowych;
-wykrycie błędów;
-sprawdzenie założeń testów statystycznych;
-podjęcie decyzji dotyczących wyboru testu.
Średnia
Suma wszystkich wartości zmiennej podzielona przez ich liczbę (N), jest mało odporna na
odchylenie
Wzór:
Modalna
Mediana
Określa wartość dzielącą uporządkowany zbiór na pół. Liczona dla wszystkich skal, poza
nominalną.
Kwantyle
Mediana – na 2 części
Tercentyle – na 3 części
Kwartyle – na 4 części
Kwintyle – na 5 części
Decyle – na 10 części
Percentyle – na 100 części
Wykres skrzynkowy
MIARY ROZPROSZENIA
Rozstęp
Wzór:
Wariancja
SD2 – w próbie
σ2 – w populacji
Wzory:
Odchylenie standardowe
SD – w próbie
σ – w populacji
Mówi o tym, jak szeroko wartości jakiejś wielkości są rozproszone wokół jej średniej. Im
większa wartość odchylenia tym obserwacje są bardziej rozproszone wokół średniej.
Wzór:
Standaryzacja
Wzór:
Skośność
Miara symetrii rozkładu, jej wartość w przypadku rozkładu normalnego jest równa 0.
Rozkład prawoskośny – częstość wyników niskich jest większa niż wyników wysokich.
Rozkład lewoskośny – częstość wyników wysokich jest większa niż wyników niskich.
Test Shapiro-Wilka
Test Kołomogorowa-Smirnowa
Kurtoza
Miara skupienia wyników wokół wartości centralnej, jej wartość w przypadku rozkładu
normalnego jest równa 0.
Rozkład leptokurtyczny – znaczny stopień koncentracji wyników wokół średniej wartości
centralnej.
Na podstawie próby możemy wnioskować o cesze populacji wtedy i tylko wtedy, gdy dobór
próby jest losowy (wybór każdej próby jest równie prawdopodobny) i gdy próba jest
wystarczająco duża. Mimo tego, zawsze istnieje prawdopodobieństwo, że się mylimy.
Średnie z prób losowych skupiają się wokół średniej w populacji tworząc krzywą dzwonową.
Skoro nie mamy wielu średnich z populacji, ale tylko jedną próbę, to na jej podstawie
musimy odtworzyć średnią dla populacji.
-Rozkłady średnich z prób mają kształt normalny i wartość środkową równą średniej w
populacji;
-SD w próbach jest węższe niż SD w populacji (SD w próbie = gdy próby są losowe i
odpowiednio liczebne;
-CTG jest prawdziwe, gdy próby są losowe, pochodzą z tej samej populacji oraz są
odpowiednio liczebne.
-rozkład normalny jest symetryczny, jednomodalny, skośność=0 i eksces=0.
Reguła 3 sigm
99,7% rozkładu normalnego znajduje się wokół trzech odchyleń standardowych od średniej
w obie strony.
Obliczając przedziały ufności dla próby robimy coś więcej niż w przypadku populacji.
Dzielimy SD przez pierwiastek z N otrzymując błąd standardowy.
Przedziały ufności w próbie są węższe niż przedziały ufności w populacji (zgodne z CTG).
Przedziały ufności
95% (19/20) przedziałów ufności zawierałoby wynik prawdziwy dla średniej w populacji
gdyby badanie wykonać nieskończenie wiele razy – nigdy nie mamy pewności, czy
wylosowana przez nas próbka zawiera prawdziwą średnią w populacji, ale jest na to duże
prawdopodobieństwo.
Podsumowując
Na podstawie szacunkowego rozkładu z próby nie możemy odczytać średniej dla populacji,
ale możemy ją z dużym prawdopodobieństwem określić budując przedziały ufności.
Testowanie hipotez
95% średnich z prób skupia się na przestrzeni 2SD od prawdziwej średniej z populacji, ale
istnieje 5% szans, że średnia będzie poza 2SD rozkładu. Aby to sprawdzić obliczamy
prawdopodobieństwo testowe (wartość p).
Im większy błąd II rodzaju, tym mniejsza moc testu (zdolność do wykrycia efektu w przypadku gdy H0
jest fałszywa; służy do oceny zdolności testu do niepopełnienia błędu II rodzaju).
Błąd II rodzaju w teście powinien zostawać na poziomie 20% (omyłkowe orzeczenie stany w 1/5
obserwacji).
TESTY T-STUDENTA
Testy t-Studenta
Założenia:
Wzór:
Przykładowe hipotezy:
H0: Nie ma różnic między osobami o niskiej i wysokiej inteligencji w średnim poziomie
rozwiązywania zadań matematycznych.
H1: Są różnice między osobami o niskiej i wysokiej inteligencji w średnim poziomie
rozwiązywania zadań matematycznych.
Zapis wyników:
Założenia:
Wzór:
Przykładowe hipotezy:
Zapis wyników:
Założenia:
Wzór:
Przykładowe hipotezy:
H0: Nie ma różnic między średnim poziomem inteligencji w grupie studentów i w populacji.
H1: Są różnice między średnim poziomem inteligencji w grupie studentów i w populacji.
Zapis wyników:
Istotność statystki t
Miara wielkości efektu stosowana w testach różnic dwóch średnich (testy t-Studenta)/
ANALIZA WARIANCJI
Analiza wariancji
Założenia:
Wzór:
Przykładowe hipotezy:
H0: Nie ma różnic między osobami o niskiej, średniej i wysokiej inteligencji w średnim
poziomie rozwiązywania zadań matematycznych.
H1: Są różnice między osobami o niskiej, średniej i wysokiej inteligencji w średnim poziomie
rozwiązywania zadań matematycznych.
Porównanie przynajmniej trzech średnich wśród tych samych osób (powtarzane pomiary).
Założenia:
-zmienna zależna na skali ilościowej;
-rozkład zmiennej zależnej w trzech pomiarach zbliżony do rozkładu normalnego.
Wzór:
Przykładowe hipotezy:
Wynik testu F
F informuje, że średnie się różnią, ale nie wiemy, które istotnie się różnią i jakiej wielkości
jest między nimi różnica (sposób jej obliczania jest zależny od rodzaju analizy wariancji).
Eksploracyjna analiza wariancji – porównanie wszystkich możliwych par średnich jeśli nie ma
założeń co do różnic między konkretnymi średnimi).
Interpretacja η2:
Średnie, SD i liczba obserwacji dla grup/pomiarów; wynik testu F oraz poziom istotności
statystycznej; poziom istotności statystycznej dla testu post hoc porównującego pary
średnich.
ANALIZA KORELACJI
Analiza korelacji
Obliczamy korelację, gdy chcemy sprawdzić jaki jest związek (nie przyczyna ani różnice!)
między dwiema zmiennymi. Odpowiada ona na pytanie o istnienie współzmienności
pewnych zjawisk i cech.
Kowariancja
Korelacja
Wystandaryzowana miara związku między dwiema zmiennymi (niezależna od jednostek).
Opisuje zmianę wartości jednej zmiennej wraz ze zmianą drugiej zmiennej, wyniki można
porównywać.
Znamy kierunek i siłę zależności.
Korelacja r Pearsona
Im bliżej 0 tym słabsza korelacja; im bliżej -1 lub 1 tym korelacja jest silniejsza.
Założenia:
Kierunek związku:
Korelacja dodatnia – wraz ze wzrostem wartości jednej zmiennej wzrasta wartość drugiej
zmiennej.
Korelacja ujemna – wraz ze wzrostem wartości jednej zmiennej spada wartość drugiej
zmiennej.
Brak związku – wraz ze wzrostem wartości jednej zmiennej nie wzrasta ani nie spada
wartość drugiej zmiennej.
Przykłady wykresów:
REGRESJA LINIOWA
Założenia:
Kroki postępowania:
Metoda najmniejszych kwadratów
Metoda polegająca na takim wyznaczeniu linii prostej (modelu liniowego) przez pary
wyników, aby linia ta była jak najlepiej dopasowana do danych (aby suma kwadratów błędów
była jak najmniejsza dla wszystkich obserwacji).
Gdyby zmienić punkt przecięcia linii regresji z osią Y lub kąt nachylenia linii regresji, to model
byłby gorszy – popełnialibyśmy większy błąd oszacowania wyznaczając wartość ZZ na
podstawie wartości ZN.
Metoda najmniejszych kwadratów nie jest odporna na wartości odstające w zbiorze danych.
Oszacowanie parametrów linii
Y=B0+B1×x
β – pozwala na interpretację zależności w kategoriach siły i kierunku podobnie jak r Pearsona; na jej
podstawie można porównywać modele.
beta=0,60; p<0,001
Ile procent wariancji ZZ wyjaśnia cały model -> możliwość porównywania modeli między sobą.
R2x 100% - ile procent wariancji (zmienności) ZZ udaje się wyjaśnić za pomocą
predyktora/predyktorów
Zapis raportu
Stosowana gdy szacujemy wartość zmiennej zależnej na podstawie więcej niż jednego predyktora.