Professional Documents
Culture Documents
Metody Statystyczne (Kolokwium)
Metody Statystyczne (Kolokwium)
Metody Statystyczne (Kolokwium)
Do czego służy?
Przewidywanie wartości zmiennej objaśnianej (zależnej) na podstawie predyktorów
(predykcja = przewidywanie) – zmiennych objaśniających (niezależnych). Nie ma tu
przyczynowości, tylko zależność liniowa między zbiorem zmiennych objaśniających a zmienną
objaśnianą.
Zmienna objaśniania i zmienne objaśniające mają zazwyczaj charakter ciągły (ilościowy).
Model jednozmiennowy [regresja prosta]: jeden predyktor
Model wielozmiennowy [regresja wielokrotna, wieloraka]: dwa lub więcej predyktorów
Co klikać?
Analiza → Regresja… → Liniowa → Przerzucić zmienną zależną i zmienne niezależne →
Wybrać metodę → Statystyki: Korelacje semicząstkowe i cząstkowe + Test współliniowości →
Opcje: Usunięcie 0,051
Metody krokowe:
Metoda eliminacji wstecznej
Zmienne nieistotnie statystycznie są usuwane pojedynczo, zaczynając od najmniej istotnej,
gdzie usunięte zmienne nie wrócą już do modelu, nawet gdyby uzyskały istotność na
kolejnym etapie tworzenia modelu.
Przykład raportu: Wykonano model regresji liniowej za pomocą metody eliminacji wstecznej.
Model powstawał w 4 krokach, gdzie w pierwszym kroku zostały wprowadzone zmienne X,Y,Z,
a w następnych krokach zostały usunięte w kolejności zmienna X i zmienna Y.
Metoda selekcji postępującej
Zmienne wprowadzane są pojedynczo do modelu, zaczynając od najsilniej związanej ze
zmienną objaśnianą. Raz wprowadzona zmienna nie może opuścić modelu, nawet gdyby
utraciła istotność na kolejnym etapie tworzenia modelu.
Przykład raportu: Wykonano model regresji liniowej za pomocą metody selekcji postępującej.
Model powstawał w 2 krokach, gdzie do modelu zostały wprowadzone zmienne X i Y.
Metoda pełna krokowa
Na każdym etapie powstawania modelu finalnego jest analizowany model dotychczasowy,
gdzie zmienne tracące istotność są usuwane, a zyskujące istotność wprowadzane.
Przykład raportu: Wykonano model regresji liniowej za pomocą metody pełnej krokowej.
Model powstawał w 2 krokach, gdzie do modelu zostały wprowadzone zmienne X, Y, a
zmienna Z została z niego usunięta.
Kroki:
1. ANOVA
Czy zmienne objaśniające istotnie przewidują wartość zmiennej objaśnianej?
H0: 1=0 (zmienna objaśniana nie jest w istotny sposób związana ze zmienną objaśniającą)
H1: 10 (zmienna objaśniana jest w istotny sposób związana ze zmienną objaśniającą)
Hipotezy sprawdzamy dla każdej zmiennej osobno, czyi np. p_x i p_y.
Dla zmiennych istotnych statystycznie odczytujemy z tabeli ile wynosi B (O ILE
WZRASTA/SPADA):
Przykład raportu: Siła zależności między zmienną zyczliwo (=-0,577) a GHQ_suma jest
większa, niż między zmienną subiekt (=0,163) a zmienną GHQ_suma.
Czy jest podejrzenie wystąpienia współliniowości między zmiennymi objaśniającymi?
(Współczynnik VIF).
VIF>10 wskazuje na występowanie współliniowości, model nie jest rzetelny, bo zmienne zbyt
się na siebie nakładają i nie możemy dokładnie określić ich wpływu na zmienną objaśnianą.
Przykład raportu: Współczynnik współliniowości VIF nie przekracza wartości 10 (VIF=1,109),
więc nie podejrzewa się współliniowości między subiekt i zyczliwo.
Czy między zmiennymi objaśniającymi występuje interakcja? (Korelacje rzędu zerowego i
cząstkowe)
Wyniki odczytujemy w kolumnie, nie w wierszu – patrzymy na korelacje w tej samej
zmiennej. Gdy różnica wynosi 0,2 lub więcej, to podejrzewamy, że interakcja jest istotna.
Subiekt: Zyczliwo:
Korelacje rzędu zerowego=0,538 Korelacje rzędu zerowego=-0,350
Korelacje cząstkowe=0,482 Korelacje cząstkowe=-0,227
Przykład raportu: Korelacje rzędu zerowego i korelacje cząstkowe w obu zmiennych nie
odbiegają od siebie znacząco, więc nie podejrzewa się występowania między nimi interakcji.
Regresja logistyczna:
Do czego służy?
Badanie zależności między zmiennymi objaśniającymi (czynniki ryzyka), a
prawdopodobieństwem wystąpienia badanego zdarzenia (co ma wpływ na wystąpienie
prawdopodobieństwa?). Oceniamy względne ryzyko, co zwiększa, a co je zmniejsza, np. czy
grupa zawodowa ma wpływ na rozwijanie się chorób układu krążenia?
Zmiennie objaśniające (czynniki ryzyka) mają charakter ciągły lub dyskretny.
Zmienna wynikowa ma charakter dyskretny, dwustanowy (binarny), gdzie 0 – zdarzenie nie
występuje i 1 – zdarzenie występuje.
Co klikać?
Analiza → Regresja → Logistyczna… → Jakościowe…: Ustalamy zmienne dyskretne
(jakościowe) → Opcje: Dobroć dopasowania Hosmera i Lemeshowa
H0: 1=2=…=k=0 (współczynniki regresji nie różnią się od 0 i model nie jest dopasowany)
H1: H0 (przynajmniej jeden współczynnik regresji różni się od 0 i model jest dopasowany)
Przykład raportu: Model jest dopasowany do danych empirycznych od strony statystycznej
(p<0,001).
2. Tabela klasyfikacji
Model nadaje się do celów klasyfikacji, gdy poprawnie zaklasyfikuje 95% chorych i 90%
zdrowych.
H1: H0
Przykład raportu: Istotnymi czynnikami ryzyka dla wystąpienia choroby układu krążenia są
wiek, płeć, GHQ_suma.
Hipotezy testujemy osobno dla każdej zmiennej, czyli np. p_x, p_y i p _z
Jeśli tak, to czy to prawdopodobieństwo maleje wraz ze wzrostem czynnika, czy wzrasta?
(zmienne ciągłe) Czy wystąpienie zdarzenia w badanej grupie jest mniejsze czy większe w
grupie odniesienia? (zmienne dyskretne) [Exp(B)]
OR = 1
Dwuczynnikowa ANOVA:
Do czego służy?
Jest jedna zmienna zależna z dwoma zmiennymi niezależnymi (czynnikami). Badamy
jednocześnie wpływ obu tych czynników na zmienną zależną.
Nie ma nieparametrycznej wersji dwuczynnikowej ANOVY.
Co klikać?
Analiza → Ogólny model liniowy → Jednej zmiennej → Zmienna zależna + czynniki stałe →
Wykresy: 1 czynnik na oś poziomą, 2 czynnik na oddzielne linie + Dodaj + Wykres słupkowy
→ Opcje: Statystyki opisowe + Oceny wielkości efektu + Testowanie jednorodności → Średnie
EM: Pokaż średnie dla: obydwa czynniki oraz interakcję + Porównaj efekty główne + Porównaj
proste efekty główne + Korekta przedziału ufności Bonferroniego
Efekty
Kroki:
1. Normalność rozkładu badanej cechy w grupach wyznaczonych przez
kategorię czynników
Na potrzeby badania pomijamy ocenę normalności rozkładu badanej cechy w grupach
wyznaczonych przez kategorie czynników.
2. Jednorodność wariancji błędu w grupach wyznaczonych przez kategorię
czynników
Test Levene’a bazując na średniej.
H0: wariancje są jednakowe w porównywanych grupach
H1: wariancja różni się w przynajmniej jednej porównywanej grupie
Tu zależy nam na przyjęciu H0.
Przykład raportu: Wariancje zmiennej zależnej są jednakowe w porównywanych grupach
(p=0,547; p>=0,05). Założenie o jednorodności wariancji zostało spełnione, zatem można
przejść do analizy efektów.
3. Test efektów międzyobiektowych
EFEKT GŁÓWNY 1-SZEGO CZYNNIKA
H1: H0 → gdy przyjmujemy H1, to Tabela Porównania parami (testy post hoc) + Tabela
Oszacowania (ocena średnich z próby dla istotnych porównań)
F(df dla czynnika; df dla błędu)=F; p=…
Eta2=…
Przykład raportu: Efekt główny pierwszego czynnika jest istotny statystycznie (p<0,001), więc
wartość oczekiwana zmiennej zależnej różni się w przynajmniej jednej z populacji. Występuje
średnia wielkość efektu (Eta2=0,06). Kobiety pracujące w straży pożarnej (p=0,768) i policji
(p=0,123) nie różnią się od siebie istotnie poziomem zmiennej zależnej. Kobiety pracujące w
służbie więziennej różnią się od pozostałych grup istotnie (p=0,002). Średni poziom zmiennej
zależnej dla strażaczek (M=78,234) był istotnie wyższy od średniego poziomi tej zmiennej dla
policjantek (M=43,545) oraz pracowniczek służby więziennej (M=56,345).
EFEKT GŁÓWNY 2-GIEGO CZYNNIKA
Jak w efekcie głównym 1-szego czynnika, ale w hipotezach jest i też zwracamy uwagę na to
ile kategorii ma czynnik.
EFEKT INTERAKCYJNY
Znowu piszesz to samo, co wyżej.
H0: 11=12=13 (np. mężczyźni w różnych grupach) LUB 21=22=23 (i kobiety w różnych
grupach) → potem jeszcze według np. grupy zawodowej porównujemy, czyli kobiety i
mężczyźni w policji, straży pożarnej itd. są porównywani ze sobą („wojna płci”)
KURWWWWWW ILE TEGO GÓWNA TU TRZEBA NASRAĆ
H1: H0
F(df dla czynnika; df dla błędu)=F; p=…
Eta2=…
Kroki:
1. Normalność rozkładu badanej cechy dla każdego poziomu czynnika
wewnątrzobiektowego
Na potrzeby badania pomijamy ocenę normalności rozkładu zmiennej zależnej dla
poszczególnych poziomów czynnika wewnątrzobiektowego.
2. Założenie sferyczności (Test sferyczności Mauchly’ego)
W naszym przypadku zależy nam bardziej na przyjęciu H0, bo na kolosie nie da
wielozmiennowego.
H0: macierz wariancji-kowariancji jest macierzą sferyczną (sferyczność założona)
H1: H0
Przykład raportu: Macierz wariancji-kowariancji jest macierzą sferyczną (p=0,567), a więc
założenie o sferyczności zostało spełnione.
3. Testy efektów wewnątrzobiektowych
Dolna granica lub Greenhouse-Geisser lub Huynha-Feldta (pilnować, żeby w równaniu dać
wartości z odpowiedniej linijki i nie pomieszać testów)
H1: H0 (przynajmniej jedna wartość oczekiwana różni się od pozostałych) → gdy H1, to
znów te JEBANE PORÓWNANIA PARAMI (JAK POST-HOC) I OSZACOWANIA (PORÓWNANIE
ŚREDNICH) JEZUS MARIA
F(df dla efektu; df dla błędu)=F; p=…
Eta2=…
Przykład raportu: Efekt wewnątrzobiektowy badano testem Greenhouse’a-Geissera.
Przynajmniej jedna z wartości oczekiwanych zmiennej zależnej różni się od pozostałych
(p<0,001). Wielkość efektu jest słaba (Eta2=0,03). Istotne różnice wystąpiły pomiędzy
wszystkimi punktami pomiaru (p=0,02 dla wszystkich porównań). Zmienna zależna różni się
przed szkoleniem, dzień po ukończeniu szkolenia oraz 3 miesiące po ukończeniu szkolenia.
Poczucie kompetencji było najniższe przed szkoleniem (M=2,345). Dzień po ukończeniu
szkolenia pomiar wykazał zwiększenie poziomu zmiennej zależnej (M=3,123), natomiast po 3
miesiącach od ukończenia szkolenia nastąpił nieznaczny spadek poczucia kompetencji
(M=2,987). Szkolenie można jednak uznać za skuteczne, ponieważ wyniki przed jego
rozpoczęciem są dużo niższe niż wyniki po 3 miesiące po odbyciu szkolenia.