Metody Statystyczne (Kolokwium)

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 10

Regresja liniowa:

Do czego służy?
Przewidywanie wartości zmiennej objaśnianej (zależnej) na podstawie predyktorów
(predykcja = przewidywanie) – zmiennych objaśniających (niezależnych). Nie ma tu
przyczynowości, tylko zależność liniowa między zbiorem zmiennych objaśniających a zmienną
objaśnianą.
Zmienna objaśniania i zmienne objaśniające mają zazwyczaj charakter ciągły (ilościowy).
Model jednozmiennowy [regresja prosta]: jeden predyktor
Model wielozmiennowy [regresja wielokrotna, wieloraka]: dwa lub więcej predyktorów

Co klikać?
Analiza → Regresja… → Liniowa → Przerzucić zmienną zależną i zmienne niezależne →
Wybrać metodę → Statystyki: Korelacje semicząstkowe i cząstkowe + Test współliniowości →
Opcje: Usunięcie 0,051

Metody krokowe:
Metoda eliminacji wstecznej
Zmienne nieistotnie statystycznie są usuwane pojedynczo, zaczynając od najmniej istotnej,
gdzie usunięte zmienne nie wrócą już do modelu, nawet gdyby uzyskały istotność na
kolejnym etapie tworzenia modelu.
Przykład raportu: Wykonano model regresji liniowej za pomocą metody eliminacji wstecznej.
Model powstawał w 4 krokach, gdzie w pierwszym kroku zostały wprowadzone zmienne X,Y,Z,
a w następnych krokach zostały usunięte w kolejności zmienna X i zmienna Y.
Metoda selekcji postępującej
Zmienne wprowadzane są pojedynczo do modelu, zaczynając od najsilniej związanej ze
zmienną objaśnianą. Raz wprowadzona zmienna nie może opuścić modelu, nawet gdyby
utraciła istotność na kolejnym etapie tworzenia modelu.
Przykład raportu: Wykonano model regresji liniowej za pomocą metody selekcji postępującej.
Model powstawał w 2 krokach, gdzie do modelu zostały wprowadzone zmienne X i Y.
Metoda pełna krokowa
Na każdym etapie powstawania modelu finalnego jest analizowany model dotychczasowy,
gdzie zmienne tracące istotność są usuwane, a zyskujące istotność wprowadzane.
Przykład raportu: Wykonano model regresji liniowej za pomocą metody pełnej krokowej.
Model powstawał w 2 krokach, gdzie do modelu zostały wprowadzone zmienne X, Y, a
zmienna Z została z niego usunięta.
Kroki:
1. ANOVA
Czy zmienne objaśniające istotnie przewidują wartość zmiennej objaśnianej?

H0: R2=0 (współczynnik determinacji jest równy 0)


H1: R2>0 (współczynnik determinacji różni się od 0)
F(df, dla regresji; df dla reszty)= wartość F; wartość p
Gdy H1 (gdy mamy podstawy do odrzucenia H0 i przyjęcia H1): Predyktor lub co najmniej
jeden z predyktorów istotnie przewiduje wartość zmiennej objaśnianej, więc:

• Model jest dobrze dopasowany do danych empirycznych


• Przynajmniej jedna ze zmiennych objaśniających jest istotna statystycznie
Przykład raportu: Zaproponowany model regresji okazał się dobrze dopasowany do danych
empirycznych F(2;437)=105,966; p<0,001.
2. Model – Podsumowanie
Czy model nadaje się do celów prognozowania?

R2>0,6 (60%) – model można zaakceptować jako przydatny do prognozowania, absolutne


minimum to 0,5 (im bliżej 1, tym większa liczba wariancji jest przez ten model wyjaśniania).
R2=0,327=32,7%
Przykład raportu: Testowany model wyjaśnia jedynie 32,7% zmienności zmiennej zależnej,
więc nie jest od przydatny do celów prognozowania.
3. Współczynniki
Czy predyktory są istotnie powiązane ze zmienną objaśnianą? Jeśli tak, to czy powodują
wzrost czy spadek poziomu zmiennej objaśnianej? (Istotność oraz Współczynnik
niestandaryzowany B)

H0: 1=0 (zmienna objaśniana nie jest w istotny sposób związana ze zmienną objaśniającą)

H1: 10 (zmienna objaśniana jest w istotny sposób związana ze zmienną objaśniającą)
Hipotezy sprawdzamy dla każdej zmiennej osobno, czyi np. p_x i p_y.
Dla zmiennych istotnych statystycznie odczytujemy z tabeli ile wynosi B (O ILE
WZRASTA/SPADA):

• B>0 – wraz ze wzrostem poziomu zmiennej objaśniającej o jednostkę, poziom


zmiennej objaśnianej wzrasta średnio o B jednostek, przy założeniu ustalonych
wartości pozostałych zmiennych objaśniających
• B<0 – wraz ze wzrostem poziomu zmiennej objaśniającej o jednostkę, poziom
zmiennej objaśnianej spada średnio o B jednostek, przy założeniu ustalonych
wartości pozostałych zmiennych objaśniających
ŷ=B0+B1*x1+B2*x2…+Bk*xk [wartość zmiennej objaśnianej=B (Stała) + B (zmienna 1)*x1+ B
(zmienna 2)*x2]
Przykład raportu: Spośród wprowadzonych zmiennych, zmienna subiekt i zyczliwo są istotnie
związane ze zmienną objaśnianą (p<0,001). Gdy zmienna zyczliwo wzrasta o jednostkę, to
zmienna objaśniana spada o 0,202 jednostek, przy założeniu ustalonych wartości pozostałych
zmiennych objaśniających, a gdy zmienna subietk wzrasta o jednostkę, to zmienna
objaśniana wzrasta o 0,163 jednostek.
GHQ_suma=13,390-0,577*zyczliwo+0,163*subiekt
Który predyktor ma największy wpływ na zmienną objaśnianą? (Współczynniki
standaryzowane ).
Tutaj liczy się wartość bezwzględna, nie ma znaczenia czy liczba jest ujemna, czy dodatnia.

Przykład raportu: Siła zależności między zmienną zyczliwo (=-0,577) a GHQ_suma jest
większa, niż między zmienną subiekt (=0,163) a zmienną GHQ_suma.
Czy jest podejrzenie wystąpienia współliniowości między zmiennymi objaśniającymi?
(Współczynnik VIF).
VIF>10 wskazuje na występowanie współliniowości, model nie jest rzetelny, bo zmienne zbyt
się na siebie nakładają i nie możemy dokładnie określić ich wpływu na zmienną objaśnianą.
Przykład raportu: Współczynnik współliniowości VIF nie przekracza wartości 10 (VIF=1,109),
więc nie podejrzewa się współliniowości między subiekt i zyczliwo.
Czy między zmiennymi objaśniającymi występuje interakcja? (Korelacje rzędu zerowego i
cząstkowe)
Wyniki odczytujemy w kolumnie, nie w wierszu – patrzymy na korelacje w tej samej
zmiennej. Gdy różnica wynosi 0,2 lub więcej, to podejrzewamy, że interakcja jest istotna.
Subiekt: Zyczliwo:
Korelacje rzędu zerowego=0,538 Korelacje rzędu zerowego=-0,350
Korelacje cząstkowe=0,482 Korelacje cząstkowe=-0,227
Przykład raportu: Korelacje rzędu zerowego i korelacje cząstkowe w obu zmiennych nie
odbiegają od siebie znacząco, więc nie podejrzewa się występowania między nimi interakcji.

Regresja logistyczna:
Do czego służy?
Badanie zależności między zmiennymi objaśniającymi (czynniki ryzyka), a
prawdopodobieństwem wystąpienia badanego zdarzenia (co ma wpływ na wystąpienie
prawdopodobieństwa?). Oceniamy względne ryzyko, co zwiększa, a co je zmniejsza, np. czy
grupa zawodowa ma wpływ na rozwijanie się chorób układu krążenia?
Zmiennie objaśniające (czynniki ryzyka) mają charakter ciągły lub dyskretny.
Zmienna wynikowa ma charakter dyskretny, dwustanowy (binarny), gdzie 0 – zdarzenie nie
występuje i 1 – zdarzenie występuje.

Co klikać?
Analiza → Regresja → Logistyczna… → Jakościowe…: Ustalamy zmienne dyskretne
(jakościowe) → Opcje: Dobroć dopasowania Hosmera i Lemeshowa

Kontrast i kategorie odniesienia


Patrzymy na tabelę Kodowanie zmiennych jakościowych
Grupa badana: 1,000 lub wartość dodatnia
Grupa odniesienia: 0,000 lub wartość ujemna
Czyli, np.: Prawdopodobieństwo wystąpienia gruźlicy u osób regularnie zażywających
substancje psychoaktywne (badanie) jest wyższe niż u osób nie zażywających takich
substancji lub zażywających je sporadycznie (odniesienie) LUB Prawdopodobieństwo bycia w
ciąży u mężczyzn (badanie) jest mniejsze niż u kobiet (odniesienie).
Kroki:
Blok zerowy jest pomijany, bo nie zostały w nim uwzględnione żadne czynniki ryzyka, a więc
najpierw analizowany jest blok pierwszy:
1. Test zbiorowy współczynników modelu lub Test Hosmera i Lemeshowa
Czy model jest dopasowany do danych empirycznych?
Test Hosmera i Lemeshowa wykorzystywany jest raczej w sytuacji braku zmiennych
jakościowych.

H0: 1=2=…=k=0 (współczynniki regresji nie różnią się od 0 i model nie jest dopasowany)

H1:  H0 (przynajmniej jeden współczynnik regresji różni się od 0 i model jest dopasowany)
Przykład raportu: Model jest dopasowany do danych empirycznych od strony statystycznej
(p<0,001).
2. Tabela klasyfikacji
Model nadaje się do celów klasyfikacji, gdy poprawnie zaklasyfikuje 95% chorych i 90%
zdrowych.

A – osoby zdrowe zaklasyfikowane jako zdrowe


B – osoby zdrowie zaklasyfikowane jako chore
C – osoby chore zaklasyfikowane jako zdrowe
D – osoby chore zaklasyfikowane jako chore
A+B – osoby zdrowe
C+D – osoby chore
Przykład raportu: Spośród 372 osób zdrowych, 280 zostało zaklasyfikowanych jako zdrowe.
Zatem 92,4% zostało zaklasyfikowane poprawnie. Spośród 133 osób chorych, 41 zostało
zaklasyfikowanych jako chore. Zatem 30,8% zostało zaklasyfikowane poprawnie. W związku z
tym model nie nadaje się do celów klasyfikacji.
3. Zmienne w modelu
Jakie znaczenie mają potencjalne czynniki?

Czy jest związek między zmienną objaśnianą a prawdopodobieństwem zdarzenia? (Test


Walda)

H0: OR1=1 (1=0)

H1:  H0
Przykład raportu: Istotnymi czynnikami ryzyka dla wystąpienia choroby układu krążenia są
wiek, płeć, GHQ_suma.
Hipotezy testujemy osobno dla każdej zmiennej, czyli np. p_x, p_y i p _z
Jeśli tak, to czy to prawdopodobieństwo maleje wraz ze wzrostem czynnika, czy wzrasta?
(zmienne ciągłe) Czy wystąpienie zdarzenia w badanej grupie jest mniejsze czy większe w
grupie odniesienia? (zmienne dyskretne) [Exp(B)]
OR = 1

• brak związku między zmienną objaśnianą a prawdopodobieństwem zdarzenia


• prawdopodobieństwo wystąpienia zdarzenia jest takie samo w obu grupach
OR < 1

• prawdopodobieństwo zdarzenia maleje wraz ze wzrostem czynnika ryzyka


• prawdopodobieństwo wystąpienia zdarzenia jest mniejsze w badanej grupie
OR > 1

• prawdopodobieństwo wzrasta wraz ze wzrostem czynnika ryzyka


• prawdopodobieństwo wystąpienia zdarzenia jest większe w badanej grupie
Tu przyda się tabela Kodowanie zmiennych jakościowych, gdzie widać, która grupa jest grupą
badaną lub grupą odniesienia.
Przykład raportu: Prawdopodobieństwo pojawienia się choroby układu krążenia u kobiet jest
prawie trzykrotnie większe niż u mężczyzn (OR=2,766). Wraz ze wzrostem wieku (OR=1,091),
GHQ_suma (OR=1,035) i poziomu napięcia (OR=0,989), prawdopodobieństwo wystąpienia
choroby układu krążenia wzrasta.

Dwuczynnikowa ANOVA:
Do czego służy?
Jest jedna zmienna zależna z dwoma zmiennymi niezależnymi (czynnikami). Badamy
jednocześnie wpływ obu tych czynników na zmienną zależną.
Nie ma nieparametrycznej wersji dwuczynnikowej ANOVY.

 (mi) - wartość oczekiwana (parametr zawarty w hipotezach)


M - średnia z próby (estymator)

Co klikać?
Analiza → Ogólny model liniowy → Jednej zmiennej → Zmienna zależna + czynniki stałe →
Wykresy: 1 czynnik na oś poziomą, 2 czynnik na oddzielne linie + Dodaj + Wykres słupkowy
→ Opcje: Statystyki opisowe + Oceny wielkości efektu + Testowanie jednorodności → Średnie
EM: Pokaż średnie dla: obydwa czynniki oraz interakcję + Porównaj efekty główne + Porównaj
proste efekty główne + Korekta przedziału ufności Bonferroniego

Efekty

Efekt główny (1, 2 i 1, 2, 3))


Różnice między wartościami oczekiwanymi badanej zmiennej w grupach wyznaczonych przez
kategorie pierwszego czynnika niezależnie od wpływu drugiego czynnika.
Efekt główny płci: Mężczyźni i kobiety różnią się istotnie pod względem nasilenia samooceny.
Efekt główny wykształcenia: Osoby z wykształceniem podstawowym i średnim różnią się
istotnie pod względem samooceny. (tak porównuje się każdy z każdym poziomem
wykształcenia)
Efekt interakcyjny ()
Łączny, nierozkładalny na sumę efektów poszczególnych czynników, wpływ obu czynników
na zmienną zależną.
Gdy występuje interakcja, to czynnik różnicuje poziom zjawiska odmiennie w zależności od
poziomu drugiego czynnika – gdy nie występuje to zamyka nam raport.
Poziom samooceny u kobiet jest wyższy niż u mężczyzn w grupie z wykształceniem średnim, a
w grupie z wykształceniem wyższym jest na odwrót (bardzo subtelne zależności).
Efekt prosty
Efekt jednego czynnika na różnych poziomach drugiego czynnika, porównywanie wartości
oczekiwanych zmiennej zależnej odpowiadających wartościom jednego czynnika przy
ustalonej wartości drugiego czynnika.

Kroki:
1. Normalność rozkładu badanej cechy w grupach wyznaczonych przez
kategorię czynników
Na potrzeby badania pomijamy ocenę normalności rozkładu badanej cechy w grupach
wyznaczonych przez kategorie czynników.
2. Jednorodność wariancji błędu w grupach wyznaczonych przez kategorię
czynników
Test Levene’a bazując na średniej.
H0: wariancje są jednakowe w porównywanych grupach
H1: wariancja różni się w przynajmniej jednej porównywanej grupie
Tu zależy nam na przyjęciu H0.
Przykład raportu: Wariancje zmiennej zależnej są jednakowe w porównywanych grupach
(p=0,547; p>=0,05). Założenie o jednorodności wariancji zostało spełnione, zatem można
przejść do analizy efektów.
3. Test efektów międzyobiektowych
EFEKT GŁÓWNY 1-SZEGO CZYNNIKA

H0: 1=2=3 (tyle ile jest kategorii czynnika)

H1:  H0 → gdy przyjmujemy H1, to Tabela Porównania parami (testy post hoc) + Tabela
Oszacowania (ocena średnich z próby dla istotnych porównań)
F(df dla czynnika; df dla błędu)=F; p=…
Eta2=…
Przykład raportu: Efekt główny pierwszego czynnika jest istotny statystycznie (p<0,001), więc
wartość oczekiwana zmiennej zależnej różni się w przynajmniej jednej z populacji. Występuje
średnia wielkość efektu (Eta2=0,06). Kobiety pracujące w straży pożarnej (p=0,768) i policji
(p=0,123) nie różnią się od siebie istotnie poziomem zmiennej zależnej. Kobiety pracujące w
służbie więziennej różnią się od pozostałych grup istotnie (p=0,002). Średni poziom zmiennej
zależnej dla strażaczek (M=78,234) był istotnie wyższy od średniego poziomi tej zmiennej dla
policjantek (M=43,545) oraz pracowniczek służby więziennej (M=56,345).
EFEKT GŁÓWNY 2-GIEGO CZYNNIKA

Jak w efekcie głównym 1-szego czynnika, ale w hipotezach jest  i też zwracamy uwagę na to
ile kategorii ma czynnik.
EFEKT INTERAKCYJNY
Znowu piszesz to samo, co wyżej.

H0: 11=12=13 (np. mężczyźni w różnych grupach) LUB 21=22=23 (i kobiety w różnych
grupach) → potem jeszcze według np. grupy zawodowej porównujemy, czyli kobiety i
mężczyźni w policji, straży pożarnej itd. są porównywani ze sobą („wojna płci”)
KURWWWWWW ILE TEGO GÓWNA TU TRZEBA NASRAĆ

H1:  H0
F(df dla czynnika; df dla błędu)=F; p=…
Eta2=…

ANOVA z powtarzanym pomiarem dla prób zależnych:


Do czego służy?
Najczęściej wykorzystuje się podejście jednozmiennowe.
Próby zależne – pomiary dokonywane są na jednej, tej samej grupie osób, gdzie zakładamy,
że zmienna zależna różni się poziomem
Czynnik wewnątrzobiektowy – mamy kilka punktów pomiaru zmiennej zależnej (2 lub
więcej), np. schemat eksperymentalny i cykl szkoleń wzmacniających poczucie kompetencji, a
więc mierzymy: przed szkoleniem, bezpośrednio po szkoleniu, kilka tygodni/miesięcy po
szkoleniu (czy zmiany są utrwalone?).
Poziomy czynnika to powtarzanie obserwacji na tych samych elementach badania.
Co klikać?
Analiza → Ogólny model liniowy → Powtarzane pomiary → Nazwa czynnika
wewnątrzobiektowego + Liczba jego poziomów + Dodaj → Definiuj (pilnować kolejności
czasowej): Zmienne wewnątrzobiektowe przenosimy → Wykresy: czynnik na oś poziomą +
Dodaj → Średnie EM: Pokaż średnie dla + przenieś czynnik + porównaj efekty główne,
porównaj proste efekty główne + korekta przedziału ufności Bonferroniego → Opcje:
statystyki opisowe, oceny wielkości efektu

Kroki:
1. Normalność rozkładu badanej cechy dla każdego poziomu czynnika
wewnątrzobiektowego
Na potrzeby badania pomijamy ocenę normalności rozkładu zmiennej zależnej dla
poszczególnych poziomów czynnika wewnątrzobiektowego.
2. Założenie sferyczności (Test sferyczności Mauchly’ego)
W naszym przypadku zależy nam bardziej na przyjęciu H0, bo na kolosie nie da
wielozmiennowego.
H0: macierz wariancji-kowariancji jest macierzą sferyczną (sferyczność założona)

H1:  H0
Przykład raportu: Macierz wariancji-kowariancji jest macierzą sferyczną (p=0,567), a więc
założenie o sferyczności zostało spełnione.
3. Testy efektów wewnątrzobiektowych
Dolna granica lub Greenhouse-Geisser lub Huynha-Feldta (pilnować, żeby w równaniu dać
wartości z odpowiedniej linijki i nie pomieszać testów)

H0: 1=2=3 (ile czynników wewnątrzobiektowych, tyle tego gówna)

H1:  H0 (przynajmniej jedna wartość oczekiwana różni się od pozostałych) → gdy H1, to
znów te JEBANE PORÓWNANIA PARAMI (JAK POST-HOC) I OSZACOWANIA (PORÓWNANIE
ŚREDNICH) JEZUS MARIA
F(df dla efektu; df dla błędu)=F; p=…
Eta2=…
Przykład raportu: Efekt wewnątrzobiektowy badano testem Greenhouse’a-Geissera.
Przynajmniej jedna z wartości oczekiwanych zmiennej zależnej różni się od pozostałych
(p<0,001). Wielkość efektu jest słaba (Eta2=0,03). Istotne różnice wystąpiły pomiędzy
wszystkimi punktami pomiaru (p=0,02 dla wszystkich porównań). Zmienna zależna różni się
przed szkoleniem, dzień po ukończeniu szkolenia oraz 3 miesiące po ukończeniu szkolenia.
Poczucie kompetencji było najniższe przed szkoleniem (M=2,345). Dzień po ukończeniu
szkolenia pomiar wykazał zwiększenie poziomu zmiennej zależnej (M=3,123), natomiast po 3
miesiącach od ukończenia szkolenia nastąpił nieznaczny spadek poczucia kompetencji
(M=2,987). Szkolenie można jednak uznać za skuteczne, ponieważ wyniki przed jego
rozpoczęciem są dużo niższe niż wyniki po 3 miesiące po odbyciu szkolenia.

You might also like