Professional Documents
Culture Documents
Statystyczny Drogowskaz 3
Statystyczny Drogowskaz 3
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
STATYSTYCZNY
DROGOWSKAZ
Praktyczny przewodnik wykorzystania
3
modeli regresji
oraz równañ
strukturalnych
Sylwia Bedyñska
Monika Ksi¹¿ek
Książkę poleca
SEDNO
Wydawnictwo
Akademickie
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Wydawca: Bożena Kućmierowska
Recenzenci: prof. dr hab. Magdalena Marszał-Wiśniewska, prof. dr hab. Grzegorz Sędek
Redakcja merytoryczna i korekty: Iwona Witt-Czuprzyńska
Redakcja techniczna: Danuta Przymanowska-Boniuk
Projekt okładki, stron tytułowych i działowych: Janusz Fajto
Opracowanie typograficzne: Wojciech Stukonis
ISBN 978-83-63354-05-3
ISBN 978-83-62443-24-6
ISBN 978-83-62443-35-0 (tomy 1-3)
ISBN 978-83-63354-97-8 (e-book)
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Spis treści
Przedmowa ................................................................................................................................... 9
roZDZIał 1
regresja prosta ............................................................................................................................ 15
Wprowadzenie .................................................................................................................................................................16
Kowariancja i korelacja jako miary współzmienności ...........................................................17
Jednozmiennowa analiza regresji ................................................................................................................ 21
Dopasowanie linii regresji metodą najmniejszych kwadratów .......................... 21
Równanie linii prostej – parametry modelu ...................................................................... ...... 24
Analiza regresji w programie IBM SPSS Statistics .................................................................. 26
Przykład: relacja temperatury i samopoczucia ............................................................................. 30
Podsumowanie ................................................................................................................................................................. 33
roZDZIał 2
regresja wielokrotna ................................................................................................................35
Wprowadzenie ............................................................................................................................................................... 36
Analiza regresji wielozmiennowej w programie IBM SPSS Statistics ................ 38
Korelacja cząstkowa i semicząstkowa w analizie regresji ......... ............................... 40
Różne metody wprowadzania predyktorów w analizie regresji ................................ 43
Regresja krokowa ............................................................................................................................................... 45
Regresja hierarchiczna ................................................................................................................................... 49
Podsumowanie ............................................................................................................................................................... 55
roZDZIał 3
Testowanie założeń. Diagnostyka w analizie regresji ............................................57
Wprowadzenie ................................................................................................................................................................. 58
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
6 Statystyczny drogowskaz 2
roZDZIał 4
Zmienne jakościowe jako predyktory w analizie regresji ................................... 89
Wprowadzenie ................................................................................................................................................................. 90
Tworzenie zmiennych instrumentalnych dla jakościowego
predyktora niedychotomicznego .................................................................................................................. 95
Kodowanie zero-jedynkowe ..................................................................................................................... 95
Kodowanie quasi-eksperymentalne .............................................................................................. 101
Kodowanie ortogonalne ......................................................................................................................................104
Podsumowanie .............................................................................................................................................................. 107
roZDZIał 5
analiza mediacyjna w regresji.
Poszukiwanie zmiennych pośredniczących ................................................................ 109
Wprowadzenie .............................................................................................................................................................. 110
Klasyczne podejście Barona i Kenny’ego ..........................................................................................111
Model mediacji Cohena i Cohen ...................................................................................................... 112
Przykład 1. Model mediacyjny z ilościową zmienną niezależną ........................... 112
Krok 1 – relacja między zmienną niezależną a zależną ......................................... 113
Krok 2 – relacja między zmienną niezależną a mediatorem .............................. 115
Krok 3 – relacja zmiennej niezależnej i mediatora
ze zmienną zależną ........................................................................................................................................ 116
Testy: Sobela, Aroiana i Goodmana testujące istotność
mediacji częściowej ......................................................................................................................................... 117
Opis wyników ....................................................................................................................................................... 119
Przykład 2. Model mediacyjny z dychotomiczną zmienną niezależną ............. 120
Trudności w poszukiwaniu mediacji .................................................................................................... 124
Podsumowanie .............................................................................................................................................................. 125
roZDZIał 6
W poszukiwaniu interakcji. Moderatory w analizie regresji ............... ......... 127
Wprowadzenie .............................................................................................................................................................. 128
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Spis treści 7
roZDZIał 7
Modele strukturalne zmiennych obserwowalnych ...............................................161
Wprowadzenie .............................................................................................................................................................. 162
Specyfikacja modelu strukturalnego zmiennych
obserwowalnych ......................................................................................................................................................... 163
Interpretacja parametrów ................................................................................................................................. 167
Model regresji wielorakiej ........................................................................................................................ 167
Model ścieżkowy z kowariancją i zależnościami pośrednimi ..........................170
Estymacja modeli strukturalnych ............................................................................................................ 177
Założenia ................................................................................................................................................................... 177
Metody estymacji ............................................................................................................................................. 179
Ocena jakości modelu .................................................................................................................................. 181
Test dopasowania modelu ....................................................................................................................... 183
Miary dopasowania do populacyjnej macierzy
wariancji-kowariancji .................................................................................................................................. 186
Indeksy dopasowania ................................................................................................................................... 187
Kryteria informacyjne ................................................................................................................................ 189
Modyfikowanie modelu ...................................................................................................................................... 190
Badanie istotności parametrów ......................................................................................................... 191
Indeksy modyfikacji ....................................................................................................................................... 192
Podsumowanie .............................................................................................................................................................. 198
roZDZIał 8
Modele strukturalne w podgrupach .................... ...................................................... 201
Wprowadzenie ...............................................................................................................................................................202
Specyfikacja i estymacja .....................................................................................................................................203
Porówanywanie pojedynczych parametrów między grupami ...................................206
Weryfikacja złożonych hipotez dotyczących równości
parametrów między grupami ........................................................................................................................209
Podsumowanie .............................................................................................................................................................. 214
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
8
roZDZIał 9
Modelowanie strukturalne ze zmiennymi ukrytymi .........................................217
Wprowadzenie ............................................................................................................................................................... 218
Specyfikacja modelu strukturalnego ze zmiennymi ukrytymi ...................... 219
Część strukturalna modelu .................................................................................................................. 219
Część pomiarowa modelu .........................................................................................................................220
Konfirmacyjna analiza czynnikowa jako narzędzie weryfikacji
modelu pomiarowego .............................................................................................................................................222
Estymacja i interpretacja modelu strukturalnego
ze zmiennymi ukrytymi ....................................................................................................................................226
Podsumowanie ............................................................................................................................................................... 231
roZDZIał 10
Krótkie wprowadzenie do IBM SPSS Statistics aMoS ................................... 233
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Przedmowa
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
10
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Przedmowa 11
zmiennych możemy powiedzieć, jak dany efekt działa, dlaczego istnieje zależność
między pewnymi zmiennymi.
Najciekawszą częścią książki są naszym zdaniem rozdziały wprowadzające
zagadnienia modelowania strukturalnego. Ta nowoczesna metoda staje się obec-
nie standardem, więc jej wprowadzenie wydało nam się bardzo interesujące. By
ułatwić jej zrozumienie, w trzech rozdziałach przedstawiamy analizy, które są
odpowiednikami wcześniej opisanych technik regresyjnych: regresji wielokrotnej,
regresji z kowariancją i mediacji. Uznałyśmy, że taki układ ułatwi zapoznanie się
z tą nieco bardziej złożoną metodą. Ze względu na zmianę narzędzia analitycz-
nego z pakietu IBM SPSS Statistics na program AMOS dodałyśmy w ostatnim
rozdziale także krótki przewodnik po tym programie. Niestety, nie wyczerpujemy
możliwości wykorzystania modelowania równań strukturalnych, ponieważ metoda
ta pozwala testować niezwykłe bogactwo układów zależności między zmiennymi
ilościowymi i jakościowymi. Sądzimy jednak, że po takim wprowadzeniu, jakie
proponujemy, dalsza eksploracja tej problematyki będzie znacznie ułatwiona.
Aby czytelnik mógł samodzielnie powtórzyć analizy pliki z danymi zostały
umieszczone na dwóch stronach internetowych: www.wydawnictwosedno.pl oraz
www.bedynska.com.pl. Proszę też pamiętać podczas czytania książki, że warto-
ści liczbowe zostały zaokrąglone do drugiego miejsca po przecinku, więc mogą
nie być identyczne jak w prezentowanych tabelach.
Sylwia Bedyńska
Szkoła Wyższa Psychologii Społecznej w Warszawie
Monika Książek
Szkoła Główna Handlowa w Warszawie
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
13
Czêœæ I
MODELE REGRESJI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część i
modele regresji
rozdział
Regresja prosta
1
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Poszukiwanie zależności między zmiennymi jest niezwykle ważnym elementem
postępowania naukowego. Choć analiza korelacji nie ma takiej mocy jak poszuki-
wanie przyczyny i skutku w badaniach eksperymentalnych, to jednak pozwalając
prześledzić wzajemne zależności dużej liczby zmiennych, przygotowuje podstawy
do projektowania eksperymentów. Dzięki tej technice możliwe jest bowiem zna-
czące zawężenie zmiennych uwzględnianych potem w badaniach eksperymental-
nych. Schemat korelacyjny może więc stanowić ważne źródło inspiracji dla ekspe-
rymentów, gdzie niemożliwe staje się uwzględnienie zbyt dużej liczby zmiennych
jednocześnie. Oczywiście relacje badań eksperymentalnych i korelacyjnych są
wzajemne – zidentyfikowane w eksperymencie kluczowe dla danej sfery zmienne
mogą zostać następnie uwzględnione w badaniu korelacyjnym, które pozwala prze-
śledzić bardziej skomplikowane relacje między konstruktami, a w konsekwencji
– budowanie złożonych teorii naukowych.
Skoro relacje są takie ważne, to analiza regresji stanowi istotne narzędzie odpo-
zmienna niezależna wiadania na pytania badawcze o zależności zmiennych. W swej klasycznej postaci
(objaśniająca) wymaga, by zarówno predyktory (zmienne niezależne czy objaśniające), jak i zmienna
zmienna zależna zależna (czy objaśniana) były ilościowe, ale jak pokażemy w jednym z rozdziałów,
(objaśniana) możliwe jest także uwzględnienie dychotomicznych predyktorów. Możemy je wpro-
wadzać do regresji, dlatego że metoda ta jest bardziej ogólną techniką analityczną
należącą do rodziny metod kryjących się pod nazwą Ogólnego Modelu Liniowego.
Do tej samej grupy technik należą także testy t-Studenta i analiza wariancji, ale
nie są one tak wszechstronne jak regresja. Ograniczenie dla regresji stanowi jednak
liczba zmiennych zależnych – nie może ona przekroczyć jednej.
W tym rozdziale przedstawimy szczegółowo najprostszą analizę z wykorzysta-
niem jednej zmiennej niezależnej i jednej zmiennej zależnej. Dzięki temu, że model
będzie tak prosty, możliwy się stanie bardzo szczegółowy i precyzyjny opis podstaw
logicznych analizy regresji i sposobu interpretacji jej wyników. Zaczniemy jednak
od statystyk opisowych, które pozwalają podsumować współzmienność dwóch
zmiennych: kowariancji i korelacji r Pearsona. Następnie pokażemy na wykresach
rozrzutu, jak wyglądają dane o określonych wartościach współczynnika korelacji
r Pearsona. Opiszemy także metodę dopasowania linii regresji oraz interpretację
parametrów opisujących tę linię. W ostatniej części rozdziału zaprezentujemy
sposób wykonania obliczeń w programie IBM SPSS Statistics i zapis wyników
w raporcie empirycznym.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 17
KoWariancja i Korelacja
jaKo miary WspóŁzmienności
By zaprezentować logikę analizy regresji, cofniemy się na chwilę do dwóch statys-
tyk opisowych: kowariancji i korelacji. Ta pierwsza nie jest zbyt popularna, ale
zrozumienie sensu jej obliczania jest niezbędne, by swobodnie korzystać z niej
w znajdującym się w dalszej części książki modelowaniu strukturalnym. Kowa-
riancję można uznać za prekursorkę korelacji, więc to, co teraz będziemy robić, to
po trosze archeologiczne wykopaliska.
Kowariancja wykorzystuje wariancję wyników, czyli odległości wyników od kowariancja
średniej arytmetycznej. Opiera się na obserwacji, że jeśli dwie zmienne mają jakiś
specyficzny układ wartości względem siebie, to przykładowo u danej osoby wynik
powyżej średniej powinien współwystępować z wynikiem powyżej średniej w dru-
giej zmiennej. Możliwy jest też taki układ, że wynik poniżej średniej w obrębie
jednej zmiennej współwystępuje u danej osoby z wynikiem powyżej średniej w obrę-
bie drugiej zmiennej. A zatem kowariancja to inaczej współzmienność wyników
dwóch zmiennych, którą szacujemy, sprawdzając, w jakim kierunku odchylają się
wyniki obu zmiennych od odpowiednich średnich. Przykład obliczania kowariancji
dla czterech wyników można znaleźć w tabeli 1.1.
Jak w niej widać, obliczamy ją w kilku krokach. Najpierw musimy znaleźć śred-
nie dla obu podsumowywanych zmiennych, następnie odnieść każdy wynik do tej
średniej, odejmując wynik od średniej. Mnożymy tak uzyskane odległości dla każ-
dej pary wyników i sumujemy je, uzyskując licznik kowariancji. Teraz już wystar-
czy tylko podzielić rezultat obliczeń przez liczbę wyników minus 1 i uzyskamy
wartość kowariancji. W tym przykładzie będzie to wartość –2,5.
No dobrze, policzyliśmy kowariancję, ale jak ją teraz zinterpretować? Niestety, interpretacja
poważnym ograniczeniem tej statystyki jest to, że możemy jedynie określić kie- kowariancji
runek zależności. Ujemna wartość świadczy o tym, że niskie wartości jednej
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
18 Część I Modele RegReSjI
Tabela 1.1. Kolejne kroki obliczania wielkości kowariancji dla zmiennych X oraz Y
Odległość Odległość
Wartości Wartości Iloczyn
od średniej od średniej
zmiennej X zmiennej Y odległości
dla X dla Y
1 5 –2 2 –4
2 4 –1 1 –1
3 3 0 0 0
4 2 1 –1 –1
5 1 2 –2 –4
średnia = 3 średnia = 3 suma: –10
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 19
Tabela 1.2. Kolejne kroki obliczania wielkości korelacji dla zmiennych X oraz Y
Wystandaryzowana Wystandaryzowana
Wartości Wartości Iloczyn
odległość od średniej odległość od średniej
zmiennej X zmiennej Y odległości
dla X (Xi – M)/SD dla X (Xi – M)/SD
Kowariancja pozwala określić jedynie kierunek zależności, ale nie siłę relacji.
Wielkość kowariancji zależy silnie od jednostek pomiarowych.
Korelacja umożliwia określenie zarówno kierunku, jak i siły zależności. Wiel-
kość korelacji nie zależy od jednostek pomiarowych, bo przed policzeniem
korelacji zmienne są standaryzowane.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
20 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 21
Pierwszym krokiem analizy regresji jest dopasowanie takiej linii prostej, która
będzie spełniała jeden ważny warunek: odległości wyników od tej linii będą mini- linia najlepszego
malne. Taka linia prosta może zostać nazwana linią najlepszego dopasowania. dopasowania
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
22 Część I Modele RegReSjI
Jak jednak statystycznie sprawdzić, czy linia jest dobrze dopasowana? Jeśli jeste-
śmy zainteresowani odległościami wyników od linii, to w sukurs przychodzi nam
analiza wariancji, za pomocą której możemy określać wielkość łącznych odległo-
ści wyników od linii regresji. Przyjrzyjmy się jednak bardziej szczegółowo proce-
sowi określania, czy linia jest dobrze dopasowana.
analiza wariancji Punktem wyjścia analizy wariancji, która sprawdza poziom dopasowania linii,
jest stwierdzenie, że jeśli nie mamy żadnego predyktora, to próbujemy przewi-
dywać wyniki, posługując się średnią arytmetyczną dla zmiennej zależnej. Ten
najprostszy model jest więc punktem odniesienia dla modelu bardziej złożonego
– linii prostej. Zerknijmy na wykres rozrzutu na rysunku 1.2.
Będziemy przewidywać poczucie szczęścia na podstawie liczby przyjaciół. Dane
do wykonania tego wykresu znajdują się w pliku przyjaciele.sav. Zobaczmy, że punkty
są nieco oddalone od linii regresji. Te odległości od linii to różnica między wynikiem
rzeczywistym a wynikiem przewidywanym przez model liniowy. Gdyby zależność
była idealna i punkty y leżały dokładnie na linii, wtedy wynik przewidywany
równałby się wynikowi rzeczywistemu. Tutaj jednak mamy pewną rozbieżność,
Wariancja niewyjaśniona
za pomocą modelu regresji
Wariancja wyjaśniona
za pomocą modelu regresji
Rysunek 1.2. Wykres rozrzutu dla zmiennej zależnej poczucie szczęścia (szczęście)
i predyktora liczba przyjaciół (przyjaciele) z dopasowaną linią regresji (linia ciągła) i linią
poziomą określającą wartość średniego poczucia szczęścia (linia przerywana)
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 23
analiza wariancji w regresji testuje, czy model jest dobrze dopasowany do danych.
Porównuje wielkość wariancji wyjaśnianej przez regresję z prostszym modelem,
jakim jest średnia arytmetyczna. Istotna analiza wariancji wskazuje, że model
regresji lepiej wyjaśnia dane niż średnia arytmetyczna. Metoda ta nazywana jest
metodą najmniejszych kwadratów, bo wariancja to nic innego jak średni kwadrat
odległości wyników od średniej (zob. Bedyńska, Brzezicka, 2007: rozdz. 7).
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
24 Część I Modele RegReSjI
Rysunek 1.3. Znaczenie parametrów linii: z lewej strony linie różnią się wartością stałej,
z prawej wartością współczynnika nachylenia
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 25
parametr B0, nazywany stałą, określa punkt przecięcia linii z osią Y, a parametr
B1, nazywany współczynnikiem nachylenia, określa stopień nachylenia linii
względem osi X.
parametry B0 oraz B1 są obliczane dla danych surowych, więc ich wartości zależą
od jednostek pomiaru. Pozwalają obliczyć wynik przewidywany dla danej osoby,
ale nie nadają się do porównywania różnych modeli. By porównywać modele,
posługujemy się bardziej uniwersalnym parametrem beta, który został obli-
czony dla danych standaryzowanych. Interpretujemy jego wartość tak jak war-
tość współczynnika r Pearsona.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
26 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 27
Tabela 1.4. Fragment wydruku analizy regresji z wynikami analizy wariancji określającej
dopasowanie modelu regresji
Rysunek 1.4. Okno dialogowe regresji liniowej pozwalające zdefiniować zmienne w modelu
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
28 Część I Modele RegReSjI
wyników przewidywanych przez regresję od średniej oraz reszt regresji, czyli odle-
głości wyników rzeczywistych od przewidywanych przez regresję. Tutaj widzimy,
że wynik analizy wariancji jest istotny statystycznie i wobec tego możemy uznać,
że model jest dobrze dopasowany, bo wyjaśnia więcej zmienności zmiennej zależ-
nej niż jej średnia arytmetyczna. Statystyki tej analizy zapisujemy następująco:
F(1, 6) = 15,68; p < 0,01. Pamiętajmy, że w nawiasie zamieszczamy dwa rodzaje
stopni swobody: jako pierwsze stopnie swobody dla regresji, po przecinku – stop-
nie swobody dla reszty. Stopnie swobody ogółem można wtedy samodzielnie obli-
czyć, dodając do siebie te pozostałe dwa rodzaje stopni swobody dla regresji i dla
reszty. Skoro udało się dopasować model do danych, to możemy przejść do kolej-
nej tabeli WSPÓŁCZYNNIKI (tab. 1.5).
W tabeli możemy znaleźć oba typy współczynników: niestandaryzowane
i standaryzowane oraz statystyki t określające istotność tych współczynników.
Zacznijmy od współczynników niestandaryzowanych: stała wynosi w tym modelu
1,11, a współczynnik kierunkowy 0,64. Możemy więc zapisać równanie regresji
w postaci: Ŷ = 1,11+ 0,64 • X. Dzięki temu obliczamy, ile punktów w skali szczęścia
miałaby osoba mająca 10 przyjaciół, podstawiając wartość 10 w miejsce X do
równania: Ŷ = 1,11 + 0,64 • 10= 7,51. Znając wartość stałej, możemy także łatwo
powiedzieć, jaki wynik w skali szczęścia będzie miała osoba, która w ogóle nie ma
przyjaciół – będzie to wartość równa stałej, ponieważ po podstawieniu wartości 0
zamiast X obliczony Ŷ będzie równy wartości stałej, czyli 1,11. Współczynnik
nachylenia informuje nas o tym, o ile wzrośnie poziom szczęścia wraz z każdą
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 29
kolejną zaprzyjaźnioną osobą. Gdy liczba przyjaciół wzrośnie o 1, poczucie szczęścia
będzie wyższe o 0,64 punktu w skali szczęścia, którą zastosowaliśmy do pomiaru.
Wracamy teraz do tabeli WSPÓŁCZYNNIKI (tab. 1.5). W trzeciej kolumnie
zamieszczone są błędy standardowe obu parametrów niestandaryzowanych. Gdy
podzielimy wartość współczynnika przez jego błąd standardowy, to uzyskamy war-
tość statystyki t znajdującej się w piątej kolumnie. Istotność znajdująca się w końco-
wej kolumnie tabeli informuje, czy wartość współczynnika jest różna od 0. A więc
gdy istotność jest mniejsza niż 0,05, to możemy zamieszczać ten współczynnik
we wzorze linii regresji. Wiemy wtedy również, że współczynnik standaryzowany
beta różni się od 0, a więc istnieje istotna relacja między zmiennymi. Tutaj współ-
czynnik beta wynosi 0,85, jego istotność p < 0,05 (mniejsza od 0,05), więc kon-
kludujemy, że relacja jest istotna, silna i dodatnia. Oznacza to tym samym, że im
więcej mamy przyjaciół, tym bardziej jesteśmy szczęśliwi. Pamiętajmy jednak, że
regresja nie pozwala określić relacji przyczynowo-skutkowych, więc możemy jedy-
nie wskazać, że relacja między liczbą przyjaciół i poczuciem szczęścia ujawnia się,
ale nie wiemy, czy to przyjaciele powodują, że czujemy się szczęśliwi, czy też gdy
czujemy się szczęśliwi, to łatwiej się zaprzyjaźniamy i mamy więcej przyjaciół.
I wreszcie ostatnia tabela: MODEL–PODSUMOWANIE prezentująca wartości
współczynnika korelacji wielokrotnej R, wartość statystyki R2, jego skorygowaną
wersję oraz błąd standardowy oszacowania (zob. tab. 1.6). Współczynnik korelacji
wielokrotnej może przyjmować jedynie dodatnie wartości, tutaj w regresji jedno-
zmiennowej jest tożsamy z wartością współczynnika beta i współczynnika r Pearsona.
Jednak interpretujemy wartość R2, która przemnożona przez 100 informuje o tym,
jaki procent wariancji zmiennej zależnej wyjaśnia zmienna niezależna. W powyższym
przykładzie uzyskaliśmy znakomitą moc przewidywania, ponieważ udaje nam się
wyjaśnić za pomocą liczby przyjaciół aż 72% zmienności poczucia szczęścia.
Wyniki analizy regresji zapisujemy w takiej kolejności, w jakiej omawiały-
śmy je w tym rozdziale. Zbierzmy więc teraz wszystkie informacje w raporcie.
Pamiętajmy: w pierwszym zdaniu raportu zwykle wskazuje się rodzaj analiz,
jakie zostały wykonane, a każdy wniosek musi zostać poparty odpowiednimi
statystykami. Piszemy więc:
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
30 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 31
Tabela 1.8. Wyniki analizy wariancji testującej istotność dopasowania modelu regresji
dla relacji samopoczucia i temperatury powietrza
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
32 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 1 Regresja prosta 33
podsumoWanie
Analiza regresji jest techniką analizy danych, która pozwala modelować dane,
dopasowując linię prostą. Dzięki temu możliwe staje się opisanie relacji między
zmiennymi za pomocą równania regresji z dwoma parametrami: stałą i współczyn-
nikiem nachylenia (kierunkowym). Interpretacja siły i zależności między zmien-
nymi wykonywana jest na podstawie wartości współczynnika standaryzowanego
beta, na bazie którego można określić siłę i kierunek zależności między zmienną
wyjaśniającą oraz wyjaśnianą. Poważnym ograniczeniem tej metody jest to, że
model prostoliniowy może nie być adekwatnym modelem, dlatego że dane ukła-
dają się w kształt krzywej. Najprostszą metodą zdiagnozowania takiego stanu jest
wykonanie wykresu rozrzutu, na którym widać przebieg rzeczywistych wyników.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część i
modele regresji
rozdział
Regresja wielokrotna
2
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Regresja wielokrotna to technika statystyczna pozwalająca uwzględnić większą liczbę
predyktorów niż 1. Oznacza to, że próbujemy przewidzieć wyniki zmiennej zależnej
(objaśnianej), posługując się przynajmniej dwoma zmiennymi objaśniającymi. Ten
przypadek reprezentuje znacznie częstszą klasę sytuacji badawczych, bo niezwykle
rzadko zdarza się opierać przewidywania na jednej zmiennej. Zwykle uwzględnia się
liczne predyktory, próbując z nich wyodrębnić te, które są istotne do przewidywa-
nia określonego zjawiska. Co ważne, powinny one być ilościowe lub w najgorszym
przypadku jakościowe dwuwartościowe, na przykład płeć (o tym wariancie będzie
mowa w rozdziale 4). Zasadniczo przeprowadzanie tego typu analizy nie różni się
drastycznie od operacji niezbędnych do policzenia regresji jednozmiennowej – różnica
polega właśnie na liczbie wprowadzonych zmiennych niezależnych. Ze względu na
wielość zmiennych możemy wskazać kilka metod ich doboru do modelu. Te metody
będą stanowiły istotną różnicę w stosunku do regresji jedmozmiennowej.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 37
zależną (współczynniki beta dla tych zmiennych są istotne statystycznie), a po dru-
gie zapisać równanie regresji ze współczynnikami kierunkowymi oraz jedną stałą
dla całego modelu. Gdy mamy trzy predyktory, równanie regresji przyjmuje złożoną
postać: Ŷ = B0 + B1 • X1 + B2 • X2 + B3 • X3 (symbole X1, X2, X3 oznaczają kolejne
predyktory, Ŷ to wynik przewidywany zmiennej zależnej, B0 to stała, a parame-
try B1, B2, B3 to współczynniki kierunkowe). Nie zmienia się jednak interpretacja
współczynników, której dokonuje się w tych samych kategoriach jak w regresji jed-
nozmiennowej. Ponownie dla wnioskowania najważniejsze są współczynniki beta.
Dzięki nim interpretujemy kierunek zależności (dodatni lub ujemny) oraz jej siłę
(im wartość współczynnika beta bliższa 1 lub –1, tym silniejsza zależność).
I wreszcie kolejny element układanki – łączny procent wyjaśnionej przez dany
model wariancji (inaczej zmienności) zmiennej zależnej. Współczynnik R2 prze-
mnożony przez 100% wskazuje na to, ile procent wariancji udało się wyjaśnić
przez ten określony zestaw zmiennych. Jedna ważna uwaga: ze względu na więk-
szą liczbę predyktorów niż 1 korzystamy z R2 skorygowanego. Korekta jest nie- R2 skorygowany
zbędna, bo wraz z dodawaniem kolejnych zmiennych objaśniających (predyktorów)
rośnie R2, nawet jeśli predyktor nie pozwala w istotny sposób przewidywać zmien-
nej zależnej. Aby pozbyć się tego mankamentu, wprowadzona została korekta.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
38 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 39
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
40 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 41
predyktor predyktor
X1 X2
b Nakładające się części kół oznaczają
część wariancji danej zmiennej
a c wyjaśnianą przez inne zmienne.
d
zmienna
zależna y
Rysunek 2.1. Schemat obrazujący relacje między dwoma predyktorami i zmienną zależną
zależnej, której nie wyjaśnia żaden wprowadzony predyktor; taka, która pozo-
staje jeszcze do wyjaśnienia.
Wyjaśnijmy teraz, czym są poszczególne współczynniki korelacji cząstkowej
i semicząstkowej. Korelacja semicząstkowa (semipartial correlation) to wielkość korelacja semicząstkowa
unikalnego wpływu jednego predyktora z wyłączeniem części wspólnej wyjaśnia-
nej łącznie z drugim predyktorem na tle całkowitej wariancji zmiennej zależnej
(a / (a + b + c + d)). W obliczaniu tego typu korelacji kontroli podlega więc jedy-
nie wpływ drugiego predyktora na pierwszy predyktor, ponieważ usuwana z ob-
liczeń jest tylko część b. Korelacja cząstkowa (partial correlation) jest obliczana korelacja cząstkowa
inaczej, dlatego że unikalny wpływ predyktora (np. część a dla predyktora pierw-
szego X1) przedstawiany jest na tle tej części wariancji zmiennej zależnej, której nie
wyjaśnia drugi predyktor X2 (a / (a + d)). Kontroli podlega więc zarówno wpływ
drugiego predyktora na pierwszy, jak i wpływ drugiego predyktora na zmienną
zależną. Po co te współczynniki? Pomagają one określić unikalny wpływ danego
predyktora, w sytuacji gdy predyktory są skorelowane i są używane do interpre-
tacji wyników zamiast współczynników standaryzowanych beta, których wiel-
kość jest zanieczyszczona wspólnym wpływem obu skorelowanych predyktorów.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
42 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 43
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
44 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 45
Wobec sporej liczby metod wykonywania analizy regresji powstaje pytanie, którą
z nich zastosować. Nie jest łatwo sformułować jasne rekomendacje. A. Field wska-
zuje, by unikać wykorzystywania metody eliminacji wstecznej, dlatego że często
prowadzi ona do niekonkluzywnych wyników (Field, 2009: s. 213). B.G. Tabachnik
i L.S. Fidell wskazują natomiast, że najlepszym rozwiązaniem jest regresja metodą
wprowadzania, gdy badania stanowią eksplorację relacji między zmiennymi,
lub analizę hierarchiczną, gdy celem badacza jest konfirmacja modelu teore-
tycznego (Tabachnik i Fidell, 2007: s. 143). Autorki nie cenią żadnej z metod kro-
kowych, posługujących się wyłącznie statystycznymi kryteriami doboru predykto-
rów. Mimo tych obiekcji przedstawiamy poniżej sposób przeprowadzania analizy
regresji metodą krokową, wraz z możliwością definiowania kryteriów doboru pre-
dyktorów. W kolejnej części opisujemy logikę i sposób przeprowadzania regresji
hierarchicznej, rekomendowanej jako technika konfirmacyjna.
regresja KroKoWa
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
46 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 47
Tabela 2.7. ANOVA – wyniki analizy wariancji określającej istotność dopasowania modelu
regresji dla obu modeli uwzględnianych w regresji krokowej
więc każda kolumna zostaje podzielona na dwie części, z których każda prezentuje
statystyki dla odpowiedniego modelu. W pierwszej tabeli wskazywane są predyk-
tory wprowadzone do każdego z modeli (tab. 2.6). Widzimy tutaj, że w pierwszym
modelu wprowadzona została zmienna cisza, a w drugim model został uzupeł-
niony o predyktor określający natężenie światła (zmienna światło).
Teraz sprawdzamy dopasowanie obu modeli w tabeli ANOVA. Oba modele
są dobrze dopasowane do danych, bo analiza wariancji w obu przypadkach jest
istotna statystycznie (tab. 2.7).
Teraz oglądamy podsumowanie dopasowania modelu, a więc współczynnik R2 dla
modelu pierwszego z jednym predyktorem oraz skorygowane R2 dla drugiego, bardziej
złożonego modelu. W raporcie zapisujemy jednak tylko statystyki dla drugiego modelu,
a więc skorygowane R2 podane w rubryce 2 tabeli MODEL–PODSUMOWANIE
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
48 Część I Modele RegReSjI
(tab. 2.8). Wartość ta wynosi 0,64, więc możemy stwierdzić, że model z dwoma
predyktorami wyjaśnia 64% wariancji zmiennej zależnej.
Wreszcie przechodzimy do najważniejszej tabeli prezentującej współczyn-
niki regresji. Interesuje nas model 2, a więc oglądamy jedynie drugą część tabeli
(tab. 2.9). Wartości współczynników standaryzowanych wynoszą odpowiednio
beta = –0,53, p < 0,05 dla zmiennej cisza oraz beta = –0,44; p < 0,05 dla zmien-
nej światło. Na ich podstawie możemy stwierdzić, że im bardziej cicha okolica, tym
mniej jest lunatyków, oraz im większe natężenie światła w nocy, tym więcej jest
lunatyków. Obie zależności są dość silne, ale silniejsza jest relacja zmiennej cisza
i zmiennej zależnej liczba lunatyków. Możemy także zapisać równanie regresji dla
danych surowych: Ŷ lunatycy= 254,21 – 2,67 • Xcisza + 0,06 • Xświatło.
W ostatniej tabeli (2.10) znajdują się statystyki dla zmiennych wykluczonych
w danym modelu. Można więc sprawdzić, jakie są współczynniki beta, wartości
korelacji cząstkowej oraz statystyki współliniowości. Te dwie ostatnie statystyki
wskazują, w jakim stopniu predyktory są skorelowane (dokładne omówienie tej
statystyki znajduje się w rozdziale 3).
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 49
regresja hierarchiczna
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
50 Część I Modele RegReSjI
Ważne!
Budując model regresji, chcemy za pomocą jak najmniejszej liczby predyktorów wy-
jaśnić jak największy procent zmienności zmiennej zależnej.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 51
tego przycisku powoduje pojawienie się pustego okna, w którym możemy defi-
niować kolejny zestaw zmiennych. O prawidłowym przejściu do następnego okna
informuje napis z lewej strony BLOK 2 Z 2 (zob. rys. 2.6).
Skoro zostały już zdefiniowane zmienne, potrzebujemy zaznaczyć opcję pozwa-
lającą zamówić dodatkowe statystyki – klikamy więc przycisk STATYSTYKI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
52 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 53
Tabela 2.11. Statystyki analizy wariancji określające ogólne dopasowanie modeli do danych
Tabela 2.12. Parametry dopasowania obu modeli wraz ze statystykami zmiany dopasowania
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
54 Część I Modele RegReSjI
Tabela 2.14. Statystyki dla zmiennych wykluczonych w pierwszym modelu wraz z korelacją
cząstkową i statystyką współliniowości TOLERANCJA
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 2 Regresja wielokrotna 55
podsumoWanie
Regresja wielozmienowa pozwala prognozować wartości zmiennej zależnej na
podstawie większej liczby zmiennych niż regresja prosta. Oznacza to jednak, że
modelem przestaje być linia prosta, a staje się nim liniowa kombinacja współ-
czynników regresji i wprowadzonych predyktorów. Interpretacja współczynników
regresji jest jednak identyczna jak w regresji prostej – współczynniki beta informują
o sile i kierunku związku danego predyktora ze zmienną zależną, a współczyn-
niki niestandaryzowane pozwalają przewidywać wartość zmiennej zależnej dla
danej osoby, gdy znamy jej wyniki dla zmiennych niezależnych. W odróżnieniu
od regresji prostej, w regresji wielozmiennowej możemy zastosować różne metody
selekcji predyktorów do modelu regresji. Predyktory możemy wprowadzać do
modelu regresji jednocześnie, gdy używamy domyślnej metody wprowadzania.
Możemy je także selekcjonować w krokach, wprowadzając tylko istotne predyk-
tory bądź usuwając nieistotne. Do metod krokowych zaliczamy metody: selekcji
postępującej, eliminacji wstecznej, usuwania, krokową i hierarchiczną. Ich zasto-
sowanie wzbudza wiele kontrowersji i może przynosić niespójne wyniki, zwłaszcza
w sytuacji gdy predyktory są ze sobą skorelowane. Taka sytuacja jest dość częsta
w psychologii i naukach społecznych. Warto wtedy oprzeć interpretację relacji
między zmienną objaśniającą a objaśnianą nie na współczynnikach beta, których
wartość jest przeszacowana, ale na wartości współczynników korelacji cząstkowej
lub semicząstkowej. Pozwalają one określić unikalny wpływ danego predykatora
przy kontroli wpływu pozostałych predyktorów.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część i
modele regresji
rozdział
Testowanie założeń.
diagnostyka w analizie
regresji
3
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Analiza regresji opisana w poprzednich rozdziałach należy do grupy technik para-
metrycznych. Oznacza to, że szacowanie parametrów modelu jest właściwe pod
warunkiem, że dane spełniają wiele założeń. W tym rozdziale opiszemy założe-
nia jedno- i wielozmiennowej analizy regresji, a także wskażemy ważne czynniki,
które mogą znacząco modyfikować wyniki. Dodatkowo zaprezentujemy liczne sta-
tystyki diagnozujące takie sytuacje, w których wynik analizy regresji przestaje
rzetelnie opisywać ogólną prawidłowość.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 59
homoscedastyczność
Testowanie homoscedastyczności nie jest zbyt proste choć wydaje się być nie-
zwykle ważne do określenia adekwatności modelu regresji. Przypomnijmy, co
to jest homoscedastyczność. Założenie to dotyczy wariancji, czyli rozprosze- homoscedastyczność
nia reszt – odległości rzeczywistych wyników wokół linii regresji. Zgodnie
z nim reszty powinny mieć podobne rozproszenie wokół linii regresji, zarówno
dla niskich, jak i wysokich wartości zmiennej niezależnej (z lewej i prawej strony
wykresu rozrzutu). Oznacza to, że punkty określające rzeczywiste wyniki osób
badanych powinny być podobnie odległe dla różnych poziomów zmiennej nieza-
leżnej. Sytuacja, w której dla niskich wartości zmiennej niezależnej punkty leżą
bliżej linii regresji (reszty są niewielkie), a dla wysokich wartości zmiennej nie-
zależnej oddalają się znacznie od linii (reszty są duże), powinna nas skłaniać do
dużej ostrożności w stosowaniu prostej analizy regresji. Spróbujmy przeanalizo-
wać przykład, by wskazać sposoby diagnozowania tego założenia i jego znacze-
nie dla postępowania analitycznego.
Otwórzmy dane homoscedastycznosc.sav i spróbujmy przewidzieć wielkość datku
na cele charytatywne (zmienna datek) w zależności od oceny ważności działal-
ności tego typu (zmienna ważność). Wykonajmy analizę regresji wraz z dodatko-
wymi wykresami, które pozwolą nam dokładniej przyjrzeć się danym. Wcho-
dzimy zatem w górne menu, wybieramy opcję ANALIZA–REGRESJA LINIOWA,
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
60 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 61
Jaki układ punktów na takim wykresie powinien nas niepokoić? Jeśli założe-
nie o homoscedastyczności jest spełnione, punkty na wykresie rozrzutu tego typu
powinny być w miarę równomiernie rozrzucone po całej powierzchni wykresu,
nie powinny układać się w żaden charakterystyczny sposób. Na rysunku 3.2
widzimy, że punkty z lewej strony są bardziej skoncentrowane niż z prawej. Jeśli
pocięlibyśmy wykres na pionowe plasterki, to zauważylibyśmy, że w pierwszym
z nich punkty są znacznie mniej rozproszone niż w ostatnim. Układ z całą pew-
nością przedstawia pewien wzorzec – rozszerzający się trójkąt. Taki układ ozna-
cza zakłócenie homoscedastyczności. Można to założenie sprawdzać ilościowo,
dzieląc dane na podgrupy (co najmniej 5) na podstawie wartości zmiennej nieza-
leżnej (np. korzystając z opcji PRZEKSZTAŁCENIA–KATEGORYZACJA WIZU-
ALNA), a następnie obliczając wariancję reszt w podziale na te podgrupy. Uznaje
się, że założenie to jest złamane, gdy stosunek wariancji w pierwszej grupie (naj-
niższe wyniki dla predyktora) i w ostatniej (najwyższe wyniki dla predyktora)
wynosi 1:10. Wydaje się też, że dobrą miarą może być test Levene’a sprawdzający
homogeniczność wariancji w jednoczynnikowej analizie wariancji. Wtedy jako
czynnik umieszczamy skategoryzowany predyktor, a w oknie zmiennej zależnej
obliczone w regresji reszty (zmienną RES_1). Istotny test Levene’a będzie wska-
zywał, że założenie o homogeniczności wariancji reszt zostało złamane.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
62 Część I Modele RegReSjI
Rysunek 3.3. Wykres rozrzutu dla zmiennej ważność i datek osobno dla kobiet i mężczyzn
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 63
Mając już utworzoną zmienną określającą wartości reszt regresji, możemy także
testować inne założenia dotyczące reszt. Kolejnym założeniem dotyczącym
wielkości reszt jest brak skorelowania składnika losowego dla większej liczby
predyktorów. Założenie to można sprawdzać, licząc korelacje r Pearsona dla
zapisanego składnika reszt, ale lepiej wykonać test Durbina-Watsona znajdujący test durbina-watsona
się w oknie dialogowym REGRESJA LINIOWA–STATYSTYKI (zob. rys. 3.5).
Zastosowanie tego testu nie jest zbyt proste, bo program IBM SPSS Statistics
prezentuje w tabeli jedynie statystykę Durbina-Watsona bez poziomu istotności.
Aby uzyskać informacje o poziomie istotności, można poszukać w Internecie tabel
z wartościami krytycznymi tej statystyki lub posłużyć się regułą sugerowaną przez
niektórych autorów (np. Field, 2009; Stanisz, 2008). Reguła ta zaleca uznanie,
że reszty NIE są skorelowane, jeśli statystyka Durbina-Watsona przyjmująca
wartości od 0 do 4 znajduje się w okolicach wartości 2. Ze względu na niejasność
tego kryterium A. Field wskazuje, że przedmiotem zaniepokojenia powinny być
takie dane, dla których statystyka Durbina-Watsona jest niższa niż 1 lub wyższa
niż 3 (Field, 2009).
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
64 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 65
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
66 Część I Modele RegReSjI
powyżej przykładzie tolerancja nie wskazuje na silną korelację, ale jest ona bardziej
zależna od liczby osób badanych. Sprawdźmy, czy prostsza metoda oparta na współ-
czynnikach regresji r Pearsona przekaże spójną informację. Obliczmy macierz kore-
lacji (zob. tab. 3.2). Rzeczywiście korelacja jest istotna, a współczynnik r Pearsona
wysoki. Predyktory są skorelowane.
Jakie znaczenie dla wyników analizy regresji mają skorelowane predyktory?
Po pierwsze powodują błędne oszacowanie współczynników regresji (stałej
i współczynników kierunkowych), które stają się gorszym oszacowaniem para-
metrów w populacji. Dodatkowo niedokładnie szacowana jest statystyka dopa-
sowania R2, która w tej sytuacji jest znacząco niedoszacowana. Problemem jest
także stwierdzenie, która zmienna jest istotnym predyktorem, ponieważ ta silniej
powiązana ze zmienną zależną zachowuje się jak wilkołak i przejmuje w całości
wpływ na zmienną zależną, druga – skorelowana okazuje się często nieistotnym
predyktorem, co nie jest prawdą.
Skoro konsekwencje skorelowania predyktorów są tak poważne, to jakie rozwią-
zania możemy zaproponować w tej sytuacji? Po pierwsze jeśli predyktory są sko-
relowane, to znaczy, że zmienne są w dużym stopniu nasycone tym samym kon-
struktem, a więc możemy zredukować ich liczbę za pomocą analizy czynnikowej.
Skorelowanie oznacza duże podobieństwo merytoryczne zmiennych, co w pełni
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 67
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
68 Część I Modele RegReSjI
tutaj zmiennych rozkład jest normalny, ponieważ poziom istotności jest większy niż
p > 0,05. Wyciągamy więc wniosek, że rozkład obu zmiennych: zależnej i niezależ-
nej jest normalny. Gdyby test okazał się istotny statystycznie, musielibyśmy zerknąć
jeszcze do tabeli STATYSTYKI OPISOWE, która zawiera wartości kurtozy i skoś-
ności. Dzięki nim możliwe jest określenie, z jakim rozkładem mamy do czynienia.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 69
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
70 Część I Modele RegReSjI
przypadki odstające
przypadki odstające Przypadki odstające to takie wyniki, które znacząco odbiegają od głównej grupy
obserwacji; to wyniki zarówno bardzo wysokie, jak i bardzo niskie. Co to znaczy
„bardzo”? Istnieje wiele kryteriów i sposobów wyszukiwania przypadków odsta-
jących – najprostszy z nich to wykorzystanie narzędzi graficznych i obejrzenie
wykresu skrzynkowego. Przypomnijmy, że wykres ten pozwala na identyfika-
przypadki skrajne cję przypadków nietypowych, które są oznaczone w postaci kółek i skrajnych,
oznaczonych gwiazdkami (patrz: Bedyńska, Brzezicka, 2007: s. 87). Każdy przy-
padek nietypowy jest oznaczony numerem obserwacji i dzięki temu dość łatwo
znaleźć go w danych.
Niestety, ten sposób wyszukiwania przypadków odstających nie jest bardzo pre-
cyzyjny, bo opiera się na statystyce dla danych porządkowych – rozstępie kwarty-
lowym. Można się także posłużyć innym kryterium – wystarczy zamienić wyniki
surowe na standaryzowane, odnosząc wynik do średniej i podając go w jednostkach
standardowych1. Wtedy mamy do dyspozycji co najmniej trzy kryteria bazujące na
właściwościach standaryzowanego rozkładu normalnego2. Zakładając, że wyniki
mają rozkład normalny, można wskazać, że:
95% wyników mieści się w granicach wyznaczanych przez wartości standaryzo-
wane Z = –1,96, a Z = 1,96, tylko 5% wyników mieści się zatem w obu krań-
cach rozkładu
99% wyników mieści się w obrębie wartości standaryzowanych Z = –2,58,
a Z = 2,58, 1% wykracza zatem poza te wartości
99,9% wyników przekracza przedział określone wartościami Z = –3,29 oraz
Z = 3,29.
1
Wzór pozwalający dokonać takiej operacji w: Bedyńska, Brzezicka, 2007: s. 79.
2
O właściwościach rozkładu normalnego można przeczytać między innymi w: Fergu-
son, Takane, 2004.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 71
Tak więc te wartości pozwalają określić, ile procent skrajnych wyników mieści
się poza przedziałem opisanym wartościami jednostek standardowych. I vice versa
– jak szeroki ma być zakres przedziału wartości standaryzowanych, by poza nim
znalazł się określony procent przypadków najbardziej skrajnych. Jeśli uznamy, że
interesuje nas 5% skrajnych wyników, to wyszukujemy te wartości standaryzo-
wanych reszt, które są mniejsze niż –1,96 lub większe niż 1,96. Jeśli chcemy być
jeszcze bardziej selektywni i wybrać jeszcze bardziej skrajne wyniki, to posze-
rzamy przedział do –2,58 oraz 2,58 lub kolejnej pary wartości podanej powyżej.
Oprócz tych prostych sposobów diagnozowania przypadków odstających mamy
także do dyspozycji w programie IBM SPSS Statistics wiele bardziej specjalistycz-
nych statystyk, które umożliwiają rozstrzygnięcie nie tylko tego, czy przypadek
odbiega od ogółu danych, ale również czy modyfikuje znacząco wyniki analizy
regresji. Przyjrzyjmy się dokładniej możliwościom, jakie daje moduł analizy regresji.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
72 Część I Modele RegReSjI
Rysunek 3.8. Przebieg linii regresji, gdy przypadek odstający pojawia się
w wartościach predyktora
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 73
Rysunek 3.10. Przebieg linii regresji, gdy przypadek odstający pojawia się w wartościach
zmiennej zależnej
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
74 Część I Modele RegReSjI
Rysunek 3.12. Przebieg linii regresji, gdy przypadek odstający pojawia się w wartościach
obu zmiennych: predyktora i zmiennej zależnej
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 75
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
76 Część I Modele RegReSjI
Inną grupą statystyk są miary odległości. Opierają się one na innym założeniu niż
reszty. Otóż, statystycy zauważyli, że przypadki odstające to często takie, które
– co prawda, leżą blisko linii regresji, ale ich odległość od swego rodzaju środka
ciężkości pozostałych danych (tzw. centroidy) jest duża. Z takim przypadkiem
mamy do czynienia na rysunku 3.12. Znacznie lepszą diagnostykę oferują wtedy
miary odległości, ponieważ reszty – surowe czy standaryzowane – są w takim
przypadku „ślepe i głuche”.
Miarami odległości są:
odległość cooka odległość Cooka (Cook’s Distance – COO) – jeśli przekracza wartość 1, to
(coo) przypadek uznajemy za odstający. Daniel Larose przytacza jeszcze kilka bar-
dziej specyficznych kryteriów pozwalających na bazie odległości Cooka okre-
ślić, czy przypadek jest odstający (Larose, 2008: s. 57)3.
wartość wpływu Wartość wpływu (Leverage – LEV) – statystyka ta może przyjmować warto-
(lev) ści od 0 do 1. Aby określić, czy przypadek jest odstający, należy obliczyć naj-
pierw średnią, przeciętną wartość wpływu dla zbioru danych, którym dyspo-
nujemy. By to zrobić, musimy skorzystać ze wzoru (k + 1) / n, gdzie k to liczba
predyktorów w modelu, natomiast n to liczba uczestników badania. Uznajemy
przypadek za wpływowy, jeśli jego wartość dwukrotnie albo trzykrotnie prze-
kracza obliczoną wcześniej wartość przeciętną.
odległości odległości Mahalanobisa (Mahalanobis Distance – MAH) – są one powią-
mahalanobisa zane z wartością wpływu. Mierzą odległość danej obserwacji od średniej ze
(mah) zmiennych niezależnych. Niestety, istnieje trudność w określeniu punktu
odcięcia przypadków wpływowych. Field podaje, że przy próbach o liczebno-
ści n = 500 i pięciu predyktorach wartości odległości Mahalanobisa powyżej
25 wskazują, że przypadek jest odstający, przy próbie n = 100 i trzech pre-
dyktorach już wartość wynosząca 15 sugeruje pojawienie się takiego przy-
padku, a przy małej próbie n = 50 i jednym predyktorze wartość 11 powinna
być brana pod uwagę jako wskazująca na poszukiwany przypadek wpływowy
(Field, 2009).
3
Zainteresowanych czytelników zachęcamy do sięgnięcia po tę pozycję.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 77
Trzecia grupa miar diagnostycznych w analizie regresji to statystyki wpływu. statystyki wpływu
Pojawiły się one w celu diagnozy takiego układu wyników, w którym przypadek
odstający nie dość, że odbiega wartościami od pozostałych obserwacji, to jeszcze
znacząco modyfikuje przebieg linii regresji, przesuwając ją w swoim kierunku. Te
miary są więc szczególnie czułe na wpływowe przypadki odstające. Taką
sytuację obrazują rysunki 3.8 i 3.10. W programie IBM SPSS Statistics znajdziemy
kilka statystyk zaprojektowanych na taką sytuację, które znakomicie identyfikują
wpływowe przypadki odstające:
Wartości przewidywane skorygowane (Adjusted Predicted Value – ADJ) – pro- wartości przewidywane
gram oblicza nowy model z pominięciem tego konkretnego przypadku i na skorygowane
podstawie tego nowego modelu oblicza wynik przewidywany dla tej obser- (adj)
wacji. Jeśli obserwacja jest wpływowa, to wynik przewidywany na podstawie
modelu z pominięciem tego przypadku będzie znacznie odbiegał od wyniku
przewidywanego na podstawie modelu ze wszystkimi obserwacjami. Ta róż-
nica między wartością przewidywaną skorygowaną a rzeczywistą wartością
przewidywaną jest określana przez statystykę zwaną DfFit.
reszty usuniętych (Deleted Residual – DRE) – wartość odległości między wyni- reszty usuniętych
kiem rzeczywistym a wartością przewidywaną skorygowaną. Im jest większa, (dre)
tym bardziej przypadek wpływa na przebieg regresji..
reszty studentyzowane usuniętych (Studentized Deleted Residual – SDR) – jest reszty studentyzowane
to reszta usuniętych, ale podzielona przez odchylenie standardowe, a więc usuniętych
przeliczona na wyniki statystyki t. Ta wartość może być porównywana między (sdr)
różnymi modelami.
DfFit (DFF) i standaryzowane DfFit (SDF) – statystyka DFFit powstaje dffit (dff)
w wyniku obliczenia różnicy wartości przewidywanej dla danej obserwacji wów- i standaryzowane
czas, gdy regresja uwzględnia wszystkie obserwacje, oraz w takim przypadku dffit (sdf)
gdy dana obserwacja zostanie wyłączona z obliczeń. Im mniejsza jest wartość
DfFIT, tym mniej dany przypadek jest wpływowy. Ponownie jak w przypadku
reszt łatwiej poddać interpretacji wartość standaryzowaną tego współczynnika.
DfBety (DFB0 i DFB1) i standaryzowane DfBety (SFB0 oraz SFB1) – sta- dfbety (dfb0 i dfb1)
tystyki te to różnica między parametrami modelu regresji z uwzględnieniem i standaryzowane dfbety
danego przypadku (dla wszystkich danych) i jeśli ten przypadek usuniemy. (sfb0 oraz sfb1)
Program szacuje parametry modelu regresji (współczynnik nachylenia) dla
wszystkich obserwacji, a następnie usuwa pierwszą obserwację i wylicza model
dla pozostałych. Różnicę między parametrami podaje w postaci statystyki
dfBeta dla każdej obserwacji. Im większa jest wartość dfBeta, tym większa
różnica między modelem dla wszystkich obserwacji a tym po usunięciu danego
przypadku. Tak więc im większa wartość dfBeta, tym bardziej przypadek
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
78 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 79
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
80 Część I Modele RegReSjI
Tabela 3.4. Wartości statystyk diagnostycznych zapisane jako zmienne w edytorze danych
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 81
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
82 Część I Modele RegReSjI
Wartości reszt nie w każdym przypadku niosą taką jasną informację. Wartość
reszty niestandaryzowanej nie odbiega znacząco od wartości tej statystyki uzyskiwa-
nych przez inne obserwacje, o których wiemy, że nie są przypadkami odstającymi.
Tak samo dzieje się w przypadku reszt standaryzowanych czy studentyzowanych.
Nieco wyraźniej informację o odstawaniu tego przypadku przekazują standaryzo-
wane reszty usuniętych i studentyzowane reszty usuniętych.
Obserwacja wygląda na wpływową, bo statystyki DFFit i DFBety uzyskują bardzo
wysokie wartości znacząco odbiegające od pozostałych. Podobnie iloraz kowariancji,
który jest znacząco niższy niż wartość kryterialna 0,45, obliczona według wzoru za-
mieszczonego przez Fielda (Field, 2009). Oznacza to, że usunięcie tego przypadku zna-
cząco poprawi dokładność predykcji dokonywanej za pomocą analizy regresji. Przypo-
mnijmy jeszcze wykres rozrzutu, na którym widać przypadek odstający (zob. rys. 3.18).
Przypadek oznaczony kółkiem rzeczywiście jest wpływowy, ponieważ przesuwa
linię regresji w swoim kierunku, obniżając ją znacząco, co oznacza zmniejszenie siły
efektu. Czytelnik może to sprawdzić samodzielnie, licząc analizę regresji dla całej
grupy oraz taką, w której trzecia obserwacja jest usunięta z danych. Jak wskazuje
edytor raportów, współczynnik beta dla wszystkich obserwacji wynosi 0,48, a model
jest nieistotny, podczas gdy po usunięciu trzeciej obserwacji ze zbioru danych uzy-
skamy znacząco wyższy współczynnik regresji beta = 0,89 i istotny statystycznie.
Dlatego właśnie taki przypadek nazywamy wpływowym, ponieważ istotnie
wpływa na parametry modelu regresji.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 83
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
84 Część I Modele RegReSjI
miary odległości – odległość Mahalanobisa dla szóstej obserwacji nie odróżnia się
od odległości Mahalanobisa dla osoby ósmej, która nie jest przypadkiem odstają-
cym. Ta statystyka nie stanowi zatem dobrej podstawy diagnostyki przypadków
odstających w tej sytuacji. Podobny układ wartości ujawnia się w przypadku
wartości wpływu (leverage). Gdy przyjrzymy się kolumnie LEV_1, to zobaczymy,
że ponownie wartość tej statystyki jest identyczna dla obserwacji wykazywanej na
wykresie skrzynkowym jako obserwacja odstającej jak i dla obserwacji ósmej. Jedyną
statystyką, która adekwatnie pokazuje wyniki szóstej osoby jako odstające, jest
wartość odległości Cooka. Teraz zerknijmy na wartości wpływu: iloraz kowariancji
i dfBety. Wszystkie one niosą jednoznaczną informację, że przypadek nie dość, że
można zaklasyfikować jako odstający, to jeszcze na pewno jest wpływowy.
Potwierdza to wykres na rysunku 3.21, który pokazuje wpływowy przypadek
odstający. Widać wyraźnie, że dla predyktora wartość ta nie odstaje znacząco od
pozostałych, ale gdy spojrzymy na zmienną zależną, widzimy, że jest zdecydo-
wanie wyższa od typowych wartości zmiennej. Z całą pewnością modyfikuje też
przebieg linii regresji – analiza dla całego zbioru danych szacuje standaryzowany
współczynnik regresji beta = 0,69, podczas gdy po usunięciu szóstej osoby bada-
nej współczynnik ten wzrasta do beta = 0,78.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 85
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
86 Część I Modele RegReSjI
podsumoWanie
Analiza regresji jako technika parametryczna w swej klasycznej postaci została
obwarowana licznymi założeniami. Jednak jak pokazuje praktyka analityczna, nie-
spełnienie niektórych założeń nie niesie znaczących konsekwencji dla wyników.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 87
Nie można jednak zupełnie pomijać testowania założeń, ponieważ może się oka-
zać, że błędnie dobierzemy model liniowy, gdy nie jest on adekwatny, a mode-
lem matematycznym dobrze opisującym dane jest raczej linia krzywa. Testowa-
nie założeń pozwala także wzbogacić analizę o istotne moderatory i poszukiwać
interakcji, znacznie ciekawszych dla tworzenia teorii niż efekty główne. Do szu-
kania interakcji może nas skłaniać brak homoscedastyczności reszt. Wreszcie
model może nie być dobrze dopasowany lub może być błędnie opisany, gdy nie
sprawdzamy założenia normalności reszt, przez co w danych pozostają przypadki
odstające. Można więc sądzić, że testowanie założeń, niekiedy w dość prosty spo-
sób poprzez wnikliwe obejrzenie wykresów czy statystyk diagnostycznych, jest
warunkiem niezbędnym do uzyskania sensownych wyników.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część i
modele regresji
rozdział
zmienne jakościowe
jako predyktory
w analizie regresji
4
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Analiza regresji w swym klasycznym kształcie została zaprojektowana do poszuki-
wania zależności między zmiennymi ilościowymi. Okazuje się jednak, choć to dość
obrazoburcze dla purystów statystycznych, że metoda ta znakomicie radzi sobie
z takimi predyktorami, które są jakościowe, pod warunkiem, że są dychotomiczne.
Zerknijmy, jakie będą efekty wprowadzenia do regresji jakościowej dychotomicz-
nej zmiennej wyjaśniającej. W tym celu otwórzmy dane rozdział4.sav i wykonajmy
analizę testem t-Studenta dla prób niezależnych, by porównać kobiety i mężczyzn
pod względem lubienia astronomii.1 Poniżej zamieszczamy wydruk ze statysty-
kami testu (tab. 4.1).
Statystyki testu t(18) = 2,59; p < 0,05 pokazują, że osoby obu płci różnią się
istotnie statystycznie. Kolumna zawierająca średnie uzupełnia te informacje, wska-
zując, że to kobiety bardziej lubią astronomię niż mężczyźni, ponieważ średnia
dla tej grupy jest wyższa niż dla grupy mężczyzn (zob. tab. 4.2).
Zanim przystąpimy do wykonywania analizy regresji, spróbujmy obejrzeć te
dane na nietypowym wykresie – nie wybierzemy bowiem wykresu słupkowego, za
pomocą którego zwykle obrazujemy różnicę dwóch średnich, ale wykonamy wykres
rozrzutu. Płeć umieszczamy na osi X, natomiast zmienną astronomia na osi Y (szczegó-
łowe wskazówki, jak wykonać wykres rozrzutu w: Bedyńska, Brzezicka, 2007: s. 94).
Tabela 4.1. Statystyki testu t-Studenta dla prób niezależnych dla zmiennych płeć i astronomia
Tabela 4.2. Średnie dla poziomu lubienia astronomii dla kobiet i mężczyzn
1
Czytelnik, który chce sobie przypomnieć, jak wykonać ten rodzaj analizy, powinien
sięgnąć do: Bedyńska, Brzezicka, 2007: s. 184.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 91
Trochę ten wykres zmodyfikowałyśmy, dodając linię regresji. Spróbujmy się teraz
zastanowić, jakie informacje przekazuje ta linia. Jeśli znajdziemy miejsce przecięcia
linii regresji z pionowo ułożonymi punktami oznaczającymi wyniki danej grupy,
odczytamy wartość przewidywaną dla tej grupy. Na wykresie jest ona oznaczona
dwiema czarnymi kropkami (zob. rys. 4.1). Jeśli odczytamy wartości zmiennej astro-
nomia dla obu kropek, to uzyskamy… nic innego tylko wartości średnich grupo-
wych. Dla grupy, która kodowana była wartością 1 (kobiety), średnia ta wynosi 8,
a dla grupy oznaczonej 2 (mężczyzn) – średnia to 7,1. Wartości te są zgodne z tym,
co pokazuje wydruk. Stąd ważna wskazówka, że jeśli wprowadzimy do regresji
dychotomiczny predyktor, to średnie grupowe są tożsame z wartościami prze-
widywanymi w równaniu regresji.
Kropkami są oznaczone
wartości przewidywane
dla danej grupy – linie
wskazują ich wartości
na osi Y, na której są
przedstawione wartości
zmiennej astronomia.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
92 Część I Modele RegReSjI
z wykonaniem analiz. Ale czy wyniki niosą jakiś sens? Zerknijmy do edytora
raportów – uzyskaliśmy na wydruku wiele informacji typowych dla zwykłej analizy
regresji. Zacznijmy od wydruku analizy wariancji. Jak widać w tabeli 4.3, analiza
wariancji pokazuje, że model jest dobrze dopasowany do danych F(1, 18) = 6,69;
p < 0,05. Co ciekawe, wartość statystyki F to nic innego jak podniesiona do
kwadratu wartość statystyki t z tabeli 4.1. Obie statystyki odpowiadają więc
sobie – konieczność podniesienia do kwadratu statystyki t wynika z konstrukcji
statystyki F, która powstaje poprzez podniesienie do kwadratu wielkości odległości
między dwiema średnimi. Statystyka t zaś to prosta odległość dwóch średnich.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 93
Współczynnik istotnie różni się zatem od zera, co oznacza istotną relację mię-
dzy zmiennymi. Jak interpretować wartość współczynnika beta? Relacja jest silna
i ujemna. Zastanówmy się nad tym, jak jest zakodowana zmienna niezależna. Płeć
przyjmuje tutaj dwie wartości: 1 oznaczane są kobiety, a 2 mężczyźni. W dużym
uproszczeniu można zatem powiedzieć, że wraz ze wzrostem wartości mamy wzrost
męskości, bo wyższą wartością są kodowani mężczyźni. Tak więc ujemy współ-
czynnik sugeruje, że to mężczyźni mają niższą wartość sympatii wobec astronomii
– im wyższa męskość, tym mniejszy poziom sympatii wobec astronomii. Ujemny
współczynnik mówi, że pierwsza średnia jest wyższa, a druga niższa, dodatni – że
pierwsza jest niższa, a druga wyższa.
Zajmijmy się teraz wartościami współczynników niestandaryzowanych. War-
tość stałej wynosi 8,9, a wartość współczynnika kierunkowego równa jest –0,9.
Na podstawie tych współczynników możemy teraz obliczyć średnie grupowe dla
uwzględnianych grup. Zapiszmy najpierw równanie regresji – pomoże nam ono
obliczyć wartości średnich grupowych. Równanie to wygląda następująco:
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
94 Część I Modele RegReSjI
Biorąc pod uwagę to, że kobiety są kodowane w zmiennej płeć1 jako wartość 0,
można stwierdzić, że średnia dla tej grupy jest tożsama z wartością stałej. By
obliczyć średnią dla mężczyzn, trzeba do wzoru podstawić wartość 1 w miejsce X.
Obliczenia w tym przypadku też są proste.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 95
KodoWanie zero-jedynKoWe
Kodowanie zero-jedynkowe w języku angielskim nazywa się tworzeniem dummy dummy variables
variables, ale niestety lepsze tłumaczenie niż zmienne instrumentalne jest nie-
zwykle trudne. Najłatwiej będzie ten sposób kodowania wyjaśnić na przykładzie;
otwórzmy zatem dane rozdział4_1.sav i przyjrzyjmy się zmiennym. Będziemy
próbowali prognozować poczucie szczęścia na podstawie poziomu wykształcenia.
Załóżmy, że zmienna szczęście była mierzona kwestionariuszowo, dzięki czemu
uzyskamy ilościowy poziom pomiaru. Zmienna wykształcenie, która stanowi tutaj
zmienną wyjaśniającą, jest porządkowa i obejmuje trzy kategorie odpowiedzi:
podstawowe, średnie i wyższe. Wyjaśnijmy w tym przypadku logikę i kolejne kroki
tworzenia zmiennych instrumentalnych, by następnie przejść do przekształceń
rzeczywistych zmiennych i wykonania analizy regresji z ich wykorzystaniem.
Najpierw wyjaśnijmy zatem, co będziemy robić w kolejnych krokach analiz.
Celem wszystkich przekształceń będzie utworzenie zmiennych instrumental-
nych, które będą dychotomiczne i przyjmą wartości 0 oraz 1. Chcemy, by wartość
1 oznaczała, że dana osoba ma określony poziom wykształcenia, a wartość 0, że
danego poziomu nie ma. Tak więc przykładowo utworzymy zmienną o nazwie
wyższe, która będzie przyjmowała wartość 1, jeśli osoba ma wykształcenie wyższe,
a wartość 0, jeśli ma podstawowe lub średnie. Potem utworzymy zmienną o nazwie
średnie, w obrębie której wartość 1 będzie oznaczała, że osoba ma ten właśnie typ
wykształcenia, a wartość 0, że ma inne wykształcenie niż średnie (podstawowe
lub wyższe). I teraz bardzo ważna kwestia – będziemy te zmienne instrumentalne
wprowadzać do jednej analizy regresji. Musimy się więc zastanowić, ile zmiennych
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
96 Część I Modele RegReSjI
1 (podstawowe) 0 0
2 (średnie) 1 0
3 (wyższe) 0 1
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 97
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
98 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 99
Tabela 4.8. Statystyki analizy wariancji określającej dopasowanie modelu do danych dla
zmiennej zależnej szczęście i zmiennych niezależnych średnie i wyższe
Tabela 4.9. Współczynniki modelu regresji dla zmiennej zależnej szczęście i zmiennych
niezależnych średnie i wyższe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
100 Część I Modele RegReSjI
Teraz obliczmy średnie grupowe. Średnia dla grupy referencyjnej, czyli dla osób
z wykształceniem podstawowym, to wartość stałej. Wartość dla osób z wykształ-
ceniem średnim można obliczyć, posługując się równaniem regresji:
Yszczęście = 8 – 2 • X średnie – 0,1 • Xwyższe.
Tabela 4.10. Miary siły efektu dla analizy regresji dla zmiennej zależnej szczęście
i zmiennych niezależnych średnie i wyższe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 101
Tabela 4.11. Współczynniki modelu regresji dla zmiennej zależnej szczęście i zmiennych
niezależnych średnie i podstawowe
KodoWanie quasi-eKsperymentalne
Niekiedy, choć zdecydowanie rzadko, stosuje się inny sposób postępowania w przy-
padku wielokategorialnych zmiennych – kodowanie, które Jerzy Brzeziński nazywa
quasi-eksperymentalnym (Brzeziński, 2002). Ten rodzaj kodowania zmiennych kodowanie quasi-
kategorialnych (jakościowych) pozwala na porównanie średniej z danej grupy ze -eksperymentalne
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
102 Część I Modele RegReSjI
1 (podstawowe) 0 1
2 (średnie) 1 0
3 (wyższe) –1 –1
średnią ogólną obliczoną dla wszystkich osób badanych. Takie porównanie jest
rzadko spotykane w badaniach psychologicznych, ale niekiedy może być użyteczne.
Kodowanie to wykorzystuje trzy wartości: 1, 0 oraz –1. Wartością –1 oznaczamy
osoby należące do tej grupy, która z punktu widzenia hipotez jest najmniej istotna
– dla tej grupy nie uzyskamy wartości współczynnika beta. Wartością 1 kodujemy
tę grupę, która ma być odnoszona do średniej ogólnej. W naszym przykładzie
uznajmy, że najmniej nas interesują osoby z wykształceniem wyższym, a główne
porównania, które chcemy uzyskać, to średnia dla osób z wykształceniem średnim
ze średnią ogólną oraz tych z wykształceniem podstawowym ze średnią ogólną
(schemat kodowania przedstawia tabela 4.12).
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 103
Tabela 4.13. Współczynniki modelu regresji dla zmiennej zależnej szczęście i zmiennych
niezależnych średnie1 oraz podstawowe1
Tabela 4.14. Wyniki analizy wariancji w analizie regresji dla predyktorów średnie1 oraz
podstawowe1 dla zmiennej zależnej szczęście
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
104 Część I Modele RegReSjI
KodoWanie ortogonalne
Ostatnim typem kodowania zmiennych instrumentalnych, o którym wspomnimy,
kodowanie ortogonalne jest kodowanie ortogonalne. Jego nazwa sugeruje zbieżność z kontrastami
w analizie wariancji i zbieżność ta nie jest przypadkowa. Kodowanie ortogonalne
oparte jest na tej samej logice co kontrasty ortogonalne, czyli takie porównania,
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 105
1 (podstawowe) 1 1
2 (średnie) –1 1
3 (wyższe) 0 –2
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
106 Część I Modele RegReSjI
Tabela 4.17. Współczynniki modelu regresji dla zmiennej zależnej szczęście i zmiennych
niezależnych średnie2 oraz wyższe2
wyższym. Obliczmy jeszcze średnie dla poszczególnych grup, posługując się rów-
naniem regresji w postaci Yszczęście =7,3+1 • Xpodstawowe2 – 0,3 • Xwyższe2. Otrzymujemy:
Osoby z wykształceniem podstawowym są kodowane w zmiennej podstawowe2 war-
tością 1, a w zmiennej wyższe2 mają wartość 1. Po podstawieniu do wzoru w miej-
sce Xpodstawowe2 oraz Xwyższe2 uzyskujemy wartość: Y = 7,3 + 1 • 1 – 0,3 • 1 = 8.
Osoby w wykształceniem średnim są kodowanie jako wartość –1 w zmiennej
podstawowe2 oraz 1 w zmiennej wyższe2. Po podstawieniu do wzoru uzyskujemy
wartość: Y = 7,3 + 1 • (–1) – 0,3 • 1= 6.
Wreszcie, osoby z wykształceniem wyższym mają odpowiednio wartości 0 oraz
–2, więc po podstawieniu do wzoru uzyskujemy: Y = 7,3 + 1• 0 – 0,3 • (–2) = 7,9.
By sprawdzić, czy obliczenia są prawidłowe, wykonajmy analizę kontrastów
w analizie wariancji, wprowadzając odpowiednie współczynniki kontrastu zgod-
nie z tabelą 4.16. Wydruk przypomina najpierw sposób wprowadzenia współ-
czynników kontrastów – mamy możliwość sprawdzenia, czy zostały one wprowa-
dzone zgodnie z założeniem (tab. 4.18). Zwróćmy tylko uwagę na to, jaką zmienną
wprowadzimy jako czynnik w jednoczynnikowej analizie wariancji. Tak długo
pracowaliśmy na zmiennych instrumentalnych, że teraz trzeba się mocno pilno-
wać, by nie wprowadzić tych właśnie zmiennych do analizy jednoczynni-
kowej. W oknie jednoczynnikowej analizy wariancji jako czynnik umieszczamy
zmienną wykształcenie, a jako zmienną zależną zmienną szczęście.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 107
Testy kontrastu nie pozostawiają wątpliwości (por. tab. 4.19). Zarówno pierwszy,
jak i drugi kontrast są istotne statystycznie, a poziomy istotności są identyczne
jak te uzyskane w regresji. Odpowiednie są też znaki wartości statystyki t dla
obu kontrastów.
podsumoWanie
Analiza regresji, choć zaprojektowana do analizy danych ilościowych, świetnie daje
sobie radę z analizą danych jakościowych. Istnieje jednak poważne ograniczenie
polegające na liczbie wartości zmiennej niezależnej jakościowej. Jako predyktory
możemy bowiem wprowadzać jedynie zmienne dychotomiczne, czyli dwuwartoś-
ciowe. To poważne ograniczenie skutkuje koniecznością przygotowania zmien-
nych instrumentalnych – pomocniczych wtedy, gdy oryginalny predyktor przyj-
muje więcej niż dwie wartości. W literaturze prezentowanych jest co najmniej kilka
sposób tworzenia zmiennych instrumentalnych, wykorzystywanych w zależności
od brzmienia hipotez. Wśród nich wymienić można kodowanie zero-jedynkowe
(dummy coding), quasi-eksperymentalne (interaction coding) oraz ortogonalne (contrast
coding). Każdy sposób tworzenia zmiennych pomocniczych posługuje się następu-
jącą regułą tworzenia zmiennych pomocniczych: tworzymy o jedną mniej liczbę
zmiennych pomocniczych niż wartości w obrębie zmiennej oryginalnej. Jeśli więc
do równania regresji chcemy wprowadzić zmienną znak zodiaku o 12 wartościach,
to będziemy tworzyć 11 zmiennych pomocniczych. Wiąże się z tym druga trud-
ność – korzystając z pierwszej i najbardziej rozpowszechnionej metody tworzenia
zmiennych instrumentalnych, musimy ustalić jedną grupę jako grupę odniesienia,
do której będą porównywane pozostałe. Wybór ten powinien być podyktowany
brzmieniem pytania badawczego, hipotezy czy ogólniej problemu badawczego.
Pozostałe techniki kodowania zmiennych pomocniczych są zdecydowanie
rzadziej wykorzystywane w analizie regresji. Za pomocą kodowania quasi-ekspe-
rymentalnego dokonuje się porównania każdej kategorii zmiennej wyjściowej ze
średnią ogólną, kodowanie ortogonalne zaś umożliwia testowanie hipotez kierun-
kowych, w sytuacji gdy hipoteza wyraźnie wskazuje, że jedna (lub więcej grup)
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
108 Część I Modele RegReSjI
będzie się różniła od innej grupy (innych grup). Postępowanie to daje identyczne
rezultaty jak analiza kontrastów wykonywana w analizie wariancji. Ten przy-
kład pozwala także lepiej zrozumieć wzajemne powiązania pomiędzy poszczegól-
nymi metodami statystycznymi. Widać bowiem wyraźnie, że metoda regresji jest
techniką analityczną ogólniejszą niż analiza wariancji. Można nawet powiedzieć,
że analiza wariancji jest specjalnym przypadkiem analizy regresji. Jak żartobli-
wie podsumowują autorzy podręcznika statystycznego Statistics for the behavioral
and social sciences: A brief course (Aron, Aron, Coups, 2004), jeśli jadąc na bezludną
wyspę, można byłoby zabrać ze sobą jedynie jedną technikę statystyczną, z całą
pewnością należałoby zabrać analizę regresji jako najbardziej uniwersalne narzę-
dzie statystyczne. Dobrze, że dylematy takie – co zabrać na bezludną wyspę?
– nie są zbyt realne.
Powstaje jednak pytanie: skoro obie metody: analiza regresji i analiza wariancji
pozwalają dojść do tych samych wyników, to która z nich jest bardziej odpowied-
nia? którą z nich wybrać? Odpowiedź nie jest prosta. Po pierwsze warto zerknąć
do postawionych hipotez czy pytań badawczych. Jeśli mówią one o związku,
relacji, to powinniśmy wykonać analizę regresji, jeśli pytamy o różnice, to wybór
powinien paść raczej na analizę wariancji. Z naszego doświadczenia wynika, że
analiza wariancji jest zdecydowanie łatwiejsza do zrozumienia, ponieważ ludzie
łatwiej przetwarzają informacje o różnicach niż o związku. Nasza rekomendacja
jest zatem jednoznaczna: wszędzie tam, gdzie mamy jedynie zmienne jakościowe
jako zmienne niezależne, dokonujmy analizy wariancji. Analizę regresji zostawmy
do wykorzystania w takich sytuacjach, gdy choć jedna zmienna niezależna jest
ilościowa. Jej redukcja do kilku kategorii jest wtedy znacznym uproszczeniem,
które może znacząco odbić się na wynikach.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część i
modele regresji
rozdział
Analiza mediacyjna
w regresji.
Poszukiwanie zmiennych
5
pośredniczących
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Prowadzenie badań naukowych ma kilka celów. Pierwszym z nich jest identyfikacja
i opisanie pewnych prawidłowości w postaci naukowych twierdzeń uzasadnionych
dzięki empirycznej demonstracji efektu czy zależności. Jednak drugim ważnym
celem jest wskazanie, dlaczego taki efekt czy prawidłowość się ujawnia, innymi
słowy: określenie zmiennych pośredniczących danego efektu czy zależności. Prze-
dyskutujmy to zagadnienie na przykładzie, tak by stało się jasne, w jaki sposób
poszukuje się wyjaśnień mechanizmu zjawiska czy zależności.
Jak wskazuje B. Wojciszke, wyjaśnienie mechanizmu zjawiska, czyli okre-
ślenie, dlaczego ono się pojawia czy jak działa, to najważniejszy element postę-
powania naukowego (Wojciszke, 2004). Celem tworzonych koncepcji nie jest
bowiem tylko opis zjawisk, ale ich zrozumienie. Badacza interesuje więc okre-
ślenie, jaki jest ciąg zmiennych między zmienną niezależną a zależną, które
pośredniczą w pojawieniu się danego efektu. Wyobraźmy sobie, że chcemy
wyjaśnić sposób oddziaływania kolorów na ludzi. Badanie wykonane przez
psychologów z amerykańskiego Uniwersytetu w Rochester wskazują jedno-
znacznie, że mężczyźni siadają bliżej, gdy kobieta ubrana jest w czerwoną
bluzkę niż wówczas, gdy ma na sobie bluzkę niebieską (Kayser, Elliot, Felt-
man, 2010). Postawiono wiele hipotez wyjaśniających taką zależność, wśród
nich ewolucyjne wskazujące na znaczenie czerwieni jako sygnału biologicz-
nego oznaczającego gotowość seksualną oraz społeczne sugerujące, że kolor ten
w toku socjalizacji zyskuje dodatkowe znaczenie dzięki kulturowym elemen-
tom, takim jak czerwone serduszka na Dzień Świętego Walentego. Wobec tego
zmienne pośredniczące możemy zadać pytanie o zmienne pośredniczące, szukając takich czynników,
które powodują, że siadamy bliżej kogoś. Można sugerować, że siadamy bliżej
osoby, która wydaje nam się atrakcyjna. Więc atrakcyjność fizyczna to pierw-
szy czynnik, który może stanowić mediator, zmienną pośredniczącą między
kolorem ubioru a zachowaniem mężczyzn (chęcią zbliżenia się do kobiety).
Możemy więc przewidywać, że czerwony kolor powoduje wzrost postrzeganej
subiektywnie atrakcyjności innej osoby, a w konsekwencji chęć zbliżenia się do
niej. Innym mediatorem tej zależności może być raczej postrzeganie kobiety
w czerwieni jako osoby bezpruderyjnej i dostępnej. Jak metodami statystycz-
nymi testować te hipotezy?
Sposób testowania hipotez mediacyjnych po raz pierwszy przedstawili Baron
i Kenny w 1986 roku. W swej pracy podają oni kolejne kroki wykonywania ana-
liz mediacyjnych oraz sposoby ich testowania w analizie regresji. W tym roz-
dziale opiszemy to klasyczne podejście oraz podejście Cohena i Cohen, uzupeł-
nione testami Sobela, Goodmana i Aroiana. To ostatnie podejście jest nieco mniej
konserwatywne niż klasyczna propozycja.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 111
mediator
A B
C
zmienna niezależna zmienna zależna
C'
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
112 Część I Modele RegReSjI
cohen i cohen Alternatywny sposób obliczeń zaproponowali Cohen i Cohen, którzy stwierdzili,
że dla wykrycia mediacji wystarczy stwierdzenie, że obie relacje: zmienna nieza-
leżna – mediator oraz mediator – zmienna zależna są silne i istotne statystycz-
nie (Cohen, Cohen, 1983). Analiza ta nie opiera się więc na porównaniu relacji
bezpośrednich bez uwzględnienia mediatora w modelu ani po jego wprowadze-
niu do modelu, tak jak w klasycznym podejściu. Uznaje się, że najważniejsza
jest relacja zapośredniczona przez mediator i jeśli obie relacje: zmienna nieza-
leżna – mediator, mediator – zmienna zależna są istotne, to można uznać, że
zmienna pełni rolę pośredniczącej. To podejście nie stanowi jednak całkowitego
zaprzeczenia poprzedniego podejścia, a jedynie uzupełnia je o dodatkowe testy
istotności mediacji. Analizy statystyczne wykonujemy więc w tych samych kro-
kach co w poprzednim podejściu, a jedynie dodajemy jeden z kilku dostępnych
testów sprawdzających istotność iloczynu współczynników beta relacji A oraz B.
model cohena i cohen uznaje, że mediacja jest istotna, gdy relacje pośrednie:
zmiennej niezależnej i mediatora oraz mediatora i zależnej są istotne statystycznie.
Stosujemy wtedy test Sobela, Aroiana lub Goddmana dla stwierdzenia, czy iloczyn
współczynników obu tych relacji jest istotnie różny od zera.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 113
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
114 Część I Modele RegReSjI
Rysunek 5.2. Układ zmiennych w analizie regresji dla relacji między zmienną niezależną
a zależną
Tabela 5.1. Współczynniki regresji dla relacji między zmienną niezależną oczekiwania
a zmienną zależną wynik
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 115
Rysunek 5.3. Układ zmiennych dla relacji między zmienną niezależną oczekiwania
a mediatorem czas
Sprawdzamy wydruk (tab. 5.2) i widzimy, że ponownie model okazał się dobrze
dopasowany do danych F(1, 18)= 6,37; p < 0,05. Współczynnik standaryzowany
regresji beta = 0,51 był istotny (p < 0,05) i wskazuje na pozytywną relację mię-
dzy oczekiwaniami nauczyciela i czasem, jaki poświęca on uczniowi. Drugi waru-
nek analizy mediacji okazał się spełniony.
Tabela 5.2. Współczynnik regresji relacji zmiennej niezależnej oczekiwania i mediatora czas
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
116 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 117
natomiast zmienna czas, określająca ilość czasu poświęcanego uczniowi przez nauczy-
ciela, okazała się być jedynym istotnym predyktorem wyniku w teście gimnazjalnym
(beta = 0,59; p < 0,01). Oznacza to, że mamy do czynienia z mediacją całkowitą,
ponieważ relacja między zmienną niezależną a zależną przestała być istotna, gdy
w analizie regresji oprócz zmiennej niezależnej został uwzględniony mediator.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
118 Część I Modele RegReSjI
Współczynniki a oraz b to niestandaryzowane wartości współczynników regresji dla relacji między zmienną
niezależną i mediatorem oraz mediatorem a zmienną zależną; sa oraz sb to odpowiadające im błędy standardowe.
Rysunek 5.5. Kalkulator wartości statystyk testów Sobela, Aroiana i Goodmana w analizie
mediacji dla relacji między oczekiwaniami nauczyciela i wynikiem testu gimnazjalnego
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 119
Rysunek 5.6. Kalkulator wartości statystyk testów Sobela, Aroiana i Goodmana w analizie
mediacji dla relacji między oczekiwaniami nauczyciela i wynikiem testu gimnazjalnego
opis WyniKóW
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
120 Część I Modele RegReSjI
czas
0,51* 0,59*
0,50*
oczekiwania wynik testu
0,20
Rysunek 5.7. Model mediacyjny dla wpływu oczekiwań nauczyciela na wynik testu
gimnazjalnego, w którym mediatorem jest czas poświęcany uczniowi przez nauczyciela.
testu gimnazjalnego – model regresji okazał się być dobrze dopasowany do da-
nych i wskazywał, że im wyższe są oczekiwania, tym wyższy wynik w teście gim-
nazjalnym (beta = 0,50; p < 0,05). Wynik ten replikuje znany w literaturze efekt
Pigmaliona (Babad, Inbar, i Rosenthal, 1982). W drugim kroku analizy testowano
relację między zmienną niezależną określającą oczekiwania nauczyciela a mediato-
rem określającym ilość czasu poświęcanego uczniowi. Ponownie relacja ta okazała
się istotna (beta = 0,51; p < 0,05), a cały model dobrze dopasowany do danych.
Wreszcie w modelu uwzględniającym jednocześnie mediatora i zmienną nieza-
leżną rola zmiennej niezależnej w przewidywaniu wyniku testu zmalała i okazała
się nieistotna (beta = 0,20; p > 0,05), podczas gdy mediator był silnie powiązany
ze zmienną zależną (beta = 0,59; p < 0,01). Zestawienie uzyskanych współczyn-
ników beta prezentuje rysunek 5.7.
Wynik wskazujący na całkowitą mediację ilości czasu poświęcanego uczniowi zos-
tał potwierdzony wynikiem testu Goodmana, który okazał się istotny statystycznie
Z = 1,98; p < 0,05.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 121
ciepło
A1 B1
C1
kolor odległość
C'1
kompetencje
A2 B2
C2
kolor odległość
C'2
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
122 Część I Modele RegReSjI
Tabela 5.4. Współczynnik regresji relacji między zmienną niezależną kolor a zmienną
zależną odległość
Tabela 5.5. Współczynniki regresji dla relacji między zmienna niezależną kolor
a mediatorem ciepło
Rysunek 5.9. Kalkulator wartości statystyk testów Sobela, Aroiana i Goodmana w analizie
mediacji dla relacji między kolorem bluzki kobiety i odległości, w jakiej siada mężczyzna
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 123
Tabela 5.6. Współczynniki regresji dla relacji zmiennej niezależnej kolor i mediatora ciepło
a zmienną zależną odległość
Tabela 5.7. Współczynniki regresji dla zależności zmiennej niezależnej kolor i mediatora
kompetencje
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
124 Część I Modele RegReSjI
Tabela 5.8. Współczynniki regresji dla zależności zmiennej niezależnej kolor i mediatora
kompetencje a zmienna zależną odległość
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 125
Yzerbyt, 2005). Podobnie nie sposób poradzić sobie z szacowaniem w jednej ana-
lizie, czy model pośredni (z mediatorem) jest istotny, jednocześnie z testowaniem,
czy model bezpośredni jest nieistotny statystycznie (prosta relacja zmiennej nie-
zależnej z zależną). Z tymi kwestiami można sobie poradzić bez trudu, sięgając
po bardziej złożoną technikę analityczną – modelowanie równań strukturalnych
opisywane w dalszej części książki.
Warto też wspomnieć o tym, że mediacja nie jest jedynym efektem pośred-
nim, do tej grupy efektów należą także (zob. MacKinnon, 2008):
Supresja (supressor) – efekt pośredni, który polega na tym, że po wprowadze-
niu do modelu relacji zmiennej niezależnej i zależnej trzeciej zmiennej relacja
między początkowymi dwiema staje się silniejsza i istotna statystycznie.
Kowariancja (covariate) – w sytuacji gdy mamy do czynienia z kowariancją,
trzecia zmienna koreluje ze zmienną zależną, ale relacja między niezależną
a kowariantem jest nieistotna statystycznie. Zwykle próbujemy wyeliminować
wpływ zmiennych kowariancyjnych, zdając sobie sprawę, że mogą utrudniać
odszukanie relacji między zmienną niezależną a zależną. Kowariant wyjaśnia
zmienność zmiennej zależnej, ale jest to niezależne źródło wyjaśniania w sto-
sunku do interesującej nas zmiennej niezależnej.
Korelacja pozorna (confounder) – to zjawisko, w którym trzecia zmienna powią-
zana jest ze zmienną zarówno zależną, jak i niezależną, ale kierunek przyczy-
nowości biegnie od tej zmiennej do obu zmiennych, których relacja nas intere-
suje. W mediacji kierunek relacji powinien przebiegać od zmiennej niezależnej
do mediatora – tutaj kierunek relacji przyczynowej jest odwrotny: od media-
tora do zmiennej niezależnej.
Moderacja (moderator) – to inaczej analiza interakcji. Moderator to zmienna,
która w odróżnieniu od mediatora definiuje, w jakich warunkach zależność się
ujawnia, na jakie osoby danych efekt działa. Nie wyjaśnia więc, dlaczego jakieś
zjawisko działa, ale w jakich warunkach. Znajomość mediatorów przyczynia
się do określenia moderatorów zjawiska, ale niestety znajomość moderatorów
nie zawsze wskazuje trop w poszukiwaniu mediatorów. Typowym moderato-
rem jest płeć, niemniej rzadko wskazuje ona na to, jaki może być mechanizm
zjawisk psychologicznych, bo płeć różnicuje niezliczone właściwości psychiczne
i wybór byłby trudny.
podsumoWanie
Poszukiwanie mediatorów, choć niezwykle interesujące z punktu widzenia kon-
struowania teorii psychologicznych, jest bardzo łatwe w sensie analitycznym
w programie IBM SPSS Statistics. Analiza mediacji to nic innego jak seria analiz
regresji, wzbogacona o dodatkowe testy, dostępne w internetowych kalkulatorach.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
126 Część I Modele RegReSjI
Niemniej sens przeprowadzania analiz mediacyjnych jest dużo głębszy i ich wyko-
rzystanie musi zostać poprzedzone poszukiwaniami literatury wskazującej na
przyczynowo-skutkowy charakter analizowanych korelacyjnie zależności uwzględ-
nianej zmiennej niezależnej, zależnej i potencjalnego mediatora. Bez tych wcze-
śniejszych badań eksperymentalnych, potwierdzających kierunek zależności mię-
dzy trzema zmiennymi modelu, niemożliwe jest odróżnienie mediacji od innych
efektów pośrednich: kowariancji czy korelacji pozornej.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część i
modele regresji
rozdział
W poszukiwaniu interakcji.
Moderatory w analizie
regresji
6
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Zwykła analiza regresji, w której uwzględniane są dwa predyktory, jest logicznym
odpowiednikiem poszukiwania efektów głównych w dwuczynnikowej analizie
wariancji. Innymi słowy, taki model regresji jest addytywny, bo zakłada, że wpływ
zsumowanych predyktorów daje wyjaśnianie całkowitej zmienności zmiennej zależnej,
ale zależność jednego predyktora ze zmienną zależną nie modyfikuje w żaden sposób
wpływu drugiego; oba efekty są niezależne. Jednak w naukach społecznych, choć nie
efekty interakcyjne tylko, najciekawsze są efekty interakcyjne, dzięki którym można zdefiniować zestaw
warunków, niezbędnych do wystąpienia jakiegoś efektu czy zjawiska. Zmienne,
które wchodzą w interakcje ze zmiennymi niezależnymi, nazywa się w literaturze
moderatory anglojęzycznej moderatorami, ponieważ moderują, tj. zmieniają sposób działania
zmiennej niezależnej na zależną. Posługując się przykładem, możemy wskazać, że
przeciętnie atrakcyjna kobieta jest postrzegana jako bardziej atrakcyjna wówczas,
gdy poprzednio prezentowana jest dziewczyna brzydsza, niż gdy badani zapoznają
się uprzednio ze zdjęciem dziewczyny ładniejszej. Efekt kontrastu powoduje bowiem
znaczący spadek oceny atrakcyjności. Kierunek kontrastu atrakcyjności dwóch osób
odpowiada więc za dokonywaną przez badanych subiektywną ocenę jednej z nich.
I drugi przykład (zaczerpnięty z rozdziału 3): wielkość datku przekazanego na
działalność charytatywną wynika z oceny ważności takich działań dokonywanych
przez badanych, ale także z ich dochodów.
Powyższe przykłady wymagałyby przeprowadzenia analizy interakcji w dwu-
czynnikowej analizie wariancji. Interakcja w analizie regresji może przykładowo
polegać na tym, że relacja między dwiema zmiennymi w jednej grupie jest słabsza
(niska wartość współczynnika regresji beta), a w drugiej bardzo silna (wysoka war-
tość współczynnika regresji beta). Drugim wariantem może być sytuacja, w któ-
rej dla jednej grupy relacja między predyktorem a zmienną zależną jest dodatnia;
w drugiej grupie relacja ta jest ujemna. A więc interakcja może polegać na tym,
że relacja w dwóch grupach ma różną siłę lub też inny kierunek zależności pre-
dyktora i zmiennej zależnej. Dodatkowym wariantem jest taka sytuacja, w któ-
rej w jednej grupie relacja jest prostoliniowa, a w drugiej paraboliczna (funkcja
kwadratowa). Ten wariant jest jednak trudniejszy w analizie i wymaga znajomo-
regresja krzywoliniowa ści regresji krzywoliniowej.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 129
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
130 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 131
gdy składnik interakcyjny jest istotny, czeka nas kolejny krok analiz:
jeśli moderator jest jakościowy, wykonujemy regresje predyktora i zmiennej
zależnej w podziale na podgrupy, w których kryterium stanowią wartości
moderatora
jeśli moderator jest ilościowy, musimy go skategoryzować – najlepiej na trzy
kategorie, by wykonać analizę w podgrupach.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
132 Część I Modele RegReSjI
Rysunek 6.1. Centrowanie zmiennej jakościowej płeć poprzez jej rekodowanie na wartości
–1 oraz 1
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 133
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
134 Część I Modele RegReSjI
Dzięki tej operacji powstanie nowa zmienna, która będzie wycentrowana. Nieco
łatwiej jest uzyskać centrowanie poprzez standaryzację zmiennej. W oknie dia-
logowym, które otwiera się po wyborze z górnego menu opcji ANALIZA–OPIS
STATYSTYCZNY–STATYSTYKI OPISOWE, możemy wybrać opcję ZAPISZ
STANDARYZOWANE WARTOŚCI JAKO ZMIENNE (zob. rys. 6.3), co pozwoli
na uzyskanie automatycznie wystandaryzowanej zmiennej o nazwie Zwrażenia,
bez konieczności samodzielnego obliczania średniej, odchylenia standardowego
i wprowadzania wyrażenia numerycznego w opcji OBLICZ.
Wycentrowaliśmy już obie zmienne niezależne, więc możemy przystąpić do two-
rzenia kolejnej zmiennej pomocniczej określającej wartości składnika interakcyj-
nego. Wracamy więc do opcji PRZEKSZTAŁCENIA–OBLICZ, wpisujemy nazwę
tworzonej zmiennej, może to być int_płeć_wrażenia, a następnie w oknie WYRAŻE-
NIE NUMERYCZNE wprowadzamy wycentrowane zmienne niezależne oddzie-
lone znakiem mnożenia (gwiazdką) (zob. rys. 6.4). Zróbmy składnik interakcyjny
obliczony z wykorzystaniem zmiennej wystandaryzowanej – czytelnik może ana-
logiczne wykonać drugą zmienną i porównać efekty obliczeń samodzielnie.
Skoro już przygotowaliśmy zmienne do wykonania analizy regresji, nie pozostaje
nic innego, jak przystąpić do dalszych obliczeń. Wykonujemy drugi krok – hierar-
chiczną analizę regresji, w której najpierw wprowadzamy predyktor i moderator,
a następnie składnik interakcyjny. Wchodzimy więc w górnym menu w opcję
ANALIZA–REGRESJA–LINIOWA i wybieramy z listy zmienne wrażenia oraz
płeć i przenosimy je do okna ZMIENNE NIEZALEŻNE. Deklarujemy zmienną
zależną, wybierając z listy zmienną depresja (rys. 6.5).
Klikamy przycisk NASTĘPNA, znajdujący się nad listą zmiennych niezależ-
nych, i okienko zmiennych niezależnych staje się puste, a napis nad nim informuje
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 135
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
136 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 137
Tabela 6.3. Statystyki R2 i zmiany R2 dla obu modeli z uwzględnieniem efektów głównych
oraz efektu interakcyjnego
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
138 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 139
Aby określić zależność płci i natężenie wrażeń oraz ich interakcji ze zmienną za-
leżną natężenie objawów depresyjnych wykonano analizę regresji ze składnikiem interak-
cji. Zmienne niezależne wycentrowano, przy czym w przypadku zmiennej wrażenia
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
140 Część I Modele RegReSjI
Rysunek 6.8. Wykres rozrzutu obrazujący relację między zmienną wrażenia a zmienną
depresja w grupach płciowych
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 141
Rysunek 6.9. Okno dialogowe STATYSTYKI OPISOWE z wybranymi zmiennymi cash i import
poddawanymi standaryzacji
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
142 Część I Modele RegReSjI
Tabela 6.5. Dodatkowe zmienne powstałe w wyniku standaryzacji zmiennych cash i import
w edytorze danych
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 143
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
144 Część I Modele RegReSjI
Tabela 6.7. Współczynniki regresji dla dwóch modeli regresji z efektami głównymi
zmiennych oraz z efektem interakcyjnym
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 145
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
146 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 147
W centrum znajduje się histogram obrazujący rozkład wartości zmiennej ilościowej poddawanej kategoryzacji.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
148 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 149
W TABELI WARTOŚCI I ETYKIET podana została wartość punktu podziału – tutaj mediany – równa 16 punktom.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
150 Część I Modele RegReSjI
Rysunek 6.15. Okno PODZIEL DANE NA POZBIORY ze zdefiniowaną zmienną, która stanowi
kryterium podziału
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 151
Tabela 6.9. Wyniki analizy wariancji określającej dopasowanie modeli regresji do danych
osobno dla dwóch podgrup badanych
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
152 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 153
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
154 Część I Modele RegReSjI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 155
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
156 Część I Modele RegReSjI
dla zmiennej zależnej wielkość datku oraz zmiennej niezależnej ważność zostanie
przedstawiona osobno dla czterech podgrup: kobiet o niskich zarobkach, kobiet
o wysokich zarobkach i analogicznie dla mężczyzn o niskich i wysokich zarob-
kach. Dowiemy się, czym się różni ta relacja w poszczególnych podgrupach – kie-
runkiem, znakiem czy obydwoma parametrami opisującymi relacje zmiennych
ilościowych.
Osobnym przypadkiem jest taka sytuacja, gdy chcemy wykonać analizę interakcji
dla zmiennych, które są jakościowe, ale mają więcej niż dwie wartości. Zmuszeni
jesteśmy wtedy dokonać bardziej złożonych przekształceń w procesie przygotowy-
wania zmiennych niezależnych do wykonania analizy regresji ze składnikiem inte-
rakcyjnym. Zanim przygotujemy dodatkową zmienną kodującą składnik interak-
cyjny, potrzebujemy zastąpić zmienne wielokategorialne na pomocnicze zmienne
dychotomiczne (dummy variables, zob. rozdz. 4). Ten proces niestety powoduje, że
liczba zmiennych niezależnych znacząco rośnie i rośnie także liczba składników
interakcyjnych, które trzeba utworzyć. Z tego też powodu nie polecamy wyko-
rzystywania tej metody, gdy obie zmienne niezależne są jakościowe. W takiej
sytuacji wykorzystywanie analizy regresji jest pracochłonne, a i tak przyniesie te
same rezultaty co analiza wariancji. Zastosowanie tej ostatniej będzie dużo bar-
dziej wiarygodne, gdyż będziemy pewni, że nie popełniliśmy gdzieś błędu, prze-
kształcając zmienne w procesie tworzenia składników interakcyjnych. Gdy tylko
jedna zmienna jest kategorialna i ma przykładowo trzy wartości, musimy utwo-
rzyć dwie zmienne pomocnicze (dummy). W tej sytuacji musimy utworzyć trzy
składniki interakcyjne drugiego stopnia (dwóch zmiennych niezależnych) oraz
jeden składnik interakcyjny trzeciego stopnia. Sytuacja robi się więc dość skom-
plikowana. Wraz ze wzrostem liczby kategorii zmiennej niezależnej rośnie dra-
matycznie złożoność analiz. Trzeba więc się zastanowić, czy nie lepiej połączyć
pewne kategorie razem, by zredukować ich liczbę. Alternatywnie można poddać
redukcji do zmiennej porządkowej zmienną niezależną ilościową i wykonać ana-
lizę wariancji z efektami interakcyjnymi. To wydaje się prostszym rozwiązaniem.
podsumoWanie
Poszukiwanie interakcji w analizie regresji choć możliwe, jest dość skompliko-
wane. Wymaga przygotowania wielu zmiennych pomocniczych – wycentrowanych
zmiennych niezależnych oraz zmiennej definiującej wartości składnika interakcyj-
nego. Analiza regresji powinna wtedy zostać wykonana w kolejnych blokach, bo
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 157
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Czêœæ II
MODELOWANIE
STRUKTURALNE
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część ii
modelowanie
strukturalne
rozdział
Modele strukturalne
zmiennych obserwowalnych 7
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Modelowanie strukturalne służy do analizy struktury oraz siły liniowych zależ-
ności pomiędzy badanymi zjawiskami. Prostym przykładem modelu struktural-
nego jest model regresji, omawiany w rozdziale 1, który opisuje liniową zależność
zmiennej objaśnianej od zmiennych objaśniających i składnika losowego.
Punktem wyjścia do modelowania strukturalnego powinna być zawsze teo-
ria dotycząca badanego zjawiska. To właśnie ona stanowi podstawę do określe-
nia zmiennych uwzględnianych w modelu i ich wzajemnych zależności. Modelo-
wanie strukturalne umożliwia analizę zależności przyczynowo-skutkowych – tak
jak regresja, ale również zależności korelacyjnych. Model to zestaw równań regre-
sji oraz korelacji pomiędzy zmiennymi. Może być prezentowany w postaci wzo-
rów albo za pomocą schematu graficznego.
Na podstawie struktury zależności oraz parametrów opisujących ich siłę (np.
korelacji i współczynników regresji) można wyprowadzić teoretyczną postać macie-
macierz rzy wariancji-kowariancji zmiennych użytych w modelu. Macierz wariancji-kowa-
wariancji-kowariancji riancji zawiera wariancje poszczególnych zmiennych na przekątnej oraz kowariancje
pomiędzy nimi poza przekątną. Kowariancje to niestandaryzowane odpowiedniki
współczynników korelacji. Szacowanie parametrów modelu polega na takim ich
dobraniu, by teoretyczna macierz wariancji-kowariancji wynikająca z modelu była
jak najbardziej zbliżona do obserwowanej macierzy wariancji-kowariancji. Jeśli mimo
wybrania najlepszych pod tym względem parametrów rozbieżność pomiędzy macie-
rzą teoretyczną a empiryczną jest duża, model należy odrzucić jako nieznajdujący
potwierdzenia w danych. W sytuacji gdy obie macierze są do siebie wystarczająco
podobne, można przyjąć model wraz ze stojącą za nim teorią i przystąpić do inter-
pretacji parametrów opisujących kierunek i siłę potwierdzonych zależności. W przy-
padku odrzucenia modelu metodologia modelowania strukturalnego oferuje wska-
zówki mówiące, jak zmienić model, aby osiągnąć lepsze dopasowanie do danych.
Wskazówki te obejmują zarówno usunięcie, jak i dodanie parametrów. Korzystanie
z nich wymaga jednak dużej dozy ostrożności, bo stosowane bezkrytycznie mogą
doprowadzić do powstania modelu, który wprawdzie dobrze odwzorowuje bieżący
zbiór danych empirycznych, ale nie będzie dobrze opisywał kształtowania się bada-
nych zjawisk w populacji. Stąd warto powtórzyć raz jeszcze, że budując i modyfi-
kując model strukturalny, należy zawsze w pierwszej kolejności kierować się teorią.
Modelowanie strukturalne to narzędzie do analizy zmiennych ciągłych. Czę-
sto jednak używa się go również do analizy zmiennych porządkowych. W takim
wypadku należy zadbać, by stosowane skale były jak najdłuższe.
zmienne obserwowalne Zmienne występujące w modelach strukturalnych można podzielić na obserwo-
i nieobserwowalne walne i nieobserwowalne. Pierwsze z nich to takie, które znajdują się w zbiorze danych.
Wśród zmiennych nieobserwowalnych można wyróżnić składniki losowe (reszty),
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 163
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
164 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 165
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
166 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 167
interpretacja parametróW
Wariancja składnika losowego to parametr, który informuje nas o tym, ile warian-
cji zmiennej objaśnianej nie zostało wyjaśnionych przez model.
Współczynnik korelacji wielokrotnej R2 opisuje procent tej wariancji wyjaśnianej
przez zmienne objaśniające.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
168 Część II ModeloWANIe STRuKTuRAlNe
^
życie = 0,06•zdrowie + 0,13•finanse + 0,31•małżeństwo + 0,01•dzieci + 0,14•osiągnięcia +^
e. (3)
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 169
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
170 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 171
efekt bezpośredni
A B
ni
ef
ed
ek
śr
t
po
C
rodzaj wpływu nazywamy wpływem pośrednim (efektem pośrednim). Aby obli- wpływ pośredni
czyć efekty pośrednie, trzeba zidentyfikować wszystkie ścieżki łączące zmienne za
pośrednictwem innych zmiennych. Następnie należy na każdej takiej ścieżce prze-
mnożyć przez siebie wszystkie współczynniki ścieżkowe, a potem zsumować je na
wszystkich ścieżkach. Przy wzięciu pod uwagę wpływu bezpośredniego i jednocze-
śnie wpływu pośredniego otrzymuje się wpływ łączny (efekt łączny), który najlepiej wpływ łączny
opisuje siłę i kierunek wpływu jednej zmiennej na drugą. Oblicza się go jako pro-
stą sumę efektu bezpośredniego i pośredniego, co zilustrowałyśmy na rysunku 7.5.
Efekty pośrednie i efekty łączne mogą być niestandaryzowane i standaryzowane,
tak samo jak efekt bezpośredni. Interpretacja efektów pośrednich i łącznych jest
bardzo podobna do interpretacji efektów bezpośrednich – wystarczy, że w raporcie
dodamy określenia wskazujące na typ interpretowanego efektu.
W tabelach 7.2 prezentujemy oszacowania wszystkich parametrów, a na rysunku
7.6 oszacowany model z rysunku 7.2.
W modelu z rysunku 7.2 występuje jedna kowariancja pomiędzy zmiennymi
finanse oraz zdrowie. Jej oszacowana wartość wynosi 0,415 i jest istotna statystycz-
nie oraz dodatnia. Oznacza to, że pomiędzy tymi zmiennymi występuje dodatnia
zależność liniowa. Współczynnik korelacji wynosi 0,300, można więc tę zależ-
ność uznać za dość silną.
Jedynie wpływ zadowolenia ze stanu zdrowia i własnych osiągnięć na ocenę
całego życia jest wyłącznie bezpośredni. Pozostałe aspekty satysfakcji z życia:
zadowolenie z sytuacji finansowej, małżeństwa oraz dzieci wywierają na ocenę
całego życia również wpływ pośredni. W przypadku zadowolenia z dzieci wystę-
puje jedynie wpływ pośredni.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
172 Część II ModeloWANIe STRuKTuRAlNe
Suma tych iloczynów daje 0,078. Tyle więc wynosi pośredni wpływ zadowole-
nia z sytuacji finansowej na ocenę całego życia. Wpływ łączny wynosi zaś: 0,127
+ 0,078 = 0,205. Standaryzowany efekt pośredni i standaryzowany efekt łączny
można obliczyć tak samo, opierając się jednak na standaryzowanych współczyn-
nikach ścieżkowych. Efekty pośrednie są przeważnie słabe w porównaniu z efek-
tem bezpośrednim i im dłuższe są ścieżki pośrednie, tym jest on słabszy, co widać
w powyższym przykładzie.
Jeśli używa się IBM SPSS Statistics Amos, nie trzeba obliczać ręcznie efek-
tów pośrednich ani łącznych – można to polecić programowi. W tym celu zazna-
czamy opcję: INDIRECT, DIRECT & TOTAL EFFECTS w zakładce OUTPUT
okna ANALYSIS PROPERTIES, tak jak obrazuje to rysunek 7.7. Obliczone war-
tości dla modelu z rysunku 7.2 znajdują się w tabelach 7.3.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 173
małżeństwo ,237
osiągnięcia ,197
życie ,250
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
174 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 175
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
176 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 177
zaŁożenia
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
178 Część II ModeloWANIe STRuKTuRAlNe
Tabela 7.4. Wyniki testów normalności dla danych dotyczących zadowolenia z życia
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 179
metody estymacji
1
Obszerne ich omówienie można znaleźć w: Konarski, 2010.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
180 Część II ModeloWANIe STRuKTuRAlNe
metoda największej Najczęściej stosowana jest metoda największej wiarygodności (maximum likelihood
wiarygodności – ML). W jej przypadku wielkość próby ma duże znaczenie, również z tego powodu,
że oszacowania parametrów są obciążone, czyli odbiegają od rzeczywistych wartości
parametrów. Obciążenie, czyli różnica między prawdziwą a oszacowaną wartością
parametru, maleje wraz z wielkością próby. Konieczne jest ponadto, aby zmienne
obserwowalne miały wielowymiarowy rozkład normalny. Dopuszcza się użycie
metody największej wiarygodności, gdy odstępstwo od rozkładu normalnego jest
niewielkie (czyli gdy skośność i kurtoza mieszczą się w przedziale [–1; 1]). Ten sam
warunek obowiązuje także w przypadku zmiennych porządkowych.
metoda uogólnionych Drugą pod względem popularności jest metoda uogólnionych najmniejszych
najmniejszych kwadratów kwadratów (generalized least squares – GLS). Podobnie jak metoda największej wia-
rygodności, wymaga ona dużych prób, by zredukować obciążenie estymatorów,
oraz zakłada wielowymiarowy rozkład normalny zmiennych obserwowalnych.
Ma jednak ten plus, że w przypadku bardzo dużych prób, tj. powyżej 2500 obser-
wacji, daje dobre oszacowania, nawet gdy założenie wielowymiarowego rozkładu
metoda asymptotycznie normalnego nie jest spełnione.
wolna od rozkładu Z kolei metoda asymptotycznie wolna od rozkładu (asymptotically distribution-free
– ADF) nie wymaga założenia wielowymiarowego rozkładu normalnego, co jest
jej wielką zaletą, jednak estymacja za jej pomocą jest możliwa tylko przy dużych
próbach. Wystarczająca wielkość próby zależy od stopnia skomplikowania modelu.
Nawet dla najprostszego potrzeba co najmniej kilkuset obserwacji.
Zmienne występujące w modelach przedstawionych na rysunkach 7.1 i 7.2 nie
miały wielowymiarowego rozkładu normalnego. W dodatku kurtoza pomniej-
szona o 3 zmiennych małżeństwo i dzieci wykraczała znacznie nawet poza przedział
[–2, 2]. Odstępstwo od rozkładu normalnego jest zatem bardzo silne. Wobec tego
można użyć jedynie metod, które nie wymagają założenia o wielowymiarowym
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 181
rozkładzie normalnym, czyli ADF. Wielkość próby, tj. liczba osób, które odpowia-
dały na analizowane pytania, wyniosła 13 854. Tak wysoka liczebność pozwala
z powodzeniem zastosować metodę ADF.
W IBM SPSS Statistics Amos metodę estymacji wybieramy w oknie ANA-
LYSIS PROPERTIES, w części zakładki ESTIMATION zatytułowanej DISCRE-
PANCY (rys. 7.9). Oprócz opisanych wyżej metod do dyspozycji badacza pozostają
jeszcze dwie metody będące uproszczeniem metody uogólnionych najmniejszych
kwadratów, które są jednak o tyle nieprzydatne, że nie pozwalają przeprowadzać
testów statystycznych, na przykład testów istotności.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
182 Część II ModeloWANIe STRuKTuRAlNe
model niezależności model niezależności to taki, który zakłada, że pomiędzy badanymi zmiennymi nie
ma żadnych zależności. Jest to więc model o najgorszym możliwym dopasowaniu.
model nasycony W modelu nasyconym uwzględnione są absolutnie wszystkie możliwe powiązania
pomiędzy zmiennymi. Ten model jest z kolei doskonale dopasowany.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 183
Test dopasowania modelu opiera się na wartości funkcji rozbieżności, którą w IBM
SPSS Statistics Amos oznacza się przez FMIN. Mierzy ona rozbieżność pomiędzy fmin
obserwowaną macierzą wariancji-kowariancji a teoretyczną macierzą wariancji-kowa-
riancji wynikającą z modelu i oszacowanych już wartości parametrów. Jest to więc
miara niedopasowania, a nie dopasowania, a zatem im mniejsza jej wartość, tym lepiej.
Statystyka testu dopasowania modelu, oznaczana przez CMIN, powstaje w wyniku cmin
przemnożenia wartości funkcji rozbieżności FMIN przez N – 1, gdzie N jest wielko-
ścią próby. Dzięki temu zabiegowi CMIN ma asymptotycznie rozkład chi-kwadrat.
Liczba stopni swobody, oznaczana przez DF, jest równa liczbie różnych elementów df
macierzy wariancji-kowariancji zmiennych obserwowalnych, pomniejszonej o liczbę
szacowanych parametrów. Liczba różnych elementów macierzy wariancji-kowarian-
cji wyraża ilość informacji dostarczanej przez dane, a liczba szacowanych parame-
trów – ilość tej informacji zużywanej na oszacowanie parametrów.
Hipoteza zerowa (H0) testu dopasowania modelu głosi, że teoretyczna macierz
wariancji-kowariancji wynikająca z oszacowanego modelu jest równa macierzy
wariancji-kowariancji z próby, to znaczy, że model jest doskonale dopasowany do
danych. Jeżeli obliczona wartość statystyki testowej CMIN przekracza wartość
krytyczną z rozkładu chi-kwadrat ze stopniami swobody, hipotezę zerową trzeba
odrzucić, co oznacza również odrzucenie modelu jako niewystarczająco dobrze
dopasowanego do danych. Jeżeli zaś wartość krytyczna nie jest przekroczona,
nie ma podstaw do odrzucenia hipotezy zerowej, a więc i do odrzucenia modelu.
Model jest zagnieżdżony w innym modelu, gdy powstaje w efekcie nałożenia na model zagnieżdżony
niego pewnych ograniczeń.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
184 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 185
FMIN
Model FMIN F0 LO 90 HI 90
CMIN
Model NPAR CMIN DF P CMIN/DF
HoelTeR
Model HOELTER HOELTER
.05 .01
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
186 Część II ModeloWANIe STRuKTuRAlNe
FMIN
Model FMIN F0 LO 90 HI 90
RMSeA
Model RMSEA LO 90 HI 90 PCCLOSE
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 187
indeKsy dopasoWania
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
188 Część II ModeloWANIe STRuKTuRAlNe
PGFI, PRNI i PCFI zaś 0,85. Gdy liczba zmiennych obserwowalnych jest niewielka,
ten ostatni próg można nieco obniżyć. Ponieważ TLI oraz IFI są mniej wrażliwe
na wielkość próby, są szczególnie polecane przy dużych próbach.
W IBM SPSS Statistics Amos wraz z PGFI prezentowana jest miara dopasowa-
nia opierająca się na kwadratach reszt modelu. Reszty modelu strukturalnego to
różnice wartości poszczególnych różnych elementów macierzy wariancji-kowarian-
cji występujące pomiędzy macierzą implikowaną przez model a macierzą obserwo-
rmr waną. Pierwiastek ze średniego kwadratu tych reszt nazywa się RMR (root mean
squared residual). W idealnym modelu przyjmuje on wartość 0. Nie ma dla niego
górnej granicy ani kryterium akceptowalności – jego zastosowanie ogranicza się
więc do porównywania modeli szacowanych na tym samym zbiorze danych.
RMR, gFI
Model RMR GFI AGFI PGFI
BASelINe CoMPARISoNS
Model NFI RFI IFI TLI
CFI
Delta1 rho1 Delta2 rho2
PARSIMoNY-AdjuSTed MeASuReS
Model PRATIO PNFI PCFI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 189
Kryteria inFormacyjne
Fragmenty wydruku dotyczącego oceny jakości modelu regresji z rysunku 7.2, od-
noszące się do kryteriów informacyjnych, zamieściłyśmy w tabelach 7.8.
AIC
Model AIC bCC bIC CAIC
eCVI
Model ECVI LO 90 HI 90 MECVI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
190 Część II ModeloWANIe STRuKTuRAlNe
i nasyconym. Im są niższe, tym lepiej. Zaleca się ich stosowanie szczególnie przy
porównywaniu modeli zagnieżdżonych.
ecvi W tabeli ECVI (tab. 7.8) znajdują się kryteria ECVI i MECVI, które wynoszą
mecvi – z dokładnością do stałej, odpowiednio tyle samo, co AIC i BCC. Przewaga ECVI
polega na tym, że to kryterium ma 90-procentowy przedział ufności (LO90 i HI90).
Dzięki temu można sprawdzić, czy ECVI różni się istotnie pomiędzy modelami,
w tym między badanym modelem a modelem niezależności czy modelem nasyconym.
Na podstawie kryteriów informacyjnych możemy jedynie porównać analizo-
wany model z modelem nasyconym i modelem niezależności. Z porównania tego
wynika, że model jest bliższy modelowi nasyconemu niż modelowi niezależności.
Podsumowując, praktycznie wszystkie mierniki jakości nakazują model
odrzucić. Wprawdzie GFI wskazuje na dobre dopasowanie, ale niskie wartości
indeksów uwzględniających złożoność wskazują, że jest to głównie zasługą dużej
liczby szacowanych parametrów.
Na koniec warto dokonać rozróżnienia pomiędzy oceną dopasowania modelu
strukturalnego a oceną jakości modelu regresji.
Sposoby oceny jakości modelu opisane wyżej pozwalają sprawdzić, na ile dobrze
swoje zadanie wykonuje model strukturalny. Jeżeli jednak celem analizy nie jest
badanie zależności pomiędzy wszystkimi zmiennymi, a jedynie wpływu zmien-
nych objaśniających na zmienną objaśnianą, konieczna jest również weryfikacja,
czy model dobrze spełnia tę rolę. Do tego służy współczynnik korelacji wielokrot-
nej, czyli R2, omówiony przy okazji interpretacji parametrów.
modyFiKoWanie modelu
W sytuacji gdy ocena jakości modelu wykazuje, że nie jest on dostatecznie dobrze
dopasowany, możemy próbować modyfikować model, tak by to dopasowanie popra-
wić. Najbardziej złożona modyfikacja polegałaby na zupełnym przeorganizowa-
niu go według alternatywnej teorii. Do istniejącego modelu możemy też dołączyć
nowe albo przekształcone zmienne.
IBM SPSS Statistics Amos dostarcza wskazówek co do tego, jakie zależności
należałoby usunąć z modelu, a jakie można dodać na podstawie wyników testów
istotności zmiennych oraz indeksów modyfikacji.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 191
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
192 Część II ModeloWANIe STRuKTuRAlNe
indeKsy modyFiKacji
indeksy modyfikacji Indeksy modyfikacji (modification indices) wskazują, które zależności warto dodat-
kowo uwzględnić w modelu. Oblicza się je dla każdego parametru, na który nało-
żone są jakiekolwiek ograniczenia. Zwykle chodzi o założenie, że dany parametr
wynosi w populacji 0, wyrażone przez nieuwzględnienie odpowiedniej ścieżki czy
kowariancji w modelu. Indeks modyfikacji to statystyka testu sprawdzającego,
czy ograniczenie nałożone na dany parametr jest prawdziwe w populacji. Jeżeli
wartość indeksu przekroczy 4, taką hipotezę zerową należy odrzucić. Oznacza
to, że dzięki uwolnieniu badanego parametru dopasowanie modelu istotnie się
polepszy. Indeksy modyfikacji bardzo często przyjmują wartości znacznie większe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 193
niż 4 dla bardzo wielu parametrów. Zwykle nie warto uwzględniać wszystkich
tych parametrów, a tylko te z najwyższymi wartościami indeksów modyfikacji.
IBM SPSS Statistics Amos domyślnie nie wyświetla indeksów modyfikacji. Aby
je otrzymać, musimy zaznaczyć MODIFICATION INDICES w zakładce OUTPUT
okna ANALYSIS PROPERTIES (zob. rys. 7.10). Jeśli wpiszemy wartość liczbową
w pole opisane THRESHOLD FOR MODIFICATION INDICES, możemy ograni-
czyć liczbę wyświetlanych indeksów modyfikacji do takich, których wartość prze-
kracza wpisaną liczbę. Opcja ta jest szczególnie przydatna w dużych modelach.
W tabelach 7.10 znajdują się indeksy modyfikacji dla modelu regresji linio-
wej z rysunku 7.1.
Tabela, w której powinny znajdować się indeksy modyfikacji dla wariancji, jest
pusta. Byłaby pełna tylko wówczas, gdyby na którąkolwiek z wariancji nałożono
jakieś ograniczenie, a tak nie jest. Pusta jest również tabela, w której powinny się
znajdować indeksy modyfikacji dla ścieżek, a wypełniona jedynie ta dla kowarian-
cji. Jest to dobra ilustracja jeszcze jednej słabości indeksów modyfikacji i modelo-
wania strukturalnego w ogóle. Ponieważ celem estymacji jest dobranie parametrów,
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
194 Część II ModeloWANIe STRuKTuRAlNe
MI Par Change
MI Par Change
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 195
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
196 Część II ModeloWANIe STRuKTuRAlNe
kowariancje
osiągnięcia dzieci 778 778 – – –
małżeństwo dzieci 3 718
małżeństwo osiągnięcia 1 250 – – – –
zdrowie dzieci 474 474 474 278 278
zdrowie osiągnięcia 2 231 2 231 – – –
zdrowie małżeństwo 522 – – – –
finanse dzieci 364 364 364 168 168
finanse osiągnięcia 2 353 2 353
finanse małżeństwo 627 – – – –
finanse zdrowie 1 332 1 332 1 332
e(małżeństwo) osiągnięcia 597 – – –
e(małżeństwo) zdrowie 183 183 71 71
e(małżeństwo) finanse 314 314 202 202
e(osiągnięcia) dzieci 484 484 69
e(osiągnięcia) zdrowie 1 248 1 381 1 175
e(małżeństwo) e(osiągnięcia) 354 354 25
e(osiagnięcia) finanse 113
zależności przyczynowo-skutkowe
małżeństwo osiągnięcia – 597 597 597
małżeństwo zdrowie – 183 183 183 183
małżeństwo finanse – 314 314 314 314
osiągnięcia dzieci 484 484 69
osiągnięcia zdrowie 1 248 1 248 1 062
osiągnięcia małżeństwo 755 755
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 197
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
198 Część II ModeloWANIe STRuKTuRAlNe
podsumoWanie
Modelowanie strukturalne jest bardzo uniwersalnym narzędziem analizy zależno-
ści liniowych pomiędzy zmiennymi ciągłymi. Pozwala nie tylko na badanie bezpo-
średnich zależności przyczynowo-skutkowych, jak regresja wieloraka, ale również
na uwzględnienie zależności pośrednich oraz kowariancyjnych. W szczególności
może być zastosowane, gdy predyktory w modelu regresji są skorelowane.
Model strukturalny jest obrazem postulowanych na podstawie teorii zależno-
ści pomiędzy badanymi zjawiskami. Konfrontując model z danymi empirycznymi,
możemy odrzucić daną teorię lub nie znaleźć ku temu powodów. Konfrontacja ta
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 199
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część ii
modelowanie
strukturalne
rozdział
Modelowanie strukturalne
w podgrupach 8
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
Hipotezy badawcze często głoszą, że pewne zjawiska kształtują się w odmienny
sposób w zależności od pewnych cech badanych obiektów. Badacze zastanawiają
się najczęściej, czy poziom nasilenia badanych zjawisk lub cech w wyróżnionych
grupach jest taki sam czy też różny. Sprawdzają na przykład, czy zadowolenie
z małżeństwa jest wyższe wśród kobiet czy wśród mężczyzn.
Zdarza się, że stawiane hipotezy nie dotyczą wpływu danej cechy bezpośred-
nio na poziom badanego zjawiska, lecz jej wpływu na kształtowanie się zależności
pomiędzy nim a innymi zjawiskami. Można na przykład badać, czy wpływ zado-
wolenia z małżeństwa na zadowolenie z życia jest wyższy wśród kobiet czy wśród
mężczyzn. Tak postawione hipotezy badawcze można zweryfikować za pomocą
modelowania strukturalnego. Model strukturalny obejmujący badane zależno-
ści można bowiem oszacować w podgrupach wyróżnionych ze względu na cechy,
które mają te zależności kształtować.
Zazwyczaj, aby oszacować model w podgrupach, tworzy się odrębne zbiory dla
każdej z grup i w każdej z nich osobno szacuje dany model. Wówczas jednak nie-
możliwe jest przeprowadzenie testu istotności różnicy pomiędzy analogicznymi
parametrami modelu w różnych grupach.
Dla każdej grupy oblicza się funkcję rozbieżności. Suma tych funkcji, ważona
liczebnością każdej z grup, daje łączną funkcję rozbieżności.
Po oszacowaniu modelu można przeprowadzić test istotności różnicy pomię-
dzy dowolnymi dwoma parametrami całego modelu, na przykład test istotności
różnicy wartości analogicznego parametru w dwóch różnych podgrupach. Moż-
liwe jest również przetestowanie hipotez dotyczących więcej niż dwóch parame-
trów w więcej niż dwóch podgrupach. Przykładowo można sprawdzić, czy dany
parametr ma tę samą wartość w wybranych trzech z czterech podgrup albo czy
dwa różne parametry przyjmują w badanych grupach równe wartości. Wystar-
czy nałożyć na model odpowiednie ograniczenie, a następnie przeprowadzić test
istotności różnicy wartości funkcji dopasowania CMIN.
W ten sam sposób można sprawdzić, czy w ogóle jest sens szacować model
w podgrupach. Wystarczy porównać model, w którym nie ma żadnych ograniczeń
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 8 Modelowanie strukturalne w podgrupach 203
specyFiKacja i estymacja
Model strukturalny można oszacować w podgrupach wyznaczonych ze względu
na wybraną cechę. Zakłada się wówczas, że we wszystkich badanych grupach
model ma tę samą postać: występują w nim takie same zmienne połączone takimi
samymi zależnościami. W każdej grupie występuje ten sam zestaw parametrów,
ale ich wartości w każdej grupie mogą być inne. Skoro postać modelu jest w każ-
dej grupie taka sama, to i wykres ścieżkowy dla każdej z grup jest identyczny.
Formalny zapis modelu jest prawie taki sam, jak w przypadku modelu dla całej
próby, różnica polega na tym, że poszczególne parametry należy oznaczyć (indek-
sować) symbolem danej grupy.
Powiedzmy, że celem badania jest sprawdzenie, jak kształtuje się ocena całego
życia w zależności od zadowolenia z poszczególnych jego aspektów w grupie męż-
czyzn i w grupie kobiet. Załóżmy, że zależność oceny całego życia od poszczegól-
nych jego aspektów opisuje model regresji wielorakiej zaprezentowany na rysunku
8.1. Jest to ten sam model, który omawiano w rozdziale 7.
Wykres ścieżkowy nie wymaga żadnych zmian – aby oszacować go w podgru-
pach, wystarczy je zdefiniować. W IBM SPSS Statistics Amos należy nadać gru-
pom nazwy, a następnie przypisać im części zbioru danych. Aby nadać grupom
nazwy, należy podwójnie kliknąć w napis GROUP NUMBER 1, którego położenie
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
204 Część II ModeloWANIe STRuKTuRAlNe
{ życie(M) = g1(M) zdrowie(M) + g2(M) finanse(M) + g3(M) małżeństwo(M) + g4(M) dzieci(M) + g5(M) osiągnięcia(M) + e(M)
życie(k) = g1(k) zdrowie(k) + g2(k) finanse(k) + g3(k) małżeństwo(k) + g4(k) dzieci(k) + g5(k) osiągnięcia(k) + e(k)
(1)
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 8 Modelowanie strukturalne w podgrupach 205
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
206 Część II ModeloWANIe STRuKTuRAlNe
Mierniki służące ocenie jakości modelu oblicza się według tych samych wzorów,
co w przypadku całej próby. Jedyna różnica polega na tym, że zamiast N–1 w tych
wzorach występuje N–G, gdzie G jest liczbą grup. W szczególności, wartość CMIN,
którą przy jednej grupie oblicza się mnożąc otrzymaną wartość funkcji rozbieżności
FMIN przez N–1, w sytuacji wielu podgrup oblicza się mnożąc FMIN przez N–G.
Test istotności różnicy dwóch parametrów służy weryfikacji, czy są one równe
w populacji. Technicznie porównać można dowolne dwa parametry modelu: ten
sam parametr w różnych grupach, różne parametry w tej samej grupie, różne
parametry w różnych grupach. Zwykle nie ma sensu porównywać parametrów
różnego typu, np.: parametru ścieżkowego z wariancją. Porównywanie parame-
trów jest możliwe również w modelu bez podgrup.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 8 Modelowanie strukturalne w podgrupach 207
uznać, że badane parametry są równe. Jeśli zaś wartość statystyki testowej wykra-
cza poza ten przedział, można uznać, że parametry istotnie się różnią.
W celu obliczenia wartości statystyk testów istotności parametrów należy
w IBM SPSS Statistics Amos zaznaczyć CRITICAL RATIOS FOR DIFFEREN-
CES w zakładce OUTPUT okna ANALYSIS PROPERTIES (zob. rys. 8.4).
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
208 Część II ModeloWANIe STRuKTuRAlNe
Tabela 8.3. Fragment macierzy zawierającej statystyki testów istotności różnic dotyczący
współczynników ścieżkowych
par _ 1 ,000
par _ 2 –5,192 ,000
par _ 3 –12,461 15,522 ,000
par _ 4 –1,880 2,409 –13,152 ,000
par _ 5 –,696 1,711 –10,711 ,340 ,000
par _ 6 ,399 4,398 –10,483 1,740 ,858 ,000
par _ 7 –4,166 –,074 –13,681 –1,890 –1,740 –5,407 ,000
par _ 8 7,249 9,347 –,613 7,583 6,044 7,470 9,966 ,000
par _ 9 2,778 5,459 –6,077 3,532 2,461 3,065 7,153 –5,020 ,000
par _ 10 –,391 1,541 –6,758 ,428 ,141 –,606 1,682 –7,605 –2,346 ,000
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 8 Modelowanie strukturalne w podgrupach 209
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
210 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 8 Modelowanie strukturalne w podgrupach 211
wartości mierników modelu, które biorą pod uwagę jego złożoność, zwłaszcza
PGFI, PNFI i PCFI. Model bez ograniczeń może być bowiem lepiej dopasowany,
ale nie na tyle lepiej, by usprawiedliwiało to dodatkową liczbę parametrów.
Model zaprezentowany na rysunku 8.1 oszacowaliśmy w podgrupach ze
względu na płeć. Weryfikacja równości parametrów przeprowadzana pojedynczo
pokazała, że tylko wpływ zadowolenia z osiągnięć różni się ze względu na płeć.
Powstaje więc pytanie, czy w ogóle jest sens rozważać ten model w osobnych pod-
grupach – u mężczyzn i u kobiet. Aby to sprawdzić, musimy zachować mierniki
jakości modelu oszacowanego w podgrupach, a następnie porównać je z ich odpo-
wiednikami dla modelu, w którym na wszystkie parametry nałożono ogranicze-
nie zakładające, że są one w obu grupach równe. Przypomnimy tu, że wszystkie
parametry to nie tylko współczynniki ścieżkowe, ale również wariancje zmien-
nych objaśniających i składnika losowego. Po nałożeniu testowanych ograniczeń
model powinien wyglądać, tak jak to przedstawiłyśmy na rysunku 8.6 (oczywi-
ście parametry można nazwać inaczej), niezależnie od tego, czy po lewej stronie
zaznaczona jest grupa kobiet czy mężczyzn. Teraz nadane przez nas nazwy będą
się pojawiały w kolumnie LABEL w tabelach ESTIMATES, a nie nazwy domyślne,
takie jak par_1, par_2 itd.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
212 Część II ModeloWANIe STRuKTuRAlNe
Parametry między grupami CMIN DF ECVI NFI RFI PNFI CFI PCFI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 8 Modelowanie strukturalne w podgrupach 213
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
214 Część II ModeloWANIe STRuKTuRAlNe
Parametry między grupami CMIN DF ECVI NFI RFI PNFI CFI PCFI
podsumoWanie
Możliwość szacowania modeli strukturalnych w podgrupach jest jedną z wielkich
zalet modelowania strukturalnego. Warto z niej skorzystać zawsze, gdy celem ana-
lizy jest zbadanie wpływu pewnej cechy na zależności pomiędzy badanymi zja-
wiskami. Założeniem koniecznym do wykonania takiej analizy jest jednakowa
postać modelu w badanych grupach, czyli występowanie tych samych zmiennych
połączonych zależnościami tego samego typu. Różnice między grupami muszą
się ograniczać do wartości parametrów.
Funkcja rozbieżności modelu szacowanego w podgrupach jest funkcją łączną,
więc cały model szacowany jest jednocześnie. Dzięki temu możliwe jest przeprowa-
dzenie testów istotności różnic pomiędzy dowolnymi dwoma parametrami z róż-
nych podgrup. Szacowanie modelu w podgrupach pozwala również na weryfiko-
wanie hipotez złożonych, dotyczących wielu parametrów. Możliwe jest nakładanie
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 8 Modelowanie strukturalne w podgrupach 215
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część ii
modelowanie
strukturalne
rozdział
Modelowanie strukturalne
ze zmiennymi ukrytymi 9
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
WproWadzenie
W naukach społecznych: psychologii, socjologii, marketingu bardzo często badane
są zjawiska, których bezpośredni pomiar jest niemożliwy albo trudny. Mówi się
o nich, że są niemierzalne, nieobserwowalne i nazywa konstruktami lub zjawi-
skami ukrytymi. Przykładami są depresja, akceptacja przez grupę rówieśników
czy lojalność wobec marki. Pomiaru takich zjawisk dokonuje się za pomocą skali
kilku, kilkunastu, a nawet kilkudziesięciu pytań, z których każde dotyczy nieco
innego aspektu badanego zjawiska. Przykładem może być skala depresji Becka,
składająca się z 21 pytań dotyczących fizycznych (utrata apetytu), psychicznych
(poczucie winy) i społecznych (zainteresowanie innymi ludźmi) aspektów depre-
sji. Pytania służące pośredniemu pomiarowi ukrytego konstruktu nazywa się jego
wskaźnikami cząstkowymi.
Dalsza analiza ukrytego konstruktu wymaga jego operacjonalizacji w postaci
pojedynczej zmiennej. Jeżeli na przykład celem analizy jest zbadanie wpływu
innych konstruktów na dany konstrukt, to naturalnym narzędziem jest analiza
regresji, opisana w rozdziale 1. Technika ta wymaga jednak, aby analizowanym
konstruktom odpowiadały pojedyncze zmienne. Operacjonalizacji konstruktów
dokonuje się zwykle za pomocą analizy czynnikowej, opisanej w rozdziale 6
Statystycznego drogowskazu… (Bedyńska, Brzezicka, 2007). Pozwala ona obliczyć
wskaźnik danego konstruktu jako ważoną sumę jego wskaźników cząstkowych.
Modelowanie strukturalne pozwala połączyć analizę czynnikową i analizę
regresji. Jak wiemy z rozdziału 7, model strukturalny opisuje zależności przyczy-
nowo-skutkowe pomiędzy badanymi zjawiskami – podobnie jak regresja. Jeżeli
któreś z badanych zjawisk jest nieobserwowalne, model można poszerzyć o model
analizy czynnikowej, pozwalający zmierzyć to zjawisko. W języku modelowania
strukturalnego ta część modelu nazywa się modelem pomiarowym.
Parametry modelu strukturalnego i pomiarowego są szacowane jednocześnie.
Dlatego warto przez oszacowaniem całego modelu zweryfikować model pomiarowy,
by nie trzeba było wprowadzać w nim zmian pod wpływem zależności zachodzą-
cych w modelu strukturalnym. Skoro model pomiarowy to model analizy czynni-
kowej, to weryfikuje się go, przeprowadzając konfirmacyjną analizę czynnikową.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 219
Model strukturalny ze zmiennymi ukrytymi składa się z części strukturalnej model strukturalny
i pomiarowej. Część strukturalna opisuje dyktowane teorią zależności przyczy- ze zmiennymi ukrytymi
nowo-skutkowe bądź korelacyjne pomiędzy badanymi zjawiskami. Zjawiska część strukturalna
te mogą być bezpośrednio mierzalne i wówczas w modelu odpowiada im
jedna zmienna obserwowalna. Gdy analizowane zjawiska nie są bezpośrednio zmienna obserwowalna
mierzalne, w modelu reprezentują je zmienne nieobserwowalne. Za pośredni zmienna nieobserwowalna
pomiar konstruktów odpowiada część pomiarowa modelu. Opisuje ona relacje część pomiarowa
pomiędzy ukrytymi konstruktami i ich wskaźnikami cząstkowymi, tak jak model wskaźniki cząstkowe
analizy czynnikowej.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
220 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 221
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
222 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 223
cov(Społeczne,Materialne) = φ12
cov(Materialne,Samorealizacja) = φ23
cov(Społeczne,Samorealizacja) = φ13
finanse = Matrialne + e3
dochody = g4 Materialne + e4
żywienie = g5 Materialne + e5 (3)
bliscy = Społeczne + e6
małżeństwo = g7 Społeczne + e7
dzieci = g8 Społeczne + e8
osiągnięcia = Samorealizacja + e9
wykształcenie = g10 Samorealizacja + e10
wolne = g11 Samorealizacja + e11
Jakość modelu analizy czynnikowej określa się między innymi, badając war-
tości ładunków czynnikowych oraz procent wyjaśnianej wariancji.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
224 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 225
wolne ,358
wykształcenie ,402
osiągnięcia ,567
żywienie ,541
dochody ,861
finanse ,797
dzieci ,395
małżeństwo ,537
bliscy ,365
dochody, żywienie i osiągnięcia. Dla zmiennych bliscy, dzieci i wykształcenie są one powyżej 0,6,
co jest akceptowalnym wynikiem. Ładunek przy zmiennej wolne wynosi 0,598 i jest
bardzo bliski granicy 0,6, możemy więc go przyjąć. Dla pewności warto jeszcze
sprawdzać, czy niestandaryzowane współczynniki ścieżkowe są istotne statystycz-
nie. Może się to zdarzyć nawet, gdy wartość standaryzowana przekroczy 0,7, jeśli
błędy standardowe byłyby zawyżone.
Procent wyjaśnianej wariancji (tabela SQUARED MULTIPLE CORRELA-
TIONS) przekraczają pożądaną wartość 0,5 dla tych samych zmiennych, dla któ-
rych ładunki przekraczały 0,7. Dla pozostałych zmiennych wynoszą one nieco
poniżej 0,4, co nie jest złym wynikiem.
Ogólnie możemy powiedzieć, że model pomiarowy jest akceptowalny, choć nie
można powiedzieć, że dobry. Dla ponad połowy wskaźników cząstkowych wartości
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
226 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 227
Samorealizacja ,433
życie ,301
wolne ,279
wykształcenie ,358
osiągnięcia ,520
żywienie ,508
dochody ,862
finanse ,788
dzieci ,319
małżeństwo ,630
bliscy ,291
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
228 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 229
GFI jest wyższe od 0,9 i nie jest dalekie od bardziej restrykcyjnej wartości 0,95. NFI,
IFI i CFI nie sięgają 0,9, ale przekraczają 0,8. Miary skorygowane o współczynnik
złożoności PRATIO nie sięgają 0,85, ale przekraczają 0,5. Ogólnie model ten jest
do zaakceptowania, choć nie można powiedzieć, że jest bardzo dobry. Na rysunku
9.5 znajduje się model z rysunku 9.2 wraz ze standaryzowanymi wartościami
parametrów. Najsilniejszy bezpośredni wpływ na ocenę całego życia ma zadowolenie
z relacji społecznych. Ponad dwukrotnie mniejszy wpływ bezpośredni mają zado-
wolenie z warunków materialnych i samorealizacji. Najmniejszy wpływ bezpośredni
na ocenę całego życia ma zadowolenie ze stanu własnego zdrowia. Analizowane
zmienne wyjaśniają zmienność oceny całego życia w 30%. Determinanty oceny
całego życia są powiązane pomiędzy sobą. Zadowolenie z sytuacji materialnej
CMIN
Model NPAR CMIN DF P CMIN/DF
RMR, gFI
Model RMR GFI AGFI PGFI
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
230 Część II ModeloWANIe STRuKTuRAlNe
BASelINe CoMPARISoNS
NFI RFI IFI TLI
Model CFI
Delta1 rho1 Delta2 rho2
PARSIMoNY-AdjuSTed MeASuReS
Model PRATIO PNFI PCFI
RMSeA
Model RMSEA LO 90 HI 90 PCCLOSE
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 231
podsumoWanie
Możliwość uwzględnienia w modelu zmiennych ukrytych, mierzonych pośrednio
przez wiele wskaźników cząstkowych, jest wielką zaletą modelowania struktural-
nego, zwłaszcza dla nauk społecznych, w których badane zjawiska bardzo często
nie poddają się prostemu pomiarowi.
Model strukturalny ze zmiennymi ukrytymi dzieli się na część strukturalną
i pomiarową. Pierwsza obrazuje postulowane zależności pomiędzy badanymi zja-
wiskami. Druga odpowiada za pośredni pomiar tych zjawisk, które nie są bezpo-
średnio mierzalne. Zazwyczaj przyjmuje ona postać modelu analizy czynnikowej.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
232 Część II ModeloWANIe STRuKTuRAlNe
Część pomiarowa modelu wymaga weryfikacji. W tym celu stosuje się model
konfirmacyjnej analizy czynnikowej, który również należy do grupy modeli struk-
turalnych ze zmiennymi ukrytymi. Po zaakceptowaniu modelu pomiarowego postę-
powanie z modelem strukturalnym ze zmiennymi ukrytymi nie różni się specjalnie
od postępowania z modelami strukturalnymi, w których wszystkie zmienne są
obserwowalne – z tym, że części pomiarowej nie należy już modyfikować. Część
strukturalna modelu podlega zwykłej interpretacji, natomiast interpretacja części
pomiarowej ogranicza się jedynie do pokazania, że jest on poprawny.
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część ii
modelowanie
strukturalne
rozdział
Krótkie wprowadzenie
do IBM SPSS Statistics
AMoS
10
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
234 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 10 Krótkie wprowadzenie do IBM SPSS Statistics AMOS 235
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
236 Część II ModeloWANIe STRuKTuRAlNe
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
rozdziaŁ 10 Krótkie wprowadzenie do IBM SPSS Statistics AMOS 237
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Bibliografia
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
240 Statystyczny drogowskaz 2
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część ii Bibliografia 241
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Indeks
C F
CAIC 189 F0 185-187
centracja 130, 139-141, 154, 155 FMIN 183, 185-187, 206
CMIN 183-186, 189, 195, 197, 198, funkcja rozbieżności 179, 182-186,
202, 206, 210-212, 214, 228, 229 202, 204-206, 214
część pomiarowa 219, 220-222,
226-228, 232 G
część strukturalna 219, 220, 226, GFI 187-190, 229
227, 232
H
D homoscedastyczność 59-63, 87, 129
decyle 147
DF 183, 184, 185, 212, 214, 228, 229 I
DfBeta (DFB0 i DFB1) 77, 78, 82, 84 IFI 187-189, 229, 230
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
244 Statystyczny drogowskaz 2
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
część ii Indeks 245
r T
R 2 skorygowane 37, 38, 100, 104 teoretyczna macierz wariancji-
regresja hierarchiczna 43, 45, 49, 50, kowariancji 162, 179, 183, 186
51, 54 test Durbina-Watsona 63
regresja krzywoliniowa 62, 124, 128 test Kołmogorowa-Smirnowa 67
reszty niestandaryzowane (RES) 75, test porównujący dopasowanie modeli
82 zagnieżdżonych 184, 210
reszty regresji 23, 26, 28, 75, 129 test Shapiro-Wilka 67
reszty standaryzowane (ZRE) 75 test współliniowości 64, 65
reszty studentyzowane usuniętych TLI 187-189, 212, 230
(SDR) 77, 82 tolerancja 64-66
reszty usuniętych (DRE) 77, 82
RFI 187-189, 198, 212, 214, 230 V
RMR 188, 189, 229 VIF 59, 64-66
RMSEA 186, 187, 229, 230
W
S wartości przewidywane skorygowane
schemat quasi-eksperymentalny 101 77
składnik błędu 23, 69 wartość wpływu 76, 80, 81, 84-86
składnik interakcyjny 129-131, wielowymiarowy rozkład normalny
134-138, 140-144, 154-157 177, 179, 180, 184, 199
składniki losowe (reszty) 59, 63, 69, wpływ bezpośredni 170, 171, 176,
162, 163, 165-167, 206, 211-214, 229
219, 221, 222 wpływ łączny 171, 172, 176
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
246 Statystyczny drogowskaz 2
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Notki o Autorkach
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Wydawnictwo Akademickie Sedno
Wydanie pierwsze
Arkuszy drukarskich: 31
Skład i łamanie: Studio NRD
Druk i oprawa: Fabryka Druku Sp. z o.o., Warszawa
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==