Statystyczny Drogowskaz 3

##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==
Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266
STATYSTYCZNY
DROGOWSKAZ
Praktyczny przewodnik wykorzystania
3
modeli regresji
oraz równañ
strukturalnych
Sylwia Bedyñska
Monika Ksi¹¿ek
Książkę poleca
SEDNO
Wydawnictwo
Akademickie
Wydawca: Bożena Kućmierowska
Recenzenci: prof. dr hab. Magdalena Marszał-Wiśniewska, prof. dr hab. Grzegorz Sędek
Redakcja merytoryczna i korekty: Iwona Witt-Czuprzyńska
Redakcja techniczna: Danuta Przymanowska-Boniuk
Projekt okładki, stron tytułowych i działowych: Janusz Fajto
Opracowanie typograficzne: Wojciech Stukonis
Publikacja jest wspólną inicjatywą wydawniczą Szkoły Wyższej Psychologii Społecznej

oraz Wydawnictwa Akademickiego Sedno
Copyright © by Wydawnictwo Akademickie Sedno

Copyright © by Szkoła Wyższa Psychologii Społecznej
Copyright © by Sylwia Bedyńska
Copyright © by Monika Książek
Warszawa 2012
Wszelkie prawa zastrzeżone. Kopiowanie, przedrukowywanie i rozpowszechnianie w całości lub

we fragmentach jakąkolwiek techniką bez pisemnej zgody wydawcy zabronione
W publikacji wykorzystano ilustracje ukazujące interfejs oprogramowania, do którego autorskie

prawa majątkowe przysługują IBM Inc. Dystrybutorem oprogramowania IBM SPSS w Polsce jest
Predictive Solutions Sp. z o.o.
Wszystkie ilustracje ukazujące interfejs oprogramowania komputerowego IBM SPSS Statistics 19
zostały zamieszczone wyłącznie w celu wyjaśnienia lub analizy określonego zjawiska, problemu
czy metod opisywanych w publikacji.
„IBM SPSS” jest znakiem towarowym zastrzeżonym na rzecz IBM Inc. i podlega ochronie
prawnej na podstawie odpowiednich przepisów prawa w Polsce i za granicą.
www.predictivesolutions.pl
ISBN 978-83-63354-05-3
ISBN 978-83-62443-24-6
ISBN 978-83-62443-35-0 (tomy 1-3)
ISBN 978-83-63354-97-8 (e-book)
Wydawnictwo Akademickie Sedno Spółka z o.o.

ul. J. Pankiewicza 3
00-696 Warszawa
www.wydawnictwosedno.pl

Spis treści
Przedmowa ................................................................................................................................... 9
CZĘŚĆ I. MoDele reGreSJI ............................................................ 13
roZDZIał 1
regresja prosta ............................................................................................................................ 15
Wprowadzenie .................................................................................................................................................................16
Kowariancja i korelacja jako miary współzmienności ...........................................................17
Jednozmiennowa analiza regresji ................................................................................................................ 21
Dopasowanie linii regresji metodą najmniejszych kwadratów .......................... 21
Równanie linii prostej – parametry modelu ...................................................................... ...... 24
Analiza regresji w programie IBM SPSS Statistics .................................................................. 26
Przykład: relacja temperatury i samopoczucia ............................................................................. 30
Podsumowanie ................................................................................................................................................................. 33
roZDZIał 2
regresja wielokrotna ................................................................................................................35
Wprowadzenie ............................................................................................................................................................... 36
Analiza regresji wielozmiennowej w programie IBM SPSS Statistics ................ 38
Korelacja cząstkowa i semicząstkowa w analizie regresji ......... ............................... 40
Różne metody wprowadzania predyktorów w analizie regresji ................................ 43
Regresja krokowa ............................................................................................................................................... 45
Regresja hierarchiczna ................................................................................................................................... 49
Podsumowanie ............................................................................................................................................................... 55
roZDZIał 3
Testowanie założeń. Diagnostyka w analizie regresji ............................................57
Wprowadzenie ................................................................................................................................................................. 58

6 Statystyczny drogowskaz 2
Założenia analizy regresji .................................................................................................................................... 58

Homoscedastyczność ....................................................................................................................................... 59
Brak korelacji składników losowych ............................................................................................... 63
Brak skorelowania predyktorów .......................................................................................................... 64
Normalność rozkładu zmiennych oraz normalność rozkładu reszt ............ 67
Jak policzyć statystyki diagnostyczne w programie
IBM SPSS Statistics ......................................................................................................................................... 78
Podsumowanie ............................................................................................................................................................... 86
roZDZIał 4
Zmienne jakościowe jako predyktory w analizie regresji ................................... 89
Wprowadzenie ................................................................................................................................................................. 90
Tworzenie zmiennych instrumentalnych dla jakościowego
predyktora niedychotomicznego .................................................................................................................. 95
Kodowanie zero-jedynkowe ..................................................................................................................... 95
Kodowanie quasi-eksperymentalne .............................................................................................. 101
Kodowanie ortogonalne ......................................................................................................................................104
Podsumowanie .............................................................................................................................................................. 107
roZDZIał 5
analiza mediacyjna w regresji.
Poszukiwanie zmiennych pośredniczących ................................................................ 109
Wprowadzenie .............................................................................................................................................................. 110
Klasyczne podejście Barona i Kenny’ego ..........................................................................................111
Model mediacji Cohena i Cohen ...................................................................................................... 112
Przykład 1. Model mediacyjny z ilościową zmienną niezależną ........................... 112
Krok 1 – relacja między zmienną niezależną a zależną ......................................... 113
Krok 2 – relacja między zmienną niezależną a mediatorem .............................. 115
Krok 3 – relacja zmiennej niezależnej i mediatora
ze zmienną zależną ........................................................................................................................................ 116
Testy: Sobela, Aroiana i Goodmana testujące istotność
mediacji częściowej ......................................................................................................................................... 117
Opis wyników ....................................................................................................................................................... 119
Przykład 2. Model mediacyjny z dychotomiczną zmienną niezależną ............. 120
Trudności w poszukiwaniu mediacji .................................................................................................... 124
Podsumowanie .............................................................................................................................................................. 125
roZDZIał 6
W poszukiwaniu interakcji. Moderatory w analizie regresji ............... ......... 127
Wprowadzenie .............................................................................................................................................................. 128

Spis treści 7
Poszukiwanie interakcji – kolejne kroki ............................................................................................ 129

Interakcja z dychotomicznym moderatorem ....................................................................... 132
Interakcja z moderatorem ilościowym ....................................................................................... 141
Interakcja trzech zmiennych ................................................................................................................ 155
Poszukiwanie interakcji między zmiennymi jakościowymi
o większej liczbie wartości niż dwie .............................................................................................. 156
Podsumowanie .............................................................................................................................................................. 156
CZĘŚĆ II. MoDeloWanIe STruKTuralne ........................ 159
roZDZIał 7
Modele strukturalne zmiennych obserwowalnych ...............................................161
Wprowadzenie .............................................................................................................................................................. 162
Specyfikacja modelu strukturalnego zmiennych
obserwowalnych ......................................................................................................................................................... 163
Interpretacja parametrów ................................................................................................................................. 167
Model regresji wielorakiej ........................................................................................................................ 167
Model ścieżkowy z kowariancją i zależnościami pośrednimi ..........................170
Estymacja modeli strukturalnych ............................................................................................................ 177
Założenia ................................................................................................................................................................... 177
Metody estymacji ............................................................................................................................................. 179
Ocena jakości modelu .................................................................................................................................. 181
Test dopasowania modelu ....................................................................................................................... 183
Miary dopasowania do populacyjnej macierzy
wariancji-kowariancji .................................................................................................................................. 186
Indeksy dopasowania ................................................................................................................................... 187
Kryteria informacyjne ................................................................................................................................ 189
Modyfikowanie modelu ...................................................................................................................................... 190
Badanie istotności parametrów ......................................................................................................... 191
Indeksy modyfikacji ....................................................................................................................................... 192
Podsumowanie .............................................................................................................................................................. 198
roZDZIał 8
Modele strukturalne w podgrupach .................... ...................................................... 201
Wprowadzenie ...............................................................................................................................................................202
Specyfikacja i estymacja .....................................................................................................................................203
Porówanywanie pojedynczych parametrów między grupami ...................................206
Weryfikacja złożonych hipotez dotyczących równości
parametrów między grupami ........................................................................................................................209
Podsumowanie .............................................................................................................................................................. 214

8
roZDZIał 9
Modelowanie strukturalne ze zmiennymi ukrytymi .........................................217
Wprowadzenie ............................................................................................................................................................... 218
Specyfikacja modelu strukturalnego ze zmiennymi ukrytymi ...................... 219
Część strukturalna modelu .................................................................................................................. 219
Część pomiarowa modelu .........................................................................................................................220
Konfirmacyjna analiza czynnikowa jako narzędzie weryfikacji
modelu pomiarowego .............................................................................................................................................222
Estymacja i interpretacja modelu strukturalnego
ze zmiennymi ukrytymi ....................................................................................................................................226
Podsumowanie ............................................................................................................................................................... 231
roZDZIał 10
Krótkie wprowadzenie do IBM SPSS Statistics aMoS ................................... 233
Bibliografia ................................................................................................................................ 239
Indeks ......................................................... ................................................................................. 243
notki o autorkach ................................................................. ................................................ 247

Przedmowa
Truizmem jest twierdzenie, że znajomość metod statystycznych jest ważna.

Ta powtarzana od dawna teza udowadniana jest empirycznie przez pokole-
nia młodych i starszych badaczy, którzy – niesieni na fali entuzjazmu zwią-
zanego z planowaniem nowego badania, nie zaprzątają sobie zwykle głowy
tak przyziemnymi sprawami jak późniejsza analiza statystyczna zebranych
danych. Zdarza się, że badacze biorą po prostu kilka kwestionariuszy lub
ankiet mierzących różne właściwości, które mogą być ze sobą skorelowane.
Liczą, że skoro te skale pasują do siebie i do ogólnego tematu, to potem coś
z tego wyjdzie. Jednak gdy przyjdzie moment liczenia wyników, okazuje
się, że sprawa już taka łatwa nie jest. Brak jasnych hipotez i modelu teore-
tycznego skutkuje tym, że dane są analizowane długo i niestety bez więk-
szego efektu, a badacz tonie w morzu wyników. Często okazuje się też, że
policzenie prostych korelacji nie wystarczy, by odpowiedzieć na pytania
badawcze. Rzeczywistość jest niestety bardziej złożona niż proste korelacje
i dopiero po skończeniu badania przychodzi refleksja: „ojej, przecież gdy-
bym inaczej zmierzył tę zmienną, byłoby łatwiej policzyć wyniki”.
Dodatkowo brak znajomości metod statystycznych dedykowanych danym
ilościowym skutkuje tym, że badacze redukują zmienne ilościowe do zmien-
nych porządkowych, kategoryzując je według rozmaitych kryteriów. Niestety,
zdarza się wciąż, że zamiast uwzględnić dokładny wynik w skali ekstrawer-
sji, dokonuje się podziału medianowego na osoby ekstrawertywne i intrower-
tywne. Czy powszechność tej praktyki przemawia na jej korzyść? Niestety
nie. Symulacje wykonane przez S.E. Maxwella i H.D. Delaneya, mające na
celu porównanie efektywności poszukiwania interakcji w regresji i w anali-
zie wariancji, wskazują jednoznacznie, że dychotomizacja ciągłych predyk-
torów i ich późniejsza analiza za pomocą analizy wariancji powodują trud-
ności w ujawnieniu efektów poszczególnych zmiennych (Maxwell, Delaney,
1993). Niestety, brak znajomości sposobu przeprowadzania analizy interakcji

10
w regresji powoduje, że część badaczy nadużywa dychotomizacji zmiennych cią-

głych, by wykorzystać prostszą analizę wariancji. Takie rozwiązanie jest nie tylko
niekorzystne pod kątem prawdy naukowej, ale także utrudnia publikację badań
w prestiżowych czasopismach. Warto więc zadać sobie pytanie o metodę analizy
danych już w momencie planowania badania, a nie po jego zakończeniu. Warto
też rozszerzać własny arsenał technik statystycznych, tak by móc stosować odpo-
wiednie narzędzia analityczne zgodne z naturą postawionego pytania badawczego
zmiennych i struktury danych.
Konsultując od lat rozmaite projekty badawcze postanowiłyśmy zaproponować
remedium na tego typu bolączki – drugi tom prostego podręcznika statystycznego,
przybliżającego kolejny zestaw metod statystycznych, tym razem służących do
analizy danych korelacyjnych. Naszym celem było rozszerzenie repertuaru technik
statystycznych dostępnych dla studentów kierunków humanistycznych, doktoran-
tów oraz młodych badaczy, którzy dzięki temu będą mogli poradzić sobie bardziej
efektywnie i efektownie z analizą danych zebranych do prac magisterskich, dok-
torskich, czy wszelkich prac badawczych przygotowywanych w trakcie studiów.
W realizacji tego celu korzystamy z wcześniejszych doświadczeń zdobytych
podczas przygotowywania poprzedniej książki pt. Statystyczny drogowskaz. Praktyczny
poradnik analizy danych w naukach społecznych na przykładach z psychologii (Bedyńska,
Brzezicka, 2007). Staramy się wspierać badacza w analizie danych z wykorzystaniem
najbardziej popularnego pakietu statystycznego IBM SPSS Statistics. Dorzucamy
informacje o tym, jak zapisać wyniki, choć należy pamiętać, że standardy często
się zmieniają, a każdy promotor ma troszkę inne wymagania. To tylko propozycja,
a nie nieśmiertelny kanon. Najważniejsze terminy znalazły się na marginesach,
by ułatwić nawigowanie po książce. Nie zakładamy bowiem, że książka będzie
czytana od deski do deski jednym tchem po nocach. Wiemy, że niekiedy czytelnik
będzie po nią sięgał, by znaleźć bardzo konkretne informacje, a nie rozkoszować się
narracją. Kolejnym elementem graficznym są ramki podsumowujące najważniejsze
treści. Wydaje się, że sprawdziły się znakomicie w poprzedniej książce, więc
wykorzystujemy je ponownie.
W tym tomie sięgamy po zagadnienia nieco bardziej złożone i poświęcamy go
w całości metodom poszukiwania związku między zmiennymi. Podejmujemy więc
temat analiz w tym miejscu, w którym został on przerwany w pierwszym Statystycz-
nym drogowskazie... Ponownie omawiamy zatem regresję prostą z jednym predykto-
rem oraz wielokrotną z wieloma zmiennymi wyjaśnianymi. I poszerzamy znacznie
zakres stosowania regresji o możliwość wprowadzania jakościowych predyktorów,
zarówno dychotomicznych, jak i tych o większej liczbie kategorii. Wreszcie, poka-
zujemy jak testować efekty interakcyjne w regresji oraz poszukiwać zmiennych bę-
dących mediatorami (zmiennymi pośredniczącymi). Ta ostatnia kwestia jest bar-
dzo ważna pod kątem budowania teorii naukowych. Dzięki informacji o tej klasie

Przedmowa 11
zmiennych możemy powiedzieć, jak dany efekt działa, dlaczego istnieje zależność
między pewnymi zmiennymi.
Najciekawszą częścią książki są naszym zdaniem rozdziały wprowadzające
zagadnienia modelowania strukturalnego. Ta nowoczesna metoda staje się obec-
nie standardem, więc jej wprowadzenie wydało nam się bardzo interesujące. By
ułatwić jej zrozumienie, w trzech rozdziałach przedstawiamy analizy, które są
odpowiednikami wcześniej opisanych technik regresyjnych: regresji wielokrotnej,
regresji z kowariancją i mediacji. Uznałyśmy, że taki układ ułatwi zapoznanie się
z tą nieco bardziej złożoną metodą. Ze względu na zmianę narzędzia analitycz-
nego z pakietu IBM SPSS Statistics na program AMOS dodałyśmy w ostatnim
rozdziale także krótki przewodnik po tym programie. Niestety, nie wyczerpujemy
możliwości wykorzystania modelowania równań strukturalnych, ponieważ metoda
ta pozwala testować niezwykłe bogactwo układów zależności między zmiennymi
ilościowymi i jakościowymi. Sądzimy jednak, że po takim wprowadzeniu, jakie
proponujemy, dalsza eksploracja tej problematyki będzie znacznie ułatwiona.
Aby czytelnik mógł samodzielnie powtórzyć analizy pliki z danymi zostały
umieszczone na dwóch stronach internetowych: www.wydawnictwosedno.pl oraz
www.bedynska.com.pl. Proszę też pamiętać podczas czytania książki, że warto-
ści liczbowe zostały zaokrąglone do drugiego miejsca po przecinku, więc mogą
nie być identyczne jak w prezentowanych tabelach.
Na koniec najprzyjemniejsza rzecz. Chcemy podziękować osobom, bez któ-

rych ta książka by nie powstała. Po pierwsze więc dziękujemy studentom za zada-
wanie tzw. głupich pytań, bez których nie znalazłybyśmy ciekawych odpowie-
dzi. Ich pytania zmusiły nas do zastanowienia, jak wyjaśnić przystępnie pozornie
oczywiste zagadnienia. Chcemy także podziękować recenzentom książki – prof.
Grzegorzowi Sędkowi i prof. Magdalenie Marszał-Wiśniewskiej, którzy czuwali,
by nasza tendencja do upraszczania nie stała się karykaturalna. Ich wskazówki
były bardzo cenne w naszej pracy nad książką. Podziękowania należą się także
naszym „królikom doświadczalnym” – pierwszym czytelnikom książki – Mar-
cie Koć-Januchcie, Rafałowi Albińskiemu, Magdzie Świrkuli. Dzięki nim szanse,
że książka będzie zrozumiała, znacznie wzrosły. Nad stroną graficzną czuwali
Tomasz Grzelka, Janusz Fajto i Wojciech Stukonis wraz z Pracownikami Wydaw-
nictwa Akademickiego Sedno.
Sylwia Bedyńska
Szkoła Wyższa Psychologii Społecznej w Warszawie
Monika Książek
Szkoła Główna Handlowa w Warszawie

13
Czêœæ I
MODELE REGRESJI

część i
modele regresji
rozdział
Regresja prosta
1
W tym rozdziale dowiemy się o tym:
• jaki jest wzór linii prostej – modelu regresji

• jak dopasowywana jest linia regresji oraz jakie jest znaczenie
jej poszczególnych parametrów, w tym współczynnika beta
• jak przeprowadzić analizę regresji w programie IBM SPSS
Statistics i zinterpretować oraz opisać uzyskane wyniki.

WproWadzenie
Poszukiwanie zależności między zmiennymi jest niezwykle ważnym elementem
postępowania naukowego. Choć analiza korelacji nie ma takiej mocy jak poszuki-
wanie przyczyny i skutku w badaniach eksperymentalnych, to jednak pozwalając
prześledzić wzajemne zależności dużej liczby zmiennych, przygotowuje podstawy
do projektowania eksperymentów. Dzięki tej technice możliwe jest bowiem zna-
czące zawężenie zmiennych uwzględnianych potem w badaniach eksperymental-
nych. Schemat korelacyjny może więc stanowić ważne źródło inspiracji dla ekspe-
rymentów, gdzie niemożliwe staje się uwzględnienie zbyt dużej liczby zmiennych
jednocześnie. Oczywiście relacje badań eksperymentalnych i korelacyjnych są
wzajemne – zidentyfikowane w eksperymencie kluczowe dla danej sfery zmienne
mogą zostać następnie uwzględnione w badaniu korelacyjnym, które pozwala prze-
śledzić bardziej skomplikowane relacje między konstruktami, a w konsekwencji
– budowanie złożonych teorii naukowych.
Skoro relacje są takie ważne, to analiza regresji stanowi istotne narzędzie odpo-
zmienna niezależna wiadania na pytania badawcze o zależności zmiennych. W swej klasycznej postaci
(objaśniająca) wymaga, by zarówno predyktory (zmienne niezależne czy objaśniające), jak i zmienna
zmienna zależna zależna (czy objaśniana) były ilościowe, ale jak pokażemy w jednym z rozdziałów,
(objaśniana) możliwe jest także uwzględnienie dychotomicznych predyktorów. Możemy je wpro-
wadzać do regresji, dlatego że metoda ta jest bardziej ogólną techniką analityczną
należącą do rodziny metod kryjących się pod nazwą Ogólnego Modelu Liniowego.
Do tej samej grupy technik należą także testy t-Studenta i analiza wariancji, ale
nie są one tak wszechstronne jak regresja. Ograniczenie dla regresji stanowi jednak
liczba zmiennych zależnych – nie może ona przekroczyć jednej.
W tym rozdziale przedstawimy szczegółowo najprostszą analizę z wykorzysta-
niem jednej zmiennej niezależnej i jednej zmiennej zależnej. Dzięki temu, że model
będzie tak prosty, możliwy się stanie bardzo szczegółowy i precyzyjny opis podstaw
logicznych analizy regresji i sposobu interpretacji jej wyników. Zaczniemy jednak
od statystyk opisowych, które pozwalają podsumować współzmienność dwóch
zmiennych: kowariancji i korelacji r Pearsona. Następnie pokażemy na wykresach
rozrzutu, jak wyglądają dane o określonych wartościach współczynnika korelacji
r Pearsona. Opiszemy także metodę dopasowania linii regresji oraz interpretację
parametrów opisujących tę linię. W ostatniej części rozdziału zaprezentujemy
sposób wykonania obliczeń w programie IBM SPSS Statistics i zapis wyników
w raporcie empirycznym.

rozdziaŁ 1 Regresja prosta 17
KoWariancja i Korelacja
jaKo miary WspóŁzmienności
By zaprezentować logikę analizy regresji, cofniemy się na chwilę do dwóch statys-
tyk opisowych: kowariancji i korelacji. Ta pierwsza nie jest zbyt popularna, ale
zrozumienie sensu jej obliczania jest niezbędne, by swobodnie korzystać z niej
w znajdującym się w dalszej części książki modelowaniu strukturalnym. Kowa-
riancję można uznać za prekursorkę korelacji, więc to, co teraz będziemy robić, to
po trosze archeologiczne wykopaliska.
Kowariancja wykorzystuje wariancję wyników, czyli odległości wyników od kowariancja
średniej arytmetycznej. Opiera się na obserwacji, że jeśli dwie zmienne mają jakiś
specyficzny układ wartości względem siebie, to przykładowo u danej osoby wynik
powyżej średniej powinien współwystępować z wynikiem powyżej średniej w dru-
giej zmiennej. Możliwy jest też taki układ, że wynik poniżej średniej w obrębie
jednej zmiennej współwystępuje u danej osoby z wynikiem powyżej średniej w obrę-
bie drugiej zmiennej. A zatem kowariancja to inaczej współzmienność wyników
dwóch zmiennych, którą szacujemy, sprawdzając, w jakim kierunku odchylają się
wyniki obu zmiennych od odpowiednich średnich. Przykład obliczania kowariancji
dla czterech wyników można znaleźć w tabeli 1.1.
Kroki obliczania kowariancji:

 Obliczamy średnie dla obu zmiennych.
 Odejmujemy wynik osoby w danej zmiennej od średniej dla tej zmiennej.
Obliczamy więc odległości wyników w danej zmiennej od jej średniej.
 Dla każdej osoby mnożymy obie odległości wyników zmiennych od ich
średnich.
 dodajemy do siebie iloczyny odległości – to jest licznik kowariancji.
 By uzyskać wartość kowariancji, dzielimy obliczoną w kroku 4 sumę przez
liczbę obserwacji pomniejszoną o 1.
Jak w niej widać, obliczamy ją w kilku krokach. Najpierw musimy znaleźć śred-
nie dla obu podsumowywanych zmiennych, następnie odnieść każdy wynik do tej
średniej, odejmując wynik od średniej. Mnożymy tak uzyskane odległości dla każ-
dej pary wyników i sumujemy je, uzyskując licznik kowariancji. Teraz już wystar-
czy tylko podzielić rezultat obliczeń przez liczbę wyników minus 1 i uzyskamy
wartość kowariancji. W tym przykładzie będzie to wartość –2,5.
No dobrze, policzyliśmy kowariancję, ale jak ją teraz zinterpretować? Niestety, interpretacja
poważnym ograniczeniem tej statystyki jest to, że możemy jedynie określić kie- kowariancji
runek zależności. Ujemna wartość świadczy o tym, że niskie wartości jednej

18 Część I Modele RegReSjI
Tabela 1.1. Kolejne kroki obliczania wielkości kowariancji dla zmiennych X oraz Y
Odległość Odległość
Wartości Wartości Iloczyn
od średniej od średniej
zmiennej X zmiennej Y odległości
dla X dla Y
1 5 –2 2 –4
2 4 –1 1 –1
3 3 0 0 0
4 2 1 –1 –1
5 1 2 –2 –4
średnia = 3 średnia = 3 suma: –10
zmiennej współwystępują z wysokimi drugiej zmiennej i odwrotnie, a dodatnie, że

niskie wartości współwystępują z niskimi, a wysokie z wysokimi. Nie jesteśmy jed-
nak w stanie określić, czy zależność między zmiennymi jest silna czy słaba. Dzieje
się tak, dlatego że wielkość kowariancji zależy silnie od jednostek pomiarowych
– będzie większa, gdy podamy wartość wzrostu w centymetrach, niż gdy będziemy
ją obliczać na podstawie tych samych wartości, ale zapisanych w metrach. By poko-
nać tę trudność, Robert Pearson zaproponował współczynnik korelacji nazwany
później współczynnikiem r Pearsona, który ze względu na to, że liczony jest dla
wystandaryzowanych wyników, pozwala określić dwa aspekty relacji: siłę i kierunek.
Przyjrzyjmy się zatem współczynnikowi korelacji r Pearsona. Dla powyż-
szych danych będzie on obliczany następująco: pierwszy krok jest kluczowy,
bo zamiast odnosić wyniki obu zmiennych do ich średnich, standaryzujemy je,
a więc podajemy odległość od średniej, ale w jednostkach odchylenia standardo-
wego. Następnie postępujemy identycznie jak w przypadku obliczania kowarian-
cji: mnożymy przez siebie pary wartości dla danej osoby, dodajemy te iloczyny do
siebie i dzielimy przez liczbę osób badanych pomniejszoną o 1. Efektem tego jest
wartość współczynnika r Pearsona wynosząca dokładnie –1. Kolejne kroki obli-
czania korelacji dla przykładowych danych przedstawia tabela 1.2.
Współczynnik korelacji r Pearsona może przyjmować wartości od –1 do 1. Znak
współczynnika oznacza kierunek zależności – tak jak w przypadku kowariancji.
Kroki obliczania współczynnika korelacji r pearsona:

 Obliczamy średnie i odchylenia standardowe dla obu zmiennych.
 Standaryzujemy wyniki każdej zmiennej, odejmując od każdego wyniku
średnią i dzieląc tę różnicę przez odchylenie standardowe.
 Dla każdej osoby mnożymy wystandaryzowane wyniki dla obu zmiennych.
 Dodajemy do siebie iloczyny wystandaryzowanych wyników – to jest licznik
współczynnika korelacji r Pearsona.
 By uzyskać wartość korelacji, dzielimy obliczoną w kroku 4. sumę przez liczbę
obserwacji pomniejszoną o 1.

Tabela 1.2. Kolejne kroki obliczania wielkości korelacji dla zmiennych X oraz Y
Wystandaryzowana Wystandaryzowana
Wartości Wartości Iloczyn
odległość od średniej odległość od średniej
zmiennej X zmiennej Y odległości
dla X (Xi – M)/SD dla X (Xi – M)/SD
1 5 –1,26 1,26 –1,6

2 4 –0,63 0,63 –0,4
3 3 0,00 0,00 0,0
4 2 0,63 –0,63 –0,4
5 1 1,26 –1,26 –1,6
średnia = 3 średnia = 3 suma: –4
SD = 1,6 SD = 1,6
Dodatkowo jednak możemy określić siłę zależności: im wartość współczynnika

bliższa wartościom maksymalnym –1 oraz 1, tym silniejsza zależność. Gdy wartość
współczynnika znajduje się blisko 0, wówczas mówimy, że nie ma współzależności,
przy czym musimy pamiętać, że myślimy wtedy o zależność prostoliniowej – mono-
tonicznej i proporcjonalnej (a więc o zmianie o identyczną liczbę jednostkę jednej
zmiennej wraz ze zmianą drugiej zmiennej o jedną jednostkę). Tutaj mamy więc
do czynienia z idealną korelacją ujemną, ponieważ współczynnik korelacji r = –1.
 Kowariancja pozwala określić jedynie kierunek zależności, ale nie siłę relacji.
Wielkość kowariancji zależy silnie od jednostek pomiarowych.
 Korelacja umożliwia określenie zarówno kierunku, jak i siły zależności. Wiel-
kość korelacji nie zależy od jednostek pomiarowych, bo przed policzeniem
korelacji zmienne są standaryzowane.
Operacje w programie IBM SPSS Statistics (ANALIZA–KORELACJE–

–PARAMI), gdy wpiszemy te dane do edytora danych, potwierdzają poprawność
wcześniejszych obliczeń (zob. tab. 1.3).
Zerknijmy teraz, jak taka zależność wygląda na wykresie rozrzutu, na którym
na osiach X oraz Y umieszczone są wartości obu zmiennych. Aby wykonać wykres,
wchodzimy do górnego menu programu IBM SPSS Statistics i wybieramy opcję
WYKRESY–WYKRESY TRADYCYJNE–ROZRZUTU/PUNKTOWY. Domyślnie
w oknie tym zaznaczony jest wykres PROSTY, a taki właśnie chcemy wykonać, więc
klikamy przycisk DEFINIUJ, by określić, które zmienne przedstawimy na wykresie.
Zmienną X umieszczamy na osi X, a zmienną Y na osi Y. Zwykle zmienną, którą
traktujemy jako wyjaśnianą, umieszczamy na osi Y, a wyjaśniającą na osi X. Potwier-
dzamy chęć wykonania operacji przyciskiem OK i uzyskujemy wykres (zob. rys. 1.1).
Jak widać na rysunku 1.1, punkty układają się dokładnie na linii prostej,
ponieważ mamy do czynienia z idealną korelacją ujemną. Biegną od lewego
górnego rogu do dolnego prawego, bo korelacja jest ujemna. Dla dodatniej korelacji

Tabela 1.3. Macierz korelacji dla zmiennych X oraz Y
r = 1 punkty przebiegałyby po skosie od lewego dolnego do prawego górnego

rogu. Jeśliby natomiast korelacja byłaby słabsza, punkty leżałyby coraz dalej
od linii i przypominałyby raczej smugę niż idealny liniowy układ. Im wartość
r Pearsona jest bliższa 0, tym bardziej punkty są bezładnie porozrzucane po
obszarze wykresu. Pamiętajmy tylko o jednym ważnym zaleceniu: najpierw
obejrzyjmy wykres rozrzutu, a potem liczmy współczynnik r Pearsona. Liczenie
tej statystyki (a także, jak się zaraz okaże, analizy regresji) wymaga spełnienia
założenia o liniowości relacji między zmiennymi. Muszą się więc one układać
w linię prostą lub co najmniej smugę, nie mogą natomiast przypominać banana,
litery „s” ani przyjmować innych zaokrąglonych kształtów.
Rysunek 1.1. Wykres rozrzutu dla zmiennych X oraz Y

jednozmiennoWa analiza regresji

Analiza regresji pozwala przeanalizować zależność między zmiennymi ilościo-
wymi. W tym rozdziale przedstawimy wariant analizy regresji z jednym pre-
dyktorem i jedną zmienną zależną, by opisać szczegółowo kolejne kroki analizy
i znaczenie parametrów (statystyk regresji). Należy jednak pamiętać, że taki
wariant obliczeń jest obecnie rzadkością, ponieważ w większości przypadków
badacz dysponuje większą liczbą predyktorów, których znaczenie dla zmien-
nej zależnej chce uwzględniać. Regresje jednozmiennowa i wielkozmiennowa
mają wiele wspólnych elementów. W każdej z nich do danych dopasowywany
jest model, ale w regresji jednozmiennowej jest to linia prosta, dwuzmiennowej
– płaszczyzna, a trójzmiennowej – przestrzeń trójwymiarowa. Przy większej licz-
bie predyktorów nie sposób już sobie nawet wyobrazić modelu (choć oczywiście
złośliwi twierdzą, że żaden matematyk nie ma problemu z wyobrażeniem sobie
przestrzeni n-wymiarowej).
Kroki analizy regresji:

 Dopasowanie modelu (tu: linii) metodą najmniejszych kwadratów.
 Oszacowanie parametrów linii dla danych surowych (parametry niestandary-
zowane: współczynnik nachylenia i stała) i standaryzowanych (współczynnik
beta).
 Określenie dobroci dopasowania modelu.
Zacznijmy więc od najprostszego wariantu, w którym do danych dopasowu-

jemy linię prostą za pomocą metody najmniejszych kwadratów. Następnie
podajemy parametry tej linii prostej w dwóch wariantach: dla danych surowych
i dla danych wystandaryzowanych. Ta ostatnia statystyka, nazywana współczyn-
nikiem beta, pozwala na interpretację zależności w kategoriach siły i kierunku,
podobnie jak współczynnik r Pearsona. Ostatni krok pozwala na określenie, ile
procent wariancji zmiennej zależnej wyjaśnia cały model. Dzięki tej informacji
możliwe jest porównywanie różnych modeli między sobą, bez względu na liczeb-
ność próby, na której zostały obliczone.
dopasoWanie linii regresji

metodą najmniejszych KWadratóW
Pierwszym krokiem analizy regresji jest dopasowanie takiej linii prostej, która
będzie spełniała jeden ważny warunek: odległości wyników od tej linii będą mini- linia najlepszego
malne. Taka linia prosta może zostać nazwana linią najlepszego dopasowania. dopasowania

Jak jednak statystycznie sprawdzić, czy linia jest dobrze dopasowana? Jeśli jeste-
śmy zainteresowani odległościami wyników od linii, to w sukurs przychodzi nam
analiza wariancji, za pomocą której możemy określać wielkość łącznych odległo-
ści wyników od linii regresji. Przyjrzyjmy się jednak bardziej szczegółowo proce-
sowi określania, czy linia jest dobrze dopasowana.
analiza wariancji Punktem wyjścia analizy wariancji, która sprawdza poziom dopasowania linii,
jest stwierdzenie, że jeśli nie mamy żadnego predyktora, to próbujemy przewi-
dywać wyniki, posługując się średnią arytmetyczną dla zmiennej zależnej. Ten
najprostszy model jest więc punktem odniesienia dla modelu bardziej złożonego
– linii prostej. Zerknijmy na wykres rozrzutu na rysunku 1.2.
Będziemy przewidywać poczucie szczęścia na podstawie liczby przyjaciół. Dane
do wykonania tego wykresu znajdują się w pliku przyjaciele.sav. Zobaczmy, że punkty
są nieco oddalone od linii regresji. Te odległości od linii to różnica między wynikiem
rzeczywistym a wynikiem przewidywanym przez model liniowy. Gdyby zależność
była idealna i punkty y leżały dokładnie na linii, wtedy wynik przewidywany
równałby się wynikowi rzeczywistemu. Tutaj jednak mamy pewną rozbieżność,
Wariancja niewyjaśniona
za pomocą modelu regresji
Wariancja wyjaśniona
za pomocą modelu regresji
 Gwiazdką oznaczono wynik przewidywany.
Rysunek 1.2. Wykres rozrzutu dla zmiennej zależnej poczucie szczęścia (szczęście)
i predyktora liczba przyjaciół (przyjaciele) z dopasowaną linią regresji (linia ciągła) i linią
poziomą określającą wartość średniego poczucia szczęścia (linia przerywana)

bo przewidywanie nie jest stuprocentowo precyzyjne. Rozbieżność ta, czyli róż-

nica między wynikiem rzeczywistym a przewidywanym przez model, nazywana reszta regresji
jest resztą regresji. Reszty regresji określają wielkość błędu przewidywania, a ich błąd przewidywania
wariancja może być traktowana jako składnik błędu. Czy jednak regresja pozwala składnik błędu
lepiej przewidywać niż prostszy model bazujący na średniej arytmetycznej? By to
sprawdzić, musimy policzyć, na ile poprawia się przewidywanie, gdy posługujemy
się regresją, a więc odniesiemy wynik przewidywany przez regresję do średniej
arytmetycznej w postaci wariancji wyników przewidywanych wobec średniej. Jeśli
model regresji jest dobrym modelem, to wówczas wynik przewidywany stanowi
lepsze przybliżenie rzeczywistego wyniku osoby badanej niż średnia arytmetyczna.
Analiza wariancji odnosi do siebie te dwa składniki: wielkość wariancji wyjaśnionej
za pomocą modelu regresji do wielkości wariancji niewyjaśnionej przez regresję,
czyli wielkości reszt regresji.
analiza wariancji w regresji testuje, czy model jest dobrze dopasowany do danych.
Porównuje wielkość wariancji wyjaśnianej przez regresję z prostszym modelem,
jakim jest średnia arytmetyczna. Istotna analiza wariancji wskazuje, że model
regresji lepiej wyjaśnia dane niż średnia arytmetyczna. Metoda ta nazywana jest
metodą najmniejszych kwadratów, bo wariancja to nic innego jak średni kwadrat
odległości wyników od średniej (zob. Bedyńska, Brzezicka, 2007: rozdz. 7).
Proporcja tych dwóch wariancji podawana jest w postaci statystyki F wraz ze

stopniami swobody dla regresji (liczba wszystkich zmiennych, zależnych i nieza-
leżnych, minus 1) i stopniami swobody dla reszt (liczba wszystkich osób badanych
pomniejszona o 1) oraz poziomem istotności, który pozwala stwierdzić, czy model
regresji jest istotnie statystycznie lepszym sposobem przewidywania wyników
niż średnia arytmetyczna. Analiza wariancji podaje także składniki niezbędne
do oszacowania, ile procent wariancji (zmienności) zmiennej zależnej udaje się
wyjaśnić za pomocą wprowadzonych predyktorów. Możliwe jest to dzięki określe-
niu proporcji sumy kwadratów dla regresji (oszacowania wariancji wyjaśnionej za
pomocą regresji) do sumy kwadratów ogółem (oszacowania całkowitej wariancji).
Statystyka, która podaje tę wartość, to statystyka R2 obliczana poprzez podniesienie statystyka R2
do kwadratu współczynnika korelacji wielokrotnej R – miary korelacji wszystkich korelacja wielokrotna R
predyktorów traktowanych łącznie ze zmienną zależną.
Współczynnik R2 pomnożony przez 100% wskazuje, ile procent wariancji zmiennej

zależnej (jej zmienności) wyjaśnia predyktor. Określa więc bardziej precyzyjnie
dobroć dopasowania b niż istotność analizy wariancji.

róWnanie linii prostej – parametry modelu
Skoro na podstawie wyników analizy wariancji zamieszczonych w regresji już

wiemy, że udało się dopasować dobry model regresji do danych, to możemy
przystąpić do określania dokładnego równania opisującego tę relację. Gdy mamy
tylko jeden predyktor, modelem jest linia prosta z jednym X, którą można zapi-
sać w postaci równania matematycznego Ŷ = B0 + B1 • X. Taki zapis jest nieco
odmienny od tego uczonego w szkole podstawowej, ale celowo podajemy taką
właśnie postać linii regresji, ponieważ program IBM SPSS Statistics oznacza
kolejne parametry linii prostej kolejno numerowanymi literami B. Opiszmy
znaczenie symboli w tym równaniu. Symbol Ŷ oznacza przewidywany wynik
dla zmiennej zależnej, a X – wynik uzyskany dla predyktora. Bardzo ważne jest
parametr b0 także, by pamiętać znaczenie obu parametrów równania. Parametr B0 zwany jest
inaczej stałą i wyznacza punkt przecięcia przez linię regresji osi Y. Jeśli parametr
ten wynosi 1, oznacza to, że linia regresji jest nieco powyżej początku układu
współrzędnych; gdy wynosi –1 – to nieco poniżej początku układu współrzędnych
parametr b1 (zob. rys. 1.3, wykres z lewej). Parametr B1 – współczynnik kierunkowy, defi-
niuje natomiast stopień nachylenia linii regresji względem osi X. Gdy przyjmuje
wysoką wartość, to linia przebiega bardziej stromo, gdy niską – bardziej płasko.
W sytuacji gdy współczynnik B1 wynosi dokładnie 0, linia regresji jest równoległa
do osi X, ponieważ w równaniu pozostaje jedynie stała i tylko ona determinuje
przebieg linii (zob. rys. 1.3 z prawej).
Rysunek 1.3. Znaczenie parametrów linii: z lewej strony linie różnią się wartością stałej,
z prawej wartością współczynnika nachylenia

parametr B0, nazywany stałą, określa punkt przecięcia linii z osią Y, a parametr
B1, nazywany współczynnikiem nachylenia, określa stopień nachylenia linii
względem osi X.
Jak pewnie niektórzy zauważyli, zapisane powyżej równanie regresji obliczane

jest na podstawie danych surowych, a więc w konsekwencji wielkość obu parame-
trów tego równania (stałej i współczynnika nachylenia) zależy od jednostek pomia-
rowych. Pojawia się więc tutaj ten sam problem jak w przypadku współczynnika
kowariancji. Załóżmy, że chcemy przykładowo przewidywać wzrost mężczyzny na
podstawie wzrostu jego ojca (to taki stary problem badawczy, który interesował
między innymi Galtona w XIX wieku i przyczynił się od odkrycia regresji do śred-
niej wskazującej, że synowie niskich ojców są wyżsi, a wysokich – niżsi) i poda-
jemy wzrost za pomocą centymetrów, a drugim przypadku – w metrach. Parametry
modelu będą miały wtedy wyższe wartości, gdy wzrost będzie mierzony w centy-
metrach. To powoduje, że nie możemy porównywać między sobą różnych modeli,
posługując się parametrami dla danych surowych. Aby się pozbyć tej niedogodno-
ści, potrzebujemy uniwersalnej jednostki i takiej postaci linii regresji, w której będzie
podany parametr podobnie uniwersalny co współczynniki r Pearsona. By poradzić
sobie z tym problemem, musimy więc – podobnie jak podczas obliczania współ-
czynnika r Pearsona, wystandaryzować wyniki, a następnie podać wzór linii regresji
dla tak przekształconych danych. Konsekwencją tego przekształcenia jest redukcja
stałej do 0 i zmiana wartości współczynnika B1, który w tej postaci jest nazywany
współczynnikiem standaryzowanym beta. Beta, tak jak współczynnik r Pear- współczynnik
sona, może przyjmować wartości od –1 do 1; jego interpretacja jest identyczna jak standaryzowany beta
współczynnika r Pearsona. Dzięki podanemu na wydruku poziomowi istotności uzy-
skujemy także informację, czy współczynnik ten jest równy 0, czy też odbiega istot-
nie od 0. Jeśli odbiega, oznacza to istotną relację między predyktorem a zmienną
wyjaśnianą, którą możemy interpretować w kategoriach siły i kierunku zależności.
Podsumujmy więc kolejne składowe analizy regresji. W analizie regresji jedno-
zmiennowej modelem jest linia prosta, która może zostać opisana za pomocą rów-
nania linii regresji. Równanie to ma postać Ŷ = B0 + B1 • X, gdzie współczynnik
parametry B0 oraz B1 są obliczane dla danych surowych, więc ich wartości zależą
od jednostek pomiaru. Pozwalają obliczyć wynik przewidywany dla danej osoby,
ale nie nadają się do porównywania różnych modeli. By porównywać modele,
posługujemy się bardziej uniwersalnym parametrem beta, który został obli-
czony dla danych standaryzowanych. Interpretujemy jego wartość tak jak war-
tość współczynnika r Pearsona.

B0 (stała) określa punkt przecięcia z osią Y, a współczynnik B1 pozwala stwier-

dzić, jak mocno nachylona jest linia regresji w stosunku do osi X. Poziom dopaso-
wania tej linii do danych określany jest za pomocą analizy wariancji, która spraw-
dza, czy reszty regresji nie są większe niż odległość wyniku przewidywanego od
średniej. Jeśli analiza wariancji jest istotna, to wiemy, że regresja wyjaśnia lepiej
wyniki niż zwykła średnia arytmetyczna i wtedy jest sens interpretowania współ-
czynników linii regresji. Współczynniki niestandaryzowane B0 i B1 przydatne są
wtedy, gdy chcemy obliczyć wartość przewidywaną dla danej osoby (Ŷ), znając
jej wynik w zakresie zmiennej wyjaśniającej (X). Wówczas w równaniu w miej-
sce X podstawiamy znaną wartość, mnożymy ją przez wartość współczynnika
nachylenia (B1), dodajemy wartość stałej (B0) i mamy wynik przewidywany. Jed-
nak do interpretacji wyników ważniejszy jest współczynnik beta, który pozwala
określić, jak silna jest relacja między zmiennymi i jaki jest jej kierunek. Tylko ten
współczynnik pozwala na porównywanie wyników z różnych modeli. W jedno-
zmiennowej regresji przyjmuje on identyczną wartość jak współczynnik korelacji
wielokrotnej R. I wreszcie ostatnia statystyka: R2, która informuje o tym, ile pro-
cent wariancji wyników zmiennej zależnej wyjaśnia cały model. Ta statystyka ma
szczególne znaczenie w regresji wielozmiennowej, ponieważ określa efektywność
całego modelu ze wszystkimi predyktorami łącznie, ale tutaj – w modelu regresji
prostej niewiele nowego wnosi.
analiza regresji W programie

iBm spss statistics
Skoro już wiemy, jakich informacji szukać na wydruku programu IBM SPSS Stati-
stics i jakie jest znaczenie poszczególnych statystyk, możemy przystąpić do zapre-
zentowania, jak po kolei wykonać obliczenia w programie IBM SPSS Statistics.
Analiza regresji powinna być przeprowadzana w kilku krokach. Zanim ją wyko-
namy, warto przyjrzeć się trochę statystykom opisowym w postaci współczynnika
r Pearsona i wykresom rozrzutu prezentującym relację między zmienną wyjaśnia-
jącą i wyjaśnianą. Dzięki wykresowi możemy choćby wstępnie stwierdzić, czy
postulowany przez nas liniowy model relacji jest właściwy oraz czy są szanse na
uzyskanie istotnej relacji między zmiennymi. Gdy współczynnik r Pearsona nie
jest istotny, analiza regresji nie dokona cudu i nie przyniesie informacji o istotnej
relacji. Należy wtedy szukać innych zmiennych wyjaśniających zmienną zależną.
Gdy już wykonamy te wstępne kroki i okaże się, że wykres rozrzutu pokazuje
smugę punktów układających się w kształt linii prostej, a współczynnik r Pearsona
jest w miarę wysoki i istotny, możemy przystąpić do wykonania analizy regresji.
Spróbujmy przewidzieć poczucie szczęścia na podstawie liczby przyjaciół, posługu-
jąc się danymi przyjaciele.sav. Wchodzimy więc do górnego menu, klikamy na opcje

Tabela 1.4. Fragment wydruku analizy regresji z wynikami analizy wariancji określającej
dopasowanie modelu regresji
ANALIZA, a następnie wybieramy z listy REGRESJA–LINIOWA. Teraz umiesz-

czamy zmienną przyjaciele jako niezależną, a zmienną szczęście jako zależną (zob.
rys. 1.4) i potwierdzamy chęć wykonania obliczeń przyciskiem OK.
Po wykonaniu tej operacji w edytorze raportów pojawia się wiele tabel. Niestety,
nie są ułożone w odpowiedniej kolejności, więc odczytywanie wyników musimy
zacząć od tabeli trzeciej ANOVA prezentującej wyniki analizy wariancji (tab. 1.4).
W tabeli ANOVA zaprezentowane są statystyki pozwalające określić, czy
udało się dopasować taką linię prostą – czy bardziej ogólnie: taki model, by wyja-
śniał on więcej niż średnia arytmetyczna. Statystyka F powstaje z proporcji śred-
niego kwadratu regresji do średniego kwadratu reszty, czyli oszacowań odległości
Rysunek 1.4. Okno dialogowe regresji liniowej pozwalające zdefiniować zmienne w modelu

Tabela 1.5. Współczynniki modelu regresji
Tabela 1.6. Podsumowanie modelu – wartość współczynnika korelacji wielokrotnej

i statystyki R2
wyników przewidywanych przez regresję od średniej oraz reszt regresji, czyli odle-
głości wyników rzeczywistych od przewidywanych przez regresję. Tutaj widzimy,
że wynik analizy wariancji jest istotny statystycznie i wobec tego możemy uznać,
że model jest dobrze dopasowany, bo wyjaśnia więcej zmienności zmiennej zależ-
nej niż jej średnia arytmetyczna. Statystyki tej analizy zapisujemy następująco:
F(1, 6) = 15,68; p < 0,01. Pamiętajmy, że w nawiasie zamieszczamy dwa rodzaje
stopni swobody: jako pierwsze stopnie swobody dla regresji, po przecinku – stop-
nie swobody dla reszty. Stopnie swobody ogółem można wtedy samodzielnie obli-
czyć, dodając do siebie te pozostałe dwa rodzaje stopni swobody dla regresji i dla
reszty. Skoro udało się dopasować model do danych, to możemy przejść do kolej-
nej tabeli WSPÓŁCZYNNIKI (tab. 1.5).
W tabeli możemy znaleźć oba typy współczynników: niestandaryzowane
i standaryzowane oraz statystyki t określające istotność tych współczynników.
Zacznijmy od współczynników niestandaryzowanych: stała wynosi w tym modelu
1,11, a współczynnik kierunkowy 0,64. Możemy więc zapisać równanie regresji
w postaci: Ŷ = 1,11+ 0,64 • X. Dzięki temu obliczamy, ile punktów w skali szczęścia
miałaby osoba mająca 10 przyjaciół, podstawiając wartość 10 w miejsce X do
równania: Ŷ = 1,11 + 0,64 • 10= 7,51. Znając wartość stałej, możemy także łatwo
powiedzieć, jaki wynik w skali szczęścia będzie miała osoba, która w ogóle nie ma
przyjaciół – będzie to wartość równa stałej, ponieważ po podstawieniu wartości 0
zamiast X obliczony Ŷ będzie równy wartości stałej, czyli 1,11. Współczynnik
nachylenia informuje nas o tym, o ile wzrośnie poziom szczęścia wraz z każdą

kolejną zaprzyjaźnioną osobą. Gdy liczba przyjaciół wzrośnie o 1, poczucie szczęścia
będzie wyższe o 0,64 punktu w skali szczęścia, którą zastosowaliśmy do pomiaru.
Wracamy teraz do tabeli WSPÓŁCZYNNIKI (tab. 1.5). W trzeciej kolumnie
zamieszczone są błędy standardowe obu parametrów niestandaryzowanych. Gdy
podzielimy wartość współczynnika przez jego błąd standardowy, to uzyskamy war-
tość statystyki t znajdującej się w piątej kolumnie. Istotność znajdująca się w końco-
wej kolumnie tabeli informuje, czy wartość współczynnika jest różna od 0. A więc
gdy istotność jest mniejsza niż 0,05, to możemy zamieszczać ten współczynnik
we wzorze linii regresji. Wiemy wtedy również, że współczynnik standaryzowany
beta różni się od 0, a więc istnieje istotna relacja między zmiennymi. Tutaj współ-
czynnik beta wynosi 0,85, jego istotność p < 0,05 (mniejsza od 0,05), więc kon-
kludujemy, że relacja jest istotna, silna i dodatnia. Oznacza to tym samym, że im
więcej mamy przyjaciół, tym bardziej jesteśmy szczęśliwi. Pamiętajmy jednak, że
regresja nie pozwala określić relacji przyczynowo-skutkowych, więc możemy jedy-
nie wskazać, że relacja między liczbą przyjaciół i poczuciem szczęścia ujawnia się,
ale nie wiemy, czy to przyjaciele powodują, że czujemy się szczęśliwi, czy też gdy
czujemy się szczęśliwi, to łatwiej się zaprzyjaźniamy i mamy więcej przyjaciół.
I wreszcie ostatnia tabela: MODEL–PODSUMOWANIE prezentująca wartości
współczynnika korelacji wielokrotnej R, wartość statystyki R2, jego skorygowaną
wersję oraz błąd standardowy oszacowania (zob. tab. 1.6). Współczynnik korelacji
wielokrotnej może przyjmować jedynie dodatnie wartości, tutaj w regresji jedno-
zmiennowej jest tożsamy z wartością współczynnika beta i współczynnika r Pearsona.
Jednak interpretujemy wartość R2, która przemnożona przez 100 informuje o tym,
jaki procent wariancji zmiennej zależnej wyjaśnia zmienna niezależna. W powyższym
przykładzie uzyskaliśmy znakomitą moc przewidywania, ponieważ udaje nam się
wyjaśnić za pomocą liczby przyjaciół aż 72% zmienności poczucia szczęścia.
Wyniki analizy regresji zapisujemy w takiej kolejności, w jakiej omawiały-
śmy je w tym rozdziale. Zbierzmy więc teraz wszystkie informacje w raporcie.
Pamiętajmy: w pierwszym zdaniu raportu zwykle wskazuje się rodzaj analiz,
jakie zostały wykonane, a każdy wniosek musi zostać poparty odpowiednimi
statystykami. Piszemy więc:
Wykonano analizę regresji jednozmiennowej, w której zmienną wyjaśnianą było

poczucie szczęścia, a zmienną wyjaśniającą liczba przyjaciół. Zaproponowany model
regresji okazał się dobrze dopasowany do danych F(1, 6) = 15,68; p < 0,01. Na
podstawie współczynników regresji można stwierdzić, że liczba przyjaciół jest silnie
i pozytywnie powiązana z poczuciem szczęścia (beta = 0,85, p < 0,01). Oznacza
to, że osoba mająca dużą liczbę przyjaciół przejawia także wysoki poziom szczęścia.
Równanie regresji można zapisać w postaci Y = 1,11 + 0,64 • X. Testowany model
wyjaśnia aż 72% zmienności zmiennej zależnej.

przyKŁad: relacja temperatury

i samopoczucia
Pokażemy teraz jeszcze jeden przykład regresji, by wskazać możliwe trudności ze
stosowaniem tego typu analiz. Poddajmy analizie samopoczucie psychofizyczne
osób w zależności od temperatury otoczenia. Badania takie są także domeną psy-
chologów, bo wszelkie czynniki determinujące efektywność pracy i dobrostan
psychiczny mogą być uwzględniane w badaniach psychologicznych. Otwórzmy dane
samopoczucie.sav i wykonajmy próbę przewidywania wyników zmiennej samopoczucie
na bazie zmiennej temperatura.
Obliczmy wartość współczynnika r Pearsona (ANALIZA–KORELACJE–PA-
RAMI), żeby sprawdzić, czy istnieje szansa na uzyskanie istotnych wyników w ana-
lizie regresji. Wydruk współczynnika r Pearsona pokazuje, że korelacja jest wysoka,
dodatnia i istotnie różni się od 0 (tab. 1.7).
Zachęceni takim wynikiem wykonujemy analizę regresji ANALIZA–REGRESJA–
–LINIOWA i oglądamy kolejne tabele wydruku – na początek dopasowanie linii regre-
sji do danych (tab. 1.8). Na podstawie wyników analizy wariancji możemy stwierdzić,
że udało się dobrze dopasować linię regresji do danych F(1, 9) = 17,97; p < 0,01.
Współczynnik R2 informuje nas, że wprowadzony predyktor wyjaśnia prawie
67% wariancji, czy inaczej: zmienności zmiennej wyjaśnianej (tab. 1.9).
I wreszcie oglądamy współczynnik standaryzowany beta w tabeli WSPÓŁ-
CZYNNIKI (tab. 1.10). Współczynnik standaryzowany beta wynoszący 0,82
potwierdza całkowicie wynik wcześniejszej analizy eksploracyjnej wykonanej
z wykorzystaniem współczynnika r Pearsona – zmienna temperatura jest silnie
i dodatnio powiązana z samopoczuciem badanych. Oznacza to, że pozytywne
samopoczucie jest powiązane z wysoką temperaturą.
Czy na pewno? W całym toku analizy pominęłyśmy jeden istotny, często pomi-
jany etap analizy – wykonanie wykresu rozrzutu. Zrobiłyśmy to celowo, by pokazać,
jak ważny jest ten drobiazg. Wspomniałyśmy powyżej, że jednozmiennowa analiza
regresji bazuje na modelu linii prostej. Taki właśnie model jest dopasowywany do
danych. Jednak nie zawsze zależność musi być prostoliniowa. Niekiedy zależność
powinna być modelowana za pomocą krzywej, na przykład U-kształtnej, kiedy
zarówno bardzo niskie, jak i bardzo wysokie wyniki w obrębie zmiennej niezależnej
są powiązane z wysokimi wynikami w zakresie zmiennej zależnej czy N-kształt-
nej, gdy wysokie wyniki w zmiennej zależnej odpowiadają przeciętnym wynikom
zmiennej niezależnej. Ten ostatni model N-kształtny adekwatnie opisuje prawo
Yerkesa-Dodsona wskazujące, że zarówno zbyt niski, jak i zbyt wysoki poziom stresu
jest niekorzystny dla efektywności funkcjonowania. Można sądzić, że większość
takich zależności, w których jest pewien optymalny poziom (ani zbyt niski, ani
zbyt wysoki), to zależności krzywoliniowe (kwadratowe, o kształcie paraboli). Także

Tabela 1.7. Współczynnik r Pearsona dla zmiennych samopoczucie oraz temperatura
Tabela 1.8. Wyniki analizy wariancji testującej istotność dopasowania modelu regresji
dla relacji samopoczucia i temperatury powietrza
Tabela 1.9. Tabela ze współczynnikami dopasowania regresji
Tabela 1.10. Współczynniki regresji dla przewidywania samopoczucia na podstawie temperatury

w tym przypadku – gdy chcemy przewidywać samopoczucie na bazie informacji

o temperaturze otoczenia, możemy sugerować, że jest pewne optimum tempera-
tury w obrębie jej przeciętnych wartości, a zarówno zbyt niskie, jak i zbyt wysokie
temperatury będą odbierane przez badanych jako niekomfortowe i tym samym
będą obniżały ich samopoczucie. Przecież prawie nikt nie lubi marznąć, ani się
piec w upale, choć oczywiście optimum jest dla każdego trochę inne.
Wróćmy więc teraz do analizowanego przykładu i wykonajmy wykres roz-
rzutu, by przekonać się, czy nasze podejrzenia co do kształtu zależności są słuszne
(WYKRESY TRADYCYJNE–ROZRZUTU/PUNKTOWY–PROSTY–DEFINIUJ).
Na osi Y umieszczamy zmienną samopoczucie, na osi X zmienną wyjaśniającą tem-
peratura i uzyskujemy wykres przedstawiony na rysunku 1.5.
Jak widać, po dopasowaniu linii prostej okazuje się, że nie jest to najlepszy
model, choć wyjaśnia 66% wariancji; gdy dodamy na wykresie krzywą, uzysku-
jemy znacznie wyższą wartość R2 wskazującą na idealne dopasowanie linii do
danych. Oczywiście, dane są całkowicie fikcyjne, ale dzięki temu znakomicie
obrazują znaczenie krzywoliniowości w analizie regresji.
Rysunek 1.5. Wykres rozrzutu dla zmiennych temperatura i samopoczucie z dopasowaną

linią prostą i funkcją kwadratową

podsumoWanie
Analiza regresji jest techniką analizy danych, która pozwala modelować dane,
dopasowując linię prostą. Dzięki temu możliwe staje się opisanie relacji między
zmiennymi za pomocą równania regresji z dwoma parametrami: stałą i współczyn-
nikiem nachylenia (kierunkowym). Interpretacja siły i zależności między zmien-
nymi wykonywana jest na podstawie wartości współczynnika standaryzowanego
beta, na bazie którego można określić siłę i kierunek zależności między zmienną
wyjaśniającą oraz wyjaśnianą. Poważnym ograniczeniem tej metody jest to, że
model prostoliniowy może nie być adekwatnym modelem, dlatego że dane ukła-
dają się w kształt krzywej. Najprostszą metodą zdiagnozowania takiego stanu jest
wykonanie wykresu rozrzutu, na którym widać przebieg rzeczywistych wyników.

część i
modele regresji
rozdział
Regresja wielokrotna
2
W tym rozdziale dowiemy się o tym:
• jaki model dopasowywany jest do danych w regresji

wielokrotnej
• jak wykonać analizę regresji wielokrotnej w programie
IBM SPSS Statistics
• jak zinterpretować i opisać wyniki regresji w raporcie
empirycznym
• co to jest korelacja cząstkowa i semicząstkowa
• jakie metody wprowadzania predyktorów mamy do dyspozycji
w regresji wielokrotnej w programie IBM SPSS Statistics
• jak wykonać regresję krokową, eliminacji wstecznej, selekcji
postępującej, usuwania i hierarchiczną.

WproWadzenie
Regresja wielokrotna to technika statystyczna pozwalająca uwzględnić większą liczbę
predyktorów niż 1. Oznacza to, że próbujemy przewidzieć wyniki zmiennej zależnej
(objaśnianej), posługując się przynajmniej dwoma zmiennymi objaśniającymi. Ten
przypadek reprezentuje znacznie częstszą klasę sytuacji badawczych, bo niezwykle
rzadko zdarza się opierać przewidywania na jednej zmiennej. Zwykle uwzględnia się
liczne predyktory, próbując z nich wyodrębnić te, które są istotne do przewidywa-
nia określonego zjawiska. Co ważne, powinny one być ilościowe lub w najgorszym
przypadku jakościowe dwuwartościowe, na przykład płeć (o tym wariancie będzie
mowa w rozdziale 4). Zasadniczo przeprowadzanie tego typu analizy nie różni się
drastycznie od operacji niezbędnych do policzenia regresji jednozmiennowej – różnica
polega właśnie na liczbie wprowadzonych zmiennych niezależnych. Ze względu na
wielość zmiennych możemy wskazać kilka metod ich doboru do modelu. Te metody
będą stanowiły istotną różnicę w stosunku do regresji jedmozmiennowej.
regresja prosta uwzględnia jeden predyktor i jedną zmienną zależną.

regresja wielozmiennowa analizuje związek większej liczby predyktorów za
zmienną zależną. W obu przypadkach zmienna zależna musi być ilościowa, a pre-
dyktory ilościowe lub jakościowe dychotomiczne.
Przypomnijmy więc kolejne kroki analizy regresji. W pierwszym kroku ana-

lizy regresji wielozmiennowej (metodą wprowadzania, a więc domyślną metodą
w programie IBM SPSS Statistics) program statystyczny dopasowuje model do
danych empirycznych, posługując się – tak jak poprzednio, metodą najmniejszych
kwadratów. Proponowany jest więc model matematyczny, a następnie sprawdzane
są odległości wyników surowych od tego modelu (reszty). Jeśli wielkość reszt jest
niewielka na tle tego, co wyjaśnia model regresji w porównaniu ze średnią aryt-
metyczną, to można uznać, że model jest dobrze dopasowany. Mówiąc prostym
językiem: jeśli wyniki leżą stosunkowo blisko modelu, to model jest dobrze dopa-
sowany. Warto zwrócić w tym miejscu uwagę, że przy większej liczbie predyktorów
modelem nie jest już linia prosta. Wraz z rosnącą liczbą predyktorów model staje
się bardziej złożony, przykładowo dla dwóch predyktorów do danych w przestrzeni
trójwymiarowej (bo tyle mamy zmiennych łącznie z zależną) dopasowywana jest
płaszczyzna, przy większej ich liczbie zaś dopasowujemy przestrzenie o liczbie
wymiarów równej liczbie predyktorów. W tych bardziej złożonych modelach nie
sposób już zaproponować sensownej wizualizacji wyników.
Gdy model zostanie dopasowany, przechodzimy do współczynników regresji
i po pierwsze możemy określić, które predyktory pozwalają przewidywać zmienną

rozdziaŁ 2 Regresja wielokrotna 37
W regresji prostej modelem jest linia prosta, a w regresji wielozmiennowej mode-

lem jest kombinacja liniowa uwzględnianych predyktorów. Gdy mamy dwa pre-
dyktory i jedną zmienną zależną, modelem jest płaszczyzna, która jest dopasowy-
wana do przestrzeni trójwymiarowej. Dla większej liczby predyktorów model jest
zbyt złożony, by go wizualizować za pomocą wykresów.
zależną (współczynniki beta dla tych zmiennych są istotne statystycznie), a po dru-
gie zapisać równanie regresji ze współczynnikami kierunkowymi oraz jedną stałą
dla całego modelu. Gdy mamy trzy predyktory, równanie regresji przyjmuje złożoną
postać: Ŷ = B0 + B1 • X1 + B2 • X2 + B3 • X3 (symbole X1, X2, X3 oznaczają kolejne
predyktory, Ŷ to wynik przewidywany zmiennej zależnej, B0 to stała, a parame-
try B1, B2, B3 to współczynniki kierunkowe). Nie zmienia się jednak interpretacja
współczynników, której dokonuje się w tych samych kategoriach jak w regresji jed-
nozmiennowej. Ponownie dla wnioskowania najważniejsze są współczynniki beta.
Dzięki nim interpretujemy kierunek zależności (dodatni lub ujemny) oraz jej siłę
(im wartość współczynnika beta bliższa 1 lub –1, tym silniejsza zależność).
I wreszcie kolejny element układanki – łączny procent wyjaśnionej przez dany
model wariancji (inaczej zmienności) zmiennej zależnej. Współczynnik R2 prze-
mnożony przez 100% wskazuje na to, ile procent wariancji udało się wyjaśnić
przez ten określony zestaw zmiennych. Jedna ważna uwaga: ze względu na więk-
szą liczbę predyktorów niż 1 korzystamy z R2 skorygowanego. Korekta jest nie- R2 skorygowany
zbędna, bo wraz z dodawaniem kolejnych zmiennych objaśniających (predyktorów)
rośnie R2, nawet jeśli predyktor nie pozwala w istotny sposób przewidywać zmien-
nej zależnej. Aby pozbyć się tego mankamentu, wprowadzona została korekta.
regresja wielozmiennowa wykonywana jest w następujących krokach:

 Sprawdzamy istotność dopasowania modelu za pomocą analizy wariancji. Jeśli
analiza wariancji jest istotna, to model został dobrze dopasowany do danych.
 Odczytujemy współczynniki standaryzowane beta oraz ich poziom istotno-
ści. Jeśli istotność współczynnika dla danej zmiennej jest mniejsza niż 0,05, to
możemy uznać, że zmienna jest istotnym predyktorem. Jeśli część predyktorów
jest nieistotna, wykonujemy ponownie regresję już bez tych zmiennych.
Interpretujemy siłę i kierunek istotnych zależności i na tej podstawie piszemy
raport. W raporcie możemy też podać równanie regresji.
 odczytujemy wielkość wyjaśnianej wariancji, posługując się statystyką R2
skorygowane. Dzięki niej możemy porównać nasz model z modelami innych
badaczy i powiedzieć, który zestaw zmiennych lepiej pozwala przewidywać
zmienną zależną.

Podsumowując, w edytorze raportów poszukujemy trzech elementów: wyni-

ków analizy wariancji, która pozwala zdecydować, czy udało się dopasować model,
tabeli z podsumowaniem modelu zawierającej R2 skorygowane określające, jak dobry
jest dopasowany model, oraz tabeli ze współczynnikami pozwalającymi zapisać
model w postaci równania regresji oraz zinterpretować zależność między każdym
predyktorem a zmienną zależną w kategoriach siły i kierunku zależności. Pora
zaprezentować ten wariant z postaci obliczeń w programie IBM SPSS Statistics.
analiza regresji WielozmiennoWej

W programie iBm spss statistics
Aby pokazać analizy z wykorzystaniem regresji wielozmiennowej, zajmiemy się prob-
lemem liczby lunatyków w różnych regionach stanu Massachusetts (Hunter, 1987).
Dane zebrane przez Huntera będą stanowiły jedynie źródło inspiracji do analiz wyko-
nanych w tym rozdziale. Spróbujemy przewidzieć liczbę lunatyków w danym regio-
nie na podstawie pewnych psychofizycznych właściwości miejsca ich zamieszkania.
Badania nad somnambulizmem prowadzone są od dość dawna i u dzieci przypadłość
ta uznawana jest za opóźnienie rozwojowe wynikające z niedojrzałości układu roz-
wojowego. U osób dorosłych somnambulizm (polska nazwa: sennowłóctwo) uznaje
się za chorobę powiązaną z zaburzeniami oddechowymi, które powodują aktywację
neuronów układu serotoninergicznego w mózgu, odpowiedzialnych za poziom akty-
wacji, w tym zapadanie w sen i budzenie się. Badacze sądzą, że ich pobudzenie nie
jest dość silne, by osoba się obudziła, a jednocześnie na tyle słabe, że mięśnie nie są
zwiotczałe i może się ona poruszać. Sprawdźmy teraz zupełnie fikcyjne zagadnie-
nie, czy liczbę lunatyków w danym regionie można przewidzieć na podstawie liczby
osób na metr kwadratowy zamieszkujących najbliższą okolicę, natężenia nocnego
oświetlenia oraz natężenia hałasu w nocy. Dane znajdują się w pliku lunatycy.sav.
Wchodzimy do górnego menu do opcji ANALIZA i wybieramy REGRESJA–
–LINIOWA, by przeprowadzić wielokrotną (wielozmiennową) analizę regresji. Tak
jak w zwykłej regresji jednozmiennowej do okna ZMIENNA ZALEŻNA przenosimy
zmienną lunatycy, a w oknie ZMIENNE NIEZALEŻNE powinny się znaleźć predyk-
tory: światło, cisza, zaludnienie. Teraz jeszcze musimy potwierdzić chęć wykonania analizy
za pomocą przycisku OK – i uzyskujemy tabele ze statystykami w edytorze raportów.
W pierwszym kroku szukamy tabeli ze statystykami analizy wariancji ANOVA.
Najważniejszy jest poziom istotności, choć oczywiście w zapisie powinny się zna-
leźć także stopnie swobody oraz wartość statystyki F. Prawidłowy zapis powinien
być następujący: F(3, 10) = 8,13; p < 0,01. Ten wynik wskazuje na dobre dopa-
sowanie modelu regresji do danych (ważne! – trzeba pamiętać, że nie jest to już
linia prosta) (tab. 2.1). Dobre dopasowanie modelu oznacza, że możemy interpre-
tować współczynniki modelu.

Tabela 2.1. Współczynniki analizy wariancji określające istotność dopasowania
Tabela 2.2. MODEL–PODSUMOWANIE – statystyki podsumowujące dopasowanie modelu
Tabela 2.3. Współczynniki regresji dla zmiennej zależnej lunatycy
Teraz możemy zerknąć do tabeli MODEL–PODSUMOWANIE, by stwierdzić,

ile procent wariancji wyjaśnia zaproponowany model (tab. 2.2). Skorygowane R2
wynosi 0,622 i pozwala stwierdzić, że wprowadzone predyktory wyjaśniają łącz-
nie trochę ponad 62% zmienności zmiennej zależnej.
No i wreszcie przystępujemy do interpretacji współczynników regresji (tab. 2.3).
Zaczniemy od współczynników standaryzowanych beta, by zidentyfikować istotne
predyktory. Widzimy, że w modelu jest tylko jeden istotny predyktor – zmienna
cisza, ponieważ poziom istotności dla tego współczynnika jest mniejszy niż 0,05.
Pozostałe zmienne nie są istotnymi predyktorami, dlatego że poziom istotności
ich współczynników beta jest większy niż 0,05.

Teraz najważniejszy krok – skoro część predyktorów jest nieistotnych, to

należy wykonać ponownie analizę regresji z wyłączeniem nieistotnych pre-
dyktorów. Jest to posunięcie niezbędne, ponieważ po usunięciu nieistotnych
predyktorów z analizy zmieniają się nieco statystyki regresji. Nie będziemy już
pokazywać ponownie wszystkich wydruków – pozostawiamy te operacje czytel-
nikowi. Poniżej przedstawiamy zapis wyników analizy regresji w postaci raportu:
Wykonano analizę regresji, w której predyktorami były oszacowanie ciszy w oko-

licy, w której dokonywany był pomiar, natężenie oświetlenia oraz gęstość zalud-
nienia, a zmienną zależną była liczba lunatyków w danym regionie. Na podsta-
wie współczynników regresji stwierdzono, że jedynym istotnym predyktorem jest
poziom ciszy (beta = –0,74; p < 0,01). Współczynnik standaryzowany beta wska-
zuje, że im większa cisza panująca w danym regionie, tym mniejsza liczba lunaty-
ków. Zaproponowany model okazał się być dobrze dopasowany do danych F(3, 12)
= 14,56; p < 0,01 i wyjaśniał aż 55% procent wariancji zmiennej zależnej (R2=0,55).
Korelacja cząstKoWa i semicząstKoWa

W analizie regresji
Regresja wielozmiennowa, tak jak i regresja jednozmiennowa, ma wiele założeń

założenie o braku (szczegóły w rozdziale 3). Unikalne dla regresji wielozmiennowej jest założenie
korelacji predyktorów o braku korelacji predyktorów. Niestety, często jest ono złamane ze względu na
duże podobieństwo wprowadzanych predyktorów. Bardziej wyrafinowane sposoby
diagnozowania problemu wysokiej korelacji predyktorów omawiamy w rozdziale
poświęconym testowaniu założeń (roz. 3), jednak warto w tym miejscu zwrócić
uwagę na dwie statystyki, które pozwalają określić unikalny wpływ jednego pre-
współczynniki korelacji dyktora przy kontroli pozostałych – współczynniki korelacji cząstkowej i kore-
cząstkowej i korelacji lacji semicząstkowej. Spróbujmy zobrazować znaczenie tych współczynników
semicząstkowej za pomocą schematu przedstawionego na rysunku 2.1, na którym przedstawione
zostały dwa predyktory X1 oraz X2 i zmienna zależna Y.
Poszczególne koła na schemacie oznaczają całą wariancję (zróżnicowanie czy
zmienność) wszystkich uwzględnionych zmiennych. Gdy koła się nakładają na sie-
bie, to wiemy, że część wariancji jest dzielona między dwiema lub trzema zmien-
nymi. Ta wspólna część symbolizuje także relację między dwiema zmiennymi.
Tak więc związek pierwszego predyktora X1 ze zmienną zależną Y to dwie czę-
ści oznaczone na rysunku literami a oraz b, natomiast związek drugiego predyk-
tora X2 ze zmienną zależną Y to część oznaczone literami c oraz b. Część ozna-
czona literą b symbolizuje część wariancji zmiennej zależnej, która jest wyjaśniana
wspólnie przez oba predyktory. Pozostała jeszcze taka część wariancji zmiennej

predyktor predyktor
X1 X2
b Nakładające się części kół oznaczają
część wariancji danej zmiennej
a c wyjaśnianą przez inne zmienne.
d
zmienna
zależna y
Rysunek 2.1. Schemat obrazujący relacje między dwoma predyktorami i zmienną zależną
zależnej, której nie wyjaśnia żaden wprowadzony predyktor; taka, która pozo-
staje jeszcze do wyjaśnienia.
Wyjaśnijmy teraz, czym są poszczególne współczynniki korelacji cząstkowej
i semicząstkowej. Korelacja semicząstkowa (semipartial correlation) to wielkość korelacja semicząstkowa
unikalnego wpływu jednego predyktora z wyłączeniem części wspólnej wyjaśnia-
nej łącznie z drugim predyktorem na tle całkowitej wariancji zmiennej zależnej
(a / (a + b + c + d)). W obliczaniu tego typu korelacji kontroli podlega więc jedy-
nie wpływ drugiego predyktora na pierwszy predyktor, ponieważ usuwana z ob-
liczeń jest tylko część b. Korelacja cząstkowa (partial correlation) jest obliczana korelacja cząstkowa
inaczej, dlatego że unikalny wpływ predyktora (np. część a dla predyktora pierw-
szego X1) przedstawiany jest na tle tej części wariancji zmiennej zależnej, której nie
wyjaśnia drugi predyktor X2 (a / (a + d)). Kontroli podlega więc zarówno wpływ
drugiego predyktora na pierwszy, jak i wpływ drugiego predyktora na zmienną
zależną. Po co te współczynniki? Pomagają one określić unikalny wpływ danego
predyktora, w sytuacji gdy predyktory są skorelowane i są używane do interpre-
tacji wyników zamiast współczynników standaryzowanych beta, których wiel-
kość jest zanieczyszczona wspólnym wpływem obu skorelowanych predyktorów.
Korelacja cząstkowa wskazuje unikalny wpływ danego predyktora na zmienną

zależną przy kontroli wpływu drugiego predyktora na pierwszy.
Korelacja semicząstkowa określa, ile wariancji zmiennej zależnej niewyjaśnio-
nej przez drugi predyktor wyjaśnia ten pierwszy – kontrolowany jest więc wpływ
drugiego predyktora, zarówno na pierwszy predyktor, jak i zmienną zależną.

Rysunek 2.2. Definiowanie korelacji semicząstkowych i cząstkowych w analizie regresji
A teraz obliczmy oba wymienione wyżej współczynniki korelacji w programie

IBM SPSS Statistics. Wywołujemy okno dialogowe regresji liniowej, definiujemy
zmienne identycznie jak w poprzednim przykładzie i zanim klikniemy przycisk
OK, wybieramy przycisk STATYSTYKI. Znajdziemy tam opcję KORELACJE
SEMICZĄSTKOWE I CZĄSTKOWE (zob. rys. 2.2). Potwierdzamy wybór przy-
ciskiem DALEJ, a następnie OK i oglądamy wydruk (zob. tab. 2.4).
Po wybraniu opcji korelacje semicząstkowe i cząstkowe uzupełnieniu ulega
tabela WSPÓŁCZYNNIKI, która w końcowych kolumnach prezentuje trzy rodzaje
Tabela 2.4. WSPÓŁCZYNNIKI regresji uzupełnione o współczynniki korelacji rzędu

zerowego, cząstkowej i semicząstkowej
ze względu na oszczędność miejsca usunięto z tabeli współczynniki niestandaryzowane regresji.

Tabela 2.5. Współczynniki korelacji między predyktorami cisza, światło i zaludnienie
korelacji: rzędu zerowego, cząstkowe i częściowe (semicząstkowe) (tab. 2.4).

Korelacja rzędu zerowego to związek danego predyktora ze zmienną zależną korelacja rzędu
bez jakiejkolwiek kontroli statystycznej pozostałych predyktorów. Tabachnick zerowego
i Fidell rekomendują używanie korelacji semicząstkowej do interpretacji siły uni-
kalnego wpływu dane predyktora na zmienną zależną, ale tylko wówczas, gdy
stosujemy w regresji domyślną metodę selekcji predyktorów, czyli metodę wpro-
wadzania (Tabachnick i Fidell, 2007). Gdy predyktory są skorelowane, wartość
ta jest niższa niż wartość współczynnika beta. Rekomendacja ta nie dotyczy jed-
nak regresji hierarchicznej.
Kolumna tabeli 2.5 ze współczynnikami korelacji r Pearsona dla predykto-
rów potwierdza przypuszczenia dotyczące skorelowania zmiennych objaśniają-
cych. Na podstawie współczynników korelacji widzimy, że zmienna światło istot-
nie koreluje ze zmienną zaludnienie (r = –0,64, p < 0,05).
różne metody WproWadzania predyKtoróW

W analizie regresji
Domyślną metodą wprowadzania predyktorów do modelu, jest zwykle metoda metoda wprowadzania
wprowadzania. Polega ona na tym, że wszystkie predyktory są wprowadzane do
modelu jednocześnie i statystyki modelu są obliczane dla wszystkich wprowadzo-
nych predyktorów. Istnieją jednak inne metody ich wprowadzania, w kolejnych
krokach; są nimi: selekcji postępującej, krokowa, eliminacji wstecznej, usuwania
oraz regresja hierarchiczna. Zmienne mogą być wprowadzane w kolejnych krokach
na podstawie preferencji badacza (w analizie hierarchicznej) lub automatycznie
na bazie statystyk modeli (w pozostałych metodach).

Zaczniemy od tej grupy metod, w których selekcja przebiega automatycznie.

Analiza krokowa i selekcji postępującej to metody, w których w kolejnych kro-
kach dodawane są kolejne predyktory – w każdym kroku jeden predyktor aż do
wyczerpania puli zmiennych zdefiniowanych jako niezależne. Selekcja zmien-
nych do wprowadzenia w danym kroku może się odbywać na podstawie róż-
nych kryteriów.
metoda selekcji W metodzie selekcji postępującej pierwszy predyktor do wprowadzenia jest
postępującej dobierany na podstawie prostej korelacji predyktora ze zmienną zależną, a kolejne
już w znacznie bardziej skomplikowany sposób – na podstawie korelacji semi-
cząstkowej. Dzięki zastosowaniu tej statystyki drugi predyktor wyjaśnia najwięcej
spośród tej części wariancji zmiennej zależnej, której nie wyjaśnia pierwszy, która
pozostała do wyjaśnienia po wprowadzeniu pierwszego predyktora do modelu.
metoda krokowa W metodzie krokowej stosowane jest dodatkowo zabezpieczenie na wypa-
dek, gdyby któryś predyktor stał się nieistotny po wprowadzeniu kolejnego. Jeśli
okaże się, że po wprowadzeniu trzeciego predyktora drugi traci na znaczeniu,
zostanie on usunięty. Używając kolokwialnego języka: żaden wprowadzony pre-
dyktor nie może spać spokojnie.
metoda eliminacji Metoda eliminacji wstecznej jest bardzo podobna do selekcji postępującej
wstecznej – po wprowadzeniu wszystkich predyktorów do modelu usuwane są kolejno te
wyjaśniające najmniej zmienności zmiennej zależnej, przy czym w każdym kroku
eliminowany jest tylko jeden predyktor.
metoda usuwania W metodzie usuwania analiza regresji przeprowadzana jest zawsze w dwóch
krokach. W pierwszym wprowadzane są wszystkie predyktory, w drugim usu-
wane wszystkie nieistotne.
metody selekcji predyktorów do modelu regresji:

 Wprowadzania – wszystkie predyktory są wprowadzane do modelu jedno-
cześnie.
 selekcji postępującej – w każdym kolejnym kroku dodawany jest jeden istotny
predyktor.
 Krokowa – w każdym kroku predyktory mogą zostać usunięte i wprowa-
dzone w zależności od tego, jaki jest ich poziom istotności w danym układzie
zmiennych.
 eliminacji wstecznej – w każdym kolejnym kroku usuwany jest jeden nie-
istotny predyktor.
 usuwania – w pierwszym modelu wprowadzane są wszystkie predyktory,
w drugim kroku usuwane są wszystkie nieistotne.
 hierarchiczna – użytkownik sam definiuje kolejność wprowadzania predyk-
torów.

Wobec sporej liczby metod wykonywania analizy regresji powstaje pytanie, którą
z nich zastosować. Nie jest łatwo sformułować jasne rekomendacje. A. Field wska-
zuje, by unikać wykorzystywania metody eliminacji wstecznej, dlatego że często
prowadzi ona do niekonkluzywnych wyników (Field, 2009: s. 213). B.G. Tabachnik
i L.S. Fidell wskazują natomiast, że najlepszym rozwiązaniem jest regresja metodą
wprowadzania, gdy badania stanowią eksplorację relacji między zmiennymi,
lub analizę hierarchiczną, gdy celem badacza jest konfirmacja modelu teore-
tycznego (Tabachnik i Fidell, 2007: s. 143). Autorki nie cenią żadnej z metod kro-
kowych, posługujących się wyłącznie statystycznymi kryteriami doboru predykto-
rów. Mimo tych obiekcji przedstawiamy poniżej sposób przeprowadzania analizy
regresji metodą krokową, wraz z możliwością definiowania kryteriów doboru pre-
dyktorów. W kolejnej części opisujemy logikę i sposób przeprowadzania regresji
hierarchicznej, rekomendowanej jako technika konfirmacyjna.
rekomendacje dotyczące wyboru metody doboru predyktorów:

 jeśli nie masz szczegółowych hipotez porównujących ze sobą określone modele
teoretyczne, wybierz metodę wprowadzania (podejście eksploracyjne).
 jeśli chcesz sprawdzić model teoretyczny określający hierarchię zmiennych,
użyj metody hierarchicznej (podejście konfirmacyjne).
regresja KroKoWa
Wykonamy regresję metodą krokową z wykorzystaniem tych samych danych, co

w przykładzie pierwszym – lunatycy.sav. Stosujemy ponownie opcję REGRESJA
LINIOWA wybraną z górnego menu ANALIZA. Identycznie jak w poprzednim
przykładzie definiujmy zmienne niezależne i zmienną zależną. Dla odróżnienia
od poprzednich obliczeń w okienku METODA wybieramy z rozwijanej listy opcję
KROKOWA (zob. rys. 2.3).
W oknie dialogowym OPCJE możemy zdefiniować KRYTERIA METOD
KROKOWYCH, w tym oparte na poziomie istotności (ZASTOSUJ PRAWDO-
PODOBIEŃSTWO F) osobno dla wprowadzania i usuwania, oraz bazujące na
wartościach statystyki F (UŻYJ WARTOŚCI F), także osobno dla wprowadza-
nia i usuwania (zob. rys. 2.4). W metodzie krokowej ważne jest dla nas jedynie
prawdopodobieństwo wprowadzania, a kryterium oparte na wartości prawdopo-
dobieństwa 0,05 zdefiniowane domyślnie jest właściwą wartością.
Potwierdzamy chęć wykonania analizy przyciskiem OK i przechodzimy do
edytora raportu. Typowy wydruk analizy regresji jest w analizie krokowej znacz-
nie bardziej rozbudowany, ponieważ poszczególne składowe są przedstawione dla
wszystkich modeli. W regresji wykonanej metodą krokową mamy dwa modele,

Rysunek 2.3. Sposób wyboru metody selekcji predyktorów w analizie regresji

(tutaj wybrana metoda krokowa)
Z prawej strony znajduje się okno ze zdefiniowanym kryterium bazującym na wartości F,

z lewej na prawdopodobieństwie F.
Rysunek 2.4. Definiowanie kryteriów metod krokowych w analizie regresji

Tabela 2.6. Informacja o zmiennych wprowadzonych do kolejnych kroków analizy regresji

wykonanej metodą krokową
Tabela 2.7. ANOVA – wyniki analizy wariancji określającej istotność dopasowania modelu
regresji dla obu modeli uwzględnianych w regresji krokowej
więc każda kolumna zostaje podzielona na dwie części, z których każda prezentuje
statystyki dla odpowiedniego modelu. W pierwszej tabeli wskazywane są predyk-
tory wprowadzone do każdego z modeli (tab. 2.6). Widzimy tutaj, że w pierwszym
modelu wprowadzona została zmienna cisza, a w drugim model został uzupeł-
niony o predyktor określający natężenie światła (zmienna światło).
Teraz sprawdzamy dopasowanie obu modeli w tabeli ANOVA. Oba modele
są dobrze dopasowane do danych, bo analiza wariancji w obu przypadkach jest
istotna statystycznie (tab. 2.7).
Teraz oglądamy podsumowanie dopasowania modelu, a więc współczynnik R2 dla
modelu pierwszego z jednym predyktorem oraz skorygowane R2 dla drugiego, bardziej
złożonego modelu. W raporcie zapisujemy jednak tylko statystyki dla drugiego modelu,
a więc skorygowane R2 podane w rubryce 2 tabeli MODEL–PODSUMOWANIE

Tabela 2.8. MODEL–PODSUMOWANIE – statystyki dopasowania obu modeli

w regresji krokowej
Tabela 2.9. Współczynniki regresji dla obu modeli w regresji krokowej
(tab. 2.8). Wartość ta wynosi 0,64, więc możemy stwierdzić, że model z dwoma
predyktorami wyjaśnia 64% wariancji zmiennej zależnej.
Wreszcie przechodzimy do najważniejszej tabeli prezentującej współczyn-
niki regresji. Interesuje nas model 2, a więc oglądamy jedynie drugą część tabeli
(tab. 2.9). Wartości współczynników standaryzowanych wynoszą odpowiednio
beta = –0,53, p < 0,05 dla zmiennej cisza oraz beta = –0,44; p < 0,05 dla zmien-
nej światło. Na ich podstawie możemy stwierdzić, że im bardziej cicha okolica, tym
mniej jest lunatyków, oraz im większe natężenie światła w nocy, tym więcej jest
lunatyków. Obie zależności są dość silne, ale silniejsza jest relacja zmiennej cisza
i zmiennej zależnej liczba lunatyków. Możemy także zapisać równanie regresji dla
danych surowych: Ŷ lunatycy= 254,21 – 2,67 • Xcisza + 0,06 • Xświatło.
W ostatniej tabeli (2.10) znajdują się statystyki dla zmiennych wykluczonych
w danym modelu. Można więc sprawdzić, jakie są współczynniki beta, wartości
korelacji cząstkowej oraz statystyki współliniowości. Te dwie ostatnie statystyki
wskazują, w jakim stopniu predyktory są skorelowane (dokładne omówienie tej
statystyki znajduje się w rozdziale 3).

Tabela 2.10. Współczynniki standaryzowane regresji dla zmiennych wykluczonych w danym

modelu, korelacja cząstkowa oraz statystyki współliniowości
Przy podsumowaniu warto zwrócić uwagę na różnice wyników uzyskanych

w regresji wykonanej metodą krokową w porównaniu ze wcześniejszą, w której
wszystkie predyktory były wprowadzane jednocześnie. Metoda krokowa wska-
zała na dwa istotne predyktory liczby lunatyków, podczas gdy metodą wprowa-
dzania udało się wykazać tylko jeden istotny predyktor. Dzieje się tak, dlatego
że zmienne światło i zaludnienie są ze sobą silnie skorelowane. W regresji metodą
wprowadzania oba te predyktory tracą na sile wyjaśniania zmiennej zależnej,
natomiast metoda krokowa eliminuje tylko jeden z silnie skorelowanych predykto-
rów. Widać więc, że rozwiązania uzyskiwane różnymi metodami mogą przynieść
inne rezultaty, szczególnie wówczas, gdy predyktory są wzajemnie skorelowane.
regresja hierarchiczna
regresja hierarchiczna jest przykładem modelowania wielopoziomowego, wyko- regresja hierarchiczna

rzystywanego wtedy, gdy sądzimy, że możliwe jest wskazanie jakiejś struktury
powiązań między predyktorami a zmienną zależną. Stosuje się ją także, kiedy
chcemy kontrolować wpływ pewnej grupy zmiennych na zmienną zależną.
Wyjaśnijmy to zagadnienie na przykładzie, w którym chcemy przewidy-
wać poziom poczucia szczęścia. Jak pokazują badania psychologiczne, poczucie
szczęścia zależy od wielu rozmaitych czynników, w tym także od płci i wieku.
regresja hierarchiczna pozwala stwierdzić, czy dodanie określonego zestawu

zmiennych poprawia istotnie statystycznie jakość przewidywania w stosunku do
typowych w danej dziedzinie predyktorów. Stosowana jest także wówczas, gdy
chcemy porównać różne modele teoretyczne.

Załóżmy jednak, że badacza nie interesuje wpływ tych zmiennych demograficz-

nych, a w swoich wyjaśnieniach chce wykorzystać zmienną liczbę przyjaciół, która
też silnie zależy od płci i wieku. Osoby młodsze mają więcej przyjaciół niż star-
sze, kobiety więcej niż mężczyźni. Widać więc, że tworzy się kaskadowa, hierar-
chiczna struktura: płeć i wiek wpływają na liczbę przyjaciół, a liczba przyjaciół
wpływa na poczucie szczęścia. Wszystkie predyktory: płeć, wiek oraz liczba przyjaciół
mają znaczenie dla przewidywania zmiennej zależnej poczucie szczęścia, ale są wza-
jemnie skorelowane. By sprawdzić, czy włączenie do modelu zmiennej liczba przy-
jaciół poprawia przewidywanie w stosunku do prostszego modelu ze zmiennymi
demograficznymi (wiek oraz płeć) możemy wykonać hierarchiczną analizę regresji,
która pozwala w kolejnych krokach uwzględniać nowe predyktory i sprawdzać,
czy ich dodanie poprawia precyzję przewidywania. Tę poprawę możemy określić
zmiana współczynnika R2 za pomocą wielkości zmiany współczynnika R2, który powinien istotnie przy-
rastać po dodaniu kolejnych predyktorów w porównaniu z bardziej uproszczonym
modelem. Jego istotna zmiana będzie więc informować nas o tym, czy bardziej
złożony model z większą liczbą predyktorów pozwala wyjaśniać lepiej zmienność
zmiennej zależnej. należy pamiętać, że w trosce o efektywność przewidywa-
nia chcemy, by za pomocą jak najprostszego modelu udało się przewidzieć
jak największy procent zmienności zmiennej zależnej.
Ważne!
Budując model regresji, chcemy za pomocą jak najmniejszej liczby predyktorów wy-
jaśnić jak największy procent zmienności zmiennej zależnej.
Przejdźmy więc do obliczeń. Otwieramy zbiór o nazwie szczescie.sav i definiujemy

model. Jak już wspomniałyśmy, regresja hierarchiczna należy do grupy regresji
krokowych, więc będzie wykonywana w kolejnych krokach. Będzie też można
porównywać między sobą kolejne modele. Jednak w odróżnieniu od innych metod
regresji krokowej to użytkownik definiuje kolejność wprowadzania predykto-
rów do modelu. Jak to zrobić? Przypomnijmy, jakie zestawy zmiennych chcemy
kolejno wprowadzać: w pierwszym kroku do modelu zostaną wprowadzone
zmienne demograficzne płeć i wiek, w drugim do modelu zostanie dodatkowo
wprowadzona zmienna liczba przyjaciół. Będziemy więc wprowadzać predyktory
w dwóch krokach. Wejdźmy więc do górnego menu i wybierzmy ANALIZA–
–REGRESJA–LINIOWA. W oknie ZMIENNA ZALEŻNA umieśćmy zmienną
szczęście, a w oknie ZMIENNE NIEZALEŻNE – płeć i wiek (zob. rys. 2.5).
Teraz, gdy pierwszy zestaw zmiennych został zdefiniowany, przystępujemy do
określania drugiego. W tym celu klikamy przycisk NASTĘPNA, który znajduje
się z prawej strony powyżej okna zawierającego zmienne niezależne. Kliknięcie

Rysunek 2.5. Definiowanie pierwszego zestawu zmiennych w regresji hierarchicznej
tego przycisku powoduje pojawienie się pustego okna, w którym możemy defi-
niować kolejny zestaw zmiennych. O prawidłowym przejściu do następnego okna
informuje napis z lewej strony BLOK 2 Z 2 (zob. rys. 2.6).
Skoro zostały już zdefiniowane zmienne, potrzebujemy zaznaczyć opcję pozwa-
lającą zamówić dodatkowe statystyki – klikamy więc przycisk STATYSTYKI
Rysunek 2.6. Zmienne wprowadzone do modelu regresji hierarchicznej w bloku 2

Rysunek 2.7. Okno STATYSTYKI pozwalające zamówić w analizie regresji dodatkową

opcję ZMIANA R2
i wybieramy ZMIANA R2 (rys. 2.7). Dzięki temu wydruk zostanie wzbogacony

o poziom istotności określający, czy zmiana procenta wyjaśnianej wariancji w dru-
gim modelu w odniesieniu do pierwszego jest istotna, czy też drugi model nie
poprawia znacząco precyzji wyjaśniania zmiennej zależnej.
Po wyborze wszystkich ważnych statystyk przystępujemy do przejrzenia
wydruku. Poszczególne tabele oglądamy dokładnie w tej samej kolejności jak
zwykle, zaczynamy więc od wyników analizy wariancji. Tak jak w innych meto-
dach regresji krokowej, także tutaj tabele są podzielone na tyle wierszy lub czę-
ści, ile modeli zostało zdefiniowanych. Tutaj wprowadziliśmy dwa bloki predyk-
torów, więc testujemy dwa modele, a więc wszystkie tabele będą podzielone na
dwie duże części. W górnej będą zamieszczone statystyki dla modelu pierwszego,
uwzględniającego jedynie dwa predyktory, w dolnej zaś pojawią się statystyki dla
modelu z trzema predyktorami. Zaczynamy od wyników analizy wariancji poka-
zujących ogólny test dopasowania modeli (tab. 2.11).
W przypisach do tabeli znajduje się informacja, jakie predyktory zostały wpro-
wadzone w kolejnych modelach i jaka jest zmienna zależna. Ale najciekawsze są
wartości statystyki F i ich poziomy istotności. Jak widać w tabeli 2.11, zarówno
pierwszy, jak i drugi model są dobrze dopasowane do danych, ponieważ poziomy
istotności są mniejsze lub równe 0,05. Przechodzimy zatem do tabeli 2.12 prezen-
tującej szczegółowe podsumowania wskaźników dopasowania.
W tabeli tej znajdują się statystyki szczegółowo określające poziom dopaso-
wania obu modeli, a także wielkość i istotność zmiany dopasowania drugiego

modelu w porównaniu z pierwszym. Zajmijmy się najpierw pierwszą częścią

tabeli, w której znajdziemy wartość SKORYGOWANEGO R2. W modelu 1 wartość
ta wynosi 0,10, więc możemy uznać, że za pomocą prostszego modelu z dwoma
predyktorami udaje się wyjaśnić 10% wariancji zmiennej zależnej. Model 2
– z trzema predyktorami, wyjaśnia łącznie 37% wariancji zmiennej zależnej, bo
skorygowane R2 przyjmuje wartość 0,37. STATYSTYKI ZMIANY znajdujące się
w drugiej części tabeli oparte są niestety na nieskorygowanych wartościach R2, co
jest trochę niekonsekwentne, biorąc pod uwagę, że w każdym modelu mamy kilka
predyktorów – przydałaby się korekta R2 ze względu na ich liczbę. Ale niestety,
mamy do dyspozycji tylko takie wartości określające zmianę procenta wyjaśnia-
nej wariancji. Statystyki zmiany dla pierwszego modelu są powtórzeniem warto-
ści R2 dla całego modelu i statystyk znajdujących się w tabeli ANOVY. Nie są do
niczego potrzebne. najważniejsze są statystyki zmiany znajdujące się w dru-
gim wierszu, ponieważ one informują o tym, czy nastąpiła istotna zmiana
R2 w modelu drugim w porównaniu z modelem pierwszym.
Odczytujemy z tabeli wartość zmiany i na podstawie poziomu istotności zmia-
ny mniejszej niż 0,05 możemy stwierdzić, że jest ona znacząca F(1, 36) = 16,68;
p < 0,001. Wynosi ona R2 = 0,27, co wskazuje, że model uwzględniający liczbę
Tabela 2.11. Statystyki analizy wariancji określające ogólne dopasowanie modeli do danych
Tabela 2.12. Parametry dopasowania obu modeli wraz ze statystykami zmiany dopasowania

Tabela 2.13. Współczynniki regresji dla obu modeli regresji hierarchicznej
przyjaciół poprawia przewidywanie poczucia szczęścia o 27%. Skoro drugi model

jest istotnie lepszy w przewidywaniu poczucia szczęścia w tabeli 2.13, możemy od-
czytywać jedynie współczynniki dla modelu 2.
Zaczynamy od tych współczynników standaryzowanych beta, które są istotne
statystycznie. Dzięki temu możemy określić, które predyktory pozwalają przewi-
dywać poziom zmiennej zależnej. Widzimy, że predyktorami poczucia szczęścia
są płeć (beta = 0,29; p < 0,05) oraz liczba przyjaciół (beta = 0,55; p < 0,001), przy
czym liczba przyjaciół jest silniejszym predyktorem niż płeć. Relacja liczby przyjaciół
i poczucia szczęścia może zostać zinterpretowana jako silna i dodatnia, co ozna-
cza, że duża liczba przyjaciół przekłada się na wysoki poziom poczucia szczęścia.
By skonstruować interpretację dla zmiennej płeć, musimy wiedzieć, jak zakodo-
wana została ta zmienna – w tym przykładzie wartością 1 zostali oznaczeni męż-
czyźni, a wartością 2 kobiety, więc dodatnia wartość współczynnika beta wskazuje
na to, że to kobiety są bardziej szczęśliwe. Wiek nie okazał się istotnym predyk-
torem poczucia szczęścia.
Tabela 2.14. Statystyki dla zmiennych wykluczonych w pierwszym modelu wraz z korelacją
cząstkową i statystyką współliniowości TOLERANCJA

W ostatniej tabeli (2.14) wydruku ZMIENNE WYKLUCZONE uzyskujemy

informacje o skorelowaniu zmiennych nieuwzględnionych w pierwszym modelu
ze zmienną zależną. Dodatkowo tabela ta prezentuje statystyki współliniowości,
które określają poziom skorelowania tego predyktora z pozostałymi, wprowadzo-
nymi w pierwszym kroku do modelu.
podsumoWanie
Regresja wielozmienowa pozwala prognozować wartości zmiennej zależnej na
podstawie większej liczby zmiennych niż regresja prosta. Oznacza to jednak, że
modelem przestaje być linia prosta, a staje się nim liniowa kombinacja współ-
czynników regresji i wprowadzonych predyktorów. Interpretacja współczynników
regresji jest jednak identyczna jak w regresji prostej – współczynniki beta informują
o sile i kierunku związku danego predyktora ze zmienną zależną, a współczyn-
niki niestandaryzowane pozwalają przewidywać wartość zmiennej zależnej dla
danej osoby, gdy znamy jej wyniki dla zmiennych niezależnych. W odróżnieniu
od regresji prostej, w regresji wielozmiennowej możemy zastosować różne metody
selekcji predyktorów do modelu regresji. Predyktory możemy wprowadzać do
modelu regresji jednocześnie, gdy używamy domyślnej metody wprowadzania.
Możemy je także selekcjonować w krokach, wprowadzając tylko istotne predyk-
tory bądź usuwając nieistotne. Do metod krokowych zaliczamy metody: selekcji
postępującej, eliminacji wstecznej, usuwania, krokową i hierarchiczną. Ich zasto-
sowanie wzbudza wiele kontrowersji i może przynosić niespójne wyniki, zwłaszcza
w sytuacji gdy predyktory są ze sobą skorelowane. Taka sytuacja jest dość częsta
w psychologii i naukach społecznych. Warto wtedy oprzeć interpretację relacji
między zmienną objaśniającą a objaśnianą nie na współczynnikach beta, których
wartość jest przeszacowana, ale na wartości współczynników korelacji cząstkowej
lub semicząstkowej. Pozwalają one określić unikalny wpływ danego predykatora
przy kontroli wpływu pozostałych predyktorów.

część i
modele regresji
rozdział
Testowanie założeń.
diagnostyka w analizie
regresji
3
W tym rozdziale znajdziemy:
• listę najważniejszych założeń analizy regresji

• informacje o sposobach testowania założeń w programie
IBM SPSS Statistics
• szczegółowe statystyki pozwalające wyodrębnić przypadki
odstające oraz odstające przypadki wpływowe.

WproWadzenie
Analiza regresji opisana w poprzednich rozdziałach należy do grupy technik para-
metrycznych. Oznacza to, że szacowanie parametrów modelu jest właściwe pod
warunkiem, że dane spełniają wiele założeń. W tym rozdziale opiszemy założe-
nia jedno- i wielozmiennowej analizy regresji, a także wskażemy ważne czynniki,
które mogą znacząco modyfikować wyniki. Dodatkowo zaprezentujemy liczne sta-
tystyki diagnozujące takie sytuacje, w których wynik analizy regresji przestaje
rzetelnie opisywać ogólną prawidłowość.
zaŁożenia analizy regresji

By wykonać analizę regresji niezbędne staje się testowanie, czy dane mają wiele
właściwości. Poniżej wymieniamy najważniejsze założenia:
 Klasyczny model analizy regresji wymagał, by zmienne niezależne i zależne
były ilościowe i miały rozkład normalny. Założenie o ilościowym poziomie
pomiaru zmiennych podważa się od dosyć dawna, wskazując, że ten typ ana-
lizy może być stosowany także wówczas, gdy predyktory są jakościowe pod
warunkiem, że mają jedynie dwie wartości, są dychotomiczne. Założenie o nor-
malności rozkładu ilościowych zmiennych warto testować, zwłaszcza że nie
jest to trudne, a dzięki sprawdzeniu tego założenia można skorygować dane
i przez to uzyskać bardziej adekwatnie oszacowany model.
 Model jest liniowy. Założenie to nie jest zwykle sprawdzane za pomocą testów
statystycznych, a analiza regresji jest odporna na niewielkie złamanie tego wyma-
gania. By sprawdzić, czy dopasowana linia prosta jest adekwatnym modelem,
można obejrzeć wykres rozrzutu, by sprawdzić, czy dane układają się w postaci
linii na wykresie rozrzutu. Przy większej liczbie obserwacji lub słabej zależno-
ści na wykresie rozrzutu należy szukać raczej smugi punktów niż linii. Jeśli
z wykresu rozrzutu widzimy, że model jest krzywoliniowy (smuga przypomina
banana, a nie linię) możemy zmienić model lub przekształcić dane, redukując
krzywoliniowość (Larose, 2008 s. 85).
 liczba obserwacji musi być równa lub większa niż liczba wszystkich zmien-
nych wykorzystywanych w analizie – wyjaśnianych i wyjaśniających. Oczy-
wiście, im więcej jest osób badanych, tym lepsze uzyskamy wyniki. Zależność ta
przestaje się sprawdzać w przypadku zbiorów o ogromnej liczbie obserwacji – przy
kilkudziesięciu tysiącach badanych osób istotny może być taki model, który
nie wyjaśnia zbyt wiele zmienności wyników. Niezbędny jest więc złoty środek.
Tabachnick i Fidell definiują go jako zasadę 50+15 – by regresja rzetelnie szacowała
parametry potrzebnych jest co najmniej 50 osób; liczba ta musi być zwiększona o 15
osób wraz z dodawaniem każdego kolejnego predyktora (Tabachnick i Fidell, 2007).

rozdziaŁ 3 Testowanie założeń. Diagnostyka w analizie regresji 59
 Wariancja reszt jest taka sama dla wszystkich obserwacji – założenie to

nazywane jest homoscedastycznością (Stanisz, 2007).
 Składniki losowe (reszty) są nieskorelowane i mają rozkład normalny. składniki losowe
 Żadna ze zmiennych wyjaśniających (niezależnych) nie jest skorelowana (reszty)
z pozostałymi predyktorami. Założenie to testujemy za pomocą współczynni-
ków korelacji r Pearsona. Analiza regresji umożliwia także sprawdzenie tego założe-
nia za pomocą statystyk współliniowości: współczynnik VIF i współczynnik tole- statystyki
rancji (Variance Inflation Factor, tolerance). Jeśli predyktory są skorelowane, możemy współliniowości
zredukować ich liczbę za pomocą analizy czynnikowej lub wykonać modelowa-
nie liniowo-strukturalne (Structural Equation Modeling – SEM), analizę zbliżoną
do regresji, a pozwalającą uwzględnić skorelowanie predyktorów w modelu.
Poniżej omawiamy szerzej najważniejsze z wymienionych założeń, zwłasz-
cza te, które można testować w programie IBM SPSS Statistics. Zaczniemy od
homoscedastyczności, czyli założenia o równej wariancji reszt na różnych pozio-
mach zmiennej niezależnej. Następnie przejdziemy do omówienia założeń o nor-
malności rozkładu zmiennych i reszt oraz dużej części poświęconej odróżnianiu
przypadków odstających od wpływowych. Ich usunięcie pozwala często znorma-
lizować rozkład zmiennej, a więc przyczynia się do zmniejszenia wariancji błędu.
homoscedastyczność
Testowanie homoscedastyczności nie jest zbyt proste choć wydaje się być nie-
zwykle ważne do określenia adekwatności modelu regresji. Przypomnijmy, co
to jest homoscedastyczność. Założenie to dotyczy wariancji, czyli rozprosze- homoscedastyczność
nia reszt – odległości rzeczywistych wyników wokół linii regresji. Zgodnie
z nim reszty powinny mieć podobne rozproszenie wokół linii regresji, zarówno
dla niskich, jak i wysokich wartości zmiennej niezależnej (z lewej i prawej strony
wykresu rozrzutu). Oznacza to, że punkty określające rzeczywiste wyniki osób
badanych powinny być podobnie odległe dla różnych poziomów zmiennej nieza-
leżnej. Sytuacja, w której dla niskich wartości zmiennej niezależnej punkty leżą
bliżej linii regresji (reszty są niewielkie), a dla wysokich wartości zmiennej nie-
zależnej oddalają się znacznie od linii (reszty są duże), powinna nas skłaniać do
dużej ostrożności w stosowaniu prostej analizy regresji. Spróbujmy przeanalizo-
wać przykład, by wskazać sposoby diagnozowania tego założenia i jego znacze-
nie dla postępowania analitycznego.
Otwórzmy dane homoscedastycznosc.sav i spróbujmy przewidzieć wielkość datku
na cele charytatywne (zmienna datek) w zależności od oceny ważności działal-
ności tego typu (zmienna ważność). Wykonajmy analizę regresji wraz z dodatko-
wymi wykresami, które pozwolą nam dokładniej przyjrzeć się danym. Wcho-
dzimy zatem w górne menu, wybieramy opcję ANALIZA–REGRESJA LINIOWA,

Rysunek 3.1. Definiowanie wykresów w regresji liniowej
umieszczamy zmienną ważność w oknie ZMIENNE NIEZALEŻNE oraz zmienną

datek w oknie ZMIENNA ZALEŻNA. Następnie wybieramy przycisk WYKRESY
i możemy wykonać specyficzny typ wykresu, który umożliwia między innymi
diagnozę homoscedastyczności. Wykres ten na osi X pozwala umieścić standa-
ryzowane wyniki przewidywane (*ZPRED), a na osi Y standaryzowane reszty
(*ZRESID) (zob. rys. 3.1). Dzięki temu możliwe jest uwydatnienie możliwych nie-
równych wariancji reszt, a zatem wykrycie heteroscedastyczności.
Potwierdzenie wyboru za pomocą przycisku DALEJ oraz OK pozwala uzyskać
w edytorze raportów wykres rozrzutu, na którym prezentowane są nie wyniki
surowe, ale standaryzowane wartości wyników przewidywanych za pomocą linii
regresji, w odniesieniu do wielkości standaryzowanych reszt. Tak jak wyjaśniły-
śmy to wyżej, homoscedastyczność polega na tym, że rozproszenie wyników
wokół linii regresji jest identyczne w zakresie zarówno niskich, jak i wyso-
kich wartości. Obliczenie standaryzowanych reszt jest jak najbardziej uzasad-
nione w tym kontekście, bo to właśnie one pokażą najlepiej, jak daleko od linii
regresji leżą punkty przedstawiające wyniki surowe.
homoscedastyczność polega na tym, że rozproszenie wyników wokół linii regre-

sji jest identyczne w zakresie zarówno niskich, jak i wysokich wartości. Wtedy
wariancja reszt jest identyczna zarówno w obrębie niskich jak i wysokich wartości
zmiennej niezależnej. Jeśli to założenie nie jest spełnione, prawdopodobnie mamy
do czynienia z interakcją w regresji.

Rysunek 3.2. Wykres rozrzutu standaryzowanych wartości przewidywanych i reszt

standaryzowanych dla zmiennej zależnej datek
Jaki układ punktów na takim wykresie powinien nas niepokoić? Jeśli założe-
nie o homoscedastyczności jest spełnione, punkty na wykresie rozrzutu tego typu
powinny być w miarę równomiernie rozrzucone po całej powierzchni wykresu,
nie powinny układać się w żaden charakterystyczny sposób. Na rysunku 3.2
widzimy, że punkty z lewej strony są bardziej skoncentrowane niż z prawej. Jeśli
pocięlibyśmy wykres na pionowe plasterki, to zauważylibyśmy, że w pierwszym
z nich punkty są znacznie mniej rozproszone niż w ostatnim. Układ z całą pew-
nością przedstawia pewien wzorzec – rozszerzający się trójkąt. Taki układ ozna-
cza zakłócenie homoscedastyczności. Można to założenie sprawdzać ilościowo,
dzieląc dane na podgrupy (co najmniej 5) na podstawie wartości zmiennej nieza-
leżnej (np. korzystając z opcji PRZEKSZTAŁCENIA–KATEGORYZACJA WIZU-
ALNA), a następnie obliczając wariancję reszt w podziale na te podgrupy. Uznaje
się, że założenie to jest złamane, gdy stosunek wariancji w pierwszej grupie (naj-
niższe wyniki dla predyktora) i w ostatniej (najwyższe wyniki dla predyktora)
wynosi 1:10. Wydaje się też, że dobrą miarą może być test Levene’a sprawdzający
homogeniczność wariancji w jednoczynnikowej analizie wariancji. Wtedy jako
czynnik umieszczamy skategoryzowany predyktor, a w oknie zmiennej zależnej
obliczone w regresji reszty (zmienną RES_1). Istotny test Levene’a będzie wska-
zywał, że założenie o homogeniczności wariancji reszt zostało złamane.

Założenie o homoscedastyczności jest dość istotne, ponieważ jego niespeł-

nienie sugeruje zwykle, że model liniowy analizy regresji nie jest adekwatny lub
wymaga znaczących modyfikacji (wprowadzenia dodatkowych zmiennych nie-
zależnych). Niekiedy układ punktów na wykresie przypomina bardziej falę lub
rożek i oznacza to, że należy zastosować raczej analizę regresji krzywoliniowej.
Układ prezentowany na rysunku 3.2 nie przypomina fali, więc nie wskazuje na
zależność krzywoliniową. Taki kształt punktów – przypominający trójkąt suge-
ruje, że mamy prawdopodobnie do czynienia z efektem interakcyjnym. Można
sądzić, że jakaś dodatkowa zmienna modyfikuje przebieg linii regresji – w jednej
grupie zależność ma inny kierunek niż w drugiej.
Zerknijmy do danych i spróbujmy poszukać czynnika, który może powodo-
wać zmianę kierunku zależności. W danych znajdujemy zmienną płeć, określa-
jącą przynależność do grup płciowych. Narysujmy więc zwykły wykres rozrzutu
(WYKRESY–ROZRZUTU–PROSTY–DEFINIUJ) na osi X, umieszczając zmienną
ważność, a na osi Y zmienną datek. Ważne, byśmy umieścili zmienną płeć w oknie
USTAW ZNACZNIKI WEDŁUG. Dzięki temu punkty na wykresie rozrzutu
Rysunek 3.3. Wykres rozrzutu dla zmiennej ważność i datek osobno dla kobiet i mężczyzn

otrzymają różne kolory, w zależności od przynależności do obu grup płciowych.

Po zrobieniu wykresu kliknijmy na niego dwukrotnie, by otworzyć okno edy-
tora wykresów. Aby zobrazować zależność między zmienną niezależną i zależną
w obu grupach płciowych za pomocą linii prostej w edytorze wykresów, klikamy
w górnym menu na opcję ELEMENTY i wybierzmy LINIA DOPASOWANIA
W PODGRUPACH. Powinien powstać wykres podobny do tego zamieszczonego
na rysunku 3.3.
Wykres prezentuje dwie tendencje: w grupie kobiet im większa wartość dzia-
łalności charytatywnej, tym większy jest datek; w grupie mężczyzn zależność
ma przeciwny kierunek – im większa ważność, tym mniejszy jest datek. Oczywi-
ście, brak homoscedastyczności to tylko sygnał, że być może mamy do czynienia
z interakcją. Nie zawsze istnieje możliwość sprawdzenia tej tezy – mogliśmy nie
podejrzewać istnienia interakcji i nie mierzyć zmiennej, która wchodzi w interak-
cję z predyktorem. Warto jednak testować tę tezę, wykonując dodatkowe ana-
lizy, jeśli tylko istnieje taka możliwość. Analizę interakcji w regresji omawiamy
w rozdziale 6.
BraK Korelacji sKŁadniKóW losoWych
Mając już utworzoną zmienną określającą wartości reszt regresji, możemy także
testować inne założenia dotyczące reszt. Kolejnym założeniem dotyczącym
wielkości reszt jest brak skorelowania składnika losowego dla większej liczby
predyktorów. Założenie to można sprawdzać, licząc korelacje r Pearsona dla
zapisanego składnika reszt, ale lepiej wykonać test Durbina-Watsona znajdujący test durbina-watsona
się w oknie dialogowym REGRESJA LINIOWA–STATYSTYKI (zob. rys. 3.5).
Zastosowanie tego testu nie jest zbyt proste, bo program IBM SPSS Statistics
prezentuje w tabeli jedynie statystykę Durbina-Watsona bez poziomu istotności.
Aby uzyskać informacje o poziomie istotności, można poszukać w Internecie tabel
z wartościami krytycznymi tej statystyki lub posłużyć się regułą sugerowaną przez
niektórych autorów (np. Field, 2009; Stanisz, 2008). Reguła ta zaleca uznanie,
że reszty NIE są skorelowane, jeśli statystyka Durbina-Watsona przyjmująca
wartości od 0 do 4 znajduje się w okolicach wartości 2. Ze względu na niejasność
tego kryterium A. Field wskazuje, że przedmiotem zaniepokojenia powinny być
takie dane, dla których statystyka Durbina-Watsona jest niższa niż 1 lub wyższa
niż 3 (Field, 2009).
skorelowanie reszt sprawdzamy testem Durbina-Watsona. Gdy statystyka tego

testu jest niższa niż 1 lub wyższa niż 3, uznajemy, że reszty są skorelowane i zało-
żenie to jest złamane.

BraK sKoreloWania predyKtoróW
Kolejnym założeniem, które warto sprawdzić, jest określenie stopnia korelacji

predyktorów wprowadzanych do modelu regresji wielokrotnej. By je testować,
możemy wykorzystać bardzo proste narzędzia i obliczyć macierz korelacji r Pear-
sona w górnym menu ANALIZA–KORELACJE PARAMI (Bedyńska, Brzezicka
2007: s. 101). Zwróćmy uwagę na to, że ten problem występuje wyłącznie w ana-
lizie regresji wielokrotnej, gdy liczba predyktorów jest większa niż 1.
Bardziej wyrafinowanym sposobem testowania tego założenia jest obliczenie
test współliniowości w oknie analizy regresji testu wspóliniowości (Variance Inflation Factor – VIF). Wybór
(vif) tej opcji uzupełnia tabelę zawierającą współczynniki regresji o dodatkowe statystyki
tolerancja tolerancję i VIF. Jaka wartość tych współczynników świadczy o silnej korelacji mię-
dzy predyktorami? Field wskazuje na dwie wartości: niektórzy badacze uważają, że
wartości VIF powyżej 10 wskazują na silne powiązania między zmiennymi nieza-
leżnymi (Field, 2009), podczas gdy inni konstatują, że problemem jest taki zestaw
predyktorów, w którym średnia wartość VIF, statystyki obliczanej dla każdego pre-
dyktora oddzielnie, przekracza 2. Podobne kryterium dotyczy współczynnika tole-
rancji. Jeśli jej wartość jest niższa niż 0,1 lub – jak podają inne źródła – 0,2, to mamy
powody do podejrzewania, że predyktory są skorelowane. Oba współczynniki są toż-
same, dlatego że wartość VIF można policzyć, dzieląc 1 przez wartość tolerancji.
Rysunek 3.4. Deklaracja zmiennych w oknie analizy regresji

skorelowanie predyktorów można sprawdzać za pomocą testu współlinio-

wości VIF oraz współczynnika tolerancji. gdy ViF przekracza 10, a tolerancja
jest mniejsza niż 0,1, oznacza to, że predyktory są istotnie skorelowane. Ich
współczynniki beta, określające siłę i kierunek związku ze zmienną zależną, mogą
być nieprawidłowo szacowane.
Policzmy wartości tej statystyki na zbiorze anscombe_dewianci.sav. Spróbujmy

nieco zmienić konwencję umieszczania zmiennych i jako predyktory umieśćmy
tym razem zmienne Y1 oraz Y2, a w oknie ZMIENNA ZALEŻNA wprowadźmy
zmienną 1 (zob. rys. 3.4).
Następnie wybierzmy przycisk STATYSTYKI, gdzie wśród rozmaitych opcji
znajdujemy test współliniowości (zob. rys. 3.5). Zaznaczamy go i klikamy DALEJ
oraz potwierdzamy chęć wykonania analiz przyciskiem OK.
Tak jak zostało to opisane powyżej, tabela ze współczynnikami regresji zostaje
wzbogacona o dodatkowe kolumny, w których zmieszczone są współczynniki
testów współliniowości: tolerancja oraz VIF (zob. tab. 3.1).
Na podstawie wartości VIF, posługując się kryterium średniej wartości tej statys-
tyki dla wszystkich predyktorów wyższej niż 2, możemy stwierdzić, że predyktory
Y1 oraz Y2 są silnie powiązane. W odróżnieniu od statystyki VIF, w pokazanym
Rysunek 3.5. Wybór testów współliniowości w oknie STATYSTYKI w analizie regresji

Tabela 3.1. Statystyki współliniowości – tolerancja i VIF
Tabela 3.2. Korelacja między zmiennymi Y1 oraz Y2
powyżej przykładzie tolerancja nie wskazuje na silną korelację, ale jest ona bardziej
zależna od liczby osób badanych. Sprawdźmy, czy prostsza metoda oparta na współ-
czynnikach regresji r Pearsona przekaże spójną informację. Obliczmy macierz kore-
lacji (zob. tab. 3.2). Rzeczywiście korelacja jest istotna, a współczynnik r Pearsona
wysoki. Predyktory są skorelowane.
Jakie znaczenie dla wyników analizy regresji mają skorelowane predyktory?
Po pierwsze powodują błędne oszacowanie współczynników regresji (stałej
i współczynników kierunkowych), które stają się gorszym oszacowaniem para-
metrów w populacji. Dodatkowo niedokładnie szacowana jest statystyka dopa-
sowania R2, która w tej sytuacji jest znacząco niedoszacowana. Problemem jest
także stwierdzenie, która zmienna jest istotnym predyktorem, ponieważ ta silniej
powiązana ze zmienną zależną zachowuje się jak wilkołak i przejmuje w całości
wpływ na zmienną zależną, druga – skorelowana okazuje się często nieistotnym
predyktorem, co nie jest prawdą.
Skoro konsekwencje skorelowania predyktorów są tak poważne, to jakie rozwią-
zania możemy zaproponować w tej sytuacji? Po pierwsze jeśli predyktory są sko-
relowane, to znaczy, że zmienne są w dużym stopniu nasycone tym samym kon-
struktem, a więc możemy zredukować ich liczbę za pomocą analizy czynnikowej.
Skorelowanie oznacza duże podobieństwo merytoryczne zmiennych, co w pełni

skorelowanie predyktorów powoduje:

 błędne oszacowanie niestandaryzowanych współczynników modelu regresji
 niedokładne oszacowanie statystyki R2
 niewłaściwe oszacowania współczynników standaryzowanych beta, które
zwykle pokazują brak związku słabszego z pary skorelowanych predyktorów
ze zmienną zależną.
uzasadnia ich połączenie w jeden wskaźnik (czynnik). Po drugie dobrym rozwią-

zaniem w tym przypadku jest zmiana metody analitycznej i wykonanie modelo-
wania równań strukturalnych (Structural-Equation Modeling – SEM) – analizy w sen-
sie logicznym zbliżonej do regresji pozwalającej jednak w odróżnieniu od regresji
uwzględnić skorelowanie predyktorów w modelu oraz lepsze oszacowanie błędu.
Zwykła analiza regresji z taką sytuacją nie radzi sobie w sposób satysfakcjonujący.
normalność rozKŁadu zmiennych

oraz normalność rozKŁadu reszt
Testowanie założenia o normalności rozkładu jest stosunkowo proste w progra-

mie IBM SPSS Statistics i można je wykonać, wybierając w górnym menu opcję
ANALIZA–OPIS STATYSTYCZNY–EKSPLORACJA. Ten moduł pozwala jedno-
cześnie sprawdzić, czy rozkład zmiennych odbiega od normalnego, przy użyciu
dwóch testów: Kołmogorowa-Smirnowa i Shapiro-Wilka, jak również po uzyskaniu
istotnego wyniku wskazującego na zakłócenia normalności – określenie, w jakim
wymiarze ono się ujawnia. Dzięki policzeniu statystyk opisowych możemy uzy-
skać wartości kurtozy i skośności, co pozwala stwierdzić, czy rozkład empirycz-
nych jest platy- czy leptokurtyczny, skośny dodatnio czy ujemnie.
Policzmy testy normalności i statystyki opisowe za pomocą modułu EKSPLO-
RACJA. Otwórzmy dane anscombe_dewianci.sav i wykonajmy analizę dla pary zmien-
nych X1 oraz Y1. Załóżmy, że obie zmienne są ilościowe. Wchodzimy do okna dialo-
gowego i umieszczamy obie zmienne w oknie ZMIENNE ZALEŻNE (zob. rys. 3.6).
Pod przyciskiem WYKRESY odnajdziemy interesującą nas opcję WYKRESY
NORMALNOŚCI Z TESTAMI. Zaznaczamy ją i dzięki temu wydruk zostaje wzbo-
gacony o dodatkową tabelę z wynikami wymienionych wyżej testów (rys. 3.7).
W edytorze raportów odnajdujemy tabelę TESTY NORMALNOŚCI ROZ-
KŁADU, w której znajdują się statystyki obu testów (zob. tab. 3.3). Który test test kołmogorowa-
wybrać? Test Kołmogorowa-Smirnowa adekwatnie testuje normalność rozkładu -smirnowa
przy dużych próbach wykraczających poza 100 osób badanych. Test Shapiro- test shapiro-wilka
-Wilka stosujemy wtedy, gdy próba jest mniej liczna. Istotny wynik (p < 0,05)
wskazuje, że rozkład znacząco odbiega od normalnego. W przypadku testowanych

Rysunek 3.6. Okno dialogowe eksploracji – definiowanie zmiennych
Rysunek 3.7. Wybór testów normalności w oknie EKSPLORACJA
tutaj zmiennych rozkład jest normalny, ponieważ poziom istotności jest większy niż
p > 0,05. Wyciągamy więc wniosek, że rozkład obu zmiennych: zależnej i niezależ-
nej jest normalny. Gdyby test okazał się istotny statystycznie, musielibyśmy zerknąć
jeszcze do tabeli STATYSTYKI OPISOWE, która zawiera wartości kurtozy i skoś-
ności. Dzięki nim możliwe jest określenie, z jakim rozkładem mamy do czynienia.

Tabela 3.3. Tabela testów normalności rozkładu zmiennej Kołmogorowa-Smirnowa

oraz Shapiro-Wilka
Czy w przypadku rozkładu zmiennych odbiegającego od normalnego nie możemy

wykonać analiz? Literatura statystyczna wskazuje, że dość dobrze można sobie radzić
z zakłóceniami w wymiarze symetrii pionowej rozkładu (skośnością) gorzej z kur-
tycznością rozkładu (Bielecki, Bedyńska, 2010; Larose, 2008; Tabachnick, Fidell,
2007). W przypadku gdy uzyskamy skośność zmiennej zależnej lub niezależnej, reko-
menduje się dokonanie na danych surowych przekształceń matematycznych, które
mogą rozkład znormalizować, zmniejszając jego skośność. Do przekształceń tych
należą logarytmizacja, podniesienie do potęgi, funkcja odwrotności. D. Larose logarytmizacja
(Larose 2008, s. 85) cytuje w swojej książce regułę wypukłości, która choć stoso-
wana do redukcji krzywoliniowości w analizie regresji wydaje się mieć też zastoso-
wanie przy normalizacji rozkładów zmiennych wprowadzanych do modelu regresji.
Tabachnick i Fidell wskazują na niebezpieczeństwa związane ze stosowaniem
przekształceń polegające na tym, że rozkład dodatnio skośny po przekształceniu
staje się ujemnie skośny (Tabachnick, Fidell, 2007). Przy małej dodatniej skośności
sugerują one podniesienie do kwadratu, przy silniejszej logarytmizację, przy wyraź-
nej – funkcję przeciwności (inverse). Gdy rozkład jest ujemnie skośny do każdego
wymienionego wyżej przekształcenia, trzeba dodać funkcję odwrotności (reflect).
Autorki wskazują również, że korekta skośności jest niezbędna głównie wówczas,
gdy tylko część zmiennych charakteryzuje się określoną skośnością. Jeśli skośność
nie jest silna i dotyczy wszystkich zmiennych, poprawa wyników analiz po norma-
lizacji rozkładów jest zwykle niewielka. Warto także pamiętać, że skośność może
wynikać z pojawienia się w zbiorze danych przypadków odstających i ich wyszu-
kanie może stać się szansą na poprawienie parametrów rozkładu zmiennych.
I ostatnia uwaga. Podobnie wykonujemy testy normalności dla składnika loso-
wego (wartości reszt), ale zamiast zmiennych surowych umieszczamy w oknie
ZMIENNE ZALEŻNE reszty obliczone uprzednio dzięki opcji ZAPISZ–RESZTY
SUROWE. Zmienna, która powstaje w wyniku tej operacji, otrzyma nazwę RES_1.
Jeśli rozkład reszt nie jest losowy, zwykle wskazuje to na złamanie innych założeń
– o liniowości zależności, nieskorelowaniu składników błędu czy ich równej wariancji.

przypadKi odstające jaKo źródŁo zaKŁócenia normalności

– sposoBy diagnozoWania ich WpŁyWu
Zakłócenia normalności rozkładu zmiennych pochodzą z różnych źródeł. Mogą

one wynikać z błędnego doboru próby, specyficznej natury zmiennej (poczucie
szczęścia mierzone kwestionariuszowo na pewno będzie miało skośny rozkład),
ale także z występowania przypadków odstających – osób, których wyniki odbie-
gają od ogólnej zbiorowości. Przypomnijmy, czym są przypadki odstające i jak
je diagnozować, by następnie wskazać konsekwencje ich wystąpienia w danych
analizowanych za pomocą regresji.
przypadki odstające
przypadki odstające Przypadki odstające to takie wyniki, które znacząco odbiegają od głównej grupy
obserwacji; to wyniki zarówno bardzo wysokie, jak i bardzo niskie. Co to znaczy
„bardzo”? Istnieje wiele kryteriów i sposobów wyszukiwania przypadków odsta-
jących – najprostszy z nich to wykorzystanie narzędzi graficznych i obejrzenie
wykresu skrzynkowego. Przypomnijmy, że wykres ten pozwala na identyfika-
przypadki skrajne cję przypadków nietypowych, które są oznaczone w postaci kółek i skrajnych,
oznaczonych gwiazdkami (patrz: Bedyńska, Brzezicka, 2007: s. 87). Każdy przy-
padek nietypowy jest oznaczony numerem obserwacji i dzięki temu dość łatwo
znaleźć go w danych.
Niestety, ten sposób wyszukiwania przypadków odstających nie jest bardzo pre-
cyzyjny, bo opiera się na statystyce dla danych porządkowych – rozstępie kwarty-
lowym. Można się także posłużyć innym kryterium – wystarczy zamienić wyniki
surowe na standaryzowane, odnosząc wynik do średniej i podając go w jednostkach
standardowych1. Wtedy mamy do dyspozycji co najmniej trzy kryteria bazujące na
właściwościach standaryzowanego rozkładu normalnego2. Zakładając, że wyniki
mają rozkład normalny, można wskazać, że:
 95% wyników mieści się w granicach wyznaczanych przez wartości standaryzo-
wane Z = –1,96, a Z = 1,96, tylko 5% wyników mieści się zatem w obu krań-
cach rozkładu
 99% wyników mieści się w obrębie wartości standaryzowanych Z = –2,58,
a Z = 2,58, 1% wykracza zatem poza te wartości
 99,9% wyników przekracza przedział określone wartościami Z = –3,29 oraz
Z = 3,29.
1
Wzór pozwalający dokonać takiej operacji w: Bedyńska, Brzezicka, 2007: s. 79.
2
O właściwościach rozkładu normalnego można przeczytać między innymi w: Fergu-
son, Takane, 2004.

Tak więc te wartości pozwalają określić, ile procent skrajnych wyników mieści
się poza przedziałem opisanym wartościami jednostek standardowych. I vice versa
– jak szeroki ma być zakres przedziału wartości standaryzowanych, by poza nim
znalazł się określony procent przypadków najbardziej skrajnych. Jeśli uznamy, że
interesuje nas 5% skrajnych wyników, to wyszukujemy te wartości standaryzo-
wanych reszt, które są mniejsze niż –1,96 lub większe niż 1,96. Jeśli chcemy być
jeszcze bardziej selektywni i wybrać jeszcze bardziej skrajne wyniki, to posze-
rzamy przedział do –2,58 oraz 2,58 lub kolejnej pary wartości podanej powyżej.
Oprócz tych prostych sposobów diagnozowania przypadków odstających mamy
także do dyspozycji w programie IBM SPSS Statistics wiele bardziej specjalistycz-
nych statystyk, które umożliwiają rozstrzygnięcie nie tylko tego, czy przypadek
odbiega od ogółu danych, ale również czy modyfikuje znacząco wyniki analizy
regresji. Przyjrzyjmy się dokładniej możliwościom, jakie daje moduł analizy regresji.
przypadki odstające to wyniki wyjątkowo niskie lub wyjątkowo wysokie. Czę-

sto ich pojawienie się powoduje wzrost wielkości reszt i zakłóca ich rozkład.
Diagnoza przypadków odstających może być wykonana za pomocą wykresów
skrzynkowych lub poprzez standaryzację wielkości reszt.
diagnoza przypadków odstających w analizie regresji
Jak wspomniałyśmy w rozdziale 1, pierwszym krokiem analizy regresji prostej jest

dopasowanie takiej linii prostej, dla której suma odległości wyników rzeczywis-
tych od tych przewidywanych przez linię jest mniejsza niż odległość wyników
od średniej ogólnej dla zmiennej zależnej. Mówiąc prościej, wyznaczana jest taka
linia prosta, by punkty określone przez rzeczywiste wyniki leżały najbliżej tej
linii. To, czy linię taką udało się znaleźć, testuje analiza wariancji, która – jeśli
wynik jest istotny statystycznie, wskazuje, że punkty leżą bliżej linii niż śred-
niej ogólnej. Jeśli analiza wariancji jest nieistotna statystycznie, to dowiadujemy
się, że model regresji nie wyjaśnia więcej niż posługiwanie się w przewidywaniu
średnią arytmetyczną.
Złe dopasowanie linii do danych może wynikać z pojawienia się przypadków
odstających, ale nie tylko. Możliwy jest też taki układ danych, w którym uzysku-
jemy dobre dopasowanie modelu, ale sam model staje się bardzo niedokładny ze
względu na niewłaściwe oszacowanie jego parametrów w wyniku pojawienia się
przypadku odstającego. Prześledźmy trzy układy wartości, by wskazać możliwe
warianty wydarzeń i przedstawić trzy grupy statystyk pozwalających zdiagnozo-
wać sytuację, w której przypadki odstające są odpowiedzialne za zniekształcenia
wyników w analizie regresji.

Zacznijmy od takiej sytuacji gdy przypadek odstający ma wysoką wartość

w obrębie predyktora. Na wykresie na rysunku 3.8 prezentowana jest właśnie taka
sytuacja. Widać tam przypadek odstający – otoczyłyśmy go kółkiem. Jeśli popatrzymy
jednak na jego odległość od linii regresji, to okazuje się, że nie jest ona szczególnie
duża. Podobnie odległy jest przypadek oznaczony strzałką, a nie można go uznać
za odstający. Można zatem sądzić, że miary diagnostyczny oparte na resztach nie
będą szczególnie dobrze diagnozowały tego przypadku jako odstającego. I teraz
Rysunek 3.8. Przebieg linii regresji, gdy przypadek odstający pojawia się
w wartościach predyktora
Rysunek 3.9. Przebieg linii regresji po usunięciu przypadku odstającego

Rysunek 3.10. Przebieg linii regresji, gdy przypadek odstający pojawia się w wartościach
zmiennej zależnej
jeszcze jedna sprawa: czy ta obserwacja znacząco modyfikuje przebieg regresji?

Porównanie obu wykresów (rys. 3.8 i rys. 3.9) wyraźnie wskazuje, że tak się właśnie
dzieje: przypadek odstający przesuwa linię regresji w swoim kierunku. Gdyby go nie
było, linia byłaby bardziej stroma (por. rys. 3.9). Ten przypadek jest więc nie tylko
odstający, ale też wpływowy, dlatego że modyfikuje przebieg linii regresji.
Nieco inaczej wygląda cały obraz, gdy przypadek odstający uzyskał wysoką war-
tość w obrębie zmiennej zależnej (zob. rys. 3.10 i 3.11). Zauważmy, że obserwację
nietypową powinny już demaskować wartości surowe reszt, bo leży ona dużo dalej
od linii regresji niż inne obserwacje. Po jej usunięciu linia staje się bardziej stroma,
więc znowu poprawia się dokładność dopasowania modelu. Ten przypadek też będzie
nazywany wpływowym, ponieważ modyfikuje przebieg linii regresji.

Rysunek 3.12. Przebieg linii regresji, gdy przypadek odstający pojawia się w wartościach
obu zmiennych: predyktora i zmiennej zależnej
I ostatnia sytuacja – na rysunku 3.12 pojawia się przypadek odstający, który

uzyskuje wysokie wartości zarówno w zakresie wartości predyktora, jak
i zmiennej zależnej. Mimo że leży w dużej odległości od ogólnej grupy punk-
tów, to jednak bardzo blisko linii regresji. Z tego powodu reszty nie pokażą, że
jest to przypadek odstający. Inne statystyki prawdopodobnie będą umożliwiały
identyfikację, jednak usunięcie takiego przypadku nie jest niezbędne, skoro nie
wpływa on na przebieg linii regresji (por. rys. 3.13).
Podsumowując, przypadki odstające możemy podzielić na te, które modyfi-
wpływowe przypadki kują przebieg linii regresji – tzw. wpływowe przypadki odstające, oraz takie
odstające przypadki, które nie zmieniają przebiegu linii regresji. Celem dobrej miary
diagnostycznej powinno być wychwycenie jedynie wpływowych przypadków

odstających, a nie wszystkich obserwacji, które mają wysokie wartości w wartoś-

ciach uwzględnianych zmiennych. Dlatego też zwykłe wykresy skrzynkowe, choć
w wielu sytuacjach przydatne, tracą tutaj wartość diagnostyczną. Zamiast nich,
posługujemy się bardziej wyrafinowanymi miarami diagnostycznymi w oknie
dialogowym regresji liniowej. Niestety, są one w różnym stopniu wrażliwe na
przypadki odstające w zależności od pozycji przypadku odstającego względem
linii regresji i pozostałych wyników.
Niekiedy wystarczy przegląd wartości reszt, kiedy indziej trzeba wykorzystać
bardziej wyrafinowane statystyki. Poniżej dokonujemy przeglądu statystyk
diagnozujących przypadki odstające i wskazujemy ich zastosowanie w układach
zaprezentowanych wyżej.
Wpływowe przypadki odstające to takie obserwacje nietypowe, które modyfikują

przebieg linii regresji. Gdybyśmy usunęli ten przypadek z danych, linia regresji
przebiegałaby inaczej, niż w sytuacji gdy przypadek ten pozostaje w danych.
analiza reszt – odległość obserwacji od linii regresji
Analiza regresji pozwala na identyfikację przypadków odstających między innymi

za pomocą wielkości reszt regresji. Reszty, czyli odległości wyników rzeczywistych
od przewidywanych za pomocą regresji, mogą być prezentowane na dwa sposoby
– pierwszy to reszty surowe lub inaczej niestandaryzowane (Residuals-RES). reszty
Ten ich rodzaj jest bardzo trudny do interpretacji, bo zależy silnie od jednostek niestandaryzowane
pomiaru zmiennych. Gdy mierzymy wzrost badanych w metrach, to uzyskamy (res)
mniejsze wartości liczbowe reszt, niż gdy informacja o wzroście zostanie podana
w centymetrach. W tej sytuacji niezwykle trudno znaleźć taki punkt, który pozwala
wskazać przypadki odstające, czyli odciąć wysokie wartości reszt od niskich. Dla-
tego też lepiej posługiwać się resztami standaryzowanymi (Z Residuals-ZRE), reszty
w przypadku których wielkość reszt odnoszona jest do średniej reszty i dzielona standaryzowane
przez odchylenie standardowe. Tak więc pojedyncza reszta (odległość wyniku od (zre)
linii regresji) jest prezentowana na tle pozostałych reszt czy inaczej: odległości
wyników od modelu. Zaletą reszt standaryzowanych jest także to, że możemy
w jasny sposób określić kryteria odróżniania wyników odstających od pozosta-
łych, posługując się tymi samymi zasadami jak w przypadku wyników surowych.
Trzecim rodzajem reszt są reszty studentyzowane (Studentized Residuals- reszty
-SRE), które są podobne w idei konstrukcji do reszt standaryzowanych, z tą róż- studentyzowane
nicą, że surowe reszty są przeliczane na wartości statystyki t. Zastosowanie reszt (sre)
studentyzowanych jest lepsze, gdy liczba osób badanych jest mniejsza. By okre-
ślić, które przypadki są odstające, powinniśmy odnieść studentyzowane wartości

reszt do rozkładu statystyki t. Wartości krytyczne statystyki t są silnie zależne

od wielkości próby i dopiero od liczby badanych wynoszącej 120 są zbieżne z roz-
kładem normalnym. Dla próby składającej się z 40 osób punktami granicznymi
dla 5% najbardziej skrajnych wyników są wartości t = –2,02 oraz t = 2,02, dla 1%
jest to wartość t = –2,42.
analiza odległości przypadku od grupy pozostałych punktów
Inną grupą statystyk są miary odległości. Opierają się one na innym założeniu niż
reszty. Otóż, statystycy zauważyli, że przypadki odstające to często takie, które
– co prawda, leżą blisko linii regresji, ale ich odległość od swego rodzaju środka
ciężkości pozostałych danych (tzw. centroidy) jest duża. Z takim przypadkiem
mamy do czynienia na rysunku 3.12. Znacznie lepszą diagnostykę oferują wtedy
miary odległości, ponieważ reszty – surowe czy standaryzowane – są w takim
przypadku „ślepe i głuche”.
Miarami odległości są:
odległość cooka  odległość Cooka (Cook’s Distance – COO) – jeśli przekracza wartość 1, to
(coo) przypadek uznajemy za odstający. Daniel Larose przytacza jeszcze kilka bar-
dziej specyficznych kryteriów pozwalających na bazie odległości Cooka okre-
ślić, czy przypadek jest odstający (Larose, 2008: s. 57)3.
wartość wpływu  Wartość wpływu (Leverage – LEV) – statystyka ta może przyjmować warto-
(lev) ści od 0 do 1. Aby określić, czy przypadek jest odstający, należy obliczyć naj-
pierw średnią, przeciętną wartość wpływu dla zbioru danych, którym dyspo-
nujemy. By to zrobić, musimy skorzystać ze wzoru (k + 1) / n, gdzie k to liczba
predyktorów w modelu, natomiast n to liczba uczestników badania. Uznajemy
przypadek za wpływowy, jeśli jego wartość dwukrotnie albo trzykrotnie prze-
kracza obliczoną wcześniej wartość przeciętną.
odległości  odległości Mahalanobisa (Mahalanobis Distance – MAH) – są one powią-
mahalanobisa zane z wartością wpływu. Mierzą odległość danej obserwacji od średniej ze
(mah) zmiennych niezależnych. Niestety, istnieje trudność w określeniu punktu
odcięcia przypadków wpływowych. Field podaje, że przy próbach o liczebno-
ści n = 500 i pięciu predyktorach wartości odległości Mahalanobisa powyżej
25 wskazują, że przypadek jest odstający, przy próbie n = 100 i trzech pre-
dyktorach już wartość wynosząca 15 sugeruje pojawienie się takiego przy-
padku, a przy małej próbie n = 50 i jednym predyktorze wartość 11 powinna
być brana pod uwagę jako wskazująca na poszukiwany przypadek wpływowy
(Field, 2009).
3
Zainteresowanych czytelników zachęcamy do sięgnięcia po tę pozycję.

Wielkości wpływu przypadku na przebieg linii regresji
Trzecia grupa miar diagnostycznych w analizie regresji to statystyki wpływu. statystyki wpływu
Pojawiły się one w celu diagnozy takiego układu wyników, w którym przypadek
odstający nie dość, że odbiega wartościami od pozostałych obserwacji, to jeszcze
znacząco modyfikuje przebieg linii regresji, przesuwając ją w swoim kierunku. Te
miary są więc szczególnie czułe na wpływowe przypadki odstające. Taką
sytuację obrazują rysunki 3.8 i 3.10. W programie IBM SPSS Statistics znajdziemy
kilka statystyk zaprojektowanych na taką sytuację, które znakomicie identyfikują
wpływowe przypadki odstające:
 Wartości przewidywane skorygowane (Adjusted Predicted Value – ADJ) – pro- wartości przewidywane
gram oblicza nowy model z pominięciem tego konkretnego przypadku i na skorygowane
podstawie tego nowego modelu oblicza wynik przewidywany dla tej obser- (adj)
wacji. Jeśli obserwacja jest wpływowa, to wynik przewidywany na podstawie
modelu z pominięciem tego przypadku będzie znacznie odbiegał od wyniku
przewidywanego na podstawie modelu ze wszystkimi obserwacjami. Ta róż-
nica między wartością przewidywaną skorygowaną a rzeczywistą wartością
przewidywaną jest określana przez statystykę zwaną DfFit.
 reszty usuniętych (Deleted Residual – DRE) – wartość odległości między wyni- reszty usuniętych
kiem rzeczywistym a wartością przewidywaną skorygowaną. Im jest większa, (dre)
tym bardziej przypadek wpływa na przebieg regresji..
 reszty studentyzowane usuniętych (Studentized Deleted Residual – SDR) – jest reszty studentyzowane
to reszta usuniętych, ale podzielona przez odchylenie standardowe, a więc usuniętych
przeliczona na wyniki statystyki t. Ta wartość może być porównywana między (sdr)
różnymi modelami.
 DfFit (DFF) i standaryzowane DfFit (SDF) – statystyka DFFit powstaje dffit (dff)
w wyniku obliczenia różnicy wartości przewidywanej dla danej obserwacji wów- i standaryzowane
czas, gdy regresja uwzględnia wszystkie obserwacje, oraz w takim przypadku dffit (sdf)
gdy dana obserwacja zostanie wyłączona z obliczeń. Im mniejsza jest wartość
DfFIT, tym mniej dany przypadek jest wpływowy. Ponownie jak w przypadku
reszt łatwiej poddać interpretacji wartość standaryzowaną tego współczynnika.
 DfBety (DFB0 i DFB1) i standaryzowane DfBety (SFB0 oraz SFB1) – sta- dfbety (dfb0 i dfb1)
tystyki te to różnica między parametrami modelu regresji z uwzględnieniem i standaryzowane dfbety
danego przypadku (dla wszystkich danych) i jeśli ten przypadek usuniemy. (sfb0 oraz sfb1)
Program szacuje parametry modelu regresji (współczynnik nachylenia) dla
wszystkich obserwacji, a następnie usuwa pierwszą obserwację i wylicza model
dla pozostałych. Różnicę między parametrami podaje w postaci statystyki
dfBeta dla każdej obserwacji. Im większa jest wartość dfBeta, tym większa
różnica między modelem dla wszystkich obserwacji a tym po usunięciu danego
przypadku. Tak więc im większa wartość dfBeta, tym bardziej przypadek

modyfikuje przebieg regresji. Ze względu na to, że dfBeta jest zależne od

jednostek pomiaru zmiennych i tym samym trudno interpretowalne, najczęściej
wykorzystuje się standaryzowane dfBety.
iloraz kowariancji  Iloraz kowariancji (Covariance Ratio – COV) – statystyka ta określa, czy dany
przypadek zmienia wariancję parametrów regresji. Kiedy wielkość tego parametru
wynosi około 1, oznacza to, że przypadek nie jest wpływowy. Jeśli iloraz kowariancji
jest mniejszy niż liczba obliczona według wzoru 1 – [3(k + 1) / n], gdzie k to liczba
predyktorów, natomiast n to liczba obserwacji, to usunięcie danej obserwacji poprawi
precyzję przewidywania za pomocą modelu (Field 2009). Jeśli statystyka ta jest
większa niż wartość obliczona według wzoru 1 + [3(k + 1) / n], wtedy usunięcie tej
obserwacji pogorszy predykcję za pomocą modelu regresji. Jeśli więc mamy cztery
predyktory i 30 osób badanych, to iloraz kowariancji większy niż 1,5 wskazuje, że
usunięcie tej obserwacji poprawi model, a mniejszy niż 0,5 – pogorszy predykcję.
jaK policzyć statystyKi diagnostyczne

W programie iBm spss statistics
W programie IBM SPSS Statistics statystyki pozwalające zidentyfikować przy-

padki odstające znajdują się w oknie dialogowym regresji. Będziemy pracować na
danych anscombe_dewianci.sav. Wybieramy z górnego menu ANALIZA–REGRESJA,
Rysunek 3.14. Deklaracja zmiennych niezależnych i zależnych w analizie regresji

Rysunek 3.15. Statystyki służące do diagnostyki w analizie regresji: wielkości reszt,

statystyk wpływu oraz odległości
a następnie z rozwijanej listy – opcję LINIOWA. Po otwarciu okna dialogowego

definiujemy zmienne niezależną i zależną (zob. rys. 3.14). Policzmy statystyki
reszt dla zmiennych X1 oraz Y1. Zmienna X1 musi zostać umieszczona jako nie-
zależna, natomiast Y1 jako zależna.
Następnie wybieramy przycisk ZAPISZ, by dokonać wybór odpowiednich sta-
tystyk (zob. rys. 3.15). Jak sugeruje nazwa przycisku, policzone wartości zostaną
zapisane w zbiorze danych w pustych kolumnach znajdujących się na końcu. Nie
znajdziemy zatem statystyk tam, gdzie zwykle ich szukamy, czyli w edytorze
raportów. W tabeli 3.4 przedstawiamy aktualny wygląd końcowej części zbioru
danych w widoku DANE.

Tabela 3.4. Wartości statystyk diagnostycznych zapisane jako zmienne w edytorze danych
poróWnanie podstaWoWych statystyK WyszuKujących

przypadKi WpŁyWoWe – przyKŁad
Porównajmy teraz efektywność poszczególnych miar w identyfikacji wpływowych

przypadków odstających i odróżnianiu ich od przypadków odstających, które nie
są wpływowe. Jak widać na podstawie listy statystyk zamieszczonej w poprzed-
niej części rozdziału, wybór jest ogromny. Kryteria tego wyboru nie są jednak
zbyt jasne, co widać choćby po pobieżnym przeglądzie. Jakie rekomendacje ogólne
można sformułować? Po pierwsze zdecydowanie lepsze są statystyki studen-
tyzowane lub standaryzowane niż surowe. Po drugie wyszukując przypadki
wpływowe najlepiej brać pod uwagę statystyki zaprojektowane specjalnie
w tym celu, czyli wartości wpływu. Prześledźmy teraz trzy przypadki, zobra-
zowane wykresami rozrzutu na początku tej części, by wskazać ten typ statystyk,
spośród wymienionych powyżej, który jest najbardziej uniwersalny w pokazywa-
niu przypadków odstających i wpływowych.
Wariant 1 – przypadek odstający w wartościach predyktora
W pierwszym wariancie będziemy sprawdzać, jak statystyki diagnostyczne opi-

sane wyżej radzą sobie z identyfikacją przypadku odstającego w zakresie pre-
dyktora. Wykorzystamy zmienne X5 oraz Y5. Przyjrzyjmy się najpierw danym
w module EKSPLORACJA (ANALIZA–OPIS STATYSTYCZNY–EKSPLORACJA).
Umieszczamy obie zmienne w okienku ZMIENNE ZALEŻNE i pod przyciskiem
WYKRESY wybieramy WYKRESY NORMALNOŚCI Z TESTAMI. Dzięki temu
uzyskamy informację o tym, czy rozkłady zmiennych są normalne oraz przydatne
wykresy skrzynkowe pozwalające zwykle znaleźć przypadki odstające. Na poniż-
szych wykresach (rys. 3.16 i 3.17) mamy przypadek odstający w zakresie predyk-
tora – jest to trzecia obserwacja w zbiorze danych.

Rysunki 3.16 i 3.17. Wykresy skrzynkowe podsumowujące wartości predyktora X5

i zmiennej zależnej Y5
Wykonajmy teraz analizę regresji wraz ze wszystkimi statystykami dostęp-

nymi w programie IBM SPSS Statistics, zarówno wartościami reszt, statystykami
wpływu i statystykami odległości: odległościami Cooka, Mahalanobisa oraz war-
tościami wpływu. Umieszczamy zmienną X5 jako predyktor, zmienną Y5 jako
zmienną zależną, a pod przyciskiem ZAPISZ wybieramy potrzebne statystyki. Pro-
gram dopisuje je w zbiorze danych jako kolejne zmienne. Przyjrzyjmy się teraz tym
wartościom, by stwierdzić, która statystyka pozwala odszukać przypadek odsta-
jący, który wpływa na przebieg linii regresji (zob. tab. 3.5).
Gdy dokładnie przyjrzymy się wartościom uzyskanych statystyk, zobaczymy,
że generalnie prezentują one spójny obraz, wskazując na trzecią obserwację
jako istotnie odbiegającą od pozostałych obserwacji. Dla trzeciej osoby wartość
odległości Mahalanobisa wynosi ponad 6 i wyraźnie odróżnia się od pozostałych
wartości, podobnie jak odległość Cooka wynosząca ponad 9. Także wartość wpływu
(leverage) jest wyraźnie wyższa od pozostałych w zestawie danych.
Tabela 3.5. Wartości statystyk diagnostycznych dla zmiennych X5 oraz Y5

Rysunek 3.18. Wykres rozrzutu dla zmiennych X5 i Y5
Wartości reszt nie w każdym przypadku niosą taką jasną informację. Wartość
reszty niestandaryzowanej nie odbiega znacząco od wartości tej statystyki uzyskiwa-
nych przez inne obserwacje, o których wiemy, że nie są przypadkami odstającymi.
Tak samo dzieje się w przypadku reszt standaryzowanych czy studentyzowanych.
Nieco wyraźniej informację o odstawaniu tego przypadku przekazują standaryzo-
wane reszty usuniętych i studentyzowane reszty usuniętych.
Obserwacja wygląda na wpływową, bo statystyki DFFit i DFBety uzyskują bardzo
wysokie wartości znacząco odbiegające od pozostałych. Podobnie iloraz kowariancji,
który jest znacząco niższy niż wartość kryterialna 0,45, obliczona według wzoru za-
mieszczonego przez Fielda (Field, 2009). Oznacza to, że usunięcie tego przypadku zna-
cząco poprawi dokładność predykcji dokonywanej za pomocą analizy regresji. Przypo-
mnijmy jeszcze wykres rozrzutu, na którym widać przypadek odstający (zob. rys. 3.18).
Przypadek oznaczony kółkiem rzeczywiście jest wpływowy, ponieważ przesuwa
linię regresji w swoim kierunku, obniżając ją znacząco, co oznacza zmniejszenie siły
efektu. Czytelnik może to sprawdzić samodzielnie, licząc analizę regresji dla całej
grupy oraz taką, w której trzecia obserwacja jest usunięta z danych. Jak wskazuje
edytor raportów, współczynnik beta dla wszystkich obserwacji wynosi 0,48, a model
jest nieistotny, podczas gdy po usunięciu trzeciej obserwacji ze zbioru danych uzy-
skamy znacząco wyższy współczynnik regresji beta = 0,89 i istotny statystycznie.
Dlatego właśnie taki przypadek nazywamy wpływowym, ponieważ istotnie
wpływa na parametry modelu regresji.
Wariant 2 – przypadek odstający w wartościach zmiennej zależnej
W kolejnym wariancie obliczeń prześledzimy taki przypadek, w którym obserwacja

skrajna znajduje się w obrębie wartości zmiennej zależnej i jest wartością wyż-
szą niż ogólny zakres wartości. Ponownie zaczynamy od najprostszej diagnostyki

Rysunek 3.19 i 3.20. Wykresy skrzynkowe podsumowujące rozkład wartości

zmiennych X6 oraz Y6
za pomocą wykresów skrzynkowych. Jak widać na rysunkach 3.19 oraz 3.20,

w wartościach zmiennej Y6 możemy zidentyfikować jeden przypadek odstający,
oznaczony gwiazdką – osobę numer 6, która uzyskała wynik wykraczający poza
trzy rozstępy kwartylowe. Zgodnie z założeniem tego przykładu w zakresie wartości
predyktora nie obserwujemy żadnych obserwacji odstających.
Przystępujemy zatem do obliczenia statystyk diagnostycznych w regresji jedno-
zmiennowej. Jako predyktor wprowadzamy zmienną X6, a w oknie zmiennej zależnej
umieszczamy zmienną Y6. Należy się jeszcze upewnić, czy pod przyciskiem ZAPISZ
wybrane zostały potrzebne statystyki. Jeśli już wybraliśmy ich komplet, to klikamy
przycisk OK, a następnie zamykamy raport i przechodzimy do okna z danymi, by
na końcu pliku odszukać wartości odpowiednich statystyk (zob. tab. 3.6).
Jeśli przyjrzymy się wartościom, to zauważymy, że dla szóstej obserwacji
zarówno reszty standaryzowane, jak i surowe czy studentyzowane pokazują spójny
obraz – ta obserwacja jest odstająca. Nieco mniej spójny obraz przedstawiają
Tabela 3.6. Statystyki diagnostyki regresji dla zmiennych X6 oraz Y6

Rysunek 3.21. Wykres rozrzutu prezentujący relację między zmiennymi X6 oraz Y6
miary odległości – odległość Mahalanobisa dla szóstej obserwacji nie odróżnia się
od odległości Mahalanobisa dla osoby ósmej, która nie jest przypadkiem odstają-
cym. Ta statystyka nie stanowi zatem dobrej podstawy diagnostyki przypadków
odstających w tej sytuacji. Podobny układ wartości ujawnia się w przypadku
wartości wpływu (leverage). Gdy przyjrzymy się kolumnie LEV_1, to zobaczymy,
że ponownie wartość tej statystyki jest identyczna dla obserwacji wykazywanej na
wykresie skrzynkowym jako obserwacja odstającej jak i dla obserwacji ósmej. Jedyną
statystyką, która adekwatnie pokazuje wyniki szóstej osoby jako odstające, jest
wartość odległości Cooka. Teraz zerknijmy na wartości wpływu: iloraz kowariancji
i dfBety. Wszystkie one niosą jednoznaczną informację, że przypadek nie dość, że
można zaklasyfikować jako odstający, to jeszcze na pewno jest wpływowy.
Potwierdza to wykres na rysunku 3.21, który pokazuje wpływowy przypadek
odstający. Widać wyraźnie, że dla predyktora wartość ta nie odstaje znacząco od
pozostałych, ale gdy spojrzymy na zmienną zależną, widzimy, że jest zdecydo-
wanie wyższa od typowych wartości zmiennej. Z całą pewnością modyfikuje też
przebieg linii regresji – analiza dla całego zbioru danych szacuje standaryzowany
współczynnik regresji beta = 0,69, podczas gdy po usunięciu szóstej osoby bada-
nej współczynnik ten wzrasta do beta = 0,78.
Wariant 3 – przypadek odstający w zakresie predyktora

i zmiennej zależnej X7 oraz Y7
A teraz omówimy kolejny przypadek, w których obserwacja odstająca znajduje się

w wartościach obu zmiennych – zarówno predyktora X7, jak i w wartościach
zmiennej zależnej Y7. Znajdźmy ten przypadek odstający za pomocą wykresu
skrzynkowego (rys. 3.22 i 3.23) – jest to szósta obserwacja w edytorze danych.

Rysunki 3.22 i 3.23. Wykresy skrzynkowe podsumowujące zmienne X7 oraz Y7
A teraz obliczmy statystyki reszt, odległości i wartości wpływu w modelu ana-

lizy regresji. Zapisane w edytorze danych za właściwymi zmiennymi, przedsta-
wione są w tabeli 3.7. Przyjrzyjmy się ponownie kolejnym grupowym, by ziden-
tyfikować, czy przypadek jest jedynie odstający czy także wpływowy.
Jako pierwszą przeanalizujmy grupę statystyk opartych na resztach, a więc na
odległościach przypadków od linii regresji. Informacje, jakie niosą te statystyki,
nie są spójne. Reszty surowe (RES_1) nie wskazują na tę obserwację jako odsta-
jącą; podobnie standaryzowane i studentyzowane reszty (SRE_1 oraz ZRE_1).
Podobnie zachowuje się standaryzowana reszta usuniętych (SDR_1). Jedynie
surowa reszta usuniętych (DRE_1) pokazuje znacząco wyższą wartość dla tej
obserwacji niż dla pozostałych, wskazując na tę właśnie osobę jako przypadek
odstający. Teraz kolejna grupa statystyk: statystyki odległości. Wszystkie one
spójnie wskazują na przypadek szósty jako odstający. Wartość odległości Maha-
lanobisa (MAH_1) wynosi ponad 7 i znacząco odbiega od pozostałych; podob-
nie odległości Cooka (COO_1) i wartość dźwigni (LEV_1). I wreszcie statystyki
Tabela 3.7. Statystyki diagnostyki w regresji dla zmiennych X7 oraz Y7

Rysunek 3.24. Wykres rozrzutu dla pary zmiennych X7 oraz Y7
wpływu – iloraz kowariancji nie identyfikuje szóstej obserwacji jako wpływowej,

choć pozostałe statystyki wskazują na ten właśnie przypadek jako modyfikujący
przebieg linii regresji.
Przyjrzyjmy się teraz wykresowi rozrzutu przedstawionemu na rysunku 3.24.
Rzeczywiście widać wyraźnie obserwację, która mocno odbiega od większego ich
skupiska. Czy jednak jest to obserwacja wpływowa? Można wątpić. Ten punkt
leży stosunkowo blisko linii regresji i układa się zgodnie z generalnym trendem.
Oczywiście, jest to obserwacja odstająca, ale nie wpływowa, bo nie modyfikuje
znacząco przebiegu linii. Współczynnik beta dla tej relacji wynosi 0,95; gdy usu-
niemy ten przypadek ze zbioru danych, relacja ta nieco słabnie (beta = 0,78), ale
niezbyt znacząco.
Podsumowując informacje związane ze stosowaniem miar diagnostycznych
w regresji, możemy powiedzieć, że jeśli chodzi o wyszukiwanie wpływowych przy-
padków odstających, to niezbędne jest zapoznanie się ze wszystkimi miarami: tymi
opartymi na resztach, odległościach i wartościach wpływu. Koordynacja infor-
macji płynących z wartości tych miar jest niezbędna, by wychwycić ten typ
obserwacji nietypowych. Wartości reszt oraz wartości odległości odpowiadają
bowiem na podstawowe pytanie: czy obserwacja jest nietypowa? Dopiero warto-
ści wpływu dopełniają ten obraz o wiedzę dotyczącą tego, czy obserwacja niety-
powa jest wpływowa czy nie.
podsumoWanie
Analiza regresji jako technika parametryczna w swej klasycznej postaci została
obwarowana licznymi założeniami. Jednak jak pokazuje praktyka analityczna, nie-
spełnienie niektórych założeń nie niesie znaczących konsekwencji dla wyników.

Nie można jednak zupełnie pomijać testowania założeń, ponieważ może się oka-
zać, że błędnie dobierzemy model liniowy, gdy nie jest on adekwatny, a mode-
lem matematycznym dobrze opisującym dane jest raczej linia krzywa. Testowa-
nie założeń pozwala także wzbogacić analizę o istotne moderatory i poszukiwać
interakcji, znacznie ciekawszych dla tworzenia teorii niż efekty główne. Do szu-
kania interakcji może nas skłaniać brak homoscedastyczności reszt. Wreszcie
model może nie być dobrze dopasowany lub może być błędnie opisany, gdy nie
sprawdzamy założenia normalności reszt, przez co w danych pozostają przypadki
odstające. Można więc sądzić, że testowanie założeń, niekiedy w dość prosty spo-
sób poprzez wnikliwe obejrzenie wykresów czy statystyk diagnostycznych, jest
warunkiem niezbędnym do uzyskania sensownych wyników.

część i
modele regresji
rozdział
zmienne jakościowe
jako predyktory
w analizie regresji
4
• porównanie wyników analizy regresji dla zmiennej

dychotomicznej z wynikami testu t-Studenta dla prób
niezależnych
• wskazanie znaczenia kodowania zmiennej jakościowej
dla interpretacji współczynników regresji
• trzy odmiany tworzenia pomocniczych zmiennych
jakościowych: zero-jedynkową (dummy coding; Field, 2009)
quasi-eksperymentalną (interaction coding; Brzeziński, 2002)
i ortogonalną (contrast coding; Brzeziński, 2002).

WproWadzenie
Analiza regresji w swym klasycznym kształcie została zaprojektowana do poszuki-
wania zależności między zmiennymi ilościowymi. Okazuje się jednak, choć to dość
obrazoburcze dla purystów statystycznych, że metoda ta znakomicie radzi sobie
z takimi predyktorami, które są jakościowe, pod warunkiem, że są dychotomiczne.
Zerknijmy, jakie będą efekty wprowadzenia do regresji jakościowej dychotomicz-
nej zmiennej wyjaśniającej. W tym celu otwórzmy dane rozdział4.sav i wykonajmy
analizę testem t-Studenta dla prób niezależnych, by porównać kobiety i mężczyzn
pod względem lubienia astronomii.1 Poniżej zamieszczamy wydruk ze statysty-
kami testu (tab. 4.1).
Statystyki testu t(18) = 2,59; p < 0,05 pokazują, że osoby obu płci różnią się
istotnie statystycznie. Kolumna zawierająca średnie uzupełnia te informacje, wska-
zując, że to kobiety bardziej lubią astronomię niż mężczyźni, ponieważ średnia
dla tej grupy jest wyższa niż dla grupy mężczyzn (zob. tab. 4.2).
Zanim przystąpimy do wykonywania analizy regresji, spróbujmy obejrzeć te
dane na nietypowym wykresie – nie wybierzemy bowiem wykresu słupkowego, za
pomocą którego zwykle obrazujemy różnicę dwóch średnich, ale wykonamy wykres
rozrzutu. Płeć umieszczamy na osi X, natomiast zmienną astronomia na osi Y (szczegó-
łowe wskazówki, jak wykonać wykres rozrzutu w: Bedyńska, Brzezicka, 2007: s. 94).
Tabela 4.1. Statystyki testu t-Studenta dla prób niezależnych dla zmiennych płeć i astronomia
Tabela 4.2. Średnie dla poziomu lubienia astronomii dla kobiet i mężczyzn
1
Czytelnik, który chce sobie przypomnieć, jak wykonać ten rodzaj analizy, powinien
sięgnąć do: Bedyńska, Brzezicka, 2007: s. 184.

rozdziaŁ 4 Zmienne jakościowe jako predyktory w analizie regresji 91
Trochę ten wykres zmodyfikowałyśmy, dodając linię regresji. Spróbujmy się teraz
zastanowić, jakie informacje przekazuje ta linia. Jeśli znajdziemy miejsce przecięcia
linii regresji z pionowo ułożonymi punktami oznaczającymi wyniki danej grupy,
odczytamy wartość przewidywaną dla tej grupy. Na wykresie jest ona oznaczona
dwiema czarnymi kropkami (zob. rys. 4.1). Jeśli odczytamy wartości zmiennej astro-
nomia dla obu kropek, to uzyskamy… nic innego tylko wartości średnich grupo-
wych. Dla grupy, która kodowana była wartością 1 (kobiety), średnia ta wynosi 8,
a dla grupy oznaczonej 2 (mężczyzn) – średnia to 7,1. Wartości te są zgodne z tym,
co pokazuje wydruk. Stąd ważna wskazówka, że jeśli wprowadzimy do regresji
dychotomiczny predyktor, to średnie grupowe są tożsame z wartościami prze-
widywanymi w równaniu regresji.
Gdy do regresji wprowadzimy zmienną dychotomiczną, to wartości przewidywane

regresji są tożsame ze średnimi grupowymi. Aby je obliczyć, musimy do równania
regresji w miejsce X wstawić wartość liczbową, którą kodowana była dana grupa.
A teraz wykonajmy kontrowersyjny krok i przeprowadźmy tę analizę regresji,

wprowadzając zmienną płeć jako zmienną niezależną, a zmienną astronomia jako
zależną. Jak widać, program IBM SPSS Statistics bez problemu poradził sobie
Kropkami są oznaczone
wartości przewidywane
dla danej grupy – linie
wskazują ich wartości
na osi Y, na której są
przedstawione wartości
zmiennej astronomia.
Rysunek 4.1. Wykres rozrzutu dla zmiennych płeć i astronomia

z wykonaniem analiz. Ale czy wyniki niosą jakiś sens? Zerknijmy do edytora
raportów – uzyskaliśmy na wydruku wiele informacji typowych dla zwykłej analizy
regresji. Zacznijmy od wydruku analizy wariancji. Jak widać w tabeli 4.3, analiza
wariancji pokazuje, że model jest dobrze dopasowany do danych F(1, 18) = 6,69;
p < 0,05. Co ciekawe, wartość statystyki F to nic innego jak podniesiona do
kwadratu wartość statystyki t z tabeli 4.1. Obie statystyki odpowiadają więc
sobie – konieczność podniesienia do kwadratu statystyki t wynika z konstrukcji
statystyki F, która powstaje poprzez podniesienie do kwadratu wielkości odległości
między dwiema średnimi. Statystyka t zaś to prosta odległość dwóch średnich.
Gdy do analizy regresji wprowadzimy dychotomiczny predyktor, to wartość sta-

tystyki F określającej dopasowanie modelu będzie identyczna jak podniesiona do
kwadratu wartość statystyki t-studenta testującej różnice grupowe.
Teraz zerknijmy do tabeli 4.4. Najpierw oglądamy wartość poziomu istotno-

ści współczynnika beta dla relacji między płcią a sympatią wobec astronomii.
Współczynnik beta wynosi –0,52, a jego poziom istotności jest mniejszy niż 0,05.
Tabela 4.3. Statystyki analizy wariancji wskazującej na dopasowanie danych do modelu

analizy regresji
Tabela 4.4. Wartości współczynników standaryzowanych i niestandaryzowanych w analizie

regresji dla zmiennej wyjaśniającej płeć

Tabela 4.5. Wartości statystyk siły efektu w analizie regresji
Współczynnik istotnie różni się zatem od zera, co oznacza istotną relację mię-
dzy zmiennymi. Jak interpretować wartość współczynnika beta? Relacja jest silna
i ujemna. Zastanówmy się nad tym, jak jest zakodowana zmienna niezależna. Płeć
przyjmuje tutaj dwie wartości: 1 oznaczane są kobiety, a 2 mężczyźni. W dużym
uproszczeniu można zatem powiedzieć, że wraz ze wzrostem wartości mamy wzrost
męskości, bo wyższą wartością są kodowani mężczyźni. Tak więc ujemy współ-
czynnik sugeruje, że to mężczyźni mają niższą wartość sympatii wobec astronomii
– im wyższa męskość, tym mniejszy poziom sympatii wobec astronomii. Ujemny
współczynnik mówi, że pierwsza średnia jest wyższa, a druga niższa, dodatni – że
pierwsza jest niższa, a druga wyższa.
Zajmijmy się teraz wartościami współczynników niestandaryzowanych. War-
tość stałej wynosi 8,9, a wartość współczynnika kierunkowego równa jest –0,9.
Na podstawie tych współczynników możemy teraz obliczyć średnie grupowe dla
uwzględnianych grup. Zapiszmy najpierw równanie regresji – pomoże nam ono
obliczyć wartości średnich grupowych. Równanie to wygląda następująco:
Yastronomia = –0,9 • Xpłeć + 8,9,
więc jeśli podstawimy wartość 1 w miejsce X, to obliczymy wartość średniej

grupowej dla kobiet. Wynosi ona 8. Sprawdźmy w tabeli 4.2, czy wartość się zgadza.
Średnia dla mężczyzn może zostać obliczona identycznym sposobem – w miejsce X
we wzorze regresji musimy podstawić wartość 2. Uzyskamy informację, że średnia
w grupie mężczyzn wynosi 7,1. Widać więc wyraźnie, że informacje uzyskane za
pomocą analizy regresji zgadzają się w wynikami testu t-Studenta.
Teraz jeszcze przyjrzyjmy się wartościom statystyki R2, która wynosi 0,27 – ozna-
cza to, że płeć wyjaśnia 27% wariancji zmiennej sympatia wobec astronomii (tab. 4.5).
Poniżej zamieszczono współczynniki regresji dla zmiennej płeć1 definiowa-
nej jako zmienna o wartościach 0 oraz 1. Czytelnik, który wykonał tę analizę,
wprowadzając zmienną płeć1 jako zmienną niezależną w miejsce zmiennej płeć,
zauważył już zapewne, że wartości statystyk analizy wariancji się nie zmieniły,
podobnie jak wartość statystyki R2. Jedyna różnica między tymi analizami polega
na wartościach współczynników niestandaryzowanych (tab. 4.6).

Tabela 4.6. Wartości współczynników standaryzowanych i niestandaryzowanych w analizie

regresji dla zmiennej wyjaśniającej płeć1
Zapiszmy linię regresji:

Yastronomia = –0,9 • Xpłeć + 8.
Biorąc pod uwagę to, że kobiety są kodowane w zmiennej płeć1 jako wartość 0,
można stwierdzić, że średnia dla tej grupy jest tożsama z wartością stałej. By
obliczyć średnią dla mężczyzn, trzeba do wzoru podstawić wartość 1 w miejsce X.
Obliczenia w tym przypadku też są proste.
Jeśli zmienna dychotomiczna zostanie zakodowana wartościami 0 oraz 1, to nie

zmienią się wyniki analizy wariancji, współczynnika beta ani R2, ale modyfikacji
ulegną współczynniki niestandaryzowane regresji.
Podsumowując, analiza regresji pozwala na analizowanie danych jakościowych pod

warunkiem, że mają jedynie dwie wartości. Co prawda wyniki takiej analizy są tożsame
z rezultatami testu t-Studenta, więc jeśli być w zgodzie z zaleceniem, że należy stoso-
wać najprostszy typ analiz, który jest zgodny z układem zmiennych. Jeśli jednak zde-
cydujemy się na wykonanie analizy regresji z jakościowym predyktorem (a jak się okaże
w kolejnych rozdziałach, niekiedy jest to niezbędne), to warto pamiętać o sposobie
kodowania zmiennej jakościowej. Jak pokazuje bowiem powyższy przykład, zdecydo-
wanie łatwiej interpretować współczynniki regresji, gdy kodowanie jest zero-jedynkowe.
Analiza regresji pozwala bez większych trudności analizować jako predyktor

zmienną dychotomiczną. Wyniki są identyczne jak w przypadku testu t-Studenta.
Przy kodowaniu zmiennej dychotomicznej wartościami 0 oraz 1 obliczenia średnich
grupowych jest bardzo proste – dla grupy oznaczonej wartością 0 średnia ma
wartość identyczną ze stałą w równaniu regresji. dla grupy oznaczonej warto-
ścią 1 średnia ma wartość stałej z dodanym współczynnikiem kierunkowym.

tWorzenie zmiennych instrumentalnych

dla jaKościoWego predyKtora
niedychotomicznego
Sytuacja, w której predyktor został zmierzony na skali jakościowej i przyjmuje
jedynie dwie wartości, jest bardzo wygodna, ale obejmuje niewielką liczbę przy-
padków rzeczywistych danych zebranych w badaniach psychologicznych. Znacz-
nie częściej spotyka się zmienne jakościowe, które mają więcej niż dwie wartości.
W takiej sytuacji wymagane jest stworzenie dychotomicznych zmiennych instru- zmienne instrumentalne
mentalnych, które zostaną wprowadzone jako predyktory do analizy regresji
w miejsce zmiennej jakościowej o większej liczbie wartości. Są przynajmniej trzy
najczęściej stosowane drogi tworzenia zmiennych instrumentalnych: kodowanie
zero-jedynkowe, kodowanie eksperymentalne oraz kodowanie ortogonalne. Poni-
żej wyjaśniamy oba sposoby tworzenia zmiennych instrumentalnych, ich zasto-
sowanie oraz sposób interpretacji współczynników regresji.
KodoWanie zero-jedynKoWe
Kodowanie zero-jedynkowe w języku angielskim nazywa się tworzeniem dummy dummy variables
variables, ale niestety lepsze tłumaczenie niż zmienne instrumentalne jest nie-
zwykle trudne. Najłatwiej będzie ten sposób kodowania wyjaśnić na przykładzie;
otwórzmy zatem dane rozdział4_1.sav i przyjrzyjmy się zmiennym. Będziemy
próbowali prognozować poczucie szczęścia na podstawie poziomu wykształcenia.
Załóżmy, że zmienna szczęście była mierzona kwestionariuszowo, dzięki czemu
uzyskamy ilościowy poziom pomiaru. Zmienna wykształcenie, która stanowi tutaj
zmienną wyjaśniającą, jest porządkowa i obejmuje trzy kategorie odpowiedzi:
podstawowe, średnie i wyższe. Wyjaśnijmy w tym przypadku logikę i kolejne kroki
tworzenia zmiennych instrumentalnych, by następnie przejść do przekształceń
rzeczywistych zmiennych i wykonania analizy regresji z ich wykorzystaniem.
Najpierw wyjaśnijmy zatem, co będziemy robić w kolejnych krokach analiz.
Celem wszystkich przekształceń będzie utworzenie zmiennych instrumental-
nych, które będą dychotomiczne i przyjmą wartości 0 oraz 1. Chcemy, by wartość
1 oznaczała, że dana osoba ma określony poziom wykształcenia, a wartość 0, że
danego poziomu nie ma. Tak więc przykładowo utworzymy zmienną o nazwie
wyższe, która będzie przyjmowała wartość 1, jeśli osoba ma wykształcenie wyższe,
a wartość 0, jeśli ma podstawowe lub średnie. Potem utworzymy zmienną o nazwie
średnie, w obrębie której wartość 1 będzie oznaczała, że osoba ma ten właśnie typ
wykształcenia, a wartość 0, że ma inne wykształcenie niż średnie (podstawowe
lub wyższe). I teraz bardzo ważna kwestia – będziemy te zmienne instrumentalne
wprowadzać do jednej analizy regresji. Musimy się więc zastanowić, ile zmiennych

Kodowanie zero-jedynkowe umożliwia wprowadzenie do regresji zmiennych

jakościowych o większej liczbie wartości niż dwie. Wymaga stworzenia zero-jedyn-
kowych zmiennych pomocniczych. ich liczba jest o jeden mniejsza niż liczba
wartości zmiennej wyjściowej.
trzeba utworzyć. Niezwykle istotne jest to, by informacje zawarte we wszystkich

utworzonych w ten sposób zmiennych nie dublowały się. Dlatego też zasada gene-
ralna mówi, że zmiennych pomocniczych musi powstać o jedną mniej niż war-
tości zmiennej wyjściowej. Tak więc skoro zmienna wykształcenie ma trzy wartości,
to musimy utworzyć jedynie dwie zmienne pomocnicze. Dlaczego?
Przyjrzyjmy się układowi zmiennych pomocniczych średnie i wyższe zamiesz-
czonemu w tabeli 4.7. Przeanalizujmy wartości wszystkich trzech zmiennych,
by zrozumieć, dlaczego do zakodowania zmiennej wykształcenie wystarczą dwie
zmienne pomocnicze. W tabeli zobaczymy wyraźnie, że każda kategoria zmien-
nej wyjściowej została zakodowana jako kombinacja wartości dwóch zmiennych
instrumentalnych. Nie ma potrzeby dodawania zmiennej podstawowe, ponieważ
ten poziom wykształcenia to kombinacja zer w dwóch zmiennych pomocni-
czych średnie i wyższe. Osoba z wykształceniem podstawowym to w tych danych
taka, która nie ma ani wykształcenia, ani wyższego. Utworzenie trzeciej zmien-
nej instrumentalnej jest więc zupełnie zbędne, bo wartości dwóch pozostałych
kodują trzecią kategorię.
Skoro tworzymy jedynie dwie zmienne, gdy zmienna wyjściowa przyjmuje trzy
wartości, można zadać pytanie: które dwie wartości kodujemy w postaci zmien-
nych instrumentalnych, a którą kategorię pomijamy? Pytanie to ma ogromne
znaczenie dla późniejszych wyników oraz ich interpretacji. Zwykle sugeruje się,
by jedną z kategorii uznać za kategorię odniesienia i zakodować w postaci zmien-
nych instrumentalnych pozostałe. W powyższym przykładzie kategorią odniesie-
nia jest więc wykształcenie podstawowe. Taki układ jest sugerowany wówczas, gdy
tematem pracy jest poszukiwanie, czy osoby z wyższym wykształceniem różnią
się od pozostałych grup poczuciem szczęścia. Jeśli jednak interesują nas bardziej
Tabela 4.7. Wartości zmiennej wyjściowej wykształcenie oraz utworzonych na jej

podstawie zmiennych pomocniczych średnie i wyższe
Nazwa zmiennej Zmienne instrumentalne

wykształcenie średnie wyższe
1 (podstawowe) 0 0
2 (średnie) 1 0
3 (wyższe) 0 1

osoby gorzej wykształcone, to wtedy lepiej, by grupą referencyjną (odniesienia)

była grupa osób z wykształceniem wyższym. Utworzymy wówczas dwie zmienne
pomocnicze: podstawowe i średnie, a wykształcenie wyższe będzie kodowane pośred-
nio poprzez wartości zero w obu zmiennych instrumentalnych. W kolejnej części
rozdziału zaprezentujemy obie możliwości, by wskazać różnice w wynikach ana-
lizy regresji oraz ich interpretacji.
Tworząc zmienne instrumentalne, rekodujemy zmienną wyjściową w taki sposób,

że powstaje o jedną zmienną mniej niż wartości zmiennej wyjściowej. Tworzymy
tylko takie zmienne, które mają być porównywane z kategorią odniesienia – taką
grupą, która stanowi podstawę porównań.
przyKŁad 1: WyKsztaŁcenie podstaWoWe jaKo grupa odniesienia
Skoro już została wyjaśniona logika tworzenia zmiennych instrumentalnych, zapre-

zentujmy kolejne kroki przekształceń w programie IBM SPSS Statistics niezbęd-
nych do utworzenia tych zmiennych i wykonania analizy regresji dla tych wła-
śnie zmiennych jako predyktorów. Podsumujmy więc kolejne kroki postępowania:
 Na podstawie informacji o liczbie kategorii wyjściowej zmiennej i brzmienia
hipotezy badawczej wybieramy grupę odniesienia i określamy liczbę zmien-
nych instrumentalnych.
 Tworzymy zmienne instrumentalne poprzez rekodowanie na inne zmienne.
Chcemy, by powstały zmienne o wartościach 0 oraz 1.
 Wprowadzamy zmienne instrumentalne jako predyktory do analizy regresji.
 Opisujemy i interpretujemy wyniki.
Zacznijmy więc od pierwszego kroku: tworzymy, rekodując na inne zmienne,
dwie zmienne instrumentalne: średnie i wyższe, w taki sposób, by zmienne te
przyjmowały wartości 0 oraz 1. Wchodzimy zatem w programie IBM SPSS Sta-
tistics do górnego menu i wybieramy opcję PRZEKSZTAŁCENIA–REKODUJ–
–NA INNE ZMIENNE i umieszczamy zmienną wykształcenie w oknie ZMIENNA
NUMERYCZNA WYNIKOWA. W okienku NAZWA–ZMIENNA WYNI-
KOWA wpisujemy nazwę zmiennej, która ma powstać w wyniku wykonanego
przekształcenia. Tworzymy zmienną definiującą, czy osoba ma wykształcenie
średnie, więc zmienna będzie się nazywać średnia. Koniecznie trzeba pamiętać
o kliknięciu przycisku ZMIEŃ, by przenieść nazwę nowej zmiennej do górnego
okienka i by program rozumiał, na jaką zmienną ma zmienić zmienną wykształ-
cenie (zob. rys. 4.2).
Teraz wybieramy przycisk WARTOŚCI ŹRÓDŁOWE I WYNIKOWE i dekla-
rujemy sposób rekodowania (rys. 4.3). Przypomnijmy, że wartości źródłowe to te,

Rysunek 4.2. Okno rekodowania na inne zmienne z zadeklarowanymi nazwami zmiennej

wyjściowej i instrumentalnej
Rysunek 4.3. Okno deklarowania wartości źródłowych i wynikowych w opcji rekodowania

na inne zmienne
które obecnie zawiera zmienna wykształcenie, a wartości wynikowe to te, które

ma przyjmować nowa zmienna średnie. Chcemy, by wartość 2 została zamie-
niona na wartość 1, więc wprowadzamy tę parę wartości w oknie WARTOŚCI
ŹRÓDŁOWE I WYNIKOWE. Aby było łatwiej i szybciej, po wprowadzeniu tej
pierwszej pary wartości wybieramy w części WARTOŚĆ ŹRÓDŁOWA opcję
WSZYSTKIE POZOSTAŁE WARTOŚCI i w oknie WARTOŚĆ WYNIKOWA
wpisujemy wartość 0. Chcemy przecież, by powstała nowa zmienna o dwóch
wartościach 0 raz 1.

Tabela 4.8. Statystyki analizy wariancji określającej dopasowanie modelu do danych dla
zmiennej zależnej szczęście i zmiennych niezależnych średnie i wyższe
Tabela 4.9. Współczynniki modelu regresji dla zmiennej zależnej szczęście i zmiennych
niezależnych średnie i wyższe
W analogiczny sposób tworzymy zmienną wyższe – z tą różnicą, że wartość

3 ze zmiennej wykształcenie rekodujemy na wartość 1 w zmiennej wyższe. Po wyko-
naniu wszystkich koniecznych operacji powinniśmy mieć w zbiorze danych dwie
dodatkowe zmienne instrumentalne; każda z nich powinna mieć jedynie dwie
wartości.
Teraz możemy wykonać analizę regresji, by sprawdzić, czy posiadanie określo-
nego poziomu wykształcenia wiąże się z poczuciem szczęścia. W oknie analizy
regresji w oknie ZMIENNA ZALEŻNA umieszczamy zmienną szczęście, a w oknie
ZMIENNYCH NIEZALEŻNYCH obie zmienne instrumentalne: średnie i wyższe.
Ponieważ sposób umieszczania zmiennych nie powinien być już dla czytelnika
żadną nowością, przyjrzyjmy się od razu wynikom zamieszczonych w edytorze
raportów. Zacznijmy zwyczajowo od wyników analizy wariancji, by określić, czy
model jest dobrze dopasowany do zmiennych (tab. 4.8).
Na podstawie wyników analizy wariancji F(2, 27) = 18,14, p < 0,001 możemy
stwierdzić, że udało się dopasować model regresji do danych empirycznych (zob.
tab. 4.8). Innymi słowy model ten jest adekwatny. Zerknijmy do kolejnej tabeli,
by zinterpretować współczynniki regresji i uzyskany wynik (tab. 4.9).

Tabela ze współczynnikami pozwala nam zauważyć, że zmienna określająca,

czy osoba ma wykształcenie średnie, jest istotnym predyktorem poczucia szczęścia
beta = –0,78; p < 0,001. Niestety, zmienna określająca, czy osoba ma wykształ-
cenie wyższe, nie okazuje się w istotny sposób przewidywać poczucia szczęścia.
Teraz zinterpretujmy wynik, uwzględniając wartość współczynnika beta. Przy
interpretacji musimy pamiętać o tym, jaka grupa stanowiła grupę odniesienia, bo
współczynnik beta informuje nas o różnicy między tymi dwiema średnimi. War-
tość współczynnika standaryzowanego jest ujemna, co oznacza, że średnie poczu-
cie szczęścia dla osób z wykształceniem średnim jest niższe niż tych z wykształ-
ceniem podstawowym. Osoby z wykształceniem wyższym nie różnią się istotnie
statystycznie od osób z wykształceniem podstawowym.
Współczynnik beta informuje o istotności i kierunku różnicy dwóch średnich

– grupy odniesienia i tej, która kodowana jest wartością 1 w danej zmiennej.
Teraz obliczmy średnie grupowe. Średnia dla grupy referencyjnej, czyli dla osób
z wykształceniem podstawowym, to wartość stałej. Wartość dla osób z wykształ-
ceniem średnim można obliczyć, posługując się równaniem regresji:
Yszczęście = 8 – 2 • X średnie – 0,1 • Xwyższe.
Osoby z wykształceniem średnim uzyskują wartość 1 dla zmiennej średnie oraz

wartość 0 dla zmiennej wyższe. Podstawmy te dwie wartości w miejsce odpowied-
nich X-ów. Uzyskujemy wartość 6, która określa natężenie szczęścia dla osób
z wykształceniem średnim. Osoby z wykształceniem wyższym mają średnią równą
7,9 – w miejsce Xśrednie podstawiamy wartość 0, a dla Xwyższe – wartość 1. Kto nie
wierzy, niech sprawdzi, wykonując analizę wariancji dla czynnika wykształcenie
i zmiennej zależnej szczęście, by sprawdzić, czy mamy rację.
I ostatnia tabela: łącznie udaje się wyjaśnić 54% zmienności zmiennej zależ-
nej, ponieważ wartość R2 skorygowane wynosi 0,54 (tab. 4.10).
Tabela 4.10. Miary siły efektu dla analizy regresji dla zmiennej zależnej szczęście
i zmiennych niezależnych średnie i wyższe

przyKŁad 2: WyKsztaŁcenie Wyższe jaKo grupa odniesienia
Teraz wykonajmy w celach ćwiczeniowych taki rodzaj analizy, w którym grupą

odniesienia będzie wykształcenie wyższe. W pierwszym kroku tworzymy dwie
zmienne pomocnicze: podstawowe i średnie (właściwie możemy wykorzystać wcześ-
niej utworzoną zmienną średnia, wystarczy utworzyć zmienną podstawowe). Następ-
nie wprowadzamy zmienne podstawowe i średnie do analizy regresji jako zmienne
niezależne; zmienną zależną dalej jest szczęście. Ponownie zerknijmy na wydruk
(zob. tab. 4.11).
niezależnych średnie i podstawowe
Analiza wariancji przyjmuje identyczne wartości jak w poprzednim przykładzie

i wskazuje na dobre dopasowanie modelu do danych F (2, 27) = 18,14, p < 0,001.
Udaje się wyjaśnić dokładnie tyle samo zmienności zmiennej zależnej jak w poprzed-
niej analizie. Jedyne, co uległo zmianie, to wartości współczynników regresji (zob.
tab. 4.11). Tak jak poprzednio tylko jedna zmienna instrumentalna okazała się być
istotnym predyktorem. Mówimy tutaj o zmiennej średnie, której współczynnik beta
jest ponownie ujemny i silny beta = –0,74, p < 0,001. Interpretacja jest identyczna
jak poprzednio: osoby z wykształceniem średnim mają niższe poczucie szczęścia
niż te z wykształceniem wyższym. Zmienna instrumentalna podstawowe nie jest
istotnym predyktorem, bo średnia dla tej grupy nie różni się od średniej dla grupy
referencyjnej – wykształcenia wyższego.
KodoWanie quasi-eKsperymentalne
Niekiedy, choć zdecydowanie rzadko, stosuje się inny sposób postępowania w przy-
padku wielokategorialnych zmiennych – kodowanie, które Jerzy Brzeziński nazywa
quasi-eksperymentalnym (Brzeziński, 2002). Ten rodzaj kodowania zmiennych kodowanie quasi-
kategorialnych (jakościowych) pozwala na porównanie średniej z danej grupy ze -eksperymentalne


podstawie zmiennych pomocniczych średnie1 oraz podstawowe1

wykształcenie średnie1 podstawowe1
1 (podstawowe) 0 1
2 (średnie) 1 0
3 (wyższe) –1 –1
średnią ogólną obliczoną dla wszystkich osób badanych. Takie porównanie jest
rzadko spotykane w badaniach psychologicznych, ale niekiedy może być użyteczne.
Kodowanie to wykorzystuje trzy wartości: 1, 0 oraz –1. Wartością –1 oznaczamy
osoby należące do tej grupy, która z punktu widzenia hipotez jest najmniej istotna
– dla tej grupy nie uzyskamy wartości współczynnika beta. Wartością 1 kodujemy
tę grupę, która ma być odnoszona do średniej ogólnej. W naszym przykładzie
uznajmy, że najmniej nas interesują osoby z wykształceniem wyższym, a główne
porównania, które chcemy uzyskać, to średnia dla osób z wykształceniem średnim
ze średnią ogólną oraz tych z wykształceniem podstawowym ze średnią ogólną
(schemat kodowania przedstawia tabela 4.12).
Kodowanie quasi-eksperymentalne pozwala porównać grupy ze średnią ogólną.

Zmienne pomocnicze przyjmują wtedy trzy wartości: 1, 0 oraz –1.
Rysunek 4.4. Schemat wartości źródłowych i wynikowych dla rekodowania quasi-

-eksperymentalnego przy tworzeniu zmiennej średnie1

niezależnych średnie1 oraz podstawowe1
Rekodowanie będzie więc przebiegać według innego schematu. Wykorzystajmy

dane z poprzedniego przykładu rozdział2_1.sav i dokonajmy rekodowania zmien-
nej wykształcenie na inne zmienne. Najpierw przygotujmy zmienną średnie1, która
będzie służyła do porównań średniej dla osób z wykształceniem średnim. Sche-
mat rekodowania przedstawia rysunek 4.4.
Po utworzeniu obu zmiennych instrumentalnych wprowadzamy zmienne śred-
nie1 i podstawowe1 jako niezależne do analizy regresji. Zmienną zależną będzie
wciąż poczucie szczęścia. Ponownie, jak w zwykłej analizie regresji z ilościowymi
predyktorami, najpierw oglądamy wyniki analizy wariancji, by określić, czy model
jest dobrze dopasowany do danych. Tak jest w tym przypadku F(2, 27) = 18,14;
p < 0,001 (zob. tab. 4.13), więc przechodzimy do tabeli WSPÓŁCZYNNIKI
(tab. 4.14).
Przy takim kodowaniu zmiennych instrumentalnych wartość stałej jest
wartością średniej ogólnej, do której odnoszone są poszczególne zmienne.
Poszczególne parametry standaryzowane beta wskazują na istotność róż-
nicy grupy kodowanej jako 1 od średniej ogólnej. Tak więc istotna wartość
współczynnika beta = –0,87 dla zmiennej średnie1 sugeruje, że średnia dla osób
Tabela 4.14. Wyniki analizy wariancji w analizie regresji dla predyktorów średnie1 oraz
podstawowe1 dla zmiennej zależnej szczęście

Tabela 4.15. Współczynniki określające procent wyjaśnianej wariancji zmiennej szczęście
z wykształceniem średnim różni się istotnie od średniej ogólnej. Dodatkowo

ujemny znak współczynnika wskazuje, że średnia dla osób z wykształceniem
średnim jest niższa niż średnia ogólna. Podobnie dzieje się w przypadku zmien-
nej podstawowe1 – istotny współczynnik standaryzowany wynoszący beta = 0,47
sugeruje, że poczucie szczęścia osób z wykształceniem podstawowym różni się
istotnie od średniej dla całej grupy i dodatkowo jest wyższe niż średnia ogólna,
ponieważ beta ma dodatnią wartość.
Pozostaje teraz kwestia obliczenia wartości przewidywanych, czyli średnich
dla poszczególnych grup. Jest to prosta sprawa, jeśli potrafimy zapisać wzór
linii regresji. Obliczenia przeprowadza się bowiem tak samo jak w poprzednim
przykładzie – jedyna różnica polega na podstawianych do wzoru wartościach
zmiennych średnie1 oraz podstawowe1. Jeśli więc wzór zapiszemy w postaci
Yszczęście = 7,3 + 0,7 • Xpodstawowe1 – 1,3 • X średnie1,
to możemy wyliczyć następujące średnie:

 dla osób z wykształceniem podstawowym: w miejsce Xpodstawowe1 wstawiamy
wartość 1, a w miejsce Xśrednie1 wartość 0, co daje wartość 8
 dla osób z wykształceniem średnim: w miejsce Xpodstawowe1 wstawiamy wartość
0, a w miejsce Xśrednie1 wartość 1, co daje 6
 dla osób z wykształceniem wyższym: w miejsce Xpodstawowe1 wstawiamy wartość
–1, a w miejsce Xśrednie1 wartość –1; wynik wynosi 7,9.
Pozostają jeszcze współczynniki określające procent wyjaśnianej wariancji R2
skorygowane (tab. 4.15). Wartość tego współczynnika jest niezależna od sposobu
kodowania i jest identyczna jak w poprzednim przykładzie (por. tab. 4.10). To
zrozumiałe, bo wciąż mamy przecież ten sam zestaw zmiennych.
KodoWanie ortogonalne
Ostatnim typem kodowania zmiennych instrumentalnych, o którym wspomnimy,
kodowanie ortogonalne jest kodowanie ortogonalne. Jego nazwa sugeruje zbieżność z kontrastami
w analizie wariancji i zbieżność ta nie jest przypadkowa. Kodowanie ortogonalne
oparte jest na tej samej logice co kontrasty ortogonalne, czyli takie porównania,

które wynikają z hipotez kierunkowych i wskazują, które dokładnie podgrupy

średnich będą się różniły. Ten sposób kodowania tworzy takie zmienne instru-
mentalne, które nie są ze sobą w żaden sposób skorelowane, co oznacza, że
obliczone dla nich r Pearsona wynosi 0. Nie jest to prawdą dla pozostałych
sposobów tworzenia zmiennych instrumentalnych – w kodowaniu zero-jedyn-
kowym utworzone zmienne pomocnicze mają zawsze współczynnik korelacji r
Pearsona wynoszący 0,5.
Kodowanie ortogonalne pozwala testować hipotezy kierunkowe podobnie do

kontrastów w analizie wariancji. Tworzenie zmiennych instrumentalnych rządzi
się tymi samymi zasadami co definiowanie kontrastów.
Kodowanie ortogonalne posługuje się tą samą generalną regułą co pozostałe

typy kodowania – tworzymy o jedną mniej zmienną niż liczba kategorii zmiennej
niezależnej. Ponownie tworzymy więc dwie zmienne średnie2 oraz wyższe2. Sche-
mat kodowania przedstawiony został w tabeli 4.16.
Jak widać, sposób kodowania przypomina typowy schemat tworzenia ortogo-
nalnych kontrastów w analizie wariancji. Najpierw kontrastujemy ze sobą dwie
pierwsze grupy, potem dwie pierwsze z trzecią. Tak więc istotność uzyskanych
współczynników beta interpretujemy jako informacja, czy dana grupa średnich
różni się – robimy to identycznie jak w przypadku kontrastów w analizie warian-
cji (zob. Bedyńska, Brzezicka: s. 225). Ich znak informuje o tym, która średnia
jest niższa, a która wyższa. Zerknijmy więc na wydruk (tab. 4.17).
Na podstawie istotności współczynnika beta dla zmiennej średnie2 możemy
powiedzieć, że osoby o wykształceniu podstawowym i średnim różnią się istotnie
statystycznie beta = 0,67; p < 0,001 i grupa kodowana jako 1 ma wyższą średnią
niż grupa kodowana jako –1 – osoby z wykształceniem podstawowym mają wyższą
średnią niż te o wykształceniu średnim. Współczynnik beta dla zmiennej wyższe2 jest
istotny i ujemny, co sugeruje, że osoby z wykształceniem innym niż wyższe (podsta-
wowe i średnie traktowane razem) mają niższą średnią niż osoby z wykształceniem

podstawie zmiennych pomocniczych średnie2 oraz podstawowe2

wykształcenie średnie2 wyższe2
1 (podstawowe) 1 1
2 (średnie) –1 1
3 (wyższe) 0 –2

niezależnych średnie2 oraz wyższe2
Tabela 4.18. Wartości współczynników kontrastu dla zmiennej wykształcenie
wyższym. Obliczmy jeszcze średnie dla poszczególnych grup, posługując się rów-
naniem regresji w postaci Yszczęście =7,3+1 • Xpodstawowe2 – 0,3 • Xwyższe2. Otrzymujemy:
 Osoby z wykształceniem podstawowym są kodowane w zmiennej podstawowe2 war-
tością 1, a w zmiennej wyższe2 mają wartość 1. Po podstawieniu do wzoru w miej-
sce Xpodstawowe2 oraz Xwyższe2 uzyskujemy wartość: Y = 7,3 + 1 • 1 – 0,3 • 1 = 8.
 Osoby w wykształceniem średnim są kodowanie jako wartość –1 w zmiennej
podstawowe2 oraz 1 w zmiennej wyższe2. Po podstawieniu do wzoru uzyskujemy
wartość: Y = 7,3 + 1 • (–1) – 0,3 • 1= 6.
 Wreszcie, osoby z wykształceniem wyższym mają odpowiednio wartości 0 oraz
–2, więc po podstawieniu do wzoru uzyskujemy: Y = 7,3 + 1• 0 – 0,3 • (–2) = 7,9.
By sprawdzić, czy obliczenia są prawidłowe, wykonajmy analizę kontrastów
w analizie wariancji, wprowadzając odpowiednie współczynniki kontrastu zgod-
nie z tabelą 4.16. Wydruk przypomina najpierw sposób wprowadzenia współ-
czynników kontrastów – mamy możliwość sprawdzenia, czy zostały one wprowa-
dzone zgodnie z założeniem (tab. 4.18). Zwróćmy tylko uwagę na to, jaką zmienną
wprowadzimy jako czynnik w jednoczynnikowej analizie wariancji. Tak długo
pracowaliśmy na zmiennych instrumentalnych, że teraz trzeba się mocno pilno-
wać, by nie wprowadzić tych właśnie zmiennych do analizy jednoczynni-
kowej. W oknie jednoczynnikowej analizy wariancji jako czynnik umieszczamy
zmienną wykształcenie, a jako zmienną zależną zmienną szczęście.

Tabela 4.19. Statystyki testów kontrastu dla czynnika wykształcenie i zmiennej

zależnej szczęście
Testy kontrastu nie pozostawiają wątpliwości (por. tab. 4.19). Zarówno pierwszy,
jak i drugi kontrast są istotne statystycznie, a poziomy istotności są identyczne
jak te uzyskane w regresji. Odpowiednie są też znaki wartości statystyki t dla
obu kontrastów.
podsumoWanie
Analiza regresji, choć zaprojektowana do analizy danych ilościowych, świetnie daje
sobie radę z analizą danych jakościowych. Istnieje jednak poważne ograniczenie
polegające na liczbie wartości zmiennej niezależnej jakościowej. Jako predyktory
możemy bowiem wprowadzać jedynie zmienne dychotomiczne, czyli dwuwartoś-
ciowe. To poważne ograniczenie skutkuje koniecznością przygotowania zmien-
nych instrumentalnych – pomocniczych wtedy, gdy oryginalny predyktor przyj-
muje więcej niż dwie wartości. W literaturze prezentowanych jest co najmniej kilka
sposób tworzenia zmiennych instrumentalnych, wykorzystywanych w zależności
od brzmienia hipotez. Wśród nich wymienić można kodowanie zero-jedynkowe
(dummy coding), quasi-eksperymentalne (interaction coding) oraz ortogonalne (contrast
coding). Każdy sposób tworzenia zmiennych pomocniczych posługuje się następu-
jącą regułą tworzenia zmiennych pomocniczych: tworzymy o jedną mniej liczbę
zmiennych pomocniczych niż wartości w obrębie zmiennej oryginalnej. Jeśli więc
do równania regresji chcemy wprowadzić zmienną znak zodiaku o 12 wartościach,
to będziemy tworzyć 11 zmiennych pomocniczych. Wiąże się z tym druga trud-
ność – korzystając z pierwszej i najbardziej rozpowszechnionej metody tworzenia
zmiennych instrumentalnych, musimy ustalić jedną grupę jako grupę odniesienia,
do której będą porównywane pozostałe. Wybór ten powinien być podyktowany
brzmieniem pytania badawczego, hipotezy czy ogólniej problemu badawczego.
Pozostałe techniki kodowania zmiennych pomocniczych są zdecydowanie
rzadziej wykorzystywane w analizie regresji. Za pomocą kodowania quasi-ekspe-
rymentalnego dokonuje się porównania każdej kategorii zmiennej wyjściowej ze
średnią ogólną, kodowanie ortogonalne zaś umożliwia testowanie hipotez kierun-
kowych, w sytuacji gdy hipoteza wyraźnie wskazuje, że jedna (lub więcej grup)

będzie się różniła od innej grupy (innych grup). Postępowanie to daje identyczne
rezultaty jak analiza kontrastów wykonywana w analizie wariancji. Ten przy-
kład pozwala także lepiej zrozumieć wzajemne powiązania pomiędzy poszczegól-
nymi metodami statystycznymi. Widać bowiem wyraźnie, że metoda regresji jest
techniką analityczną ogólniejszą niż analiza wariancji. Można nawet powiedzieć,
że analiza wariancji jest specjalnym przypadkiem analizy regresji. Jak żartobli-
wie podsumowują autorzy podręcznika statystycznego Statistics for the behavioral
and social sciences: A brief course (Aron, Aron, Coups, 2004), jeśli jadąc na bezludną
wyspę, można byłoby zabrać ze sobą jedynie jedną technikę statystyczną, z całą
pewnością należałoby zabrać analizę regresji jako najbardziej uniwersalne narzę-
dzie statystyczne. Dobrze, że dylematy takie – co zabrać na bezludną wyspę?
– nie są zbyt realne.
Powstaje jednak pytanie: skoro obie metody: analiza regresji i analiza wariancji
pozwalają dojść do tych samych wyników, to która z nich jest bardziej odpowied-
nia? którą z nich wybrać? Odpowiedź nie jest prosta. Po pierwsze warto zerknąć
do postawionych hipotez czy pytań badawczych. Jeśli mówią one o związku,
relacji, to powinniśmy wykonać analizę regresji, jeśli pytamy o różnice, to wybór
powinien paść raczej na analizę wariancji. Z naszego doświadczenia wynika, że
analiza wariancji jest zdecydowanie łatwiejsza do zrozumienia, ponieważ ludzie
łatwiej przetwarzają informacje o różnicach niż o związku. Nasza rekomendacja
jest zatem jednoznaczna: wszędzie tam, gdzie mamy jedynie zmienne jakościowe
jako zmienne niezależne, dokonujmy analizy wariancji. Analizę regresji zostawmy
do wykorzystania w takich sytuacjach, gdy choć jedna zmienna niezależna jest
ilościowa. Jej redukcja do kilku kategorii jest wtedy znacznym uproszczeniem,
które może znacząco odbić się na wynikach.

część i
modele regresji
rozdział
Analiza mediacyjna
w regresji.
Poszukiwanie zmiennych
5
pośredniczących
W tym rozdziale znajdują się informacje o tym:
• jaki jest sens poszukiwania mediatorów

• jakie warunki musi spełniać zmienna, by można ją było uznać
za mediatora (zmienną pośredniczącą)
• jak testować mediację w ujęciu klasycznym R.M. Barona
i D.A. Kenny’ego (1986) oraz w podejściu J. Cohena i P. Cohen
(1983) z testami Sobela oraz Goodmana i Aroiana
(MacKinnon i in., 2002)
• jak wykonać analizy mediacyjne w programie IBM SPSS
Statistics, gdy zmienna niezależna jest zmienną ilościową
oraz w sytuacji, gdy jest ona jakościowa dychotomiczna.

WproWadzenie
Prowadzenie badań naukowych ma kilka celów. Pierwszym z nich jest identyfikacja
i opisanie pewnych prawidłowości w postaci naukowych twierdzeń uzasadnionych
dzięki empirycznej demonstracji efektu czy zależności. Jednak drugim ważnym
celem jest wskazanie, dlaczego taki efekt czy prawidłowość się ujawnia, innymi
słowy: określenie zmiennych pośredniczących danego efektu czy zależności. Prze-
dyskutujmy to zagadnienie na przykładzie, tak by stało się jasne, w jaki sposób
poszukuje się wyjaśnień mechanizmu zjawiska czy zależności.
Jak wskazuje B. Wojciszke, wyjaśnienie mechanizmu zjawiska, czyli okre-
ślenie, dlaczego ono się pojawia czy jak działa, to najważniejszy element postę-
powania naukowego (Wojciszke, 2004). Celem tworzonych koncepcji nie jest
bowiem tylko opis zjawisk, ale ich zrozumienie. Badacza interesuje więc okre-
ślenie, jaki jest ciąg zmiennych między zmienną niezależną a zależną, które
pośredniczą w pojawieniu się danego efektu. Wyobraźmy sobie, że chcemy
wyjaśnić sposób oddziaływania kolorów na ludzi. Badanie wykonane przez
psychologów z amerykańskiego Uniwersytetu w Rochester wskazują jedno-
znacznie, że mężczyźni siadają bliżej, gdy kobieta ubrana jest w czerwoną
bluzkę niż wówczas, gdy ma na sobie bluzkę niebieską (Kayser, Elliot, Felt-
man, 2010). Postawiono wiele hipotez wyjaśniających taką zależność, wśród
nich ewolucyjne wskazujące na znaczenie czerwieni jako sygnału biologicz-
nego oznaczającego gotowość seksualną oraz społeczne sugerujące, że kolor ten
w toku socjalizacji zyskuje dodatkowe znaczenie dzięki kulturowym elemen-
tom, takim jak czerwone serduszka na Dzień Świętego Walentego. Wobec tego
zmienne pośredniczące możemy zadać pytanie o zmienne pośredniczące, szukając takich czynników,
które powodują, że siadamy bliżej kogoś. Można sugerować, że siadamy bliżej
osoby, która wydaje nam się atrakcyjna. Więc atrakcyjność fizyczna to pierw-
szy czynnik, który może stanowić mediator, zmienną pośredniczącą między
kolorem ubioru a zachowaniem mężczyzn (chęcią zbliżenia się do kobiety).
Możemy więc przewidywać, że czerwony kolor powoduje wzrost postrzeganej
subiektywnie atrakcyjności innej osoby, a w konsekwencji chęć zbliżenia się do
niej. Innym mediatorem tej zależności może być raczej postrzeganie kobiety
w czerwieni jako osoby bezpruderyjnej i dostępnej. Jak metodami statystycz-
nymi testować te hipotezy?
Sposób testowania hipotez mediacyjnych po raz pierwszy przedstawili Baron
i Kenny w 1986 roku. W swej pracy podają oni kolejne kroki wykonywania ana-
liz mediacyjnych oraz sposoby ich testowania w analizie regresji. W tym roz-
dziale opiszemy to klasyczne podejście oraz podejście Cohena i Cohen, uzupeł-
nione testami Sobela, Goodmana i Aroiana. To ostatnie podejście jest nieco mniej
konserwatywne niż klasyczna propozycja.

rozdziaŁ 5 Analiza mediacyjna w regresji. Poszukiwanie zmiennych pośredniczących 111
Klasyczne podejście Barona i Kenny’ego

Zacznijmy od podejścia Barona i Kenny’ego. Stwierdzili oni, że testowanie zależ- podejście barona
ności mediacyjnej wymaga sprawdzenia w trzech krokach innych zależności (por. i kenny'ego
rys. 5.1):
 zmiennej niezależnej ze zmienną zależną (zależność bezpośrednia; relacja C) zależność bezpośrednia
 zmiennej niezależnej z mediatorem (relacja A) oraz mediatora ze zmienną
zależną (relacja B)
 zmiennej niezależnej ze zmienną zależną (zależność bezpośrednia), gdy zarówno
zmienna niezależna, jak i mediator są uwzględniane w modelu (relacja C’)
(Baron, Kenny, 1986).
Klasyczny model poszukiwania mediacji Barona i Kenny’ego zakłada porównanie

relacji bezpośredniej zmiennej niezależnej i zależnej z relacją tych dwóch zmiennych
wówczas, gdy do modelu zostanie wprowadzony mediator. Mediacja jest całkowita, mediacja całkowita
gdy zmienna niezależna przestaje istotnie przewidywać zmienną zależną w modelu
regresji uwzględniającym mediatora. Mediacja jest częściowa, jeśli wpływ zmiennej mediacja częściowa
niezależnej na zmienną zależną jedynie słabnie.
Zależności te są zwykle testowane za pomocą serii analiz regresji. Krok 1 i 3

wymagają wykonania regresji prostej; w trzecim kroku do modelu regresji wprowa-
dzamy jednocześnie zmienną niezależną i zmienną pośredniczącą (mediator). uzna-
jemy, że zmienna jest mediatorem interesującego nas zjawiska wówczas, gdy
w regresji wielozmiennowej uwzględniającej jako predyktory zmienną nie-
zależną siła zależności między zmienną niezależną a zależną jest nieistotna
po wprowadzeniu do modelu mediatora, mediator zaś jest istotnie powią-
zany ze zmienną zależną. Ten układ nazywa się mediacją całkowitą, jednak jest
mediator
A B
C
zmienna niezależna zmienna zależna
C'
Rysunek 5.1. Schemat relacji w modelu mediacyjnym

ona stosunkowo rzadka, ponieważ wyjaśnienie większości zależności wymaga

uwzględnienia większej liczby mediatorów. W takim przypadku siła zależności
między zmienną niezależną a zależną staje się słabsza w modelu regresji uwzględ-
niającym mediatora w porównaniu z modelem regresji, w którym jedynym pre-
dyktorem jest zmienna niezależna.
model mediacji cohena i cohen
cohen i cohen Alternatywny sposób obliczeń zaproponowali Cohen i Cohen, którzy stwierdzili,
że dla wykrycia mediacji wystarczy stwierdzenie, że obie relacje: zmienna nieza-
leżna – mediator oraz mediator – zmienna zależna są silne i istotne statystycz-
nie (Cohen, Cohen, 1983). Analiza ta nie opiera się więc na porównaniu relacji
bezpośrednich bez uwzględnienia mediatora w modelu ani po jego wprowadze-
niu do modelu, tak jak w klasycznym podejściu. Uznaje się, że najważniejsza
jest relacja zapośredniczona przez mediator i jeśli obie relacje: zmienna nieza-
leżna – mediator, mediator – zmienna zależna są istotne, to można uznać, że
zmienna pełni rolę pośredniczącej. To podejście nie stanowi jednak całkowitego
zaprzeczenia poprzedniego podejścia, a jedynie uzupełnia je o dodatkowe testy
istotności mediacji. Analizy statystyczne wykonujemy więc w tych samych kro-
kach co w poprzednim podejściu, a jedynie dodajemy jeden z kilku dostępnych
testów sprawdzających istotność iloczynu współczynników beta relacji A oraz B.
model cohena i cohen uznaje, że mediacja jest istotna, gdy relacje pośrednie:
zmiennej niezależnej i mediatora oraz mediatora i zależnej są istotne statystycznie.
Stosujemy wtedy test Sobela, Aroiana lub Goddmana dla stwierdzenia, czy iloczyn
współczynników obu tych relacji jest istotnie różny od zera.
przyKŁad 1. model mediacyjny

z ilościoWą zmienną niezależną
Przeanalizujmy teraz dwa przykłady, by kolejne kroki poszukiwania mediacji
stały się jasne. W pierwszym przykładzie wszystkie zmienne będą zmiennymi
ilościowymi, w drugim zaś zmienna niezależna będzie jakościowa dychotomiczna.
Zaczynamy od przykładu, w którym będziemy poszukiwać mediatorów relacji
między efektywnością uczenia się studentów a oczekiwaniami nauczyciela. Wia-
domo z psychologii edukacji, że oczekiwania nauczycieli silnie wpływają na to,
jak w szkole radzą sobie uczniowie (Babad, Inbar, Rosenthal, 1982). Ten klasyczny
wpływ oczekiwań, zwany także efektem Pigmaliona, może być analizowany kore-
lacyjnie. Wyobraźmy sobie, że nauczyciel szacuje na początku roku akademickiego,

jak dobrze w teście gimnazjalnym, przeprowadzanym na końcu roku szkolnego,

wypadną uczniowie z jego klasy. Zmienną niezależną jest więc przewidywany
przez nauczyciela wynik testu, a zależną wynik rzeczywisty. Jakie można wskazać
potencjalne mediatory? Badania M. Babiuch, która analizowała empirycznie ten
problem badawczy w polskich szkołach, wskazują, że jednym z potencjalnych
mediatorów jest ilość czasu poświęcana poszczególnym uczniom (Babiuch, 1990).
Jeśli nauczyciel sądzi, że uczeń powinien dobrze wypaść w teście gimnazjalnym,
poświęca mu więcej czasu i uwagi na lekcjach. Właśnie dlatego uczeń ten wypada
lepiej na teście niż jego kolega, który został uznany przez nauczyciela za gorzej
rokującego. Mediatorem jest więc zmienna określająca zaangażowanie nauczyciela
w interakcję z uczniem, mierzona ilością czasu, jaką nauczyciel w czasie lekcji
lub po nich poświęca danemu uczniowi. Te trzy zmienne znajdziemy w zbiorze
oczekiwania.sav.
KroK 1 – relacja między zmienną niezależną a zależną
Przeprowadźmy więc analizę regresji poszukującą mediacji w kolejnych kro-

kach. Pierwszym krokiem będzie wykonanie prostych analiz regresji, w których
w pierwszej predyktorem będą oczekiwania a zmienną zależną wynik rzeczywisty
testu gimnazjalnego. Ten krok wydaje się oczywisty – musimy przecież potwier-
dzić istnienie relacji między zmienną niezależną a zależną. A teraz drugi krok:
trzeba sprawdzić, czy zmienna niezależna jest powiązana z mediatorem. Więc
w drugiej analizie regresji będziemy szukać istotnej relacji między oczekiwanymi
wynikami w teście a ilością czasu poświęcaną uczniom na lekcjach. Ostatnim
krokiem będzie wykonanie wielokrotnej analizy regresji z dwoma predyktorami:
przewidywanym wynikiem testu i ilością czasu poświęcanego przez nauczyciela
każdemu uczniowi.
Wykonujemy pierwszą analizę, sprawdzając, czy w wykonanym przez nas bada-
niu odtworzona została postulowana wcześniej relacja między oczekiwaniami
Kroki analizy mediacji:

 Sprawdzenie, czy relacja między zmienną niezależną a zależną jest istotna (ZN-
-ZZ).
 Sprawdzenie, czy relacja między zmienną niezależną a mediatorem jest istotna
(ZN-M).
 Sprawdzenie, czy relacja między zmienną niezależną po wprowadzeniu mediatora
do modelu regresji jest słabsza; wykonanie dodatkowego testu sprawdzającego
istotność iloczynu współczynników regresji dla pośredniej relacji między zmienną
niezależną a zależną z uwzględnieniem mediatora.

Rysunek 5.2. Układ zmiennych w analizie regresji dla relacji między zmienną niezależną
a zależną
nauczyciela i wynikiem w teście gimnazjalnym ucznia. Wchodzimy do górnego

menu, wybieramy znaną ścieżkę dostępu ANALIZA–REGRESJA–LINIOWA
i definiujemy zmienne (zob. rys. 5.2): zależną jest wynik a niezależną oczekiwania.
W edytorze raportu szukamy wyników analizy wariancji określającej dopaso-
wanie modelu, a następnie – jeśli model został prawidłowo dopasowany, odczy-
tujemy współczynniki regresji. Na podstawie informacji zawartych w tabeli 5.1
możemy stwierdzić, że relacja między oczekiwaniami nauczyciela z wynikiem
testu jest istotna statystycznie i dodatnia (beta = 0,50; p < 0,05): im wyższe
oczekiwania, tym wyższy wynik w teście. Potwierdzone zostały więc wcześniej-
sze doniesienia – efekt Pigmaliona został zreplikowany.
Tabela 5.1. Współczynniki regresji dla relacji między zmienną niezależną oczekiwania
a zmienną zależną wynik

KroK 2 – relacja między zmienną niezależną

a mediatorem
Teraz sprawdzamy, czy zmienna niezależna koreluje z mediatorem. Umieszczamy

odpowiednio zmienne w oknie dialogowym analizy regresji (zob. rys. 5.3)
Rysunek 5.3. Układ zmiennych dla relacji między zmienną niezależną oczekiwania
a mediatorem czas
Sprawdzamy wydruk (tab. 5.2) i widzimy, że ponownie model okazał się dobrze
dopasowany do danych F(1, 18)= 6,37; p < 0,05. Współczynnik standaryzowany
regresji beta = 0,51 był istotny (p < 0,05) i wskazuje na pozytywną relację mię-
dzy oczekiwaniami nauczyciela i czasem, jaki poświęca on uczniowi. Drugi waru-
nek analizy mediacji okazał się spełniony.
Tabela 5.2. Współczynnik regresji relacji zmiennej niezależnej oczekiwania i mediatora czas

KroK 3 – relacja zmiennej niezależnej i mediatora

ze zmienną zależną
Wreszcie najważniejszy krok – analiza regresji uwzględniająca jednocześnie

zmienną niezależną i mediatora jako predyktory (zob. rys. 5.4).
Rysunek 5.4. Układ zmiennych w wielokrotnej analizie regresji ze zmienną niezależną

oczekiwania i mediatorem czas jako predyktorami oraz zmienną zależną wynik
Teraz pora na analizę współczynników regresji (zob. tab. 5.3). Na podstawie

współczynników standaryzowanych regresji widzimy, że oczekiwania przestały
w istotny sposób przewidywać wyniki testu gimnazjalnego (beta = 0,20; p > 0,05),
Tabela 5.3. Współczynniki regresji wielozmiennowej ze zmienną niezależną oczekiwania

i mediatorem czas jako predyktorami zmiennej zależnej wynik

natomiast zmienna czas, określająca ilość czasu poświęcanego uczniowi przez nauczy-
ciela, okazała się być jedynym istotnym predyktorem wyniku w teście gimnazjalnym
(beta = 0,59; p < 0,01). Oznacza to, że mamy do czynienia z mediacją całkowitą,
ponieważ relacja między zmienną niezależną a zależną przestała być istotna, gdy
w analizie regresji oprócz zmiennej niezależnej został uwzględniony mediator.
testy: soBela, aroiana i goodmana

testujące istotność mediacji częścioWej
W przykładzie zmieszczonym powyżej mamy do czynienia z mediacją całkowitą,

gdyby jednak mediacja nie była całkowita i współczynnik beta relacji między zmienną
niezależną oczekiwania a zależną w modelu z mediatorem był istotny, a jedynie miał
niższą wartość niż w regresji prostej, to wnioskowanie o mediacji byłoby trochę bar-
dziej skomplikowane. Trudno bowiem jedynie na podstawie statystyk analizy regre-
sji ustalić, czy zmiana wartości współczynnika beta zmiennej niezależnej i zależnej
jest istotna statystycznie (porównanie ścieżek C oraz C’). W takiej sytuacji musimy
uzupełnić obliczenia o test Sobela, Aroiana lub Goodmana. Testy te opierają się na
trochę innej logice poszukiwania mediacji niż klasyczne podejście Barona i Kenny’ego.
Zamiast porównania współczynników regresji w modelu bez mediatora i z nim, bazują
na wartościach współczynników relacji między zmienną niezależną a mediatorem
oraz mediatorem i zmienną zależną, a więc ścieżek A oraz B modelu mediacji (zob.
rys. 5.1). Zakłada on, że jeśli obie te relacje: między zmienną niezależną i mediatorem
oraz mediatorem i zmienną zależną są istotne statystycznie, to mediacja zachodzi.
Pomija więc zupełnie porównanie efektu bezpośredniego zmiennej niezależnej na
zależną oraz tej samej relacji w regresji z uwzględnieniem mediatora. Ten model opisy-
wany jest szczegółowo przez Cohena i Cohen (Cohen, Cohen, 1983), a uzupełniany cohen i cohen
o symulacje i testy istotności przez MacKinnona i współpracowników (MacKinnon
i in., 2002). Tak więc test Sobela sprawdza, czy iloczyn współczynników beta ścieżki
A oraz B w modelu mediacyjnym jest istotnie różny od 0. Jeśli choć jedna wartość
statystyki regresji beta jest niska, to automatycznie wartość statystyki tego testu też
maleje. Na podobnej zasadzie opierają się także testy Goodmana czy Aroiana. Doko-
nują one jednak lekkiej korekty mianownika statystyki testu w stosunku do testu
Sobela. Który test wybrać? Na podstawie symulacji na sztucznych danych o zna-
nych parametrach, zespół MacKinnona formułuje wiele rekomendacji, wskazując
między innymi, że test Sobela jest dość konserwatywny i nadaje się do analizy
mediacji, gdy próba jest duża (większa niż 50 obserwacji) (MacKinnon i in.,
2002). Podobnie jest z testem aroiana, który jednak jest lepszy od wspomnianego,
ponieważ ma korektę mianownika statystyki testu, której brakuje w teście Sobela.
Poszukiwanie mediacji w małych próbach jest zdecydowanie bardziej skuteczne przy
zastosowaniu testu Goodmana lub modelowania równań strukturalnych.

Który test zastosować do określenia istotności relacji pośredniej w analizie

mediacji?
 Test Sobela jest konserwatywny, więc stosujemy go dla dużych prób, gdy efekt
mediacyjny jest bardzo silny).
 Test Aroiana przeznaczony jest dla dużych prób, ale jest lepszy niż test Sobela,
ponieważ uwzględnia poprawkę na skorelowanie składowych efektu pośred-
niego, czy relacja między zmienną niezależną a mediatorem jest istotna (ZN-M).
 Test Goodmana rekomenduje się w sytuacji analiz na małych próbach (poniżej
50 obserwacji).
Wróćmy do analizowanego przykładu – wykonajmy dla niego testy Sobela,

Aroiana i Goodmana, posługując się znalezionym w internecie kalkulatorem http://
people.ku.edu/~preacher/sobel/sobel.htm (wyszukanie kalkulatora jest dość proste:
wystarczy w wyszukiwarce wpisać hasło „Sobel’s test”). Ważne jest, by sprawdzić,
jakie współczynniki regresji mamy wprowadzić w odpowiednie pola kalkula-
tora: standaryzowane beta (standardized, regression weights) czy niestandaryzowane
(unstandardized). W pierwszym kalkulatorze, do którego link zamieszczono powy-
żej, należy wprowadzić współczynniki niestandaryzowane i błędy standardowe
współczynników; w drugim wystarczy podać wartości statystyk t znajdujących się
w tabeli WSPÓŁCZYNNIKI w regresjach uwzględniających ścieżki A oraz B (tab.
5.2 i 5.3). Należy przy tym koniecznie pamiętać o oddzieleniu miejsc dziesiętnych
kropkami, zgodnie z notacją amerykańską.
Najpierw wykonamy obliczenia testu Sobela dla współczynników niestanda-
ryzowanych (oznaczonych w kalkulatorze literami a oraz b) oraz ich błędów stan-
dardowych (oznaczonych literami sa oraz sb). Po ich wprowadzeniu w odpowiednie
pola (zob. rys. 5.5), klikamy przycisk CALCULATE i uzyskujemy wyniki testów
Aroiana, Sobela i Goodmana.
Współczynniki a oraz b to niestandaryzowane wartości współczynników regresji dla relacji między zmienną
niezależną i mediatorem oraz mediatorem a zmienną zależną; sa oraz sb to odpowiadające im błędy standardowe.
Rysunek 5.5. Kalkulator wartości statystyk testów Sobela, Aroiana i Goodmana w analizie
mediacji dla relacji między oczekiwaniami nauczyciela i wynikiem testu gimnazjalnego

Współczynniki ta oraz tb to wartości statystyk t-Studenta, określających istotność współczynników beta

dla relacji między zmienną niezależną i mediatorem oraz mediatorem a zmienną zależną.
mediacji dla relacji między oczekiwaniami nauczyciela i wynikiem testu gimnazjalnego
Po wprowadzeniu wartości odpowiednich statystyk w części INPUT i kliknięciu

na przycisk CALCULATE, uzyskujemy wartość statystyki testu Sobela. Test ten,
podobnie jak testy Goodmana i Aroiana, opiera się na statystyce Z. Możemy zapi-
sać uzyskane wyniki następująco: test Sobela: Z = 1,92; p = 0,055; test Aroiana:
Z=1,85; p = 0,064; test Goodmana: Z = 1,98; p = 0,047. Podając wartości pozio-
mów istotności, celowo pokazujemy wartości dokładne. Widać po nich, że gdyby
przyjąć kryterium p < 0,05, to tylko test Goodmana pokazałby istotną mediację
w powyższym przykładzie. Dzieje się tak, dlatego że test ten jest najmniej konser-
watywny i przeznaczony dla małych prób, a z taką mamy do czynienia w analizo-
wanym przykładzie.
Identyczne wyniki przynosi wykorzystanie drugiego kalkulatora, wymagającego
wprowadzenia statystyk t z analizy regresji. Znowu musimy pamiętać o oddzieleniu
miejsc dziesiętnych kropkami zamiast przecinkami. Po wprowadzeniu odpowied-
nich wartości w okna w części INPUT, klikamy przycisk CALCULATE i uzysku-
jemy identyczne wartości testów jak w kalkulatorze pierwszym. Ponownie tylko
test Goodmana wskazuje na istotności mediacji (zob. rys. 5.6).
opis WyniKóW
Teraz możemy zamieścić wyniki analizy mediacyjnej na schemacie i opisać wyniki

w postaci raportu.
W celu odpowiedzi na pytanie o pośredniczącą rolę zmiennej określającej ilość czasu

poświęcanego uczniowie przez nauczyciela na relację między oczekiwaniami a wynikiem
testu gimnazjalnego przeprowadzono analizę mediacji, uzupełnioną wynikiem
testu Goodmana. Była ona przeprowadzana w trzech krokach zgodnie z podej-
ściem zaproponowanym przez Barona i Kenny’ego (Baron, Kenny, 1986). W pierw-
szym potwierdzono bezpośrednią zależność oczekiwań nauczyciela i wyników

czas
0,51* 0,59*
0,50*
oczekiwania wynik testu
0,20
Gwiazdkami oznaczono poziom istotności p < 0,05.
Rysunek 5.7. Model mediacyjny dla wpływu oczekiwań nauczyciela na wynik testu
gimnazjalnego, w którym mediatorem jest czas poświęcany uczniowi przez nauczyciela.
testu gimnazjalnego – model regresji okazał się być dobrze dopasowany do da-
nych i wskazywał, że im wyższe są oczekiwania, tym wyższy wynik w teście gim-
nazjalnym (beta = 0,50; p < 0,05). Wynik ten replikuje znany w literaturze efekt
Pigmaliona (Babad, Inbar, i Rosenthal, 1982). W drugim kroku analizy testowano
relację między zmienną niezależną określającą oczekiwania nauczyciela a mediato-
rem określającym ilość czasu poświęcanego uczniowi. Ponownie relacja ta okazała
się istotna (beta = 0,51; p < 0,05), a cały model dobrze dopasowany do danych.
Wreszcie w modelu uwzględniającym jednocześnie mediatora i zmienną nieza-
leżną rola zmiennej niezależnej w przewidywaniu wyniku testu zmalała i okazała
się nieistotna (beta = 0,20; p > 0,05), podczas gdy mediator był silnie powiązany
ze zmienną zależną (beta = 0,59; p < 0,01). Zestawienie uzyskanych współczyn-
ników beta prezentuje rysunek 5.7.
Wynik wskazujący na całkowitą mediację ilości czasu poświęcanego uczniowi zos-
tał potwierdzony wynikiem testu Goodmana, który okazał się istotny statystycznie
Z = 1,98; p < 0,05.
przyKŁad 2. model mediacyjny

z dychotomiczną zmienną niezależną
Przeanalizujmy teraz jeszcze jeden przykład – taki, w którym zmienna niezależna
jest dychotomiczna. Taki układ zmiennych pojawia się często w prostych schematach
eksperymentalnych, w których porównywane są jedynie dwie grupy. Wróćmy więc
do przykładu z początku tego rozdziału i sprawdźmy, co się dzieje, gdy kobieta ma
na sobie czerwoną bluzkę. Porównywać więc będziemy dwie sytuacje: gdy kobieta
rozmawiająca z mężczyzną ubrana jest w czerwoną bluzkę, i drugą – gdy jej bluzka

jest niebieska. Wiemy z wcześniejszych badań, że mężczyźni siadają bliżej kobiet

ubranych na czerwono, ale czym jest to powodowane? Załóżmy, że wytypowanym
mediatorem będzie postrzeganie kobiety w czerwieni jako ciepłej i sympatycznej
osoby. Badania nad ucieleśnionym poznaniem wskazują, że położenie sobie ręki
na sercu (gest szczerości) powoduje, że ludzie są bardziej prawdomówni, więc być
może czerwień, kojarząca się z ciepłem, ociepla wizerunek osoby, która nosi ubrania
w tym kolorze. W badaniu będą więc stwarzane dwie sytuacje: w jednej kobieta
będzie ubrana w czerwoną bluzkę, w drugiej w niebieską. Zmienna niezależna będzie
więc dychotomiczna i będzie to kolor ubioru. Zmienną zależną będzie odległość
mężczyzny od kobiety mierzona odległością między krzesłami rozmawiających
osób, a mediatorem będzie ocena kobiety dokonywana przez mężczyznę za
pomocą skali przymiotnikowej używanej do pomiaru ciepła i kompetencji – dwóch
kluczowych wymiarów opisu innych ludzi i siebie (Wojciszke, 2010). Sprawdzimy
dwa warianty: gdy mediatorem będzie wymiar postrzeganego ciepła osoby oraz
gdy jako mediator wprowadzimy wymiar kompetencji (zob. rys. 5.8).
Otwieramy dane kolor.sav i wykonujemy serię analiz sprawdzających dwa modele
mediacyjne. Pomimo że zmienna niezależna jest jakościowa i dychotomiczna,
nie ma większych różnic w sposobie przeprowadzania analiz. Jako pierwszy krok
ciepło
A1 B1
C1
kolor odległość
C'1
kompetencje
A2 B2
C2
kolor odległość
C'2
Rysunek 5.8. Modele mediacyjne dla relacji koloru i odległości z uwzględnieniem

zmiennych ciepło i kompetencje jako mediatorów

Tabela 5.4. Współczynnik regresji relacji między zmienną niezależną kolor a zmienną
zależną odległość
Tabela 5.5. Współczynniki regresji dla relacji między zmienna niezależną kolor
a mediatorem ciepło
wykonujemy regresję, która sprawdza istotność relacji między zmienną nieza-

leżną a zależną – ten krok jest wspólny dla obu modeli. W tabeli 5.4 zamieszczone
zostały współczynniki regresji dla tej relacji. Widzimy, że zmienna niezależna kolor
jest istotnie powiązana ze zmienną zależną odległość (beta = –0,84; p < 0,001).
Zajmijmy się teraz pierwszym modelem, w którym mediatorem jest wymiar
ciepła. Przeprowadźmy regresję sprawdzającą relację między kolorem ubrania
kobiety a natężeniem oceny ciepła. Widzimy, że także tutaj ujawnia się istotna
zależność (beta = 0,90, p < 0,001) (zob. tab. 5.5).
mediacji dla relacji między kolorem bluzki kobiety i odległości, w jakiej siada mężczyzna

I wreszcie ostatni krok: analiza, w której uwzględnione zostały obie zmienne

– niezależna i mediator jako predyktory zmiennej odległość. Jak widać w tabeli 5.6,
kolor przestaje mieć znaczenie w przewidywaniu wyników zmiennej odległość
(beta = –0,27, p > 0,05), podczas gdy mediator ciepło pozwala istotnie przewidywać
tę zmienną (beta = –0,64, p < 0,05).
Dodajmy do tego wyniku jeszcze test Goodmana sprawdzający istotność media-
cji w małych próbach. Wprowadzamy dane do kalkulatora i uzyskujemy wynik
świadczący o tym, że wymiar ciepła jest istotnym mediatorem (rys. 5.9).
Współczynniki ta oraz tb to wartości statystyk t-Studenta określających istot-
ność współczynników beta dla relacji między zmienną niezależną i mediatorem
oraz mediatorem a zmienną zależną.
Teraz przeprowadzamy te same kroki dla wymiaru kompetencji – najpierw
poszukujemy związku między kolorem a wymiarem kompetencji (zob. tab. 5.7).
Zależność ta nie jest istotna statystycznie (beta = –0,03, p > 0,05), co oznacza,
że kolor ubrania nie modyfikuje ocen na wymiarze kompetencji. Mówiąc prościej:
to, czy kobieta ma bluzkę niebieską czy czerwoną, nie wpływa na to, jak są oce-
niane jej kompetencje przez mężczyznę, z którym się spotkała.
Tabela 5.6. Współczynniki regresji dla relacji zmiennej niezależnej kolor i mediatora ciepło
a zmienną zależną odległość
Tabela 5.7. Współczynniki regresji dla zależności zmiennej niezależnej kolor i mediatora
kompetencje

Tabela 5.8. Współczynniki regresji dla zależności zmiennej niezależnej kolor i mediatora
kompetencje a zmienna zależną odległość
I ostatni krok: regresja wielokrotna uwzględniająca jednocześnie kompetencje

i kolor pokazuje, że kolor wciąż jest istotnym predyktorem (beta= –0,85, p < 0,001),
a kompetencja zupełnie nie pozwala przewidywać odległości, w jakiej usiądzie
mężczyzna (beta= –0,10, p > 0,05 (zob. tab. 5.8).
W tej sytuacji nie obliczamy testu Goodmana, ponieważ nie ma szans na uzys-
kanie istotnego wyniku, skoro relacja między mediatorem a zmienną zależną
okazała się nieistotna. Podobnie byłoby wówczas, gdyby zmienna niezależna nie
korelowała z mediatorem.
trudności W poszuKiWaniu mediacji

Analiza mediacji, choć wydaje się bardzo prosta, ma liczne ograniczenia. Ze
względu na podobieństwo do innych efektów pośrednich konieczne jest spełnie-
nie wielu warunków przy typowaniu zmiennej, która może być mediatorem. Bar-
dzo ważnym, choć często pomijanym krokiem, jest sprawdzenie, czy rzeczywiście
zmienna niezależna jest powiązana z mediatorem w sposób przyczynowo-
-skutkowy. Można to wykonać jedynie za pomocą badań eksperymentalnych.
Zanim więc przeprowadzimy własne analizy, powinniśmy sprawdzić w literaturze,
czy na pewno manipulacja zmienną niezależną powoduje zmianę w poziomie
mediatora. To samo zastrzeżenie dotyczy pozostałych relacji: między zmienną
niezależną i zależną oraz między mediatorem a zmienną zależną.
Kolejna trudność w analizie mediacji dotyczy kształtu zależności, trzeba
bowiem pamiętać, że analiza regresji, za pomocą której testujemy mediację,
to model liniowy. Nie sposób więc odnaleźć zależności wtedy, gdy choćby jedna
relacja między uwzględnianymi w modelu mediacyjnym zmiennymi jest krzywoli-
niowa. Wtedy niezbędne jest wykonanie regresji krzywoliniowej i zupełna zmiana
podejścia. Wreszcie, relacje między zmiennymi mogą być bardziej skomplikowane
ze względu na większą liczbę mediatorów, czy ujawnianie się innych mechanizmów
pośredniczących w różnych podgrupach (moderowana mediacja, zob. Muller, Judd,

Yzerbyt, 2005). Podobnie nie sposób poradzić sobie z szacowaniem w jednej ana-
lizie, czy model pośredni (z mediatorem) jest istotny, jednocześnie z testowaniem,
czy model bezpośredni jest nieistotny statystycznie (prosta relacja zmiennej nie-
zależnej z zależną). Z tymi kwestiami można sobie poradzić bez trudu, sięgając
po bardziej złożoną technikę analityczną – modelowanie równań strukturalnych
opisywane w dalszej części książki.
Warto też wspomnieć o tym, że mediacja nie jest jedynym efektem pośred-
nim, do tej grupy efektów należą także (zob. MacKinnon, 2008):
 Supresja (supressor) – efekt pośredni, który polega na tym, że po wprowadze-
niu do modelu relacji zmiennej niezależnej i zależnej trzeciej zmiennej relacja
między początkowymi dwiema staje się silniejsza i istotna statystycznie.
 Kowariancja (covariate) – w sytuacji gdy mamy do czynienia z kowariancją,
trzecia zmienna koreluje ze zmienną zależną, ale relacja między niezależną
a kowariantem jest nieistotna statystycznie. Zwykle próbujemy wyeliminować
wpływ zmiennych kowariancyjnych, zdając sobie sprawę, że mogą utrudniać
odszukanie relacji między zmienną niezależną a zależną. Kowariant wyjaśnia
zmienność zmiennej zależnej, ale jest to niezależne źródło wyjaśniania w sto-
sunku do interesującej nas zmiennej niezależnej.
 Korelacja pozorna (confounder) – to zjawisko, w którym trzecia zmienna powią-
zana jest ze zmienną zarówno zależną, jak i niezależną, ale kierunek przyczy-
nowości biegnie od tej zmiennej do obu zmiennych, których relacja nas intere-
suje. W mediacji kierunek relacji powinien przebiegać od zmiennej niezależnej
do mediatora – tutaj kierunek relacji przyczynowej jest odwrotny: od media-
tora do zmiennej niezależnej.
 Moderacja (moderator) – to inaczej analiza interakcji. Moderator to zmienna,
która w odróżnieniu od mediatora definiuje, w jakich warunkach zależność się
ujawnia, na jakie osoby danych efekt działa. Nie wyjaśnia więc, dlaczego jakieś
zjawisko działa, ale w jakich warunkach. Znajomość mediatorów przyczynia
się do określenia moderatorów zjawiska, ale niestety znajomość moderatorów
nie zawsze wskazuje trop w poszukiwaniu mediatorów. Typowym moderato-
rem jest płeć, niemniej rzadko wskazuje ona na to, jaki może być mechanizm
zjawisk psychologicznych, bo płeć różnicuje niezliczone właściwości psychiczne
i wybór byłby trudny.
podsumoWanie
Poszukiwanie mediatorów, choć niezwykle interesujące z punktu widzenia kon-
struowania teorii psychologicznych, jest bardzo łatwe w sensie analitycznym
w programie IBM SPSS Statistics. Analiza mediacji to nic innego jak seria analiz
regresji, wzbogacona o dodatkowe testy, dostępne w internetowych kalkulatorach.

Niemniej sens przeprowadzania analiz mediacyjnych jest dużo głębszy i ich wyko-
rzystanie musi zostać poprzedzone poszukiwaniami literatury wskazującej na
przyczynowo-skutkowy charakter analizowanych korelacyjnie zależności uwzględ-
nianej zmiennej niezależnej, zależnej i potencjalnego mediatora. Bez tych wcze-
śniejszych badań eksperymentalnych, potwierdzających kierunek zależności mię-
dzy trzema zmiennymi modelu, niemożliwe jest odróżnienie mediacji od innych
efektów pośrednich: kowariancji czy korelacji pozornej.

część i
modele regresji
rozdział
W poszukiwaniu interakcji.
Moderatory w analizie
regresji
6
W tym rozdziale dowiemy się:
• w jakich krokach wykonujemy taką analizę, gdy zmienne

niezależne są ilościowe lub jakościowe
• co zrobić, by zinterpretować istotny efekt interakcyjny.

WproWadzenie
Zwykła analiza regresji, w której uwzględniane są dwa predyktory, jest logicznym
odpowiednikiem poszukiwania efektów głównych w dwuczynnikowej analizie
wariancji. Innymi słowy, taki model regresji jest addytywny, bo zakłada, że wpływ
zsumowanych predyktorów daje wyjaśnianie całkowitej zmienności zmiennej zależnej,
ale zależność jednego predyktora ze zmienną zależną nie modyfikuje w żaden sposób
wpływu drugiego; oba efekty są niezależne. Jednak w naukach społecznych, choć nie
efekty interakcyjne tylko, najciekawsze są efekty interakcyjne, dzięki którym można zdefiniować zestaw
warunków, niezbędnych do wystąpienia jakiegoś efektu czy zjawiska. Zmienne,
które wchodzą w interakcje ze zmiennymi niezależnymi, nazywa się w literaturze
moderatory anglojęzycznej moderatorami, ponieważ moderują, tj. zmieniają sposób działania
zmiennej niezależnej na zależną. Posługując się przykładem, możemy wskazać, że
przeciętnie atrakcyjna kobieta jest postrzegana jako bardziej atrakcyjna wówczas,
gdy poprzednio prezentowana jest dziewczyna brzydsza, niż gdy badani zapoznają
się uprzednio ze zdjęciem dziewczyny ładniejszej. Efekt kontrastu powoduje bowiem
znaczący spadek oceny atrakcyjności. Kierunek kontrastu atrakcyjności dwóch osób
odpowiada więc za dokonywaną przez badanych subiektywną ocenę jednej z nich.
I drugi przykład (zaczerpnięty z rozdziału 3): wielkość datku przekazanego na
działalność charytatywną wynika z oceny ważności takich działań dokonywanych
przez badanych, ale także z ich dochodów.
Powyższe przykłady wymagałyby przeprowadzenia analizy interakcji w dwu-
czynnikowej analizie wariancji. Interakcja w analizie regresji może przykładowo
polegać na tym, że relacja między dwiema zmiennymi w jednej grupie jest słabsza
(niska wartość współczynnika regresji beta), a w drugiej bardzo silna (wysoka war-
tość współczynnika regresji beta). Drugim wariantem może być sytuacja, w któ-
rej dla jednej grupy relacja między predyktorem a zmienną zależną jest dodatnia;
w drugiej grupie relacja ta jest ujemna. A więc interakcja może polegać na tym,
że relacja w dwóch grupach ma różną siłę lub też inny kierunek zależności pre-
dyktora i zmiennej zależnej. Dodatkowym wariantem jest taka sytuacja, w któ-
rej w jednej grupie relacja jest prostoliniowa, a w drugiej paraboliczna (funkcja
kwadratowa). Ten wariant jest jednak trudniejszy w analizie i wymaga znajomo-
regresja krzywoliniowa ści regresji krzywoliniowej.
Moderator to zmienna wchodząca w interakcję z predyktorem. Interakcja ta po-

lega na tym, że relacja między predyktorem a zmienną zależną jest inna, jeśli
chodzi o znak i/lub kierunek na różnych poziomach moderatora. Gdy moderator
jest dychotomiczny, to interakcja wskazuje, że w jednej grupie relacja ma inny
kierunek niż w drugiej lub też jest silniejsza niż w drugiej.

rozdziaŁ 6 W poszukiwaniu interakcji. Moderatory w analizie regresji 129
Poszukiwanie moderatorów może wynikać z założeń teoretycznych, ale nie-

kiedy jest dyktowane przez wyniki uzyskane podczas testowania założeń w analizie
regresji. Szczególnym przypadkiem założenia wskazującego często na konieczność
uwzględnienia moderatora w analizie (poszukiwania interakcji) jest stwierdzenie
heteroscedastyczności danych.
Przypomnijmy krótko to, co opisałyśmy w rozdziale 3. Założenie o homosce-
dastyczności mówi, że wariancja reszt regresji powinna być zbliżona we wszyst-
kich zakresach zmiennej niezależnej. Innymi słowy: reszty regresji powinny mieć
podobną wielkość zarówno dla tych osób, które osiągnęły niskie wyniki dla zmien-
nej niezależnej, jak i dla takich badanych, którzy mają wysokie wartości predyk-
tora. Brak spełnienia tego założenia może (choć oczywiście nie musi) sugerować,
że dla precyzyjnego opisu relacji między zmienną niezależną a zależną niezbędne
jest uwzględnienie interakcji tego predyktora z drugą zmienną.
Na trop interakcji może nas naprowadzić informacja o niespełnionym założeniu

o homoscedastyczności danych.
Niezależnie od tego, czy poszukujemy interakcji ze względu na posiadane hipotezy

czy też z powodu podejrzeń opartych na niespełnionym założeniu o homoscedastycz-
ności reszt regresji, postępowanie analityczne jest identyczne. Poniżej omówimy dwa
warianty: jeden, w którym moderatorem jest dychotomiczna zmienna jakościowa,
oraz drugi, gdy do dyspozycji mamy dwa ilościowe predyktory wchodzące ze sobą
w interakcję. W obu przypadkach niezbędne jest utworzenie dodatkowej zmiennej
pomocniczej – składnika interakcyjnego, który będzie wprowadzany do analizy regre-
sji. Zacznijmy od prostszego wariantu, w którym moderatorem jest dychotomiczna
zmienna jakościowa, by omówić kolejne kroki postępowania analitycznego.
poszuKiWanie interaKcji – Kolejne KroKi

Zacznijmy od prostszego wariantu, w którym uwzględnimy dychotomiczny jako-
ściowy moderator i ilościowy predyktor. Najpierw przedstawimy kolejne kroki
tworzenia składnika interakcyjnego, by następnie opisać przekształcenia danych
w programie IBM SPSS Statistics, które pozwolą uzyskać ten składnik. Następnie
wyjaśnimy sposób przeprowadzenia analizy regresji z wykorzystaniem tak utwo-
rzonego składnika interakcyjnego. Bardzo ważne dla zrozumienia logiki całego składnik interakcyjny
procesu przygotowywania danych są informacje dotyczące efektów interakcyj-
nych w analizie wariancji, ponieważ w regresji interpretuje się interakcje analo-
gicznie jak w analizie dwuczynnikowej. Przypomnijmy, że w dwuczynnikowej
analizie wariancji efekt interakcyjny oznaczony jest na wydruku jako połączone

znakiem mnożenia dwie zmienne niezależne. W poszukiwaniu interakcji w ana-

lizie regresji ten znak mnożenia też będzie miał zastosowanie, ponieważ skład-
nik interakcyjny powstanie właśnie poprzez przemnożenie wartości predyktora
i moderatora. Zanim jednak powstanie ta nowa zmienna oznaczająca składnik
interakcyjny, polecane jest dokonanie przekształceń wartości predyktora i mode-
centracja ratora. Przekształcenia te nazywane są centracją. Dla zmiennych jakościowych
polega ona na zdekodowaniu istniejących wartości zmiennej na dwie równo odda-
lone od 0 wartości: –1 oraz 1. Dokładny wzorzec rekodowania nie ma znaczenia;
ważne, by w wyniku tego przekształcenia w zmiennej wynikowej pojawiły się
jedynie wartości –1 oraz 1. Dla zmiennych ilościowych w literaturze podawane są
dwa warianty centracji: jedna to odniesienie wartości zmiennej do średniej aryt-
standaryzacja metycznej, druga to standaryzacja wartości zmiennej (czyli odniesienie wartości
odchylenie standardowe zmiennej do średniej w jednostkach odchylenia standardowego).
centracja zmiennej ilościowej może być wykonana na dwa sposoby:

 poprzez standaryzację zmiennej, czyli odniesienie jej wartości do średniej aryt-
metycznej w jednostkach odchylenia standardowego
 poprzez odjęcie od wartości zmiennej wartości średniej arytmetycznej.
Centracja zmiennej dychotomicznej to rekodowanie jej wyjściowych wartości na
wartości –1 oraz 1.
Istnieją także przypadki takich sfer badawczych, w których zmienna ilościowa

nie została poddana centracji, zanim wykonamy więc jakiekolwiek przekształcenia
na danych, dobrze jest zapoznać się z innymi badaniami w tej dziedzinie psycholo-
gii, która mieści się w zakresie naszego zainteresowania. O ile wyniki analizy regre-
sji nie będą się znacząco różniły w większości przypadków w zależności od rodzaju
centracji, o tyle brak tego przekształcenia znacząco zmodyfikuje uzyskane rezultaty.
Podsumowując w punktach kolejne kroki przygotowania danych do analizy
regresji, możemy wskazać, że należy:
 Podjąć decyzję dotyczącą centracji. Jeśli uznamy ją za konieczną, to albo odej-
mujemy od wartości zmiennej ilościowej obliczoną wcześniej wartość średniej
arytmetycznej, albo standaryzujemy zmienną ilościową. Zmienną jakościową
rekodujemy na wartości o tej samej odległości od 0, czyli wartości –1 oraz 1.
 Utworzyć składnik interakcyjny, mnożąc przekształcony predyktor i moderator.
Kolejnym etapem jest wprowadzenie do analizy regresji poszczególnych zmien-
nych niezależnych oraz składnika interakcyjnego. Skoro składnik interakcyjny
to iloczyn wartości predyktorów, to koreluje on silnie z każdym z predyktorów.
Wykonanie analizy regresji wymaga jednak braku korelacji między wprowadza-
nymi zmiennymi. Z problemem tym radzimy sobie w analizie interakcji, korzystając

z hierarchicznej analizy regresji. W pierwszym bloku zmiennych wprowadzamy

predyktory, których efekty można nazwać głównymi, a w drugim zaś umiesz-
czamy składnik interakcyjny. Analiza hierarchiczna pozwoli policzyć, o ile model
ze składnikiem interakcyjnym będzie lepiej dopasowany do danych niż efekty
główne poszczególnych zmiennych niezależnych. Wyniki odczytujemy identycz-
nie jak w zwykłej hierarchicznej analizie regresji, oglądając dopasowanie całego
modelu, procent wyjaśnianej wariancji, istotność predyktora, moderatora i skład-
nika interakcyjnego oraz istotność zmiany R2 wskazującej, czy przyrost wyjaśnia-
nej wariancji między modelem addytywnym (wyłącznie z efektami głównymi)
a modelem nieaddytywnym (z interakcją) jest znaczący (istotny statystycznie).
Uzyskanie istotnego efektu interakcyjnego nie jest niestety końcem procesu
obliczania wyników. Konieczne jest zrozumienie, na czym ten efekt polega. Proces
ten w sensie logicznym przypomina obliczanie średnich dla efektu interakcyjnego
w analizie wariancji. Jeśli moderator przyjmuje jedynie dwie wartości (np. płeć),
to wykonujemy dwie oddzielne analizy regresji w podziale na podgrupy (płciowe).
W zmiennych niezależnych w oknie analizy regresji umieszczamy ilościowy pre-
dyktor. Dzięki temu zabiegowi dowiadujemy się, jakie są wartości współczynników
beta dla obu podgrup. Ta ostatnia analiza pozwala na stwierdzenie, czy uzyskaliśmy
interakcję polegającą na tym, że siła relacji w obu grupach jest różna, czy też obie
grupy różnią się kierunkiem zależności. Możliwy jest też wariant polegający na
różnicy w zakresie siły oraz kierunku zależności. Niezbędne jest także wykonanie
wykresów rozrzutu, by wyeliminować wariant interakcji polegający na tym, że
w jednej grupie zależność jest prostoliniowa, podczas gdy w drugiej ma postać
krzywej. Na wykresie rozrzutu łatwiej będzie ten wariant zauważyć. Regresja może
wtedy pokazać brak zależności (nieistotny współczynnik beta).
gdy składnik interakcyjny jest istotny, czeka nas kolejny krok analiz:
 jeśli moderator jest jakościowy, wykonujemy regresje predyktora i zmiennej
zależnej w podziale na podgrupy, w których kryterium stanowią wartości
moderatora
 jeśli moderator jest ilościowy, musimy go skategoryzować – najlepiej na trzy
kategorie, by wykonać analizę w podgrupach.
Znacznie trudniejszym wariantem jest sytuacja, w której predyktor został zmie-

rzony na skali ilościowej. Niezbędne staje się wtedy przekształcenie moderatora na
zmienną kategorialną, czyli podział badanych na grupy pod kątem wartości mode-
ratora. Najczęściej punktami przecięcia są wtedy wartości jednego odchylenia poni-
żej średniej oraz jednego odchylenia powyżej średniej. Uzyskujemy wówczas trzy
grupy, dla których – analogicznie jak w poprzednim przypadku, wykonujemy regresje

jednozmiennowe, w których jako zmienną niezależną umieszczamy uwzględniany

predyktor ilościowy. Ponownie różnica może polegać na innej sile zależności lub
odmiennym kierunku relacji. Skoro już przedstawiłyśmy ogólny sens kolejnych kro-
ków analizy, przedstawmy teraz przykłady, na których będzie można prześledzić
w szczegółach sposób wykonania analiz w programie IBM SPSS Statistics.
interaKcja z dychotomicznym moderatorem
Aby zobrazować sposób wykonania analizy interakcji z wykorzystaniem dychotomicz-

nego predyktora, poddajmy analizie dane zawarte w pliku regr_int.sav poszukujące
predyktorów natężenia depresji w zależności od nasilenia nowych wrażeń oraz płci osób
badanych. Płeć w przypadku depresji jest niezwykle ważnym czynnikiem, ponieważ
wiele badań pokazuje, że to kobiety częściej zapadają na zaburzenia nastroju (Hyde,
Mezulis, Abramson, 2008). Zacznijmy od obejrzenia danych: zmienna płeć jest
kodowana wartościami 0 – kobieta oraz 1 – mężczyzna. Niezbędne będzie więc
zrekodowanie tej zmiennej, tak by miała wartości: –1 oraz 1. Wystarczy więc, że
wykorzystamy opcję rekodowania na te same zmienne i zmienimy wartość źródłową
0 na wartość wynikową 1. Wchodzimy w PRZEKSZTAŁCENIA–REKODUJ NA
Rysunek 6.1. Centrowanie zmiennej jakościowej płeć poprzez jej rekodowanie na wartości
–1 oraz 1

Rysunek 6.2. Sposób centrowania zmiennej wrażenia polegający na odniesieniu wyników

tej zmiennej do obliczonej wcześniej wartości średniej arytmetycznej w oknie OBLICZ
WARTOŚCI ZMIENNEJ
TE SAME ZMIENNE, wybieramy zmienną płeć i klikamy w przycisk WARTOŚĆI

ŹRÓDŁOWE I WYNIKOWE. Wprowadzamy parę wyników, klikamy DODAJ,
następnie DALEJ i potwierdzamy przyciskiem OK okno rekodowania (zob. rys. 6.1).
Teraz musimy wycentrować zmienną wrażenia. Możemy wybrać dwa warianty:
albo odejmujemy od zmiennej wrażenia wartość średniej, albo standaryzujemy tę
zmienną. Jeśli zdecydujemy się na odjęcie od wartości zmiennej wrażenia jej śred-
niej arytmetycznej, to najpierw musimy policzyć wartość średniej dla tej właśnie
zmiennej. Możemy to wykonać za pomocą okna dialogowego ANALIZA–OPIS
STATYSTYCZNY–STATYSTYKI OPISOWE, w którym umieszczamy zmienną
wrażenia. Po zatwierdzeniu polecenia przyciskiem OK zerkamy do edytora rapor-
tów, by odczytać wartość średniej – wynosi ona 12,05. Teraz przechodzimy do okna
dialogowego PRZEKSZTAŁCENIA–OBLICZ, wpisujemy w okienku ZMIENNA
WYNIKOWA nazwę tworzonej zmiennej – niech to będzie Cwrażenia, a w oknie
WYRAŻENIE NUMERYCZNE wprowadzamy zmienną wrażenia i odejmujemy
od niej wartość średniej, czyli 12,05. uWaGa! Ważne jest, by zapisując wartość
liczbową średniej, oddzielić kropką wartości dziesiętne. Tylko wtedy program
wykona operację odejmowania. Okno prezentujemy na rysunku 6.2.

Dzięki tej operacji powstanie nowa zmienna, która będzie wycentrowana. Nieco
łatwiej jest uzyskać centrowanie poprzez standaryzację zmiennej. W oknie dia-
logowym, które otwiera się po wyborze z górnego menu opcji ANALIZA–OPIS
STATYSTYCZNY–STATYSTYKI OPISOWE, możemy wybrać opcję ZAPISZ
STANDARYZOWANE WARTOŚCI JAKO ZMIENNE (zob. rys. 6.3), co pozwoli
na uzyskanie automatycznie wystandaryzowanej zmiennej o nazwie Zwrażenia,
bez konieczności samodzielnego obliczania średniej, odchylenia standardowego
i wprowadzania wyrażenia numerycznego w opcji OBLICZ.
Wycentrowaliśmy już obie zmienne niezależne, więc możemy przystąpić do two-
rzenia kolejnej zmiennej pomocniczej określającej wartości składnika interakcyj-
nego. Wracamy więc do opcji PRZEKSZTAŁCENIA–OBLICZ, wpisujemy nazwę
tworzonej zmiennej, może to być int_płeć_wrażenia, a następnie w oknie WYRAŻE-
NIE NUMERYCZNE wprowadzamy wycentrowane zmienne niezależne oddzie-
lone znakiem mnożenia (gwiazdką) (zob. rys. 6.4). Zróbmy składnik interakcyjny
obliczony z wykorzystaniem zmiennej wystandaryzowanej – czytelnik może ana-
logiczne wykonać drugą zmienną i porównać efekty obliczeń samodzielnie.
Skoro już przygotowaliśmy zmienne do wykonania analizy regresji, nie pozostaje
nic innego, jak przystąpić do dalszych obliczeń. Wykonujemy drugi krok – hierar-
chiczną analizę regresji, w której najpierw wprowadzamy predyktor i moderator,
a następnie składnik interakcyjny. Wchodzimy więc w górnym menu w opcję
ANALIZA–REGRESJA–LINIOWA i wybieramy z listy zmienne wrażenia oraz
płeć i przenosimy je do okna ZMIENNE NIEZALEŻNE. Deklarujemy zmienną
zależną, wybierając z listy zmienną depresja (rys. 6.5).
Klikamy przycisk NASTĘPNA, znajdujący się nad listą zmiennych niezależ-
nych, i okienko zmiennych niezależnych staje się puste, a napis nad nim informuje
Rysunek 6.3. Sposób przekształcenia zmiennej wrazenia na zmienną wystrandaryzowaną

Zwrazenia w oknie STATYSTYKI OPISOWE

Rysunek 6.4. Okno OBLICZ WARTOŚCI ZMIENNEJ z utworzonym składnikiem interakcyjnym,

powstałym z przemnożenia wycentrowanych predyktorów
W oknie ZMIENNE NIEZALEŻNE umieszczone zostały zmienne niezależne, które będą

wprowadzone do modelu regresji w pierwszym bloku.
Rysunek 6.5. Okno definiowania zmiennych i statystyk w REGRESJI LINIOWEJ

W oknie ZMIENNE NIEZALEŻNE umieszczony został składnik interakcyjny, który będzie

wprowadzany w drugim bloku.
Rysunek 6.6. Okno definiowania zmiennych i statystyk w REGRESJI LINIOWEJ
BLOK 2 Z 2. Umieszczamy teraz w oknie zmiennych niezależnych zmienną okre-

ślającą składnik interakcyjny int_płeć_wrażenia, która zostanie wprowadzona do
równania regresji w drugim bloku (rys. 6.6).
Pozostaje jeszcze wybrać odpowiednie opcje, by program policzył istotność
zmiany R2. Opcję tę znajdziemy pod przyciskiem STATYSTYKI. Teraz wystar-
czy już tylko potwierdzić chęć wykonania analizy przyciskiem OK i przejść do
wydruku w edytorze raportów.
Tabela 6.1. Statystyki dopasowania modeli regresji do danych ANALIZY WARIANCJI

Tabela 6.2. Współczynniki standaryzowane i niestandaryzowane dwóch modeli regresji

– pierwszego z efektami głównymi predyktorów oraz drugiego uwzględniającego
składnik interakcyjny
Zacznijmy od statystyk dopasowania w kolumnie z wynikami analizy warian-

cji w tabeli 6.1. Model dla efektów głównych nie uzyskał dobrego dopasowania,
ponieważ analiza wariancji nie jest istotna statystycznie, ale model uwzględnia-
jący interakcję okazał się być dobrze dopasowany do danych. To pierwszy sygnał,
że możemy mieć do czynienia z efektem interakcyjnym.
Ale dla upewnienia się oglądamy tabele ze WSPÓŁCZYNNIKAMI, w której
w pierwszej części znajdują się statystyki dla efektów głównych (pojedynczych
predyktorów), a w drugiej – także statystyki dla składnika interakcyjnego (zob.
tab. 6.2). Współczynnik standaryzowany regresji beta dla zmiennej int_płeć_wra- współczynnik
żenia jest istotny statystycznie, co wskazuje jednoznacznie, że obie zmienne wcho- standaryzowany
dzą ze sobą w interakcję. Niestety, jego wartość nie informuje w żaden sposób, na regresji beta
czym ta interakcja polega. By się tego dowiedzieć, trzeba wykonać dwie analizy
regresji dla obu grup płciowych oddzielnie.
Tabela 6.3. Statystyki R2 i zmiany R2 dla obu modeli z uwzględnieniem efektów głównych
oraz efektu interakcyjnego

Zanim jednak przejdziemy do ostatniego kroku analizy interakcji w regresji,

obejrzyjmy jeszcze STATYSTYKI ZMIANY w tabeli 6.3 (MODEL–PODSUMO-
WANIE). Odczytujemy statystykę ZMIANA R2 dla drugiego modelu. Statystyka
ta podaje wartość różnicy statystyki R2 między modelem drugim a pierwszym.
Ostatnia kolumna tej tabeli informuje nas także o istotności zmiany. W przypadku
interakcji liczby wrażeń i płci w ich wpływie na depresję zmiana R2 jest istotna
statystycznie i wynosi w zaokrągleniu 0,71. To bardzo wysoka wartość zmiany
wskazująca na to, że model ze składnikiem interakcyjnym w znacząco większym
stopniu wyjaśnia zróżnicowanie (wariancję) zmiennej zależnej.
Skoro składnik interakcyjny okazał się istotny, chcemy dowiedzieć się dokład-
nie, na czym on polega. Wykonujemy więc regresję dla zmiennej zależnej depresja,
w której predyktorem jest zmienna wrażenia, ale po uprzednim podziale osób bada-
nych na dwa podzbiory ze względu na zmienną płeć. Wchodzimy więc w górne
menu – w DANE–PODZIEL NA PODZBIORY, wybieramy PORÓWNAJ GRUPY,
a zmienną płeć umieszczamy w okienku GRUPY WYRÓŻNIONE NA PODSTA-
WIE (zob. rys. 6.7).
Potwierdzamy chęć podziału przyciskiem OK i wracamy do okna dialogo-
wego regresji, by wykonać analizę ponownie, tym razem z jednym tylko predyk-
torem. Najlepiej więc w oknie dialogowym regresji wyczyścić wszystkie wybrane
opcje przyciskiem RESETUJ, a następnie wybrać zmienną depresja i umieścić ją
w oknie ZMIENNA ZALEŻNA, a zmienną wrażenia w oknie ZMIENNE NIE-
ZALEŻNE. uWaGa! W regresji umieszczamy już zmienne niewycentrowane,
Rysunek 6.7. Okno PODZIEL DANE NA PODZBIORY ze zdefiniowaną zmienną definiującą

przynależność płciową badanych

Tabela 6.4. Współczynniki regresji osobno dla podgrup płciowych
ponieważ centracja zmienia wartości współczynników niestandaryzowanych

beta i nie moglibyśmy ich poprawnie zapisać. Po potwierdzeniu wyboru wszyst-
kich opcji klikamy przycisk OK i oglądamy wydruk w edytorze raportów. Tabele
na wydruku wskazują, że oba modele są dobrze dopasowane do danych, a tabele
współczynników podają wartości współczynników beta dla kobiet i mężczyzn. Na
ich podstawie możemy stwierdzić, że w grupie kobiet relacja między ilością wra-
żeń a depresją jest ujemna – im więcej wrażeń, tym mniejszy poziom depresji, ale
w grupie mężczyzn zależność ma odwrotny kierunek – im większa ilość wrażeń,
tym większa depresja (por. tab. 6.4).
Narysujmy jeszcze wykres rozrzutu, by zobrazować te relacje. By to zrobić,
musimy najpierw zrezygnować z podziału danych na podzbiory i w opcji DANE–
–PODZIEL NA PODZBIORY wybrać opcję ANALIZUJ WSZYSTKIE OBSER-
WACJE, NIE TWÓRZ GRUP. Teraz wchodzimy w WYKRESY–ROZRZUTU–
–PROSTY i wybieramy przycisk DEFINIUJ. Umieszczamy zmienną depresja na
osi Y, wrażenia na osi X, a płeć w oknie USTAW ZNACZNIKI WEDŁUG. Dzięki
tej ostatniej operacji program dwoma kolorami zaznaczy wyniki kobiet i męż-
czyzn. Gdy potwierdzimy wybór i przejdziemy do edytora raportów, warto klik-
nąć dwukrotnie wykres, by otworzyć edytora wykresów i dodać linie regresji
poprzez wybór w górnym menu ELEMENTY–LINIA DOPASOWANIA W POD-
GRUPACH. Wykres, który uzyskamy, powinien wyglądać mniej więcej tak jak
na rysunku 6.8. Pokazuje on dobitnie to, co wcześniej stwierdziliśmy na podsta-
wie współczynników regresji (beta): relacja dla mężczyzn jest silna i dodatnia,
a dla kobiet silna i ujemna.
Jak zapisać wyniki? Poniżej prezentujemy jedną z opcji:
Aby określić zależność płci i natężenie wrażeń oraz ich interakcji ze zmienną za-
leżną natężenie objawów depresyjnych wykonano analizę regresji ze składnikiem interak-
cji. Zmienne niezależne wycentrowano, przy czym w przypadku zmiennej wrażenia

Rysunek 6.8. Wykres rozrzutu obrazujący relację między zmienną wrażenia a zmienną
depresja w grupach płciowych
wybrano metodę centracji opartą na standaryzacji wyników zmiennej. Wykonana

hierarchiczna analiza regresji ze składnikiem interakcyjnym wykazała, że nie ma
zależność między płcią a natężeniem depresji beta = 0,12; p > 0,05 ani nie istnieje
zależności między natężeniem wrażeń a zmienną zależną beta = 0,02; p > 0,05, na-
tomiast ujawnił się istotny efekt interakcji beta = 0,84; p < 0,001. Model ze składni-
kiem interakcyjnym był dobrze dopasowany do danych F(3, 36) = 31,01; p < 0,001,
a wprowadzenie składnika interakcyjnego do modelu istotnie poprawiało procent
wyjaśnianej wariancji zmiennej zależnej o 71%.
Analiza związku zmiennej wrażenia w grupach wyodrębnionych ze względu na płeć
pokazała, że w grupie kobiet relacja ta jest silna i ujemna (beta = –0,78; p < 0,001),
a w grupie mężczyzn silna i dodatnia (beta = 0,94; p < 0,001). Oznacza to, że
u kobiet wysoka liczba wrażeń wiąże się z niską liczbą objawów depresji, podczas
gdy u mężczyzn relacja ta jest odwrotna: niska liczba wrażeń wiąże się z niskim
natężeniem objawów depresji. Oba modele były dobrze dopasowane do danych (dla
kobiet F(1, 18) = 27,04; p < 0,001, dla mężczyzn F(1, 18) = 133,42; p < 0,001)
i wyjaśniały wysoki procent wariancji zmiennej zależnej depresja (w grupie kobiet
R2 = 0,60, w grupie mężczyzn R2 = 0,88).

interaKcja z moderatorem ilościoWym
Analiza danych, w których zmienna niezależna i moderator są ilościowe, do pew-

nego etapu jest identyczna jak ta, w której moderator jest dychotomiczny. Tak jak
w poprzednim przypadku obie zmienne trzeba wycentrować. Operację tę można
wykonać na dwa sposoby: odejmując wartość średniej arytmetycznej od każ-
dego wyniku w danych lub też w sposób bardziej automatyczny – standaryzując
zmienne. W poniższym przykładzie prezentujemy ten ostatni sposób. Po wycen-
trowaniu zmiennych ilościowych, tak jak poprzednio tworzymy składnik interak-
cyjny, mnożąc przez siebie obie zmienne: moderator i zmienną niezależną. Tak
uzyskany składnik wprowadzamy w drugim kroku hierarchicznej analizy regresji.
Posługując się tymi wskazówkami, spróbujmy sprawdzić, czy kwota przezna-
czana na cele charytatywne jest zależna od dwóch czynników: zasobności mate-
rialnej oraz ocenianej ważności działalności charytatywnej. Można bowiem sądzić,
że osoby, które mają zasoby finansowe i jednocześnie wysoko oceniają ważności
angażowania się w działalność charytatywną, będą skłonne na tę właśnie działal-
ność przeznaczać największą kwotę w porównaniu z pozostałymi grupami. Aby
jednak przekonać się, czy rzeczywiście możemy mówić o interakcji między zasob-
nością osoby i ocenianą ważnością działalności charytatywnej, musimy wykonać
stosowne obliczenia. Pierwszym krokiem, zgodnie ze schematem postępowania
zarysowanym wyżej, jest wykonanie centracji zmiennych – niezależnej i modera-
tora. By tego dokonać, wchodzimy do okna ANALIZA–OPIS STATYSTYCZNY–
–STATYSTYKI OPISOWE. W oknie dialogowym tej analizy umieszczamy zmienną
Rysunek 6.9. Okno dialogowe STATYSTYKI OPISOWE z wybranymi zmiennymi cash i import
poddawanymi standaryzacji

Tabela 6.5. Dodatkowe zmienne powstałe w wyniku standaryzacji zmiennych cash i import
w edytorze danych
niezależną oraz moderator. Proszę pamiętać o zaznaczeniu opcji ZAPISZ STAN-

DARYZOWANE WARTOŚCI JAKO ZMIENNE (zob. rys. 6.9). W przeciwnym
wypadku otrzymamy jedynie standardowe statystyki opisowe w oknie edytora
raportów, ale wystandaryzowane zmienne nie zostaną zapisane w zbiorze danych.
Warto także sprawdzić – na wszelki wypadek, czy program IBM SPSS Stati-
stics wykonał zadane operacje. Zerkamy więc do edytora danych, czy na końcu
zbioru zostały dodane dwie kolumny z wystandaryzowanymi wynikami dla każ-
dej osoby badanej. Przypominamy, że po standaryzacji zmienne te otrzymały
w nazwach literę Z i teraz nazywają się Zcash oraz Zimport (zob. tab. 6.5).
Teraz mamy już przygotowane komponenty do obliczenia składnika interak-
cyjnego. Możemy więc przystąpić do jego obliczania w oknie dialogowym PRZE-
KSZTAŁCENIA–OBLICZ WARTOŚCI ZMIENNEJ (zob. rys. 6.10). Wprowadzamy
nazwę tworzonej zmiennej, najlepiej zaznaczając w nazwie, że mamy do czynienia
Rysunek 6.10. Fragment okna dialogowego OBLICZ WARTOŚCI ZMIENNEJ,

w którym tworzony jest składnik interakcyjny (zmienna int) poprzez przemnożenie
wystandaryzowanych zmiennych Zcash oraz Zimport

Tabela 6.6. ANALIZA WARIANCJI zawierająca statystyki dopasowania modelu

do danych dla dwóch modeli regresji: modelu efektów głównych oraz modelu
ze składnikiem interakcyjnym
ze składnikiem interakcyjnym. W tym przykładzie zmienna wynikowa została

nazwana int i powstanie poprzez przemnożenie wystandaryzowanych zmiennych
cash oraz import.
Jeśli utworzyliśmy z powodzeniem składnik interakcyjny (znowu warto to
sprawdzić, zerkając do danych), możemy przystąpić do analizy regresji. Ponieważ
poszukujemy interakcji drugiego stopnia (dwóch zmiennych), wprowadzamy
zmienne w dwóch krokach. W pierwszym kroku w analizie regresji umieszczamy
zmienną niezależną i moderator – powtórzmy jeszcze raz: nie ma znaczenia,
czy umieszczamy zmienne surowe czy też zmienne wycentrowane, ponieważ
w analizie regresji podczas obliczania współczynników beta zmienne są standary-
zowane. Po umieszczeniu zmiennych niezależnej i moderatora klikamy przycisk
NASTĘPNY – pojawia się puste okienko zmiennych niezależnych, w którym
możemy umieścić składnik interakcyjny. I jeszcze jedna ważna rzecz: by określić,
czy interakcja wyjaśnia zmienną zależną istotnie lepiej niż zmienna niezależna
i moderator samodzielnie, potrzebujemy dodatkowej statystyki – zmiany R2.
Znajdujemy ją w oknie analizy regresji pod przyciskiem STATYSTYKI.
Przejdźmy teraz do edytora raportów, by zapoznać się z wynikami. Standardowo
zaczynamy od wyników analizy wariancji, wskazującej na dopasowanie modelu do
danych. Ponownie analiza wariancji przedstawiana jest dla dwóch modeli – jednego
dla efektów głównych zmiennych niezależnych i moderatora oraz drugiego dla modelu
uwzględniającego efekt interakcyjny. Najważniejsze z naszego punktu widzenia jest
uzyskanie istotnego dopasowania modelu z interakcjami, więc sprawdzamy przede
wszystkim istotność drugiej analizy wariancji (zob. tab. 6.6). Analiza wariancji wska-
zuje, że model analizy regresji ze składnikiem interakcyjnym jest istotny F(3, 36)
=40,82; p < 0,001, co oznacza, że model jest dobrze dopasowany do danych.

Tabela 6.7. Współczynniki regresji dla dwóch modeli regresji z efektami głównymi
zmiennych oraz z efektem interakcyjnym
Teraz możemy zerknąć do tabeli ze współczynnikami regresji, by przekonać

się, czy składnik interakcyjny uzyskał istotny współczynnik regresji beta (zob.
tab. 6.7). Gdy zerkniemy w tabelę ze współczynnikami, zobaczymy, że zarówno
zmienna niezależna i moderator, jak i składnik interakcyjny okazały się istotne
statystycznie. Dla efektu interakcyjnego uzyskano współczynnik standaryzo-
wany beta wynoszący 0,38. Współczynnik beta dla efektu interakcyjnego musi
być istotny statystycznie, by uznać, że pojawia się interakcja zmiennych. Nie ma
jednak znaczenia interpretacyjnego w kategoriach siły i kierunku zależności, tak
jak beta dla zwykłych zmiennych. Niestety, na jego podstawie nie możemy wycią-
gnąć żadnych wniosków co do wyglądu interakcji, dlatego też jesteśmy zmuszeni
do wykonania dodatkowych analiz, by zrozumieć tę interakcję.
Zanim jednak przejdziemy do dodatkowych analiz pozwalających zrozumieć
interakcję, zerknijmy jednak do ostatniej ważnej tabeli MODEL–PODSUMO-
WANIE. Tabela 6.8 umożliwia sprawdzenie, czy przyrost wyjaśnianej wariancji
Tabela 6.8. Statystyki określające procent wariancji wyjaśnianej przez predyktory

w zmiennej zależnej R2 w tabeli MODEL–PODSUMOWANIE

jest istotny statystycznie. Sprawdzamy poziom istotności zmiany R2, by stwier-

dzić, o ile poprawia się przewidywanie zmiennej zależnej, gdy uwzględnimy inte-
rakcję w modelu. Jak widać w drugim wierszu w kolumnie zmiana R2 wynosi 0,14
i zmiana ta jest istotna F(1, 36) = 22,75; p < 0,001.
No i teraz pora na kolejny duży krok w analizie regresji z efektem interak-
cyjnym – wyjaśnienie, na czym ta interakcja polega. Mając dwie zmienne nie-
zależne ilościowe, musimy na podstawie jednej zmiennej podzielić osoby na
podgrupy i wykonać analizę regresji dla tych podgrup osobno. Powstaje jednak
podstawowe pytanie, jak dokonać tego podziału. Można wskazać wiele kryte-
riów, za pomocą których możemy podzielić badanych na grupy, należy bowiem
sobie odpowiedzieć na pytanie: ile grup wyodrębnić oraz na bazie jakiej staty-
styki? Badanych można podzielić na dwie albo na trzy podgrupy. Podział ten
może zostać przeprowadzony na podstawie wartości mediany, której wartość
dzieli badanych na dwie podgrupy poniżej wartości mediany oraz powyżej tej
wartości, albo tercyli, których wartości pozwalają wyodrębnić grupę o niskich
(poniżej pierwszego tercyla), przeciętnych (między pierwszym i drugim tercy-
lem) i wysokich (powyżej drugiego tercyla). Można także zastosować kryte-
ria sensowne z punktu widzenia teorii, na przykład dzieląc wiek osób na prze-
działy, zgodnie z typowym podziałem psychologii rozwojowej. Zwykle takie
przedziały są równe pod względem wartości zmiennej, na bazie której zostały
utworzone. Innym wariantem jest dokonanie podziału na cztery grupy, gdzie
punktami odcięcia grup jest odchylenie standardowe poniżej średniej, średnia
oraz odchylenie standardowe powyżej średniej.
Bardzo wygodnym oknem pozwalającym utworzyć na podstawie zmiennej
ilościowej zmienną porządkową dzielącą badanych na grupy jest opcja PRZE-
KSZTAŁCENIA–KATEGORYZACJA. Wróćmy do przykładu, by zaprezentować
sposób tworzenia zmiennej określającej przynależność do grupy o niskich lub
wysokich wartościach zmiennej wchodzącej w interakcję. Gdy szukamy inter-
akcji, najczęściej kategoryzacji podlega ta zmienna, która z punktu widzenia teo-
rii jest uznawana za moderator. Uznajmy, że w przykładzie dotyczącym przeka-
zywania pieniędzy na cele charytatywne moderatorem jest zmienna cash, okreś-
lająca posiadane przez badanego zasoby finansowe. A więc tę właśnie zmienną
przekształcimy na zmienną kategorialną – cash2, która będzie określała przy-
należność do dwóch grup o niskiej ocenianej ważności działań charytatywnych
oraz grupy o wysokiej ważności. Podziału dokonamy, posługując się wartością
mediany jako punktem podziału. Wchodzimy więc do górnego menu PRZE-
KSZTAŁCENIA–KATEGORYZACJA WIZUALNA, wybieramy zmienną cash
(zob. rys. 6.11).
W kolejnym oknie dialogowym, do którego przechodzimy, klikając przycisk
DALEJ, możemy wykonać kilka operacji (zob. rys. 6.12). Po pierwsze po kliknięciu

Rysunek 6.11. Okno wyboru zmiennych w KATEGORYZACJI WIZUALNEJ
zmiennej, która będzie aktualnie przekształcana, możemy zobaczyć histogram

obrazujący rozkład jej wartości, który ułatwia podjęcie decyzji co do kryterium
podziału i liczby punktów podziału. Na tym histogramie w postaci pionowych
kolorowych kresek zostaną także zaprezentowane punkty podziału po ich zde-
finiowaniu w oknie dialogowym znajdującym się pod przyciskiem PUNKTY
PODZIAŁU. Ale zanim do niego przejdziemy, musimy w okienku SKATEGO-
RYZOWANA znajdującym się poniżej okna WYBRANA ZMIENNA nazwać
zmienną, która powstanie w wyniku przekształcenia. Nazwijmy ją cash2.
Teraz zajmijmy się określeniem punktów podziału. Pod przyciskiem PUNKTY
PODZIAŁU można znaleźć trzy kryteria podziału: RÓWNE SZERKOŚCI PRZE-
DZIAŁÓW, RÓWNE PERCENTYLE oraz PUNKTY PODZIAŁU W ŚREDNIEJ
I ODCHYLENIACH STANDARDOWYCH (zob. rys. 6.13). Wyjaśnijmy teraz
zasadę każdego podziału, by dać czytelnikowi możliwość samodzielnego wyboru
kryterium.
Opcja RÓWNE SZEROKOŚCI PRZEDZIAŁÓW daje możliwość określenia
punktów podziału w wartościach zmiennej. Przykładowo, gdy chcemy wyznaczyć
grupy wiekowe obejmujące przedziały dziesięcioletnie, zaczynając od 18 roku życia,
to wykorzystamy właśnie opcję RÓWNE SZEROKOŚCI PRZEDZIAŁÓW, dzięki
czemu badani zostaną podzieleni na grupy 18–27 lat, 28–37 lat itd. Wpisujemy
wtedy wartość 10 w oknie SZERKOŚĆ PRZEDZIAŁÓW, a wartość 18 w oknie

PIERWSZY PUNKT PODZIAŁU. Program podpowiada, że do definicji przedzia-

łów wystarczy uzupełnienie dwóch pól – program wówczas sam obliczy liczbę
punktów przedziału, posługując się informacjami o zakresie wartości zmiennej.
Inna opcja to zaznaczenie pierwszego punktu podziału oraz następnie ich liczby
w oknie LICZBA PUNKTÓW PODZIAŁU. Program wówczas sam oszacuje, jak
szerokie powinny być przedziały (ile wartości zmiennej będą obejmowały), by
spełnić zadane przez użytkownika kryteria.
Kolejna możliwość to dokonanie podziału na równoliczne grupy. Program obli-
cza wtedy statystyki zwane kwantylami, do których zaliczamy przede wszystkim kwantyle
między innymi medianę, tercyle, kwartyle, decyle i percentyle. Aby wyjaśnić, jak kwartyle
podziały te są skonstruowane, posłużmy się przykładem mediany, która określa taką decyle
wartość zmiennej, że osób mających tę wartość i wszystkie niższe jest co najmniej percentyle
50% całej badanej grupy. Tę właśnie opcję wykorzystamy, dokonując podziału na
dwie równoliczne grupy. Wystarczy, że w oknie LICZBA PUNKTÓW PODZIAŁU
wpiszemy wartość 1. Podziałów możemy także dokonać, wpisując procent osób, jaki
ma się mieścić między punktami podziału, dzięki wyborowi opcji SZEROKOŚĆ
PRZEDZIAŁÓW (%).
W centrum znajduje się histogram obrazujący rozkład wartości zmiennej ilościowej poddawanej kategoryzacji.
Rysunek 6.12. Okno dialogowe KATEGORYZACJI WIZUALNEJ

I ostatnia możliwość – podział w wartości średniej i odchyleniach standardowych

poniżej i powyżej średniej. Ten typ podziału powoduje zawsze utworzenie czterech
grup. Zawsze tworzone są dwie grupy powyżej średniej i dwie poniżej, bo średnia jest
punktem podziału we wszystkich opcjach, które znajdują się w tej części okna dialo-
gowe punktów podziału. Możemy jednak zadecydować, jak daleko od średniej znajdą
się punkty podziału poniżej średniej i powyżej średniej. Wśród dostępnych opcji mamy
jedno odchylenie standardowe, dwa odchylenia standardowe oraz trzy odchylenia stan-
dardowe. Jedyny podział, który wydaje się sensowny do zastosowania w przypadku
poszukiwań interakcji, to ten oparty na średniej i jednym odchyleniu standardowym, bo
pozostałe poziomy tworzą bardzo nieliczne skrajne (pierwsze i ostatnie) grupy. Warto
bowiem pamiętać, że wyników o wartościach poniżej oraz powyżej trzech odchyleń
standardowych poniżej średniej będzie zaledwie ułamek procenta, a większość wyni-
ków znajdzie się w drugiej i trzeciej grupie. Wynika to z właściwości rozkładu normal-
nego (Bedyńska, Brzezicka, 2007). Ta znacząca nierównoliczność jest zasadniczym
problemem w przypadku większości testów statystycznych, a przy niewielkich liczeb-
nościach całej analizowanej próby może się okazać, że skrajne grupy okażą się puste.
Rysunek 6.13. Okno definiowania PUNKTÓW PODZIAŁU w oknie dialogowym

KATEGORYZACJI WIZUALNEJ

W TABELI WARTOŚCI I ETYKIET podana została wartość punktu podziału – tutaj mediany – równa 16 punktom.
Rysunek 6.14. Okno KATEGORYZACJI WIZUALNEJ po zdefiniowaniu punktów podziału
Skoro już wiemy, jak najłatwiej poradzić sobie z wytworzeniem podziału na

dwie grupy, przejdźmy do wykonania podziału opartego na wartości mediany. Kli-
kamy na przycisk PUNKTY PODZIAŁU, a następnie w oknie RÓWNE PERCEN-
TYLE wpisujemy jeden punkt podziału. Program podaje, że dzięki wprowadzeniu
tego jednego punktu podziału uzyskamy grupy po 50% przypadków każda. Po
zatwierdzeniu kryterium podziału przyciskiem ZASTOSUJ, wracamy do głów-
nego okna dialogowego KATEGORYZACJI WIZUALNEJ i możemy na histogra-
mie zobaczyć miejsce, w którym będzie wykonany podział oznaczony czerwoną
pionową linią. Wartość mediany zostanie podana także w TABELI WARTOŚCI
I ETYKIET (zob. rys. 6.14). Zatwierdzenie operacji przyciskiem OK powoduje
pojawienie się w danych nowej zmiennej cash2 o dwóch wartościach 1 dla wyni-
ków poniżej mediany oraz 2 dla wyników powyżej mediany.
Pora przystąpić do wykonania dwóch odrębnych analiz regresji w podziale na
podgrupy, gdzie kryterium wyodrębniania podgrup będzie zmienna cash2. Przypo-
mnijmy: będziemy poszukiwać związku między ocenianą przez badanych ważnością
działalności charytatywnej a wielkością datku na tę działalność, ale w dwóch podgru-
pach: osób o niższych dochodach (wartość 1 w zmiennej skategoryzowanej cash2)

Pamiętaj, by do okna GRUPY WYRÓŻNIONE NA PODSTAWIE wprowadzić zmienną

kategorialną cash2, a nie zmienną ilościową cash.
Rysunek 6.15. Okno PODZIEL DANE NA POZBIORY ze zdefiniowaną zmienną, która stanowi
kryterium podziału
oraz osób o wyższych dochodach (wartość 2 w zmiennej skategoryzowanej cash2).

Dokonajmy więc podziału na podzbiory. Wchodzimy do pozycji DANE w górnym
menu i wybieramy opcję PODZIEL DANE NA POZBIORY. Aby było nam wygod-
niej oglądać wydruki, wybierzmy spośród dostępnych tam możliwości PORÓWNAJ
GRUPY i umieśćmy w oknie GRUPY WYRÓŻNIONE NA PODSTAWIE: zmienną
cash2 (zob. rys. 6.15). Dzięki wyborowi opcji PORÓWNAJ GRUPY wszystkie wyniki
uzyskane w kolejnych analizach będą zestawione w jednej tabeli, dzielonej na dwie
części zgodnie z podziałem zdefiniowanym przez zmienną cash2. Taki układ wydruku
ułatwi zrozumienie wyników w podgrupach i interpretację analizowanej interakcji.
Teraz możemy wykonać analizę regresji z jednym predyktorem. Pamiętajmy,
że jeśli dokonujemy podziału na podzbiory na podstawie zmiennej cash2, to ta
zmienna nie może zostać wprowadzona jako predyktor w analizie regresji. Jedy-
nym predyktorem w tej analizie będzie druga zmienna niezależna – ważność dzia-
łalności charytatywnej import, zmienną zależną będzie wielkość datku – zmienna
given. Prawidłowy układ zmiennych w tej analizie prezentuje rysunek 6.16.
Po wprowadzeniu właściwych zmiennych, potwierdzamy chęć wykonania
analizy przyciskiem OK i uzyskujemy wydruki regresji dla dwóch grup osobno:
najpierw dla osób o niskiej ocenianej ważności wspierania działalności charyta-
tywnej, a następnie dla osób wysoko ceniących działalność charytatywną. Jak
zwykle przy oglądaniu wydruku analizy regresji, najpierw oceniamy, czy model

Rysunek 6.16. Sposób zadeklarowania zmiennych: zależnej given i niezależnej import

w analizie regresji
regresji został dobrze dopasowany do danych. Świadczy o tym istotność analizy

wariancji. W tabeli 6.9 zestawione zostały wyniki analizy wariancji osobno dla
osób o niższych dochodach (wartość 1 dla zmiennej cash2) oraz dla osób o wyż-
szych dochodach (wartość 2 dla zmiennej cash2).
Na podstawie wyników analizy wariancji możemy stwierdzić, że w przypadku
osób o niższych ocenach ważności działalności charytatywnej model regresji nie
został dobrze dopasowany do danych, ponieważ analiza wariancji okazała się nie-
istotna statystycznie F(1, 20)=0,65; p > 0,05. W przypadku drugiej analizowanej
Tabela 6.9. Wyniki analizy wariancji określającej dopasowanie modeli regresji do danych
osobno dla dwóch podgrup badanych

Tabela 6.10. Współczynniki standaryzowane i niestandaryzowane regresji dla dwóch

podgrup osób: o niższych i wyższych dochodach
grupy model regresji jest dobrze dopasowany do danych, na co wskazał istotny

wynik analizy wariancji F(1, 16)=18,32; p < 0,01. Teraz przechodzimy do tabeli
WSPÓŁCZYNNIKI, w której zamieszczone zostały surowe i standaryzowane
współczynniki regresji dla obu analizowanych modeli (zob. tab. 6.10).
Jak można się było spodziewać na podstawie wyników analizy wariancji, w przy-
padku osób o niższych dochodach współczynnik beta okazał się nieistotny staty-
stycznie, co sugeruje brak związku między ważnością działalności charytatywnej
w ocenie badanych oraz wielkością datku przeznaczonego na te cele (beta = 0,18;
p > 0,05). W drugiej grupie relacja ta jest istotna, silna i dodatnia (beta = 0,73;
p < 0,01), można więc śmiało powiedzieć, że im bardziej ktoś ceni działalność
charytatywną, tym wyższe kwoty przeznacza na te cele. Trzeba jednak pamię-
tać, że relacja ta jest ograniczona jedynie do grupy osób o wysokich dochodach.
Ostatnim krokiem jest zobrazowanie tej zależności na wykresie rozrzutu (zob.
rys. 6.17). Zanim wykonamy ten wykres, musimy koniecznie pamiętać o zdjęciu
podziału na podzbiory, bo inaczej nie będziemy mogli wykonać jednego wykresu
Rysunek 6.17. Górna część okna definiowania WYKRESU ROZRZUTU z wprowadzonymi

zmiennymi

Rysunek 6.18. Wykres rozrzutu obrazujący zależność między wielkością datków

przeznaczanych na cele charytatywne (zmienna given) oraz subiektywną oceną ważności
przeznaczania pieniędzy na te cele (zmienna import) w dwóch podgrupach: osób o niższych
i wyższych dochodach (zmienną cash)
rozrzutu dla obu grup. Teraz wchodzimy do górnego menu WYKRESY–ROZ-

RZUTU–PROSTY, a następnie klikamy przycisk DEFINIUJ i wybieramy odpowied-
nie zmienne: w oknie OŚ Y umieszczamy zawsze zmienną zależną, tutaj będzie to
zmienna given, w oknie OŚ X zawsze zmienną niezależną, a więc zmienną import,
a w oknie USTAW ZNACZNIKI WEDŁUG umieszczamy skategoryzowaną zmienną
cash2. Dzięki temu program odróżni na wykresie odmiennymi kolorami dane tych
osób, które należą do obu grup: niższych i wyższych dochodów.
Po zatwierdzeniu wszystkich operacji przyciskiem OK przechodzimy do okna
edytora raportów, by wykonać edycję WYKRES ROZRZUTU. Klikamy dwukrotnie
na wykres, otwiera się edytor wykresów i możemy zmienić wygląd wykresu. Kwestie
doboru kolorów tła, punktów oznaczających wyniki osób badanych pozostawiamy
gustowi czytelnika, natomiast najważniejszą opcją, jaką trzeba wykorzystać, jest wybór
w górnym menu ELEMENTY opcji LINIE DOPASOWANIA W PODGRUPACH
(lub kliknięcie odpowiadającej mu ikonki na pasku narzędzi ). Dzięki temu na
wykresie pojawią dwie linie regresji opisujące zależność w obu podzbiorach osób
badanych. Na wykresie są one przedstawione jako linia ciągła dla osób o niższych
dochodach oraz linia przerywana dla osób o wyższych dochodach (zob. rys. 6.18).

Wykonaliśmy już wszystkie obliczenia i na ich podstawie możemy stwierdzić,

że interakcja polega na tym, że u osób o niższych dochodach nie ma istotnego
statystycznie związku między ważnością przypisywaną działalności charytatyw-
nej a kwotą przeznaczaną na te cele, podczas gdy u osób o wysokich dochodach
im wyższa jest ważność działalności charytatywnej, tym przeznaczana na te cele
kwota datków jest większa. Pamiętajmy też, opisując wyniki, by w początkowej
części przedstawiającej użyte metody statystyczne dokładnie zaznaczyć, jakim
operacjom poddaliśmy zmienne niezależne – czy były one centrowane, a jeśli tak
to w jaki sposób. Te informacje są niezbędne czytelnikowi, żeby się zorientować,
jakie są potencjalne słabości użytej metody analizy.
Podsumujmy teraz wszystkie kroki analizy interakcji w analizie regresji, tak
by łatwo było się zorientować w tych licznych krokach:
 Ustalamy, które zmienne są zmiennymi niezależnymi i poddajemy je centra-
cji. Zmienne ilościowe przekształcamy w ten sposób, że od każdego wyniku
odejmujemy wartość obliczonej wcześniej średniej (PRZEKSZTAŁCENIA–
–OBLICZ WARTOŚCI) lub też standaryzujemy zmienną, odnosząc jej wyniki
do średniej w jednostkach odchylenia standardowego (ANALIZA–OPIS STA-
TYSTYCZNY–STATYSTYKI OPISOWE–ZAPISZ STANDRYZOWANE WAR-
TOŚCI JAKO ZMIENNE). Zmienne dychotomiczne musimy zrekodować, tak
by przyjmowały wartości –1 oraz 1 (PRZEKSZTAŁCENIA–REKODUJ NA
INNE ZMIENNE).
 Tworzymy składnik interakcyjny, mnożąc przez siebie wycentrowane zmienne
niezależne (PRZEKSZTAŁCENIA–OBLICZ WARTOŚCI).
 Wykonujemy hierarchiczną analizę regresji, umieszczając w pierwszym bloku
zmiennych zmienne niezależne (wycentrowane lub nie – nie ma to znaczenia),
a następnie w kolejnym bloku utworzony składnik interakcyjny (REGRESJA
LINIOWA).
 Jeśli składnik interakcyjny jest nieistotnym predyktorem zmiennej zależnej,
uznajemy, że nie ma interakcji. Jeśli składnik interakcyjny jest istotny staty-
stycznie, wykonujemy kolejne kroki, by zinterpretować interakcję.
 Jedną ze zmiennych niezależnych przekształcamy w zmienną kategorialną
(KATEGORYZACJA WIZUALNA).
 Wykonujemy analizę regresji między drugą zmienną niezależną a zmienną
zależną w podziale na podzbiory z punktu widzenia tej zmiennej, która została
poddana kategoryzacji (PODZIEL NA POZDBIORY, a następnie REGRESJA
LINIOWA). Interakcja może polegać na tym, że w kolejnych podgrupach
zależność będzie coraz silniejsza, ale będzie miała ten sam znak (zobacz
przykład powyżej), lub też w kolejnych podgrupach zmieniać się będzie
zarówno siła, jak i znak zależności między zmiennymi.

interaKcja trzech zmiennych
W bardzo podobnych krokach będzie przeprowadzana analiza interakcji, w któ-

rej chcemy uwzględnić trzy zmienne niezależne. Pierwszym krokiem będzie pod-
jęcie decyzji o zastosowaniu centracji. Następnie, po wycentrowaniu zmiennych,
musimy utworzyć szereg składników interakcyjnych, podobnie jak to można było
zobaczyć w trójczynnikowej analizie wariacji. Załóżmy, że do powyższego przy-
kładu, w którym po stronie zmiennych niezależnych uwzględnialiśmy zmienne:
ważność działalności charytatywnej oraz zarobki respondenta, dołożymy jesz-
cze jedną zmienną: płeć osób badanych. Wtedy musimy utworzyć następujący
zestaw dodatkowych zmiennych pomocniczych pozwalających oszacować inte-
rakcje zmiennych niezależnych:
 interakcja płci i ważności
 interakcja płci i zarobków
 interakcja zarobków i ważności
 interakcja zarobków, płci i ważności.
Widać zatem wyraźnie, że wraz ze zwiększaniem liczby zmiennych niezależ-
nych rośnie znacząco liczba tworzonych składników interakcyjnych. O ile jeszcze
dla trzech zmiennych niezależnych wyniki są do ogarnięcia przeciętnym umysłem,
o tyle dla czterech zmiennych niezależnych liczba składników interakcyjnych tak
wyraźnie rośnie, a poszukiwanie interpretacji wyników staje się tak skompliko-
wane, że nie sposób już tego ogarnąć. Zalecamy więc wykonywanie w regresji co
najwyżej interakcji trzech zmiennych niezależnych.
Po utworzeniu wymienionych wyżej składników interakcyjnych przeprowa-
dzamy analizę regresji w trzech blokach: w pierwszym wprowadzamy zmienne nie-
zależne, w drugim składniki interakcyjne dwóch zmiennych, a w trzecim składnik
interakcyjny wszystkich zmiennych. Pamiętajmy o wyborze statystyki ZMIANA
R2 pod przyciskiem STATYSTYKI, by móc oszacować, czy wprowadzenie kolej-
nego składnika interakcyjnego powoduje znaczący wzrost wyjaśnianej zmienno-
ści (wariancji) zmiennej zależnej.
Gdy już mamy wykonaną hierarchiczną analizę regresji i uzyskamy istotny
efekt interakcji wszystkich trzech zmiennych, to musimy się trochę nabiedzić, by
uzyskać informacje niezbędne do stworzenia interpretacji wyników. Po pierw-
sze wybieramy najważniejszą ze zmiennych niezależnych i tę zmienną będziemy
wprowadzać jako pojedynczy predyktor w analizie regresji. W powyższym przy-
kładzie taką zmienną była ważność przypisywana działalności charytatywnej.
Pozostałe zmienne będą stanowiły podstawę do podziału na podzbiory. Zmienną
zarobki trzeba będzie zdychotomizować, a następnie obie zmienne: dychotomizo-
wane zarobki (podział na niższe i wyższe zarobki) oraz płeć umieszczamy w oknie
PODZIEL NA PODZBIORY. Dzięki temu wykonana następnie analiza regresji

dla zmiennej zależnej wielkość datku oraz zmiennej niezależnej ważność zostanie
przedstawiona osobno dla czterech podgrup: kobiet o niskich zarobkach, kobiet
o wysokich zarobkach i analogicznie dla mężczyzn o niskich i wysokich zarob-
kach. Dowiemy się, czym się różni ta relacja w poszczególnych podgrupach – kie-
runkiem, znakiem czy obydwoma parametrami opisującymi relacje zmiennych
ilościowych.
poszuKiWanie interaKcji między zmiennymi

jaKościoWymi o WięKszej liczBie Wartości niż dWie
Osobnym przypadkiem jest taka sytuacja, gdy chcemy wykonać analizę interakcji
dla zmiennych, które są jakościowe, ale mają więcej niż dwie wartości. Zmuszeni
jesteśmy wtedy dokonać bardziej złożonych przekształceń w procesie przygotowy-
wania zmiennych niezależnych do wykonania analizy regresji ze składnikiem inte-
rakcyjnym. Zanim przygotujemy dodatkową zmienną kodującą składnik interak-
cyjny, potrzebujemy zastąpić zmienne wielokategorialne na pomocnicze zmienne
dychotomiczne (dummy variables, zob. rozdz. 4). Ten proces niestety powoduje, że
liczba zmiennych niezależnych znacząco rośnie i rośnie także liczba składników
interakcyjnych, które trzeba utworzyć. Z tego też powodu nie polecamy wyko-
rzystywania tej metody, gdy obie zmienne niezależne są jakościowe. W takiej
sytuacji wykorzystywanie analizy regresji jest pracochłonne, a i tak przyniesie te
same rezultaty co analiza wariancji. Zastosowanie tej ostatniej będzie dużo bar-
dziej wiarygodne, gdyż będziemy pewni, że nie popełniliśmy gdzieś błędu, prze-
kształcając zmienne w procesie tworzenia składników interakcyjnych. Gdy tylko
jedna zmienna jest kategorialna i ma przykładowo trzy wartości, musimy utwo-
rzyć dwie zmienne pomocnicze (dummy). W tej sytuacji musimy utworzyć trzy
składniki interakcyjne drugiego stopnia (dwóch zmiennych niezależnych) oraz
jeden składnik interakcyjny trzeciego stopnia. Sytuacja robi się więc dość skom-
plikowana. Wraz ze wzrostem liczby kategorii zmiennej niezależnej rośnie dra-
matycznie złożoność analiz. Trzeba więc się zastanowić, czy nie lepiej połączyć
pewne kategorie razem, by zredukować ich liczbę. Alternatywnie można poddać
redukcji do zmiennej porządkowej zmienną niezależną ilościową i wykonać ana-
lizę wariancji z efektami interakcyjnymi. To wydaje się prostszym rozwiązaniem.
podsumoWanie
Poszukiwanie interakcji w analizie regresji choć możliwe, jest dość skompliko-
wane. Wymaga przygotowania wielu zmiennych pomocniczych – wycentrowanych
zmiennych niezależnych oraz zmiennej definiującej wartości składnika interakcyj-
nego. Analiza regresji powinna wtedy zostać wykonana w kolejnych blokach, bo

predyktory i składnik interakcyjny są silnie skorelowane – składnik interakcyjny

jest przecież kombinacją wartości predyktorów, więc niezbędne jest kontrolowa-
nie tej zależności przez zastosowanie hierarchicznej analizy regresji. Uzyskanie
istotnego współczynnika beta dla składnika interakcyjnego nie kończy obliczeń
– interpretacja interakcji wymaga wykonania regresji w podgrupach wyodrębnio-
nych na podstawie jednego z predyktorów. Sytuacja komplikuje się znacząco wraz
z każdym predyktorem, szczególnie gdy jeden z predyktorów jest jakościowy i ma
więcej niż dwie wartości. Wykonanie całej analizy wymaga wówczas dodatko-
wego utworzenia dychotomicznych zmiennych pomocniczych kodujących war-
tości zmiennej jakościowej. W takim przypadku należy rozważyć, czy nie lepiej
zredukować ilościowy predyktor do porządkowego i wykonać wieloczynnikową
analizę wariancji z efektami interakcyjnymi. Należy też pamiętać, że ogranicze-
niem dla mocy analizy regresji jest liczba badanych osób. Przy małej liczebności
analiza wariancji stanowi lepszą alternatywę niż analiza regresji.
Z całą pewnością jednak ten typ analiz należy rekomendować w naukach spo-
łecznych wówczas, gdy zmienne niezależne są ilościowe. Podstawowym błędem
wielu badaczy jest zakładanie, że efekty oddziaływania predyktorów są nieza-
leżne i przypominają swoją logiką efekty główne w analizie wariancji. Jeśli nie
uwzględniamy interakcji w analizie regresji, to nie dajemy sobie szansy na ujawnie-
nie bardziej złożonych, a przez to ciekawszych, efektów interakcyjnych. A zmien-
nych, które są potencjalnymi moderatorami, zwykle jest dość dużo. Należą do
nich choćby najczęściej mierzone zmienne demograficzne: wiek i płeć. Każda z nich
może wchodzić w ciekawe interakcje z wieloma innymi właściwościami psycholo-
gicznymi, a ich testowanie w regresji jest najbardziej odpowiednie.
Ważnym argumentem na rzecz analizy moderacji w regresji jest dopasowa-
nie analizy do danych. Często zdarza się, że zmienne ilościowe są redukowane
do porządkowych poprzez kategoryzację, by można je było testować w anali-
zie wariancji. Taki zabieg ma jednak liczne wady. Taka redukcja bywa głupotką
przede wszystkim z tego powodu, że osoby o podobnych wynikach są przydzie-
lane do innych grup (osoba 29-letnia może należeć do grupy młodych dorosłych,
a już 30-letnia do grupy średnich dorosłych), redukcja zmiennej ilościowej do
porządkowej obniża także precyzję pomiaru, a tym samym utrudnia wykazanie
zależności. Ten ostatni argument wyraźnie przemawia na korzyść analizy regresji.

Czêœæ II
MODELOWANIE
STRUKTURALNE

część ii
modelowanie
strukturalne
rozdział
Modele strukturalne
zmiennych obserwowalnych 7
• specyfikację modelu strukturalnego zmiennych

obserwowalnych
• metody estymacji modeli strukturalnych
• sposoby oceny jakości modelu
• interpretację parametrów modelu.

WproWadzenie
Modelowanie strukturalne służy do analizy struktury oraz siły liniowych zależ-
ności pomiędzy badanymi zjawiskami. Prostym przykładem modelu struktural-
nego jest model regresji, omawiany w rozdziale 1, który opisuje liniową zależność
zmiennej objaśnianej od zmiennych objaśniających i składnika losowego.
Punktem wyjścia do modelowania strukturalnego powinna być zawsze teo-
ria dotycząca badanego zjawiska. To właśnie ona stanowi podstawę do określe-
nia zmiennych uwzględnianych w modelu i ich wzajemnych zależności. Modelo-
wanie strukturalne umożliwia analizę zależności przyczynowo-skutkowych – tak
jak regresja, ale również zależności korelacyjnych. Model to zestaw równań regre-
sji oraz korelacji pomiędzy zmiennymi. Może być prezentowany w postaci wzo-
rów albo za pomocą schematu graficznego.
Na podstawie struktury zależności oraz parametrów opisujących ich siłę (np.
korelacji i współczynników regresji) można wyprowadzić teoretyczną postać macie-
macierz rzy wariancji-kowariancji zmiennych użytych w modelu. Macierz wariancji-kowa-
wariancji-kowariancji riancji zawiera wariancje poszczególnych zmiennych na przekątnej oraz kowariancje
pomiędzy nimi poza przekątną. Kowariancje to niestandaryzowane odpowiedniki
współczynników korelacji. Szacowanie parametrów modelu polega na takim ich
dobraniu, by teoretyczna macierz wariancji-kowariancji wynikająca z modelu była
jak najbardziej zbliżona do obserwowanej macierzy wariancji-kowariancji. Jeśli mimo
wybrania najlepszych pod tym względem parametrów rozbieżność pomiędzy macie-
rzą teoretyczną a empiryczną jest duża, model należy odrzucić jako nieznajdujący
potwierdzenia w danych. W sytuacji gdy obie macierze są do siebie wystarczająco
podobne, można przyjąć model wraz ze stojącą za nim teorią i przystąpić do inter-
pretacji parametrów opisujących kierunek i siłę potwierdzonych zależności. W przy-
padku odrzucenia modelu metodologia modelowania strukturalnego oferuje wska-
zówki mówiące, jak zmienić model, aby osiągnąć lepsze dopasowanie do danych.
Wskazówki te obejmują zarówno usunięcie, jak i dodanie parametrów. Korzystanie
z nich wymaga jednak dużej dozy ostrożności, bo stosowane bezkrytycznie mogą
doprowadzić do powstania modelu, który wprawdzie dobrze odwzorowuje bieżący
zbiór danych empirycznych, ale nie będzie dobrze opisywał kształtowania się bada-
nych zjawisk w populacji. Stąd warto powtórzyć raz jeszcze, że budując i modyfi-
kując model strukturalny, należy zawsze w pierwszej kolejności kierować się teorią.
Modelowanie strukturalne to narzędzie do analizy zmiennych ciągłych. Czę-
sto jednak używa się go również do analizy zmiennych porządkowych. W takim
wypadku należy zadbać, by stosowane skale były jak najdłuższe.
zmienne obserwowalne Zmienne występujące w modelach strukturalnych można podzielić na obserwo-
i nieobserwowalne walne i nieobserwowalne. Pierwsze z nich to takie, które znajdują się w zbiorze danych.
Wśród zmiennych nieobserwowalnych można wyróżnić składniki losowe (reszty),

rozdziaŁ 7 Modele strukturalne zmiennych obserwowalnych 163
opisujące tę część zmienności modelowanych zjawisk, której nie wyjaśniają inne

zmienne modelu. Pozostałe zmienne nieobserwowalne to zmienne opisujące badane
zjawiska, które ze względu na swą naturę wymagają bardziej złożonego pomiaru.
Większość zmiennych stosowanych w naukach społecznych ma taki właśnie charakter.
W tym rozdziale omówimy modele strukturalne zmiennych obserwowalnych,
w których występują zmienne obserwowalne i ewentualnie składniki losowe. Naj-
prostszym przedstawicielem tej grupy modeli jest regresja liniowa. Uwzględnienie
korelacji, możliwe w modelowaniu strukturalnym, pozwala przezwyciężyć pro-
blem współliniowości, często spotykany w tej grupie modeli. Polega on na tym,
że błędy szacunku parametrów są zawyżone w wyniku zbyt silnego skorelowa-
nia zmiennych i w rezultacie istotne zmienne wydają się nieistotne. Dzięki mode-
lowaniu strukturalnemu można ponadto analizować nie tylko bezpośrednie, ale
i pośrednie relacje pomiędzy zmiennymi i szacować modele wielorównaniowe.
Modelom ze zmiennymi nieobserwowalnymi, których najprostszym przedstawi-
cielem jest model analizy czynnikowej, poświęcimy odrębny rozdział. Większość
zagadnień, które omówimy w bieżącym rozdziale, zwłaszcza estymacja i ocena
jakości modelu, jest uniwersalna dla całego modelowania strukturalnego.
modelowanie strukturalne pozwala analizować postulowane przez teorię zależ-

ności pomiędzy badanymi zjawiskami. model strukturalny składa się ze zmien-
nych: ciągłych, ewentualnie porządkowych oraz z liniowych zależności pomiędzy
nimi. Zmienne te mogą być obserwowalne lub nieobserwowalne, a zależności
– przyczynowo-skutkowe bądź kowariancyjne. Na model strukturalny może się
składać wiele równań.
Przed rozpoczęciem nauki warto, aby czytelnik zapoznał się ze stosowanym

przez nas narzędziem, w którym szacuje się modele strukturalne, czyli IBM SPSS
Statistics Amos. Krótkie wprowadzenie znajduje się w rozdziale 10.
specyFiKacja modelu struKturalnego

zmiennych oBserWoWalnych
Model strukturalny najwygodniej jest opisać graficznie, rysując wykres ścież- wykres ścieżkowy
kowy. Jego elementy symbolizują odpowiednie składniki modelu strukturalnego.
Zmienne obserwowalne są przedstawiane jako prostokąty, nieobserwowalne zaś
jako elipsy. W modelach zmiennych obserwowalnych elipsami oznacza się tylko
składniki losowe. Zależność przyczynowo-skutkową symbolizuje strzałka skiero-
wana od zmiennej niezależnej do zmiennej zależnej w danej relacji. Łuk obustron-
nie zakończony strzałką odpowiada zaś kowariancji, czyli niestandaryzowanej kowariancje

164 Część II ModeloWANIe STRuKTuRAlNe
korelacji. Wskazuje on na zależność pomiędzy dwiema zmiennymi, która nie ma

charakteru przyczynowo-skutkowego.
Każdy z tych elementów jest lub może być powiązany z parametrem modelu.
Każda strzałka odpowiada jednemu współczynnikowi ścieżkowemu. Parametr ten
współczynnik ścieżkowy opisuje kierunek i siłę relacji przyczynowo-skutkowej. Współczynnikami ścież-
kowymi są współczynniki regresji β, znane z rozdziału 1. Podobnie parametrem
powiązanym z łukiem zakończonym strzałkami z obu stron jest współczynnik
kowariancji. Poza tym dla zmiennych, które wyłącznie objaśniają w modelu inne
zmienne, ale same nie są przez inne zmienne wyjaśniane (na rysunku strzałki
tylko z nich „wychodzą”), szacowane są wariancje, zwłaszcza wariancja reszt.
Zagadnienia poruszane w tym rozdziale zostaną zilustrowane za pomocą mo-

deli, w których zadowolenie z życia jest wyjaśniane dzięki zmiennym mierzącym
satysfakcję z różnych jego aspektów. Dane pochodzą z badania zatytułowanego
Diagnoza społeczna przeprowadzonego w 2009 roku (Rada Monitoringu Społecz-
nego 2009). Poszczególne zmienne oznaczają:
 życie – ocena całego życia
 zdrowie – zadowolenie ze stanu swojego zdrowia
 finanse – zadowolenie z sytuacji finansowej własnej rodziny
 małżeństwo – zadowolenie z małżeństwa
 dzieci – zadowolenie z dzieci
 osiągnięcia – zadowolenie ze swoich osiągnięć życiowych.
Zmienna życie mierzona jest na skali 7-stopniowej (1 – okropne, 7 – wspaniałe),
a pozostałe zmienne w skali 6-stopniowej (1 – bardzo niezadowolony, 6 – bardzo
zadowolony).
Rysunek 7.1 przedstawia wykres ścieżkowy dla modelu regresji wielorakiej,
gdzie zadowolenie z życia jest objaśniane przez zadowolenie z własnych osiągnięć,
dzieci, małżeństwa, finansów i swojego stanu zdrowia.

Rysunek 7.1. Wykres ścieżkowy dla modelu regresji wielorakiej
Wszystkie te zmienne są obserwowalne – występują w zbiorze danych, a więc

na rysunku 7.1 oznaczono je prostokątami. Zmienną objaśnianą jest ocena całego
życia, a pozostałe zmienne są zmiennymi objaśniającymi. Widoczne strzałki pro-
wadzące od każdej ze zmiennych objaśniających do zmiennej życie odpowiadają
nieznanym współczynnikom ścieżkowym, które w tym przypadku są po prostu
współczynnikami regresji β. Na rysunku znajduje się jedna zmienna nieobserwo-
walna, oznaczona elipsą i oznaczona jako e. Jest to składnik losowy (zwykle ozna-
czany przez ε), czyli reszta w analizowanym modelu regresji. W modelu regresji
przy składniku losowym ε nigdy nie stoi żaden parametr – to tak, jakby stała przy
nim liczba 1. Wobec tego w modelu strukturalnym nad strzałką łączącą zmienne e
oraz życie jest liczba 1. Oprócz współczynników ścieżkowych szacowanymi parame-
trami są wariancje zmiennych objaśniających oraz wariancja składnika losowego,
czyli reszt. W modelu nie ma korelacji. Składnika losowego i zmiennych objaśnia-
jących nie łączą żadne strzałki ani łuki. Jest to równoznaczne ze standardowymi
założeniami przyjmowanymi w regresji liniowej o nieskorelowaniu zmiennych
objaśniających między sobą oraz ich nieskorelowaniu ze składnikiem losowym.
Gdyby ten sam model zapisać formalnie, wyglądałby następująco:
życie = g1zdrowie + g2finanse + g3małżeństwo + g4dzieci + g5osiągnięcia + e. (1)
Niestety, w przypadku omawianego modelu istnieje niewielka szansa na speł-

nienie założenia o nieskorelowaniu zmiennych objaśniających. Modelowanie struk-
turalne pozwala jednak rozważyć znacznie bardziej złożoną strukturę zależności
pomiędzy badanymi zmiennymi. Rysunek 7.2 obrazuje bardziej złożony model,
w którym zadowolenie z życia jest objaśniane przez zadowolenie z osiągnięć,
małżeństwa, finansów i stanu własnego zdrowia, natomiast nie jest objaśniane
bezpośrednio przez zadowolenie z dzieci. To ostatnie, podobnie jak zadowolenie

Rysunek 7.2. Wykres ścieżkowy dla modelu ścieżkowego ze zmiennymi obserwowalnymi
z finansów, wpływa jednak na zadowolenie z własnych osiągnięć i małżeństwa.

Zadowolenie z finansów jest ponadto skorelowane z zadowoleniem ze stanu wła-
snego zdrowia.
Tak jak poprzednio, wszystkie zmienne w modelu są obserwowalne, a główną
zmienną objaśnianą jest ocena całego życia. Teraz jednak, oprócz podmodelu
opisującego kształtowanie się oceny całego życia, możemy wyróżnić podmodele
opisujące zadowolenie z małżeństwa i ze swoich osiągnięć. Zmiennymi objaśnia-
nymi są więc zmienne: życie, małżeństwo i osiągnięcia. Każdą z nich, oprócz innych
zmiennych, objaśnia odpowiadający jej modelowi składnik losowy, odpowiednio
e1, e2 oraz e3. Tak jak w regresji liniowej, przy składniku losowym nie stoi żaden
parametr, co ilustruje cyfra 1 nad odpowiednimi strzałkami. W modelu struktu-
ralnym każda zmienna objaśniana musi mieć swój składnik losowy ze względu na
to, że żaden model nie wyjaśnia w 100% zmiennej objaśnianej. Zmiennymi obja-
śniającymi, które nie są objaśniane przez inne zmienne, są zdrowie, finanse i dzieci,
przy czym założono, że zdrowie i finanse są ze sobą skorelowane. W związku z tym
szacowane parametry to: dziewięć współczynników ścieżkowych, jedna kowarian-
cja, trzy wariancje składników losowych i trzy wariancje obserwowalnych zmien-
nych objaśniających. Formalny zapis modelu byłby następujący:
życie = g11zdrowie + g12finanse + g13małżeństwo + g14osiągnięcia + e1

małżeństwo = g22finanse + g25dzieci + e2 (2)
osiągnięcia = g32finanse + g33małżeństwo + g35dzieci + e3
cov(zdrowie, finanse) = φ12

interpretacja parametróW
model regresji WieloraKiej
Interpretacja parametrów w modelu strukturalnym odpowiadającym regresji wielora-

kiej przebiega analogicznie jak w modelu regresji wielorakiej szacowanym w zwykły
sposób. Jak wiadomo z rozdziału 1, interpretacji w modelu regresji wielorakiej pod-
legają niestandaryzowane i standaryzowane współczynniki regresji, które – mówiąc
językiem modelowania strukturalnego, nazywamy współczynnikami ścieżkowymi.
niestandaryzowane współczynniki ścieżkowe informują, o ile jednostek zmieni

się wartość zmiennej objaśnianej, gdy wartość danej zmiennej objaśniającej wzro-
śnie o jedną jednostkę.
Współczynniki standaryzowane opisują natomiast, o ile swoich odchyleń stan-
dardowych zmieni się wartość zmiennej objaśnianej, gdy wartość zmiennej obja-
śniającej wzrośnie o jedno jej odchylenie standardowe.
Interpretacje te obowiązują tylko wówczas, gdy wartości pozostałych zmien-

nych objaśniających pozostają niezmienione. Wartości współczynników opi-
sują więc kierunek (dodatni/ujemny) oraz siłę wpływu zmiennej objaśniającej na
zmienną objaśnianą. Siłę wpływu na zmienną objaśnianą można porównywać
pomiędzy zmiennymi objaśniającymi tylko za pomocą współczynników standa-
ryzowanych. Wartości współczynników niestandaryzowanych zależą bowiem od
jednostek, w których mierzone są te zmienne.
Interesująca jest również wariancja składnika losowego oraz wartość współ-
czynnika R2.
Wariancja składnika losowego to parametr, który informuje nas o tym, ile warian-
cji zmiennej objaśnianej nie zostało wyjaśnionych przez model.
Współczynnik korelacji wielokrotnej R2 opisuje procent tej wariancji wyjaśnianej
przez zmienne objaśniające.
IBM SPSS Statistics Amos domyślnie prezentuje tylko niestandaryzowane

oszacowania parametrów ścieżkowych i wariancji. Zaznaczmy opcję STANDAR-
DIZED ESTIMATES w zakładce OUTPUT okna ANALYSIS PROPERTIES, aby
uzyskać oszacowania standaryzowane (zob. rys. 7.3). Wartość współczynnika kore-
lacji wielokrotnej, czyli R2, uzyskamy, zaznaczając dodatkowo opcję: SQUARED
MULTIPLE CORRELATIONS.

Rysunek 7.3. Zamówienie oszacowań standaryzowanych i współczynników korelacji

wielokrotnej
W tabelach 7.1 pokazano wszystkie fragmenty wydruków IBM SPSS Statistics

Amos potrzebne do dokonania interpretacji modelu przedstawionego na rysunku 7.1.
Model z rysunku 7.1 wraz z niestandaryzowanymi oszacowaniami jego parametrów
przedstawia rysunek 7.4.
Formalny zapis oszacowanego modelu opisanego równaniem (1) jest następujący:
^
życie = 0,06•zdrowie + 0,13•finanse + 0,31•małżeństwo + 0,01•dzieci + 0,14•osiągnięcia +^
e. (3)
(0,005) (0,005) (0,007) (0,006) (0,008)
Oto interpretacja niestandaryzowanych współczynników tego modelu. Zgodnie

z uzyskanymi oszacowaniami ocena stanu własnego zdrowia wyższa o jeden stopień
na odpowiadającej mu skali przekłada się na ocenę całego życia wyższą o 0,06
stopnia na jej skali. I odpowiednio – jeżeli zadowolenie ze stanu finansów własnej
rodziny jest ocenione o jeden stopień wyżej, to ocena całego życia jest wyższa o 0,13.

Tabele 7.1. Oszacowania modelu przedstawionego na rysunku 7.1
RegReSSIoN WeIgHTS (group number 1 – default model)

Variable Estimate SE CR P Label
życie finanse ,128 ,005 24,203 ***

życie zdrowie ,058 ,005 10,869 ***
życie małżeństwo ,313 ,007 46,749 ***
życie osiągnięcia ,143 ,006 22,740 ***
życie dzieci ,011 ,008 1,323 ,186
STANdARdIzed RegReSSIoN WeIgHTS (group number 1 – default model)

Variable Estimate
życie finanse ,184

życie zdrowie ,083
życie małżeństwo ,356
życie osiągnięcia ,173
życie dzieci ,010
VARIANCeS (group number 1 – default model)

finanse 1,556 ,019 83,226 ***

zdrowie 1,495 ,018 83,226 ***
małżeństwo ,964 ,012 83,226 ***
osiągnięcia 1,089 ,013 83,226 ***
dzieci ,664 ,008 83,226 ***
e ,600 ,007 83,226 ***
SQuARed MulTIPle CoRRelATIoNS (group number 1 – default model)

Variable Estimate
życie ,0197
Rysunek 7.4. Oszacowany model z rysunku 7.1

W przypadku wyższego o jeden zadowolenia z małżeństwa, ocena całego życia

jest wyższa o 0,31. Natomiast jeżeli zadowolenie z własnych osiągnięć jest wyższe
o jeden, to ocena całego życia jest wyższa o 0,14.
Interpretacja standaryzowanych współczynników tego modelu przedstawia się
następująco: jeżeli zadowolenie ze stanu własnego zdrowia jest wyższe o jedno
odchylenie standardowe, to ocena całego życia jest wyższa o 0,08 swojego odchy-
lenia standardowego. I analogicznie: zadowolenie ze stanu finansów rodziny
wyższe o jedno odchylenie standardowe pociąga za sobą ocenę całego życia
wyższą o 0,18 odchylenia standardowego. Wyższe o jedno odchylenie standardowe
zadowolenie z małżeństwa oznacza ocenę całego życia wyższą o 0,356 odchylenia
standardowego. Wyższe o jedno odchylenie standardowe zadowolenie z własnych
osiągnięć jest o jedno odchylenie standardowe wyższe, co daje wyższą o 0,17
odchylenia standardowego ocenę całego życia. Parametr przy zmiennej dzieci
nie podlega interpretacji, ponieważ jest statystycznie nieistotny (zob. podrozdz.
Badanie istotności parametrów, s. 187).
Na podstawie wartości współczynników standaryzowanych można powiedzieć,
że najważniejszą determinantą oceny całego życia jest zadowolenie z małżeństwa.
Prawie o połowę mniejsze znaczenie ma zadowolenie z własnych osiągnięć i stanu
finansów własnej rodziny, a jeszcze mniej ważne jest zadowolenie ze stanu własnego
zdrowia. Zadowolenie ze wszystkich tych aspektów życia oddziałuje pozytywnie na
ocenę całego życia. Wpływ zadowolenia z dzieci na ocenę całego życia jest nieistotny.
Wariancja reszt (zmiennej e) wynosi 0,6. Współczynnik korelacji wielokrot-
nej, czyli R2 przyjmuje wartość 0,197, co oznacza, że model objaśnia jedynie 20%
wariancji zmiennej objaśnianej.
model ścieżKoWy z KoWariancją

i zależnościami pośrednimi
Modelowanie strukturalne pozwala na badanie zależności bardziej skomplikowa-

nych niż prosty wpływ bezpośredni. Możliwe jest bowiem uwzględnienie kowa-
riancji i zależności pośrednich, tak jak to pokazano w modelu z rysunku 7.2.
kowariancja Kowariancja jest miarą siły zależności liniowej, niemającą specyficznej inter-
pretacji. Jeżeli wynosi ona 0, oznacza to, że nie ma zależności liniowej pomiędzy
zmiennymi. Jej standaryzowanym odpowiednikiem jest współczynnik korelacji,
którego wartości mieszczą się w przedziale [–1, 1]. Dzięki standaryzacji można
stwierdzić, czy zależność liniowa pomiędzy zmiennymi jest słaba czy silna.
Jeżeli w modelu występują zależności pośrednie, to współczynniki ścieżkowe nie
opisują zależności pomiędzy zmiennymi w sposób pełny. Ich interpretacja ogranicza
wpływ bezpośredni się bowiem do wpływu bezpośredniego (efektu bezpośredniego). Tymczasem zmienne
mogą wywierać wpływ na inne za pośrednictwem jeszcze innych zmiennych. Ten

efekt bezpośredni
A B
ni
ef
ed
ek
śr
t
po
C
efekt łączny = efekt bezpośredni + efekty pośrednie
Rysunek 7.5. Efekty bezpośrednie, pośrednie i łączne
rodzaj wpływu nazywamy wpływem pośrednim (efektem pośrednim). Aby obli- wpływ pośredni
czyć efekty pośrednie, trzeba zidentyfikować wszystkie ścieżki łączące zmienne za
pośrednictwem innych zmiennych. Następnie należy na każdej takiej ścieżce prze-
mnożyć przez siebie wszystkie współczynniki ścieżkowe, a potem zsumować je na
wszystkich ścieżkach. Przy wzięciu pod uwagę wpływu bezpośredniego i jednocze-
śnie wpływu pośredniego otrzymuje się wpływ łączny (efekt łączny), który najlepiej wpływ łączny
opisuje siłę i kierunek wpływu jednej zmiennej na drugą. Oblicza się go jako pro-
stą sumę efektu bezpośredniego i pośredniego, co zilustrowałyśmy na rysunku 7.5.
Efekty pośrednie i efekty łączne mogą być niestandaryzowane i standaryzowane,
tak samo jak efekt bezpośredni. Interpretacja efektów pośrednich i łącznych jest
bardzo podobna do interpretacji efektów bezpośrednich – wystarczy, że w raporcie
dodamy określenia wskazujące na typ interpretowanego efektu.
W tabelach 7.2 prezentujemy oszacowania wszystkich parametrów, a na rysunku
7.6 oszacowany model z rysunku 7.2.
W modelu z rysunku 7.2 występuje jedna kowariancja pomiędzy zmiennymi
finanse oraz zdrowie. Jej oszacowana wartość wynosi 0,415 i jest istotna statystycz-
nie oraz dodatnia. Oznacza to, że pomiędzy tymi zmiennymi występuje dodatnia
zależność liniowa. Współczynnik korelacji wynosi 0,300, można więc tę zależ-
ność uznać za dość silną.
Jedynie wpływ zadowolenia ze stanu zdrowia i własnych osiągnięć na ocenę
całego życia jest wyłącznie bezpośredni. Pozostałe aspekty satysfakcji z życia:
zadowolenie z sytuacji finansowej, małżeństwa oraz dzieci wywierają na ocenę
całego życia również wpływ pośredni. W przypadku zadowolenia z dzieci wystę-
puje jedynie wpływ pośredni.

Rysunek 7.6. Oszacowany model z rysunku 7.2
Efekt pośredni zmiennej finanse na zmienną zdrowie oblicza się następująco:

wyszczególniamy wszystkie pośrednie ścieżki prowadzące od zmiennej finanse do
zmiennej życie, a są to:
 finanse małżeństwo życie
 finanse osiągnięcia życie
 finanse małżeństwo osiągnięcia życie.
Iloczyny parametrów ścieżkowych na tych ścieżkach wynoszą odpowiednio:
 finanse małżeństwo życie: 0,099 • 0,322 = 0,032
 finanse osiągnięcia życie: 0,306 • 0,143 = 0,044
 finanse małżeństwo osiągnięcia życie: 0,099 • 0,154 • 0,143 = 0,002.
Suma tych iloczynów daje 0,078. Tyle więc wynosi pośredni wpływ zadowole-
nia z sytuacji finansowej na ocenę całego życia. Wpływ łączny wynosi zaś: 0,127
+ 0,078 = 0,205. Standaryzowany efekt pośredni i standaryzowany efekt łączny
można obliczyć tak samo, opierając się jednak na standaryzowanych współczyn-
nikach ścieżkowych. Efekty pośrednie są przeważnie słabe w porównaniu z efek-
tem bezpośrednim i im dłuższe są ścieżki pośrednie, tym jest on słabszy, co widać
w powyższym przykładzie.
Jeśli używa się IBM SPSS Statistics Amos, nie trzeba obliczać ręcznie efek-
tów pośrednich ani łącznych – można to polecić programowi. W tym celu zazna-
czamy opcję: INDIRECT, DIRECT & TOTAL EFFECTS w zakładce OUTPUT
okna ANALYSIS PROPERTIES, tak jak obrazuje to rysunek 7.7. Obliczone war-
tości dla modelu z rysunku 7.2 znajdują się w tabelach 7.3.

Tabele 7.2. Oszacowania modelu przedstawionego na rysunku 7.2

małżeństwo dzieci ,590 ,015 39,412 ***

małżeństwo finanse ,099 ,007 14,523 ***
osiągnięcia finanse ,306 ,008 39,864 ***
osiągnięcia małżeństwo ,154 ,012 13,121 ***
osiągnięcia dzieci ,047 ,014 3,236 ,001
życie finanse ,127 ,007 17,628 ***
życie zdrowie ,057 ,007 8,034 ***
Standardized regression weights: (group number 1 – default model)

Variable Estimate
małżeństwo dzieci ,469

małżeństwo finanse ,130
osiągnięcia finanse ,392
osiągnięcia małżeństwo ,149
osiągnięcia dzieci ,036
życie finanse ,176
życie zdrowie ,074
życie małżeństwo ,340
życie osiągnięcia ,155
CoVARIANCeS (group number 1 – default model)

finanse zdrowie ,450 ,014 28,742 ***
CoRRelATIoNS (group number 1 – default model)

Variable Estimate
finanse zdrowie ,300
SQuARed MulTIPle CoRRelATIoNS: (group number 1 – default model)

Variable Estimate
małżeństwo ,237
osiągnięcia ,197
życie ,250
Wartość pośredniego wpływu zmiennej finanse na zmienną życie odnajdziemy

w tabeli INDIRECT EFFECTS w kolumnie „finanse” i wierszu „życie”, a wartość
niestandaryzowanego wpływu łącznego – w analogicznej komórce tabeli TOTAL
EFFECTS. Wartości te odpowiadają wartościom obliczonym wcześniej ręcznie.

Rysunek 7.7. Zamówienie efektów pośrednich i łącznych
Pełna interpretacja wpływu zadowolenia z sytuacji finansowej na ocenę życia

przedstawia się następująco: gdy zadowolenie z sytuacji finansowej jest wyższe o 1
jednostkę, to ocena całego życia jest wyższa łącznie o 0,2 jednostki, przy czym
0,127 jednostki pochodzi z bezpośredniego wpływu zadowolenia z sytuacji finan-
sowej na satysfakcję z życia, a 0,078 z wpływów zapośredniczonych przez zadowo-
lenie z małżeństwa i własnych osiągnięć; dla współczynników standaryzowanych:
wyższe o 1 odchylenie standardowe zadowolenie z sytuacji finansowej przekłada
się na ocenę życia wyższą łącznie o 0,254 odchylenia standardowego, z czego
dodatkowe 0,176 odchylenia standardowego wynika z bezpośredniego wpływu
zadowolenia z sytuacji finansowej na ocenę życia, a pozostałe 0,108 odchylenia
standardowego – z wpływu zapośredniczonego przez zadowolenie z małżeństwa
i własnych osiągnięć.
Podobnie – jeżeli zadowolenie z małżeństwa jest wyższe o 1 jednostkę, to ocena
całego życia jest wyższa łącznie o 0,344 jednostki. Z tego 0,322 jednostki pocho-
dzi z bezpośredniego wpływu zadowolenia z małżeństwa na satysfakcję z życia,
a 0,022 z wpływu zapośredniczonego przez zadowolenie z własnych osiągnięć;
dla współczynników standaryzowanych: wyższe o 1 odchylenie standardowe

Tabele 7.3. Oszacowania niestandaryzowanych i standaryzowanych efektów łącznych,

bezpośrednich i pośrednich
ToTAl eFFeCTS (group number 1 – default model)

Dzieci Zdrowie Finanse Małżeństwo Osiągnięcia
małżeństwo ,590 ,000 ,099 ,000 ,000

osiągnięcia ,137 ,000 ,322 ,154 ,000
życie ,210 ,057 ,204 ,344 ,143
STANdARdIzed ToTAl eFFeCTS (group number 1 – default model)

małżeństwo ,469 ,000 ,130 ,000 ,000

osiągnięcia ,106 000 ,411 ,149 ,000
życie ,176 ,074 ,284 ,363 ,155
dIReCT eFFeCTS (group number 1 – default model)

małżeństwo ,590 ,000 ,099 ,000 ,000

osiągnięcia ,047 000 ,306 ,154 ,000
życie ,000 ,057 ,127 ,322 ,143
STANdARdIzed dIReCT eFFeCTS (group number 1 – default model)

Variable Dzieci Zdrowie Finanse Małżeństwo Osiągnięcia
małżeństwo ,469 ,000 ,130 ,000 ,000

osiągnięcia ,036 000 ,392 ,149 ,000
życie ,000 ,074 ,176 ,340 ,155
INdIReCT eFFeCTS (group number 1 – default model)

małżeństwo ,000 ,000 ,000 ,000 ,000

osiągnięcia ,091 000 ,015 ,000 ,000
życie ,210 ,000 ,078 ,022 ,000
STANdARdIzed INdIReCT eFFeCTS (group number 1 – default model)

małżeństwo ,000 ,000 ,000 ,000 ,000

osiągnięcia ,070 000 ,019 ,000 ,000
życie ,176 ,000 ,108 ,023 ,000

zadowolenie z małżeństwa przekłada się na ocenę życia wyższą łącznie o 0,363

odchylenia standardowego, z czego dodatkowe 0,340 odchylenia standardowego
wynika z bezpośredniego wpływu zadowolenia z małżeństwa, a pozostałe 0,023
odchylenia standardowego z wpływu pośredniego przez zadowolenie z własnych
osiągnięć.
Nieco inaczej brzmi interpretacja wpływu zadowolenia z dzieci na ocenę całego
życia, ponieważ nie występuje tutaj wpływ bezpośredni. Można powiedzieć, że
wyższe o 1 jednostkę zadowolenie z dzieci przekłada się w sposób pośredni przez
zadowolenie z małżeństwa i własnych osiągnięć na wyższą o 0,210 jednostki ocenę
całego życia. Zadowolenie z dzieci wyższe o jedno odchylenie standardowe prze-
kłada się w ten pośredni sposób na ocenę całego życia wyższą o 0,176 odchyle-
nia standardowego.
Warto zauważyć, że łączny wpływ zadowolenia z dzieci na ocenę całego życia
jest wyższy niż łączny wpływ zadowolenia z własnych osiągnięć. Gdybyśmy usze-
regowali badane aspekty życia pod względem bezpośredniego wpływu na jego
ocenę (czyli według standaryzowanych efektów bezpośrednich albo według stan-
daryzowanych współczynników z modelu regresji) od najmniej ważnych do naj-
ważniejszych, to kolejność zmiennych byłaby następująca: dzieci, zdrowie, osiągnięcia,
finanse, małżeństwo. Jeżeli natomiast weźmiemy pod uwagę wpływ łączny (standa-
ryzowane efekty łączne), dzieci z najniższej pozycji przechodzą między osiągnięcia
a finanse. Poza tym model uwzględniający zależności pośrednie i kowariancje lepiej
wyjaśnia zmienność oceny całego życia (R2 = 0,25) niż model regresji (R2 = 0,2).
Interpretacji parametrów wolno nam dokonywać dopiero wówczas, gdy mamy
pewność, że ich oszacowania są dobre, postać modelu jest właściwa, a jakość
modelu zadowalająca. Pewność co do poprawności oszacowań parametrów zysku-
jemy, weryfikując prawdziwość założeń przyjmowanych w modelowaniu struktu-
ralnym i odpowiednio dobierając metodę estymacji. Te dwie czynności opiszemy
w następnym podrozdziale. W kolejnych dwóch rozdziałach zaprezentujemy spo-
sób oceny jakości modelu oraz sposoby jego modyfikacji. W szczególności opi-
szemy sposób badania statystycznej istotności parametrów. Umiejętność właściwej
oceny istotności parametrów jest bardzo ważna, ponieważ nieistotnych parame-
trów nie wolno interpretować.
Przedmiotem badań zwykle są zjawiska mocno ze sobą powiązane. Dlatego warto

wykorzystać możliwości modelowania strukturalnego i rozważyć całą sieć zależ-
ności pomiędzy analizowanymi zmiennymi.
Hierarchia ważności poszczególnych czynników wpływających na główny przed-
miot badania oparta na efektach łącznych może okazać się zupełnie inna niż
oparta tylko na efektach bezpośrednich.

estymacja modeli struKturalnych
zaŁożenia
Szacowanie modeli strukturalnych opiera się na kilku założeniach, których praw-

dziwość należy zweryfikować.
Założenia modelowania strukturalnego:

 liniowość zależności
 normalny łączny rozkład zmiennych obserwowalnych
 ciągłość zmiennych obserwowalnych
 niezależność obserwacji
 losowość próby
 duża liczebność próby.
Po pierwsze korelacja jest miarą liniowej zależności pomiędzy zmiennymi ciągłymi.

Używając jej zatem, zakładamy liniowość relacji pomiędzy zmiennymi. Założenie liniowość
to możemy zweryfikować, analizując wykresy rozrzutu, tak jak dla modelu regresji.
Po drugie zakładamy, że dane stanowią losową próbę z populacji oraz że obser-
wowane zmienne mają wielowymiarowy rozkład normalny (multivariate normal distri- wielowymiarowy
bution). Założenie o wielowymiarowym rozkładzie normalnym musimy zweryfiko- rozkład normalny
wać, zani m przystąpimy do wyboru metody estymacji. Aby otrzymać statystyki
testów normalności w IBM SPSS Statistics Amos, w zakładce OUTPUT okna ANA-
LYSIS PROPERTIES zaznaczamy TESTS FOR NORMALITY AND OUTLIERS
(zob. rys. 7.8). Dla zmiennych obserwowalnych z modeli pokazanych na rysunkach
7.1 i 7.2 otrzymaliśmy wyniki przedstawione w tabeli 7.4 w części Assesment of nor-
mality. Kolumny MIN i MAX wskazaliśmy najwyższą i najniższą wartość dla każ-
dej zmiennej. Kolumny SKEW i KURTOSIS pokazały odpowiednio skośność i kur-
tozę, pomniejszoną o 3 dla każdej zmiennej. W rozkładzie normalnym skośność
wynosi 0, a kurtoza jest równa 3. Weryfikacja normalności rozkładu danej zmien-
nej polega więc na sprawdzeniu, czy jej skośność i kurtoza różnią się znacząco od
tych wartości. Statystyki testów weryfikujących te hipotezy znajdują się w kolum-
nach CR (critical ratio). Pierwsza z tych kolumn dotyczy skośności, a druga kurtozy.
Jeżeli wartość statystyki testowej mieści się w przedziale [–2; 2], to możemy uznać,
że skośność/kurtoza danej zmiennej przyjmuje wartość odpowiednią dla rozkładu
normalnego. W przeciwnym razie taką hipotezę musimy odrzucić. Dla zmiennej
życie skośność przyjmuje wartość –0,870, a kurtoza pomniejszona o 3 wartość 1,214.
Wartość statystyki testowej dla skośności wynosi –41,811 i znajduje się poza prze-
działem [–2; 2]. Na podstawie testu należy więc dla zmiennej życie odrzucić hipotezę

Rysunek 7.8. Wybór testu normalności
zerową mówiącą o tym, że jej populacyjna skośność wynosi 0. Statystyka testowa

dla kurtozy tej zmiennej przyjmuje wartość 29,175 i również wykracza poza prze-
dział [–2; 2]. Test nakazuje zatem odrzucić hipotezę zerową mówiącą o tym, że
kurtoza zmiennej życie w populacji wynosi 3. Każdy z tych wyników wystarczy, by
odrzucić hipotezę, że zmienna życie ma rozkład normalny. Testy istotności skośno-
ści i kurtozy pozostałych zmiennych prowadzą do tych samych wniosków.
Tabela 7.4. Wyniki testów normalności dla danych dotyczących zadowolenia z życia
ASSeSSMeNT oF NoRMAlITY (group number 1)
Variable Min. Max. Skew CR Kurtosis CR
dzieci 1,000 6,000 –1,356 –65,178 3,521 84,628

osiągnięcia 1,000 6,000 –,728 –34,983 ,458 10,996
małżeństwo 1,000 6,000 –1,552 –74,558 3,521 84,588
zdrowie 1,000 6,000 –,672 –32,298 –,131 –3,145
finanse 1,000 6,000 –,543 –26,108 –,448 –10,762
życie 1,000 6,000 –,870 –41,811 1,214 29,175
multivariate 23,920 143,673

W sytuacji gdy testy wskazują, że dane nie mają wielowymiarowego rozkładu

normalnego, możemy uznać, że odstępstwo od tego rozkładu jest niewielkie, jeśli
wartości szacujące skośność i kurtozę są małe. Wartości mieszczące się w prze-
dziale [–1; 1] uznawane są za niewielkie, a niektórzy autorzy są nawet bardziej
liberalni i dopuszczają sytuację, w której wartości skośności i kurtozy mieszczą
się w przedziale [–1,5; 1,5], a nawet [–2; 2]. Takie samo podejście stosujemy rów-
nież w przypadku danych porządkowych (Schumaker, Lomax, 2004). Skośności
i kurtoza zmiennych osiągnięcia, zdrowie i finanse nie odbiegają znacznie od 0 – nie
wykraczają poza przedział [–1; 1]. Możemy więc powiedzieć, że odstępstwo ich
rozkładów od rozkładu normalnego, choć istotne statystycznie, nie jest duże. Nato-
miast rozkłady zmiennych dzieci i małżeństwo z kurtozą 3 przekraczającą wartość
3,5 odbiegają od rozkładu normalnego w bardzo dużym stopniu.
Nawet gdy poszczególne zmienne mają rozkład normalny, ich rozkład łączny może
nie być wielowymiarowym rozkładem normalnym. Weryfikacji hipotezy dotyczącej
łącznego rozkładu zmiennych służy współczynnik wielowymiarowej kurtozy. Podob-
nie jak w jednowymiarowym rozkładzie normalnym, powinien on wynosić 3. Współ-
czynnik wielowymiarowej kurtozy pomniejszony o 3 oraz statystykę testu sprawdza-
jącego, czy kurtoza wynosi 3, możemy znaleźć w ostatnim wierszu tabeli Assessment
of normality (tab. 7.4). W tym przypadku współczynnik wielowymiarowej kurtozy
wynosi 23,920, a statystyka testowa jest równa 143,673 – jest to wartość wykracza-
jąca poza przedział [–2; 2], musimy więc odrzucić hipotezę zerową mówiącą o tym,
że wielowymiarowa kurtoza wynosi 3. Analizowane zmienne nie mają zatem wielo-
wymiarowego rozkładu normalnego. Nie jest to niespodzianka, zważywszy że ich
jednowymiarowe rozkłady znacznie odbiegają od rozkładu normalnego.
metody estymacji
Na podstawie struktury oraz parametrów modelu (współczynników ścieżkowych,

kowariancji i wariancji) możemy wyprowadzić teoretyczną postać macierzy warian- teoretyczna macierz
cji-kowariancji zmiennych użytych w modelu. Szacowanie parametrów modelu wariancji-kowariancji
polega na takim ich dobraniu, by ta teoretyczna, wynikająca z modelu macierz
wariancji-kowariancji była jak najbardziej zbliżona do obserwowanej macierzy
wariancji-kowariancji. W tym celu definiujemy funkcję rozbieżności, która okre- funkcja rozbieżności
śla, na ile zbliżone są te dwie macierze. Najprostszą funkcją rozbieżności mogłaby
być suma kwadratów różnic odpowiednich elementów obu macierzy. Metody esty-
macji modeli strukturalnych różnią się postacią funkcji rozbieżności1.
Wszystkie metody estymacji modeli strukturalnych wymagają dużych prób,
ponieważ kluczowe statystyki osiągają znane rozkłady tylko asymptotycznie, czyli
1
Obszerne ich omówienie można znaleźć w: Konarski, 2010.

w bardzo dużych próbach. Obserwacje muszą być ponadto niezależne, a stoso-

wane zmienne powinny być ciągłe. W praktyce jednak często używane są zmienne
porządkowe, jednak w takim wypadku każda z nich powinna mieć przynajmniej
pięć kategorii.
Szacowanie parametrów modelu strukturalnego polega na takim ich dobraniu,

by teoretyczna, wynikająca z modelu macierz wariancji-kowariancji była jak naj-
bardziej zbliżona do obserwowanej macierzy wariancji-kowariancji.
Podstawowe metody estymacji to:
 metoda największej wiarygodności (ML)
 metoda uogólnionych najmniejszych kwadratów (GLS)
 metoda asymptotycznie wolna od rozkładu (ADF).
metoda największej Najczęściej stosowana jest metoda największej wiarygodności (maximum likelihood
wiarygodności – ML). W jej przypadku wielkość próby ma duże znaczenie, również z tego powodu,
że oszacowania parametrów są obciążone, czyli odbiegają od rzeczywistych wartości
parametrów. Obciążenie, czyli różnica między prawdziwą a oszacowaną wartością
parametru, maleje wraz z wielkością próby. Konieczne jest ponadto, aby zmienne
obserwowalne miały wielowymiarowy rozkład normalny. Dopuszcza się użycie
metody największej wiarygodności, gdy odstępstwo od rozkładu normalnego jest
niewielkie (czyli gdy skośność i kurtoza mieszczą się w przedziale [–1; 1]). Ten sam
warunek obowiązuje także w przypadku zmiennych porządkowych.
metoda uogólnionych Drugą pod względem popularności jest metoda uogólnionych najmniejszych
najmniejszych kwadratów kwadratów (generalized least squares – GLS). Podobnie jak metoda największej wia-
rygodności, wymaga ona dużych prób, by zredukować obciążenie estymatorów,
oraz zakłada wielowymiarowy rozkład normalny zmiennych obserwowalnych.
Ma jednak ten plus, że w przypadku bardzo dużych prób, tj. powyżej 2500 obser-
wacji, daje dobre oszacowania, nawet gdy założenie wielowymiarowego rozkładu
metoda asymptotycznie normalnego nie jest spełnione.
wolna od rozkładu Z kolei metoda asymptotycznie wolna od rozkładu (asymptotically distribution-free
– ADF) nie wymaga założenia wielowymiarowego rozkładu normalnego, co jest
jej wielką zaletą, jednak estymacja za jej pomocą jest możliwa tylko przy dużych
próbach. Wystarczająca wielkość próby zależy od stopnia skomplikowania modelu.
Nawet dla najprostszego potrzeba co najmniej kilkuset obserwacji.
Zmienne występujące w modelach przedstawionych na rysunkach 7.1 i 7.2 nie
miały wielowymiarowego rozkładu normalnego. W dodatku kurtoza pomniej-
szona o 3 zmiennych małżeństwo i dzieci wykraczała znacznie nawet poza przedział
[–2, 2]. Odstępstwo od rozkładu normalnego jest zatem bardzo silne. Wobec tego
można użyć jedynie metod, które nie wymagają założenia o wielowymiarowym

rozkładzie normalnym, czyli ADF. Wielkość próby, tj. liczba osób, które odpowia-
dały na analizowane pytania, wyniosła 13 854. Tak wysoka liczebność pozwala
z powodzeniem zastosować metodę ADF.
W IBM SPSS Statistics Amos metodę estymacji wybieramy w oknie ANA-
LYSIS PROPERTIES, w części zakładki ESTIMATION zatytułowanej DISCRE-
PANCY (rys. 7.9). Oprócz opisanych wyżej metod do dyspozycji badacza pozostają
jeszcze dwie metody będące uproszczeniem metody uogólnionych najmniejszych
kwadratów, które są jednak o tyle nieprzydatne, że nie pozwalają przeprowadzać
testów statystycznych, na przykład testów istotności.
Rysunek 7.9. Wybór metody estymacji
ocena jaKości modelu

Ocena jakości modelu strukturalnego jest bardzo złożona. Przede wszystkim
musimy sprawdzić, czy otrzymane oszacowania są dopuszczalne, na przykład czy
nie wystąpiły ujemne wariancje. Jeżeli takie anomalia mają miejsce, należy zmie-
nić specyfikację modelu.

Jeżeli oszacowania parametrów są akceptowalne, możemy przejść do oceny

dopasowania modelu.
Punktem wyjścia oceny dopasowania modelu jest wartość funkcji rozbieżności,

która opisuje, jak bardzo wynikająca z modelu macierz wariancji-kowariancji jest
różna od obserwowanej macierzy wariancji-kowariancji.
Podstawą akceptacji bądź odrzucenia modelu jest test dopasowania, sprawdza-

jący, czy rozbieżność między tymi macierzami jest istotna statystycznie.
Na bazie funkcji rozbieżności opracowano też liczne mierniki dopasowania
modelu (zob. Konarski, 2010). Niektóre z nich pozwalają ocenić pojedynczy model,
inne pozwalają jedynie porównywać alternatywne modele. Ze względu na nie, IBM
SPSS Statistics Amos szacuje dwa dodatkowe modele: niezależności (independence)
i nasycony (saturated).
model niezależności model niezależności to taki, który zakłada, że pomiędzy badanymi zmiennymi nie
ma żadnych zależności. Jest to więc model o najgorszym możliwym dopasowaniu.
model nasycony W modelu nasyconym uwzględnione są absolutnie wszystkie możliwe powiązania
pomiędzy zmiennymi. Ten model jest z kolei doskonale dopasowany.
Porównanie wartości dla najlepszego i najgorszego możliwego modelu infor-

muje nas o położeniu analizowanego modelu względem tych dwóch biegunów –
albo bliżej modelu lepszego, albo bliżej gorszego. Część mierników dopasowania
dotyczy obiektywnego dopasowania danego modelu, inne porównują go z mode-
lem niezależności. Część mierników uwzględnia złożoność modelu, inne nie. Nie
zostało określone, które z mierników są najważniejsze ani które najlepsze, a tym
bardziej nie wybrano jednego najlepszego. Z tego powodu należy sprawdzać model
przy użyciu wielu mierników, pamiętając o specyfice każdego z nich. W szcze-
gólności należy zachować równowagę pomiędzy miernikami uwzględniającymi
i nieuwzględniającymi stopnia skomplikowania modelu. Analiza oparta jedynie
na wybranych miernikach może doprowadzić do wyboru modelu zbyt prostego
lub zbyt złożonego.
Jeżeli model pomyślnie przejdzie ocenę dopasowania, należy przejść do analizy
oszacowań modelu i skonfrontować model z teorią badanego zjawiska.
Model doskonale dopasowany, ale niepasujący do teorii, jest właściwie gorszy

niż model dopasowany na granicy akceptowalności, ale zgodny z teorią.

test dopasoWania modelu
Test dopasowania modelu opiera się na wartości funkcji rozbieżności, którą w IBM
SPSS Statistics Amos oznacza się przez FMIN. Mierzy ona rozbieżność pomiędzy fmin
obserwowaną macierzą wariancji-kowariancji a teoretyczną macierzą wariancji-kowa-
riancji wynikającą z modelu i oszacowanych już wartości parametrów. Jest to więc
miara niedopasowania, a nie dopasowania, a zatem im mniejsza jej wartość, tym lepiej.
Statystyka testu dopasowania modelu, oznaczana przez CMIN, powstaje w wyniku cmin
przemnożenia wartości funkcji rozbieżności FMIN przez N – 1, gdzie N jest wielko-
ścią próby. Dzięki temu zabiegowi CMIN ma asymptotycznie rozkład chi-kwadrat.
Liczba stopni swobody, oznaczana przez DF, jest równa liczbie różnych elementów df
macierzy wariancji-kowariancji zmiennych obserwowalnych, pomniejszonej o liczbę
szacowanych parametrów. Liczba różnych elementów macierzy wariancji-kowarian-
cji wyraża ilość informacji dostarczanej przez dane, a liczba szacowanych parame-
trów – ilość tej informacji zużywanej na oszacowanie parametrów.
Hipoteza zerowa (H0) testu dopasowania modelu głosi, że teoretyczna macierz
wariancji-kowariancji wynikająca z oszacowanego modelu jest równa macierzy
wariancji-kowariancji z próby, to znaczy, że model jest doskonale dopasowany do
danych. Jeżeli obliczona wartość statystyki testowej CMIN przekracza wartość
krytyczną z rozkładu chi-kwadrat ze stopniami swobody, hipotezę zerową trzeba
odrzucić, co oznacza również odrzucenie modelu jako niewystarczająco dobrze
dopasowanego do danych. Jeżeli zaś wartość krytyczna nie jest przekroczona,
nie ma podstaw do odrzucenia hipotezy zerowej, a więc i do odrzucenia modelu.
test dopasowania modelu:

h0: Model jest doskonale dopasowany. Rozbieżność pomiędzy teoretyczną macie-
rzą wariancji-kowariancji wynikającą z modelu a obserwowaną macierzą warian-
cji-kowariancji są równe 0.
CMIN = wartość funkcji rozbieżności FMIN • (wielkość próby N – 1)
DF = liczba różnych elementów macierzy wariancji-kowariancji – liczba szaco-
wanych parametrów
Rozkład statystyki testowej: chi-kwadrat z DF stopni swobody.
Statystyki CMIN można używać również do porównywania dopasowania

modeli zagnieżdżonych.
Model jest zagnieżdżony w innym modelu, gdy powstaje w efekcie nałożenia na model zagnieżdżony
niego pewnych ograniczeń.

Nakładanie ograniczeń polega na usuwaniu strzałek lub nadawaniu parametrom

konkretnych wartości. Na przykład gdybyśmy w modelu z rysunku 7.2 usunęli
kowariancję, to powstały model byłby zagnieżdżony w modelu wyjściowym.
Zmiana typu zależności tworzy natomiast modele niezagnieżdżone. Jeżeli w modelu
z rysunku 7.2 zamiast kowariancji pojawiłaby się zależność przyczynowo-skutkowa,
to powstały model i model wyjściowy nie byłyby zagnieżdżone. Hipoteza zerowa
test porównujący testu porównującego dopasowanie modeli zagnieżdżonych głosi, że są one równie
dopasowanie modeli dobrze dopasowane, czyli ich funkcje rozbieżności nie różnią się w istotny sposób.
zagnieżdżonych Jeżeli model 1 jest zagnieżdżony w modelu 2, to statystyka testowa ma postać
CMIN2 – CMIN1 i ma asymptotyczny rozkład chi-kwadrat z liczbą stopni swobody
testu równą DF1 – DF2. Wartość krytyczną dla takiego testu można odczytać
z tablic wartości krytycznych rozkładu chi-kwadrat, które znajdują się w większości
podręczników do statystyki oraz w internecie. Należy ją odszukać w wierszu
odpowiadającym liczbie stopni swobody testu (DF1 – DF2) i kolumnie odpowiadającej
żądanemu poziomowi istotności (0,05). Otrzymaną wartość należy porównać
z obliczoną wartością statystyki testowej CMIN2 – CMIN1. Jeżeli wartość krytyczna
jest wyższa niż obliczona, to nie ma podstaw do odrzucenia hipotezy zerowej, czyli
oba modele są równie dobrze dopasowane, jednak lepszy jest model zagnieżdżony,
bo wymaga szacowania mniejszej liczby parametrów. W przeciwnym wypadku – gdy
wartość krytyczna jest niższa niż obliczona – hipotezę zerową musimy odrzucić, a za
lepszy uznać model lepiej dopasowany, czyli model z większą liczbą parametrów.
Statystyka CMIN nie jest do końca wiarygodna. Nie ma ona rozkładu chi-
kwadrat, gdy próba jest zbyt mała lub gdy nie jest spełnione założenie o wielo-
wymiarowym rozkładzie normalnym. Wartość CMIN zależy ponadto od wielko-
ści próby. Gdy próba jest bardzo duża, hipoteza zerowa może zostać niesłusznie
odrzucona; w małych próbach zaś – niesłusznie przyjęta. CMIN nie bierze też
pod uwagę złożoności modelu, więc faworyzuje modele bardziej skomplikowane.
Z tych wszystkich powodów nie można opierać oceny dopasowania modelu tylko
na tej statystyce.
Sposobem na poradzenie sobie z wadą statystyki CMIN, a konkretnie z zależ-
n hoelter nością CMIN od wielkości próby, jest uwzględnienie statystyki N Hoeltera. Infor-
muje ona o tym, dla jak dużej próby, przy uwzględnieniu osiągniętego dopaso-
wania, nie byłoby podstaw do odrzucenia hipotezy zerowej. Twórca tej miary
sugerował, aby uznawać model za adekwatnie dopasowany, w sytuacji gdy sta-
tystyka ta przekracza 200, później jednak wykazano, że próg ten powinien być
znacznie wyższy (Konarski, 2010).
Prostą korektą na złożoność modelu jest podzielenie CMIN przez liczbę stopni
swobody DF. Niektórzy badacze zalecają, by odrzucać modele, w których ten sto-
sunek przekracza 2. Inni przyjmują mniej restrykcyjne granice: 5, a nawet 10.
Miara CMIN/DF ma wszystkie wady samego CMIN.

W tabelach 7.5 zamieszczono fragmenty wydruku dotyczącego oceny jakości

modelu regresji z rysunku 7.2, odnoszące się do opisanych wyżej statystyk. Sta-
tystyki dla szacowanego modelu znajdują się w wierszach „default model”. Można
je porównać z ich odpowiednikami dla modelu nasyconego („saturated model”)
i modelu niezależności („independence model”).
Tabela 7.5. Ocena jakości modelu – statystyki rozbieżności względem próby
FMIN
Model FMIN F0 LO 90 HI 90
Default model ,141 ,140 ,130 ,151

Saturated model ,000 ,000 ,000 ,000
Independence model 1,171 1,170 1,140 1,200
CMIN
Model NPAR CMIN DF P CMIN/DF
Default model 16 1948,454 5 ,000 389,691

Saturated model 21 ,000 0
Independence model 6 16218,423 15 ,000 1081,228
HoelTeR
Model HOELTER HOELTER
.05 .01
Default model 79 108

Independence model 22 27
W kolumnie NPAR można odczytać liczbę szacowanych w modelu parame-

trów, a w kolumnie DF – liczbę stopni swobody. Wartość FMIN w tabeli FMIN
to wartość funkcji rozbieżności, jaką otrzymano w wyniku estymacji. W modelu
nasyconym – najlepszym – wynosi ona 0. W analizowanym modelu przyjmuje
wartość 0,141. Wartość statystyki testu dopasowania CMIN wynosi 1948, co
przy 5 stopniach swobody daje poziom istotności równy 0. Oznacza to, że należy
odrzucić hipotezę zerową mówiącą o tym, że model dobrze odtwarza macierz
wariancji-kowariancji z próby. N Hoeltera wynoszące dla poziomu ufności równego
95% jedynie 79 pokazuje, że odrzucenie hipotezy zerowej nie jest tylko efektem
wzrostu CMIN z wielkością próby. Wartość CMIN/DF wynosząca 390 znacząco
przekracza uznawane za krytyczne wartości 2, 5 czy nawet 10. Można jednak
zauważyć, że dla każdej z tych miar analizowany model jest znacznie bliższy
modelowi nasyconemu niż modelowi niezależności.

miary dopasoWania do populacyjnej macierzy

Wariancji-KoWariancji
Statystyka CMIN opiera się na porównaniu teoretycznej macierzy wariancji-kowa-

riancji z macierzą wariancji-kowariancji z próby. Mierzy ona zatem, na ile dobrze
model opisuje zależności w próbie, podczas gdy celem modelowania jest opis zależno-
ści w populacji. Wartość funkcji rozbieżności między macierzą wariancji-kowarian-
f0 cji z modelu a populacyjną macierzą wariancji-kowariancji podawana jest jako F0.
W idealnym modelu te macierze powinny być równe. Jeśli więc przedział ufności dla
F0 zawiera 0, można uznać, że model dobrze odtwarza populacyjną macierz warian-
cji-kowariancji, czyli dobrze opisuje prawdziwe zależności pomiędzy zmiennymi.
Podobnie jak CMIN, F0 faworyzuje modele o dużej złożoności. Poprzez sko-
rmsea rygowanie F0 o liczbę stopni swobody powstaje RMSEA (root mean square error
of approximation), nazywane też błędem aproksymacji. Jest to jedna z nielicznych
miar, dla których funkcjonują dość ogólnie akceptowane interpretacje. RMSEA
jest polecane do porównywania modeli niezagnieżdżonych.
rmsea to rozbieżność pomiędzy teoretyczną a populacyjną macierzą wariancji-

kowariancji, skorygowana o liczbę stopni swobody. Przyjmuje się następujące
progi (Konarski 2010):
<0,05 – dobre dopasowanie
0,05–0,08 – zadowalające dopasowanie
0,08–0,1 – mierne dopasowanie
>0,1 – nieakceptowane dopasowanie.
W tabeli 7.6 wartość statystyki rozbieżności między macierzą wariancji-kowa-

riancji z modelu a tej pochodzącej z populacji F0 wynosi 0,140, a jej przedział
Tabele 7.6. Ocena jakości modelu – statystyki rozbieżności względem populacji
FMIN
Model FMIN F0 LO 90 HI 90
Default model ,141 ,140 ,130 ,151

RMSeA
Model RMSEA LO 90 HI 90 PCCLOSE
Default model ,168 ,161 ,174 ,000

Independence model ,279 ,276 ,283 ,000

ufności dla prawdopodobieństwa 90% to (0,130; 0,151). Zdecydowanie nie zawiera

on pożądanej wartości 0. Wartość RMSEA wynosi aż 0,168 i nawet dolny kra-
niec jej przedziału ufności nie znajduje się poniżej 0,1, co wskazuje na nieakcep-
towalne dopasowanie modelu.
indeKsy dopasoWania
Pierwszą grupą indeksów dopasowania są indeksy odnoszące dopasowanie bada-

nego modelu do sytuacji braku modelu. Przez brak modelu rozumie się model
zakładający, że wszystkie elementy macierzy wariancji-kowariancji łącznie z wa-
riancjami są równe 0. Model ten nazywamy modelem zerowym. Podstawowym model zerowy
indeksem dopasowania modelu w tej grupie jest GFI (godness-of-fit index). Pod wzglę- gfi
dem interpretacji miara ta przypomina znany z regresji liniowej współczynnik
determinacji R2, który informuje o tym, jaki procent zmienności zmiennej obja-
śnianej jest wyjaśniany przez model. GFI natomiast – jaki procent zmienności em-
pirycznej macierzy wariancji-kowariancji jest wyjaśniany przez model. Podobnie
jak R2, GFI rośnie zawsze, gdy w modelu uwzględnia się kolejny parametr, nawet
gdy ten parametr niewiele wnosi. Wobec tego oblicza się dwa mierniki podobne agfi
do skorygowanego R2: AGFI (adjusted godness-of-fit index) oraz PGFI (parsimonious pgfi
godness-of-fit index).
gFi mówi, jaki procent zmienności empirycznej macierzy wariancji-kowariancji

jest wyjaśniany przez model. Przypomina znane z regresji liniowej R2 i ma te same
wady. agFi oraz pgFi są odpowiednikami skorygowanego R2.
W drugiej grupie indeksów dopasowania, dopasowanie badanego modelu

porównuje się z dopasowaniem modelu niezależności. NFI (normed fit index), RFI nfi
(relative fit index) i PNFI (parsimonious normed fit index) oblicza się analogicznie jak rfi
GFI, AGFI oraz PGFI. TLI (tucker-lewis index) oblicza się podobnie jak RFI, a IFI pnfi
(incremental fit indeks) – podobnie jak NFI, ale w taki sposób, by statystyki te były tli
mniej wrażliwe na wielkość próby. ifi
CFI i PCFI oblicza się analogicznie do NFI i PNFI, ale opierając się na F0 – dopa-
sowaniu modelu do populacyjnej macierzy wariancji-kowariancji, a nie na FMIN.
Powyższe indeksy dopasowania przyjmują wartości z przedziału [0, 1], choć
czasem mogą przyjąć wartości ujemne. Im wyższe są ich wartości, tym lepiej. War-
tości ujemne przeważnie oznaczają, że model jest zbyt skomplikowany. Miary
uwzględniające złożoność modelu: PGFI, PRNI i PCFI zawsze przyjmują niższe
wartości niż ich nieskorygowane odpowiedniki. Minimalną wartością GFI, AGFI,
NFI, RFI, IFI i CFI uprawniającą do akceptacji modelu jest 0,9, a nawet 0,95, dla

PGFI, PRNI i PCFI zaś 0,85. Gdy liczba zmiennych obserwowalnych jest niewielka,
ten ostatni próg można nieco obniżyć. Ponieważ TLI oraz IFI są mniej wrażliwe
na wielkość próby, są szczególnie polecane przy dużych próbach.
W IBM SPSS Statistics Amos wraz z PGFI prezentowana jest miara dopasowa-
nia opierająca się na kwadratach reszt modelu. Reszty modelu strukturalnego to
różnice wartości poszczególnych różnych elementów macierzy wariancji-kowarian-
cji występujące pomiędzy macierzą implikowaną przez model a macierzą obserwo-
rmr waną. Pierwiastek ze średniego kwadratu tych reszt nazywa się RMR (root mean
squared residual). W idealnym modelu przyjmuje on wartość 0. Nie ma dla niego
górnej granicy ani kryterium akceptowalności – jego zastosowanie ogranicza się
więc do porównywania modeli szacowanych na tym samym zbiorze danych.
Indeksy dopasowania odnoszące model do modelu niezależności są zalecane w sytu-

acji porównywania modeli zagnieżdżonych, natomiast RMR i indeksy porównujące
model do modelu zerowego – modeli niezagnieżdżonych.
W tabelach 7.7 zamieszczono fragmenty wydruku dotyczącego oceny jako-

ści modelu regresji z rysunku 7.2, odnoszące się do opisanych wyżej statystyk.
Tabele 7.7. Ocena jakości modelu – indeksy dopasowania
RMR, gFI
Model RMR GFI AGFI PGFI
Default model ,111 ,957 ,821 ,228

Saturated model ,000 1,000
BASelINe CoMPARISoNS
Model NFI RFI IFI TLI
CFI
Delta1 rho1 Delta2 rho2
Default model ,880 ,640 ,880 ,640 ,880

Saturated model 1,000 1,000 1,000
Independence model ,000 ,000 ,000 ,000 ,000
PARSIMoNY-AdjuSTed MeASuReS
Model PRATIO PNFI PCFI
Default model ,333 ,293 ,293

Saturated model ,000 ,000 ,000
Independence model 1,000 ,000 ,000

Wartość RMR uplasowała się mniej więcej w połowie pomiędzy modelem

niezależności i modelem nasyconym. Na podstawie wartości GFI można powie-
dzieć, że model wyjaśnia 96% zmienności macierzy wariancji-kowariancji. War-
tość tego indeksu przekracza próg akceptowalności. Wyrażenie dopasowania
w stopniach swobody (AGFI) daje 0,821, co nie sięga nawet progu 0,9, ale nie
jest odeń bardzo odległe. Miary typu NFI: NFI i IFI i CFI wynoszą około 0,88
i są bliskie progowi akceptowalności. Nałożenie korekty na złożoność modelu
powoduje spadek indeksów RFI i TLI do poziomu 0,64, a PGFI, PNFI i PCFI
– poniżej 0,3. Jest to dalekie od progów akceptowalności i pokazuje, że model
jest zbyt skomplikowany, a akceptowalna wartość GFI wynika tylko z dużej
liczby parametrów.
Kryteria inFormacyjne
Fragmenty wydruku dotyczącego oceny jakości modelu regresji z rysunku 7.2, od-
noszące się do kryteriów informacyjnych, zamieściłyśmy w tabelach 7.8.
Tabele 7.8. Ocena jakości modelu – kryteria informacyjne
AIC
Model AIC bCC bIC CAIC
Default model 1980,454 1980,470 2101,035 2117,035

Saturated model 42,000 42,021 200,263 221,263
eCVI
Model ECVI LO 90 HI 90 MECVI
Default model ,143 ,133 ,154 ,143

W części AIC znajdziemy kryteria informacyjne, z których najbardziej rozpo-

wszechnione są: kryterium Akaike AIC i Bayesa-Schwarza BIC. Powstają one przez aic
nałożenie na miarę dopasowania modelu kary za liczbę szacowanych parametrów bic
i wielkość próby. Najmniejszą karę nakłada kryterium AIC, dodające do statystyki
CMIN jedynie liczbę parametrów modelu. Bardziej surowe jest kryterium BCC, bcc
następnie CAIC i wreszcie kryterium Bayesa-Schwarza BIC, w którym kara
jest najwyższa – jest to iloczyn liczby parametrów i logarytmu wielkości próby. caic
Kryteria informacyjne nie mają obiektywnej interpretacji, więc w ocenie jakości
modelu mogą być wykorzystane tylko przez porównanie z modelem niezależności

i nasyconym. Im są niższe, tym lepiej. Zaleca się ich stosowanie szczególnie przy
porównywaniu modeli zagnieżdżonych.
ecvi W tabeli ECVI (tab. 7.8) znajdują się kryteria ECVI i MECVI, które wynoszą
mecvi – z dokładnością do stałej, odpowiednio tyle samo, co AIC i BCC. Przewaga ECVI
polega na tym, że to kryterium ma 90-procentowy przedział ufności (LO90 i HI90).
Dzięki temu można sprawdzić, czy ECVI różni się istotnie pomiędzy modelami,
w tym między badanym modelem a modelem niezależności czy modelem nasyconym.
Na podstawie kryteriów informacyjnych możemy jedynie porównać analizo-
wany model z modelem nasyconym i modelem niezależności. Z porównania tego
wynika, że model jest bliższy modelowi nasyconemu niż modelowi niezależności.
Podsumowując, praktycznie wszystkie mierniki jakości nakazują model
odrzucić. Wprawdzie GFI wskazuje na dobre dopasowanie, ale niskie wartości
indeksów uwzględniających złożoność wskazują, że jest to głównie zasługą dużej
liczby szacowanych parametrów.
Na koniec warto dokonać rozróżnienia pomiędzy oceną dopasowania modelu
strukturalnego a oceną jakości modelu regresji.
Model strukturalny ma opisywać zależności pomiędzy wszystkimi zmiennymi obja-

śniającymi, natomiast zadaniem modelu regresji jest opisywać zależność zmien-
nej objaśnianej od zmiennych objaśniających, zakładając, że pomiędzy zmiennymi
objaśniającymi zależności nie ma.
Sposoby oceny jakości modelu opisane wyżej pozwalają sprawdzić, na ile dobrze
swoje zadanie wykonuje model strukturalny. Jeżeli jednak celem analizy nie jest
badanie zależności pomiędzy wszystkimi zmiennymi, a jedynie wpływu zmien-
nych objaśniających na zmienną objaśnianą, konieczna jest również weryfikacja,
czy model dobrze spełnia tę rolę. Do tego służy współczynnik korelacji wielokrot-
nej, czyli R2, omówiony przy okazji interpretacji parametrów.
modyFiKoWanie modelu
W sytuacji gdy ocena jakości modelu wykazuje, że nie jest on dostatecznie dobrze
dopasowany, możemy próbować modyfikować model, tak by to dopasowanie popra-
wić. Najbardziej złożona modyfikacja polegałaby na zupełnym przeorganizowa-
niu go według alternatywnej teorii. Do istniejącego modelu możemy też dołączyć
nowe albo przekształcone zmienne.
IBM SPSS Statistics Amos dostarcza wskazówek co do tego, jakie zależności
należałoby usunąć z modelu, a jakie można dodać na podstawie wyników testów
istotności zmiennych oraz indeksów modyfikacji.

Podstawowe modyfikacje w modelu strukturalnym polegają na zmianie ograniczeń

występujących w bieżącym modelu. Przeważnie ograniczenia te oznaczają zało-
żenie, że jakiś parametr ścieżkowy bądź kowariancja wynoszą 0. Usunięcie ścieżki
czy kowariancji oznacza nałożenie na dany parametr takiego właśnie ograniczenia:
uwzględnienie wcześniej nieobecnej ścieżki czy kowariancji – uwolnienie odpowied-
niego parametru od tego ograniczenia.
Badanie istotności parametróW
Badanie istotności parametrów dostarcza wskazówek co do usunięcia danej ścieżki

czy kowariancji. Podobnie w modelu regresji, nieistotność parametru β przy danej
zmiennej objaśniającej wskazuje, że należy usunąć ją z modelu. Hipoteza zerowa
testu istotności pojedynczego parametru mówi, że wartość tego parametru w popu-
lacji wynosi 0. Statystykę testową oblicza się, dzieląc oszacowaną wartość parame-
tru przez jej błąd oszacowania. Statystyka ta ma rozkład normalny standardowy.
W tabelach 7.9 zamieszczone są oszacowania parametrów modelu regresji z ry-
sunku 7.1, uzyskane metodą największej wiarygodności.
W kolumnie CR znajdują się obliczone wartości statystyk testu istotności
odpowiednich parametrów. Z kolumny P można odczytać poziom istotności tych
testów. Trzy gwiazdki oznaczają poziom <0,001.
Dla zmiennej dzieci, a ściślej: dla współczynnika określającego wpływ zmien-
nej dzieci na zmienną życie poziom istotności wynosi 0,186, co wskazuje na brak
Tabele 7.9. Badanie istotności parametrów

życie finanse ,128 ,005 24,203 ***

życie zdrowie ,058 ,005 10,869 ***
życie dzieci ,011 ,008 1,323 ,186

finanse 1,556 ,019 83,226 ***

zdrowie 1,495 ,018 83,226 ***
małżeństwo ,964 ,012 83,226 ***
osiągnięcia 1,089 ,013 83,226 ***
dzieci ,664 ,008 83,226 ***
e ,600 ,007 83,226 ***

podstaw do odrzucenia hipotezy zerowej o nieistotności tego parametru. Wpływ

zadowolenia z dzieci na zadowolenie z życia okazał się być nieistotny. Rezultat ten
wzbudza wątpliwości. W zwykłej regresji liniowej zmienną dzieci należałoby usu-
nąć z modelu. Dzięki modelowaniu strukturalnemu można zamiast tego uwzględ-
nić wpływ zadowolenia z dzieci na zadowolenie z małżeństwa i w ten sposób zba-
dać pośredni wpływ zadowolenia z dzieci na zadowolenie z życia.
Dla pozostałych zmiennych, a raczej dla wpływu pozostałych zmiennych na
zmienną życie, poziom istotności jest bliski 0, co każe odrzucić hipotezę zerową
o ich nieistotności.
Celem badania istotności wariancji jest stwierdzenie, czy są one istotnie różne
od 0 i dodatnie. W przeciwnym wypadku bowiem ich wartość byłaby niedopusz-
czalna. Konieczna byłaby wówczas zmiana metody estymacji na inną dopuszczalną
w danych warunkach, a gdyby to nie przyniosło pożądanych rezultatów – zmiana
modelu lub danych. W przypadku przestawionym w tabelach 7.9 wariancje są
istotne statystycznie, czyli różne od 0, a także dodatnie – tak jak powinno być.
indeKsy modyFiKacji
indeksy modyfikacji Indeksy modyfikacji (modification indices) wskazują, które zależności warto dodat-
kowo uwzględnić w modelu. Oblicza się je dla każdego parametru, na który nało-
żone są jakiekolwiek ograniczenia. Zwykle chodzi o założenie, że dany parametr
wynosi w populacji 0, wyrażone przez nieuwzględnienie odpowiedniej ścieżki czy
kowariancji w modelu. Indeks modyfikacji to statystyka testu sprawdzającego,
czy ograniczenie nałożone na dany parametr jest prawdziwe w populacji. Jeżeli
wartość indeksu przekroczy 4, taką hipotezę zerową należy odrzucić. Oznacza
to, że dzięki uwolnieniu badanego parametru dopasowanie modelu istotnie się
polepszy. Indeksy modyfikacji bardzo często przyjmują wartości znacznie większe
stosując indeksy modyfikacji, należy przestrzegać dwóch zasad.

po pierwsze parametry należy wprowadzać po jednym na raz, najlepiej zaczy-
nając od tych z najwyższymi wartościami indeksów modyfikacji. Uwzględnienie
jednego z parametrów może bowiem zmienić wartości indeksów modyfikacji dla
pozostałych. Wprowadzając kolejne parametry, należy obserwować miary jakości
modelu – zwłaszcza te biorące pod uwagę jego złożoność. Na ich podstawie
można podjąć decyzję co do kontynuowania bądź zaniechania dodawania
kolejnych parametrów.
po drugie – i najważniejsze – wprowadzenie każdego parametru należy skon-
frontować z teorią badanego zjawiska. Jeżeli dla parametru nie ma dobrego uza-
sadnienia, należy z niego zrezygnować.

niż 4 dla bardzo wielu parametrów. Zwykle nie warto uwzględniać wszystkich
tych parametrów, a tylko te z najwyższymi wartościami indeksów modyfikacji.
IBM SPSS Statistics Amos domyślnie nie wyświetla indeksów modyfikacji. Aby
je otrzymać, musimy zaznaczyć MODIFICATION INDICES w zakładce OUTPUT
okna ANALYSIS PROPERTIES (zob. rys. 7.10). Jeśli wpiszemy wartość liczbową
w pole opisane THRESHOLD FOR MODIFICATION INDICES, możemy ograni-
czyć liczbę wyświetlanych indeksów modyfikacji do takich, których wartość prze-
kracza wpisaną liczbę. Opcja ta jest szczególnie przydatna w dużych modelach.
W tabelach 7.10 znajdują się indeksy modyfikacji dla modelu regresji linio-
wej z rysunku 7.1.
Tabela, w której powinny znajdować się indeksy modyfikacji dla wariancji, jest
pusta. Byłaby pełna tylko wówczas, gdyby na którąkolwiek z wariancji nałożono
jakieś ograniczenie, a tak nie jest. Pusta jest również tabela, w której powinny się
znajdować indeksy modyfikacji dla ścieżek, a wypełniona jedynie ta dla kowarian-
cji. Jest to dobra ilustracja jeszcze jednej słabości indeksów modyfikacji i modelo-
wania strukturalnego w ogóle. Ponieważ celem estymacji jest dobranie parametrów,
Rysunek 7.10. Zamówienie indeksów modyfikacji

Tabela 7.10. Indeksy modyfikacji dla modelu regresji z rysunku 7.1
ModIFICATIoN INdICeS (group number 1 – default model)

Variable MI Par Change
osiągnięcia dzieci 778,483 ,202

małżeństwo dzieci 3717,930 ,415
małżeństwo osiągnięcia 1250,317 ,308
zdrowie dzieci 473,832 ,184
zdrowie osiągnięcia 2230,500 ,512
zdrowie małżeństwo 522,008 ,233
finanse dzieci 364,008 ,165
finanse osiągnięcia 2352,502 ,537
finanse małżeństwo 627,009 ,261
finanse zdrowie 1331,647 ,473
MI Par Change
RegReSSIoN WeIgHTS (group number 1 - default model)
MI Par Change
tak by jak najlepiej odtworzyć macierz wariancji-kowariancji, bezpośrednie oszaco-

wanie kowariancji jest najskuteczniejszym sposobem na poprawienie dopasowania
modelu. W efekcie indeksy modyfikacji znacznie częściej podpowiadają, by uwzględ-
nić korelację pomiędzy zmiennymi, aniżeli zależność przyczynowo-skutkową.
Indeksy modyfikacji znajdują się w kolumnie MI. Natomiast w kolumnie PAR
CHANGE znajduje się oczekiwana wartość uwalnianego parametru. Najwyż-
szą wartość indeksu modyfikacji ma kowariancja pomiędzy zmienną małżeństwo
i zmienną dzieci. Kolejne dwie zależności – pomiędzy zmienną osiągnięcia a zmien-
nymi finanse i zdrowie – mają już prawie dwukrotnie niższy indeks modyfikacji.
Kolejne dwa indeksy modyfikacji – dla zależności pomiędzy zmiennymi małżeństwo
i osiągnięcia oraz finanse i zdrowie – są dwukrotnie niższe od poprzednich. Najniż-
sze indeksy modyfikacji są kilkukrotnie niższe od najwyższych, ale ciągle znacz-
nie wyższe od 4 i nie ma sensu uwzględniać ich w modelu.
Warto zauważyć, że omawiany tutaj model jest modelem regresji liniowej, w któ-
rym przy standardowej estymacji zakłada się nieskorelowanie zmiennych objaśnia-
jących. Zaletą modelowania strukturalnego jest to, że w takim przypadku można
po prostu uwzględnić skorelowanie zmiennych objaśniających w modelu.

Wprowadzenie do modelu kowariancji pomiędzy zmiennymi dzieci i małżeństwo

spowoduje obniżenie statystyki CMIN o 3718 w stosunku do wyjściowej wartości
11 491. Sama kowariancja wyniosłaby 0,415. Istnienie zależności pomiędzy zado-
woleniem z dzieci i zadowoleniem z małżeństwa jest oczywiste. Pytanie jednak,
czy jest to zależność symetryczna, którą można opisać kowariancją, czy raczej przy-
czynowo-skutkowa. Wydaje się, że to drugie, jeśli bowiem jest się zadowolonym
z dzieci, to fakt ten podnosi ocenę małżeństwa. W drugą stronę taki mechanizm
raczej nie działa. Jest to przykład słabości modelowania strukturalnego, opisanej
wyżej. Mimo że sens ma relacja przyczynowo-skutkowa, algorytm podpowiedział
zależność kowariancyjną, bo taka zależność bardziej poprawia dopasowanie modelu.
Mając świadomość tej słabości, w takim przypadku należy oprzeć się na teorii, a nie
na wskazaniach indeksów modyfikacji.
W tabeli 7.11 zestawiono wartości indeksów modyfikacji w kolejnych mode-
lach. Model bez kowariancji to wyjściowy model regresji. Drugi z modeli uwzględ-
nia dodatkowo wpływ zadowolenia z dzieci na zadowolenie z małżeństwa. W sto-
sunku do modelu regresji wielorakiej, żadne indeksy modyfikacji dla kowariancji
się nie zmieniły, ale pojawiły się nowe. Nowe indeksy modyfikacji dotyczą wpływu
(zależność przyczynowo-skutkowa) niektórych zmiennych na zmienną małżeństwo
lub kowariancji pomiędzy tymi samymi zmiennymi a resztą, w podmodelu, w któ-
rym zmienna dzieci objaśnia zmienną małżeństwo – e(małżeństwo). Zauważmy, że są to
dwa różne sposoby uwzględnienia zależności pomiędzy zmienną małżeństwo a tymi
zmiennymi, w sytuacji gdy uwzględnienie kowariancji pomiędzy nimi a zmienną
małżeństwo nie jest technicznie możliwe. Ich uwzględnienie, niezależnie od wybra-
nej formy, powoduje dokładnie taką samą zmianę dopasowania modelu, wyrażoną
indeksem modyfikacji.
Najwyższa wartość indeksu modyfikacji przypada jednak na kowariancję pomię-
dzy zmiennymi osiągnięcia i finanse. Dobra sytuacja finansowa jest z pewnością
osiągnięciem, więc uwzględnienie wpływu zadowolenia z sytuacji finansowej na
zadowolenie z własnych osiągnięć wydaje się uzasadnione. Znowu – pomimo że
proponowane jest uwzględnienie kowariancji, bardziej uzasadnione teoretycznie
jest uwzględnienie zależności przyczynowo-skutkowej.
Dodatkowo po uwzględnieniu wpływu zmiennej finanse na zmienną osiągnięcia,
po raz kolejny pojawiły się propozycje zależności przyczynowo-skutkowych i kowa-
riancyjnych, mających zastąpić proponowane wcześniej kowariancje ze zmienną
osiągnięcia. Najwyższy indeks modyfikacji wskazuje teraz na kowariancję pomiędzy
zmienną zdrowie i zmienną finanse. Zależność dwustronna pomiędzy stanem zdrowia
a sytuacją finansową wydaje się mieć uzasadnienie: osoby zdrowe mają lepsze moż-
liwości zarobkowe, a osoby o wyższych zarobkach mają lepsze możliwości dbania
o zdrowie. Powinno się to przełożyć na zadowolenie z obu aspektów życia. Można
więc uwzględnić tę zależność w modelu.

Tabela 7.11. Indeksy modyfikacji w kolejnych krokach
Zależność\model Regresja +dzieci +finanse +zdrowie +małżeństwo

wieloraka małżeństwo osiągnięcia finanse osiągnięcia
kowariancje
osiągnięcia dzieci 778 778 – – –
małżeństwo dzieci 3 718
małżeństwo osiągnięcia 1 250 – – – –
zdrowie dzieci 474 474 474 278 278
zdrowie osiągnięcia 2 231 2 231 – – –
zdrowie małżeństwo 522 – – – –
finanse dzieci 364 364 364 168 168
finanse osiągnięcia 2 353 2 353
finanse małżeństwo 627 – – – –
finanse zdrowie 1 332 1 332 1 332
e(małżeństwo) osiągnięcia 597 – – –
e(małżeństwo) zdrowie 183 183 71 71
e(małżeństwo) finanse 314 314 202 202
e(osiągnięcia) dzieci 484 484 69
e(osiągnięcia) zdrowie 1 248 1 381 1 175
e(małżeństwo) e(osiągnięcia) 354 354 25
e(osiagnięcia) finanse 113
zależności przyczynowo-skutkowe
małżeństwo osiągnięcia – 597 597 597
małżeństwo zdrowie – 183 183 183 183
małżeństwo finanse – 314 314 314 314
osiągnięcia dzieci 484 484 69
osiągnięcia zdrowie 1 248 1 248 1 062
osiągnięcia małżeństwo 755 755
Po dodatkowym uwzględnieniu kowariancji pomiędzy zmiennymi zdrowie i finanse

nie pojawiły się już żadne nowe propozycje zależności do uwzględnienia. Zmie-
niły się natomiast wartości indeksów modyfikacji dla zależności proponowanych
wcześniej, dotyczących tych dwóch zmiennych. Zwłaszcza indeksy modyfikacji dla
wpływu zmiennej zdrowie na zmienną osiągnięcia i dla kowariancji pomiędzy resztą
z podmodelu objaśniającego osiągnięcia a zmienną zdrowie nie są równe. Wynika to
stąd, że obie te zmienne są już powiązane z innymi zmiennymi.
Najwyższe indeksy modyfikacji wskazują teraz na zależność pomiędzy zmien-
nymi zdrowie i osiągnięcia. Trudno jednak znaleźć dla takiej zależności uzasadnie-
nie. A jeśli tak, nie powinno się uwzględniać jej w modelu. Kolejne dwa najwyższe
indeksy modyfikacji wskazują na zależność pomiędzy zmiennymi osiągnięcia i mał-
żeństwo. Wyższy z nich wskazuje na wpływ zadowolenia z małżeństwa na zadowo-
lenie z własnych osiągnięć i taki kierunek zależności wydaje się też być uzasad-
niony teoretycznie (udane małżeństwo, tak samo jak dobra sytuacja finansowa,
jest osiągnięciem).

Po uwzględnieniu wpływu zadowolenia z małżeństwa na zadowolenie z wła-

snych osiągnięć najwyższe indeksy modyfikacji nadal wskazują na zależność
między zadowoleniem ze stanu zdrowia i zadowoleniem z własnych osiągnięć, dla
której jednak nie ma uzasadnienia. Wartości pozostałych indeksów modyfikacji są
znacznie niższe. Wydaje się więc, że na tym etapie można zaprzestać dodawania
parametrów i uznać model za ostateczny.
Modyfikowanie modelu niesie ze sobą wiele zagrożeń, z których najpoważ-
niejszym jest otrzymanie modelu pasującego do danej próbki danych, ale nie do
populacji. Zagrożenie to jest szczególnie duże w małych próbach oraz gdy wyj-
ściowy model mocno odbiega od rzeczywistego, a zmiany są wprowadzane bez
względu na uzasadnienie teoretyczne. Problemem jest też kolejność wykonywa-
nych zmian: nakładania i zdejmowania ograniczeń. W zależności od tego, którą
z sugerowanych zmian wykona się jako pierwszą, można otrzymać różne modele.
Nie ma zgody co do tego, jak modyfikować model, aby nie dać się ponieść danym.
W idealnym świecie punktem wyjścia jest kilka alternatywnych teorii; dla każ-
dej z nich buduje się model i porównuje dopasowanie tych modeli, nic w nich nie
zmieniając. Jeżeli zmiany są nie do uniknięcia, najlepiej jest modelować od ogółu
do szczegółu, to znaczy uwzględnić wszystkie parametry, jakie mogą mieć sens,
i usuwać kolejno te, które okażą się nieistotne. Zwykle jednak zbiory są za małe,
by umożliwić takie postępowanie. Modelowanie od szczegółu do ogółu, czyli doda-
wanie parametrów, jest najbardziej niebezpieczne. Minimalnym zabezpieczeniem
jest zbadanie istotności parametrów w modelu otrzymanym po dodaniu wszyst-
kich wybranych parametrów i usunięcie tych, które okażą się nieistotne. Konieczne
jest też konfrontowanie każdego wprowadzanego parametru z teorią – im bardziej
surowe, tym lepiej, oraz badanie jakości modelu, zwłaszcza za pomocą miar dopa-
sowania biorących pod uwagę jego złożoność.
W tabeli 7.12 zestawione zostały wybrane miary jakości modelu dla kolejnych
modeli w celu wyboru ostatecznej postaci modelu po modyfikacjach. Ponieważ
modele są zagnieżdżone, oprócz CMIN, zastosowano ECVI oraz miary powią-
zane z NFI. Obserwując, jak zmieniały się poszczególne miary, zauważymy, że
wprowadzanie pierwszych trzech parametrów zmniejszało CMIN i ECVI pra-
wie o jedną trzecią każde, a ostatnia zmiana zmniejszyła je już tylko o jedną
czwartą. Ponieważ wartości prawie wszystkich prezentowanych miar rosną wraz
z liczbą parametrów, kluczowa jest obserwacja PNFI, która uwzględnia złożo-
ność modelu. Dodanie pierwszej zależności powoduje prawie dwukrotny wzrost
PNFI, drugiej – już tylko kilkuprocentowy, a po wprowadzeniu trzeciej zależ-
ności – PNFI maleje. PNFI wskazuje więc, że już kowariancja pomiędzy zmien-
nymi zdrowie i finanse nie powoduje dostatecznej poprawy modelu, by było warto
ją wprowadzać. Wprowadzanie kolejnych parametrów polepszałoby pozostałe
miary, ale pogarszało PNFI.

Tabela 7.12. Porównanie jakości modeli w kolejnych krokach
Miara\model Regresja +dzieci +finanse +zdrowie +małżeństwo

wieloraka małżeństwo osiągnięcia finanse osiągnięcia
CMIN 11 491 7 162 4 583 3 183 2 369

ECVI 0,831 0,519 0,333 0,232 0,173
NFI 0,292 0,558 0,717 0,804 0,854
RFI –0,063 0,264 0,47 0,579 0,635
PNFI 0,194 0,335 0,383 0,375 0,342
Najlepszy wydaje się więc model uwzględniający wpływ zadowolenia z dzieci

na zadowolenie z małżeństwa i wpływ zadowolenia z sytuacji finansowej na zado-
wolenie z własnych osiągnięć. W każdym z rozważanych modeli zmienna dzieci
jest nieistotna. Usunięcie jej z modelu wydaje się jednak niewłaściwe, biorąc pod
uwagę jej wpływ na zmienną małżeństwo, a przez nią na samą zmienną objaśnianą.
Można ewentualnie usunąć ścieżkę obrazującą jej bezpośredni wpływ na zmienną
objaśnianą w wybranym modelu.
podsumoWanie
Modelowanie strukturalne jest bardzo uniwersalnym narzędziem analizy zależno-
ści liniowych pomiędzy zmiennymi ciągłymi. Pozwala nie tylko na badanie bezpo-
średnich zależności przyczynowo-skutkowych, jak regresja wieloraka, ale również
na uwzględnienie zależności pośrednich oraz kowariancyjnych. W szczególności
może być zastosowane, gdy predyktory w modelu regresji są skorelowane.
Model strukturalny jest obrazem postulowanych na podstawie teorii zależno-
ści pomiędzy badanymi zjawiskami. Konfrontując model z danymi empirycznymi,
możemy odrzucić daną teorię lub nie znaleźć ku temu powodów. Konfrontacja ta
modelowanie strukturalne krok po kroku:

 Specyfikacja teoretycznego modelu strukturalnego na podstawie teorii
i z uwzględnieniem dostępności zmiennych.
 Przygotowanie danych (analiza rozkładów, uzupełnienie braków).
 Sprawdzenie założeń i dobór metody estymacji.
 Estymacja modelu.
 Weryfikacja istotności parametrów i ocena jakości modelu.
 Modyfikowanie modelu za pomocą testów istotności oraz indeksów mody-
fikacji, wybór najlepszego modelu.
 Interpretacja parametrów: efektów bezpośrednich, pośrednich i łącznych.
 Prezentacja modelu.

polega na porównaniu macierzy wariancji-kowariancji zmiennych obserwowalnych

wynikającej z modelu i wartości oszacowanych parametrów z jej empirycznym odpo-
wiednikiem. Metody estymacji wymagają dużych prób, a większość z nich rów-
nież wielowymiarowego rozkładu normalnego badanych zmiennych. Modelowa-
nie strukturalne może też w pewnym stopniu służyć eksploracji, ponieważ wyniki
estymacji sugerują zależności, które należałoby odrzucić albo uwzględnić. Podejście
eksploracyjne nie jest zalecane – najlepiej stosować je do wprowadzania drobnych
ulepszeń w postulowanym modelu, którego podstawą powinna być zawsze teoria.

część ii
modelowanie
strukturalne
rozdział
Modelowanie strukturalne
w podgrupach 8
• specyfikację modelu z podgrupami

• weryfikację hipotez dotyczących równości pojedynczych
parametrów pomiędzy grupami
• weryfikację hipotez dotyczących równości wielu parametrów
pomiędzy grupami
• ocenę zasadności estymacji w podgrupach.

WproWadzenie
Hipotezy badawcze często głoszą, że pewne zjawiska kształtują się w odmienny
sposób w zależności od pewnych cech badanych obiektów. Badacze zastanawiają
się najczęściej, czy poziom nasilenia badanych zjawisk lub cech w wyróżnionych
grupach jest taki sam czy też różny. Sprawdzają na przykład, czy zadowolenie
z małżeństwa jest wyższe wśród kobiet czy wśród mężczyzn.
Zdarza się, że stawiane hipotezy nie dotyczą wpływu danej cechy bezpośred-
nio na poziom badanego zjawiska, lecz jej wpływu na kształtowanie się zależności
pomiędzy nim a innymi zjawiskami. Można na przykład badać, czy wpływ zado-
wolenia z małżeństwa na zadowolenie z życia jest wyższy wśród kobiet czy wśród
mężczyzn. Tak postawione hipotezy badawcze można zweryfikować za pomocą
modelowania strukturalnego. Model strukturalny obejmujący badane zależno-
ści można bowiem oszacować w podgrupach wyróżnionych ze względu na cechy,
które mają te zależności kształtować.
Zazwyczaj, aby oszacować model w podgrupach, tworzy się odrębne zbiory dla
każdej z grup i w każdej z nich osobno szacuje dany model. Wówczas jednak nie-
możliwe jest przeprowadzenie testu istotności różnicy pomiędzy analogicznymi
parametrami modelu w różnych grupach.
W modelowaniu strukturalnym możliwe jest oszacowanie modelu jednocześnie

w kilku podgrupach. Zakłada się, że postać modelu jest taka sama we wszyst-
kich podgrupach i różnice występują jedynie w wartościach parametrów. W każ-
dej grupie występują więc te same parametry, ale ich oszacowane wartości mogą
być w każdej grupie inne.
Dla każdej grupy oblicza się funkcję rozbieżności. Suma tych funkcji, ważona
liczebnością każdej z grup, daje łączną funkcję rozbieżności.
Po oszacowaniu modelu można przeprowadzić test istotności różnicy pomię-
dzy dowolnymi dwoma parametrami całego modelu, na przykład test istotności
różnicy wartości analogicznego parametru w dwóch różnych podgrupach. Moż-
liwe jest również przetestowanie hipotez dotyczących więcej niż dwóch parame-
trów w więcej niż dwóch podgrupach. Przykładowo można sprawdzić, czy dany
parametr ma tę samą wartość w wybranych trzech z czterech podgrup albo czy
dwa różne parametry przyjmują w badanych grupach równe wartości. Wystar-
czy nałożyć na model odpowiednie ograniczenie, a następnie przeprowadzić test
istotności różnicy wartości funkcji dopasowania CMIN.
W ten sam sposób można sprawdzić, czy w ogóle jest sens szacować model
w podgrupach. Wystarczy porównać model, w którym nie ma żadnych ograniczeń

rozdziaŁ 8 Modelowanie strukturalne w podgrupach 203
dotyczących równości parametrów między grupami z modelem, gdzie wszystkie

parametry przyjmują we wszystkich grupach takie same wartości. Korzystając
z testów istotności różnic pomiędzy parametrami oraz indeksów modyfikacji,
można znaleźć najlepszy model pośredni pomiędzy tymi dwoma modelami, który
jest jednocześnie dobrze dopasowany i oszczędny.
specyFiKacja i estymacja
Model strukturalny można oszacować w podgrupach wyznaczonych ze względu
na wybraną cechę. Zakłada się wówczas, że we wszystkich badanych grupach
model ma tę samą postać: występują w nim takie same zmienne połączone takimi
samymi zależnościami. W każdej grupie występuje ten sam zestaw parametrów,
ale ich wartości w każdej grupie mogą być inne. Skoro postać modelu jest w każ-
dej grupie taka sama, to i wykres ścieżkowy dla każdej z grup jest identyczny.
Formalny zapis modelu jest prawie taki sam, jak w przypadku modelu dla całej
próby, różnica polega na tym, że poszczególne parametry należy oznaczyć (indek-
sować) symbolem danej grupy.
Powiedzmy, że celem badania jest sprawdzenie, jak kształtuje się ocena całego
życia w zależności od zadowolenia z poszczególnych jego aspektów w grupie męż-
czyzn i w grupie kobiet. Załóżmy, że zależność oceny całego życia od poszczegól-
nych jego aspektów opisuje model regresji wielorakiej zaprezentowany na rysunku
8.1. Jest to ten sam model, który omawiano w rozdziale 7.
Wykres ścieżkowy nie wymaga żadnych zmian – aby oszacować go w podgru-
pach, wystarczy je zdefiniować. W IBM SPSS Statistics Amos należy nadać gru-
pom nazwy, a następnie przypisać im części zbioru danych. Aby nadać grupom
nazwy, należy podwójnie kliknąć w napis GROUP NUMBER 1, którego położenie
Rysunek 8.1. Model regresji wielorakiej

Rysunek 8.2. Okno MANAGE GROUPS
pokazano na rysunku 8.2. Po kliknięciu wyświetla się okno MANAGE GROUPS.

W polu tekstowym tego okna należy wpisać nazwę pierwszej grupy. Aby nadać
nazwy kolejnym grupom, należy kliknąć przycisk NEW i wpisać nazwę następnej
grupy. Niepotrzebne grupy można skasować, używając przycisku DELETE. Gdy
wpisane zostaną już wszystkie grupy, należy nacisnąć przycisk CLOSE.
Po nadaniu wszystkim grupom nazw, należy wejść do menu FILE/DATA FILES
i przypisać każdej z nich zbiór danych (przycisk FILE NAME), a następnie wybrać
zmienną, która podzieli zbiór na żądane przez nas grupy (przycisk GROUPING
VARIABLE, okno CHOOSE A GROUPING VARIABLE), oraz wskazać wartość
(poziom) wybranej zmiennej, odnoszącą się do interesującej nas części obserwa-
cji (przycisk GROUP VALUE, okno CHOOSE VALUE FOR GROUP). Zilustro-
wano to na rysunku 8.3.
Formalna postać modelu z rysunku 8.1 z podziałem na podgrupy według płci
jest następująca:
{ życie(M) = g1(M) zdrowie(M) + g2(M) finanse(M) + g3(M) małżeństwo(M) + g4(M) dzieci(M) + g5(M) osiągnięcia(M) + e(M)
życie(k) = g1(k) zdrowie(k) + g2(k) finanse(k) + g3(k) małżeństwo(k) + g4(k) dzieci(k) + g5(k) osiągnięcia(k) + e(k)
(1)
Każde z równań występujących we wzorze 1 różni się od równania 1 z roz-

działu 7. tylko indeksami górnymi, które wskazują, do której grupy odnosi się
dane równanie. Indeks (M) oznacza mężczyzn, a (K) kobiety.
Dla każdej z wyróżnionych grup można wyznaczyć funkcję rozbieżności, w spo-
sób analogiczny jak ten opisany w rozdziale 7 w odniesieniu do całej próby. Łączna

Łączna funkcja rozbieżności jest średnią grupowych funkcji rozbieżności, ważoną

udziałami poszczególnych grup w całej próbie. Nie ma więc informacji o dopaso-
waniu modelu w każdej z podgrup osobno. W przypadku, gdy jedna z podgrup
jest bardzo mała w porównaniu z innymi, to nawet gdy model dla niej jest bardzo
słabo dopasowany, może to nie być widoczne w łącznym dopasowaniu modelu.
funkcja rozbieżności dla wszystkich grup to po prostu średnia grupowych funkcji

rozbieżności, ważona udziałami poszczególnych grup w całej próbie. Metody esty-
macji i założenia pozostają takie same jak przy modelowaniu bez podgrup.
Rysunek 8.3. Przypisywanie grupom podzbiorów danych
Ocena jakości modelu w przypadku modelowania w podgrupach również prze-

biega tak samo, jak w sytuacji gdy pracujemy na całej próby. Funkcja rozbieżności
jest funkcją łączną, jedną dla całego modelu, więc model oceniany jest w całości,
a nie w podgrupach. Nie można zatem oceniać, czy model jest lepiej dopasowany,
przykładowo, w grupie kobiet czy w grupie mężczyzn.

Mierniki służące ocenie jakości modelu oblicza się według tych samych wzorów,
co w przypadku całej próby. Jedyna różnica polega na tym, że zamiast N–1 w tych
wzorach występuje N–G, gdzie G jest liczbą grup. W szczególności, wartość CMIN,
którą przy jednej grupie oblicza się mnożąc otrzymaną wartość funkcji rozbieżności
FMIN przez N–1, w sytuacji wielu podgrup oblicza się mnożąc FMIN przez N–G.
Nie wolno porównywać dopasowania modelu oszacowanego w podgrupach

i modelu oszacowanego na całej próbie, odpowiadające im funkcje rozbieżno-
ści są bowiem różne.
Aby się o tym przekonać, wystarczy spojrzeć na dowolny miernik dopasowa-

nia modelu nasyconego (lub modelu niezależności) szacowanego w podgrupach
i na całej próbie i przekonać się, że są one różne.
Dla każdej grupy otrzymuje się inne wartości parametrów. Dotyczy to w szcze-
gólności współczynników ścieżkowych, efektów łącznych, kowariancji, wariancji
składników losowych i współczynników korelacji wielokrotnej. Wobec tego cała
interpretacja i prezentacja wyników odbywa się w podziale na podgrupy. Indeksy
modyfikacji również są różne dla różnych podgrup. Aby wyświetlić oszacowania
z danej grupy w IBM SPSS Statistics Amos, trzeba wybrać ją w lewej dolnej części
ekranu wyników (por. rys. 10.5). Aby parametry odpowiedniej grupy pojawiły się na
wykresie ścieżkowym, należy wybrać daną grupę w sposób pokazany na rysunku 8.2.
poróWanyWanie pojedynczych parametróW

między grupami
Hipotezy proste, czyli dotyczące równości pojedynczych parametrów, można zwe-
ryfikować za pomocą testu istotności różnic. Jest on bardzo podobny do testu t
równości średnich w niezależnych próbach, opisanego w rozdziale 8 Statystycz-
nego drogowskazu… (Bedyńska, Brzezicka, 2007, s. 197). Jeżeli wartość statystyki
testowej mieści się w przedziale [–2, 2], to nie ma podstaw do odrzucenia hipo-
tezy zerowej o równości badanych parametrów. Innymi słowy, możemy wówczas
Test istotności różnicy dwóch parametrów służy weryfikacji, czy są one równe
w populacji. Technicznie porównać można dowolne dwa parametry modelu: ten
sam parametr w różnych grupach, różne parametry w tej samej grupie, różne
parametry w różnych grupach. Zwykle nie ma sensu porównywać parametrów
różnego typu, np.: parametru ścieżkowego z wariancją. Porównywanie parame-
trów jest możliwe również w modelu bez podgrup.

uznać, że badane parametry są równe. Jeśli zaś wartość statystyki testowej wykra-
cza poza ten przedział, można uznać, że parametry istotnie się różnią.
W celu obliczenia wartości statystyk testów istotności parametrów należy
w IBM SPSS Statistics Amos zaznaczyć CRITICAL RATIOS FOR DIFFEREN-
CES w zakładce OUTPUT okna ANALYSIS PROPERTIES (zob. rys. 8.4).
Rysunek 8.4. Wybór testu istotności różnic parametrów
W tabelach 8.1 i 8.2 zestawiono wartości parametrów ścieżkowych w modelu

regresji wielorakiej przedstawionej na rysunku 8.1 osobno dla mężczyzn i kobiet.
W tabeli 8.3 zamieszczono fragment macierzy z wartościami statystyk testów
istotności różnic parametrów.
Aby sprawdzić, czy wybrane dwa parametry różnią się od siebie w sposób istotny
statystycznie, należy odczytać ich nazwy z kolumny LABEL w tabeli zawierającej ich
oszacowania, a następnie w tabeli zawierającej statystyki testowe testów istotności
różnic parametrów odszukać komórkę odpowiadającą tej parze nazw parametrów.
Porównanie sposobu kształtowania się oceny całego życia u mężczyzn i kobiet
oznacza sprawdzenie istotności różnic pomiędzy parametrami par_1 i par_6, par_2
i par_7, par_3 i par_8, par_4 i par_9 oraz par_5 i par_10. Odpowiednie statystyki
testowe zaznaczyłyśmy pogrubieniem w tabeli 8.3. Wynoszą one: 0,399, –0,740,
–0,613, 3,532 i 0,141. Tylko w jednym przypadku wartość statystyki testowej
wykracza poza przedział [–2, 2], a wynosi ona 3,532. Dotyczy ona parametrów:
par_4 i par_9, które opisują wpływ zadowolenia z własnych osiągnięć życiowych

Tabela 8.1. Oszacowania parametrów ścieżkowych w grupie mężczyzn
RegReSSIoN WeIgHTS (mężczyźni – default model)

życie finanse ,125 ,010 12,786 *** par _ 1

życie zdrowie ,063 ,011 5,956 *** par _ 2
życie małżeństwo ,350 ,018 19,920 *** par _ 3
życie osiągnięcia ,098 ,015 6,434 *** par _ 4
życie dzieci ,107 ,026 4,166 *** par _ 5
Tabela 8.2. Oszacowania parametrów ścieżkowych w grupie kobiet
RegReSSIoN WeIgHTS (kobiety – default model)

życie finanse 131 ,011 11,623 *** par _ 6

życie zdrowie ,062 ,012 5,332 *** par _ 7
życie małżeństwo ,330 ,027 12,434 *** par _ 8
życie osiągnięcia ,187 ,020 9,291 *** par _ 9
życie dzieci ,113 ,030 3,705 *** par _ 10
na ocenę całego życia. Istnieją zatem podstawy do odrzucenia hipotezy zerowej

głoszącej, że wpływ zadowolenia z własnych osiągnięć życiowych na ocenę całego
życia jest taki sam wśród zarówno kobiet, jak i mężczyzn. U mężczyzn parametr
opisujący ten wpływ wyniósł 0,187, a u kobiet tylko 0,098. Można więc powie-
dzieć, że zadowolenie z własnych osiągnięć jest dla mężczyzn ważniejsze do oceny
całego życia niż dla kobiet. W przypadku pozostałych badanych aspektów życia
nie ma podstaw do odrzucenia hipotezy zerowej o równości parametrów opisują-
cych ich wpływ na ocenę całego życia u kobiet i u mężczyzn.
Tabela 8.3. Fragment macierzy zawierającej statystyki testów istotności różnic dotyczący
współczynników ścieżkowych
CRITICAl RATIoS FoR dIFFeReNCeS BeTWeeN PARAMeTeRS (default model)

par _ 1 par _ 2 par _ 3 par _ 4 par _ 5 par _ 6 par _ 7 par _ 8 par _ 9 par _ 10
par _ 1 ,000
par _ 2 –5,192 ,000
par _ 3 –12,461 15,522 ,000
par _ 4 –1,880 2,409 –13,152 ,000
par _ 5 –,696 1,711 –10,711 ,340 ,000
par _ 6 ,399 4,398 –10,483 1,740 ,858 ,000
par _ 7 –4,166 –,074 –13,681 –1,890 –1,740 –5,407 ,000
par _ 8 7,249 9,347 –,613 7,583 6,044 7,470 9,966 ,000
par _ 9 2,778 5,459 –6,077 3,532 2,461 3,065 7,153 –5,020 ,000
par _ 10 –,391 1,541 –6,758 ,428 ,141 –,606 1,682 –7,605 –2,346 ,000

Porównywanie parametrów parami pozwala również uporządkować je według

ich wartości. W tym przypadku możemy stworzyć swego rodzaju ranking aspek-
tów życia pod kątem ich wpływu na ocenę całego życia.
I tak u kobiet najważniejsze dla oceny całego życia jest zadowolenie z małżeń-
stwa. Parametr par_3 (małżeństwo) różni się bowiem istotnie od parametrów par_1
( finanse), par_2 (zdrowie), par_4 (osiągnięcia) i par_5 (dzieci) i jest od nich wyższy. Na
drugim miejscu znajdują się ex aequo zadowolenie z własnych osiągnięć, warun-
ków finansowych i dzieci. Nie ma bowiem istotnych różnic pomiędzy parame-
trami par_1 ( finanse), par_4 (osiągnięcia) i par_5 (dzieci). Każdy z nich jest natomiast
istotnie niższy niż par_3 (małżeństwo). Najmniej ważne jest zadowolenie ze stanu
zdrowia. Jest ono (par_2) istotnie mniej ważne niż małżeństwo (par_3), osiągnię-
cia (par_4) i finanse (par_1). Nie jest natomiast istotnie mniej ważne niż zadowo-
lenie z dzieci, choć statystyka testowa jest dość odległa od 0.
U mężczyzn również najważniejsze jest zadowolenie z małżeństwa (par_8 jest
istotnie różny i wyższy niż par_6, par_7, par_9 i par_10). Zadowolenie z własnych
osiągnięć jest natomiast wyraźnie na miejscu 2. (par_9 jest istotnie różny i więk-
szy niż par_6, par_7 i par_10), podczas gdy u kobiet było ono równie ważne jak
zadowolenie z sytuacji finansowej i dzieci. Finanse i dzieci są u mężczyzn ex aequo
na miejscu 3. (par_6 nie jest istotnie różny od par_10). I podobnie jak u kobiet
najmniej ważne jest zadowolenie ze stanu własnego zdrowia (par_7 jest istotnie
niższy niż par_6, par_8 i par_9), choć nie jest istotnie mniej ważne niż zadowo-
lenie z dzieci (par_7 nie jest istotnie różny od par_10).
Na podstawie porównania parametrów pomiędzy grupami i w ramach grup
można zdecydowanie stwierdzić, że osiągnięcia są znacznie ważniejsze w ocenie
całego życia u mężczyzn niż u kobiet.
WeryFiKacja zŁożonych hipotez dotyczących

róWności parametróW między grupami
Za pomocą modelowania strukturalnego możemy również weryfikować hipotezy
złożone, czyli dotyczące wielu parametrów.
Hipoteza mówiąca o równości wszystkich parametrów między grupami pozwala
sprawdzić, czy w ogóle jest sens rozważać podział na podgrupy.
Weryfikacja hipotezy złożonej wymaga w pierwszej kolejności nałożenia testo-
wanych ograniczeń. Po kliknięciu na poszczególne elementy wykresu ścieżko-
wego w IBM SPSS Statistics Amos otworzy się nam okno OBJECT PROPERTIES,
w którym w zakładce PARAMETERS znajduje się pole tekstowe opatrzone nazwą
danego parametru: REGRESSION WEIGTH, COVARIANCE lub VARIANCE
oraz pole wyboru podpisane ALL GROUPS (zob. rys. 8.5). Jeżeli parametr ma
przyjąć konkretną wartość, wówczas tę właśnie wartość musimy wpisać w pole

Przykłady hipotez złożonych:

 wszystkie parametry są równe między grupami
 wybrane parametry są równe między grupami
 wybrane parametry w wybranych grupach przyjmują określoną wartość (np. 0).
tekstowe pod nazwą tego parametru. Jeżeli to ograniczenie ma dotyczyć tylko

jednej z grup, musimy przy tym odznaczyć pole wyboru ALL GROUPS i dopilno-
wać, by w miejscu pokazanym na rysunku 8.2 w momencie zaznaczania widniała
ta grupa, której ograniczenie ma dotyczyć. Jeżeli ograniczenie polega na tym, że
dwa parametry mają być sobie równe, to zamiast konkretnej liczby musimy wpi-
sać dowolny ciąg znaków – taki sam dla obu parametrów, które mają być równe.
Na przykład jeżeli dany parametr ma być równy we wszystkich grupach, w pole
tekstowe pod nazwą tego parametru wstawiamy dowolny ciąg znaków, na przy-
kład „a”, i pozostawiamy zaznaczone pole wyboru ALL GROUPS.
Rysunek 8.5. Zakładka PARAMETERS okna OBJECT PROPERTIES
Model z ograniczeniami jest z definicji zagnieżdżony w modelu bez ograniczeń.

Do weryfikacji badanej hipotezy można użyć zatem testu porównującego dopaso-
wanie modeli zagnieżdżonych, opisanego w rozdziale 7 w części dotyczącej testu
dopasowania modelu. Hipoteza zerowa tego testu głosi, że model z ograniczeniami
jest równie dobrze dopasowany, jak model bez ograniczeń. Model z ograniczeniami
jest prostszy – ma mniej parametrów. Jeśli więc okazuje się, że jest równie dobrze
dopasowany jak model bardziej skomplikowany, to należy uznać, że jest lepszy.
Statystyka testowa testu porównującego dopasowanie modeli to różnica w war-
tościach CMIN modelu bez ograniczeń i modelu z ograniczeniami. Ma ona roz-
kład chi-kwadrat z liczbą stopni swobody równą różnicy w liczbie stopni swobody
porównywanych modeli. Oprócz wykonania tego testu warto, abyśmy sprawdzili

wartości mierników modelu, które biorą pod uwagę jego złożoność, zwłaszcza
PGFI, PNFI i PCFI. Model bez ograniczeń może być bowiem lepiej dopasowany,
ale nie na tyle lepiej, by usprawiedliwiało to dodatkową liczbę parametrów.
Model zaprezentowany na rysunku 8.1 oszacowaliśmy w podgrupach ze
względu na płeć. Weryfikacja równości parametrów przeprowadzana pojedynczo
pokazała, że tylko wpływ zadowolenia z osiągnięć różni się ze względu na płeć.
Powstaje więc pytanie, czy w ogóle jest sens rozważać ten model w osobnych pod-
grupach – u mężczyzn i u kobiet. Aby to sprawdzić, musimy zachować mierniki
jakości modelu oszacowanego w podgrupach, a następnie porównać je z ich odpo-
wiednikami dla modelu, w którym na wszystkie parametry nałożono ogranicze-
nie zakładające, że są one w obu grupach równe. Przypomnimy tu, że wszystkie
parametry to nie tylko współczynniki ścieżkowe, ale również wariancje zmien-
nych objaśniających i składnika losowego. Po nałożeniu testowanych ograniczeń
model powinien wyglądać, tak jak to przedstawiłyśmy na rysunku 8.6 (oczywi-
ście parametry można nazwać inaczej), niezależnie od tego, czy po lewej stronie
zaznaczona jest grupa kobiet czy mężczyzn. Teraz nadane przez nas nazwy będą
się pojawiały w kolumnie LABEL w tabelach ESTIMATES, a nie nazwy domyślne,
takie jak par_1, par_2 itd.
Rysunek 8.6. Model z rysunku 8.1 z nałożonymi ograniczeniami na równość wszystkich

parametrów między grupami
W tabeli 8.4 zestawiłyśmy mierniki jakości modelu szacowanego w podgru-

pach bez ograniczeń i z ograniczeniami na równość wszystkich parametrów mię-
dzy grupami. Oprócz statystyki CMIN i liczby stopni swobody pokazałyśmy
mierniki odnoszące się do modelu niezależności, polecane przy porównywaniu
modeli zagnieżdżonych.

Tabela 8.4. Porównanie dopasowania modelu z parametrami równymi i różniącymi się

między grupami
Parametry między grupami CMIN DF ECVI NFI RFI PNFI CFI PCFI
równe 3709,485 31 0,269 0,117 0,146 0,121 0,119 0,122

różne 3606,419 20 0264 0,142 0,287 0,095 0,141 0,094
Wartość statystyki testu porównującego dopasowanie tych zagnieżdżonych modeli

wynosi: 3709,485 – 3606,419 = 103,066, a liczba stopni swobody 31 – 20 = 11.
Wartość krytyczna dla rozkładu chi-kwadrat z 11 stopniami swobody wynosi 20 (dla
poziomu istotności 0,05). Wartość statystyki testowej jest więc znacznie większa niż
wartość krytyczna, należy zatem odrzucić hipotezę zerową o jednakowym dopasowaniu
obu modeli i uznać, że nałożone ograniczenia są zbyt mocne. Stąd wniosek, że istnieje
sens rozważać model w podgrupach wyróżnionych ze względu na płeć. Z drugiej strony
nie da się nie zauważyć, że mierniki biorące pod uwagę złożoność modelu wskazują,
że lepszy jest model z parametrami równymi między grupami. RFI i TLI przyjmują
wręcz ujemne wartości dla modelu szacowanego w podgrupach, a PNFI i PCFI są
bardzo niskie. Wobec tego należy się spodziewać, że najlepszy do opisu kształtowania
się oceny całego życia wśród kobiet i mężczyzn może być jakiś model pośredni.
Jeśli zdecydujemy się na podejście od ogółu do szczegółu, musimy najpierw osza-
cować model, w którym wszystkie parametry są różne. Taki właśnie otrzymujemy
po zdefiniowaniu podgrup w IBM SPSS Statistics Amos. Następnie porównujemy
odpowiednie parametry pomiędzy grupami i tam, gdzie nie ma podstaw, by uznać
je za różne – nakładamy ograniczenie równości. Podejście od szczegółu do ogółu za-
czyna się od modelu z ograniczeniami nałożonymi na każdą parę parametrów (model
z rys. 8.6) i prowadzi przez zdejmowanie ograniczeń dla tych parametrów, które zo-
staną wskazane przez indeksy modyfikacji.
najlepszy model można znaleźć dwoma drogami:

 od ogółu do szczegółu – bardziej poprawne metodologicznie
 od szczegółu do ogółu – możliwe do zrealizowania nawet przy bardzo małej licz-
bie stopni swobody (mało zmiennych obserwowalnych i dużo parametrów).
W poprzednim podrozdziale dokonałyśmy porównania parami współczynników

ścieżkowych – okazało się, że tylko parametr opisujący wpływ zadowolenia z własnych
osiągnięć na ocenę całego życia jest istotnie różny u kobiet i u mężczyzn. Następnie
należy porównać pozostałe parametry, czyli wariancje zmiennych objaśniających
i składnika losowego. Odpowiedni fragment tabeli testów istotności różnic zawiera
tabela 8.5. Wariancje z części modelu dotyczącej mężczyzn mają nazwy par_11 do

Tabela 8.5. Fragment macierzy zawierającej statystyki testów istotności różnic

dotyczący wariancji
CRITICAl RATIoS FoR dIFFeReNCeS BeTWeeN PARAMeTeRS (default model)

Variable par _ 11 par _ 12 par _ 13 par _ 14 par _ 15 par _ 16
par _ 17 –,285 3,422 19,330 19,759 36,304 28,343

par _ 18 –1,522 2,082 17,646 17,678 33,342 25,754
par _ 19 –27,863 –23,965 –6,314 –10,517 4,006 –3,676
par _ 20 –24,725 –20,368 –,985 –4,737 12,951 3,709
par _ 21 –35,852 –31,333 –10,806 –17,104 –,279 –9,552
par _ 22 –26,219 –21,772 –1,967 –6,056 11,988 2,496
par_16, a odpowiednie wariancje z modelu dla kobiet nazwy par_17 do par_22.

Statystyki testu istotności różnic tych parametrów między grupami znajdują się na
przekątnej i zostały pogrubione. Z ich wartości wynika, że tylko wariancje zmiennych
zdrowie (par_12 i par_18), małżeństwo (par_13 i par_19), osiągnięcia (par_14 i par_20)
i wariancja składnika losowego e (par_16 i par_22) różnią się między grupami.
Tabele 8.6. Indeksy modyfikacji dotyczące współczynników ścieżkowych i wariancji

w modelu, w którym założono, że parametry nie różnią się między grupami
VARIANCeS (mężczyźni – default model)

Varaible MI Par change
osiągnięcia 12,376 ,054

małżeństwo 24,786 ,112
e 4,914 –,028
RegReSSIoN WeIgHTS (mężczyźni – default model)

życie osiągnięcia 9,884 –,044
VARIANCeS (kobiety – default model)

osiągnięcia 12,047 –,053

małżeństwo 19,508 –,088
zdrowie 4,684 ,047
e 6,345 ,036
RegReSSIoN WeIgHTS (kobiety – default model)

MI Par change
życie osiągnięcia 11,604 ,051

Do identycznych rezultatów prowadzi też podejście wychodzące od modelu ze

wszystkimi parametrami równymi między grupami i oparte na indeksach modyfika-
cji. Wartości indeksów modyfikacji odnoszących się do ograniczonych parametrów
przedstawiają tabele 8.6. Wynika z nich, że warto rozważyć to, że grupy różnią się
pod względem siły tylko w przypadku wpływu zmiennej osiągnięcia na zmienną
życie i dla wariancji zmiennych osiągnięcia, małżeństwo, zdrowie i składnika losowego.
Tabela 8.7 jest rozszerzeniem tabeli 8.4 o model, który oba zaprezentowane
wyżej podejścia wskazały jako najlepszy. Większość mierników wskazuje na
model pośredni jako na najlepszy. Test równości dopasowania modelu pośredniego
i modelu, gdzie wszystkie parametry różnią się między grupami, wskazuje na
brak podstaw do odrzucenia hipotezy o jednakowym dopasowaniu tych modeli
(wartość statystyki testowej: 3607,488 – 3606,419 = 1,069, liczba stopni swobody:
26 – 20 = 6, wartość krytyczna dla rozkładu chi-kwadrat z 6 stopniami swobody
= 13; 1,069 < 13). Model pośredni jest więc równie dobrze dopasowany jak
model najmniej restrykcyjny, a jednocześnie jest bardziej oszczędny. Ten model
powinniśmy przyjąć i na nim opierać interpretację parametrów.
Tabela 8.7. Porównanie dopasowania modelu z parametrami równymi i różniącymi się

między grupami z dopasowaniem najlepszego modelu pośredniego
Parametry między grupami CMIN DF ECVI NFI RFI PNFI CFI PCFI
równe 3709,485 31 0,269 0,117 0,146 0,121 0,119 0,122

wybrane równe, pozostałe 3607,488 26 0,263 0,142 0,010 0,123 0,142 0,123
różne 3606,419 20 0,264 0,142 –0,287 0,095 0,141 0,094
podsumoWanie
Możliwość szacowania modeli strukturalnych w podgrupach jest jedną z wielkich
zalet modelowania strukturalnego. Warto z niej skorzystać zawsze, gdy celem ana-
lizy jest zbadanie wpływu pewnej cechy na zależności pomiędzy badanymi zja-
wiskami. Założeniem koniecznym do wykonania takiej analizy jest jednakowa
postać modelu w badanych grupach, czyli występowanie tych samych zmiennych
połączonych zależnościami tego samego typu. Różnice między grupami muszą
się ograniczać do wartości parametrów.
Funkcja rozbieżności modelu szacowanego w podgrupach jest funkcją łączną,
więc cały model szacowany jest jednocześnie. Dzięki temu możliwe jest przeprowa-
dzenie testów istotności różnic pomiędzy dowolnymi dwoma parametrami z róż-
nych podgrup. Szacowanie modelu w podgrupach pozwala również na weryfiko-
wanie hipotez złożonych, dotyczących wielu parametrów. Możliwe jest nakładanie

na parametry różnorakich ograniczeń, zarówno w ramach poszczególnych grup,

jak i między grupami. Prawdziwość tych ograniczeń weryfikuje się za pomocą testu
istotności różnicy dopasowania modeli zagnieżdżonych. Warto jednak sprawdzać
inne mierniki jakości modelu, zwłaszcza te biorące pod uwagę jego złożoność.
Gdy przeprowadzamy analizę w podgrupach, dobrze żebyśmy znaleźli model
pośredni pomiędzy tym, w którym wszystkie parametry różnią się między gru-
pami, a tym, w którym wszystkie parametry są w obu grupach równe. Dobry
model pośredni jest dobrze dopasowany, ale oszczędny, i jasno pokazuje, które
parametry rzeczywiście różnią się między grupami, co ułatwia prezentację i inter-
pretację wyników.

część ii
modelowanie
strukturalne
rozdział
Modelowanie strukturalne
ze zmiennymi ukrytymi 9
• specyfikację modelu strukturalnego ze zmiennymi ukrytymi

• model konfirmacyjnej analizy czynnikowej.

WproWadzenie
W naukach społecznych: psychologii, socjologii, marketingu bardzo często badane
są zjawiska, których bezpośredni pomiar jest niemożliwy albo trudny. Mówi się
o nich, że są niemierzalne, nieobserwowalne i nazywa konstruktami lub zjawi-
skami ukrytymi. Przykładami są depresja, akceptacja przez grupę rówieśników
czy lojalność wobec marki. Pomiaru takich zjawisk dokonuje się za pomocą skali
kilku, kilkunastu, a nawet kilkudziesięciu pytań, z których każde dotyczy nieco
innego aspektu badanego zjawiska. Przykładem może być skala depresji Becka,
składająca się z 21 pytań dotyczących fizycznych (utrata apetytu), psychicznych
(poczucie winy) i społecznych (zainteresowanie innymi ludźmi) aspektów depre-
sji. Pytania służące pośredniemu pomiarowi ukrytego konstruktu nazywa się jego
wskaźnikami cząstkowymi.
Dalsza analiza ukrytego konstruktu wymaga jego operacjonalizacji w postaci
pojedynczej zmiennej. Jeżeli na przykład celem analizy jest zbadanie wpływu
innych konstruktów na dany konstrukt, to naturalnym narzędziem jest analiza
regresji, opisana w rozdziale 1. Technika ta wymaga jednak, aby analizowanym
konstruktom odpowiadały pojedyncze zmienne. Operacjonalizacji konstruktów
dokonuje się zwykle za pomocą analizy czynnikowej, opisanej w rozdziale 6
Statystycznego drogowskazu… (Bedyńska, Brzezicka, 2007). Pozwala ona obliczyć
wskaźnik danego konstruktu jako ważoną sumę jego wskaźników cząstkowych.
Modelowanie strukturalne pozwala połączyć analizę czynnikową i analizę
regresji. Jak wiemy z rozdziału 7, model strukturalny opisuje zależności przyczy-
nowo-skutkowe pomiędzy badanymi zjawiskami – podobnie jak regresja. Jeżeli
któreś z badanych zjawisk jest nieobserwowalne, model można poszerzyć o model
analizy czynnikowej, pozwalający zmierzyć to zjawisko. W języku modelowania
strukturalnego ta część modelu nazywa się modelem pomiarowym.
Parametry modelu strukturalnego i pomiarowego są szacowane jednocześnie.
Dlatego warto przez oszacowaniem całego modelu zweryfikować model pomiarowy,
by nie trzeba było wprowadzać w nim zmian pod wpływem zależności zachodzą-
cych w modelu strukturalnym. Skoro model pomiarowy to model analizy czynni-
kowej, to weryfikuje się go, przeprowadzając konfirmacyjną analizę czynnikową.

rozdziaŁ 9 Modelowanie strukturalne ze zmiennymi ukrytymi 219
specyFiKacja modelu struKturalnego

ze zmiennymi uKrytymi
Model strukturalny ze zmiennymi ukrytymi składa się z części strukturalnej model strukturalny
i pomiarowej. Część strukturalna opisuje dyktowane teorią zależności przyczy- ze zmiennymi ukrytymi
nowo-skutkowe bądź korelacyjne pomiędzy badanymi zjawiskami. Zjawiska część strukturalna
te mogą być bezpośrednio mierzalne i wówczas w modelu odpowiada im
jedna zmienna obserwowalna. Gdy analizowane zjawiska nie są bezpośrednio zmienna obserwowalna
mierzalne, w modelu reprezentują je zmienne nieobserwowalne. Za pośredni zmienna nieobserwowalna
pomiar konstruktów odpowiada część pomiarowa modelu. Opisuje ona relacje część pomiarowa
pomiędzy ukrytymi konstruktami i ich wskaźnikami cząstkowymi, tak jak model wskaźniki cząstkowe
analizy czynnikowej.
część struKturalna modelu
Specyfikacja części strukturalnej modelu przebiega prawie dokładnie tak samo

jak dla modelu strukturalnego ze zmiennymi obserwowalnymi, opisanego w roz-
dziale 7. Jedyna różnica polega na tym, że zmienne ukryte symbolizuje elipsa,
a nie prostokąt.
W rozdziale 7 celem modelowania było wyjaśnienie kształtowania się oceny
całego życia. Wszystkie zmienne objaśniające były obserwowalne i mierzyły zado-
wolenie z jednego konkretnego aspektu życia: dzieci, małżeństwa, sytuacji finanso-
wej, własnych osiągnięć i stanu zdrowia. Z wyjątkiem stanu zdrowia każdy z tych
aspektów przynależy do pewnej sfery życia: dzieci i małżeństwo do relacji społecz-
nych, sytuacja finansowa – do warunków materialnych, własne osiągnięcia – do
samorealizacji. Na rysunku 9.1 znajduje się model strukturalny opisujący kształ-
towanie się oceny całego życia w zależności od zadowolenia z tych stref. Model
ten jest prawie taki sam jak model przestawiony na rysunku 7.2 w rozdziale 7, ale
bezpośrednio mierzalne zadowolenie z konkretnych aspektów życia zastąpiono
niemierzalnym zadowoleniem z obejmujących je sfer życia.
W modelu zaprezentowanym na rysunku 9.1 występują dwie zmienne obser-
wowalne: życie – ocena całego życia i zdrowie – zadowolenie ze stanu własnego
zdrowia. Zmiennych nieobserwowalnych jest pięć. Dwa z nich to składniki losowe:
e1 – składnik losowy z podmodelu objaśniającego ocenę całego życia oraz e2 – skład-
nik losowy z podmodelu objaśniającego zadowolenie z samorealizacji. Zmienne
Materialne, Społeczne i Samorealizacja to zmienne nieobserwowalne, oznacza-
jące odpowiednio zadowolenie z warunków materialnych, relacji społecznych
i samorealizacji. Ocena całego życia jest objaśniana przez zadowolenie ze stanu

Rysunek 9.1. Część strukturalna modelu ze zmiennymi ukrytymi
własnego zdrowia, warunków materialnych, relacji społecznych i samorealizacji.

Zadowolenie z samorealizacji zależy od zadowolenia z warunków materialnych
i relacji społecznych. Zadowolenie z warunków materialnych jest skorelowane
z zadowoleniem z relacji społecznych i stanu własnego zdrowia.
Formalny zapis tej części modelu jest następujący:
życie = g11 zdrowie + g12 Materialne + g13 Społeczne + g14 Samorealizacja + e1

Samorealizacja= g22 Materialne + g23 Społeczne + e2 (1)
cov(Materialne,Społeczne) = φ22
część pomiaroWa modelu
Jeżeli w modelu strukturalnym występują zmienne nieobserwowalne, to nie da

się go oczywiście oszacować. Trzeba dokonać pomiaru tych zmiennych i uzupeł-
nić model o część pomiarową. Część pomiarowa modelu opisuje relacje pomiędzy

zmiennymi nieobserwowalnymi i zmiennymi obserwowalnymi, służącymi do ich

pomiaru. Owe zmienne obserwowalne nazywa się ich wskaźnikami cząstkowymi. wskaźniki cząstkowe
Na rysunku 9.2 przedstawiono model strukturalny z rysunku 9.1, poszerzony
o część pomiarową zmiennych nieobserwowalnych.
Do pomiaru zadowolenia z warunków materialnych użyto zadowolenia z sytu-
acji finansowej ( finanse), z dochodów rodziny (dochody) i możliwości zaspokojenia
potrzeb żywieniowych (żywienie). Pomiar zadowolenia z relacji społecznych odbył
się za pomocą pytań o zadowolenie ze stosunków z najbliższymi w rodzinie (bliscy),
z małżeństwa (małżeństwo) i dzieci (dzieci). Zadowolenie z samorealizacji zmierzono,
pytając o zadowolenie z własnych osiągnięć (osiągnięcia), własnego wykształcenia
(wykształcenie), sposobu spędzania wolnego czasu (wolne).
Zaprezentowany na rysunku 9.2 model pomiarowy to model analizy czynni-
kowej. Zmienne ukryte, jak czynniki, determinują wartości swoich wskaźników
cząstkowych. Oczywiście zmienna ukryta nie wyjaśnia całej zmienności swo-
ich wskaźników cząstkowych, więc przy każdym z nich jest też odrębny skład-
nik losowy (zmienne e3–e11). Brak jakichkolwiek bezpośrednich relacji pomiędzy
wskaźnikami cząstkowymi na rysunku 9.2 oznacza założenie, że wszelkie istnie-
jące zależności pomiędzy nimi wynikają tylko z ich zależności od ich zmiennych
ukrytych i zależności pomiędzy zmiennymi ukrytymi.
Rysunek 9.2. Model strukturalny ze zmiennymi ukrytymi i ich modelem pomiarowym

Formalny zapis całego modelu z rysunku 9.2 jest następujący:
życie = g11 zdrowie + g12 Materialne + g13 Społeczne + g14 Samorealizacja + e1

Samorealizacja= g22 Materialne + g23 Społeczne + e2
cov(zdrowie,Społeczne) = φ12
cov(Materialne,Społeczne) = φ22
finanse = Matrialne + e3
dochody = g4 Materialne + e4
żywienie = g5 Materialne + e5 (2)
bliscy = Społeczne + e6
małżeństwo = g7 Społeczne + e7
dzieci = g8 Społeczne + e8
osiągnięcia = Samorealizacja + e9
wykształcenie = g10 Samorealizacja + e10
wolne = g11 Samorealizacja + e11
Pomiarowej części modelu odpowiada ostatnie dziesięć równań. Przy skład-

nikach losowych e3–e11 nie stoją żadne współczynniki. Dlatego na rysunku przy
odpowiednich strzałkach widnieje cyfra 1, oznaczająca, że te współczynniki ścież-
kowe są równe 1. Cyfra 1 widnieje też przy współczynniku ścieżkowym, prowadzą-
cym od zmiennej ukrytej do jednego, wybranego przez badacza, z jej wskaźników
cząstkowych. We wzorze 2 w równaniach opisujących te wskaźniki cząstkowe,
przy zmiennej ukrytej nie stoi żaden parametr. Przyjęcie takiego zapisu oznacza,
że konstrukt materialne niejako dziedziczy skalę pomiaru po zmiennej finanse,
konstrukt społeczne – po zmiennej bliscy i konstrukt samorealizacja – po zmien-
nej osiągnięcia. Powyższy zestaw założeń jest konieczny, żeby możliwe było osza-
cowanie parametrów modelu. Oszacowanie modelu może być też niemożliwe, gdy
zmienne ukryte mają mniej niż trzy wskaźniki cząstkowe.
KonFirmacyjna analiza czynniKoWa jaKo

narzędzie WeryFiKacji modelu pomiaroWego
Do szacowania modelu strukturalnego ze zmiennymi ukrytymi dobrze jest przy-

stąpić, mając już dopracowaną część pomiarową modelu, aby nie zmieniać jej
pod wpływem testowanych zależności pomiędzy konstruktami. Dlatego część
pomiarową należy zweryfikować, zanim przejdzie się do estymacji modelu doce-
lowego. Jedną z metod weryfikacji modelu pomiarowego jest konfirmacyjna
analiza czynnikowa.

Model konfirmacyjnej analizy czynnikowej odpowiadający modelowi pomia-

rowemu z rysunku 9.2 przedstawiono na rysunku 9.3. Założono, że czynniki są
skorelowane – stąd dwukierunkowe strzałki pomiędzy nimi. Jeżeli czynniki mia-
łyby być nieskorelowane, te strzałki należałoby usunąć.
Rysunek 9.3. Model konfirmacyjnej analizy czynnikowej ze skorelowanymi czynnikami
Formalny zapis modelu z rysunku 9.3 jest następujący:
cov(Społeczne,Materialne) = φ12
cov(Materialne,Samorealizacja) = φ23
cov(Społeczne,Samorealizacja) = φ13
finanse = Matrialne + e3
dochody = g4 Materialne + e4
żywienie = g5 Materialne + e5 (3)
bliscy = Społeczne + e6
małżeństwo = g7 Społeczne + e7
dzieci = g8 Społeczne + e8
osiągnięcia = Samorealizacja + e9
wykształcenie = g10 Samorealizacja + e10
wolne = g11 Samorealizacja + e11
Jakość modelu analizy czynnikowej określa się między innymi, badając war-
tości ładunków czynnikowych oraz procent wyjaśnianej wariancji.

standaryzowana W modelowaniu strukturalnym wartość ładunku to standaryzowana wartość współ-

wartość współczynnika czynnika ścieżkowego odpowiadającego ścieżce łączącej dany wskaźnik cząst-
ścieżkowego kowy ze zmienną ukrytą. Procent wyjaśnianej wariancji to współczynnik korelacji
procent wyjaśnianej wielokrotnej, czyli R2. Zwykle przyjmuje się, że ładunki powinny przekraczać 0,7,
wariancji a odtwarzana wariancja 0,5.
Standaryzowane wartości współczynników ścieżkowych znajdują się w tabeli

STANDARDIZED REGRESSION WEIGTHS, współczynniki korelacji wielo-
krotnej zaś – w tabeli SQUARED MULTIPLE CORRELATIONS. Aby otrzymać
te dwie tabele, należy zaznaczyć STANDARDIZED ESTIMATES oraz SQU-
ARED MULTIPLE CORRELATIONS w zakładce OUTPUT okna ANALYSIS
PROPERTIES (zob. rys. 9.4).
Rysunek 9.4. Wybór ładunków i wyjaśnianej wariancji
Tabele 9.1 przedstawiają fragment wydruku oszacowań modelu z rysunku 9.3.

Wartości ładunków czynnikowych (tabela STANDARDIZED REGRESSION
WEIGTHS) przekraczają pożądaną wartość 0,7 dla zmiennych małżeństwo, finanse,

Tabele 9.1. Oszacowania modelu konfirmacyjnej analizy czynnikowej

Estimate
bliscy Społeczne ,604

małżeństwo Społeczne ,733
dzieci Społeczne ,629
finanse Materialne ,893
dochody Materialne ,928
żywienie Materialne ,736
osiągnięcia Samorealizacja ,753
wykształcenie Samorealizacja ,634
wolne Samorealizacja ,598
CoRRelATIoNS (group number 1 – default model)

Estimate
społeczne Materialne ,325

materialne Samorealizacja ,592
społeczne Samorealizacja ,533

Variable Estimate
wolne ,358
wykształcenie ,402
osiągnięcia ,567
żywienie ,541
dochody ,861
finanse ,797
dzieci ,395
małżeństwo ,537
bliscy ,365
dochody, żywienie i osiągnięcia. Dla zmiennych bliscy, dzieci i wykształcenie są one powyżej 0,6,
co jest akceptowalnym wynikiem. Ładunek przy zmiennej wolne wynosi 0,598 i jest
bardzo bliski granicy 0,6, możemy więc go przyjąć. Dla pewności warto jeszcze
sprawdzać, czy niestandaryzowane współczynniki ścieżkowe są istotne statystycz-
nie. Może się to zdarzyć nawet, gdy wartość standaryzowana przekroczy 0,7, jeśli
błędy standardowe byłyby zawyżone.
Procent wyjaśnianej wariancji (tabela SQUARED MULTIPLE CORRELA-
TIONS) przekraczają pożądaną wartość 0,5 dla tych samych zmiennych, dla któ-
rych ładunki przekraczały 0,7. Dla pozostałych zmiennych wynoszą one nieco
poniżej 0,4, co nie jest złym wynikiem.
Ogólnie możemy powiedzieć, że model pomiarowy jest akceptowalny, choć nie
można powiedzieć, że dobry. Dla ponad połowy wskaźników cząstkowych wartości

ładunków i procent wyjaśnianej wariancji osiągają pożądane wartości. Dla pozo-

stałych osiągane wartości są poniżej progów, ale nie dużo poniżej.
W ramach oceny jakości modelu konfirmacyjnej analizy czynnikowej warto
jeszcze przeprowadzić całą jego ocenę jako modelu strukturalnego, tak jak opisa-
łyśmy to w rozdziale 7.
estymacja i interpretacja modelu

struKturalnego ze zmiennymi uKrytymi
Po zweryfikowaniu i zaakceptowaniu modelu pomiarowego możemy przystąpić
do szacowania całego modelu. W oszacowanym modelu musimy ponownie zwe-
ryfikować, czy część pomiarowa jest akceptowalna. W ramach opisu tego kroku
możemy przytoczyć wartości ładunków i odtwarzanych wariancji dla potwierdzenia
jego poprawności. Nierzadko, zwłaszcza gdy część pomiarowa modelu jest bardzo
rozbudowana, pomija się jej prezentację, ograniczając się do krótkiego uzasadnie-
nia jego poprawności (np. „wszystkie ładunki przekraczają 0,65”).
Jeśli część pomiarowa nie budzi zastrzeżeń, możemy postępować dalej, tak jak
opisałyśmy to w rozdziale 7 dla modeli ze zmiennymi obserwowalnymi: należy
sprawdzić istotność parametrów strukturalnej części modelu i dokonać oceny jego
jakości. Modyfikacjom polegającym na usuwaniu czy dodawaniu ścieżek i kowa-
riancji powinna podlegać tylko część strukturalna modelu. Po zaakceptowaniu
całości modelu przystępujemy do jego prezentacji i interpretacji parametrów.
modelowanie strukturalne ze zmiennymi ukrytymi krok po kroku:

 Specyfikacja teoretycznego modelu strukturalnego na podstawie teorii
i z uwzględnieniem dostępności zmiennych.
 Wybór wskaźników zmiennych nieobserwowalnych.
 Przygotowanie danych.
 Sprawdzenie założeń i dobór metody estymacji.
 Weryfikacja modelu pomiarowego za pomocą konfirmacyjnej analizy
czynnikowej.
 Estymacja pełnego modelu.
 ponowna weryfikacja części pomiarowej modelu.
 Weryfikacja i ocena jakości części strukturalnej modelu.
 Modyfikowanie części strukturalnej modelu za pomocą testów istotności oraz
indeksów modyfikacji; wybór najlepszego modelu.
 Interpretacja parametrów modelu strukturalnego: efektów bezpośrednich,
pośrednich i łącznych.
Prezentacja modelu.

Interpretacji podlegają tylko parametry części strukturalnej modelu. Nie doko-

nujemy natomiast interpretacji parametrów części pomiarowej modelu w rodzaju:
„jeżeli wartość czynnika A jest wyższa o 1, to wartość jego wskaźnika a1 jest
wyższa o 0,784”. W ramach prezentacji modelu podajemy wartości współczyn-
ników ścieżkowych i kowariancji, standaryzowane i niestandaryzowane, oraz
współczynniki korelacji wielokrotnej (R2). Jeżeli w modelu występują zależno-
ści pośrednie, warto podać wartości efektów łącznych.
Dalej skrótowo przedstawiamy całą procedurę dla modelu z rysunku 9.2.
Część pomiarowa tego modelu zweryfikowaliśmy i zaakceptowaliśmy w poprzed-
nim podrozdziale. Oszacowaliśmy cały model. Nie ma żadnych nieprawidłowych
oszacowań (np. ujemnych wariancji). W tabelach 9.2 przedstawiłyśmy fragmenty
Tabela 9.2. Ładunki i odtwarzana wariancja w części pomiarowej całego modelu

Variable Estimate
samorealizacja Materialne 549

samorealizacja Społeczne ,258
bliscy Społeczne ,539
małżeństwo Społeczne ,793
dzieci Społeczne ,565
finanse Materialne ,888
dochody Materialne ,929
żywienie Materialne ,713
osiągnięcia Samorealizacja ,721
wykształcenie Samorealizacja ,598
wolne Samorealizacja ,528
życie Społeczne ,386
życie Materialne ,138
życie Samorealizacja ,153
życie Zdrowie ,066

Estimate
Samorealizacja ,433
życie ,301
wolne ,279
wykształcenie ,358
osiągnięcia ,520
żywienie ,508
dochody ,862
finanse ,788
dzieci ,319
małżeństwo ,630
bliscy ,291

wydruku pozwalające ponownie zweryfikować część pomiarową modelu, już w kon-

tekście całego modelu.
Wartości ładunków i odtwarzanych wariancji są nieco gorsze niż w modelu
konfirmacyjnej analizy czynnikowej, ale można je jeszcze zaakceptować.
Wszystkie współczynniki ścieżkowe i kowariancje (łącznie z parametrami
modelu pomiarowego) są istotne statystycznie (tab. 9.3), nie ma więc powodu, by
usuwać jakiekolwiek zależności.
Tabele 9.3. Badanie istotności współczynników ścieżkowych i kowariancji

samorealizacja materialne ,345 ,008 40,721 ***

samorealizacja społeczne ,403 ,024 17,064 ***
bliscy społeczne 1,000
małżeństwo społeczne 1,626 ,052 31,386 ***
dzieci społeczne ,946 ,032 29,245 ***
finanse materialne 1,000
dochody materialne 1,077 ,009 118,495 ***
żywienie materialne ,715 ,009 78,650 ***
osiągnięcia samorealizacja 1,000
wykształcenie samorealizacja 1,017 ,023 44,140 ***
wolne samorealizacja ,784 ,020 38,930 ***
życie społeczne ,763 ,033 22,787 ***
życie materialne ,110 ,012 9,406 ***
życie samorealizacja ,193 ,022 8,748 ***
życie zdrowie ,050 ,007 6,673 ***

materialne zdrowie ,416 ,013 31,496 ***

społeczne materialne ,106 ,006 16,760 ***
Najwyższe wartości indeksów modyfikacji (fragment zamieszczono na rys. 9.4)

wskazują na zależności pomiędzy zadowoleniem z relacji społecznych i ze stanu wła-
snego zdrowia oraz zadowolenia z własnych osiągnięć i samorealizacji a stanu zdro-
wia. Relacje te nie wydają się jednak do końca uzasadnione, więc nie będą uwzględ-
niane w modelu. Wartości pozostałych indeksów modyfikacji są znacznie niższe.
Najważniejsze mierniki jakości modelu zawierają tabele 9.5. Na podstawie
wartości empirycznej testu rozbieżności modelu musimy przyznać, że wynikająca
z modelu macierz wariancji-kowariancji różni się w sposób istotny statystycznie od
macierzy obserwowanej. Wartość CMIN/DF znacznie przekracza nawet wartość
graniczną 10, ale już RMSEA pozwala uznać model za dobry, choć nie bardzo dobry.

Tabele 9.4. Indeksy modyfikacji

Społeczne zdrowie 217,361 ,078

e2 zdrowie 381,195 ,154
e9 zdrowie 244,660 ,137

Samorealizacja zdrowie 323,471 ,118

osiągnięcia zdrowie 241,923 ,113
bliscy zdrowie 128,425 ,149
GFI jest wyższe od 0,9 i nie jest dalekie od bardziej restrykcyjnej wartości 0,95. NFI,
IFI i CFI nie sięgają 0,9, ale przekraczają 0,8. Miary skorygowane o współczynnik
złożoności PRATIO nie sięgają 0,85, ale przekraczają 0,5. Ogólnie model ten jest
do zaakceptowania, choć nie można powiedzieć, że jest bardzo dobry. Na rysunku
9.5 znajduje się model z rysunku 9.2 wraz ze standaryzowanymi wartościami
parametrów. Najsilniejszy bezpośredni wpływ na ocenę całego życia ma zadowolenie
z relacji społecznych. Ponad dwukrotnie mniejszy wpływ bezpośredni mają zado-
wolenie z warunków materialnych i samorealizacji. Najmniejszy wpływ bezpośredni
na ocenę całego życia ma zadowolenie ze stanu własnego zdrowia. Analizowane
zmienne wyjaśniają zmienność oceny całego życia w 30%. Determinanty oceny
całego życia są powiązane pomiędzy sobą. Zadowolenie z sytuacji materialnej
Tabele 9.5. Wybrane mierniki jakości modelu
CMIN
Model NPAR CMIN DF P CMIN/DF
Default model 28 2017,768 38 ,000 53,099

Saturated model 66 ,000 0
Independence model 11 10504,327 55 ,000 190,988
RMR, gFI
Model RMR GFI AGFI PGFI
Default model ,137 ,924 ,868 ,532

Saturated model ,000 1,000

Tabele 9.5. cd.
BASelINe CoMPARISoNS
NFI RFI IFI TLI
Model CFI
Delta1 rho1 Delta2 rho2
Default model ,880 ,722 ,811 ,726 ,811

Saturated model 1,000 1,000 1,000
Independence model ,000 ,000 ,000 ,000 ,000
PARSIMoNY-AdjuSTed MeASuReS
Model PRATIO PNFI PCFI
Default model ,691 ,558 ,560

Saturated model ,000 ,000 ,000
Independence model 1,000 ,000 ,000
RMSeA
Model RMSEA LO 90 HI 90 PCCLOSE
Default model ,061 ,059 ,064 ,000

i relacji społecznych wyjaśniają 43% zmienności zadowolenia z samorealizacji,

a także są pomiędzy sobą skorelowane. Również zadowolenie ze stanu zdrowia
jest skorelowane z zadowoleniem z warunków materialnych.
Ze względu na zależności pomiędzy determinantami oceny całego życia dla wła-
ściwej oceny wpływu każdej z nich konieczne jest rozważenie wpływu łącznego,
a nie tylko bezpośredniego. W tabeli 9.6 zaprezentowałyśmy standaryzowane efekty
łączne poszczególnych zmiennych na zmienną życie.
Najsilniejszy łączny wpływ na ocenę całego życia ma zadowolenie z relacji spo-
łecznych. Wyższe o jedno odchylenie standardowe zadowolenie z relacji społecz-
nych przekłada się na ocenę życia wyższą o prawie pół odchylenia standardowego.
O połowę mniej silny wpływ na ocenę całego życia ma zadowolenie z warunków
materialnych. Gdy jest ono wyższe o 1 odchylenie standardowe, ocena całego życia
jest wyższa o 0,22 odchylenia standardowego. W obu przypadkach efekt łączny
jest wyższy niż efekt bezpośredni ze względu na pozytywny wpływ pośredni przez
Tabela 9.6. Standaryzowane efekty łączne dla zmiennej życie
STANdARdIzed ToTAl eFFeCTS (group number 1 – default model)

Variable Zdrowie Materialne Społeczne Samorealizacja
życie ,066 ,221 ,425 ,153

Rysunek 9.5. Oszacowany model ze zmiennymi ukrytymi (wartości standaryzowane)
zadowolenie z samorealizacji. Zadowolenie z samorealizacji i stanu zdrowia wpły-

wają na ocenę całego życia tylko bezpośrednio, więc ich efekt łączny jest równy
bezpośredniemu i najsłabszy.
podsumoWanie
Możliwość uwzględnienia w modelu zmiennych ukrytych, mierzonych pośrednio
przez wiele wskaźników cząstkowych, jest wielką zaletą modelowania struktural-
nego, zwłaszcza dla nauk społecznych, w których badane zjawiska bardzo często
nie poddają się prostemu pomiarowi.
Model strukturalny ze zmiennymi ukrytymi dzieli się na część strukturalną
i pomiarową. Pierwsza obrazuje postulowane zależności pomiędzy badanymi zja-
wiskami. Druga odpowiada za pośredni pomiar tych zjawisk, które nie są bezpo-
średnio mierzalne. Zazwyczaj przyjmuje ona postać modelu analizy czynnikowej.

Część pomiarowa modelu wymaga weryfikacji. W tym celu stosuje się model
konfirmacyjnej analizy czynnikowej, który również należy do grupy modeli struk-
turalnych ze zmiennymi ukrytymi. Po zaakceptowaniu modelu pomiarowego postę-
powanie z modelem strukturalnym ze zmiennymi ukrytymi nie różni się specjalnie
od postępowania z modelami strukturalnymi, w których wszystkie zmienne są
obserwowalne – z tym, że części pomiarowej nie należy już modyfikować. Część
strukturalna modelu podlega zwykłej interpretacji, natomiast interpretacja części
pomiarowej ogranicza się jedynie do pokazania, że jest on poprawny.

część ii
modelowanie
strukturalne
rozdział
Krótkie wprowadzenie
do IBM SPSS Statistics
AMoS
10

Jednym z najpopularniejszych narzędzi do modelowania strukturalnego jest IBM

SPSS Statistics Amos. Rozpoczynamy od uruchomienia programu Amos Graphics.
Główne okno programu zaprezentowano na rysunku 10.1.
Rysunek 10.1. Obszar roboczy IBM SPSS Statistics Amos Graphics
Specyfikacja modelu polega na narysowaniu wykresu ścieżkowego w obszarze

wykresu ścieżkowego z użyciem narzędzi z przybornika. Na rysunku 10.2 omó-
wiono szczegółowo zastosowanie poszczególnych elementów przybornika.
Po narysowaniu wykresu ścieżkowego: prostokątów i elips połączonych strzał-
kami jedno lub dwukierunkowymi, musimy przypisać zmienne ze zbioru danych
do prostokątów – zmiennych obserwowalnych. Aby wskazać zbiór danych, wybie-
ramy z przybornika przycisk i w pojawiającym się oknie naciskamy przycisk
FILE NAME, a następnie wskazujemy pożądany plik i zatwierdzamy przyciskiem
OK. Następnie musimy użyć przycisku z przybornika w celu wyświetlenia listy
dostępnych zmiennych. Aby przypisać zmienną do danego prostokąta, wystar-
czy ją na niego przeciągnąć.

rozdziaŁ 10 Krótkie wprowadzenie do IBM SPSS Statistics AMOS 235
Rysunek 10.2. Opis narzędzi w przyborniku
Aby zmodyfikować element wykresu ścieżkowego, musimy kliknąć go dwukrot-

nie. Pojawia się wówczas okno OBJECT PROPERTIES (zob. rys. 10.3). W zakładce
TEXT można zmienić nazwę i etykietę zmiennej, natomiast w zakładce PARAME-
TERS można nałożyć ograniczenie na parametr, przypisany do danego elementu,
na przykład nadać współczynnikowi ścieżkowemu wartość 1. Jeżeli dwóm para-
metrom przypiszemy zamiast wartości liczbowych identyczne etykiety, to osza-
cowania tych parametrów będą równe.
Rysunek 10.3. Okno OBJECT PROPERTIES

W oknie ANALYSIS PROPERTIES, wywoływanym przyciskiem z przy-

bornika, możemy wybrać metodę estymacji i dodatkowe wyniki. Metody esty-
macji wybieramy w zakładce ESTIMATION, a dodatkowe wyniki w zakładce
OUTPUT (zob. rys. 10.4).
Rysunek 10.4. Okno ANALYSIS PROPERTIES

rozdziaŁ 10 Krótkie wprowadzenie do IBM SPSS Statistics AMOS 237
Po naciśnięciu przycisku z przybornika model zostanie oszacowany. Przy-

ciskiem wywołamy okno wyników (zob. rys. 10.5).
Rysunek 10.5. Okno wyników
Poruszanie się w oknie wyników bardzo ułatwia drzewo wyników, znajdujące

się w jego lewym górnym rogu. Kliknięciem na dany element w drzewie wyników
spowodujemy jego wyświetlenie w głównym oknie wyników po prawej stronie.

Bibliografia
Arbuckle, J.L. (2005). Amos 6.0 User’s Guide, Amos Development

Corporation (http://cmsprod.bgu.ac.il/NR/rdonlyres/DBEE38D3-
C8C2-4129-BAFD-43E1EA786661/0/Amos60UsersGuide.pdf).
Aron, A., Aron, E. i Coups, E.J. (2010). Statistics for the behavioral
and social sciences: A Brief Course (5th ed.). Harlow: Pearson
Education.
Babad, E.Y., Inbar, J. i Rosenthal, R. (1982). Pygmalion, Galatea,
and the Golem: Investigations of biased and unbiased teachers.
Journal of Educational Psychology, 74(4), 459–474.
Babiuch, M. (1990). Oczekiwania nauczycieli a osiągnięcia szkolne
uczniów. Kwartalnik Pedagogiczny, 2, 95–105.
Baron, R.M. i Kenny, D.A. (1986). The moderator-mediator variable
distinction in social psychological research: Conceptual, strategic
and statistical considerations. Journal of Personality and Social
Psychology, 51, 1173–1182.
Bedyńska, S. i Brzezicka, A. (red.) (2007). Statystyczny drogowskaz.
Praktyczny poradnik analizy danych w naukach społecznych na przykładach
z psychologii. Warszawa: Wydawnictwo SWPS Academica.
Bedyńska, S. i Siemieniuk, A. (2009). Czego możemy nauczyć się od
Celsjusza. Przygotowywanie danych w programie IBM SPSS
Statistics. Rekodowanie i sumowanie zmiennych oraz kategoryzacja
wizualna. Nowiny Psychologiczne, 3, 5–18.
Bielecki, M. i Bedyńska, S. (2010). Bardzo krótka historia czasu reakcji.
W: G. Sędek i S. Bedyńska (red.) 2010: Życie na czas. Perspektywy
badawcze postrzegania czasu. Warszawa: Wydawnictwo Naukowe
PWN, 109–130.
Brzeziński, J. (2002). Metodologia badań psychologicznych. Warszawa:
Wydawnictwo Naukowe PWN.

Cohen, J. i Cohen, P. (1983). Applied multiple regression/correlation analysis

for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum
Associates.
Ferguson, G. i Takane, Y. (2004). Analiza statystyczna w psychologii i pedagogice.
Warszawa: Wydawnictwo Naukowe PWN.
Field, A. (2009). Discovering Statistics Using IBM SPSS Statistics. Thousand Oaks:
SAGE Publications.
Garson, G.D. (2006). Structural Equations Modeling (http://www2.chass.ncsu.edu/
garson/pa765/structur.htm).
Hoyle, R.H. (1995). Structural Equation Modeling. Thousand Oaks: SAGE
Publications.
Hunter, J.M. (1972). Need and demand for mental health care: Massachusetts
1854. The Geographic Review, 77, 139–156.
Hyde, J., Mezulis, A.H. i Abramson, L.Y. (2008). The ABCs of depression:
Integrating affective, biological, and cognitive models to explain the
emergence of the gender difference in depression. Psychological Review,
115(2), 291–313.
Konarski, R. (2010). Modele równań strukturalnych. Teoria i praktyka. Warszawa:
Wydawnictwo Naukowe PWN.
Larose, D.T. (2008). Metody i modele eksploracji danych. Warszawa: Wydawnictwo
Naukowe PWN.
MacKinnon, D.P. (2008). Introduction to statistical mediation analysis. New York:
Lawrence Erlbaum Associates.
MacKinnon, D.P., Lockwood, Ch.M., Hoffman, J.M., West, S.G. i Sheets, V.
(2002). A comparison of methods to mediation and other intervening
variable effects. Psychological Methods, 7, 83–104.
Maxwell, S.E. i Delaney, H.D. (1993). Bivariate median splits and spurious
statistical significance. Psychological Bulletin, 113, 181–190.
Muller, D., Judd, C.M. i Yzerbyt, V.Y. (2005). When moderation is mediated
and mediation is moderated. Journal of Personality and Social Psychology,
89(6), 852–863.
Niesta Kayser, D., Elliot, A.J. i Feltman, R. (2010). Red and romantic behavior
in men viewing women. European Journal of Social Psychology, 40, 901–908.
Rada Monitoringu Społecznego 2009, Diagnoza społeczna: zintegrowana baza
danych, www.diagnoza.com z 20.02.2010.
Schumacker, R.E. i Lomax, R.G. (2010). A Beginner’s Guide to Structural Equation
Modeling: Third Edition. Routledge Academic.
Stanisz, A. (2007). Przystępny kurs statystyki z zastosowaniem Statistica PL
na przykładach z medycyny. Tom 2. Modele liniowe i nieliniowe. Kraków:
Wydawnictwo StatSoft.

część ii Bibliografia 241
Structural Equation Modeling using Amos: An Introduction, The University of Texas,

USA 2001 (http://ssc.utexas.edu/images/stories/ssc/files/tutorials/AMOS_
Tutorial.pdf).
Tabachnick, B.G. i Fidell, L.S. (2007). Using Multivariate Statistics (5th ed.).
Boston: Allyn & Bacon.
Wojciszke, B. (2004). Systematycznie Modyfikowane Autoreplikacje: logika
programu badań empirycznych w psychologii. W: J. Brzeziński (red.).
Metodologia badań psychologicznych. Wybór tekstów. Warszawa: Wydawnictwo
Naukowe PWN.
Wojciszke, B. (2010). Sprawczość i wspólnotowość. Jak postrzegamy siebie, innych
i grupy. Gdańsk: Gdańskie Wydawnictwo Psychologiczne.

Indeks
a DfFit (DFF) 77, 82

AGFI 187-189, 229 dummy variables 95, 156
AIC 189, 190
analiza wariancji 9, 10, 16, 22-24, e
26-28, 30, 31, 37-39, 47, 52, 53, ECVI 189, 190, 197, 198, 212, 214
61, 71, 92-94, 99-101, 103-106, efekt bezpośredni 117, 170-172, 175,
108, 114, 128, 129, 131, 136, 176, 198, 226, 230
137, 143, 151, 152, 156, 157 efekt interakcyjne 10, 62, 128, 129,
131, 137, 143-145, 156, 157
B efekt łączny 171, 172, 174-176, 206,
BCC 189, 190 226, 227, 230, 231
BIC 189 efekt pośredni 118, 124-126, 171,
błąd przewidywania 23 172, 174, 175, 198, 226
C F
CAIC 189 F0 185-187
centracja 130, 139-141, 154, 155 FMIN 183, 185-187, 206
CMIN 183-186, 189, 195, 197, 198, funkcja rozbieżności 179, 182-186,
202, 206, 210-212, 214, 228, 229 202, 204-206, 214
część pomiarowa 219, 220-222,
226-228, 232 G
część strukturalna 219, 220, 226, GFI 187-190, 229
227, 232
H
D homoscedastyczność 59-63, 87, 129
decyle 147
DF 183, 184, 185, 212, 214, 228, 229 I
DfBeta (DFB0 i DFB1) 77, 78, 82, 84 IFI 187-189, 229, 230

iloraz kowariancji 78, 82, 84, 86 metoda asymptotycznie wolna od

indeksy modyfikacji 190, 192-198, rozkładu 180
203, 206, 212-214, 226, 228, metoda eliminacji wstecznej 43-45,
229 55
metoda krokowa 43-47, 49, 55
K metoda największej wiarygodności
kodowanie eksperymentalne 95 180, 191
kodowanie ortogonalne 95, 104, 105, metoda selekcji postępującej 43-45
107 metoda uogólnionych najmniejszych
kodowanie quasi-eksperymentalne kwadratów 180, 181
101, 102, 107 metoda usuwania 43, 44, 55
kodowanie zero-jedynkowe 95, 96, metoda wprowadzania 36, 43-45, 49,
105, 107 55
korelacja cząstkowa 40-42, 48, 49, model nasycony 182, 185, 189, 190,
54, 55 206
korelacja rzędu zerowego 42, 43 model niezależności 182, 185, 187-
korelacja semicząstkowa 40-44 190, 206, 211
korelacja wielokrotna R 23, 26, 28, 29 model strukturalny 161-163, 165-167,
kowariancja 11, 16-19, 25, 125, 126, 169, 171, 173, 175, 177, 179-181,
162-164, 166, 170, 171, 176, 183, 185, 187, 188-191, 193,
179, 180, 182-189, 191-197, 199, 195, 197-199, 202, 203, 214,
206, 226-228 217-222, 226, 231
kwantyle 147 model strukturalny ze zmiennymi
kwartyle 147 ukrytymi 219-222, 226, 232
model zagnieżdżony 183, 184, 188,
l 190, 197, 210, 211, 215
linia najlepszego dopasowania 21 model zerowy 187, 188
liniowość 20, 177 moderator 87, 125, 127-131, 133-135,
logarytmizacja 69 137, 139, 141-145, 147, 149, 151,
153, 157
M
macierz wariancji-kowariancji 162, n
179, 180, 182, 183, 185-189, NFI 187-189, 197, 198, 212, 214, 229,
194, 199, 228 230
MECVI 189, 190 N Hoeltera 184, 185
mediacja 11, 111, 112, 117, 124-126
mediacja w podejściu Barona o
i Kenny’ego 111 odchylenie standardowe 18, 75, 77,
mediacja w podejściu Cohena i Cohen 130, 134, 145, 146, 148, 154,
109, 110, 112, 117, 240 167, 170, 174, 176, 230

część ii Indeks 245
odległość Cooka 76, 81, 84, 85 skrajne wyniki 70, 71, 76

odległość Mahalanobisa 76, 81, 84, 85 stała 21, 24-26, 28, 33, 37, 93, 94,
100, 103
P standaryzacja 130
parametr B0 24, 25, 26, 37 standaryzowana wartość
parametr B1 24, 25, 26, 37 współczynnika ścieżkowego
percentyle 147 224
PGFI 187-189, 211, 229 standaryzowane DfBety (SFB0 oraz
PNFI 187-189, 197, 198, 211, 212, SFB1) 77, 78
214, 230 standaryzowane DfFit (SDF) 77
procent wyjaśnianej wariancji 52, 53, statystyka R 2 23, 26, 28, 29, 37, 67,
104, 131, 140, 223, 224-226 93, 137, 138
przypadki nietypowe 70 statystyka współliniowości 48, 49,
przypadki odstające 59, 69-78, 80-87 54, 55, 59, 66
przypadki skrajne 70 statystyki wpływu 77, 81
r T
R 2 skorygowane 37, 38, 100, 104 teoretyczna macierz wariancji-
regresja hierarchiczna 43, 45, 49, 50, kowariancji 162, 179, 183, 186
51, 54 test Durbina-Watsona 63
regresja krzywoliniowa 62, 124, 128 test Kołmogorowa-Smirnowa 67
reszty niestandaryzowane (RES) 75, test porównujący dopasowanie modeli
82 zagnieżdżonych 184, 210
reszty regresji 23, 26, 28, 75, 129 test Shapiro-Wilka 67
reszty standaryzowane (ZRE) 75 test współliniowości 64, 65
reszty studentyzowane usuniętych TLI 187-189, 212, 230
(SDR) 77, 82 tolerancja 64-66
reszty usuniętych (DRE) 77, 82
RFI 187-189, 198, 212, 214, 230 V
RMR 188, 189, 229 VIF 59, 64-66
RMSEA 186, 187, 229, 230
W
S wartości przewidywane skorygowane
schemat quasi-eksperymentalny 101 77
składnik błędu 23, 69 wartość wpływu 76, 80, 81, 84-86
składnik interakcyjny 129-131, wielowymiarowy rozkład normalny
134-138, 140-144, 154-157 177, 179, 180, 184, 199
składniki losowe (reszty) 59, 63, 69, wpływ bezpośredni 170, 171, 176,
162, 163, 165-167, 206, 211-214, 229
219, 221, 222 wpływ łączny 171, 172, 176

wpływ pośredni 171, 230 zmienna nieobserwowalna 162, 163,

wpływowe przypadki odstające 74, 165, 219-221, 226
75, 77 zmienna niezależna 16, 29, 30, 36,
wskaźniki cząstkowe 218, 219, 221, 38, 45, 50, 55, 58-64, 76,
222 78, 79, 91, 93, 99-101, 103,
współczynnik korelacji cząstkowej 40, 105, 108-132, 134-136, 138,
41 139, 141, 143-145, 150, 153-157,
współczynnik korelacji 163
semicząstkowej 40 zmienna objaśniająca 16, 36, 37, 43,
współczynnik nachylenia 21, 24-26, 55, 162, 165-167, 190, 191, 194,
28, 33, 77 196, 211, 212, 219
współczynnik standaryzowany zmienna objaśniana 16, 36, 55, 162,
regresji beta 82, 84, 115, 137 165-167, 170, 187, 190, 198
współczynnik ścieżkowy 164-167, zmienna obserwowalna 162, 163, 165,
170-172, 179, 206, 208, 211- 166, 177, 180, 183, 188, 199,
213, 222, 224, 225, 227, 228, 212, 219, 221, 226, 232, 234
235 zmienna zależna 16, 21, 23, 26,
wykres ścieżkowy 163-166, 203, 206, 36-38, 40, 41, 43, 44, 49, 50,
209, 234, 235 52, 55, 60, 65-67, 81, 84, 99,
101, 103, 106, 111-114, 116-125,
Z 128, 134, 138-140, 143, 150,
zależność bezpośrednia 111 153, 154
założenie o braku korelacji zmienne pośredniczące 109-111
predyktorów 40, 64 zmienne instrumentalne 95-99,
zmiana współczynnika R 2 50 101-107

Notki o Autorkach
Sylwia Bedyńska, doktor psychologii, adiunkt na Wydziale Psychologii

Szkoły Wyższej Psychologii Społecznej w Warszawie. Swe zainteresowania
badawcze ogniskuje wokół oddziaływania negatywnych stereotypów na
osiągnięcia uczniów, ze szczególnym uwzględnieniem wpływu stereotypu
na osoby, których ten stereotyp dotyczy, np. zdolne matematycznie dziew-
częta zgodnie ze stereotypem powinny być słabe z matematyki. Badania nad
tym zjawiskiem – fenomenem zagrożenia stereotypem – opisujące zachowanie
inteligentnych blondynek czy uzdolnionych matematycznie dziewcząt, stały
się kanwą artykułów naukowych oraz popularnonaukowych. Interesuje się
także zagadnieniami statystycznymi i metodologią badań psychologicznych
– jest współautorką podręcznika akademickiego Statystyczny drogowskaz
oraz autorką serii artykułów popularyzujących wiedzę statystyczną i meto-
dologiczną w „Nowinach Psychologicznych” oraz „E-Biuletynie SPSS Polska”.
Monika Książek, absolwentka kierunku Metody Ilościowe i Systemy Informa-

cyjne w Szkole Głównej Handlowej w Warszawie. Przygotowuje doktorat doty-
czący zachowań finansowych gospodarstw domowych. W latach 2005–2007
pracowała jako analityk w Pentor Research International. Następnie przez
dwa lata była analitykiem danych w Aviva. Od grudnia 2010 jest specjalistą
ds. data mining w T-Mobile. Specjalizuje się w analizach wielowymiarowych
i ich zastosowaniach w szeroko pojętym marketingu i badaniach społecznych.
Szczególnie interesują ją modele strukturalne, modele klas latentnych oraz
modele z ograniczoną zmienną zależną.

Wydawnictwo Akademickie Sedno
Wydanie pierwsze
Arkuszy drukarskich: 31
Skład i łamanie: Studio NRD
Druk i oprawa: Fabryka Druku Sp. z o.o., Warszawa


Statystyczny Drogowskaz 3

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Statystyczny Drogowskaz 3

Uploaded by

Copyright:

Available Formats

##7#52#aMjA0NTUwM0E2NjM0MzI2Ng==

Publikacja jest wspólną inicjatywą wydawniczą Szkoły Wyższej Psychologii Społecznej

Copyright © by Wydawnictwo Akademickie Sedno

Wszelkie prawa zastrzeżone. Kopiowanie, przedrukowywanie i rozpowszechnianie w całości lub

W publikacji wykorzystano ilustracje ukazujące interfejs oprogramowania, do którego autorskie

Wydawnictwo Akademickie Sedno Spółka z o.o.

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

CZĘŚĆ I. MoDele reGreSJI ............................................................ 13

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Założenia analizy regresji .................................................................................................................................... 58

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Poszukiwanie interakcji – kolejne kroki ............................................................................................ 129

CZĘŚĆ II. MoDeloWanIe STruKTuralne ........................ 159

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Bibliografia ................................................................................................................................ 239

Indeks ......................................................... ................................................................................. 243

notki o autorkach ................................................................. ................................................ 247

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Truizmem jest twierdzenie, że znajomość metod statystycznych jest ważna.

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

w regresji powoduje, że część badaczy nadużywa dychotomizacji zmiennych cią-

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Na koniec najprzyjemniejsza rzecz. Chcemy podziękować osobom, bez któ-

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

W tym rozdziale dowiemy się o tym:

• jaki jest wzór linii prostej – modelu regresji

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Kroki obliczania kowariancji:

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

zmiennej współwystępują z wysokimi drugiej zmiennej i odwrotnie, a dodatnie, że

Kroki obliczania współczynnika korelacji r pearsona:

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

1 5 –1,26 1,26 –1,6

Dodatkowo jednak możemy określić siłę zależności: im wartość współczynnika

Operacje w programie IBM SPSS Statistics (ANALIZA–KORELACJE–

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Tabela 1.3. Macierz korelacji dla zmiennych X oraz Y

r = 1 punkty przebiegałyby po skosie od lewego dolnego do prawego górnego

Rysunek 1.1. Wykres rozrzutu dla zmiennych X oraz Y

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

jednozmiennoWa analiza regresji

Kroki analizy regresji:

Zacznijmy więc od najprostszego wariantu, w którym do danych dopasowu-

dopasoWanie linii regresji

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

 Gwiazdką oznaczono wynik przewidywany.

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

bo przewidywanie nie jest stuprocentowo precyzyjne. Rozbieżność ta, czyli róż-

Proporcja tych dwóch wariancji podawana jest w postaci statystyki F wraz ze

Współczynnik R2 pomnożony przez 100% wskazuje, ile procent wariancji zmiennej

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

róWnanie linii prostej – parametry modelu

Skoro na podstawie wyników analizy wariancji zamieszczonych w regresji już

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

Jak pewnie niektórzy zauważyli, zapisane powyżej równanie regresji obliczane

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

B0 (stała) określa punkt przecięcia z osią Y, a współczynnik B1 pozwala stwier-

analiza regresji W programie

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266

ANALIZA, a następnie wybieramy z listy REGRESJA–LINIOWA. Teraz umiesz-

Plik zabezpieczony watermarkiem jawnym i niejawnym: 2045503A66343266