Download as pdf or txt
Download as pdf or txt
You are on page 1of 252

Wyższa Szkoła Finansów i Zarządzania w Warszawie

Recenzent
Prof. dr hab. Bogdan Zawadzki

Copyright © 2009 by Wyższa Szkoła Finansów i Zarządzania w Warszawie

Redaktor prowadzący
Wojciech Żyłko

Redakcja i korekta
Joanna Dziejowska

Wydanie I

ISBN: 978-83-61086-31-4

VIZJA PRESS & IT


ul. Dzielna 60, O1-029 Warszawa
tel./fax 022 536 54 68
e-mail: vizja@vizja.pl
www.oferta.vizja.net.pl

Skład i łamanie
BEST Stanisław Beczek, tel. 693 650 984
Warszawa 2009
Spis treści

Wprowadzenie . . . . . . . . . . . . . . . 9

1. Zastosowanie testów psychologicznych 12


Ewa Witkowska
1.1. Pojęcie testu psychologicznego i jego podstawowe własności 12
1.1.1. Rzetelność pomiaru testem 14
1.1.2. Trafuość pomiaru testem 14
1.1.3. Standaryzacja . 15
1.1.4. Normy . . . . . . . . . . 16
1.1.5. Obiektywność. . . . . . 16
1.2. Testy jako narzędzia diagnostyczne 17
Pytania sprawdzające . . . . . . . . . . . . 20

2. Przegląd wybranych testów psychologicznych 21


Krzysztof Fronczyk
2.1. Testy cech intelektu. . . . . . . . . . . . . 23
2.1.1. Skale rozwojowe . . . . . . . . . . 25
2.1.2. Testy inteligencji ogólnej i zdolności 29
2.2. Kwestionariusze osobowości i temperamentu 39
2.2.1. Inwentarze przeznaczone do diagnozy osobowości jako całości . 40
2.2.2. Inwentarze przeznaczone do diagnozy wybranych wymiarów
osobowości . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.2.3. Charakter pozycji testowych występujących w kwestionariuszach 47
2.2.3.1. Treść pozycji testowych w kwestionariuszach . 47
2.2.3.2. Forma pozycji testowych w kwestionariuszach. 49
Pytania sprawdzające . . . . . . . . . . 52

3. Co to jest pomiar psychologiczny? 54


Krzysztof Fronczyk
3.1. Założenia dotyczące natury mierzonych właściwości w psychometrii 54
3.2. Pojęcie pomiaru ....... . 56
3.3 . Wskaźniki . . . . . . . . . . . . . . . . . . . . . 58
3.4. Pojęcie pomiaru różnicowego . . . . . . . . . . . 61
3.5. Kwestie problemowe pomiaru psychometrycznego 63
Pytania sprawdzające . . . . . . . . . . 64

4. Klasyczna teoria rzetelności testów 65


Andrzej Rynkiewicz
4.1. Wynik prawdziwy i błąd pomiaru 66
4.2. Podstawowe założenia klasycznej teorii rzetelności testów 69
4.3. Rozkłady wyników i błędów dla jednej osoby. 74
4.4. Rozkłady wyników i błędów dla populacji. . . . 76
4.5. Teoretyczna definicja rzetelności testu . . . . . . 77
4.6. Korelacja wyników otrzymanych i prawdziwych 79 5
4.7. Standardowy błąd pomiaru. 80
Zalecana literatura. . . . . . . . . 82
Literatura dla bardziej ambitnych . 82
Zadania . . . . . . . 82
Odpowiedzi do zadań . . . . . . . 83

5. Jakich informacji o teście dostarcza testowanie? . . . . . . . . . . . . .. 84


Konrad Jankowski, Marcin Zajenkowski
5.1. Metody szacowania rzetelności pomiaru testem. . . . . . . . . . . . 84
5.1.1. Metoda powtarzanego pomiaru . . . . . . . . . . . . . . . . . 85
5.1.1.1. Stabilność czasowa a założenie o równości średnich . 87
5.1.2. Metoda wersji alternatywnych 89
5.1.3. Metoda połówkowa. . . 90
5.1.4. Zgodność wewnętrzna. . . . . 93
5.1.5. Zgodność ocen sędziów. . . . 97
5.1.6. Porównanie metod szacowania rzetelności . 98
5.1. 7. Metody szacowania rzetelności w SPSS . . 99
5.1.7.1. Metody dwukrotnego badania tej samej grupy osób 99
5.1.7.2. MetodapołówkowawSPSS . . . . . . . . . . . . 102
5.1.7.3. Alfa Cronbacha w SPSS. . . . . . . . . . . . . . . 104
5.1. 7.4. Rzetelność pomiaru testem jako zgodność sędziów w SPSS 106
Pytania sprawdzające 108
Zadania . . . . . 109
Zadania w SPSS . . . 110

Adam Tarnowski, Krzysztof Fronczyk


5.2. Trafność pomiaru testem . . . . . . . . . . . . . . . . . . . . . . . . 111
5.2.1. Pojęcie trafności i jej związek z innymi właściwościami testu. 111
5.2.2. Rodzaje trafności . . . . . . . 114
5.2.2.1. Trafność treściowa . 114
5.2.2.2. Trafność teoretyczna 118
5.2.2.3. Trafuość kryterialna. 131
5.2.2.4. Inne aspekty trafuości 136
5.2.3. Wzajemne relacje pomiędzy poszczególnymi rodzajami trafności 137
5.2.4. Trafność pomiaru testowego a odstępstwa od standardowej procedury
badania . . . . . . . . . . . . . . . . . . . 139
5.2.5. Szacowanie trafuości . . . . . . . . . . . . 140
5.2.5.1. Współczynnik zgodności sędziów 140
5.2.5.2. Współczynnik korelacji . . . . . . 145
5.2.5.3. Analiza czynnikowa . . . . . . . . 147
5.2.5.4. Analiza różnic międzygrupowych 151
5.2.5.4.1. Test t-Studenta . . . . . 151
5.2.5.4.2. Jednoczynnikowa analiza wariancji 154
6 Pytania sprawdzające 159
Ewa Witkowska, Krzysztof Fronczyk
5.3. Analiza właściwości pozycji testowych . . . . . 161
5.3.1. Trudność pozycji testowych . . . . . . . 162
5.3.2. Moc dyskryminacyjna pozycji testowych 165
5.3.3. Własności pozycji testowych a kształt rozkładu wyników testu 169
5.3.4. Obliczanie właściwości pozycji testowych i rozkładu wyników
w SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . , 172
5.3.4.1. Obliczanie trudności i mocy dyskryminacyjnych przy użyciu
SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
5.3.4.2. Obliczanie podstawowych charakterystyk kształtu rozkładu
wyników testu przy zastosowaniu SPSS 174
5.3.5. Forma pozycji testowych 176
Pytania sprawdzające 177
Zadania . . . . . . . 177
Odpowiedzi do zadań 179

6. Jakich informacji o osobie badanej dostarcza testowanie? 180


Andrzej Rynkiewicz
6.1. Błędy standardowe i przedziały ufności . . . . . . 180
6.1.1. Standardowy błąd pomiaru . . . . . . . . . 181
6.1.2. Przedział ufności dla wyniku otrzymanego. 182
6.1.2.1. Obliczanie przedziału ufności dla wyniku otrzymanego 185
6.1.2.2. Interpretacja przedziału ufuości dla wyniku otrzymanego 186
6.1.3. Standardowy błąd różnicy między wynikami otrzymanymi . . .. 187
6.1.4. Przedział ufuości dla różnicy między wynikami otrzymanymi .. 190
6.1.4.1. Obliczanie przedziału ufności dla różnicy między wynikami
otrzymanymi. . . . . . . . . . . . . . . . . . . . 192
6.1.4.2. Istotność różnicy między wynikami otrzymanymi 193
6.1.5. Estymowany wynik prawdziwy . . . . . . . . . . . . . . 194
6.1.6. Standardowy błąd estymacji wyniku prawdziwego . . . . 197
6.1.7. Przedział ufuości dla estymowanego wyniku prawdziwego 199
6.1.7.1. Obliczanie przedziału ufności dla estymowanego wyniku
prawdziwego 200
Literatura zalecana . · 201
Zadania . . . . . . . 201
Odpowiedzi do zadań · 203

Andrzej Rynkiewicz
6.2. Normy i normalizacja · 205
6.2.1. Norma i normy · 205
6.2.2. Standaryzacja . · 207
6.2.3. Normalizacja . .209
6.2.4. Skale znonnalizowane ; 215
6.2.4.1. Skala staninowa · 216
6.2.4.2. Skala stenowa . · 217 7
6.2.4.3. Skala tenowa .. · 217
6.2.4.4. Skala tetronowa . · 218
6.2.4.5. Iloraz inteligencji · 219
6.2.4.6. Przeliczanie wyników na skale znonnalizowane : 220
6.2.5. Nonny centylowe . .222
Zalecana literatura. . .226
Zadania . . . . . . . .227
Odpowiedzi do zadań .228

7. Etyka badań testowych. .230


Ewa Witkowska
7.1. Prawa osoby badanej i obowiązki psychologa-diagnosty .230
7.2. Przygotowanie się do diagnozowania . . . . . . . . . . .232
7.3. Zawieranie kontraktu oraz świadoma zgoda na udział w badaniu
diagnostycznym . . . . . . . . . . . · 233
7.4. Tajemnica zawodowa. . . . . . . . . · 235
7.5. Komunikowanie wyników testowych .236
7.6. Ochrona narzędzi diagnostycznych .240
7.7. Podsumowanie .242
Zalecana literatura. . .242
Pytania sprawdzające .243

Literatura. .244

Indeks . .. .248
WPROWADZENIE

Niniejszy podręcznik psychometrii zawiera podstawowe informacje, z jakimi


powinni zapoznać się studenci w trakcie studiów psychologicznych. Studenci
często odnoszą się z niechęcią do przedmiotów metodologicznych, zwłaszcza do
statystyki oraz psychometrii. Spowodowane jest to zwykle przeświadczeniem, że
przedmioty tego typu są bardzo trudne, szczególnie dla studentów psychologii,
których zainteresowania zwykle są dalekie od matematyki. Jest to błędne prze-
konanie. W opinii autorów niniejszego podręcznika zrozumienie podstawowych
idei psychometrii nie wymaga dogłębnej znajomości matematyki, a zależy przede
wszystkim od przełamania w sobie poglądu, że psychometria ezy statystyka jest
trudna i niedostępna dla przeciętnego adepta psychologii. Jest to ważne, ponieważ
znajomość podstaw psychometrii jest niezbędna w pracy każdego psychologa.
Naszym celem było takie przedstawienie psychometrii, aby ułatwić to zada-
nie. Staraliśmy się w możliwie przystępny sposób zaprezentować poszczególne
zagadnienia, tak aby ułatwiać ich zrozumienie. Osiągniecie tego celu możliwe
było nie tylko dzięki odpowiedniej prezentacji materiału, lecz także dzięki jego
selekcji. Współczesna psychometria dysponuje bowiem dość rozbudowanym
aparatem statystycznym, którego omawianie nie jest konieczne do zrozumienia
najbardziej fundamentalnych pojęć psychometrii. Żeby zrozumieć te pojęcia wy-
starczy podstawowa znajomość matematyki oraz nieco ogólnej wiedzy ze wstęp­
nego kursu psychologii.
Rezygnacja z omawiania złożonych zagadnień statystycznych nie ujmuje
w niczym użyteczności podręcznika.' Dla większości psychologów-praktyków,
jakimi staną się także obecni studenci psychologii, nie jest bowiem ona koniecz-
na. Niezbędne jest jednak rozumienie podstawowych pojęć związanych z testa-
mi psychologicznymi. Nie można bowiem posługiwać się narzędziami tego typu
w sposób przynoszący korzyść osobom badanym bez znajomości takich pojęć,
jak np. rzetelność czy trafność pomiaru testem.
Niniejszy podręcznik został pomyślany jako źródło podstawowych informa-
cji z zakresu psychometrii dla studentów, ale może też służyć za przewodnik
w przeprowadzaniu prostych analiz danych psychometrycznych przez wszyst-
kich zainteresowanych tą problematyką, szczególnie magistrantów, którzy stają
przed koniecznością dokonania analizy danych pochodzących z badań przepro- 9
Krzysztof Fronczyk

wadzonych do własnych prac magisterskich. Zadanie to mają ułatwić przykłady


analiz przeprowadzone w programie SPSS. Dołączona do podręcznika płyta CD
zawiera pliki danych wykorzystane w opisanych przykładach. Dzięki nim każdy
posiadacz programu SPPS może dokonać takich samych analiz, co powinno uła­
twić planowanie i przeprowadzanie analiz własnych danych.
Podręcznik P~ychometria - podstawowe zagadnienia ma następujący układ.
Rozdział pierwszy, autorstwa Ewy Witkowskiej, jest wprowadzeniem w proble-
matykę książki. Zawiera on omówienie podstawowych tenninów psychometrii.
Rozdział drugi, napisany przez Krzysztofa Fronczyka, jest prezentacją wybra-
nych narzędzi psychometrycznych. Oczywiście z konieczności ograniczono się
w nim do opisaniajedynie niewielkiej liczby testów. Starano sięje dobrać w spo-
sób maksymalnie reprezentatywny dla ogromnej liczby narzędzi stosowanych na
świecie, tak aby Czytelnik uzyskał choć pobieżną wiedzę na temat różnorodności
tego typu technik badawczych. Kolejny rozdział, również autorstwa Krzysztofa
Fronczyka, jest wprowadzeniem do zagadnieI'1 pomiaru w psychometrii. Pomiar
cech psychicznych nie jest bowiem tak oczywisty, jak pomiar właściwości fi-
zycznych, stąd konieczność nieco szerszego potraktowania tego zagadnienia.
Andrzej Rynkiewicz w rozdziale czwartym wprowadza Czytelnika w zagadnie-
nia klasycznej teorii testów. Teoria ta definiuje, jak należy rozumieć wyniki testo-
we. Dzięki niej możliwe jest także szacowanie rzetelności testów oraz obliczanie
przedziałów ufności.
Kolejne rozdziały dotyczą dwóch zasadniczych funkcji, jakie pełnią wyniki.
Z jednej strony dane uzyskane z badania określonym testem pewnej grupy osób
dostarczają infonnacji o samym teście ijego właściwościach. Z drugiej - wyniki
poszczególnych osób badanych informują o właściwościach psychicznych tych-
że osób.
Pierwsza z wymienionych funkcji wyników testowych jest omówiona w roz-
dziale piątym składającym się z trzech części. Pierwsza część, autorstwa Konrada
Jankowskiego i Marcina Zajenkowskiego, poświęcona jest sposobom szacowa-
nia rzetelności pomiarów dokonywanych przy pomocy testów. Natomiast w dru-
giej części, napisanej przez Adama Tarnowskiego i Krzysztofa Fronczyka, omó-
wiono sposoby szacowania trafności pomiarów dokonywane przy użyciu testów.
W części trzeciej Ewa Witkowska i Krzysztof Fronczyk omawiają właściwości
psychometryczne pozycji testowych.
Druga funkcja wyników testowych, jakąjest informowanie o właściwościach
psychicznych osób badanych, została poruszona w rozdziale szóstym, napisanym
przez Andrzeja Rynkiewicza. Opisano w nim tworzenie przedziałów ufności dla
indywidualnych wyników osób badanych oraz konstruowanie układu odniesienia
dla tychżc wyników, jakim są normy empiryczne.
Podręcznik kończy rozdział poświęcony etycznym aspektom stosowania te-
stów psychologicznych zarówno w praktyce badał} naukowych, jak i w bada-
10 ni ach stosowanych. Rozdział ten przygotowała Ewa Witkowska.
Wprowadzenie

Autorzy będą wdzięczni za wszelkie uwagi dotyczące treści podręcznika oraz


sposobu prezentacji materiału, a także stopnia jego przystępności. Czytelnicy
mogą kierować swe komentarze za pomocą poczty elektronicznej na adres:
fronczyk@vizja.pl. Spostrzeżenia Czytelników dotyczące tekstu niniejszego
podręcznika z pewnością przyczynią się do stworzenia udoskonalonej kolejnej
wersji książki.

Warszawa, wrzesień 2008 Krzysztof Fronczyk

11
1. ZASTOSOWANIE TESTÓW PSYCHOLOGICZNYCH

Ewa Witkowska
WYDZIAŁPSYCHOLOGII
UNIWERSYTET WARSZAWSKI

1.1. Pojęcie testu psychologicznego.


i jego podstawowe własności
Testy psychologiczne, tworzone na podstawie wiedzy psychometrycznej, są
narzędziami w zamyśle przeznaczonymi do pomiaru cech lub stanów psychicz-
nych. Dzięki nim możliwe staje się lepsze zrozumienie i przewidywanie ludzkich
zachowaJl w realnych sytuacjach życiowych. Diagnoza testowa pozwala przykła­
dowo określić, czy dana osoba będzie raczej dobrym czy raczej złym kierowcą,
czy poradzi sobie w określonym typie szkoły, czy proponowany modeł terapii bę­
dzie w jej przypadku słuszny itp. Zmienne mierzone przez testy psychologiczne
są nieobserwowałne bezpośrednio, a o ich natężeniu wnioskujemy na podstawie
zachowania. Niekiedy zmienne tego typu nazywane są konstruktami. Pojęcie
to oznacza, że zmienna mierzona przez test została stworzona w ramach pewnej
teorii, w celu wyjaśniania ludzkiego zachowania. Przykłady takich zmiennych to
cechy psychiczne (na przykład ekstrawersja czy inteligencja), stany emocjonalne
(takie jak lęk) czy postawy Uak chociażby autorytaryzm).
Myśląc o testach psychologicznych jako o narzędziach diagnostycznych, na-
lcży pamiętać, żeby nie redukować ich wyłącznie do materiału testowego (ka-
wałka papieru, na którym wydrukowano pytania kwestionariuszowe czy zadań
prezentowanych badanemu przez psychologa). Test to cała procedura zbierania
informacji na temat psychologicznych faktów z życia badanego - ważne jest
w niej przestrzeganie odpowiednich zasad opisanych w podręczniku testowym.
Oczywiście, bardzo istotny jest też kontakt psychologa z osobą badaną. Roli dia-
gnosty nie można postrzegać jako sprowadzającej się do funkcji "żywego ro-
bota", mechanicznie wdrażającego opisany w podręczniku sposób postępowa­
nia. Można zatem powiedzieć, że w praktyce test psychologiczny jest interakcją
między badającym a badanym w określonym kontekście czasowym, fizycznym
i psychologicznym, przy czym pamiętać należy, że test jest procedurą, w któ-
rej wszystkie czynniki - wewnętrzne (na przykład zmęczenie badanego) i ze-
wnętrzne (na przykład hałas towarzyszący badaniu) - wpływają na reakcje oso-
by badanej. WJlsensie metodologicznym test psychologiczny jest zaś określoną
próbką zachowania, zbieraną poprzez zastosowanie standaryzowanych bodźców,
będących po prostu zadaniami czy pytaniami testowymi. Reakcje badanych są
więc opisem poszczególnych aspektów zachowania charakteryzującego badaną
. właściwość -na przykład częstość zachowaJl ekstrawertywnych w różnych sytu-
12 acjach życiowych (Zawadzki, 2006).
1. Zastosowanie testów psychologicznych

Określenie "testy psychologiczne" odnosi się do dużej grupy metod, różnią­


cych się między sobą pod względem przedmiotu pomiaru i procedury badania.
Ze względu na procedurę badania, możemy podzielić testy na indywidualne,
czyli takie, gdzie psycholog bada w danym momencie tylko jedną osobę, oraz
grupowe, przy pomocy których naraz bada się więcej osób. Ze względu na przed-
miot pomiaru testy najczęściej dzieli się na testy zdolności oraz kwestionariusze
osobowości, zwane też inwentarzami. Specyfika testu zdolności, w porównaniu
z kwestionariuszem, polega także na tym, że w teście istnieje jedna dobra odpo-
wiedź, natomiast w przypadku kwestionariusza każda wybrana przez badanego
odpowiedź jest "dobra", bo każde natężenie mierzonej cechy ma swoje wady
i zalety. Wśród testów zdolności wyróżnia się testy inteligencji, testy osiągnięć
oraz zdolności. Testy inteligencji mierzą potencjał poznawczy, pozwalający na
rozwiązywanie problemów, efektywną adaptację do zmieniającego się środowi­
ska oraz korzystanie z własnych doświadczeń życiowych. Testy zdolności mierzą
potencjał potrzebny, aby opanowywać nowe umiejętności, zaś testy osiągnięć
mierzą efektywność uczenia się.
Laicy często postrzegają badania psychologiczne z wykorzystaniem testów
jako technokratyczny, abstrakcyjny i tajemniczy obszar pracy psychologa, a tak-
że mają trudności z odróżnieniem profesjonalnego testu psychologicznego od
drukowanych w prasie popularnych psychozabaw albo dostępnych w Internecie
"testów" i psychozabaw, mających przykładowo mierzyć asertywność czy po-
czucie szczęścia. Co zatem czyni z testu psychologicznego test? Co odróżnia test
psychologiczny od psychozabawy? W jaki sposób można odróżnić test dobry od
kiepskiego?
Amerykańskie Towarzystwo Psychologiczne zdefiniowało w 1994 test psy-
chologiczny jako specyficzną procedurę diagnozowania. Może ona być zbio-
rem zadali lub pytań, które - w standardowych warunkach - mają wywołać
określone rodzaje zachowań i dostarczać wyników o pożądanych własnościach
psychometrycznych, czyli posiadających wysoką rzetelność i wysoką trafność
pomiaru. Wyniki te są interpretowane w odniesieniu do norm opracowanych dla
populacji, z której pochodzi osoba badana. Należy podkreślić, że własności psy-
chometryczne testu to w istocie własności procedury badania z użyciem testu,
czyli pomiaru testowego, a nie - testu jako takiego. Szczegółowemu omówieniu
wszystkich własności pomiaru testowego są poświęcone poszczególne rozdziały
niniejszego podręcznika, dalej opisano pokrótce, co kryje się za poszczególnymi
terminami.
Należy pamiętać, że na test psychologiczny, oprócz samego materiału testowe-
go (arkusza czy ksiązeczki z pytanimni, na które odpowiada badany lub stwier-
dzeniami, do których się ustosunkowuje), składają się także podręcznik testowy
i klucz. Podręcznik testowy to opracowanie zawierające ważne informacje do-
tyczące testu - jego podłoże teoretyczne, dane na temat rzetelności i trafności,
opis procedury badania oraz normy. Wnikliwa lektura podręcznika powinna być 13
Ewa Witkowska

zawsze pierwszym krokiem psychologa, poprzedzającym zastosowanie testu


w diagnozie. Klucz z kolei zawiera precyzującą informację o poprawnych lub
diagnostycznych (świadczących o natężeniu badanej cechy) odpowiedziach.

1.1.1. Rzetelność pomiaru testem


Rzetelność pomiaru testem psychologicznym jest właściwością opisującą do-
kładność pomiaru (spójność wyników) uzyskanych przy użyciu tego narzędzia.
Test dający rzetelny pomiar to (w pewnym uproszczeniu) taki, który daje takie
same wyniki, gdy przebadamy nim ludzi dwukrotnie, albo jeśli badanie jego al-
ternatywnymi formami (testami mierzącymi tę samą cechę, ale przy użyciu in-
nych pytali/zadań testowych) prowadzi do uzyskania takich samych wyników.
Dbałość o satysfakcjonujący poziom rzetelności pomiaru testem jest podstawo-
wym, aczkolwiek niewystarczającym warunkiem, który musi być spełniony, aby
test mógł być uznany za narzędzie pomiarowe dobrze spełniające swoją funk-
cję. Informacja o wysokiej precyzji pomiaru, czyli dobrej rzetelności pomiaru
testem, nie ozna\,;za bowiem, że autorowi testu udało się rzeczywiście stworzyć
instrument mierzący tę zmienną, o którą lnU chodziło. Infonnacją o tym, czy test
rzeczywiście mierzy interesującą zmienną (np. inteligencję) czy też inną charak-
terystykę (np. spostrzegawczość osoby badanej) jest trafność pomiaru testem.

1.1.2. Trafność pomiaru testem


Trafność pomiaru testem informuje o tym, czy test rzeczywiście mierzy za-
kładaną zmienną, a w konsekwencji - jak dobrze spełnia on swoją funkcję. Jest
to kluczowe dla praktycznego wykorzystania testów i wpływa na zakres możli­
wych interpretacji wyników testowych. Przykładowo: trafność informuje o tym,
czy przy użyciu danego testu inteligencji możemy przywidywać powodzenie ba-
danego na studiach. Jednocześnie, z uwagi na mnogość możliwych zastosowań
testu, sama "trafnośćpomiam testem" może być różnie definiowana (Murphy
i Davidshofcr, 2005). W praktyce trafność pomiaru testem sprowadza się do
dwóch kwestii - tego, jakie wnioski można wyciągnąć na temat zmiennych mie-
rzonych przez test oraz tego, co na podstawie wyników testowych można wnio-
skować o zachowaniach badanego w realnym życiu (Hornowska, 2002).
Jako że testy psychologiczne mają pozwalać na formułowanie wniosków na te-
mat rzeczywistego zachowania osób badanych w realnym życiu, a nie ograniczać
się do diagnozowania, trafność pomiaru testem jest uznawana za najważniejszą
charakterystykę testu psychologicznego. Innymi słowy - trafność pomiaru te-
stemjest właściwością opisująca adekwatność pomiaru w porównaniu z funkcjo-
nowaniem w życiu, a więc trafność pomiaru testowego to faktyczna sensowność
14 interpretacji wyników testowych.
1. Zastosowanie teslów psychologicznych

1.1.3. Standaryzacja
Pojęcie standaryzacji odnosi się do warunków badania testem, a konkretnie -
do zapewnienia, że każdorazowo stosowana procedura jest identyczna z opisaną
w podręczniku testowym. Chodzi tu zarówno o to, żeby badania nie zakłócały
żadne dystraktory (np. hałas, pojawienie się niepożądanych osób trzecich, złe
oświetlenie), jak i o to, aby używany materiał testowy był zawsze taki sam, co
jest oczywiście najważniejsze w przypadku testów wykonani owych (na przy-
kład, gdy badany ma za zadanie ułożenie układanki, przed badaniem psycholog
musi upewnić się, że jej elementy nie zostały uszkodzone w dotychczasowych
badaniach) .
Procedura badania testem jest wyczerpująco opisana w podręczniku do danego
testu. Znajdziemy tam informacje o tym, czy badanie ma charakter indywidualny
czy grupowy, czy ma ono być prowadzone z ograniczeniem czasowym czy też
bcz niego, czy osoba badana ma możliwość powrotu do wcześniejszych zadań,
w jakim zakresie psycholog jest uprawniony do udzielania pomocy badanemu
i inne wskazówki dotyczące przeprowadzania badania danym narzędziem.
Standaryzacja jest ważna z tego względu, że tylko wtedy, gdy przestrzega-
na jest jednolitość warunków testowania badanych, różnice w wynikach można
przypisywać różnicom indywidualnym, a nie warunkom testowania. Aby lepiej
zrozumieć konsekwencje nieprzestrzegania standardowej procedury badania,
wyobraźmy sobie następującą, przerysowaną sytuację. Psycholog miał porównać
inteligencję Jasia i Małgosi. Jaś był badany około południa, w dobrze oświetlo­
nym, cichym pomieszczeniu, natomiast Małgosia - po całym dniu pracy, oko-
ło godziny 21.00, w pokoju, gdzie w denerwujący sposób migała jarzeniówka,
a przez cały czas trwania badania zza okna dochodził odgłos alarmu samocho-
dowego. Załóżmy, że Małgosia otrzymała wynik wskazujący na niższy poziom
inteligencji niż Jaś. Czy taki rezultat jest miarodajny? Czy rzeczywiście wskazuje
on na niższe zdolności poznawcze Małgosi, czy jedynie na gorsze warunki ba-
dania? Niestety, w takiej sytuacji nie da się tego rozstrzygnąć i tym samym nie
można porównywać wyników obu badań. Podobny problem występuje w sytu-
acji, gdy sposób badania odbiega od tego, któremu poddana była próba norma-
lizacyjna (na przykład psycholog podzielił długi test na dwie części i spotkał
się z badanym dwukrotnie, zamiast jednorazowo, jak informował podręcznik).
Tracimy wówczas możliwość odnoszenia wyniku uzyskanego przez osobę bada-
ną do podanych norm i tym samym - możliwość porównania z grupą odniesienia
(Homowska, 2002).
Aby możliwe było porównywanie wyników różnych osób psycholog-diagno-
sta zobówiązany jest do dokładnego zapoznania się z prOCedurą badania testem,
opisaną w podręczniku testowym i do skrupulatnego jej przestrzegania. 15
Ewa Witkowska

1.1.4. Normy
Normy dla testu, pozwalają na nadawanie sensu wynikom testowym poszcze-
gólnych osób badanych, poprzez porównywanie ich z wynikami uzyskanymi
przez populację odniesienia. Wynik surowy uzyskany przez osobę badaną w te-
ście (suma punktów odpowiedzi poprawnych lub diagnostycznych) jest zupełnie
bezużyteczny, gdyż sam w sobie nie jest możliwy do zinterpretowania. Ilościowa
interpretacja wyniku testu psychologicznego odbywa się poprzez porównanie go
z rozkładem wyników próby normalizacyjnej. Ten sam wynik może być oczy-
wiście porównywany z różnymi grupami odniesienia, prowadząc'do innych in-
terpretacji. Przykładowo na podstawie danych normalizacyjnych, zamieszczo-
nych w podręczniku testowym, wynik pewnego badanego w skali Sumienności
inwentarza NEO-PI-R (Siuta, 2006) może być oceniony jako wynik wysoki na
tle populacji ogólnej. Jednak ten sam wynik może okazać się przeciętny na tle
wyników biegłych księgowych.
W celu uniknięcia nieporozumień, należy dobrze zrozumieć pojęcie normy.
W sensie psychometrycznym "norma" opisuje jedynie typowy poziom wykona-
nia, określony albo na podstawie tego, jaki odsetek osób w grupie odniesienia
uzyskał określone wyniki, albo na podstawie średniej wartości oszacow.anej dla
przedstawicieli danej grupy. Tak rozumiana norma nie odnosi się do tego, czy
dane natężenie cechy świadczy o zdrowiu czy chorobie, ani nie wyznacza stan-
dardu "praw~dłowego" czy "dobrego" wykonania.

1.1.5. Obiektywność

Pojęcie obiektywności testu sprowadza się do tego, że uzyskany przez bada-


nego wynik w teście nie zależy w żaden sposób od tego, kto test przeprowadzał.
Gdyby zatem dwóch różnych psychologów przeprowadzało badanie tym samym
testem tej samej osoby lub oceniało ten sam protokół z badania testowego, to
powinni oni w dokładnie taki sam sposób wykonać badanie oraz ocenić wyniki
badanego. W konsekwencji powinni oni dojść do takich samych wniosków dia-
gnostycznych.
Nie wszystkie powyższe własności są własnościami testu samego w sobie
i niekoniecznie mogą być łatwo ocenione na pierwszy rzut oka. Po czym zatem
poznać profesjonalny test psychologiczny? Po pierwsze, test zawiera informację
o tym, kto jest jego autorem, a w przypadku testów adaptowanych do warunków
polskich - także kto jest autorem adaptacji. Poza tym test, w odróżnieniu od
psychozabawy czy quizu, ma, oprócz samego materiału testowego, dodatkowe
elementy, spośród których najważniejszy jest podręcznik testowy, zawierający
informacje, m.in. o teorii leżącej u jego podstaw, oszacowaniach rzetelności
i wielkościach standardowego błędu pomiaru, badaniach trafności narzędzia,
16 próbie normalizacyjnej, procedurze badania i obliczania wyników. W przypadku
1. Zastosowanie testów psychologicznych

testu psychologicznego użytkownik korzysta z gotowych pomocy testowych -


arkuszy zadal1 i arkuszy odpowiedzi. Dodatkowo należy pamiętać, że testy psy-
chologiczne podlegają ochronie prawnej i nie mogą być rozpowszechniane dla
zabawy, czyli drukowane w prasie czy zamieszczane w Internecie (Standardy,
2007).

Test psychologiczny to specyficina proce~ura diagnozowania ukrytych zmiennych


woparciu o próbki zachmva'rria, która ódbywa się w standardowych warunkach, cha-
.. rakteryzuje ją obiektywność, rzetelność i trafność pomiaru, a otrzymany wynik jest
interpretowany woparciu o notmy~

1.2. Testy jako narzędzia diagnostyczne


Test psychologiczny to jedna z metod służących diagnozowaniu psychologicz-
nemu. Przez diagnozę najczęściej rozumie si~ proces aktywnego poszukiwania
danych potrzebnych do podjęcia decyzji o działaniach, zmierzających do zmia-
ny aktualnego stanu lub położenia psychospołecznego ludzi, co może nastąpić
na przykład w efekcie terapii czy porady (Paluchowski, 2006). Użycie testu po-
winno być zatem zawsze postrzegane w szerszym kontekście diagnostycznym.
Diagnozowanie na podstawie uzyskanych przez badanego wyników testowych
wymaga zarówno wiedzy z zakresu psychometrii, jak i fachowych umiejętności
zastosowania jej w praktyce. Zbieranie informacji w procesie diagnostycznym to
żmudny i skomplikowany proces, w którym szczególnie istotne są następujące
kroki:
1. Właściwe zdefiniowanie natury problemu i, co za tym idzie, pytań diagno-
stycznych, na które należy znaleźć odpowiedź.
2. Zdecydowanie, jakie informacje są niezbędne, aby udzielić odpowiedzi na
pytania diagnostyczne.
3. Wybór odpowiedniej metody zbierania informacji, w tym m.in.: testów psy-
chologicznych, wywiadów, obserwacji czy ankiet.
4. Odpowiednie przeprowadzenie i ocena wyników procedury testowej.
5. Wyczerpując~ interpretacja uzyskanych wyników.
6. Połączenie interpretacji wyników oraz danych pozatekstowych, tak aby po-
wstała pełna diagnoza psychologiczna, odpowiadająca na postawione pytania
diagnostyczne.
7. Poinformowanie klienta o wynikach (APA, 2000).
Testy psychologiczne są narzędziami rejestrującymi fakty psychologiczne
z życia jednostki, odnoszące się do informacji o zachowaniu - albo typowym,
z czym mamy najczęściej do czynienia w sytuacji pomiaru cech lub chwilowym,
kiedy mierzymy stany. Stwierdzenie, że testy mierzą cechy czy stany jest pew-
. nym skrótem myślowym. W rzeczywistości testy mierzą jedynie zachowanie i na 17
Ewa Witkowska

tcj podstawie pozwalają wnioskować o ukrytych własnościach psychicznych,


czyli właśnie o cechach czy stanach (Zawadzki, 2006).
Testy mogą być wykorzystywane zarówno do pomiaru "zdrowego" zachowa-
nia, jak i jego zaburzeń. Pomiar testowy dostarcza informacj i na temat natężenia
mierzonej zmiennej. Mimo to, niekiedy na podstawie wyników badań testowych
można pogrupować ludzi, na przykład, pod względem określonych typów, czy-
li z uwzględnieniem nie pojedynczych cech, lecz określonej ich konfiguracji .
. Ponadto, w niektórych przypadkach, wyniki testu mogą posłużyć diagnozie ja-
kościowej. -
Idea badania wybranych charakterystyk psychologicznych za pomocą testów
wywodzi się z obszaru psychologii różnic indywidualnych, zajmującej się zróż­
nicowaniem między ludźmi w zakresie takich zmiennych, jak inteligencja czy ce-
chy osobowościowe. Takie podejście opisuje specyfikę danej osoby na tle innych
osób pochodzących z populacji, zatem celem pomiaru staje się zbadanie wza-
jemnego zróżnicowania ludzi pod względem interesującej cechy. Istnieją dwa
różne podejścia - nomotetyczne i idiograficzne, które na taki opis pozwalają.
Podejście idiograficzne stawia sobie za cel opisanie jednostki poprzez scharak-
teryzowanie cech typowych tylko dla niej i odróżniających ją od innych ludzi.
Z kolei podejście nomotetyczne odwołuje się przy opisie do cech, które charakte-
ryzują wszystkie osoby w określonej populacji, zaś zróżnicowanie istniej c tylko
w zakresie ich natężenia. Obydwa te podejścia - nomotetyczne i idiograficzne
- wypracO\yały swoje własne narzędzia, które pozwalają na określenie specyfiki
jednostki. Narzędziami typowymi dla podejścianomotetycznego są metody stan-
dardowe - testy i kwestionariusze (Zawadzki, 2006). To właśnie im poświęcona
jest ta książka. Z kolei podejście idiograficzne wykorzystuje techniki projekcyj-
ne, którymi nie będziemy się dalej zajmowali'.
Czasami zdarza się, że testy psychologiczne są błędnie utożsamiane z ankie-
tami. Zasadnicza różnica między tymi narzędziami polega na tym, że pozycje
ankiet nie tworzą całych skal, tak jak dzieje się w przypadku testów. Używając
testu, wnioskujemy o natężeniu cechy, na przykład ekstrawersji na podstawie
łącznych odpowiedzi na wszystkie pytania, w przypadku ankiety - na podstawie
poszczególnych pytań rozpatrywanychjako miary osobnych zmiennych. Ponadto
najczęściej (choć nie jest to zasadą) ankiety, w odróżnieniu od testów psycholo-
gicznych, dostarczają informacji o populacjach, a nie o jednostkach.
Stosując testy w diagnozie, należy pamiętać o ograniczeniach tej metody. Po
pierwsze, test psychologiczny nie jest wyczerpującą miarą wszystkich możliwych
zachowań, których zbadanie może być pomocne w ocenie interesującej diagno-
stę zmiennej, jakkolwiek test, jako systematyczna próbka zachowań, z reguły
przynajmniej w przybliżeniu ma rejestrować zachowania składające się na ten
, o technikach projekcyjnych przeczyta Czytelnik chociażby w podręczniku: Anastasi A., Urbina S.
(1999); Testy psychologiczne, Warszawa, Pracownia Testów Psychologicznych Polskiego Towarzystwa
18 Psychologicznego.
konstrukt. Jakość testu jako narzędzia pomiarowego jest w dużej mierze determi-
nowana przez stopień reprezentatywności użytej przez autora próbki zachowań.
Obecnie obserwuje się szerokie zainteresowanie testami psychologicznymi.
Jednocześnie wokół stosowania testów nagromadziło się dość dużo kontrowersji,
które wynikają z tego, że na podstawie wyników testowych podejmowanie są
ważne decyzje dotyczące ludzkiego życia (Murphy i Davidshofer, 2005). Jako
główne obszary praktycznego wykorzystania testów wymienia się zwykle edu-
kację, rynek pracy, sądownictwo oraz praktykę kliniczną. W szkolnictwie testy
najczęściej wykorzystywane są w celach selekcyjnych (na przykład by orzec, czy
zachodzi potrzeba podjęcia przez danego ucznia kształcenia specjalnego, skiero-
wania go do programu nauczania indywidualnego lub na zajęcia rewalidacyjno-
wychowawcze), aby określić możliwości rozwojowe i potencjał dziecka, czy też
ocenić rodzaj zaburzdi. i odchyleń rozwojowych oraz sformułować zalecenia do
dalszej pracy z dzieckiem (Szustrowa, 2003). W sądownictwie testy wykorzysty-
wane są do orzekania o stanie psychicznym oskarżonych czy też o stopniu przy-
stosowania społecznego. Testy znajdują zastosowanie także w celu określenia, kto
będzie najlepszym opiekunem dziecka w przypadku rodziców rozwiedzionych
lub gdy zachodzi podejrzenie niewłaściwego sprawowania opieki rodzicielskiej.
Na rynku pracy testy najczęściej wykorzystuje się w selekcji pracowników, przy
ocenie efektywności programów szkoleniowych oraz przy ocenie pracowniczej.
Klinicyści korzystają z testów w celu diagnozy zaburzeń, wyboru odpowiedniej
metody terapeutycznej oraz oceny jej skuteczności.
Mimo że wymienione powyżej cztery obszary traktuje się jako główne dzie-
dziny wykorzystujące testy w praktyce, to w opracowanym przez Szustrową
(2003) Raporcie o stanie orzecznictwa psychologicznego w Polsce wymieniono
aż 26 obszarów praktyki psychologicznej, w których spotkać można się z orzecz-
nictwem psychologicznym, czyli działaniami zawodowymi psychologa, polega-
jącymi na formułowaniu - na podstawie wyników badań 'psychologicznych - sa-
modzielnych orzecze11 i opinii psychologicznych, czyli potencjalnie opartych na
wynikach badań testowych.

o czym ttależy zawsze pamiętać stosując testy psychologiczne:


1 Diagnoza ma na c~lu poznattie i zrozumienie klienta.
2 Użycie testu Jest jednym z elementów procesu diagnostycznego.
3 Diagnozowanie tez w jakimś sensie jest interwencją, mogącą mieć konsekwencje
dla osoby badartej;
Atesty psychologiczne to nic innego jak metódy dostarczające małychpró~ek zacho-
wtmia,którepówhmy.być adekwatniedobratie ze względu:na priMmiotpomiaru.
S Wykorzystanie testu:Zawsze powifina poprzedzi,ć refleksja "dlaczego" i"kiedy" go
uzyć, a nie tytko ,Jakiego" testu użyć,

19
Ewa Witkowska

Pytania sprawdzające
l. Co to jest test psychologiczny?
2. Jak odróżnić profesjonalny test psychologiczny od popularnej psychozaba-
wy?
3. Wymień podstawowe charakterystyki testu.
4. Co to jest rzetelność pomiaru testem?
5. Dlaczego trafność pomiaru testem jest uznawana za jego najważniejszą cha-
rakterystykę?
6. Na czym polega standaryzacja warunków testowania?
7. Co to jest "obiektywność" diagnozy testowej?
8. Co to jest "norma" w sensie psychometrycznym?
9. Na czym polega diagnozowanie psychologiczne?
10. Jakie inne metody, oprócz testów psychometrycznych, mogą być wykorzy-
stane przez psychologa w diagnozie?
11. Jakie informacje zawiera podręcznik testowy?
12. Po czym można poznać dobry test psychologiczny?
13. Opisz podejście idiograficzne i nomotetyczne do diagnozy osobowości.

20
2. PRZEGLĄD WYBRANYCH TESTÓW PSYCHOLOGICZNYCH

Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE

Testy psychologiczne, mimo posiadania wspólnych właściwości, stanowią


bardzo zróżnicowaną wewnętrznie grupę metod, jakimi posługują się psycholo-
gowie. Istnieje możliwość poklasyfikowania tych zróżnicowanych metod i wy-
odrębnienia szeregu grup testów. Niniejszy rozdział ma na celu zaprezentowanie
najważniejszych z nich. Przedstawionc zostaną także przykładowe pytania i za-
dania testowe, dzięki czemu możliwa będzie przynajmniej częściowa prezentacja
ogromnej różnorodności testów.
Testy psychologiczne mogą być poklasyfikowane na podstawie różnych kry-
teriów. Jednym z ważniejszych kryteriów klasyfikacji jest podział ze względu na
przedmiot pomiaru. Na jego podstawie wyróżnia się narzędzia przeznaczone do
pomiaru cech osobowości oraz narzędzia przeznaczone do pomiaru cech inte-
lektu, takich jak inteligencja czy zdolności. Narzędzia przeznaczone do pomiaru
cech osobowości nazywane są kwestionariuszami (lub inaczej inwentarzami),
natomiast narzędzia do pomiaru cech opisujących intelekt to testy we właściwym
znaczeniu tego słowa.
W testach przeznaczonych do pomiaru cech intelektu (np. testy zdolności ma-
tematycznych, werbalnych, przestrzennych, abstrakcyjno-logicznych, sprawno-
ści psychomotorycznej, intdigencji ogólnej) osoba badana wykonuje specyficzne
zadania. W tych testach istnieje tylko Jedna prawidłowa odpowiedź. Natomiast
w kwestionariuszach nie ma prawidłowych bądź błędnych odpowiedzi. Istnieją
jedynie odpowiedzi wskazujące na intensywność posiadania danej cechy.
Kwestionariusze wykorzystują odmienne niż testy zdolności i inteligencji źródło
informacji o osobach badanych. W testach badani rozwiązują zadania intelektu-
alne, a więc obserwuje się w nich to, czy badany jest w stanie rozwiązać dany
problem czy też nie. Mamy więc próbkę rzeczywistego zachowania osoby bada-
nej. W kwestionariuszach natomiast wykorzystuje się wiedzę badanego o sobie
samym, zadając mu pytania dotyczące jego zachowania. Kwestionariusze doty-
czą więc relacji badanego D swoim zachowaniu.
Ze względu na duże znaczenie obu wymienionych grup metod zostaną one
nieco dokładniej opisane w dalszej części niniejszego rozdziału wraz z prezenta-
cją najbardziej znanych przykładów testów należących do tych grup.
Inne kryterium klasyfikacji testów dotyczy liczby jednorazowo badanych osób
przy pomocy danego narzędzia. Ze względu na to kryterium wyodrębnia się testy
indywidualne oraz grupowe. 21
Krzysztof Fronczyk

Testy grupowe, które mogą być wykonywane jednocześnie przez wiele osób,
cechują się prostym sposobem badania, ograniczającym się do podania instrukcji
i wręczenia badanym arkuszy testowych. Prostota badania sprzyja zachowaniu
standardowej procedury badania. Dzięki testom grupowym możliwe jest jedno-
czesne badanie dużej liczby osób, której wielkość ograniczona jest właściwie
tylko rozmiarami sali, w jakiej przeprowadza się badanie (z czego wynika liczba
dostępnych miejsc do siedzenia oraz słyszalność psychologa mówiącego treść
instrukcji do danego testu), a także możliwością kontroli zachowania osób ba-
danych i prowadzenia badań w zbliżonych warunkach dla wszystkich badanych.
Z powodu jednoczesnego badania wielu osób, pozycje testowe testów grupo-
wych są skonstruowane tak, aby nie było konieczności wchodzenia w indywi-
dualny kontakt z badanymi, udzielania im dodatkowych wyjaśnień itp. Testy
grupowe składają się z zamkniętych pozycji testowych, zawierających kilka go-
towych odpowiedzi, a badany musi wybrać jedną spośród nich. Pozwala to na
szybkie i sprawne przeprowadzenie badania. W testach grupowych nie zdarzają
się otwarte pozycje testowe, czyli takie, w których osoba badana sama musi sfor-
mułować odpowiedź. Wydłużałoby to znacznie procedurę badania i obliczania
wyników. Sposób obliczania wyników jest możliwie uproszczony, tak by spraw-
dzanie dużej liczby testów zajęło jak najmniej czasu.
Testy grupowe wymagają od badanych korzystania z instrukcji udzielanych
całej grupie, samodzielnego czytania ewentualnych, wydrukowanych instrukcji
oraz samodzielnego wpisywania swoich odpowiedzi. Brak bezpośredniej kon-
troli nad tym, czy badani stosują się do instrukcji we właściwy sposób lub czy
odpowiadają na wszystkie pozycje testowe może obniżać rzetelność wyników
badań grupowych.
Testy grupowe są idealne w sytuacji, gdy trzeba szybko przebadać większą
liczbę osób, np. w celu wstępnej selekcji, gdy chodzi o wyłonienie osób o skraj-
nym nasileniu jakiejś właściwości psychicznej.
Natomiast testy indywidualne, ze względu na swoją specyfikę, nie mogą być
wykorzystywane do jednoczesnego badania więcej niż jednej osoby. Specyfika
ta wynika zwykle ze złożoności procedury badania, wymagającej od psychologa
jednoczesnego wykonywania wielu czynności (np. mierzenia czasu udzielania
odpowiedzi na poszczególne pozycje testowe, zapisywania odpowiedzi osoby
badanej, prezentowania materiału testowego w odpowiedniej kolejności, punkto-
wania odpowiedzi badanego w trakcie przeprowadzania badania itp.). Trudność
polega nie tylko na uciążliwości procedury testowej, która przez diagnostę musi
być bardzo dobrze opanowana, ale również na konieczności nawiązania indywi-
dualnego kontaktu z osobą badaną. Dzięki temu testy indywidualne umożliwia­
ją dokonywanie szczegółowych obserwacji zachowania osoby badanej podczas
udzielania odpowiedzi na pytania testu. Wymienione właściwości testów indy-
widualnych przyczyniają się do tego, że są one znacznie bardziej czasochłonne.
22 Najczęściej (choć nie musi być to regułą) testy indywidualne znajdują zasto-
2. Przegląd wybranych teslów psychologicznych

sowanie w psychologii klinicznej, gdyż pozwalają na dokładniejsze i bardziej


wszechstronne zdiagnozowanie badanego (np. gdy diagnoza poprzedza terapię,
reedukację czy poradę).

2.1. Testy cech intelektu


Wśród testów inteligencji i zdolności wyróżnia się testy mocy i szybkości.
Testy szybkości składają się z wielu zadań o tej samej bądź podobnej trudności.
Zwykle są to zadania dość łatwe, których wykonanie leży w granicach możli­
wości osób, dla których test jest przeznaczony. Czas wykonania testów szyb-
kości jest jednak ograniczony, a liczba zadań na tyle duża, aby żaden badany
nie rozwiązał wszystkich w wyznaczonym czasie. Osoby o wyższym poziomie
zdolności, do pomiaru której został stworzony dany test, rozwiązują w tym ogra-
niczonym czasie więcej zadali. niż osoby o niższym poziomie zdolności. Tak więc
miarą osiągnięć badanego jest liczba podanych odpowiedzi (z uwzględnieniem
liczby ewentualnych błędów, choć jest ich zwykle mało ze względu na łatwość
zadań). Innymi słowy, testy szybkości sprawdzają biegłość w wykonywaniu za-
dań testowych. Umożliwia to ocenę sprawności intelektualnej rozumianej jako
szybkość efektywnej pracy intelektualnej.
W przeciwieństwie do testów szybkości, w testach mocy o wyniku decyduje
nie tyle szybkość, co poprawność ich rozwiązania. Zadania w testach mocy są
zwykle trudniejsze i bardziej zróżnicowane niż w testach szybkości. Zadania uło­
żone są w kolejności wzrastającej trudności, a czas wykonania nie jest ograniczo-
ny. Badani, rozwiązując kolejne zadania, dochodzą zwykle do takiego, które jest
zbyt trudne. Nie wszystkie testy można jednoznacznie zakwalifikować do jednej
z tych dwu grup. Istnieją bowiem takie testy, które mają cechy zarówno testów
mocy, jak i szybkości.
Inny podział testów dotyczy materiału, na jakim zostały one zrealizowane.
Z tego punktu widzenia wyróżnia się testy werbalne i niewerbalne (zwane też
testami wykonaniowymi czy bezsłownymi) .
.W testach wykonaniowych badany musi wykonać określone działania na kon-
kretnym materiale. Zadania tego typu mogąpolegać np. na rysowaniu, prowadze-
niu ołówka przez ścieżki labiryntu, układaniu klocków, rozwiązywaniu łamigłó­
wek, rozwiązywaniu zadań matematycznych, układaniu elementów układanek,
odnajdywaniu brakujących części obrazka itp.
W testach werbalnych odpowiedź badanego udzielana jest słownie, w formie
pisemnej lub ustnej. W testach tego typu konieczna jest znajomość języka, nawet
jeśli badaniu podlega zdolność, która nie musi być powiązana z językiem.
Ważnym rodzajem testów są skale rozwojowe przeznaczone do diagnozy po-
ziomu rozwoju intelektualnego dzieci. W tego typu narzędziach zadania tworzą
oddzielne zestawy przeznaczone dla różnych poziomów wieku. Jest to zrozu-
miałe, jeśli weźmie się pod uwagę, że wraz z rozwojem wrastają możliwości 23
Krzysztof Fronczyk

intelektualne dziecka. Oznacza to, że zadania, które były stosunkowo trudne dla
dzieci młodszych, dla dzieci starszych stają się łatwe lub wręcz banalne, a tym
samym przestają różnicować badanych, gdyż wszystkie starsze dzieci są w sta-
nie je prawidłowo rozwiązać. Tak więc w zestawach przeznaczonych dla dzieci,
w kolejnych grupach wieku, znajdują się co raz trudniejsze zadania.
Badanie za pomocą skal rozwojowych, które jest indywidualne, rozpoczyna
się zwykle od zestawu odpowiadającego liczbie lat żyda danego dziecka. W wy-
padku, gdy badany nie radzi sobie z zadaniami przeznaczonymi dla jego wieku
wykonuje się zadania łatwiejsze, przeznaczone dla osób młodszych. Jeśli dziecko
rozwiązuje bez problemu zadania dla swojego wieku, to można przejść do zadań
trudniejszych, dochodząc do zadań o takim poziomie trudności, których dziecko
nie jest w stanie rozwiązać.
Niektóre z narzędzi przeznaczonych do pomiaru inteligencji i zdolności mają
szczególna formę zwaną bateriami. Baterie składają się z pewnej liczby odręb­
nych testów. Każdy z nich przeznaczony jest do pomiaru nieco innej zdolności
intelektualnej. Oprócz wyników w poszczególnych testach, zazwyczaj oblicza się
jakiś rodzaj wyniku ogólnego, będącego łącznym rezultatem wszystkich testów.
Procedura badania baterią zakłada zwykle, że wykonuje się kolejno wszystkie
testy wchodzące w jej skład.
Za twórcę pierwszego testu inteligencji uważany jest Alfred Binet (1857-1911)
i jego współpracownik - Theophile Simon. W 1905 roku opracowali oni zestaw
zadań o wzrastającym poziomie trudności, opartych na treściach nauczania. Tak
utworzony test przeznaczony był do pomiaru bardzo różnych funkcji intelek-
tualnych, ze szczególnym uwzględnieniem oceniania i rozumowania. Skala ta
zawierała także zadania sensoryczne i percepcyjne. Test ten zawierał więc za-
równo zadania werbalne, jak i wykonani owe. Ten pierwszy test inteligencji był
jednocześnie narzędziem o charakterze skali rozwojowej przeznaczonej dla dzie-
ci w wieku od 3 do 13 lat.
Opracowany przez siebie test Binet i Simon przekazali pewnej liczbie pary-
skich uczniów. Następnie określono, ilu uczniów danego rocznika odpowiada-
ło prawidłowo na każde zadanie testu. Jeżeli jakieś zadanie zostało rozwiązane
przez 70% dzieci w tym samym wieku, uznawano, że większość dzieci w da-
nym wieku powinnaje prawidłowo rozwiązać. W ten sposób dla dzieci o różnym
poziomie wieku przyporządkowano zadania, które przez dzieci te powinny być
prawidłowo rozwiązywane. Tak więc np. poziomowi 3 lat przypisywano wszyst-
kie zadania pomyślnie wykonane przez większość trzylatków, poziomowi 4 lat -
wszystkie zadania prawidłowo wykonane przez większość czterolatków itd., aż
do wieku 13 lat.
Procedura obliczania wyników indywidualnych dzieci była następująca. Jeśli
jakieś dziecko poprawnie rozwiązało zadania przeznaczone dla pewnej grupy
wieku, wynik jego określano jako tzw. wiek umysłowy odpowiadający wieko-
24 wi dzieci wykonujących poprawnie te same zadania. Przykładowo: jeśli dziecko
2. Przegląd wybranych testów psychologicznych

uzyskało w rozmaitych zadaniach testowych wynik charakterystyczny dla pię­


ciolatków, to jego wiek umysłowy wynosił 5 lat, bez względu na wiek życia
(chronologiczny).
Metoda Bineta cieszyła się dość dużym zainteresowaniem i doczekała się
wielu zagranicznych adaptacji. Naj słynniej sza jest adaptacja amerykańska
znana pod nazwą Stanfordzkiej Skali Bineta. Test Bineta został zaadaptowany
w 1916 roku do badań dzieci amerykańskich przez Lewisa Termana, wykładowcę
z Uniwersytetu Stanford w Kalifornii. Terman po raz pierwszy wprowadził po-
jęcie ilorazu inteligencji. Iloraz inteligencji jest to proporcja wieku umysłowego
do wieku życia, pomnożona przez 100, by wyeliminować części setne (więcej na
ten temat znajduje się w rozdziale 6.2.4.5.).
Nowy test stał się bardzo szybko standardowym narzędziem psychologii kli-
nicznej, psychiatrii i poradnictwa szkolnego. Obecnie jednak oryginalny test
Bineta ma wartość jedynie historyczną i nie jest używany w praktyce psycholo-
gicznej. Natomiast w USA wciąż stosowana jest uaktualniona wersja tego testu.
W Polsce nie istnieje aktualna adaptacja testu Bineta, co uniemożliwiajego wy-
korzystanie w praktyce.
Od czasu utworzenia skali Bineta powstała ogromna liczba różnorodnych te-
stów inteligencji i zdolności. Poniżej omówione zostaną wybrane, najbardziej
znane, przykłady narzędzi tego typu. Prezentację rozpoczynamy od przedstawie-
nia wybranych testów, mających zbliżony charakter do testu Bineta, czyli skal
rozwojowych. W dalszej części przedstawione zostaną testy stworzone z myślą
o badaniu ludzi dorosłych.

2.1.1. Skale rozwojowe


Omówienie wybranych skal rozwojowych rozpocznie przedstawienie Skali
Dojrzałości Umysłowej Columbia (Ciechanowicz, 1992). Jest to niewerbalny
test, służący do oceny poziomu dojrzałości umysłowej dziecka. Columbia składa
się z 70 tablic z rysunkami (3 tablice przykładowe i 67 tablic stanowiących wła­
ściwe zadania). Tablice te zawierają zestaw 3, 4 lub 5 kolorowych rysunków, któ-
rymi są figury geometryczne lub rysunki ogólnie znanych przedmiotów. Obiekty
te, wedle założeń autorów, znane są przeciętnemu dziecku. Każde zadanie przed-
stawione jest na odrębnej, dość dużej karcie. Na rys. 2.1. przedstawiono przykład
(łatwy ~ przeznaczony dla mlodszych dzieci) zadania zbliżonego do zadań znaj-
dujących się w teście Columbia. -
Zadaniem osoby badanej jest wskazanie na każdej z tablic rysunku niewią­
żącego się z pozostałymi. Oznacza to konieczność wykrycia zasady łączącej
kilka rysunków i na tej podstawie wykluczenia jednego z nich. Takie zadania
sprawdzająpoprawność tworzenia klas logicznych przez osobę badaną. Zdolność
klasyfikowania (rozróżniania elementów podobnych i różnych) jest uważana za
jeden z ważniejszych przejawów inteligencji i wykorzystuje się ją w wielu te- 25
Krzysztof Fronczyk

stach. Uważa się także, że zdolność tę człowiek zaczyna nabywać dość wcześnie
w trakcie swojego rozwoju, co umożliwia wykorzystywanie zadań dotyczących
klasyfikacji w testach przeznaczonych dla dzieci.

Rysunek 2.1. Przykład zadania zbliżonego do pozycji testowych Skali Columbia

Skala Dojrzałości Umysłowej Columbia jest narzędziem bezsłownym.


Niepasujący element dziecko pokazuje ręką lub wskazuje ruchem głowy.
Skala Columbia służy do indywidualnego badania dzieci w wieku od 3,5 dolO
lat. Jest przeznaczona dla dzieci zarówno o rozwoju prawidłowym, jak i zaburzo-
nym. Ze względu na niewerbalny charakter i bardzo prosty sposób udzielania od-
powiedzi, umożliwia diagnozowanie dzieci z upośledzoną sprawnością werbalną
i motoryczną (np. po porażeniu mózgowym, uszkodzeniach centralnego układu
nerwowego, cierpiące na zaburzenia mowy i słuchu).
Skala Columbia ma aktualną, legalną polską adaptację, dzięki czemu może
być stosowana w Polsce (Ciechanowicz, 1992).
Innym przykładem skali rozwojowej jest Międzynarodowa Wykonaniowa
Skala Leitera (MWSL), będąca niewerbalnym testem inteligencji dla dzieci, zre-
alizowanym tylko na materiale percepcyjnym (rysunki kształtów geometrycz-
nych oraz znanych obiektów). W każdym zadaniu badanemu przedstawia się
wzór narysowany na pasku kartonu oraz pewną liczbę drewnianych, niewielkich
sześciennych klocków z odpowiednimi rysunkami (dla każdego zadania są to
klocki z innymi rysunkami). Badany ma odtworzyć wzór przy pomocy klocków.
W niektórych przypadkach wzór jest niepełny, a więc badany sam musi odnaleźć
brakujące elementy na podstawie samodzielnie wykrytej zasady. Badany udziela
odpowiedzi, wkładając klocki w wycięcia specjalnej ramki. Skala Leitera skła­
da się z 52 zadań uporządkowanych według wzrastającego stopnia trudności.
Zadania pogrupowane są po cztery, tworząc serie od A do M.
Zadania wchodzące w skład tego testu angażują podstawowe operacje inte-
lektualne, takie jak wykrywanie relacji i ich wykorzystanie przy porządkowaniu
obiektów. Operacje te są w dużej mierze niezależne od wcześniejszych doświad­
czeń. Również materiał testowy powoduje, że test w ograniczonYIJ1 zakresie
odwołuje się do posiadanych przez badanego wiadomości. Są to konsekwencje
26 celu, jakiemu miała służyć Skala Leitera. Chodziło bowiem o stworzenie uniwer-
2. Przegląd wybranych testów psychologicznych

salnego narzędzia do stosowania wobec badanych pochodzących z różnych grup


społecznych i etnicznych, a więc wolnego od wpływów wcześniejszego uczenia
się oraz języka.
Również procedura badania Skalą Leitera podporządkowana jest temu celowi.
W trakcie przeprowadzania badania, dziecko nie otrzymuje żadnych instrukcji
słownych czy wyjaśnień dotyczących poszczególnych zadań. Test ten nie wyma-
ga używania mowy ani jej rozumienia. W niektórych zadaniach badany otrzy-
muje wskazówki, ale jedynie w sposób niewerbalny (przekazywane za pomocą
gestów czy demonstracji). Tak więc badany sam musi wykazywać się większą
niż w innych testach aktywnością w rozpoznawaniu problemów i domyślaniu się
oczekiwań badającego.
Skala Leitera przeznaczona jest dla dzieci w wieku od 3 do 15 lat. Badanie ma
charakter indywidualny, bez ograniczenia czasu (z wyjątkiem 4 zadań). Badanych
różnicuje tutaj nie szybkość wykonania, a poprawność wykonania zadań, które
mają zróżnicowany poziom trudności. Jest to więc test mocy. Liczba zadań, ja-
kie dziecko otrzymuje, zależy od odnoszonych sukcesów i porażek, a więc czas
badania jest bardzo zróżnicowany. W przypadku dzieci najmłodszych wynosi on
przeciętnie 20 minut, a naj starszych - około 60 minut.
Procedura badania może być dość uciążliwa dla psychologa przeprowadza-
jącego badanie. Pomoce testowe, na które składają się kartoniki oraz klocki
z naniesionymi odpowiednimi rysunkami, zajmują bowiem dość dużej wielkości
pudełko. W celu zachowania płynności badania, diagnosta musi biegle opano-
wać procedurę badania, tak aby z łatwością odnajdować pomoce niezbędne do
kolejnych zadań.
. Skala Leitera znajduje zastosowanie w praktyce psychologicznej do diagno-
zy intelektu. Skala jest szczególnie przydatna do badania dzieci, z którymi kon-
takt werbalny jest utrudniony lub nietnożliwy (dzieci głuche lub z zaburzeniami
mowy czy też z zahamowaniami emocjonalnymi lub nieznające dobrze języka
polskiego). Nie wymaga bowiem od nich ani używania, ani rozumienia mowy.
Umożliwia także badanie dzieci opóźnionych w rozwoju umysłowym.
Polska standaryzacja tego narzędzia pochodzi z 1993 roku (Jaworowska,
Matczak, Szustrowa, 1996), a więc Skala Leitera może być stosowana w naszym
kraju.
Oryginalną polską metodą przeznaczoną do oceny poziomu rozwoju intelektu-
alnego dziecka jest test Diagnoza Możliwości Intelektualnych. Pierwotna wersja
tego narzędzia oznaczona skrótem DMI (Matczak, 1992) doczekała się dwóch
znacznych modyfikacji w postaci testów DMI-2M i DMI-2S (Matczak, 2001).
Wszystkie testy DMI oparte są na koncepcji Jeana Piageta i odwołują się do
pojęcia myślenia operacyjnego (Piaget, 1966; 1981;.2006). Według Piageta prze-
jawem nabywania przez dziecko zdolności myślenia operacyjnego jest umiejęt­
ność klasyfikacji oraz dostrzegania relacji. Przez klasyfikowanie Piaget rozumie
grupowanie elementów na zasadzie podobieństwa, natomiast spostrzeganie rela- 27
Krzysztof Fronczyk

cji możliwe jest dzięki zauważaniu różnic między elementami. Zmieniający się
wraz z rozwojem poziom tych zdolności jest przedmiotem diagnozy przy użyciu
testów DM!. Tak więc testy te umożliwiają ocenę stopnia rozwojowego zaawan-
sowania myślenia operacyjnego i wykrywania jego deficytów. Każdy z testów
zawiera zadania zrealizowane zarówno na materiale werbalnym, rysunkowym,
jak i liczbowym. Oprócz oceny ilościowej, testy DMI dostarczają jakościowych
infonnacji o stopniu rozwoju operacji umysłowych. Możliwa jest także analiza
uzasadnień odpowiedzi udzielanych przez dziecko.
Nieco dokładniej zostanie opisana konstrukcja testów DMI-2. Każdy z nich
składa się z dwóch podtestów, z których jeden zawiera zadania o strukturze klas,
a drugi - zadania o strukturze relacji. W ramach każdego z podtestów występują
trzy rodzaje zadań. Pierwszym, i najprostszym z nich, jest Uzupełnianie. Zadania
tego typu polegają na uzupełnianiu trójelementowej klasy lub serii czwartym ele-
mentem. Drugi rodzaj pozycji testowych to Analogie. Zadaniem osoby badanej
jest dopasowanie do istniejącej pary elementów drugiej pary elementów na wzór
pierwszej. Ostatni rodzaj zadań stanowi Mnożenie. Nie chodzi tu oczywiście
o mnożenie w sensie algebraicznym, a o mnożenie klas lub relacji, czyli o po-
szukiwanie ich części wspólnych. Badany ma tu uzupełnić dwie klasy lub serie
wspólnym elementem, spełniającym reguły, wedle których dobrano elementy
tych dwóch układów.
Właściwe odpowiedzi badany każdorazowo wybiera spośród czterech (DMI)
lub pięciu (DMI-2) podanych. Odpowiedzi punktuje się w skali od O do 3 (w za-
leżności od stopnia ich poprawności).
Testy DMI przeznaczone są dla dzieci w wieku szkolnym. Przeprowadza się je
indywidualne lub grupowo (zależnie od wersji) w trakcie dwu sesji. Czas badania
testami DMIjest nieograniczony. Wersje przeznaczone do badał} indywidualnych
tym różnią się od wersji do badań grupowych, że w tych pierwszych przewi-
dziane jest zbieranie od dzieci uzasadnidł odpowiedzi. Wersje przeznaczone do
badań indywidualnych stanowią próbę połączenia diagnozy psychometrycznej
z ideami diagnozy dynamicznej.
Testy DMI można stosować zamiast, lub jako uzupełnienie, testu inteligencji,
w celu oceny ogólnego poziomu umysłowego dziecka. Ponadto mogą być one
przydatne w diagnozowaniu stopnia rozwojowego zaawansowania myślenia ope-
racyjnego i w określaniu jego deficytów. Są to istotne przesłanki prognozowania
osiągnięć szkolnych lub wykrywania przyczyn trudnośCi w nauce. Uzyskiwane
infonnacje jakościowe (zwłaszcza pochodzące z badał} indywidualnych) mogą
być pomocne przy planowaniu oddziaływań korekcyjno-wychowawczych.
Testy DMI kończą prezentację wybranych, najbardziej znanych w Polsce skal
rozwojowych.

28
2. Przegląd wybranych testów psychologicznych

2.1.2. Testy inteligencji ogólnej i zdolności


Testy opisane w niniejszym podrozdziale przeznaczone są głównie dla osób
dorosłych, choć mogą być również wykorzystane w badaniach dzieci i młodzie­
ży. Jednak nie uwzględniają one w swojej konstrukcji specyfiki zmian zachodzą­
cych wraz z rozwojem człowieka.
Jednymi z bardziej rozpowszechnionych narzędzi tego typu są Testy Matryc
Ravena, diagnozujące inteligencję niezależną od doświadczenia osoby badanej,
jej wykształcenia, pochodzenia itp. Sprawdzają one aktualne zdolności spostrze-
gania, a także logicznego myślenia.
Testy Matryc Ravena przeznaczone są do badań grupowych, choć można
też przy ich pomocy badać pojedyncze osoby. Testy te posiadają kilka wersji.
Niezależnie od wersji testu, podstawowe założenia wszystkich jego odmian są
jednakowe. Testy Matryc są testami niewerbalnymi. Zadania mają postać niepeł­
nych wzorów (matryc), w których należy uzupełnić brakujący fragment. Osoba
badana musi wychwycić relację łączącą elementy matrycy i wskazać brakujący
element wzoru z podanych alternatywnych rozwiązań (rys. 2.2.).

2 3

O C) L:) V V V I (] C
O O O V
er-
V
-o-
V
---o
-er il
V V
O O D o-
n
-o-
n D C- D
I 234 2 3 .4

[BD~[§) [®wOOW
S 6 7 8 S 678 5 678

[9~[Q)[Q) IX)I ~)I pDI X) ~[g)w[f)


Rysunek 2.2. Przykłady zadań zbliżonych do pozycji testowych Testu Matryc Ravena

Zadania połączone są w serie. W zależności od wersji, liczba zada11 w serii,


a także samych serii jest różna. Zarówno serie, jak i zadania w seriach ułożone są
rosnąco, według stopnia trudności. Poszczególne wersje testu matryc różnią się
między sobą poziomem trudności poszczególnych zadań, jak i całych serii.
Poszczególne wersje przeznaczone są dla osób o różnym poziomie intelektu-
alnym i w różnym wieku. Najbardziej znana jest wersja Standard, która posiada 29
Krzysztof Fronczyk

trzy fonny: Klasyczną, Równoległą oraz Plus. Ponny Klasyczna i Równoległa


charakteryzują się tym samym poziomem trudności, podczas gdy forma Plus
jest znacznie od nich trudniejsza. Oprócz wersji Standard, istnieje Test Matryc
w wersji Kolorowej oraz Test Matryc w wersji Dla Zaawansowanych.
Test Matryc Ravena w wersji Standard - fonna Klasyczna (TMS-K) został
stworzony z myślą o badaniu osób o zróżnicowanym, ale nie skrajnie wysokim
lub skrajnie niskim poziomie rozwoju intclektualne~o. Na ogół wykorzystuje się
go do badania osób o przeciętnym poziomie zdolności. Dla osób o obniżonej
inteligencji jest on za trudny, zaś dla osób wybitnie zdolnych - za łatwy. Wersja
Dla Zaawansowanych może być natomiast szczególnie użyteczna we wszystkich
tych przypadkach, w których chodzi o wybranie osób o ponadprzeciętnej spraw-
ności intelektualnej (Jaworowska i Szustrowa, 1992).
Test Matryc Ravena w wersji Kolorowej (TMK) przeznaczony jest dla dzieci
w wieku 5-10 lat i osób o obniżonych zdolnościach intelektualnych. Zadania
mają taką samą postać jak w wersji Standard i Dla Zaawansowanych z tym, że
są znacznie łatwiejsze i wydrukowano je w większości na barwnym tle (w wer-
sji Standard i Dla Zawansowanych wszystkie pozycje testowe są czarno-białe).
Badanie tym testem może być przeprowadzane indywidualnie (naj młodsze dzie-
ci) lub w małych grupach (Jaworowska i Szustrowa, 1992).
Testy Matryc Ravena sąjednymi z najbardziej znanych i najczęściej stosowa-
nych testów na świecie w praktyce psychologicznej (Jaworowska i Szustrowa,
2000). Narzędzia te są dość często wykorzystywane do selekcji kandydatów do
pracy na różnego typu stanowiska, wymagające określonego poziomu intelektu-
alnego. Testy Ravena umożliwiają także identyfikację osób o obniżonej inteli-
gencji. Wszystkie opisane wersje testów Ravena posiadają polskie aktualne ada-
ptacje i mogą być stosowane w diagnozie indywidualnej w naszym kraju.
Innym narzędziem powszechnie używanymi na całym świecie, przeznaczo-
nym do pomiaru inteligencji są Skale Inteligencji Wechslcra. Jest to grupa na-
rzędzi przeznaczona dla osób w różnym wieku. Pierwszą z tych skal opracował
Amerykanin - David Wechsler w 1939 roku. Później powstała także wersja dla
dzieci. Skale Wechslera zyskały sobie ogromną popularność i wraz z upływem
czasu wielokrotnie były uaktualniane, a także zaadaptowano je do użytku w wie-
lu krąjach świata.
Skale Inteligencji Wechslera nie są jednorodnymi testami składającymi się
z zadał} o podobnej konstrukcji czy formie. Skonstruowane zostały one jako na-
rzędzia składające się z pewnej liczby testów (zależnej od wersji skali) i z tego
powodu nazywane są bateriami. Testy (zwane także "podtestami", ze względu na
to, że stanowią część większej całości) wchodzące w skład Skal Wechslera dzielą
się na dwie grupy: testy werbalne oraz testy niewerbalne. Oprócz wyniku, w każ­
dym z podtestów, możliwe jest obliczenie łącznego wyniku testów werbalnych
30 (zwanego werbalnym ilorazem inteligencji), wyniku testów niewerbalnych (zwa-
2. Przegląd wybranych testów psychologicznych

nego niewerbalnym ilorazem inteligencji), a także ogólnego ilorazu inteligencji


obliczanego na podstawie wyników wszystkich testów.
Najbardziej znana jest Skala Wechslera przeznaczona do pomiaru inteligen-
cji osób dorosłych. Obecna wersja tego testu tzw. WAIS-R (Wechsler Adult
Intelligence Scale-Revised) zawiera sześć podtestów werbaln,ych oraz pięć podte-
stów niewerbalnych. Do testów werbalnych należą testy o następujących nazwach:
Wiadomości, Słownik, Rozumienie, Arytmetyka, Podobieństwa i Powtarzanie
Cyfr. Test Wiadomości bada ogólny zakres zgromadzonych informacji oraz po-
sługiwanie się wiadomościami zgromadzonymi w pamięci długotrwałej. Zawiera
on pytania dotyczące wiedzy ogólnej na temat ważnych zdarzeń z historii, zna-
nych osób, geografii, literatury czy odkryć naukowych. Pytania te mają charak-
ter otwarty, co czasem stwarza pewną trudność w ocenianiu odpowiedzi. Test
Słownik bada używanie języka i zdolność uczenia się słownego. Jest to typowy
test stosowany w narzędziach przeznaczonych do badania zdolności werbalnych.
Jego pozycje testowe składają się z pojedynczych słów (takich, jak np. "rok",
"chleb", "sen", "zainstalować", "wieczny", "powłóczyście"), a zadaniem osoby
badanej jest podawanie własnymi słowami ich znaczeń. Test Rozumienie bada
wiedzę dotyczącą reguł społecznych i moralnych oraz rozumienie i ocenianie
sytuacji społecznych. Składa się on z pytań wymagających od badanego uzasad-
niania i'stniejących norm społecznych i zwyczajów, a także rozumienia przysłów.
Test Arytmetyka bada rozumowanie liczbowe i tempo manipulacji liczbami, kon-
centrację i uwagę, rozumowanie logiczne, abstrakcyjne. Składa się on z zadań
arytmetycznych z treścią, polegających np. na obliczaniu należnej reszty przy
płaceniu w sklepie itp. Rozwiązując zadania, badany nie może posługiwać się
długopisem ani żadnymi innymi pomocami, czas rozwiązania każdego zadania
jest ograniczony do 60 lub (w przypadku zadań trudniejszych) 120 sekund. Test
Podobieństwa bada rozumowanie przez analogię i operowanie pojęciami. Każda
z pozycji tego testu zawiera parę słów oznaczających przedmioty lub pojęcia.
Zadaniem osoby badanej jest znalezienie czegoś, co łączy te słowa. Zwykle
chodzi o wskazanie wspólnej kategorii, do której należą przedmioty bądź poję­
cia nadrzędnego, czy też dostrzeżenie jakiejś wspólnej właściwości. W testach
Słownik, Rozumienie i Podobieństwa pozycje testowe mają charakter otwarty,
a odpowiedzi badanego oceniane są na trzpunktowej skali, w której O oznacza
odpowiedź niepoprawną, 1 - odpowiedź częściowo poprawną, a 2 - odpowiedź
całkowicie poprawną. Test Powtarzanie Cyfr bada zdolność do koncentracji uwa-
gi i możliwości uczenia się. Pozycje testowe składają się z szeregu cyfr, któ-
re odczytywane są na głos badanemu przez psychologa (badany nie widzi tych
cyfr). Zadaniem badanego jest powtarzanie ciągów tych liczb wprost jak i wspak.
Początkowe pozycje są proste i składają się z małej liczby cyfr (np. 5 - 3 - 9),
jednak ciągu 9 cyfr nie jest w stanie powtórzyć już prawie nikt.
Testami niewerbalnymi w WAIS-R są: Braki w obrazkach, Porządkowanie ob-
razków, Klocki, Układanki i Symbole cyfr. Test Braki w obrazkach bada percep- 31
Krzysztof Fronczyk

cję związku całości z częściami figur, zdolność rozróżniania detali istotnych od


nieistotnych oraz zdolność spostrzegania. W teście tym badanemu prezentowane
są rysunki przedstawiające znane przedmioty czy sytuacje. Na każdym z rysun-
ków opuszczono jakiś szczegół. Zadaniem osoby badanej jest wskazanie braku-
jącego elementu. Przykładowe zadanie tego testu prezentuje rys. 2.3.

Rysunek 2.3. Przykład zadania zbliżonego do pozycji testowych testu Braki w obrazkach
ze Skali Wechslera

Test Porządkowanie obrazków (rys. 2.4.) bada rozumienie sytuacji interperso-


nalnych i umiejętność przewidywania konsekwencji. Zadania tego testu zawie-
rają po kilka obrazków wydrukowanych na odrębnych kartonikach. Obrazki te
należy uporządkować w taki sposób, aby zachowana została kolejność czasowa

;I·
następowania po sobie kolejnych zdarzeń.

A B c
i

t
Rysunek 2.4. Przykład zadania zbliżonego do pozycji testowych testu Porządkowanie
obrazków ze Skali Wechslera

Test Klocki bada koordynację wzrokowo-ruchową oraz zdolności analizy


i syntezy. Składa się on z dziewięciu sześciennych klocków, których dwie ścian­
ki pomalowano na biało, dwie na czerwono, a dwie są w połowie pomalowane
na biało i czerwono w ten sposób, że linia podziału ścianki na część czerwoną
i część białąjest przekątną ścianki (rys. 2.5.).
32
2. Przegląd wybranych testów psychologicznych

Rysunek. 2.5. Elementy testu Klocki ze Skali Wechslera

Poszczególne pozycje testowe składają się z kartoników na których wydru-


kowano róże kombinacje ułożenia klocków. Są to układy dwuwymiarowe (rys.
2.6.). Zadaniem osoby badanej jest odwzorowanie poszczególnych układów za
pomocą klocków.

Rysunek. 2.6. Wzór zbliżony do układów klocków, jakie należy odtworzyć w teście Klocki
ze Skali Wechslera

Test Układanki bada zdolność rozróżniania podobnych konfiguracji, umiejęt­


ność analizy i syntezy, koordynację wzrokowo-ruchową, a także szybkość ma-
nipulacji. Zadania tegó testu polegają na układaniu pewnych całości (np. twarzy
człowieka) z pociętych fragmentów obrazka (rys. 2.7. i 2.8.).

Rysunek 2.7. Elementy pozycji testowej zbliżonej do zadań testu Układanki ze Skali
Wechslera 33
Krzysztof Fronczyk

Rysunek 2.8. Prawidłowo ułożone elementy pozycji testowej z rys. 2.7.

Test Symbole cyfr bada zdolności uczenia się, koncentrację i pamięć krót-
kotrwałą. Test ten składa się ze swego rodzaju szyfru przyporządkowującego
każdej z dziesięciu cyfr pewne symbole graficzne. Zadaniem osoby badanej jest
zakodowanie długiego ciągu cyfr przy użyciu podanego szyfru. Czas wykonania
jest ograniczony tak, aby żaden badany nie zdążył zakodować wszystkich cyfr
(których jest 100) w wyznaczonym czasie (rys. 2.8.). Oczywiście poszczególne
osoby różnią się tym, jak dużo cyfr udało im się zakodować w określonym czasie
(Homowska, 2004).

Rysunek 2.9. Przykład zadania zbliżonego do pozycji testowych testu Symbole cyfr ze
Skali Wechslera

Oprócz WAIS-R, przeznaczonego dla osób powyżej 18 lat, stworzono też wer-
sję dla dzieci od 6 do 17 lat (WICS-R - Wechsler Intelligence Scalejor Chidren-
Revised) oraz wersję dla małych dzieci od 4 lat do 6,5 roku (WPSSI - Wechsler
Preschool and Primary Scale oj Intelligence). Wersja dla dzieci składa się z ta-
kich samych testów słownych i bezsłownych jak wersja dla dorosłych (oczywi-
ście o innym poziomie trudności). Dodatkowo WISC-R zawiera test Labirynty
(rys. 2.10.) przeznaczony do badania koordynacji wzrokowo-ruchowej i orienta-
cji w przestrzeni. Zadania tego testu polegają na znalezieniu wyjścia z labiryntu,
przy czym poszukiwanie drogi wyjścia rozpoczyna się od środka labiryntu. Test
składa się z szeregu labiryntów o wzrastającym poziomie złożoności.

34
2. Przegląd wybranych testów psychologicznych

Rysunek 2.10. Przykład zadania zbliżonego do pozycji testowych testu Labirynt ze Skali
Wechslera dla dzieci

Skale Wechslera służą do pomiaru poziomu inteligencji ogólnej przede wszyst-


kim w praktyce psychologicznej np. w poradnictwie szkolnym i zawodowym,
a także w psychologii klinicznej. Badanie Skalą Wechslera dostarcza informacji
dotyczących wszechstronnego opisu funkcjonowania poznawczego człowieka.
Dzięki temu możliwa jest diagnoza szczególnych uzdolnień i możliwości intelek-
tualnych oraz zaniedbanych, słabo rozwiniętych sfer funkcjonowania poznaw-
czego. Jest to ważne zwłaszcza u dzieci, gdyż umożliwia określenie obszarów,
w których dziecko powinno być szczególnie stymulowane, by osiągnęło pełniej­
szy rozwój swojego intelektu. Możliwe jest także zdiagnozowanie sfer funkcjo-
nowania intelektualnego, w których zaszły szczególnie niekorzystne zmiany np.
vi wyniku uszkodzenia mózgu czy też innego procesu chorobowego.
Skale Wechslera są narzędziami przeznaczonymi do badań indywidualnych
i nie mogą być stosowane w badaniach grupowych. Wynika to ze złożonej pro-
cedury badania, wymagającej od diagnosty zarówno prezentowania materiału
testowego (rozkładania pomocy testowych, ustnego zadawania pytań itp), zapi-
sywania odpowiedzi badanego, jak też jednoczesnego rejestrowania czasu wy-
konania poszczególnych zadań. WAIS-R i WICS-R mają aktualne polskie ada-
ptacje i mogą być stosowane w naszym kraju (Brzeziński, Gaul, Homowska,
Machowski, Zakrzewska, 2005; Matczak, Piotrowska, Ciarkowska, 1998).
Oryginalnymi narzędziami polskimi przeznaczonymi do pomiaru zarówno in-
teligencji ogólnej, jak i wybranych zdolności są baterie testów APIS-Z i APIS-P
(Matczak, Jaworowska, Ciechanowicz, Stańczak, 2006; Matczak, Jaw:orowska,
Ciechanowicz, Stańczak, Zalewska, 2005).
Bateria Testów APIS-Z przeznaczona jest dla młodzieży kończącej szkołę
średnią, studentów i dorosłych, natomiast APIS-P jest narzędziem stworzonym
z myślą o uczniach kończących naukę w szkole podstawowej, uczęszczających 35
Krzysztof Fronczyk

do gimnazjum i rozpoczynających naukę w szkole ponadgimnazjalnej. Jak więc


nietrudno się domyślić, pozycje testowe, wchodzące w skład baterii testów
APIS-Z, przeciętnie są trudniejsze niż te znajdujące się w APIS-P.
Podobnie jak Skale Wechslera, również baterie APIS składają się z pewnej
liczby testów. Konstruując je, uwzględniono cztery typy zdolności: abstrakcyjno-
-logiczne, werbalne, wzrokowo-przestrzenne i społeczne. Każdą z tych zdolności
reprezentują dwa testy. Tak więc APIS-P i APIS-Z składają się z ośmiu testów:
Klasyfikacja, Przekształcenia liczb (zdolności abstrakcyjno-logiczne), Synonimy,
Nowe słowa (zdolności werbalne), Kwadraty, Klocki (zdolności wzrokowo-prze-
strzenne), Zachowania, Historyjki (zdolności społeczne). Pięć testów składa się
z 15 zadatl, a trzy - z 10. W dwóch testach zadania mają charakter zamkni~ty,
w pozostałych - otwarty.
W celu bliższego przedstawienia baterii APIS omówiony zostanie charak-
ter pozycji testowych poszczególnych testów wchodzących w jej skład. Test
Klasyfikacja składa się z zadań, w których podano kilka nazw obiektów nale-
żących do tej samej kategorii. Zadaniem badanego jest wybranie spośród pię­
ciu innych obiektów takiego, który należy do tej samej kategorii co obiekty
podane. Przykładmyo: pozycja testowa zawiera słowa: słoń, jeż, krowa. Do wy-
boru natomiast mamy: wróbel, krokodyl, węgorz, mysz, żaba. Drugi z testów
przeznaczonych do pomiaru zdolności abstrakcyjno-logicznych, jakim jest test
Przekształcenia liczb, zawiera pozycje testowe składające się z trzech par liczb,
z tym, że trzecia para jest niepełna i składa się tylko z pierwszej liczby. W każdej
parze druga liczba jest wynikiem pewnego działania matematycznego na liczbie
pierwszej. Analizując pierwsze dwie pary, należy domyślić się, jakie jest to dzia-
łanie i odpowiednio uzupełnić parę trzecią (rys. 2.11.).

15 5 0,3 0,1 9

Rysunek 2.11. Przykład zadania zbliżonego do pozycji testowych testu Przekształcenia


liczb baterii APIS

W teście Synonimy zadania polegają na dopisywaniu synonimów podanych


słów. Za każdym razem podano też pierwszą literę, na którą ma się rozpoczynać
wyraz bliskoznaczny oraz pewną liczbą kropek, odpowiadającą liczbie jego liter
(np. kartofel- z ....... ). W teście Nowe słowa każda z pozycji testowych składa
się z końcówek trzech wyrazów, mających ten sam początek. Początek ten nie
jest wydrukowany, a zadaniem osoby badanej jest jego znalezienie tak, jak zapre-
zentowano to na rys. 2.12.

36
2. Przegląd wybranych testów psychologicznych

/" łownia

wica

let

Rysunek 2.12. Przykład zadania zbliżonego do pozycji testowych testu Nowe słowa ba-
terii APIS

Test Kwadraty składa się z wielobocznych figur. Każdą z takich figur należy
tak przeciąć w wyobraźni na dwie części za pomocą jednej linii prostej, aby po
odpowiednim obróceniu powstałych elementów utworzyć kwadrat. Zadaniem
osoby badanej jest znalezienie takiego przecięcia (rys. 2.13.). Linię taką należy
narysować między parą wybranych liczb znajdujących się na bokach figury.

12 13

7 8

4 3 2

Rysunek 2.13. Przykład zadania zbliżonego do pozycji testowych testu Kwadraty baterii
APIS

Test Klocki ma wprawdzie takąsamąnazwęjakjeden z testów Skali Wechslera,


jednak zadania tego testu mają zupełnie inny charakter. Polegają one na zliczaniu
prostopadłościennych klocków, z jakich zbudowano przedstawione na rysunkach
przestrzenne konstrukcje (rys. 2.14.). Oczywiście trudność polega na tym, że na-
leży zliczyć także te klocki, które są niewidoczne, a więc badany musi sobie je
wyobrazić .

37
Krzysztof Fronczyk

Rysunek 2.14. Przykład zadania zbliżonego do pozycji testowych testu Klocki baterii
APIS

w teście Zachowania wymaga się od badanego podawania uzasadnień różnych


norm społecznych. Jest to test podobny do testu Rozumienia ze Skali Wechslera
z tą różnicą, że w teście Zachowania pytania mają charakter zamknięty. Warto
podkreślić, że nie chodzi tu o znajomość reguł społecznych, lecz o rozumienie
ich sensu. Test Historyjki również przypomina jeden z testów Skali Wechslera,
a mianowicie - Porządkowanie obrazków. Główna różnica polega na tym, że
w teście Porządkowanie obrazków poszczególne obrazki wydrukowane sąna od-
dzielnych kartonikach, a w teście Historyjki -na kilku stronach zeszytu, w jakim
umieszczono pozostałe testy skali APIS. W teście Historyjki badany nie ma więc
możliwości swobodnego przesuwania obrazków tak, jak w teście Porządkowanie
obrazków.
W baterii APIS, oprócz wyniku, w każdym z testów możliwe jest oblicze-
nie wyniku łącznego wszystkich testów interpretowanego jako miara inteligencji
ogólnej.
Baterie APIS znajdują zastosowanie w selekcji kandydatów do pracy, a także
doradztwie zawodowym oraz poradnictwie szkolnym. APIS-P może pozwalać na
trafne prognozowanie osiągnięć szkolnych.
Baterie APIS mogą być wykorzystywane zarówno w badaniach grupowych,
jak i indywidualnych. Czas wykonywania każdego testu jest ściśle ograniczony,
co oznacza konieczność posługiwania się stoperem przez osobę przeprowadzają­
cą badanie. Po upływie czasu przeznaczonego na wykonanie danego testu, prze-
rywa się badanemu pracę nad wykonywaniem dalszych jego zadań i poleca mu
się przejście do kolejnego testu. Łączny czas rozwiązywania wszystkich testów
baterii APIS- Z wynosi 60 minut, a APIS- P-58 minut.
Oprócz baterii testów, takich jak skale Wechslera czy APIS, które przezna-
czone są do pomiaru różnych zdolności, istnieją także testy, służące do pomiaru
pojedynczych zdolności.
Jednym z tego typu testów jest polski test Leksykon (Jurkowski, 1997). Jest
38 on przeznaczony do pomiaru zdolności werbalnych. Dzięki niemu możliwa jest
2. Przegląd wybranych lesIów psychologicznych

ocena zasobu słownictwa i sprawności korzystania z tego zasobu stosownie do


kontekstu. Skonstruowany on został z myślą o grupowych badaniach młodzieży
w wieku 12-17 lat. Czas badania nie jest ograniczony, ale przeciętnie jego wypeł­
nienie zajmuje badanemu około 50 minut.
Leksykon składa się z 60 pozycji, zgrupowanych w dziewięć zadań jednorod-
nych pod względem formy i sposobu pracy. Test podzielony jest na dwie części.
Pierwsza z nich przeznaczona jest do oceny biernego posługiwania się językiem,
a druga - czynnego.
Połowa pozycji testowych wchodzi w skład zadał} typu zamkniętego, a połowa
- w skład zadań typu otwartego. Zadania zamknięte testu Leksykon polegają na
odnajdywaniu synonimów określonych wyrazów Gest to więc test podobny do
testu Synonimy z baterii APIS z tą różnicą, że wyrazy bliskoznaczne wyszukuje
się spośród podanych), sensownym uzupehlianiu zdań podanymi wyrazami, usta-
laniu nazw dla rzeczy zdefiniowanych lub opisanych oraz znajdowaniu typowych
określeń przymiotnikowych dla danych rzeczowników.
Zadania otwarte wymagają zastępowania słów użytych w zdaniach synonima-
mi, uzupełniania luk w zdaniach i znajdywania słów odpowiadającym podanym
definicjom.
Wszystkie zadania wydrukowane są w jednym zeszycie testowym. Wyniki te-
stu Leksykon zależą nie tylko od posiadanego przez badanego zasobu słów, lecz
również od łatwości korzystania z niego, a także - w mniejszym stopniu - od
kompetencji gramatycznych i ortograficznych.
Test Leksykon znajduje zastosowanie w badaniach naukowych, poradnictwie
szkolnym i zawodowym.
Oprócz testu Leksykon, istnieje oczywiście ogromna liczba innych narzędzi
przeznaczonych do diagnozy poszczególnych zdolności. W Polsce jednak nie po-
siadamy aktualnie stosowanych testów tego typu przeznaczonych do powszech-
nego użytku.

2.2. Kwestionariusze osobowości i temperamentu


Kwestionariusze, w przeciwieństwie do testów inteligencji i zdolności, od-
wołują się do wiedzy osób badanych na własny temat. Pozycje testowe zawarte
w kwestionariuszach opierają się więc na samoopisie. Nie rejestruje się w nich
bezpośrednio zachowania osoby badanej, a jej relację o własnym zachowaniu.
Można powiedzieć, że kwestionariusz to ustrukturowany wywiad, z tą różnicą,
że sam badany prezentuje sobie poszczególne pozycje testowe (zwykle odczytuje
je z wydrukowanego formularza).
Istnieje też odmiana kwestionariuszy oparta nie na relacji na temat własnego
zachowania, a na relacji osoby badanej na temat zachowania osób trzecich. Tego
typu kwestionariusze wykorzystuje się zwykle w badaniu dzieci, które nie umieją
jeszcze pisać lub ich samowiedza jest zbyt słabo rozwinięta, aby umożliwiała 39
Krzysztof Fronczyk

wypełnienie narzędzia odwołującego się do samoopisu. Przykładem takiego in-


wentarzajest kwestionariusz temperamentu EAS. Kwestionariusz ten wypełniany
jest przez jednego z rodziców lub nauczyciela badanego dziecka. Z tego powodu
jego pozycje testowe zostały sformułowane w trzeciej osobie liczby pojedynczej
np. "Często płacze", "Lubi przebywać z ludźmi".
Narzędzie należące do tego specyficznego rodzaju inwentarzy było jednocze-
śnie pierwszym kwestionariuszem, jaki opracowano. Dokonali tego holenderscy
badacze - Gerard Heymans i Enno D. Wiersma, którzy w 1905 roku opracowali
pierwszy inwentarz temperamentu. W kwestionariuszu tym, wypełnianym przez
lekarzy, znalazły się pytania dotyczące różnych aspektów zachowania człowie­
ka. Pytania tego kwestionariusza nie dotyczyły osoby go wypełniającej, a ludzi
dobrze znanych osobom odpowiadającym na pytania inwentarza. Osiągnięcia
Heymansa i Wiersmy wykorzystał w USA Woodworth, który w 1917 roku opu-
blikował Arkusz Danych Osobistych składający się ze 116 pytal'l. dotyczących
różnych aspektów przystosowania, uznanych przez autora za symptomy nerwi-
cowe. Inwentarz stworzony przez Woodwortha przeznaczony był do wychwyty-
wania osób neurotycznych przy kwalifikacji poborowych do armii amerykańskiej
(Zawadzki, 2006). Od tego czasu rozpoczął się rozwój różnego rodzaju kwestio-
nariuszy. W chwili obecnej na całym świecie istnieje ogromna liczba inwentarzy
przeżnaczonych do pomiaru naj rozmaitszych cech osobowości, stosowanych we
wszystkich dziedzinach praktyki psychologicznej. Poniżej zaprezentowano naj-
ważniejsze kategorie kwestionariuszy oraz wybrane ich przykłady.
Wśród kwestionariuszy można wyodrębnić dwie duże grupy. Pierwszą z nich
są narzędzia dotyczące wielu różnych właściwości psychicznych. Ich autorzy
mieli zwykle na celu ujęcie "całości psychiki" człowieka lub, przynajmniej, ca-
łości jakiejś ważnej sfery psychicznej, np. osobowości czy temperamentu. Do
drugiej grupy można zaliczyć inwentarze przeznaczone do diagnozypojedyn-
czych wybranych właściwości psychicznych, np. lęku, zainteresowań czy stylu
funkcjonowania psychicznego w określonym aspekcie. Dalej opisane zostaną
przykłady narzędzi należących do obu tych grup.

2.2.1. Inwentarze przeznaczone do diagnozy osobowości jako całości

Ważną grupę kwestionariuszy osobowości stanowią takie narzędzia, które


w zamierzeniu swoich twórców opisują całość struktury osobowości człowie­
ka. Do inwentarzy tego typu należy np. MMPI, Kwestionariusz Guilforda-
Zimmermana, Kwestionariusz Osobowości Cattella (16PF), Inwentarz Psycho-
logiczny Gougha (CPI), kwestionariusze Eysencka (MPI, EPQ, EPQ-R),
Formalna Charakterystyka Zachowania - Kwestionariusz Temperamentu
(FCZ-KT), Kwestionariusz Temperamentu EAS, kwestionariusze przeznaczo-
ne do pomiaru pięciu wielkich czynników osobowości (NEO-PI, NEO-FFI,
40 NEO-PI-R).
2. Przegląd wybranych testów psychologicznych

Jednym z pierwszych narzędzi tej grupy, cieszącym się ogromną popular-


nością na świecie, jest Minnesota Multiphasic Personality Inventory (MMPI).
Inwentarz ten został skonstruowany w latach czterdziestych XX wieku w USA
przez Hathawaya i McKinleya (Anastasi i Urbina, 1999). Pierwotnie był on prze-
znaczony do diagnozy różnego rodzaju zaburzeń psychicznych. Jednak bardzo
szybko zaczęto stosować go do co raz to nowych celów, wykraczających poza
pierwotne zastosowanie. MMPI był szeroko stosowany do diagnozy osobowo-
ści osób normalnych w badaniach selekcyjnych i kwalifikacyjnych do różnych
miejsc pracy, wykorzystywano go także w wojsku oraz sądownictwie.
MMPI zawiera 566 pytań, na które osoba badana może odpowiedzieć: "praw-
da", "fałsz", "to pytanie mnie nie dotyczy" bądź "nie mogę się zdecydować".
Pytania dotyczą m.in. ogólnego stanu zdrowia, spraw rodzinnych, problemów
szkolnych, poglądów politycznych i społecznych, postaw wobec religii, postaw
wobec życia seksualnego, nawyków, nastroju, zaburzeń psychopatologicznych.
MMPI składa się z 10 skal: Hipochondrii, Depresji, Histerii, Psychopatii,
Męskości-Kobiecości, Paranoi, Psychastenii, Schizofrenii oraz Hipomanii.
Dodatkowo kwestionariusz ten zawiera tzw. skale kontrolne, przeznaczone do
pomiaru tendencji osoby badanej do zniekształcania udzielanych odpowiedzi.
MMPI odegrał ogromną rolę w rozwoju psychometrii. Wielu badaczy wyko-
rzystując pozycje testowe tego kwestionariusza, konstruowało skale przeznaczo-
ne do pomiaru różnego rodzaju cech psychicznych. Wraz z rozwojem psycho-
metrii wykorzystywano odmienne rodzaje strategii w tworzeniu tego typu skal.
Powstała także jego polska wersja.
Mimo ogromnego znaczenia MMPI dziś jest już narzędziem o charakterze hi-
storycznym. Ogromna liczba badań naukowych z wykorzystaniem MMPI wy-
kazała jego liczne słabości psychometryczne (Anastasi i Urbina, 1999). Ponadto
w ciągu JIlinionego półwiecza znacznie wzrosła wiedza na temat osobowości
człowieka oraz jej zaburzeń. Co więcej, w ciągu długiego czasu, jaki upłynął
od stworzenia MMPI, zaszły rozmaite zmiany kulturowe powodujące, że treść
pozycji MMPI nie odzwierciedla dobrze właściwości psychicznych, do pomiaru
których zostały stworzone. Polska, adaptacja MMPI też jest już dość stara, a do-
datkowo wykonana została ona bez zgody właścicieli praw autorskich (szerzej
rozdział 7.6.). Te wszystkie fakty powodują, że MMPI obecnie nie powinien być
stosowany w praktyce psychologicznej.
Ze względu na przestarzały charakter MMPI opracowano jego nową wersję -
MMPI-2. Obecnie trwają prace nad jego polską autoryzowaną adaptacją.
MMPI zainspirował wielu twórców znanych obecnie inwentarzy osobowo-
ści. Jednym z narzędzi, w którym wykorzystano znaczną część pozycji kwestio-
nariuszowych MMPI jest Caąfornia Psych%gical Inventory (CPI) (Anastasi
i Urbina, 1999). W przeciwieństwie do MMPI został on skonstruowany z myślą
o różnicowaniu osobowości ludzi normalnych. W najnowszej wersji składa się
on z 20następujących skal: Dominacja, Tolerancja, Ambicja, Chęć podobania 41
Krzysztof Fronczyk

się, Towarzyskość, Typowość, Swoboda towarzyska, Powodzenie przez konfor-


mizm, Poczucie własnej wartości, Powodzenie przez niezależność, Dobre samo-
poczucie, Wydajność umysłowa, Odpowiedzialność, Wnikliwość psychologicz-
na, Uspołecznienie, Rzutkość, Opanowanie oraz Kobiecość. W 1987 roku ten
zestaw uzupełniono jeszcze dwiema skalami Empatii i Niezależności (Anastasi
i Urbina, 1999).
CPI jest wykorzystywany do wielu celów. Znajduje on zastosowanie m.in.
w selekcji pracowników i planowaniu kariery zawodowej, a także w psychologii
klinicznej.
Innym inwentarzem czerpiącym częściowo z doświadczeń związanych z MMPI
jest 16-czynnikowy kwestionariusz osobowości Cattella (16PF) (Sanocki, 1986).
Obecnie istnieje już piąte wydanie tego kwestionariusza. Kwestionariusz ten
przeznaczony jest do badania 16 wymiarów osobowości, które składają się na
pięć czynników wyższego rzędu.
W najnowszym wydaniu kwestionariusza osobowości Cattella, oprócz wyni-
ków poszczególnych skal, oblicza się także trzy wskaźniki stylu odpowiadania,
pozwalające ocenić tendencję do zgadzania się, przypadkowości odpowiedzi
oraz dążenia do przedstawiania się w nadmiernie korzystnym lub niekorzystnym
świetle.
Główny problem ze stosowaniem zarówno CPI, jak i 16 PF polega na tym, że
nie istnieją aktualne, legalne, polskie adaptacje tych kwestionariuszy. Dla obu
tych kwestionariuszy nie ma także aktualnych polskich norm. Istniejące adapta-
cje (Kotas, Markowska, 1971; Nowakowska, 1970) wymicnionych narzędzi zo-
stały opracowane już kilkadziesiąt lat temu i dawno uległy dezaktualizacji.
Ważnym twórcą kwestionariuszy osobowości był Hans Jurgen Eysenck. Swoje
inwentarze zaczął tworzyć w latach czterdziestych XX wieku. Jeden z pierwszych
kwestionariuszy Eysencka - Maudsley Medical Questionnaire (MMQ) - służył
jedynie do diagnozy zaburzeń nerwicowych. Wraz z rozwojem swojej teorii oso-
bowości stopniowo Eysenck dodawał nowe wymiary oraz rozszerzał zastoso-
wania swoich inwentarzy. Kolejno powstawały: Maudsley Personality Inventory
(MPI) (w którym dołączono intro-ekstrawersję), Eysenck Personality Inventory
(EPI), Eysenck Personality Questionnaire (EPQ) (w którym dodano psychotyzm)
i jego zmodyfikowana wersja - Eysenck Personality Questionnaire - Revised
(EPQ-R), która ma polską aktualną adaptację (Brzozowski, Drwal, 1995) i jest
powszechnie stosowana w Polsce. Z tego też powodu zostanie on omówiony nie-
co dokładniej.
Kwestionariusz EPQ-R został opublikowany w 1985 roku (Eysenck, Eysenck,
Barrett, 1985). Kwestionariusz ten oparty jest na koncepcji osobowości Eysencka
i zawiera skale odpowiadające podstawowym wymiarom osobowości według
tej koncepcji: ekstrawersja - introwersja, neurotyzm (chwiejność/wrażliwość
emocjonalna) i psychotyzm (skłonność do zachowań dziwnych, nietypowych
42 czy nawet antyspołecznych). Dodatkową skaląjest skala kłamstwa, która mierzy
2. Przegląd wybranych testów psychologicznych

potrzebę uzyskiwania aprobaty społecznej lub tendencję do przedstawiania się


w korzystnym świetle.
Kwestionariusz EPQ-R składa się ze 100 pytań, odpowiadając na które oso-
by badane zakreślają kółkiem jedną z dwóch odpowiedzi "tak" lub "nie". Jeśli
badany nie może zdecydować się na żadną z podanych, musi wybrać tę, która
jest najbliższa prawdy. Badanie kwestionariuszem EPQ-R można przeprowa-
dzić zarówno indywidualnie, jak i grupowo. Czas badania nie jest ograniczony.
Przeważnie średni czas, potrzebny na wypełnienie kwestionariusza, wynosi oko-
ło 20-25 minut.
Kwestionariusz przeznaczony jest do badania osób dorosłych i młodzieży od
16. roku życia. Aby odpowiedzieć na pytania, wystarczy mieć wykształcenie pod-
stawowe. EPQ-R wykorzystywany jest do prognozowania powodzenia w nauce
szkolnej i na studiach, w poradnictwie zawodowym jako metoda prognozowania
dostosowania jednostki do charakteru pracy na określonym stanowisku, a także
przy dokonywaniu wyboru przyszłego zawodu. EPQ-R stosowany bywa również
w bardziej szczegółowych zagadnieniach diagnostycznych, np. przy prognozo-
waniu powodzenia w wybranej dyscyplinie sportowej czy też w poradnictwie
przedmałżeńskim i rodzinnym.
Bardzo popularne we współczesnej psychologii są inwentarze osobowości
opierające się na modelu pięciu wielkich czynników osobowości, tzw. "Wielkiej
Piątki" (McCrae i Costa, 2005). Do grupy tej należą między innymi kwestio-
nariusze NEO-FFI i NEO-PI-R, mające swoje polskie adaptacje. Podobnie jak
w teorii Eysencka, w modelu "Wielkiej Piątki" uwzględniona jest neurotyczność
i ekstrawersja. Psychotyzm natomiast rozbity jest na dwie cechy: ugodowość
i sumienność. Dodatkowo wprowadzony jest nowy wymiar: otwartość na do-
świadczenie. Na każdy czynnik składa się sześć składników o niższym poziomie
ogólności. Łącznie daje to więc 30 podwymiarów.
KwestionariuszNEO-PI-R daje możliwość pomiaru w zakresie każdego z tych
30 podwymiarów, w przeciwieństwie do NEO-FFI, dzięki któremu można uzy-
skać dane dotyczące tylko ogólnych wyników pięciu superczynników osobowo-
ści. Istotne jest także to, iż wszystkie skale kwestionariuszy NEO dotyczą nor-
malnej osobowości, w przeciwieństwie do kwestionariuszy Eysencka czy MMPI
(Zawadzki, Strelau, Szczepanik i Śliwińska, 1998).
Pozycje kwestionariuszy NEO-FFI oraz NEO-PI-R stanowi odpowiednio 60
oraz 240 twierdzeń o charakterze samoopisowym, których prawdziwość w sto-
sunkudo własnej osoby badany ocenia na skali pięciostopniowej (od "całkowicie
się nie zgadzam" do "całkowicie się zgadzam").
Kwestionariusze NEO rekomendowane są do badal1. naukowych, a w przy-
padku NEO-FFI także do stosowania w diagnozie indywidualnej dokonywanej
na potrzeby praktyki, w tym w obszarze edukacji oraz doradztwa zawodowego
i selekcji (np. prognozowanie możliwości adaptacyjnych do środowiska szkol-
nego lub zawodowego) oraz psychologii zdrowia. Choć kwestionariusze NEO 43
Krzysztof Fronczyk

z założenia mają służyć poznawaniu zdrowej osobowości, to czasem znajdują


one zastosowanie także w psychologii klinicznej (Siuta, 2006; Zawadzki, Strelau,
Szczepanik i Śliwińska, 1998).
Do grupy kwestionariuszy dotyczących całości wybranego ważnego obszaru
ludzkich zachowań należy zaliczyć także inwentarze temperamentu. Większość
takich inwentarzy dotyczy specyficznych teorii temperamentu. Z tego powo-
du zawierają one takie wymiary, jakie uwzględnione zostały w danej teorii.
Przykładem kwestionariuszy tcmperamentujest opracowany przez Zawadzkiego
i Strelaua (1997) inwentarz pod nazwą Formalna Charakterystyka Zachowania -
Kwestionariusz Temperamentu (FCZ-KT).
Teoretyczną podstawę kwestionariusza FCZ-KT stanowi Regulacyjna
Teoria Temperamentu Strelaua (2001). Składa się on ze 120 pozycji, które są
stwierdzeniami wymagającymi od badanego ustosunkowania się w formie od-
powiedzi "tak" lub "nie". Pozycje tworzą 6 skal, dotyczących: Żwawości,
Perseweratywności, Wrażliwości sensorycznej, Reaktywności emocjonalnej,
Wytrzymałości i Aktywności.
FCZ-KT przeznaczony jest do badań indywidualnych lub grupowych osób
w wieku 15-80 lat. Czas badania jest nieograniczony, przeciętnie zajmuje 30
minut. Kwestionariusz znajduje praktyczne zastosowanie w poradnictwie za-
wodowym i wychowawczym, a także w badaniach naukowych i klinicznych.
Narzędzie to jest obecnie szeroko stosowane w Polsce.
Poszczególne inwcntarze wymienione w tym krótkim przeglądzie posiadają
wiele wspólnego, mimo że powstawały w różnych momentach historycznych
i odzwierciedlały aktualny, w danym momencie, stan rozwoju wiedzy psycho-
logicznej oraz metod psychometrycznych. Różnorodność cech ujętych w wy-
mienionych inwentarzach jest po części pozorna. Mimo że posiadają one różne
nazwy, dość często wymiary zawarte w niektórych kwestionariuszach można
traktować jak odpowiedniki skal zawartych w innych inwentarzach lub jako skła­
dowe części innych wymiarów.

2.2.2. Inwentarze przeznaczone do diagnozy wybranych wymiarów


osobowości

Inną grupą kwestionariuszy są inwentarze dotyczące wybranych właściwości


psychicznych, których autorzy nie mieli na celu ujmowania całości osobowości
czy temperamentu. Dotyczą one zwykle pojedynczych charakterystyk zachowa-
nia lub aspektów osobowości czy temperamentu, takich jak np. lęk, depresyj-
ność, umiejscowienie poczucia kontroli, style radzenia sobie ze stresem, zainte-
resowania itd.
Jako pierwszy przykład narzędzi tej grupy przedstawiona zostanie, powstała
w 1961 roku, Skala Depresji Becka (BOI). Służy ona do oceny obecności i nasi-
44 lenia objawów depresji. Ze względu na swoją prostotę jest bardzo często stoso-
2. Przegląd wybranych testów psychologicznych

wana W badaniach psychologicznych. Wypełnienie jej zajmuje około 10 minut.


Skala składa się z 21 pytań. Ustosunkowując się do kolejnych pozycji kwestio-
nariuszowych, badany powinien wybrać jedną odpowiedź, która, jego zdaniem,
w najlepszy sposób opisuje jego stan. Za odpowiedź na każde pytanie badany
może otrzymać, w zależności od intensywności objawów, od O do 3 punktów,
przy czym większe liczby wskazują na wyższe nasilenie depresji.
Niestety, mimo wielkiej popularności w praktyce klinicznej i badawczej, BDI
nie ma aktualnej legalnej polskiej adaptacji, w związku z czym nie powinien być
stosowany w Polsce (pamowski i Jernajczyk, 1977). Korzystanie z kwestionariu-
sza Becka będzie możliwe, gdy zakończą się aktualnie trwające prace nad polską
adaptacją nowej wersji tego narzędzia - BDI-II.
Przykładem innego kwestionariusza z omawianej grupy jest Inwentarz
Stanu i Cechy Lęku (STAI) autorstwa C.D. Spielbergera, R.L. Gorsucha i R.E.
Lushene'a. Jego budowa opiera się na rozróżnieniu między lękiem rozumianym
jako przejściowy i uwarunkowany sytuacyjnie stan jednostki a lękiem rozumia-
nym jako względnie stała cecha osobowości. "Lęk jako stan" odpowiedzialny
jest za zmienność wyników z sytuacji na sytuację. "Lęk jako cecha" dotyczy na-
tomiast niezależnych od sytuacji różnic indywidualnych pod względem różnych
przejawów lęku.
Kwestionariusz STAI składa się z dwóch niezależnych części zawierających
po 20 stwierdzeń każda. Za pomocą pierwszej części STAI (X-l) można badać
poziom lęku traktowanego jako aktualny stan emocjonalny. Ta część kwestio-
nariusza pozwala śledzić dynamikę lęku nawet w niewielkich odstępach czaso-
wych. Część druga STAI (X-2) dotyczy lęku rozumianego jako cecha osobowo-
ści. W obu częściach osoba badana ustosunkowuje się do każdego stwierdzenia,
wybierając jedną z czterech możliwości. Wysokie wartości punktowe oznaczają
wyższy poziom lęku.
Kwestionariusz ten znajduje zastosowanie głównie w psychologii klinicznej
(np. do badania chorych somatycznie, w celu określenia poziomu aktualnego lęku
związanego z chorobą lub czekających pacjenta zabiegami), a także w selekcji
pracowników do zawodów wymagających niskiego poziomu lęku: STAI posiada
polską aktualną adaptację, a więc może być stosowany w praktyce w naszym
kraju (Wrześniewski, Sosnowski i Matusik, 2002).
Innym inwentarzem przeznaczonym do pomiaru specyficznego wymiaru oso-
bowości jest Kwestionariusz do Badania Poczucia Kontroli (KBPK) (Krasowicz
i Kurzyp-Wojnarska, 1990). Kwestionariusz ten służy do pomiaru zmiennej oso-
bowościowej zwanej poczuciem kontroli następstw zachowania, -opisanej w teorii
społecznego uczenia się Rottera (Reykowski, 1992). Pytania KBPK, które doty-
czą zdarzeń pozytywnych tworzą Skalę Sukcesów, natomiast pytania dotyczące
zdarzeń negatywnych tworzą Skalę Porażek. Niskie wyniki świadczą o poczuciu
kontroli zewnętrznej, a wysokie - o poczuciu kontroli wewnętrznej. Inwentarz
przeznaczony jest do badania młodzieży w wieku 13-17 lat. Kwestionariusz ma 45
Krzysztof Fronczyk

dwie wersje, dla dziewcząt i chłopców, różniące się wyłącznie formą gramatycz-
ną pytań. Zawiera pytania dotyczące różnych sytuacji występujących w życiu
młodzieży (kontakty w grupie rówieśniczej, życie rodzinne, osiągnięcia szkolne,
spędzanie wolnego czasu itp.). KBPK stosowany jest przede wszystkim do ce-
lów badawczych, ewentualnie jako metoda wspomagająca diagnozę osobowości
w praktyce psychologicznej.
Kwestionariusz Radzenia Sobie w Sytuacjach Stresowych (CISS) Endlera
i Parkera (Strelau, Jaworowska, Wrześniewski, Szczepaniak, 2005) przeznaczo-
ny jest do badania zachowań, jakie ludzie mogą przejawiać w sytuacjach stre-
sowych, ujętych w trzy style radzenia sobie z,e stresem: styl skoncentrowany na
zadaniu, styl skoncentrowany na emocjach oraz styl skoncentrowany na unika-
niu. Ten ostatni styl może przyjmować dwie fonny: angażowanie się w czynności
zastępcze i poszukiwanie kontaktów towarzyskich.
CISS składa się z 48 stwierdzeń dotyczących różnych zachowań, jakie ludzie
mogą podejmować w sytuacjach trudnych. Badany określa na S-stopniowej skali
częstotliwość tego typu zachowań.
Jeszcze innym przykładem wykorzystania kwestionariuszy jest Inwentarz
Zainteresowań opracowany przez Frydrychowicz, Jaworską, Woynarowską,
Matuszewskiego (1994), który pozwala na ocenę 9 grup zainteresowań tworzą­
cych odpowiednie skale (Handlowo-Biurowe, Techniczne, Literackie, Rolnicze,
Opiekuńcze, Wojskowe, Plastyczne, Naukowe, Muzyczne). Kwestionariusz ten
przeznaczony jest do badań młodzieży przygotowującej się do wyboru kierun-
ku dalszego kształcenia. Narzędzie to może być wykorzystywane w praktyce
psychologicznej, chociaż przy interpretacji wyników należy zachować pewną
ostrożność, gdyż nonny zostały opracowane w 1991 roku, czyli już dość dawno.
Inwentarz Zainteresowań, mimo że przeznaczony do diagnozy jednego aspektu
osobowości, jakim są zainteresowania, posiada wiele wymiarów. Podobną wie-
lowymiarową strukturę ma Skala Agresji Buss Durkec (Drwal, 1995). Struktura
ta wynika z tego, że w psychologii rozróżnia się wiele rodzajów agresji. Skala
Agresji Buss Durkee zawiera siedem skal odnoszących się do różnych fonn za-
chowania agresywnego (Atak, Wrogość pośrednia, Drażliwość, Negatywizm,
Uraza, Podejrzliwość, Agresja słowna). Jest to o tyle ważne, o ile inne istnieją­
ce na świecie kwestionariusze agresywności dostarczają jedynie ogólnej miary
agresywności, bez uwzględniania różnorodnych przejawów tej cechy. Wyniki
wszystkich siedmiu skal, po zsumowaniu, dają wskaźnik ogólnego poziomu
agresji. Dodatkowo, w inwentarzu zawarta jest skala poczucia winy.
Skala Agresji Buss Durkee bywa stosowana w praktyce sądowej do badania
więźniów i oskarżonych, a także w praktyce klinicznej przy diagnozie agresyw-
ności pacjentów psychiatrycznych. Inwentarz ten nie służy do badania przyczyn
i intencji agresywnego zachowania, a jedynie umożliwia diagnozę poziomu po-
46 szczególnych rodzajów agresywności.
2. Przegląd wybranych lesIów psychologicznych

Najpopularniejsząpolską wersję tego narzędzia opracował Choynowski (1972)


pod nazwą Nastroje i Humory. Obecnie jest to jednak adaptacja przestarzała, co
uniemożliwia stosowanie jej w praktyce psychologicznej w Polsce.
Kofta, Brzeziński i Ignaczak (1977) opracowali narzędzie do pomiaru ostat-
niego z wymiarów uwzględnionych w Kwestionariuszu Nastroje i Humory, jakim
jest poczucie winy. Celem Kwestionariusza Poczucia Winy (KPW) wspomnia-
nych autorów jest zbadanie częstotliwości, natężenia i długości czasu przeżywa­
nia poczucia winy. W kwestionariuszu tym przedstawiony jest badanemu szereg
niedokończonych zdań, zawierających opisy różnych sytuacji. Zadaniem bada-
nego jest ich uzupełnianie za pomocą przedstawionych do wyboru dwuwarian-
towych odpowiedzi. Decyzja o ich wyborze jest odzwierciedleniem przekonali,
odczuć i reakcji osoby badanej, wskazujących na przeżywanie poczucia winy
bądź też jego brak.
Kwestionariusz Poczucia Winy nie może być stosowany w praktycc psycholo-
gicznej ze względu na brak aktualnych norm, choć można stosować go w bada-
niach naukowych. Więcej na ten temat znaleźć można w rozdziale 6.2.

2.2.3. Charakter pozycji testowych występujących


w kwestionariuszach
2.2.3.1. Treść pozycji testowych w kwestionariuszach
Po krótkim przeglądzie wybranych kwestionariuszy przejdziemy do opisu ty-
powych pozycji testowych, z jakich są one budowane.
Pozycje testowe w kwestionariuszach mogą dotyczyć naj rozmaitszych zagad-
nień. Ogromna różnorodność treściowa zawartości kwestionariuszy jest zrozu-
miała, jeśli uwzględni się, że właściwości psychiczne człowieka mają bardzo
zróżnicowane przejawy. Według Wernera i Pervina (1986) możliwe jest scha-
rakteryzowanie każdej pozycji testowej ze względu na obszar funkcjonowania
psychicznego, sytuację, a także częstość oraz ezas występowania zagadnień, któ-
rego dana pozycja testowa dotyczy. Opierając się na tych kryteriach klasyfikacji,
w dalszej części przedstawione zostaną różne rodzaje pozycji testowych oraz ich
przykłady zaczerpnięte z istniejących inwentarzy.
Biorąc pod uwagę obszar funkcjonowania psychicznego człowieka, treść
pozycji testowych wchodzących w skład inwentarzy można podzielić na trzy
główne kategorie: przekonania, emocje oraz zachowania (Marody, 1976). Wob-
rębie każdej z tych kategorii można wyodrębnić podkategorie. I tak wśród po-
zycji testowych dotyczących przekonań można wyróżnić dwie grupy. Pierwszą
z nich są pozycje testowe, których treść wiąże się z przekonaniami osoby ba-
danej na własny temat, czyli z takimi zagadnieniami, jak stosunek do samego
siebie ("Myślę czasem o rzeczach, o których nie wypada mówić", "Jestem ważną
osobą"; MMPI), przypisywanie sobie pewnych cech ("Czy masz żywe usposo- 47
Krzysztof Fronczyk

bienie?"; EPQ-R) czy zdolności ("Czy potrafisz pracować w niesprzyjających


warunkach?"; KTS). Drugą grupą pozycji testowych dotyczących przekonatl są
takie, które nie odnoszą się bezpośrednio do osoby badanej, lecz do ogólnych
przekonań na temat świata ("Wierzę w życie pozagrobowe"; MMPI), wartości
czy też opinii wobec określonych kwestii ("Czy lepiej jest postępować według
reguł przyjętych w społeczellstwie niż chodzić własnymi drogami?"; EPQ-R)
oraz przekonań dotyczących innych ludzi ("Większość ludzi, których znam, lubi
mnie"; NEO-FFI), a także spostrzegania zachowań innych ludzi wobec osoby
badanej.
Wśród pozycji testowych dotyczących emocji można wyróżnić dwie grupy.
Do pierwszej z nich zaliczają się takie pozycje testowe, które dotyczą upodobań
("Czy lubisz życie towarzyskie?"; MPI) czy też pragnień. Drugą grupę stanowią
natomiast pozycje testowe, których treść koncentruje się na uczuciach przeży­
wanych przez osobę badaną ("Czy czasem czujesz się "podle" bez powodu?";
EPQ-R).
Pozycje, których treść koncentruje się wokół zachowań odnoszą się do jakiej-
kolwiek obserwowalnej aktywności badanego ("Często odwiedzam swoich zna-
jomych"; FCZ-KT). Do kategorii tej należy zaliczyć także reakcje fizjologiczne
i zachowania, które znajdują się poza kontrolą wolicjonalną człowieka ("Bardzo
się kręcę w łóżku"; DOTS-R).
Oprócz tych trzech głównych (przekonania, emocje, zachowania) kategorii
pozycji Angleitner i Riematm (1991) zwracają uwagę na pozycje kwestionariu-
szowe, które dotyczą wewnętrznych reakcji człowieka, trudnych do zaobserwo-
wania przez innych ("W nocy dostrzegam płynące po niebie chmury"; FCZ-KT,
"Czy budzisz się na ogół szybko i bez trudności?"; KTS).
Niezależnie od tego, do jakiej kategorii należą pozycje testowe inwentarzy
(przekonania, emocje, zachowania), to ich treść może charakteryzować zarówno
zdrową, jak i zaburzoną osobowości ("Słyszę głosy, których nie słyszą inni";
SCL-90). Pozycje dotyczące symptomów najczęściej można znaleźć w inwenta-
rzach przeznaczonych do diagnozy zaburzeń czy trudności psychicznych.
Omawiając różną zawartość treściową kwestionariuszy, należy zwrócić uwa-
gę, że istnieją takie pozycje testowe, które dotyczą sposobu zachowania się,
czyli formalnych aspektów zachowania ("Czy zwykle mówisz szybko?"; KTS).
Pozycje testowe tego typu nie opisują specyficznych przejawów wybranego ob-
szaru funkcjonowania psychicznego (przekonania, emocje, zachowania). Częściej
natomiast koncentrują się one np. na natężeniu, tempie czy czasie trwania. Takie
pozycje charakterystyczne są dla kwestionariuszy temperamentu (Angleitner
i Riemann, 1991).
Pozycje testowe w kwestionariuszach mogą być analizowane nie tylko pod
względem obszaru funkcjonowatlia psychicznego, lecz także sytuacji, jakiej do-
tyczą. Z tego względu wyodrębnia się trzy grupy pozycji testowych. Po pierwsze,
48 w kwestionariuszach spotyka się pozycje testowe, w których nie sprecyzowano,
2. Przegląd wybranych teslów psychologicznych

do jakiej odnoszą się sytuacji. Tego typu pozycje testowe to wszystkie przytoczo-
ne dotychczas przykłady. Po drugie, istnieją pozycje testowe, w których w ogól-
nikowy sposób określono, jakiej sytuacji dotyczą ("Zrobiłbym chyba wszystko,
gdyby mnie sprowokowano"; IPSA, "Zwraca moją uwagę zmiana smaku wody,
gdy przebywam w nowym miejscu"; FCZ-KT). Trzecią grupę stanowią takie po-
zycje testowe, w których w dość jasny sposób określono sytuację ("W karnawale,
jeśli tylko mam taką możliwość, uczestniczę w wielu zabawach, prywatkach";
"Jeśli śpię krócej niż zwykle, to następnego dnia czuję się rozbity (rozbita) i zmę­
czony (zmęczona)"; FCZ-KT). Dwie ostatnie kategorie stanowią około połowy
pozycji testowych, znajdujących się w najczęściej stosowanych kwestionariu-
szach osobowości (Werner i Pervin, 1986).
Oprócz treści oraz sytuacji można także analizować aspekt czasowy, jakiego
dotyczą pozycje testowe. Generalnie pozycje testowe mogą odnosić się do prze-
szłości, przyszłości lub teraźniejszości, co wyrażone jest najczęściej odpowied-
nim czasem gramatycznym czasowników. Oprócz tego w kwestionariuszach spo-
tyka się pozycje testowe wyrażone w trybie przypuszczającym (np. "Najchętniej
bym siedział przez większość czasu i marzył, zamiast coś robić", "Chciałbym
być śpiewakiem"; MMPI). Najcz~ściej jednak w kwestionariuszach osobowości
spotyka się pozycje testowe dotyczące teraźniejszości (Werner i Pervin, 1986).
Poruszając zagadnienie aspektu czasowego, jakiego dotyczą pozycje testowe,
należy także wspomnieć o częstości wykonywania czynności. W niektórych po-
zycjach testowych stosuje si~ określniki częstości w rodzaju: "często", "czasa-
mi", "rzadko", "bywa, że", "przez większość czasu" itp. Inne pozycje testowe
w ogóle nie precyzują częstości. Oprócz pozycji testowych, należących do tych
dwóch przeciwstawnych grup, bywają także takie, których treść nie całkowicie
jest jasna co do częstości występowania danej czynności. Niejasność ta wynika
niekiedy z trudności w takim sfonnułowaniu pytań, aby dotyczyły one jedynie
częstości a nie innych aspektów danego zachowania np. intensywności. Jako
przykład takiej pozycji testowej może posłużyć stwierdzenie pochodzące z kwe-
stionariusza MMPI - "Ludzie łatwo mnie niecierpliwią'. W zdaniu tym nie do
końca wiadomo, czy zniecierpliwienie ludźmi następuje u badanej osoby dość
szybko czy też badany często obserwuje u siebie takie zniecierpliwienie.

2.2.3.2. Forma pozycji testowych w kwestionariuszach


Pozycje testowe w kwestionariuszach, choć zróżnicowane treściowo, powinny
być ujednolicone pod względem swej formy, dzięki czemu możliwy jest jedna-
kowy sposób udzielania odpowiedzi w danym inwentarzu. Ustosunkowanie się
badanego do poszczególnych pozycji testowych polega zwykle na wyborze jed-
nej z opcji odpowiedzi, jakie są zawarte w każdej pozycji testowej. Liczba opcji
odpowiedzi bywa nazywana formatem odpowiedzi. Każdej z opcji odpowiedzi
przyporządkowana jest pewna wartość liczbowa, wskazująca stopień, w jakim 49
Krzysztof Fronczyk

dana odpowiedź odzwierciedla badaną cechę. W przypadku najprostszych dwu-


kategorialnych formatów odpowiedzi jedna z odpowiedzi wskazuj e na posiadanie
danej właściwości, a druga - na jej brak. Odpowiedź wskazująca na posiadanie
danej cechy nazywana jest odpowiedzią diagnostyczną. Jako przykład może po"
służyć pytanie "Czy masz trudności w zaprzyjaźnianiu się z ludźmi?", zaczerp-
nięte ze skali intro-ekstrawersji kwestionariusza EPQ-R Eysencka. Odpowiedzią
diagnostyczną jest tu odpowiedź "nie", gdyż łatwość nawiązywania przyjaźni
z innymi ludźmi jest charakterystyczna dla osób o wysokim nasileniu ekstra-
wersji. Podobnie w innych pytaniach, składających się na tę skalę, odpowiedzia-'
mi diagnostycznymi są takie, które wskazują na bycie osobą ekstrawertywną.
Mogą to być, zależnie od treści pytania, zarówno odpowiedzi "tak", jak i "nie".
W związku z tym, że odpowiedziom diagnostycznym przypisywany jest jeden
punkt, a odpowiedziom niediagnostycznym zero punktów to im wyższa suma
uzyskanych punktów za udzielone odpowiedzi na pytania skali intro-ekstrawersji
kwestionariusza EPQ-R, tym wyższe nasilenie ekstrawersji.
Można wyobrazić sobie taką sytuację, w której kwestionariusz EPQ-R byłby
skonstruowany w odwrotny sposób, tj. wyższe wartości sumy uzyskanych punk-
tów za udzielone odpowiedzi na pytania skali intro-ekstrawersji wskazywałby na
wyższe nasilenie introwersji. Jednak w tej sytuacji odpowiedzią diagnostyczną
(czyli punktowaną) musiałaby być odpowiedź "tak" w powyżej przytoczonej po-
zycji testowej. Podobnie we wszystkich pozostałych pozycjach testowych odpo-
wiedziami diagnostycznymi stałyby się odpowiedzi odwrotne do tych, jakie są
diagnostyczne w sytuacji, gdy większa suma wyników skali odpowiada wyższe­
mu nasileniu ekstrawersji.
Podsumowując: w podanym przykładzie odpowiedź "nie" jest diagnostyczna
dla ekstrawersji, a odpowiedź "tak" - dla introwersji. Są to przeciwne bieguny tej
samej cechy psychicznej. Ponieważ w kwestionariuszu EPQ-R uzyskanie wyż­
szych wyników miało, z założenia, oznaczać wyższe nasilenie ekstrawersji, więc
jako odpowiedź diagnostyczną wybrano "nie".
Jak więc widać to, co zostanie nazwane odpowiedzią diagnostyczną jest
umowne i zależy od celu oraz założeń przyjętych przez twórcę danego narzędzia
dotyczących tego, na co mają wskazywać niskie wyniki uzyskiwane w kwestio-
nariuszu, a na co - wysokie wyniki. W inwentarzach nie ma jednej prawidłowej
odpowiedzi tak, jak jest to w testach inteligencji i zdolności.
Pozycje testowe mogą mieć postać' pytań, tak jak przedstawiono to w po-
wyższym przykładzie, lub stwierdzeń. Niezależnie jednak od formy, zadaniem
badanego jest zawsze ustosunkowanie się do treści pozycji testowej przez wy-
branie jednej z opcji odpowiedzi dołączonych do niego. Opisany powyżej dwu..
kategorialny ("tak" ~ "nie" czy też "prawda" - "fałsz") format odpowiedzi to
jeden z najprostszych sposobów występujących w kwestionariuszach. Może być
on uzupełniony opcją pośrednią, mającą formę stwierdzeń: "nie wiem", "trud-
50 no powiedzieć", ,,?" itp. Bardziej rozbudowane formaty odpowiedzi przybierają
Krzysztof Fronczyk

w ten sposób, aby najlepiej opisywaly one badanego. Każdy z przymiotników


jest diagnostyczny dla pewnej cechy psychicznej, do pomiaru której (lub któ-
rych) została stworzona dana lista przymiotnikowa. Tak więc np. wybranie przy-
miotnika "ambitny" (w kwestionariuszu ACL) jest diagnostyczne dla potrzeby
wytrwałości, gdyż świadczy o wyższym nasileniu tej potrzeby, a więc za jego
wybranie badany otrzymuje punkt. W omawianym typie kwestionariuszy moż­
na spotkać się także z przymiotnikami, które świadczą o niskim nasileniu da-
nej cechy. Takim przykładem może być przymiotnik "niecierpliwy". Świadczy
on o niskim nasileniu potrzeby wytrwałości. Jego wybranie przez osobę badaną
związane jest z uzyskaniem punktu ujemnego. Wyższa łączna suma wszystkich
punktów uzyskanych przez osobę badaną w skali potrzeby wytrwałości wskazuje
na jej większe nasilenie.
Z innych sposobów udzielania odpowiedzi w kwestionariuszach warto wymie-
nić rangowanie polegające na przypisaniu rang poszczególnym stwierdzeniom
znajdującym się w kwestionariuszu według założonego kryterium. Taki sposób
postępowania wykorzystany jest np. w Skali Wartości Rokeacha (Brzozowski,
1989). Zawarta jest w niej lista wartości (np. "Odważny", "Posłuszny",
"Bezpieczeństwo narodowe", "Szczęście"). Zadaniem badanego jest przypisanie
każdej z wartości liczb w taki sposób, aby uporządkować je od najważniejszej do
najmmeJ ważnej.
Na zakończenie przeglądu różnego rodzaju pozycji testowych występujących
w inwentarzach warto wspomnieć, że uzupełniane są one czasem oznaczenia-
mi i symbolami graficznymi, reprezentującymi poszczególne opcje odpowiedzi,
mające na celu ułatwianie odpowiadania. Poniżej przedstawiamy przykład ta-
kiej pozycji testowej pochodzący z Arkusza Opisu Pracy Neuberger i Allerbeck
(w polskiej adaptacji Zalewskiej, 2001).
"Jeżeli pomyśli Pan/i teraz o tym wszystkim, co odgrywa rolę w Panali pracy
(np. czynności, warunki pracy, koledzy, czas pracy itd.), to w jakim stopniu jest
Pan/i ogólnie zadowolony/a ze swojej pracy?
Proszę zakreślić odpowiednią twarz"

Pytania sprawdzające
1. Jak można scharakteryzować kwestionariusze osobowości?
2. Co jest źródłem informacji w testach inteligencji?
3. Jaki charakter mogą mieć pozycje testowe w kwestionariuszach osobowości?
52 4. Podaj przykłady znanych Ci testów inteligenci i zdolności.
2. Przegląd wybranych testów psychologicznych

5. Czy testy grupowe można stosować w badaniach indywidualnych oraz czy


testy indywidualne można stosować w badaniach grupowych? Odpowiedź
uzasadnij.
6. Podaj przykłady znanych Ci testów grupowych i indywidualnych.

Nie przedstawiamy tu żadnych konkretnych wskazówek dotyczących litera-


tury. W celu zapoznania się z różnorodnością testów psychologicznych, ogólnie
można polecić lekturę podręczników testowych.

53
3. CO TO JEST POMIAR PSYCHOLOGICZNY?

Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE

Niniejszy rozdział poświęcony jest ogólnym podstawom pomiaru psychome-


trycznego, czyli pomiaru dokonywanego za pomocą testów i kwestionariuszy.
Może wydawać się, że mierzenie i określanie liczbami zjawisk psychologicz-
nych jest bardzo trudne czy wręcz niemożliwe. Znacznie łatwiej wyobrazić so-
bie mierzenie właściwości fizycznych (np. długości). Zjawiska psychiczne mogą
wydawać się czymś tak nieuchwytnym w porównaniu ze zjawiskami fizycznymi,
że uniemożliwia to jakiekolwiek ujęcia ilościowe. Mimo to już dawno w psycho-
logii podjęto próby mierzenia wielkości psychicznych.

3.1. Założenia dotyczące natury mierzonych właściwości


w psychometrii
Pomiar właściwości człowieka nie jest tak prosty czy oczywisty jak pomiar
właściwości fizycznych, takich jak np. wzrost albo waga. W przeciwidlstwie
do właściwości fizycznych, cechy i stany psychiczne człowieka nie podlegają
bezpośredniej obserwacji. Nie jest możliwe bezpośrednie zaobserwowanie stanu
emocjonalnego czy poziomu inteligencji człowieka w taki sam sposób, w jaki
można zaobserwować wzrost lub wagę. Z tego powodu wiele zmiennych psy-
chologicznych określa się jako zmienne ukryte (bądź latentne), co oznacza brak
możliwości ich bezpośredniej obserwacji (Strelau, 200 l).
Wydaje się, że określenie cech psychicznych jako właściwości ukrytych nie
ułatwia ich mierzenia. Jak można zmierzyć coś, co nie jest bezpośrednio obser-
wowalne? Aby było to możliwe, konieczne jest przyjęcie pewnych założeń co do
natury tych nieobserwowalnych zmiennych.
I tak w psychometrii zakłada się, że zmienne latentne mogą przybierać roz-
maite stany, różniące się pod względem swego natężenia. Innymi słowy, wła­
ściwości psychiczne przysługują poszczególnym ludziom w różnym stopniu.
Odzwierciedla to pojęcie kontinuum, które można rozumieć jako nieskończenie
wielki, uporządkowany pod względem natężenia mierzonej cechy, zbiór ludzi. Na
jednym krańcu tego uporządkowania znajdują się osoby o nieskończenie małym
nasileniu danej cechy, a na drugim - o nieskończenie dużym nasileniu. Pomiędzy
tymi skrajnościami znajdują się osoby o różnych nasileniach cechy. Oczywiście
54 takie rozumienie jest założeniem teoretycznym. Trudno sobie wyobrazić np. czło-
3. Co to jest pomiar psychologiczny?

wieka o nieskończenie wysokim poziomie inteligencji, choć oczywiście istnieją


ludzie o bardzo wysokim poziomie inteligencji. Ważne jest to, że istnieje bardzo
dużo stanów pośrednich, znajdujących się między krańcami kontinuum. Tak więc
istnieją np. ludzie o różnym stopniu inteligencji: od osób genialnych począwszy,
a na osobach głęboko upośledzonych skończywszy.
Między osobami różniącymi się natężeniem danej właściwości psychicznej
zachodzą określone relacje. Niektóre osoby odznaczają się wyższym nasileniem
danej właściwości w porównaniu z innymi osobami. Można więc np. mówić, że
Jan jest bardziej inteligentny od Piotra czy też, że Lech jest mniej neurotyczny
od Zbigniewa. Są to przykłady relacji zachodzących pomiędzy natężeniem inteli-
gencji oraz neurotyzmu charakterystycznych dla wymienionych osób.
Różnice między ludźmi pod względem danej cechy psychicznej (np. inteli-
gencji) sprowadzają się do różnic ilościowych nasilenia tej cechy, a nie jako-
ściowych. Również o wielu innych właściwościach psychicznych można powie-
dzieć, że są to zmienne ilościowe, a nie jakościowe. Tak więc ludzie mogą różnić
się między sobą nasileniem neurotyzmu, ekstrawersji, lęku i wielu innych cech
psychicznych, i wszystkie te różnice dotyczącą natężenia wymienionych cech.
Zmienne jakościowe dotyczą jedynie tcgo, czy badane obiekty są różne czy też
takic same pod danym względem. W ich przypadku nie można mówić o różnym
nasileniu badanej właściwości. Pomiędzy kategoriami zmiennych jakościowych
nie J;l1a żadnych stanów pośrednich. Zmienne te są więc zupełnie czymś innym
niż kontinuum ccch psychicznych. Przykładem zmiennej jakościowej jest płeć.
W sensie biologicznym nie można mówić o jakichkolwiek stanach pośrednich
między mężczyznami a kobietami. Płeć nie jest więc opisywana przez żadne kon-
tinuum, a przez dwie różne kategorie. Ponieważ zmienne jakościowe nie mogą
być ujmowane w sposób ilościowy, więc nie są one przedmiotem pomiaru psy-
chometrycznego.
Wiedząc już, że wiele cech psychicznych ma charakter ilościowy możemy
przejść' do podania kolejnego założenia leżącego u podstaw pomiaru. Założenie
to dotyczy kształtu rozkładu wartości nieobserwowalnej zmiennej. W psychome-
trii przyjmuje się, że wiele cech ma rozkład normalny. Oznacza to, że na kon-
tinuum cechy najczęściej występują wartości przeciętne, najrzadziej - skrajne
(zarówno skrajnie wysokie, jak i skrajnie niskie).
Oprócz ilościowego charakteru zmiennych latentnych, w psychometrii przyj-
muje się, że wszystkich ludzi można scharakteryzować pod względem wspólnych
dla nich cech. Podejście takie zwane jest nomotetycznym (Zawadzki, 2006).
Codzieima obserwacja, a także badania naukowe wskazują na bardzo dużą różno­
rodność ludzkich zachowa11, co pozornie może przeczyć tezie o istnieniu wspól-
nych dla wszystkich ludzi cech zachowania. Może się bowiem wydawać, że to
zróżnicowanie ludzkich zachowań wynika z niepowtarzalności każdego człowie­
ka, która jest uwarunkowana odmiennymi cechami psychicznymi w przypadku
każdej osoby. Ten sposób rozumowania charakterystyczny jest dla podejścia 55
Krzysztof Fronczyk

idiograficznego. W rzeczywistości podejście nomotetyczne nie przeczy zróżni­


cowaniu ludzkich zachowań, gdyż wskazuje ono, że specyfika jednostki wyraża
się w unikatowym dla niej nasileniu poszczególnych właściwości (a nie w po-
siadaniu unikatowych, wyłącznie jej przysługujących, cech). Oprócz nasilenia
pojedynczych cech ważna jest także konfiguracja natężenia poszczególnych cech
rozpatrywana jako całość. Biorąc pod uwagę, że każda cecha może przyjmować
różne wartości oraz to, że można wyodrębnić dużo różnych cech p~ychicznych
człowieka, otrzymuje się bardzo dużą liczbę różnych kombinacji natężeń po-
szczególnych cech. Te konfiguracje odpowiedzialne są za wspomnianą ogromną
różnorodność zachowaIlludzkich.

3.2. Pojęcie pomiaru


Wiedząc już, że właściwości psychiczne są nieobserwowalnymi zmienny-
mi, którym przysługuje ilościowy charakter o rozkładzie normalnym, możemy
przejść do zdefiniowania, czym jest pomiar psychologiczny. Pomiar psycholo-
giczny to przyporządkowanie liczb poszczególnym osobom w taki sposób,
aby relacje między przyporządkowanymi liczbami odzwierciedlały relacje za-
chodzące między różnymi natężeniami mierzonej właściwości (Magnusson,
1991). Tak więc, mamy tu do czynienia, z jednej strony, z 'nieobserwowalną
bezpośrednio właściwością psychiczną, a z drugiej - ze zbiorem liczb, które
mają tę właściwość odzwierciedlać. Między poszczególnymi wartościami mie-
rzonej właściwości psychicznej, jak również pomiędzy poszczególnymi liczbami
mającymi tę właściwość odzwierciedlać, zachodzą określone relacje. O pomiarze
można mówić wtedy, gdy relacje zachodzące między liczbami odzwierciedla-
ją relacje zachodzące między różnymi natężeniami badanej cechy psychicznej.
Szczególnie istotne są dwie relacje: różności i równości. Przyporządkowanie
dwóm lub więcej osobom tej samej wartości liczbowej opisuje sytuację, w której
natężenie badanej cechy u tych osób jest takie samo. Natomiast przyporządko­
wanie dwóch różnych liczb dwóm różnym osobom oznacza, że poziomy badanej
cechy są u tych osób różne. W ramach relacji różności można wyróżnić relację
większości i mniejszości. Jeśli dwóm osobom przyporządkowano różne liczby, to
można określić, której z nich przyporządkowano liczbę większą, a której mniej-
szą. Osoba, której przyporządkowano większą wartość charakteryzuje się więk­
szym nasileniem badanej cechy niż osoba, której przyporządkowano wartość
mniejszą. Określenie, że dwie jednostki są różne lub równe pod względem pew-
nej cechy nie wyczerpuje jednakjeszcze pojęcia pomiaru, które dotyczy tego, jak
wielka jest ta różnica (Stachowski, 2008). Skoro bowiem badana cecha z zało­
żenia ma charakter ilościowy i może przyjmować bardzo dużo różnych wartości,
to tym samym liczby, które odwzorowują tę cechę powinny także odzwierciedlać
56 różnice ilościowe w natężeniu danej cechy.
3. Co lo jesl pomiar psychologiczny?

W celu przyporządkowywania osobom badanym liczb trafnie odzwierciedla-


jących zróżnicowanie badanych pod względem mierzonej cechy, psycholog musi
dysponować odpowiednimi narzędziami, które umożliwią mu przeprowadzenie
takiego procesu przyporządkowywania. Narzędziami takimi mogą być kwestio-
nariusze czy testy lub inne metody diagnostyczne, które nie są omawiane szcze-
gółowo w tym podręczniku. Należy podkreślić, że czym innym jest zmienna
psychologiczna, a czym innym jej pomiar. Jedna zmienna psychologiczna
(np. inteligencja) może być zwykle mierzona na wiele różnych sposobów (np.
różnymi testami inteligencji).
Posługiwanie się takimi narzędziami związane jest z główną trudnością po-
miaru w psychometrii. Polega ona na tym, że nigdy nie wiadomo, jakie relacje
reprezentowane są przez wyniki pomiaru psychometrycznego. Jak dotychczas
nie opracowano metody pozwalającej sprawdzić, czy relacje między uzyskanymi
w procesie pomiaru liczbami rzeczywiście odpowiadaj ą relacjom między różnymi
natężeniami badanej cechy. Aby więc mówić o pomiarze zmiennych latentnych,
konieczne jest założenie, że taka odpowiedniość istnieje w rzeczywistości. Tak
więc doszliśmy do kolejnego bardzo istotnego założenia głoszącego, że relacje
między wartościami zmiennej nieobserwowalnej odzwierciedlone są przez
relacje między liczbami przypisywanymi ludziom w trakcie pomiaru.
W celu lepszego objaśnienia, czym jest pomiar, rozpatrzmy fikcyjny przykład
doty,czący pomiaru inteligencji. Pomiar inteligencji to przyporządkowanie oso-
bom badanym liczb w taki sposób, aby odzwierciedlały poziom inteligencji ba-
danych. Narzędziem, dzięki któremu możliwe będzie takie przyporządkowanie
może być jeden z wielu testów inteligencji, wystandaryzowana procedura obser-
wacyjna czy tcż fizjologiczne wskaźniki inteligencji, takie jak np. częstotliwość
fal alfa czy też latencja potencjałów wywołanych (Matczak, 1994).
Załóżmy, że do pomiaru inteligencji wybrano pewien test psychologiczny,
a w badaniu wzięły udział cztery osoby: A, B, C i D, które uzyskały wyniki
przedstawione w tabeli 3.1.

Tabela 3.1. Hipotetyczne wyniki badania pewnym testem inteligencji

Osoba Wynik
A 100
B 130
C 70
D 100

Relacje między liczbami uzyskanymi przez poszczególne osoby badane po-


winny odzwierciedlać relacje zachodzące między nimi pod względem· badanej
cechy. Przyporządkowanie osobie A wartości 100 punktów oraz osobie D rów-
nież wartości 100 punktów odzwierciedla fakt, że ich poziomy inteligencj i są so- 57
Krzysztof Fronczyk

bie równe. Przyporządkowanie osobie B wartości 130 punktów w tej samej skali
inteligencj i odzwierciedla sytuacj ę, w której osoby A i D są mniej inteligentne niż
osoba B. Ponadto różnica w poziomie inteligencji między osobąAa osobą B jest
dokładnie taka sama, jak różnica między osobą A a osobą C. Podkreślić należy,
że nie chodzi tu po prostu o różnice w wynikach zastosowanego testu inteligencji,
który jest tylko jednym z wielu rÓżnych sposobów pomiaru inteligencji, ale o to,
że wyniki te odzwierciedlają poziom inteligencji osób badanych. Jak wspomnia-
no, inteligencja może być mierzona na wiele różnych sposobów. Gdyby zastoso-
wano inne narzędzie pomiarowe, otrzymałoby się oczywiście inne liczby. Jednak
relacje między nimi powinny być takie same, jak w opisanym przykładzie. Tak
więc, niezależnie od wykorzystanej techniki pomiaru, powinniśmy uzyskać wy-
niki wskazujące, że osoba B jest najbardziej inteligentna, a osoba C - najmniej .
., Poziom inteligencji osób A i D powinien być sobie równy. Dodatkowo osoba B
powinna być o tyle samo inteligentniejsza od A (oraz D), o ile A (oraz D) jest
inteligentniejsza od C.

3.3. Wskaźniki

Aby móc wnioskować o jakichkolwiek ukrytych właściwościach psychicz~


nych, musimy mieć jakieś obserwowalne zmienne, które pośrednio świadczą
o zmiennych nieobserwowalnych. To, co psycholog może zaobserwować to za-
chowanie człowieka. Na jego podstawie można wnioskować o cechach psychicz-
nych, przysługującym poszczególnym osobom. Przy czym zachowanie jest tu
rozumiane dość szeroko. Mogą to być konkretne gesty, słowa, mimika twarzy
czy zmiany fizjologiczne (np. pocenie się rą)<). Widzimy, że ktoś płacze i na tej
podstawie przypuszczamy, że przeżywa głęboki smutek lub rozpacz. Możemy
również zaobserwować, że ktoś rozwiązał trudne zadanie matematyczne i na
tej podstawie przypuszczać, że jest inteligentny. Te obserwowalne zachowania
świadczące o stanach czy cechach psychicznych nazywane są wskaźnikami.
Dzięki nim możliwe jest wnioskowanie o zmiennych ukrytych.
Każda właściwość psychiczna może mieć różnorodne wskaźniki. I tak np.
o inteligencji świadczy nie tylko poprawne rozwiązywanie złożonych zadań
matematycznych, ale także np. szybkość podawania rozwiązań, umiejętność ra-
dzenia sobie w nowych sytuacjach życiowych, szybkość uczenia się i wiele in-
nych. Problem doboru odpowiednich wskaźników komplikuje to, że jeden i ten
sam wskaźnik może oznaczać różne właściwości. Szybkie rozwiązanie zadania
matematycznego nie musi przecież wynikać z inteligencji, lecz np. ze spostrze-
gawczości i dobrego wzroku, które to właściwości umożliwiają łatwe ściąganie
rozwiązań od kolegów.
Skoro więc jedna właściwość psychiczna ma wiele wskaźników, a jeden
wskaźnik może być powiązany z wieloma właściwościami, to większość wskaź-
58 ników jest niejednoznaczna. Dzieje się tak, gdyż zwykle ludzkie zachowanie jest
3. Co to jest pomiar psychologiczny?

wypadkową wielu cech oraz sytuacji, w jakiej człowiek się aktualnie znajduje.
Jeżeli więc widzimy mężczyznę i kobietę w eleganckiej restauracji przy jednym
stoliku zajętych rozmową i spożywaniem obiadu, to możemy domyślać się przy-
najmniej kilku powodów, dla których się tam znaleźli. Po pierwsze, być może
obserwujemy pracowników jednej finny, którzy właśnie wyszli na przerwę obia-
dową. Być może są to osoby bardzo towarzyskie, które nigdy nie jadają obiadów
samotnie i zawsze udają się do restauracji z kimś ze znajomych z pracy. Możliwe
jest nawet, że są to przyjaciele, którzy często jadają wspólnie obiad. Po drugie
możliwe jest, że ta para jest wzajemnie sobą zainteresowana i obserwujemy ich
właśnie podczas randki. I wreszcie, ostatnia interpretacja to taka, według której
obie osoby są bardzo głodne a to, że siedzą przy jednym stoliku jest czystym
przypadkiem.
Jak widać, wszystkie podane interpretacje odwołują się do takich zmiennych
psychologicznych, jak towarzyskość, stan głodu czy uczucie zakochania lub miło­
ści. Wszystkie te zmienne nie są bezpośrednio obserwowalne, mają więc charak-
ter latentny. W celu wnioskowania o którejkolwiek z wymienionych zmiennych,
konieczne jest znalezienie odpowiednich wskaźników. Jak pokazano w opisa-
nym przykładzie, jeden wskaźnik, jakim jest zjedzenie wspólnego obiadu może
dotyczyć różnych zmiennych. Tak więc obserwując tylko to jedno zachowanie
nie można jednoznacznie określić jego psychologicznych przyczyn. Konieczne
jest zatem zaobserwowanie jeszcze innych dodatkowych wskaźników. Żaden bo-
wiem pojedynczy wskaźnik nie jest całkowicie jednoznaczny. W przytoczonym
przykładzie należałoby np. obserwować, czy obie osoby patrzą sobie w oczy, jak
szybko jedzą, czy rozmawiają ze sobą i wiele innych. Gdyby okazało się, że obie
osoby z opisanej scenki dość szybko jedzą i nie rozmawiają ze sobą zbyt dużo
moglibyśmy uznać, że ich zachowanie podyktowane jest stanem głodu. Gdyby
natomiast opisane osoby z ożywieniem dyskutowały i nie przejawiały zbytniej
bliskości, skłonni bylibyśmy sądzić, że osoby te są rozmowne i być może towa-
rzyskie. Oczywiście nie wyklucza to motywacji głodu. Z łatwością można by
znaleźć także takie wskaźniki, które będą świadczyć o tym, że opisana para jest
w trakcie randki.
Warto zauważyć, że im częściej lub więcej razy zaobserwujemy u danej oso-
by zachowania wskazujące na posiadanie danej cechy, tym bardziej będziemy
skłonni przypisywać jej tę cechę. Tak więc z dość dużą łatwością uznamy, że Jaś
cechuje się wysokim poziomem inteligencji, jeśli zaobserwujemy, że potrafi on
nie tylko szybko i poprawnie rozwiązywać zadania matematyczne, lecz także
obserwowaliśmy to wielokrotnie w trakcie lekcji, a co więcej Jaś łatwo przyswa-
ja sobie nową wiedzę oraz posługuje się bogatym słownictwem. Dużo trudniej
byłoby przypisać Jasiowi wysoką inteligencję, gdybyśmy jednorazowo zaobser-
wowali poprawne rozwiązanie zadania przez Jasia.
Wcześniej powiedziano, że pomiar psychologiczny polega na przyporządko-
waniu liczb osobom badanym. Z omówionego przykładu widać, że w psycho- 59
Krzysztof Fronczyk

metrii przyporządkowanie to polega na zliczaniu poszczególnych wskaźników


danej cechy. Im więcej wskaźników danej cechy można zaobserwować u osoby
badanej, tym wyższy poziom tej cechy.

ZIiczaniewsk:ąźnikóWd1tnej-właŚdwOścipsychiczł1ejjest]ej-mierz~niem{Sta()howsld; .
2008).

Podsumowując wszystko to co do tej pory zostało napisane o wskaźnikach,


można stwierdziĆ; że im więcej bierze się pod uwagę różnych wskaźników, tym
lepiej można wnioskować o właściwościach psychicznych. Pojedyncze wskaź­
niki są bowiem niejednoznaczne, gdyż mogą oznaczać wiele właściwości psy-
chicznych. Z tego powodu testy psychologiczne zbudowane są z wielu wskaźni­
ków, z których każdy tworzy odrębną pozycję testową.
Uwzględnienie w teście więcej niż jednego wskaźnika nie oznacza, że w celu
zdiagnozowania danej właściwości psychicznej konieczne jest zaobserwowanie
u konkretnej osoby wszystkich wskaźników. W. przypadku różnych badanych
występują oczywiście różne wskaźniki spośród wszystkich wskaźników zawar-
tych w danym teście. Im więcej występuje w przypadku danej osoby wskaźników
pewnej właściwości psychicznej, tym wyższy poziom tej właściwości psychicz~
nej dana osoba posiada. Suma wskaźników występujących w przypadku każdej
osoby badanej, czyli suma wyników poszczególnych pozycji testowych, jest wy-
nikiem ogólnym testu.

Wynik tesIą jest uogólnieniempozycjftesto~ych. OperacrJnię jest


punktów uzyskanych w poszczególnych pozycjach-testowych~

Niejednoznaczność zachowatl traktowanych w testach jak wskaźniki cech lub


stanów jest jedną z przyczyn, dla której testy psychologiczne składają się z dużej
liczby pozycji testowych. Inną przyczyną jest to, że odpowiedzi na pojedyncze
pozycje testowe mogą być przypadkowe. Wprowadzenie wielu pozycji pozwala
na ograniczenie (ale nie na pełną eliminację) losowości odpowiedzi przez to, że
wynik danego testu jest uogólnieniem wielu różnych wskaźników. Jeśli więc tyl-
ko w przypadku jednego z nich uzyskano wynik przypadkowy, to nie wpłynie on
w tak istotny sposób na wynik ogólny składający się z wielu pozycji testowych,
w porównaniu do testu składającego się z bardzo małej liczby pozycji np. jednej
czy dwóch.
Testy składają się z wielu pozycji testowych także dlatego, że większa ich licz-
ba umożliwia precyzyjniejsze różnicowanie badanych między sobą. Gdyby pe-
wien test składał się tylko zjednej pozycji testowej o formacie odpowiedzi "tak"
i "nie", to badani zostaliby podzieleni jedynie na dwie grupy. Nie chodzi jednak
tylko o pokategoryzowanie ludzi, np. na dwie grupy ekstrawertyków i intrower-
60 tyków, gdyż cechom latentnym, do pomiaru których stosuje się testy, przysługuje
3. Co to jest pomiar psychologiczny?

ilościowy charakter. Rzeczywistość psychologiczna jest bowiem dość złożona


i wyodrębnianie prostych kategorii ludzi nie opisuje jej w sposób wystarczający.
Testy mają służyć precyzyjnemu różnicowaniu badanych, odzwierciedlającemu
tę złożoną rzeczywistość. Aby było to możliwie, test powinien posiadać wiele ka-
tegorii liczbowych. Zakłada się, że różnorodny poziom badanej cechy czy stanu
psychicznego powinien znajdować swoje odzwierciedlenie w zróżnicowanych
wynikach testowych (Zawadzki, 2006).

3.4. Pojęcie pomiaru różnicowego

Ostatnie zagadnienie, jakie zostanie omówione w niniejszym rozdziale, to pro-


blem układu odniesienia dla wyników testowych. Mówiąc o pomiarze, powie-
dzieliśmy, że polega on na przyporządkowywaniu liczb. Mając zliczoną liczbę
wskaźników dla danej osoby, nic wiemy nadal, o jak dużym nasileniu badanej
cechy ona świadczy. Musimy mieć więc jakiś punkt odniesienia, czyli wartość,
z którą będziemy mogli porównywać uzyskane wyniki.
Może wydawać się, że takim punktem odniesienia mógłby być maksymalny
wynik w teście. Skoro ktoś uzyskał maksymalny wynik, to być może ma maksy-
malny poziom badanej cechy. Dokładniejsza analiza skłaniajednak do stwierdze-
nia, że maksymalny wynik w danym teście nie musi odpowiadać maksymalnemu
nasileniu badanej cechy. Wyobraźmy sobie następujący przykład. W pewnym
teście inteligencji maksymalny wynik wynosi 50 punktów. W grupie tysiąca
studentów dziewięćset osób uzyskało wynik maksymalny. Czy oznacza to, że
te dziewięćset osób ma maksymalny możliwy poziom inteligencji? Oczywiście
tak być nie może. Z założenia o rozkładzie normalnym cech psychicznych, do
których należy również inteligencja, wiadomo bowiem, że osób bardzo inteli-
gentnych jest niewiele. Skoro tak dużo osób uzyskuje bardzo wysoki wynik, to
prawdopodobnie dany test jest raczej łatwy i dlatego tak dużo badanych osiągnę­
ło największy możliwy wynik. Oznacza to, że nie można zbyt dużo powiedzieć
o poziomie inteligencji badanych studentów, a jedynie o prawdopodobnej przy-
czynie osiągnięcia tak wysokich wyników, jakąjest łatwość testu.
Konieczne jest znalezienie jakiejś wartości, z którą można by porównywać
wyniki uzyskane przez poszczególne osoby badane. Wyżej opisany przykład
miał uzmysłowić, że maksymalny wynik w teście nie może pełnić takiej funk-
cji. Może więc wynik minimalny mógłby być wartością, z którą porównywałoby
się wartości uzyskane przez badanych? W takiej sytuacji należałoby zastanowić
się nad interpretacją następującego przykładu. Czy jeśli np. w teście inteligencji
badany nie rozwiąże żadnego zadania i tym samym osiągnie wynik równy zero,
to czy oznacza to, że osoba ta jest całkowicie pozbawiona inteligencji? Taka in-
terpretacja wydaje się absurdalna. Przecież każdy człowiek ma pewien poziom
inteligencji. Nawet jeśli weźmie się pod uwagę to, że istnieją ludzie o bardzo
niskim jej poziomie (osoby upośledzone), to nie istnieją ludzie, którym nie przy- 61
Krzysztof Fronczyk

sługiwałaby taka cecha. Mówi o tym nomotetyczne podejście do diagnozowania


ludzi zakładające, że istnieją uniwersalne cechy (do których należy inteligencja)
opisujące wszystkich ludzi. W omówionym przykładzie wynik zero oznacza tyle,
że w przypadku osoby, która osiągnęła taki wynik, test okazał się zbyt trudny.
Gdyby ta sama osoba rozwiązywała jakiś łatwiejszy test, prawdopodobnie uzy-
skałaby wynik niezerowy.
Jak więc widać, porównywanie wyników osób badanych zarówno z wynikiem
maksymalnym, jak i z wynikiem minimalnym w danym teście, nie ma sensu.
W psychologii przyjęto, że wartością, z jaką się porównuje wyniki poszczegól-
nych badanych jest średnia rozkładu wyników danego testu. Tak więc pomiar
psychologiczny dokonywany jest na skali co najwyżej przedziałowej. Nie ma
tu bowiem zera absolutnego, czyli wartości oznaczającej brak cechy. Miarą na-
silenia cechy u danej jednostki jest różnica między uzyskanym przez nią wy-
nikiem a średnią rozkładu wyników badanej populacji. Zwykle różnica ta
wyrażana jest w jednostkach odchylenia standardowego.

POfi1ią~pOlęgającyna.p~ró)YIlYWanill·· \)'art9ścfu~skaneJptl\ei·•. dan~o~~bę'i:war,


tościąśrędnią (czytęż;Z\Va:r1;Q~9iaLllipfzypisanymi .il}ńymb~<,ial1ym)p.azYYr~n)(j~st
pomiarl'lm różnic9wym. '

Pomiar psychologiczny nie ma więc charakteru bezwzględnego, a jedynie


względny, oznaczający porównywania wyniku konkretnej osoby badanej ze śred­
nią populacji. Sam pojedynczy wynik osoby badanej bez odniesienia go do śred­
niej populacji nie ma żadnego znaczenia.
Aby lepiej zrozumieć, na czym polega specyfika pomiaru w psychometrii, war-
to rozpatrzyć następujący przykład. Jan właśnie rozpoczął pracę w pewnej firmie.
Po pierwszym miesiącu pracy zarobił 2000 złotych. Ponieważ jest to pierwsza
praca Jana, więc są to po raz pierwszy zarobione przez Jana pieniądze. Z pie-
niędzy tych Jan musi się utrzymać w ciągu kolejnego miesiąca. Po kilku dniach
okazało się, że Janowi pozostało już tylko 1000 zł. Można więc powiedzieć, że
Jan ma obecnie o 1000 zł mniej. Można także stwierdzić, że ma dwa razy mniej
pieniędzy niż na początku miesiąca. W ciągu kolejnych kilkunastu dni Jan wydał
pozostałą mu kwotę. Okazało się, że na pięć dni przed końcem miesiąca Janowi
pozostała jedna złotówka. W chwili obecnej ma on 2000 razy mniej pieniędzy
niż na początku miesiąca i o 1999 zł mniej niż na początku. Wracając do domu,
Jan zgubił pozostałą mu złotówkę, a więc pozostało mu O zł czyli Jan nie ma już
pieniędzy. W przypadku pieniędzy możliwe jest porównywanie różnych kwot
zarówno ze względu na to, o ile złotych się one różnią, jak i ile razy się róż­
nią. Możliwe jest więc przeprowadzanie operacji dodawania i odejmowania oraz
mnożenia i dzielenia. Ponadto istnieje tzw. zero absolutne, czyli taka wartość,
62 poniżej której nie można już mieć żadnych pieniędzy.
3. Co to jest pomiar psychologiczny?

Inaczej wygląda mierzenie właściwości psychicznych. W przypadku pienię­


dzy jednostki są równe, a więc np. różnica między 10 zł a 11 zł jest taka sama
jak między 1000 zł a 1001 zł. W przypadku punków zliczonych z jakiegoś testu
psychologicznego tak być nie musi. Poszczególne pozycje testowe w niejedna-
kowy sposób mierzą badaną cechę. Jedne z nich są lepszymi wskaźnikami, a inne
gorszymi. Nie istnieje też naturalny punkt zerowy, jak w przypadku pieniędzy.

3.5. Kwestie problemowe pomiaru psychometrycznego


Jak już wspomniano, w psychometrii nie ma pewności, czy liczby uzyskane
w trakcie pomiaru rzeczywiście odzwierciedlają relacje zachodzące pomiędzy
wartościami badanej cechy. Aby jakikolwiek pomiar miał sens, konieczne jest
jednak przyjęcie założenia o tym, że rzeczywiście odzwierciedla on badaną ce-
chę. Warto jednak zdawać sobie sprawę z przyczyn trudności przyjęcia takiego
założenia.
Główny problem dotyczy odzwierciedlenia relacji między wartościami bada-
nej cechy przez liczby przypisane w procesie pomiaru. Wyniki poszczególnych
osób badanych porównuje się ze średnią, a ostateczny rezultat testu wyraża jako
odległość od średniej w jednostkach odchylenia standardowego. Przyjmuje się
przy tym założenie, że odchylenie standardowe jest jednostką odpowiadającą
równym przyrostom latentnej zmiennej psychologicznej, czyli, że zachowane są
relacje pomiędzy wartościami zmiemlej latetnej a liczbami przyporządkowanymi
w trakcie pomiaru. Nie ma jednak dowodu, że w ten sposób otrzymuje się ska-
le przedziałowe, czyli składające się z równych jednostek. Zwykle bowiem nie
można wykazać normalności rózkładu w populacji. Przyjmowanie normalności
rozkładu jest jedynie założeniem, a nie udowodnioną prawidłowością. Trudność
ta wynika z dwóch powodów. Po pierwsze, wykazanie normalności rozkładu
w populacji oznaczałoby konieczność przebadania całej populacji, a to jest nie-
możliwe. Zawsze w każdym badaniu badacz ma do czynienia jedynie z pewną
próbą osób. Rozkład normalny w próbie pewnej zmiennej nie oznacza, że w po-
pulacji ma ona również rozkład normalny. Po drugie, wykazanie, że dana ce-
cha ma rozkład normalny w populacji wymagałoby posiadania innego narzędzia
pomiarowego. Jego konstrukcja napotkałaby takie same trudności, jak obecnie
opisywany problem równości jednostek pomiaru.
Głębszą trudnością jest to, że nie wiadomo, czy zachodzi jednoznaczne przy-
porządkowanie między zmienną psychologiczną a określoną skalą wyników
testowych. Cecha ludzka stanowi zmienną niezależnie od jednostek, w jakich
wyrażone są wyniki jej pomiaru. Nie ma pewności, że różnica jednej poprawnej
odpowiedzi,jako wyraz przyrostu zmiennej psychologicznej, na obszarze całej
skali ma tę samą wartość. Nie ma też pewności, że jednostka odchylenia stan-
dardowego w różnych częściach krzywej normalnej odpowiada takim samym
przyrostom zmiemlej psychologicznej. 63
Krzysztof Fronczyk

Aby określić, czy jakiś zbiór jednostek na skali testowej odpowiada 'równo-
miernym jednostkom na kontinuum odpowiedniej zmiennej psychologicznej,
należałoby ustalić istotę funkcjonalnego związku między nimi. Aby poznać ten
związek, trzeba by posiadać jakąś niezależną miarę zmiennej psychologicznej
(Guilford i Comrey, 1961).

Pytania sprawdzające

1. Co to jest cecha latentna?


2. Jakie czynniki utrudniają pomiar w psychologii?
3. Co to jest pomiar różnicowy?
4. Dlaczego podejście idiograficzne nie znajduje zastosowania w psychometrii?
5. Podaj przykładowe wskaźniki zdolności werbalnych, zdolności muzycznych,
pamięci operacyjnej, poczucia kontroli, autorytaryzmu, towarzyskości.
6. Czy każdy z wymienionych przez Ciebie w punkcie 5. wskaźników może
zostać użyty w kwestionariuszu lub teście?
7. Jakie założenia przyjmuje się, aby możliwe było mierzenie cech psychicz-
nych?
8. Jak wyjaśniłbyś, czym jest wskaźnik?
9. Na czym polegają różnice miedzy podejściem nomotetycznym a idiograficz-
nym?

64
4. KLASYCZNA TEORIA RZETELNOŚCI TESTÓW'

Andrzej Rynkiewicz
WYDZIAŁ PSYCHOLOGII
UNIWERSYTET WARSZAWSKI

Rzetelność to parametr każdego narzędzia pomiarowego, określający względ­


ną wielkość popełnianych błędów, czyli dokładność pomiaru. Istnieją narzę­
dzia o stosunkowo dużej dokładności oraz takie, których stosowanie wiąże się
ze znacznym błędem. Testy psychologiczne należą raczej do tej drugiej grupy.
O ile w przypadku typowych narzędzi służących do pomiaru wielkości fizycz-
nych zagadnienie rzetelności można czasem pominąć (bo rzetelność jest bardzo
duża), o tyle użytkownik testu psychologicznego na taki luksus sobie pozwolić
nie może. Z tego względu pojęcie rzetelności testu jest jednym z ważniejszych
zagadnień w psychometrii.
Do tej pory najczęściej brana pod uwagę operacjonalizacja pojęcia rzetelności
testów jest konsekwencją założell klasycznej teorii Harolda Gulliksena. Mimo
swojego wieku, teoria ta nie jest przestarzała, bo wciąż wiele nowo powstających
technik psychometrycznych w mniejszym lub większym stopniu tworzonych jest
na podstawie teorii Gulliksena.
Klasyczna teoria rzetelności testów jest modelem matematycznym. Jak każdy
model, została sformułowana na fundamencie pewnych podstawowych założeń,
tzw. aksjomatów. Aksjomaty to zdania, które w obrębie danej teorii uznaje się
zawsze za prawdziwe. Zatem aksjomaty nie podlegają weryfikacji. To na ich pod-
stawie weryfikuje się kolejne twierdzenia teorii. Zwykle więc aksjomaty dotyczą
zjawisk o charakterze czysto teoretycznym (np. definicja punktu w geometrii),
bo tylko takich zjawisk nie da się sprawdzić empirycznie. Czasami jednak przy
pomocy aksjomatów charakteryzuje się również pewne obszary rzeczywistości.
Robi się tak wtedy, gdy są to obszary trudne lub niemożliwe do bezpośredniego
zbadania. Poprzez aksjomaty nadaje się im modelowy, czyli matematyczny, cha-
rakter (np. normalny rozkład cech psychicznych), który, jak można się domyślać,
nieco upraszcza rzeczywisty obraz zjawiska. Bezpośredni zysk, jaki płynie z za-
stosowania aksjomatów to możliwość opisu rzeczywistości przy pomocy bardzo
użytecznych modeli matematycznych. Właściwości takiego modelowego świata
(czyli np. cechy psychiczne opisujące ludzi) nazywane są zmiennymi, a ich cha-
rakterystyczne wartości to parametry.

I Praca nad rozdziałem była finansowana ze ,5rodków na badania statutowe WYdziału Psychologii
UW w 2008 roku. 65
Andrzej Rynkiewicz

Założenia sformułowane przez Gulliksena zostały częściowo przejęte z teorii


pomiaru wielkości fizycznych. Prawie wszystkie dotyczą pojęcia błędu pomiaru
i tzw. wyniku prawdziwego.

4.1. Wynik prawdziwy i błąd pomiaru


Gdy planowany jest pomiar natężenia jakiejś właściwości psychicznej, zakła­
da się, że natężenie to jest dla osoby stabilne - przynajmniej w krótkim okresie
czasu. Założenie to nie dotyczy wyłącznie cech psychicznych, których poziom
wykazuje względną stałość nawet w dość długim czasie, ale także wszelkich wła­
ściwości, które są niezmienne co najmniej przez krótki okres wystarczający na
dokonanie pomiaru. Opisywana tu teoria charakteryzuje więc również pomia-
ry takich właściwości psychicznych, które określamy jako stany - właściwości
z definicji zmielU1e w czasie i zależne od sytuacji. W dalszej części rozdziału dla
uproszczenia zdań będę jednak sukcesywnie używał słowa cecha na określenie
przedmiotu pomiaru testem psychologicznym.
Diagnoza testowa ma na celu określenie rzeczywistego nasilenia cechy.
Psychometrycznym wskaźnikiem tego nasilenia jest wynik w adekwatnym teście
psychologicznym. Gdyby istniał idealny test, czyli taki, który nie popehlia błędu,
to wynik pomiaru wskazywałby dokładnie na prawdziwe nasilenie cechy. Taki
wynik nieobciążony błędem nazywa się wynikiem prawdziwym.
66
4. Klasyczna teoria rzetelności testów

Wynik prawdziwy - wynik hipotetycznego pomiaru, wskazujący na rzeczywiste na-


tężenie właściwości danego obiektu. (np. nasilenie cechy u człowieka). Wynik praw-
dziwy uzyskalibyśmy, stosując idealnie dokładne narzędzie pomiarowe. Jest on więc
bezpośrednio związany z zastosowanym narzędziem, a więc ma jednostkę charakte-
ryzującą to narzędzie. Gdybyśmy do pomiaru tejsari1ej właściwości zastosowali inne
narzędzie, o innej jednostce, to charakteryzowałby je inny wynik prawdziwy.
Wynik otrzymany - wynik faktycznego pomiaru, który moze być obciążony błę­
dem.

W rzeczywistości jednak idealne narzędzia pomiarowe nie istnieją, a wynik


w teście psychologicznym raczej nie jest wynikiem prawdziwym. Jest to tzw.
wynik otrzymany. Przyjmuje się, że wynik otrzymany może być obciążony błę­
dem pomiaru, a więc wynik otrzymany jest sumą wyniku prawdziwego i błę­
du pomiaru. Ta podstawowa dla teorii pomiaru zależność została przedstawiona
w równaniu 1.

X=T+E (J)

Charakterystyka błędu pomiaru to jedno z najważniejszych zadań teorii


Gulliksena i w ogóle teorii pomiaru. Z równania 1. wynika, że błąd pomiaru to
po prostu różnica pomiędzy wynikiem otrzymanym a wynikiem prawdziwym.
Zostało to matematycznie zapisane w równaniu 2.

E=X-T (2)

Wykonując pomiar, badacz chce poznać wynik prawdziwy. Jest to jednak nie-
wykonalne, bo żadne narzędzie pomiarowe nie jest idealnie dokładne. Narzędzie
pomiarowe zwykle pokaże więc wynik mniej lub bardziej odległy od wyniku
prawdziwego. Ta różnica to właśnie błąd pomiaru (rys. 4.1.).
Błąd pomiaru może być dodatni, gdy wynik otrzymany jest wyższy od praw-
dziwego, lub ujemny, gdy wynik otrzymany jest niższy od prawdziwego. Błąd
pomiaru może też być znaczny, gdy wynik otrzymany jest bardzo oddalony od
wyniku prawdziwego, lub nieznaczny, gdy ta odległość jest mała. Może się też
zdarzyć, że w konkretnym pomiarze nie będzie błędu (błąd pomiaru będzie rów-
ny zero), ale diagnosta nigdy nie będzie tego wiedział, bo najważniejszą cechą
błędu pomiaru jest jego nieprzewidywalność.

67
Andrzej Rynkiewicz

T
wynik prawdziwy i błędy
(niedostępne dla diagnosty)

x
wyniki otrzymane
(dostępne dla diagnosty)

Rysunek 4.1. Hipotetyczny wynik prawdziwy osoby (T) oraz przykładowe wyniki otrzyma-
ne tej osoby z trzech badań tym samym testem (X j , X2 , X 3 ) i błędy pomiaru (Ej, E2 , E3 ).
Błąd pomiaru dla wyniku X2 (E 2 =
X2 - T) wynosi zero

Błędy pomiaru można ogólnie podzielić na systematyczne i losowe. Błąd sys-


tematyczny bierze się zwykle z oddziaływania pojedynczego, ale za to bardzo
znaczącego czynnika zakłócającego. Może on powodować np. równomierne
zmniejszanie się wyników pomiaru u wszystkich osób badanych. Takim czynni-
kiem może być np. złej jakości druk w teście szybkości. Jeśli będzie to utrudniało
odczytywanie pozycji testowych, to osoby będą uzyskiwały systematycznie niż­
sze wyniki otrzymane od innych osób, które wykonują ten sam test wydrukowa-
ny staranniej. Będzie to oczywiście efekt błędu pomiaru, bo jakość druku nie ma
wpływu na rzeczywiste natężenie cechy.
W kontekście rzetelności testów psychologicznych systematyczny błąd po-
miaru ma znaczenie tylko wtedy, gdy jest efektem naruszenia standardowej pro-
cedury badania. W innej sytuacji, gdy standardowa procedura jest zachowana
i wszystkie osoby badane wykonują test pod wpływem tego samego CZylmika za-
kłócającego (np. wszystkie osoby wypełniają test wydrukowany w ten sam spo-
sób), wtedy błąd systematyczny jest nieistotny. Wynika to z faktu, że jak na razie
pomiar psychologiczny to pomiar na skali najwyżej przedziałowej i nie są ważne
bezwzględne wyniki tylko odległości między nimi. W przypadku błędu syste-
matycznego wyniki wszystkich osób przesuną się na skali o tę sama wartość, ale
różnice między nimi pozostaną bez zmian. Warto jednak wspomnieć, że czynniki
powodujące błąd systematyczny mogą wpływać na obniżenie trafności testu, np.
wynik testu zdolności wydrukowanego niestarannie będzie w większym stopniu
zależał od sprawności wzrokowej.
Dużo ważniejszy w teorii rzetelności jest błąd losowy. Ogólnie można powie-
dzieć, że jest to błąd nieprzewidywalny, a więc diagnosta nigdy nie wie, czy błąd
się pojawi oraz jaki będzie miał znak i jaką wielkość. Jest to błąd z założenia nie-
zależny od niczego - od testu, od osoby badanej i od warunków badania. Innymi
słowy, losowy błąd pomiaru może się pojawić zawsze i może mieć jakąkolwiek
wartość.
Losowość błędu pomiaru jest teoretycznym założeniem. W rzeczywistości
68 błąd ten jest naj prawdopodobniej konsekwencją oddziaływania olbrzymiej licz-
4. Klasyczna teoria rzetelności teslów

by czynników zakłócających. Każdy z nich powoduje nieznaczne zniekształ­


cenie pomiaru, ale wszystkie razem dają efekt, którego nie można zignorować.
Te czynniki, to np. warunki fizyczne badania (oświetlenie, poziom hałasu itp.),
meteorologiczne (ciśnienie atmosferyczne, poziom nasłonecznienia), stan osoby
badanej (nastrój, poziom zmęczenia, chęć do współpracy), cechy diagnosty (płeć,
nastawienie), jakość papieru, na którym został wydrukowany test, jakość pisaka
itp. Czynników tychjest bardzo dużo i prawdopodobnie tylko część można ziden-
tyfikować, a jeszcze mniej można kontrolować. Zwykle jest to jednak nieopłacal­
ne, bo wyeliminowanie jednego czynnika zakłócającego pomiar może znacznie
skomplikować procedurę badania, a tylko odrobinę podnieść jego dokładność.
Uśredniony wpływ dużej liczby nielosowych czynników zakłócających jest nie-
przewidywalny i dlatego daje w efekcie błąd uznawany za losowy.

Systematyczny błądp9miaru"- błąd, który zawszel11ataką sal11ąwartóśćalbó jego


",art()Śó jest, proporcjonalna, do ,siły, oddziaływania. czynnika ,zakłócającego
pomiar.
\V,psycholl1etrii~en rodzajbłędu ma zWykle znikome znaczenie; bopowodtlje równo-
l:gł~pr:esunięciewyników wszystkich?sób .•
Losowy błąd pomiaru ~'. błąd; któregowal'tość i :znak nie są:znane, Jest to.błądnie"
przeWidywaloy, przypadkowy.

4.2. Podstawowe założenia klasycznej teorii rzetelności testów


Właściwic założenia te definiują losowy charakter błędu pomiaru. Losowość
w tym przypadku oznacza niezależność od rodzaju narzędzia pomiarowego, od
osoby badanej i od właściwości sytuacji diagnostycznej. Ten ostatni czynnik
obejmuje również osobę diagnosty i jego zachowanie podczas badania. Dalej
dokładniej przedstawię te założenia oraz ich implikacje.

Założenie 1.: Średnia arytmetyczna nieskończenie wielu błędów losowych wynosi


zero.
Założenie to infonnuje nas o nieprzewidywalnym charakterze błędów pomia-
ru. Gdyby można było przeprowadzić nieskończenie wiele badań testem, to błędy
uzyskane w tych badaniach mogłyby być albo dodatnie, albo ujemne. Jedne z nich
byłyby znaczne, gdy wynik otrzymany ulokowałby się daleko od prawdziwego,
a inne nieznaczne. Przy nieskończenie wielu pomiarach waga błędów dodatnich,
a więc takich, gdy wynik otrzymany jest wyższy od prawdziwego, oraz błędów
ujemnych, gdy wynik otrzymany jest niższy od prawdziwego, byłaby taka sama.
Z racji różnych znaków suma błędów, a więc również ich średnia, wyniosłaby
zero. Byłoby tak niezależnie od tego, czy pomiarów dokonano tym samym tc-
69
Andrzej Rynkiewicz

stem czy różnymi. Znaczenia też nie miałoby to, czy wyniki pochodziłyby od
jednej osoby czy od różnych osób.
Najprościej matematycznie można to założenie zapisać jako wartość parame-
tru średniej rozkładu nieskOllczenie wielu błędów pomiaru (równanie 3).

(3)

Jednak równanie 3 podkreśla tylko teoretyczną wartość średniej błędów, która


w warunkach praktycznych może zostać jedynie oszacowana. Z pewnych wzglę­
dów warto tutaj podkreślić właściwości graniczne tego założenia (równanie 4).

lim
n~OC)
LE
n
=0 (4)

Można wtedy to założenie odczytać w sposób następujący: średnia arytme-


tyczna losowych błędów pomiaru zmierza do zera wraz ze wzrostem liczby po-
miarów. Z równania 4 wynika więc, że im więcej pomiarów zostanie wykona-
nych, tym bliższa zeru będzie średnia arytmetyczna błędów.
Z założenia tego bezpośrednio wynika bardzo korzystna dla badaczy konklu-
zja. Wcześniej w równaniu l zostało zapisane, że wynik otrzymany jest sumą
wyniku prawdziwego i błędu. Stąd można stwierdzić, że średnia wyników otrzy-
manych przez grupę osób musi być równa sumie średniej wyników prawdziwych
tych osób i średniej błędów (równanie 5).

(5)

To równanie można zapisać nie tylko dla wszystkich osób z konkretnej próby,
ale także dla nieskończenie wielu osób z hipotetycznej populacji (równanie 6).

11 X == IlT + 11 E (6)

I dalej, wiedząc, że średnia nieskończenie wielu błędów losowych wynosi zero


(równanie 3) można wykreślić ostatni składnik równania 6. Zatem średnia nie-
sk011czenie wielu wyników otrzymanych będzie równa średniej nieskończenie
wielu wyników prawdziwych (równanie 7), a posługując się pojęciem granicy
i równaniem 4 można ten wniosek sformułować nieco inaczej: im więcej wy-
70
4. Klasyczna teoria rzetelności testów

ników otrzymanych, tym bardziej średnia z nich będzie zbliżała się do średniej
wyników prawdziwych (równanie 8).

(7)

lim
n~CI)
LX =!!T
n
(8)

Założenie to uzasadnia więc powszechnie znane wśród badaczy zalecenie doty-


czące wielkości prób. Im większe będą próby osób biorących udział w badaniach,
tym mniejszym błędem pomiaru obciążone będą średnie wyników otrzymanych
z zastosowanych testów. Ta konkluzja dotyczy wyłącznie średniej, a nie pojedyn-
czego wyniku, ponieważ pojedynczy wynik otrzymany będzie obciążony błędem
tak samo nieprzewidywalnym w pomiarze pierwszym, jak i każdym kolejnym.

Założenie 2.: Nie ma związku pomiędzy błędami pomiaru a wynikami


prawdziwymi.
Wynik prawdziwy to taki wynik w teście, który bezbłędnie wskazuje na rze-
czywiste nasilenie cechy u osoby badanej. Jeśli więc błędy pomiaru nie zależą
od wyników prawdziwych, to nie zależą również od rzeczywistego nasilenia ce-
chy. Zatem założenie to definiuje błąd losowy jako niezwiązany z osobą badaną.
U osób z wysokim poziomem mierzonej cechy błąd jest tak samo nieprzewi-
dywalny, jak u osób z nasileniem przeciętnym, czy niskim. Oznacza to, że dla
dowolnego nasilenia mierzonej cechy błąd pomiaru może przyjąć dowolną war-
tość.
Matematycznie założenie to można zapisać jako teoretyczną korelację między
dwiema zmiemlymi: wynikiem prawdziwym i wynikiem otrzymanym (równanie
9). Korelację taką można by wyznaczyć, gdyby tym samym testem zbadać nie-
skOl1czenie wielką populacje osób. Rezultatem takiej hipotetycznej operacji był­
by nieskończenie wielki zbiór wyników prawdziwych tych osób oraz tak samo
duży zbiór wyników otrzymanych.

PTE =0 (9)

Z założenia 2. wynika ważny dla klasycznej teorii rzetelności wniosek. Aby go


przedstawić, zacząć należy od znanej formuły, pozwalającej wyznaczyć warian-
cję zmiennej A stanowiącej sumę dwóch innych zmiennych B i C (A=B+C). Na
przykład, jeśli grupa osób wypełnia test składający się tylko z dwóch pozycji, to 71
Andrzej Rynkiewicz

rezultatem takiego badania będzie zbiór odpowiedzi na pozycję pierwszą, zbiór


odpowiedzi na pozycję drugą oraz zbiór wyników całkowitych, czyli sum wyni-
ków z pozycji pierwszej i drugiej. Każdy z tych zbiorów będzie miał prawdopo-
dobnie nieco inną wariancję. Największą z nich będzie wariancja w zbiorze wy-
ników całkowitych, bo wariancja ta to suma wariancji w każdej z dwóch pozycji
powiększona jeszcze dodatkowo o pewien składnik. Ten składnik to specyficzny
rodzaj wariancji, która wynika z korelacji między pozycją pierwszą i drugą. Jest
to tak zwana kowariancja .

.···l(o~ąri~~cJ~tQiMrięlk~Ś9:wari~~cjii~~Ógb~iennYcą,.'Y'YhiiaJąĆ~.• ikQręlacji .mIę~


ctzy lł~mi,N?J'pfO~i.)i~J qefiniuj ęą~ęją'pQpr:łezi\oc~ynkQrelflcjid\yóch zmi\;mnychii~h
odchyletl~tand~ągWYrl1COV(X 1y):;;pxy~ SCr y..Jeślipomięqźy zmięnnYl11i nie .me.
związk:ti\;toicl1kq~~tj!incjądest rąwna.Zerq. " .
.'i" i. ii.i.:"'iiii·...i i. '(' ··ii'., ,i"i.i.i.i··· . . i . ' . · "
Licząc całkowitą wariancję wyniku testowego, będącego sumą odpowiedzi na
dwie pozycje, należy uwzględnić wariancję w pozycji pierwszej, wariancję w po-
zycji drugiej, oraz podwojoną kowariancję między nimi (równanie 10).

(lO)

W analogiczny sposób można sobie wyobrazić wariancję wyników otrzyma-


nych z badania nieskończenie wielkiej populacji osób. Wiadomo, żc każdy wynik
otrzymany jest sumą wyniku prawdziwego i błędu (równanie l). Zatem warian-
cja wyników otrzymanych to wariancja sum wyników prawdziwych i błędów.
Według schematu opisanego powyżej, taką wariancję należy rozumieć jako sumę
wariancji wyników prawdziwych, wariancji wyników otrzymanych i podwojonej
kowariancji między nimi (równanie 11).

ax
2 2
=a r+E =ar2 + a E2 + 2 PrE a TaE (11)

W równaniu 11 cały ostatni składnik sumy wynosi O, bo zgodnie z założeniem


2 i równaniem 9 korelacja między błędami pomiaru a wynikami prawdziwymi
wynosi zero. A więc, jak to zapisano w równaniu 12, wariancja wyników otrzy-
manychjest równa po prostu sumie wariancji wyników prawdziwych i wariancji
błędów.

(12)

72
4. Klasyczna teoria rzetelności testów

Równanie 12 opisuje zależność, która jest bardzo ważna w dyskusji nad ogól-
nym pojęciem rzetelności testu. Powrócę więc do niego w jednym z kolejnych
rozdziałów.

Założenie 3.: Nie ma związku pomiędzy błędami pomiaru.


Założenie to brzmi może trochę lakonicznie, ale chodzi w nim o to, że jeśli
w jakikolwiek sposób moglibyśmy uzyskać dwa nieskończenie wielkie zbiory
błędów pomiaru, to nie wystąpi pomiędzy nimi żadna zgodność. Nie ma znacze-
nia, w jaki sposób te dwa zbiory powstaną. Mogą to być błędy z hipotetycznych
pomiarów dla tej samej osoby lub różnych osób, błędy przy zastosowaniu jed-
nego testu lub dwóch testów, lub nawet za każdym razem innego testu. Zatem
nigdy dwa zbiory błędów nie będą skorelowane. Każde dwa błędy pomiaru będą
niezależne, ponieważ są losowe. Jest to kolejne założenie podkreślające nieprze-
widywalny charakter błędu pomiaru.
Matematyczny zapis tego założenia przedstawiony został w równaniu 13.

PEl E 2 =O (13)

Formułując wnioski wynikające z tego założenia, trzeba wrócić do opisanego


wcześniej schematu wyznaczania wariancji zmiennej, będącej sumą dwóch in-
nych zmiennych (równanie 10). Tym razem chodzi o sumę dwóch błędów pomia-
ru. Sposób obliczenia wariancji dla takiej sumy zapisany jest w równaniu 14.

2
CJ" EI+E2 = CJ" EJ2 + CJ"E22 + 2 PEJE2 CJ" EJCJ" E2 (14)

Po nieznacznych tylko modyfikacjach powstaje analogiczny wzór, służący do


wyznaczania wariancji dla różnicy dwóch błędów pomiaru (równanie 15).

2 2 2
CJ"EJ-EZ =CJ"EJ +CJ"E2 -
2P (15)
ElE2 CJ" EJ CJ"E2

Równania 14 i 15 można oczywiście uprościć, wymazując cały ich ostatni


składnik,czyli kowariancję. Będzie ona równa zero, bo jak wynika z równania
13 korelacja między dwoma różnymi błędami jest równa zero. Na tej podstawie
powstały równania 16 i 17.

2 2 2
CJ" EI+E2 = CJ"El + CJ" E2 (16)

73
Andrzej Rynkiewicz

2 2 2
(J' El-E2 = (J' EJ + (J' E2 (17)

Tak więc wariancja sumy oraz różnicy dwóch różnych błędów jest równa po
prostu sumie wariancji tych błędów. Te równania będą istotne przy rozważaniu
tzw. błędów standardowych.

4.3. Rozkłady wyników i błędów dla jednej osoby


Zwykle rezultatem diagnoz jest pojedynczy wynik otrzymany z badania kon-
kretnej osoby konkretnym testem. Czasem w badaniach o szerszym zakresie
pojawia się większa liczba wyników otrzymanych od różnych osób badanych
tym samym testem. Jednak żeby pojęcia wyniku prawdziwego i losowego błędu
pomiaru stały się zrozumiałe, trzeba wyobrazić sobie hipotetyczną sytuację, gdy
tym samym testem lub jego wersjami równoważnymi badana jest wielokrotnie
w sposób niezależny ta sama osoba. Dwa pomiary można uznać za niezależne,
gdy jeden z nich nie wpływa na wynik otrzymany z drugiego. Tak dzieje się dość
często przy ocenie wielkości fizycznych, np. dwa pomiary szerokości tej samej
stalowej kostki tą samą suwmiarką najprawdopodobniej będą w dużym stopniu
niezależne. Natomiast dwa pomiary nasilenia ekstrawersji u tej samej osoby wy-
konane tym samym testem raczej nie będą niezależne, bo osoba, przystępując
do drugiego pomiaru, będzie pamiętała swoje odpowiedzi z pierwszego, będzie
czuła się trochę bardziej znudzona czy zmęczona, będzie mogła przejawiać nieco
inny poziom motywacji do współpracy z diagnostą itp. Zatem wyobrażona sytu-
acja, w której wykonujemy wielokrotne niezależne pomiary nasilenia cechy u tej
samej osoby tym samym testem jest całkowicie teoretyczna i najprawdopodob-
niej nigdy nie będzie miała miejsca w realnych warunkach.
Wyniki otrzymane z wielu pomiarów tym samym testem realizowanych na tej
samej osobie najprawdopodobniej nie będą takie same. Przyjmuje się, że wynik
prawdziwy tej osoby nie zmienia się z pomiaru na pomiar, ale za każdym razem
różny może być błąd pomiaru. Wyniki otrzymane w takiej sytuacji będą więc
czasem wyższe od wyniku prawdziwego, a czasem niższe, czasem będą one od-
ległe od wyniku prawdziwego, a czasem będą leżały blisko niego lub nawet będą
mu równe. Gdyby wykonać takich pomiarów nieskończenie wiele, to uzyskane
z nich wyniki otrzymane utworzyłyby rozkład nonnalny (krzywa Gaussa) przed-
stawiony na rys. 4.2., część a). Średnia takiego rozkładu, czyli wartość, którą
wyniki otrzymane będą przyjmowały najczęściej, to wynik prawdziwy osoby.
Można więc powiedzieć, że wyniki otrzymane od tej samej osoby przy zastoso-
waniu tego samego testu będą oscylowały wokół wyniku prawdziwego tej osoby.
Pierwiastek z wariancji takiego rozkładu, a więc jego odchylenie standardowe, to
tzw. standardowy błąd pomiaru, o którym będzie jeszcze mowa.
74
4. Klasyczna teoria rzetelności lesIów

a)

E, El
, ,
I
'X, T
i !
:X
•X
1

b)

Rysunek 4.2. Rozkład nieskończenie wielu wyników otrzymanych (a) oraz błędów po-
miaru (b) z niezależnych pomiarów tym samym testem nasilenia cechy u tej samej osoby.
Średnia górnego rozkładu to wynik prawdziwy osoby (T). Średnia dolnego rozkładu wyno-
si zero. Odchylenie standardowe w obu rozkładach to standardowy błąd pomiaru (SEM).
Wartości X 1 i X 2 to przykładowe wyniki otrzymane, wybrane z nieskończenie wielu poten-
cjalnych wyników tej osoby. E1 i E2 to błędy pomiaru rozumiane jako różnice między X i T

Wynik· prawdziwy· - średnia wynikówotr:zymanych w nieskOl1c;zenie wielu nieza-


leżnyghpomiarach cechy określonynl testem u jednej osoby. Inaczej mówiąc, jest to
średnia\vs;zy~tkich potencjalnych wyników otrzymanych Qsoby przy pomiarze okre-
. śIonym tęstem. .

Część a) na rys. 4.2. przedstawia rozkład wyników otrzymanych od jednej oso-


by, na którym bardzo łatwo można odczytać wartości błędów pomiaru. Będą to
odległości konkretnych wyników otrzymanych od wyniku prawdziwego. Rozkład
z rys. 4.2. a) można więc potraktować jak rozkład względnych błędów (błędy
względem wyniku prawdziwego). Gdyby przesunąć cały ten rozkład równolegle,
tak żeby w miejscu średniej znajdowało się zero, powstałby rozkład bezwzględ­
nych błędów, a więc po prostu rozkład błędów pomiaru (rys. 4.2., część b)). Ten
nowy rozkład ma dokładnie taki sam kształt jak rozkład wyników otrzymanych
z rys. 4.2. a), ale różnią się one średnią. Średnia rozkładu nieskończenie wie-
lu losowych błędów pomiaru zawsze wynosi zero, a odchylenie standardowe to
standardowy błąd pomiaru. 75
Andrzej Rynkiewicz

4.4. Rozkłady wyników i błędów dla populacji


Druga grupa teoretycznych rozkładów wynikających z założeń klasycznej
teorii rzetelności dotyczy sytuacji, gdy tym samym testem badane są wszyst-
kie osoby z nieskończenie wielkiej populacji. Rozkłady te również da się opisać
przy użyciu funkcji Gaussa (rozkład normalny), ale będą one miały nieco inne
parametry niż opisywane wcześniej rozkłady dla jednej osoby. W tym przypad-
ku, oprócz rozkładu wyników otrzymanych i błędów, uwzględnić należy także
rozkład wyników prawdziwych. Gdy wykonywane są pomiary tym samym te-
stem na jednej osobie, nie ma rozkładu wyników prawdziwych, bo jedna osoba
ma tylko jeden wynik prawdziwy. Natomiast, gdy badanie dotyczy teoretycz-
nej populacji osób, to rozpatrujemy nieskończenie wiele wyników prawdziwych
(rys. 4.3., część b», których średnia charakteryzuje przeciętne nasilenie cechy
w tej populacji. Wariancja natomiast informuje nas o stopniu zróżnicowania osób
pod względem badanej cechy, a więc opisuje rzeczywiste różnice indywidualne.
Rozkład wyników otrzymanych od wszystkich osób z teoretycznej populacji
(rys. 4.3., część a» będzie miał średnią równą średniej wyników prawdziwych
tych osób, co wynika z założenia l klasycznej teorii rzetelności i zostało wcze-
śniej zapisane w równaniu 7. Wariancja takiego rozkładu jest zwykle większa od
wariancji w rozkładzie wyników prawdziwych, bo oprócz rzeczywistych róż­
nic indywidualnych w zakresie mierzonej właściwości obejmuje również zróż­
nicowanie losowe wprowadzane przez błąd pomiaru. Watro więc pamiętać, że
analizując zróżnicowanie międzyosobnicze na podstawie wyników otrzymanych
z testu ulegamy pewnemu złudzeniu, bo rzeczywiste zróżnicowanie w zakresie
mierzonej cechy jest zwykle nieco mniejsze. Jest to konsekwencja założenia 2
klasycznej teorii rzetelności, które zostało wcześniej zapisane w równaniu 12.
Wariancja rozkładu wyników otrzymanych (rys. 4.3., część a» jest sumą warian-
cji z dwóch pozostałych rozkładów - wyników prawdziwych (rys. 4.3., część b»
i błędów (rys. 4.3., część c».
Rozkład błędów pomiaru dla teoretycznej populacji osób będzie miał dokład­
nie taki sam kształt i parametry, jak rozkład nieskończonej liczby błędów pocho-
dzących z pomiaru tym samym testem nasilenia cechy u jakiejkolwiek pojedyn-
czej osoby. W klasycznej teorii rzetelności przyjmuje się, że nieskończenie wiele
losowych błędów pomiaru zawsze ma średnią arytmetyczną równą zero - opisuje
to równanie 3. Natomiast odchylenie standardowe takich błędów jest niezależne
od osoby czy od populacji, a zależne od narzędzia pomiarowego. Można więc
zakładać, że różne osoby badane tym samym testem będą miały taki sam rozkład
błędów, ale będzie on różny dla różnych testów. Tak więc rozkład błędów dla
populacji osób z rys. 4.3., część c) będzie dokładnie taki sam,jak rożkład błędów
dla pojedynczej osoby z rys. 4.2., część b).

76
4. Klasyczna teoria rzetelności testów

•x

b)

c)

Rysunek 4.3. Rozkłady wyników i błędów z pomiarów tym samym testem nasilenia cechy
u wszystkich osób z nieskończenie wielkiej populacji.
a) Rozkład wyników otrzymanych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi-
lenia cechy w populacji, a odchylenie standardowe informuje o wielkości obserwowa-
nych różnic indywidualnych.
b) Rozkład wyników prawdziwych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi-
lenia cechy w populacji, a odchylenie standardowe informuje o wielkości rzeczywistych
różnic indywidualnych.'
c) Rozkład losowych błędów pomiaru. Średnia rozkładu wynosi zero, a odchylenie stan-
dardowe to standardowy błąd pomiaru. Kształt i parametry tego rozkładu są dokładnie
takie same, jak w rozkładzie błędów dla jednej osoby przedstawionym na rys. 4.2.,
część b).

4.5. Teoretyczna definicja rzetelności testu


Rzetelność testu to pewna wielkość, która odzwierciedla dokładność pomia-
ru narzędziem. Im większa rzetelność, tym dokładniejszy pomiar. Gdy test jest
bardzo rzetelny (ma wysoką rzetelność), można się spodziewać, że zwykle wy-
77
Andrzej Rynkiewicz

niki otrzymane z pomiaru będą leżały bardzo blisko wyników prawdziwych. Nie
oznacza to jednak, że w konkretnym pomiarze błąd będzie mały, bo ma on losowy
charakter i teoretycznie może przyjąć każdą wartość. Nawet testy o bardzo wyso-
kiej rzetelności mogą od czasu do czasu wprowadzać duże błędy, jednak im wyż­
sza rzetelność testu, tym większe prawdopodobieństwo, że błąd w konkretnym
pomiarze będzie jednak stosunkowo mały. Jest to prawdopodobieństwo związane
z tzw. przedziałem ufności, o którym jest mowa w innej części tej książki (por.
rozdział 6.1.2.).
W klasycznej teorii testów rzetelność definiuje się jako proporcję wariancji
wyników prawdziwych do wariancji wyników otrzymanych od osób z nieskoń­
czenie wielkiej populacji (równanie 18).

er 2
P/ /_ T
--2 (18)
er x

Wariancja prawdziwa może być tu rozumiana jako odzwierciedlenie rzeczy-


wistego zróżnicowania mierzonej cechy w populacji. Wariancja otrzymana na-
tomiast może być traktowana jak wariancja całkowita obejmująca i wariancję
prawdziwą, i wariancję błędu (równanie 12), czyli wszystkie możliwe źródłazróż­
nicowania wyników pomiaru. Rzetelność oznacza zatem proporcję, jaką stanowią
rzeczywiste różnice indywidualne w obserwowanym zróżnicowaniu całkowitym
wyników testowych. Uzupełniająca wobec niej będzie proporcja zróżnicowania
wynikającego z błędu w obserwowanym zróżnicowaniu całkowitym. Jeśli pierw-
sza z nich będzie duża, druga będzie mała. Jeśli duża jest rzetelność testu, to zróż­
nicowanie całkowite wyników otrzymanych w znacznym stopniu spowodowane
będzie rzeczywistymi różnicami indywidualnymi, a w małym stopniu błędem
pomiaru. Proporcję wariancji błędów do wariancji otrzymanej nazwać można
"przeciwrzetelnością", bo im jest większa, tym mniej rzetelny test. Pozwala ona
sformułować alternatywną definicję rzetelności (równanie 19).

(19)

78
4. Klasyczna teoria rzetelności testów

Jeśli test jest idealnie dokładny, jego rzetelność wynosi l. Oznacza to, że cał­
kowite zróżnicowanie wyników pomiaru testem (mianownik równania 18) spo-
wodowane jest wyłącznie rzeczywistymi różnicami indywidualnymi w zakresie
mierzonej cechy (licznik równania 18). Tym samym zróżnicowanie wyników
spowodowane błędami całkowicie znika. W takim przypadku można też powie-
dzieć, że każdy wynik otrzymany jest równy prawdziwemu.
Jeśli test jest całkowicie niedokładny, jego rzetelność wynosi o. Wtedy ob-
serwowane zróżnicowanie wyników otrzymanych spowodowane jest wyłącznie
błędem pomiaru. W żadnym stopniu nie oddaje ono zróżnicowania pod wzglę­
dem mierzonej cechy. Pomiar takim testem można porównać do przypisywania
osobom liczb uzyskiwanych z rzutów kostką do gry, czyli wynik pomiaru byłby
całkowicie przypadkowy.
Jeśli test jest umiarkowanie dokładny, to jego rzetelność może wynosić np.
0,80. Oznacza to, że 80% całkowitego zróżnicowania wyników uzyskiwanych
przy pomiarze tym testem można wyjaśnić rzeczywistymi różnicami między
ludźmi, a 20% tego zróżnicowania spowodowane jest błędem pomiaru. Te pro-
porcje dotyczą wyłącznie wariancji i nieuzasadnione jest stwierdzenie, że 80%
wyników otrzymanych równe jest wynikom prawdziwym.
Z równania 18 wynika dość ważna praktyczna konkluzja. Rzetelność testu bę­
dzie większa w populacji o dużej wariancji wyników prawdziwych (populacja
heterogeniczna) niż w populacji o małej wariancji wyników prawdziwych (popu-
lacja homogeniczna). Jest tak dlatego, że zgodnie z założeniami teorii Gulliksena
te dwie populacje będą miały taką samą wariancję błędu. Wariancja błędu nie za-
leży od populacji. Zatem spadek wariancji wyników prawdziwych pociągnie za
sobą oczywiście spadek wariancji wyników otrzymanych, ale nieproporcjonalnie
mniejszy. W konsekwencji obniżenia wariancji wyników prawdziwych licznik
równania 18 zmniejszy się bardziej niż mianownik.
Jeszcze wyraźniej widać to na podstawie równania 19. W populacji o dużej
wariancji wyników prawdziwych (heterogenicznej) mianownik w równaniu (wa-
riancja wyników otrzymanych) będzie duży. W populacji homogenicznej ten
mianownik będzie mały. Natomiast w obu tych populacjach licznik (wariancja
błędu) pozostanie bez zmian. Tak więc rzetelność będzie większa w populacji he-
terogenicznej niż w populacji homogenicznej. Badacze i autorzy testów psycho-
logicznych powinni starać się więc o to, by próbki na podstawie których szacuje
się rzetelność były możliwie zróżnicowane.
Rzetelność testu empirycznie określa się na podstawie tzw. współczynnika
rzetelności (rit) opisywanego w innej części tej książki.

4.6. Korelacja wyników otrzymanych i prawdziwych


Sposób rozumienia rzetelności testu przedstawiony w poprzednim podrozdzia-
le bliski jest typowej definicji tzw. współczynnika determinacji. Pojęcie to w ana- 79
Andrzej Rynkiewicz

lizie regresji określa proporcję wariancji z jakichś względów ważnej do całkowi­


tej wariancji wyników. W kontekście rzetelności za wariancję ważną uznaje się
wariancję wyników prawdziwych, a za wariancję całkowitą wariancję wyników
otrzymanych. Rzetelność jest więc współczynnikiem determinacji dla wyników
prawdziwych i otrzymanych. Pierwiastek ze współczynnika determinacji pozwa-
la wyznaczyć korelację. Zatem pierwiastek z rzetelności testu daje korelację mię­
dzy wynikami prawdziwymi i otrzymanymi (równanie 20). Interpretacja takiej
korelacji powinna być jasna - im jest ona większa, im większa zgodność między
wynikami prawdziwymi i otrzymanymi, tym większa dokładność testu.
Czasami zastosowanie znajduje estymator omawianej tu korelacji oznaczany
symbolem rTX • Jest to tzw. wskaźnik rzetelności.

= fP: = ~
2

P TX -f.
Ux
(20)

4.7. Standardowy błąd pomiaru


Wariancja błędów jest jednym z ważniejszych pojęć w psychometrii.
Wspominałem wcześniej, że jest ona bezpośrednio związana z rzetelnością te-
stu - im większa rzetelność, tym mniejszy udział ma wariancja błędów w wa-
riancji wyników otrzymanych (wariancji całkowitej). Jeśli test jest rzetelny, to
wyniki otrzymane osób leżą zwykle dość blisko wyników prawdziwych. W takim
przypadku błędy pomiaru, rozumiane jako odległości wyników prawdziwych od
otrzymanych, są stosunkowo nieduże. Jeśli błędy są nieduże, oznacza to, że są
bliskie zeru, czyli średniej (równanie 3 - średnia niesk011czonej liczby błędów
wynosi zero). To z kolei oznacza, że błędy pomiaru przy wysokiej rzetelności
mają małą wariancję·
Jeśli rzetelność testu jest idealna, test jest bezbłędny. Wszystkie błędy pomiaru
są wtedy równe sobie i równe zero. W takich teoretycznych warunkach wariancja
błędów jest oczywiście równa zero, a rzetelność wynosząca jeden informuje nas
o tym, że całe zróżnicowanie wyników w teście to zróżnicowanie prawdziwe.
Jeśli rzetelność testu wynosi zero, oznacza to, że całe zróżnicowanie wyników
otrzymanych z badania testem jest spowodowane błędem pomiaru. W takiej hipo-
tetycznej sytuacji można powiedzieć, że wariancja błędów jest równa wariancji
wyników otrzymanych, a wyniki badania w żadnym stopniu nie odzwierciedlają
rzeczywistego nasilenia cechy.
Wariancję błędów bardzo łatwo zdefiniować za pomocą rzetelności i wariancji
otrzymanej z równania 19. Powstaje w ten sposób równanie 21.
80
4. Klasyczna teoria rzetelności testów

(21)

W pewnych warunkach łatwiej jest się posługiwać wielkością odchylenia stan-


dardowego niż wariancji - stąd równanie 22, które stanowi jednocześnie defini-
cję tzw. standardowego błędu pomiaru.

aE = a x ~1 - Pll (22)

Standardowy błąd pomiaru ma olbrzymie zastosowanie praktyczne np. przy


obliczaniu tzw. przedziałów ufności. Jego wartość empiryczną zwykle wyznacza
się na podstawie wartości odchylenia standardowego wyników i współczynnika
rzetelności, uzyskanych w próbie osób reprezentatywnej dla populacji, do bada-
nia której ma służyć test. Takie wartości zwykle zapisywane są w podręczniku do
każdego testu. Wzór służący do obliczania estymatora standardowego błędu po-
miaru został zapisany w równaniu 23. Często wielkość tę oznacza się jako SEM
(ang. standard errar afmeasurement).

(23)

Jednostką standardowego błędu pomiaru jcst naturalna jednostka wyników


otrzymanych w teście. Jeśli więc przedmiotem pomiaru jest inteligencja, a jed-
nostką są punkty ilorazu inteligencji, to standardowy błąd pomiaru jest równicż
wyrażany w punktach ilorazu inteligencji. Wiedząc, że standardowy błąd pomia-
ru to odchylenie standardowe w rozkładzie błędów [rys. 4.2., część b) i 4.3.,
część c)] oraz w rozkładzie wszystkich potencjalnych wyników otrzymanych
jednej osoby [rys. 4.2., część a)] bardzo łatwo nadać mu interpretację - standar-
dowy błąd pomiaru określa przeciętną odległość błędów od zera lub przecięt­
ną odległość potencjalnych wyników otrzymanych jednej osoby od jej wyniku
prawdziwego. Im większy standardowy błąd pomiaru, tym bardziej płaskie będą
rozkłady z rys. 4.3., części a) i b) oraz 4.3., część c).

Sta~«l~r"~W~blą«lpo.nląru(a!l!$ĘlijbsEMr~·odchylertiestandardo*~"wrozkła­
d~iebłędówlub \y ro.~k:ładzie wyników otrzymanych z· niezależnych'. vomiarów od
jeqnejosoby.Jestto przeciętna odległość błędów pomiaru odzeralub przeciętna odle.,
głoś9.potencjalllychwynik9woJ;rzYll1anycl:1 jednej. osoby od jej wyniku prawdziwego.
Wielkość tę opisują równania 22 i 2);

Z równania 22 wynika, że wielkość standardowego błędu pomiaru zależy od


dwóch wartości: rzetelności testu i odchylenia standardowego wyników otrzyma- 81
Andrzej Rynkiewicz

nych. Tak więc im bardziej dokładny test oraz im mniejsze zróżnicowanie wy-
ników w populacji, tym mniejszy standardowy błąd pomiaru. Jednak rzetelność
testu pozostaje w ścisłym związku z jednolitością populacji i reprezentującej ją
próby. Im mniejsze odchylenie standardowe wyników, tym niższa rzetelność.
Tak więc obniżanie zróżnicowania w próbie, w celu zredukowania standardo-
wego błędu pomiaru, nie przyniesie oczekiwanego efektu. Za sprawą obniżonej
rzetelności testu standardowy błąd pomiaru pozostanie naj prawdopodobniej nie-
zmieniony. Jedyny więc pewny i sensowny sposób na zmniejszenie tego błędu to
konstruowanie i wykorzystywanie rzetelnych testów.

Zalecana literatura
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
(Str. 458-461).
Ferguson G.A., Takane, Y. (1999). Analiza statystyczna w psychologii i pedagogice.
Warszawa: PWN. (Str. 489-592).
Homowska E. (2005). Testy psychologiczne. Teoria i praktyka. Wydawnictwo Scholar.
(Str. 41-49).
Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN. (Wydanie 2:
str. 92-134).

Literatura dla bardziej ambitnych


Aranowska E. (2005). Pomiar ilościowy w psychologii. Warszawa: Scholar. (Str. 17-31
i 51-54).
Gulliksen H. (1950). Theory ojmen/al tests. New York: John Wiley & Sons.
Nowakowska M. (1975). Psychologia ilościowa z elementami naukometrii. Warszawa:
PWN. (Str. 22-25).

Zadania
1.
Wariancja wyników otrzymanych w teoretycznej populacji wynosi 16, a warian-
cja błędów 3. Ile wynosi rzetelność testu i jaki procent zróżnicowania wyników
otrzymanych to zróżnicowanie prawdziwe między osobami?
2.
Rzetelność testu jest równa 0,67. Jaka byłaby wariancja wyników otrzymanych
w teoretycznej populacji, gdyby wariancja wyników prawdziwych wynosiła 13?
3.
Nieskończenie wiele niezależnych badał'l pojedynczej osoby testem o rzetelno-
ści 0,79 dało wyniki otrzymane o wariancji 36. Oblicz odchylenie standardowe
w rozkładzie błędów.
82
4. Klasyczna teoria rzetelności testów

4.
Badanie teoretycznej populacji testem o rzetelności 0,82 dało wyniki otrzymane
o wariancji 28. Oblicz odchylenie standardowe w rozkładzie błędów.
5.
Hipotetyczny wynik prawdziwy osoby wynosi 24. Badanie teoretycznej popula-
cji, z której pochodzi ta osoba testem o rzetelności 0,87 dało odchylenie standar-
dowe wyników otrzymanych 4,5. Jakie jest prawdopodobieństwo, że w realnym
badaniu tym testem wynik otrzymany tej osoby będzie większy niż 27?
6.
Rzetelność testu wynosi 0,74. Badanie tym testem osób z teoretycznej populacji
dało odchylenie standardowe wyników otrzymanych równe 4,8. Jaki procent błę­
dów pomiaru nie będzie wykraczał poza granice przedziału od -2 do +2?
7.
Jaka musi być wariancja wszystkich potencjalnych wyników otrzymanych po-
jedynczej osoby, aby 99% najbardziej typowych dla niej wyników otrzymanych
w teście znajdowało się w granicach od 95 do 105 punktów?

Odpowiedzi do zadań
1. ptt=0,875. Zróżnicowanie prawdziwe to 87,5% zróżnicowania otrzymanego.
2. O"x=19,4.
3. Pojedyncza osoba, więc O"x=O"E=6 (pierwiastek z wariancji wyników otrzyma-
nych).
4. Populacja osób, więc O"E=2,24 (standardowy błąd pomiaru).
5. O"E=1,62; z27=1,85 (wystandaryzowana wartość wyniku 27); P(X>27)=0,032
(z tablic dystrybuanty rozkładu normalnego).
6. O"E=2,45; Z_2 =--0,82 (wy standaryzowana wartość błędu pomiaru -2); z2=0,82
(wy standaryzowana wartość błędupomiaru2); P(-2<E<2)=0,794-0,2 06=0,588
(z tablic dystrybuanty rozkładu normalnego).
7. P(ZA<X<Z8)=0,99; zA=-2,57; z8=2,57 (z tablic dystrybuanty rozkładu normal-
nego); pojedyncza osoba, więc O"x=O"E=1,95.

83
5. JAKICH INFORMACJI O TEŚCIE DOSTARCZA
TESTOWANIE?

Konrad Jankowski, Marcin Zajenkowski


WYDZIAŁ PSYCHOLOGII, UNIWERSYTET WARSZAWSKI

5.1. Metody szacowania rzetelności pomiaru testem l


Z zaprezentowanej w poprzcdnim rozdziale definicji rzetelności wynika, że
jest to stosunek wariancji wyników prawdziwych do wariancji wyników otrzy-
manych. Jednakże wynik prawdziwy nie jest wielkością bezpośrednio obserwo-
walną, więc nie można również obliczyć bezpośrednio wariancji wyników praw-
dziwych. Oznacza to, że ze wzoru definicyjnego nie da się obliczyć rzetelności
pomiaru konkretnym testem. Aby przezwyciężyć tę trudność, opracowano szereg
metod, które umożliwiają oszacowanie rzetelności, czyli udziału wariancji wyni-
ków prawdziwych w wariancji wyników otrzymanych.
Operacyjnie definiuje się rzetelność jako powtarzalność wyników. Mówiąc
inaczej, im wyższa rzetelność pomiaru testem, tym wyniki dwukrotnego badania
testem są bardziej zbliżone do siebie, co w praktyce będzie oznaczało wysoką
korelację między nimi. Należy zauważyć, że oba pomiary mogą być zależne od
siebie, gdyż osoba badana podczas drugiego badania testem będzie już go znała,
co może wpływać na rezultaty uzyskane w drugim badaniu, dzięki np. nabyciu
wprawy lub zapamiętaniu treści pozycji testowych. Aby drugi pomiar był w pełni
niezależnym pomiarem badanej cechy, należałoby zastosować jakąś inną miarę
tej cechy, tak aby uniknąć efektu zapamiętywania. Miara ta jednak nie może mieć
całkowicie odrębnej formy lub odwoływać się do innych iródeł informacji, cho-
dzi przecież o sprawdzenie powtarzalności wyników uzyskanych w konkretny
sposób. Najlepiej byłoby mieć dwa testy, mierzące tensam konstrukt teoretycz-
ny, w których treść pozycji testowych jest odmienna. Testy takie nazywane są
testami równoległymi. Oprócz pomiaru jednakowej cechy, testy takie powin-
ny spełniać szereg formalnych warunków, aby uzyskany współczynnik korelacji
między pomiarami można było interpretować jako rzetelność testu.
Dalej opisane są praktyczne metody szacowania rzetelności. W niniejszym
rozdziale zostaną omówione takie metody, jak: dwukrotne powtarzanie pomiaru
(wiarygodność testu i stabilność bezwzględna), metoda wersji alternatywnych,
metoda połówkowa, zgodność wewnętrzna i metoda sędziów kompetentnych.
Założenie o równoległości testów dotyczy każdej z nich. W wypadku badania
wiarygodności testu i stabilności bezwzględnej istotne jest, aby założenie rów-
noległości było spełnione dla obu pomiarów tym samym testem. Przy wykorzy-
staniu wersji alternatywncyh istotne jest, by założenie równoległości spełniały
I Przygotowanie rozdziału zostało sfinansowane ze środków na badania własne Wydziału Psycholo-

84 gii Uniwersytetu Warszawskiego. BW 180620.


5. Jakich informacji o teście dostarcza testowanie?

wersje alternatywne testów. Natomiast w badaniu rzetelności metodą połówkową


jako testy równoległe traktowane są połowy testu, a w zgodności wewnętrznej
poszczególne jego pozycje.

Tes~równqległetq takie~którespelniaj~ na$tęplljące z~łoienia: ... . . . .... .


• X A=X S - średniąwynikówW t:ści!!A~ównasięśrednieJ wyników w teście B;
• SA=Sf}-odchyleniestandardowew teścieAjesttakie, jakw teś.cie B;
• riAiA=:.riBiB-,-,jnterkorelacjepozycjiw teście A są takie, jakwteście B;
• rAż=rBz-korelacja.~y~ikówtestu A zjakąś.zmiennąZjesttaka, jak korelacja wy.
ników testu B z tą$ąQ1ą zmienną Z.

Należy zauważyć, że na współczynnik rzetelności, uzyskany przez zastosowa-


nie każdej z metod, wpływają różne czynniki. Podstawowym czynnikiem, intere·
sującym badacza jest rzetelność pomiaru testem. Ponadto występują dodatkowe
czynniki, wpływające na wielkość współczynnika rzetelności, które są związane
ze specyfiką konkretnej procedury badania rzetelności. Stanowią one dodatkowe
źródło błędu pomiaru, zniekształcając tym samym wielkość współczynników rze·
telności. Ważne jest, aby dobierając metodę badania rzetelności, minimalizować
wpływ tych dodatkowych czynników, tak by uzyskany współczynnik rzetelności
związany był przede wszystkim z doskonałością samego testu.

5.1.1. Metoda powtarzanego pomiaru


Metoda szacowania rzetelności za pomocą powtarzanego pomiaru polega na
dwukrotnym badaniu tych samych osób tym samym testem. Miarą rzetelności
jest siła związku pomiędzy wynikami z obu badań. Takie oszacowanie może być
przeprowadzone na dwa sposoby, różniące się odstępem czasu między pierw·
szym i drugim badaniem.
Pierwszy z nich nazywany jest estymacją wiarygodności testu. Polega na tym,
iż badani wykonują ten sam test dwa razy z rzędu, tzn. po skończeniu pierwszego
badania następuje natychmiast drugie. Miarą rzetelności jest tu współczynnik ko·
relacji pomiędzy wynikami obu pomiarów testem grupy osób. Badacze wskazują
na szereg możliwych źródeł błędu związanych z tą metodą. Na wyniki pomiaru
mogą bowiem wpływać, oprócz niedoskonałości narzędzia, chwilowe oscylacje
funkcji poznawczych, stanu organizmu, pamięć i nabyta wprawa w wykonaniu
testu, a także zmęczenie (Choynowski, 1971). Metoda ta powinna zatem być sto·
sowana jedynie w przypadku testów, w których powtarzanie badania nie wpływa
istotnie na wyniki, np. testów motorycznych czy testów, w których wskaźnikiem
jest czas reakcji.
Drugi sposób szacowania rzetelności przy pomocy powtarzanego pomiaru tym
samym testem polega na tym, iż pomiędzy pierwszym a drugim badaniem tej sa·
mej grupy osób wprowadza się jakiś odstęp czasowy, np. tydzień, dwa miesiące 85
Konrad Jankowski, Marcin Zajenkowski

itp. Metoda ta nazywa się estymacją stabilności bezwzględnej testu lub popular- .
nie test-retest (czasem używa się również nazwy stałość testu). Wielkość współ­
czynnika korelacji (najczęściej r-Pearsona) pomiędzy dwoma zbiorami wyników
(z pierwszego i drugiego wykonania testu) jest tu miarą rzetelności. Stabilność
bezwzględna mówi o tym, na ile wyniki testu są niezależne od losowych czyn-
ników związanych z osobą badaną lub sytuacją badania, i na ile są stałe w cza-
sie. Kwestia interpretacji współczynnika stabilności bezwzględnej jako stałości
wyników w czasie zostanie bardziej szczegółowo omówiona w dalszej części
rozdziału.
Psychometrzy wskazują na problemy związane z tą techniką (np. Brzeziński,
1996). Wiążą się one z faktem, iż osoby badane mają do czynienia dwukrot-
nie z tym samym testem. Prezentowany podczas drugiej sesji materiał nie jest
dla nich nowy, tak jak przy pierwszym badaniu. Na wyniki drugiego pomiaru
mogą zatem wpływać takie czynniki, jak pamięć czy uczenie się. Może to być
szczególnie widoczne w testach inteligencji, np. takich, w których sprawdza się
czyjąś wiedzę ogólną (np. w podteście Wiadomości z WAIS-R) lub znajomość
synonimów słów (w podteście Synonimy z APIS-Z). Należy zdawać sobie spra-
wę, iż badając kogoś dwukrotnie tym samym testem, nie możemy wykluczyć, że
w przerwie między pomiarami ktoś po prostu posiądzie nową wiedzę i np. dowie
się, jaki jest synonim słowa prezentowanego we wcześniejszym badaniu. Ważne
jest zatem, aby badana właściwość nie uległa zmianie podczas przerwy między
pierwszym a drugim badaniem testem.
W pewnych przypadkach zmiana właściwości jest na tyle wyraźna, że sto-
sowanie metody test-retest staje się nicuzasadnione. Będzie to szczególnie za-
uważalne u dzieci, które podlegają dynamicznemu rozwojowi. Dobrym przykła­
dem jest tu test DMI (Diagnoza Możliwości Iiltelektualnych) opracowany przez
Matczak (2001). Zdaniem autorki test ma mierzyć zdolność do operacyjnego
myślenia, zgodnie z koncepcją Piageta. Owa zdolność kształtuje się w stadium
operacji konkretnych (czyli w wieku od 6-7 lat do 11-12 lat). Badając zmiany
rozwojowe, Matczak porównywała poprawność wykonania DMI-2M w różnych
grupach wieku dzieci (od 6 do 10 lat). Okazało się, że poprawność wykonania
istotnie wzrasta wraz z wiekiem. Pomiar stabilności bezwzględnej byłby w tym
przypadku wysoce ryzykowny, gdyż zmiany w wykonaniu zadall mogłyby być
widoczne nawet w krótkim okresie. Oznaczałoby to, że nie zostało spełnione
założenie o równoległości testów, ponieważ średnia w drugim pomiarze byłaby
wyższa niż w pierwszym. W związku z tym rzetelność szacowano inną metodą -
zgodności wewnętrznej (patrz punkt 5.1.4.).
Podstawowym problemem staje się długość przerwy pomiędzy pomiarami.
Niestety nie ustalono optymalnego odstępu czasowego. W związku z tym propo-
nuje się, aby przerwa pomiędzy badaniami była na tyle długa, aby badani zdążyli
zapomnieć prezentowany wcześniej materiał. Jednakże zbyt długa przerwa może
86 spowodować, iż cecha mierzona przez test zmieni się u badanego.
5. Jakich informacji o teście dostarcza testowanie?

Biorąc pod uwagę powyższe zastrzeżenia, badacze proponują, aby przerwa


między pomiarami wahała się od kilku tygodni do kilku miesięcy. Odstęp zale-
ży zazwyczaj od specyfiki przedmiotu pomiaru. Badając styl (np. poznawczy)
czy postawę, możemy oczekiwać szybszych zmian (zalecana przerwa krótsza)
niż w przypadku np. cech temperamentu (zalecana przerwa dłuższa). W pol-
skiej adaptacji Kwestionariusza Radzenia Sobie w Sytuacjach Stresowych (ang.
Coping Inventory oj Stressjul Situatians, CISS) badano stabilność bezwzględną
stylów radzenia sobie ze stresem w odstępie 2-3 tygodni (Strelau, Jaworowska,
Wrześniewski i Szczepaniak, 2005). Korelacje dla poszczególnych skal były dość
wysokie i wahały się od 0,73 do 0,80.
Strelau i Zawadzki (1997) w badaniach nad FCZ-KT (F ormalna Charakterystyka
Zachowania - Kwestionariusz Temperamentu), narzędziem do pomiaru cech
temperamentu postulowanych przez regulacyjną teorię temperamentu, zdecydo-
walisię oszacować stabilność bezwzględną krótkoterminową (dwutygodniowa
przerwa pomiędzy badaniami) oraz długotenninową (przerwa sześciomiesięcz­
na). Współczynniki korelacji dla stałości krótkoterminowej wahały się od 0,68
do 0,93, a dla długoterminowej od 0,55 do 0,90 (w zależności od wieku i płci
badanej grupy).
Warto zwrócić uwagę, że na wyniki badania metodą test-retest, oprócz pamięci
i uczenia się, mogą wpływać również czynniki związane z konkretną sytuacją,
w której dokonywany jest pomiar (np. pora dnia, nastawienie badacza itp.) oraz
stan osoby badanej (aktualny nastrój, stan fizyczny itp.). Wybierając stabilność
bezwzględną do szacowania rzetelności pomiaru testem, należy o tym pamiętać.
Ma to szczególne znaczenie w przypadku narzędzi mierzących stan, a nie cechę.
Przykładem może być Przymiotnikowa Skala Nastroju UMACL (ang. UWIST
Maad Adjective Check List). Goryńska (2005), dokonując polskiej adaptacji, zde-
cydowała się m.in. oszacować stabilność poszczególnych wymiarów nastroju.
Oczekiwała jednak, że korelacje pomiędzy pomiarami w odstępie jednego tygo-
dnia będą istotne, choć niezbyt wysokie. Okazało się, iż współczynniki korelacji
wahały się od 0,28 do 0,47, co w tym przypadku było zgodne z teorią, ponie-
waż nastrój, czyli stan, inaczej niż cecha, podlega względnie szybkim zmianom.
Zastosowana metoda stabilności bezwzględnej miała w tym wypadku jednak
więcej wspólnego z badaniem trafności teoretycznej (patrz punkt 5.2.2.2.) niż
rzetelności.

5.1.1.1. Stabilność czasowa a założenie o równości średnich

W większości testów psychologicznych przy pomiarze stabilności testu, za-


rówl10 bezwzględnej, jak i względnej (por. rozdział 5.1.2.), bierze się pod uwagę
współczynnik korelacji, którego wysokie wartości interpretuje się jako wysoką
stałość wyników testu w czasie. Należy podkreślić, że powyższa interpretacja
jest prawdziwa jedynie, jeśli spełnione są założenia równoległości pomiarów 87
Konrad Jankowski, Marcin Zajenkowski

testowych, szczególnie zaś założenie o równości średnich w obu pomiarach.


Korelacja sama w sobie mówi jedynie o powiązaniu wyników w obu pomia-
rach, ich względnym uporządkowaniu, tzn. osoby, które miały wyższe wyniki
w pierwszym pomiarze, będą miały też wyższe wyniki w drugim pomiarze. Aby
mówić o stałości wyników w czasie, szczególnie istotne jest spełnienie założenia
o równości średnich w obu pomiarach dla danej grupy osób. W praktyce zało­
żenie to często jest pomijane, co może prowadzić do poważnych błędów inter-
pretacyjnych współczynnika stabilności. Zilustruje to przykład zawarty w tabeli
5.1. Skonstruowano dwa testy, A i B. Zbadano stabilność bezwzględną każdego
z nich dla 5 osób. Okazało się, że współczynnik korelacji dla obu pomiarów te-
stem A wyniósł l, i podobnie korelacja dla obu pomiarów testem B również wy-
niosła l. Interpretując jedynie współczynniki korelacji (bez sprawdzenia założeń
" o równoległości pomiarów), można by stwierdzić, że wyniki w teście A i wyniki
w teście B są tak samo, idealnie stałe w czasie. Jednak, biorąc pod uwagę śred­
nie, można zauważyć, że powyższa interpretacja jest słuszna jedynie w wypad-
ku testu A, gdzie w pomiarze pierwszym (Al) i drugim (A2) średnie w istocie
są równe. Dla pomiarów w teście B, choć korelacja również wynosi l, średnia
w drugim pomiarze (B2) jest wyższa o dwie jednostki od tej w pierwszym (B l).
Zatem, wyniki osób w teście B nie były stabilne w czasie, lecz nastąpiło syste-
matyczne ich podwyższenie (może się tak zdarzyć np. przy badaniu stabilności
testu inteligencji u dzieci).
Inną metodą statystyczną możliwą do zastosowania w prezentowanym przy-
kładzie jest współczynnik korelacji wewnątrzklasowej. Pozwala on na uwzględ­
nienie różnicy w wynikach uzyskanych przez osoby badane w obu pomiarach.
O ile w wypadku testu A korelacja wewnątrzklasowa będzie wynosiła 1, o tyle
w teście B będzie mniejsza od 1 (ze względu na wyższe wyniki uzyskane przez
osoby badane w drugim pomiarze).

Tabela 5.1. Wyniki dwukrotnego badania testem A (A 1,A2) i testem 8 (81,82) grupy pięciu
osób

Nr osoby A1 A2 81 82
1 5 5 5 7
2 4 4 4 6
3 3 3 3 5
4 2 2 2 4
5 1 1 1 3
Średnia 3 3 3 5
Korelacja rA1A2 =1 r8182 =1

Podsumowując, interpretacja współczynnika stabihl0ści testu, jako niezmien-


ności wyników w czasie, jest uprawniona tylko, jeśli są spełnione założenia
88 o równoległości testów, szczególnie o równości średnich w obu pomiarach.
5. Jakich informacji o teście dostarcza testowanie?

Wfarygodnośc testusłuzy do badania rzetelnośCi pomiaru testęntOrazwskazuje na


stopień, w jakim wynik testu jeśtzale~flyodchwilO\vych,
przypądko\\,ych .• zmian.
Polegana dwukrotnym badaniu tych ~ainych osób tym samym testem.

Stabilll ość bezwzgfędna sluiY do badania· rzetelnościpotniaru: testem oraz pokazuj e,


wjakHnstopnillwynikitestu są ""rażłiwenaprtypadkowe zmiany ~wiązaile z dłuż­
szymu.pływem czaSu; Polega mLbadaniu dwa raz)' tych samych osób tym samym
testemi·pr~erwą czasowąmiędzypomiaratili.

5.1.2. Metoda wersji alternatywnych


W poprzednim paragrafie omówiono metody szacowania rzetelności za po-
mocą dwukrotnego badania tej samej grupy osób tym samym testem. Niniejsza
część poświęcona jest metodom szacowania rzetelności za pomocą dwukrotnego
badania tej samej grupy osób wersjami alternatywnymi testu. Można zauważyć
spore podobieństwo między szacowaniem rzetelności metodą test-retest a meto-
dą wersji alternatywnych. Jedyną różnicą między powyższymi dwoma metodami
w zakresie procedury badania jest posłużenie się tym samym testem albo posłu­
żenie się wersjami alternatywnymi testu.
Badanie rzetelności metodą wersji alternatywnych ma następujący przebieg.
Po pierwsze, należy skonstruować dwie wersje danego testu. Obie wersje powin-
ny różnić się pod względem treści, tzn. składać się z innych treściowo pozycji,
ale jednocześnie spełniać założenie równoległości (por. idea testów równoległych
paragraf 5.3.). Następnie należy przebadać tę samą grupę osób najpierw jedną,
a potem drugą wersją danego testu.
Podobnie jak za pomocą metody test-retest, tak poprzez zastosowanie pro-
cedury testów alternatywnych można uzyskać dwa współczynniki rzetelności,
w zależności od zastosowanej długości przerwy czasowej między pomiarem
pierwszą i drugą wersją testu.
Współczynnik równoważności międzytestowej pod względem zastosowa-
nej przerwy czasowej między pomiarami jest odpowiednikiem współczynnika
wiarygodności w metodzie test-retest. Inaczej mówiąc, współczynnik równo-
ważności międzytestowej uzyskuje się korelując ze sobą wyniki z dwóch testów
alternatywnych przeprowadzonych na tej samej grupie osób, przy czym między
badaniem oporna testami nie ma przerwy czasowej. Po zakończeniu rozwiązywa­
nia pierwszej wersji, osoby badane natychmiast przystępują do rozwiązywania
drugiej wersji testu. Uzyskany w ten sposób współczynnik korelacji, najczęściej
r-Pearsona, traktuje się jako współczynnik równoważności między testowej.
Współczynnik stabilności względnej to korelacja między wynikami w dwóch
testach alternatywnych uzyskanych przez tę samą grupę osób, ale pomiędzy ba-
daniem testem pierwszym i testem drugim wprowadza się przerwę czasową. 89
Konrad Jankowski, Marcin Zajenkowski

Jego długość powinna być dobrana w zależności od tego, co mierzą testy alterna-
tywne oraz od specyfiki grupy, dla której chcemy oszacować rzetelność testów:
Jeśli testy przeznaczone są do pomiaru względnie stałych czasowo właściwości,
jak np. cech temperamentu, to przerwa ta może być dłuższa, np. kilka miesięcy.
Dłuższych przerw zazwyczaj nie stosuje się ze względu na potencjalne trudności
badawcze - mogłoby być trudno dotrzeć do tych samych osób np. po upływie
kilku lat. Jeśli istnieje podejrzenie, że badana właściwość psychiczna może szyb-
ko ulegać zmianom, przerwa między oboma pomiarami powinna być krótsza.
Krótkie przerwy czasowe będą również właściwsze w przypadku osób, u któ-
rych badana właściwość może szybko ulec zmianie ze względów rozwojowych.
Grupą taką z pewnością będą dzieci. Łatwo można wyobrazić sobie, że poziom
wykonania np. testu inteligencji zmieniłby się znacznie, gdyby przebadano dzieci
w piątej klasie, a następnie te same dzieci po roku, w szóstej klasie. Zważywszy,
że dodatkowo występują różnice w tempie rozwoju dzieci, to uzyskany współ­
cZylmik korelacji między pomiarami testami alternatywnymi byłby zniekształco­
ny. Nie odzwierciedlałby on zatem tego, jak dokładny jest pomiar tymi testami.
W praktyce ustalanie długości przerwy czasowej między pomiarami podczas
szacowania stabilności względnej wiąże się z takimi samymi problemami, jak
w wypadku stabilności bezwzględnej (por. rozdział 5.1.1.)

'WspólcZYIlIlU~ r:Ówn~",atn9ścimięd~te~t9wej $łuzydo bądaniarzętel~o~cipomia-.


ru testem orązWśkąztije 1)a stopień podobieństwllmiędzy wersjamialternatYWllymi
tęstu.Połegąna·dwql<rptnym gadaniu tych satlłyqnosób, pnkolei dw~e:mąwersjami
testu.
Wspóh;zynpi.ksłabilpo$ci względnej służy do badania rzeteblości pOllliaru tes~em··
oraz ws~azuję,.Ila,stol?ień podobieństwa między wer~jami idrernątywnymi te~hl ~ nil;.
przypadkbwe żthlanywyników związąne z upływem czasl.l. polega na zbadaniu tych
sąmY911 Qąól:>,pie.fWs:zą wersją
•••.. , ..... ,,' c •• '.' ,
t~stu,a.po'.upływie
"......
Pewnego C?;ąs4drug~w.ersjl\:testu
. . . ..• , •• . •.•
.

5.1.3. Metoda połówkowa

W poprzednich paragrafach omOWlOno metody szacowania rzetelności na


podstawie dwukrotnego pomiaru. Metoda połówkowa pozwala na oszacowanie
rzetelności pomiaru testem na podstawie jednokrotnego badania tej samej grupy
osób jednym testem. Jest to jedna z pierwszych metod badania zgodności we-
wnętrznej, jakie wymyślono.
Technika ta opiera się na pomyśle wyodrębnienia dwóch testów równoległych
w ramach tego samego testu, a następnie skorelowaniu ze sobą wyników uzy-
skanych w tych połówkach. Procedura badania polega na tym, że grupa osób
wykonuje test, następnie test jest dzielony na dwie połówki, po czym koreluje
90 się ze sobą zbiory wyników uzyskanych z pierwszej i drugiej połówki. Tak po-
5. Jakich informacji o teście dostarcza testowanie?

wstały współczynnik korelacji mówi o rzetelności jedynie połowy testu. Dlatego


też należy skorzystać ze wzoru Spearmana-Browna, który pozwala oszacować
rzetelność całego tcstll na podstawie rzetelności jego połowy:

2rpp
rt/=-- (5.1)
1+ rpp
rft - rzetelność całegotestu;
rpp - współczynnik korelacji między połówkami testu.

Podstawiając w miejsce rpp wartość współczynnika korelacji między połowa­


mi testu, otrzymamy ~spółczynnik rzetelności całego testu.
Warto zauważyć, że wzór na rzetelność połówkowąjest specjalnym przypad-
kiem ogólniejszego wzoru Speannana-Browna na zależność między rzetelnością
pomiaru testem a zmianąjego długości.

nrtti
rUn=----- (5.2)
1 + (n-l)rtri

rUn - współczymlik rzetelności testu po jego przedłużeniu;


rfli - współczynnik rzetelności testu przed jego przedłużeniem;
n - współczynnik przedłużenia testu (ile razy należy przedłużyć test).

Powyższy
wzór pozwala na oszacowanie rzetelności pomiaru testem (r fln ) po
jego n-krotnym przedłużeniu, znając rzetelność pomiaru testem przed jego prze-
dłużeniem (rflJ Skoro znamy rzetelność połowy testu, rzetelność całego testu
to inaczej rzetelność połowy testu po dwukrotnym przedłużeniu. W takim razie,
gdy wstawimy za n wartość 2, otrzymamy wzór 5.1. Ze wzoru 5.2 wynika, że
rzetelność pomiaru testem wzrasta w miarę jego wydłużania, w związku z czym
rzetelność całego testu będzie zawsze większa niż rzetelność jego połówek (niż
korelacja miedzy połówkami testu).
Podstawowe pytanie dotyczy tego, w jaki sposób podzielić test na połowy.
Podział ten powinien być przeprowadzony tak, aby połówki testu były względem
siebie równoległe. Możliwych jest kilka rozwiązań.
Prosty podział na połowy zachodzi wtedy, gdy m.in. narzędzie zawierające 10
pozycji testowych, podzielonoby w ten sposób, że w pierwszej połowie znajdą
się te o numerach 1-5, a w drugiej o numerach 6-10. Podział taki może mieć sens
w przypadku krótkich testów o podobnych wskaźnikach trudności pozycji (m.in.
kwestionariuszy osobowości). Jeśli kolejne pozycje testowe miałyby rosnące
wskaźniki trudności, to przy takim podziale otrzymano by połowę łatwą i połowę
trudną, a więc założenie o równoległości połówek testu byłoby złamane. Jeśli 91
Konrad Jankowski, Marcin Zajenkowski

test byłby bardzo długi, nastawienie osoby badanej mogłoby być istotnie róż­
ne podczas rozwiązywania pierwszej i drugiej połowy testu (m.in. zmęczenie),
a więc różnice w sytuacji badania mogłyby w efekcie doprowadzić do złamania
założenia o równoległości połówek.
Dobór losowy sprowadza się do podzielenia pozycji do obu połówek w sposób
przypadkowy. Metoda taka jest odpowiednia, jeśli poszczególne pozycje testu
nie różnią si~ zbytnio ze względu na ich trudność, zatem może być właściwa dla
kwestionariuszy osobowości. Natomiast, jeśli trudność pozycji wzrasta, tak jak
to się często zdarza w przypadku testów inteligencji, moglibyśmy otrzymać dwie
połowy testu różniące się trudnością.
Dobór parzyste-nieparzyste polega na tym, że do jednej połówki testu włącza
. się pozycje testowe o numerach parzystych, a do drugiej - o numerach nieparzy-
stych. Dzięki temu, przy wzrastającej trudności kolejnych pozycji, zadania łatwe
i trudne rozłożą się do obu połówek równomiernie, dzięki czemu połowy testu
będą do siebie zbliżone pod względem trudności.
Dobór uwzględniający właściwości pozycji testowych, polega na tym że do
obu połówek przydziela się pozycje, tak aby połówki testu spełniały założenia
testów równoległych. Kryterium podobieństwa może być też trudność pozycji i,
w efekcie, związana z tym trudność obu połówek testu. Metoda ta będzie odpo-
wiednia dla testów, których pozycje nie są równoległe, ale da się utworzyć rów-
noległe połówki testu. Przykładem mogą być testy, których pozycje mają różny
format odpowiedzi, tzn. w teście znajdują się pozycje posiadające dwu-, trzy-,
czterokategorialny format odpowiedzi.
Dobór pozycji testowych do obu połówek ma zasadnicze znaczenie dla wiel-
kości współczynnika rzetelności. Najniższa wartość współczynnika rzetelności
wystąpi, jeślipozycje testu będą wysoko skorelowane w obrębie swojej połówki
testu i nisko między połówkami testu. Przypadek taki otrzymalibyśmy, gdyby
m.in. w teście o rosnącej trudności pozycji zastosować prosty podział na połowy.
Wtedy odpowiedzi na pozycje w obrębie połówek testu byłyby wysoko skorelo-
wane ze sobą, natomiast korelacja między połówkami byłaby niska. Natomiast
najwyższa wartość współczynnika rzetelności w metodzie połówkowej wystąpi,
jeśli wysoko skorelowane pozycje zostaną rozdzielone do oddzielnych połówek
testu.
Metodę połówkową zastosowano m.in. do analizy rzetelności w Teście Matryc
Ravena - wersja Dla Zaawansowanych (Jaworowska i Szustrowa, 1992). W na~
rzędziu tym mamy do czynienia z rosnącą trudnością zadań, a zatem autorki pol-
skiej adaptacji zdecydowały się podzielić test na dwie połówki ze względu na
pozycje parzyste i nieparzyste. Następnie oszacowały rzetelność pomiaru testem
przy pomocy wzoru Spearmana-Browna, uzyskując wartość bliską 0,80.

92
5. Jakich informacji o teście dostarcza testowanie?

Metodapoł6wkowa słuźy dQpadaniairzeielnQsci. pomiacU·testemoraz wskazuje na


stopierl podobieństWarniędzy jegopQłó\Ąi)(an1i. Polega· na jedpokrotnym badaniu te"
steru grupy osób.

5.1.4. Zgodność wewnętrzna


Inną techniką, obok metody połówkowej, oszacowania rzetelności po jedno-
krotnym badaniu danym testem jest estymacja zgodności wewnętrznej (ang.
internal consistel1cy). Kuder i Richardson (2005) zwrócili uwagę na niejedno-
znaczność wyniku procedury dzielenia na połowy. Stwierdzili, iż podział testu na
dwie połówki jest arbitralny i w zależności od sposobu przepołowienia otrzyma-
my inne oszacowanie rzetelności.
W celu uniknięcia tego problemu, przyjęli założenie, iż test składający się z n
pozycji można podzielić na 11 części. Wynika z tego, że liczba wszystkich moż­
liwych części testu równa jest liczbie jego pozycji. Aby otrzymać dobre osza-
cowanie zgodności wewnętrznej, trzeba również przyjąć, że pozycje testowe są
równoległe (mają równe średnie i wariancje) oraz że wszystkie pozycje w teście
mierzą ten sam czynnik (cechę).
Autorzy opracowali 21 wzorów, z czego najczęściej stosowane są dwa (nazy-
wane skrótowo od ich nazwisk KR 20 i KR21 ). Pierwszy z nich odnosi się do przy-
padków, w których bierze się pod uwagę średnią wariancję wszystkich pozycji
testowych. Wzór ten można przedstawić w następujący sposób:

(5.3)

k - liczba pozycji testowych;


Pi - proporcja odpowiedzi diagnostycznych (zgodnych z kluczem) na i-tą
pozycję testową;
ąj - proporcja odpowiedzi niediagnostycznych (nie zgodnych z kluczem);
s/ - wariancja wyników ogólnych testu;
k

L - suma dla k pozycji.


;=\

93
Konrad Jankowski, Marcin Zajenkowski

Drugi wzór (KR21 ) wymaga założenia, że pozycje testowe mają taką sarną
trudność (równe proporcje odpowiedzi zgodnych i niezgodnych z kluczem). Ma
on postać:
k S,2 -kj5(j
k-l (5.4)
S,

k liczba pozycji w teście;


P - średnia trudność pozycji testowych;
q=l-P.
Wykazano (Cronbach, 2005), że KR20 jest równy średniej współczynników
rzetelności połówkowej, policzonych dla wszystkich możliwych podziałów testu
na połówki. W praktyce oznacza to, że niektóre oszacowania rzetelności metodą
połówkową będą niższe, a niektóre wyższe niż współczynnik KR2o .
Wzory Kudera i Richardson przełamały problem metody połówkowej, ale
miały pewne ograniczenie. Można je było stosować jedynie dą testów z dwukate-
gorialnymi odpowiedziami, czyli odpowiedziami typu: tak-nie, zgadzam się-nie
zgadzam się, poprawne-niepoprawne itp. Cronbach (2005) zaproponował wzór,
który da się zastosować do wszelkich testów, a więc nie tylko z dychotomicznym
formatem odpowiedzi. Metoda ta, obecnie najczęściej stosowana do szacowania
zgodności wewnętrznej, uznawana jest za najlepszy sposób szacowania rzetelno-
ści (Hornowska, 2003). Dlatego też poświęcimy jej więcej uwagi. Wzór, o któ-
rym mowa, znany jako alfa Cronbacha, przedstawia się następująco:

a= (5.5)

k - liczba pozycji testowych;


s/ - wariancja wyników ogólnych testu;
k
"~ S,2 - suma wariancji pozycji testowych.
i=!

Rozważmy przykład zastosowania wzoru alfa Cronbacha. W tabeli 5.2. za-


mieszczono wyniki pięciu osób z pewnego testu, w którym zakres dostępnych
odpowiedzi wyrażony był na skali Likerta (od l do 5). W kolejnych kolumnach
przedstawiono odpowiedzi każdej osoby, obliczenia wariancji dla całego testu
oraz wariancji poszczególnych pozycji testowych.
W celu obliczenia wariancji, należy odjąć każdy wynik od średniej, a następ-
94 nie uzyskaną wartość podnieść do kwadratu. Wariancję stanowi stosunek sumy
5. Jakich informacji o teście dostarcza testowanie?

odchyleń wyników od średniej podniesionych do kwadratu do liczby osób bada-


nych minus jeden. W tabeli 5.2. przedstawiono kolejne kroki obliczania wyników
wariancji całego testu i poszczególnych pozycji testowych.
Kolejne kroki obliczeń oznaczono jako A, B, C, D w dolnym wierszu tabe-
li 5.2. Wszystkie obliczenia przebiegają w ten sam sposób, zarówno jeżeli chodzi
o wariancję całego testu, jak i poszczególnych pozycji. W kroku A należy zsumo-
wać wszystkie wyniki otrzymane (całego testu i kolejnych pozycji), a następnie
(krok B) policzyć średnią tychże. Znając średnią wartość, możemy odjąć od niej
każdy poszczególny wynik otrzymany, jak też zostało to uczynione w kolumnie
oznaczonej (X-X). Otrzymane w ten sposób wartości należy podnieść do kwa-
dratu (wynik tego działania przedstawia w tabeli 5.2. kolumna (X-X )2). W kroku
C należy zsumować wszystkie wartości podniesione do kwadratu, a następnie
podzielić je przez liczbę osób badanych minus jeden (krok D). W ten sposób uzy-
skano wariancje odpowiednio dla całego testu oraz każdej kolejnej pozycji.

Tabela 5.2. Wyniki poszczególnych pozycji testowych oraz wyniki ogólne dla 5 osób bada-
nych w teście składającym się z 4 pozycji

Pozycje
Osoby Cały test Pozycja 1 Pozycja 2 Pozycja 3 Pozycja 4
testowe
1234 LXc' (Xc- xJ' X/ (X1-xS' X 2' (X2-XX X3' (XrxS' X4' (X4-xS'
(Xc-Xc )2'" (X1- X1)2'" (X2- X2)2'" (Xr X3)2'" (Xr X4)2'"
1 31 1 2 7 -5 25 3 OO 1 -2 4 1 -2 4 2 -1 1
2 2454 15 3 9 2 -1 1 4 1 1 5 2 4 4 1 1
3 5545 19 -7 49 5 2 4 5 2 4 4 1 1 5 24
4 4223 11 -1 1 4 1 1 2 -1 1 2 -1 1 3 OO
5 1 331 8 -4 16 1 -2 4 3 OO 3 OO 1 -2 4
L Xc = 60 L XI = 15 L X 2 = 15 L X3 = 15 L X4 = 15
Kolejne kroki A. X2 = 3
Xc = 12 Xl =3 )(3 = 3 )(4 = 3
obliczeń: B. L(Xc - X cl 2 = L(X1- X 1)2= L(X2 - X 2)2= L( XrX 3)2= 'L( X4 - X 4)2=
C. = 100 = 10 = 10 =10 = 10
D.
=
s/ 100/4 = =
s/ 10/4 = =
s/ 10/4 = s/= 10/4 = si = 10/4 =
= 25 = 2.5 = 2.5 = 2.5 = 2.5
* 1 kolumna, *·2 kolumna, *.* 3 kolumna.
X - wynik otrzymany przez daną osobę;
X -
średnia wyników otrzymanych;
LX - suma wyników otrzymanych;
(X-X) - odchylenie wyniku otrzymanego przez daną osobę od średniej;
(X- X)2 - kwadrat odchylenia wyniku otrzymanego przez daną osobę od średniej;
L(X- X)2 - suma kwadratów odchyleń wyników otrzymanych od średniej;
52 - wariancja wyników.

95
Konrad Jankowski, Marcin Zajenkowski

W przykładzie wariancja każdej pozycji wynosi 2,5, zatem suma wariancji


wszystkich pozycji równa się 10. Wariancja całego testu wynosi 25. Podstawiając
uzyskane dane do wzoru 5.5, otrzymujemy:

a = -
4-1
4 10
(1- - )
25
= °
'
80

Zgodność wewnętrzna wskazuje, na ile dany test jest jednorodny (homoge-


niczny), czyli na ile wszystkie pozycje w teście odnoszą się do tej samej cechy
(czynnika). Im bardziej jednorodny zbiór pytań (zadań) tworzących test (tzn. wy-
soko skorelowanych ze sobą), tym wyższą otrzyma się zgodność wewnętrzną.
Założenie o jednoczynnikowej strukturze testu może być szczególnie ważne
w przypadku baterii testów. Przykładem takiego testu jest narzędzie do pomiaru
inteligencji APIS-Z (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 2006),
które składa się z ośmiu podtestów. Autorki uznały, że chcąc oszacować rze-
telność dla wyniku ogólnego (sumy wyników przeliczonych z poszczególnych
podtestów), należy wybrać inną metodę niż zgodność wewnętrzna, gdyż w przy-
padku tej baterii testów trudno mówić o jej jednorodności.
Oszacowanie rzetelności metodą zgodności wewnętrznej stosowano m.in.
w Inwentarzu Osobowości NEO-FFI Costy i McCrae. Narzędzie to stworzono
do pomiaru tzw. Wielkiej Piątki, czyli ekstrawersji, neurotyczności, otwarto-
ści na doświadczenie, sumienności i ugodowości. Zdaniem autorów są to ce-
chy uniwersalne, co oznacza możliwość ich wyodrębnienia, niezależnie od ba-
danej kultury, płci i wieku itd. Autorzy polskiej adaptacji (Zawadzki, StreIau,
Szczepaniak i Śliwińska, 1998) zbadali zgodność wewnętrzną przy użyciu wzo-
ru alfa Cronbacha. Wyniki, w zależności od skali, wahały się od 0,68 do 0,86.
Dokonano także oszacowania rzetelności w grupach j ednorodnych ze względu na
płeć i wiek. Okazało się, że w grupie kobiet i mężczyzn wartość alfa Cronbacha
jest do siebie zbliżona, ale wykazuje dużą zmienność w zależności od wieku ba-
danych. Jednorodność skal obniża się wraz z wiekiem i jest naj niższa w grupie
osób z przedziału wiekowego 50-80. Współczynnik alfa Cronbacha jest szcze-
gólnie niski w przypadku skali otwartości i wynosi 0,44 dla kobiet i 0,50 dla męż­
czyzn. Przykład ten pokazuje, w jaki sposób współczynnik zgodności wewnętrz­
nej może być zależny od konkretnej próby. W jednej grupie test może okazać się
bardziej jednorodny, a w innej mniej.

Zgodnoścw~Jll~tfzn~ ~łl.)ży do badl:lIliarzetelnÓ'śti pomiaru testem 'oraz wskazuję n~


stopień, W jak~mpozycje testowe odnoszą się do tego samego konstruktu. Polega na
jednokrotn)'Pl ba4anip testem gruPy osób:

96
5. Jakich informacji o teście dostarcza testowanie?

5.1.5. Zgodność ocen sędziów

Innym sposobem szacowania rzetelności może być stopień zgodności ocen


wydawanych przez sędziów kompetentnych. Metoda ta stosowana jest najczę­
ściej w przypadku testów, w których pytania mają charakter otwarty i nie ma
klucza pozwalającego na jednoznaczną ocenę odpowiedzi badanych. Sędziowie
przyznają punkty za odpowiedzi na pozycje testowe tych samych osób. W przy-
padku tej metody ważne jest, aby sędziowie byli dobrze zaznajomieni z przyję­
tymi kryteriami oceny, a także, by ich oceny były niezależne od siebie. Miarą
rzetelności jest tu stopień zgodności między sędziami. Jeżeli test ocenia dwóch
sędziów, najczęściej oblicza się prosty współczynnik korelacji (np. r-Pearsona),
w przypadku większej liczby oceniających wykorzystuje się współczynnik kore-
lacji W-Kendalla (zob. np. Brzeziński, 1996). Wartość (od O do 1) współczynnika
wskazuje na stopień zgodności między sędziami - im wyższa wartość, tym wyż­
sza zbieżność ocen. Warto zauważyć, że w wypadku analizy zgodności sędziów,
uzyskany współczynnik w istocie informuje o rzetelności ocen dokonanych przez
sędziów.
Źródłem błędu omawianej metody szacowania rzetelności jest subiektywność
ocen sędziów. Na współczym1ik zgodności mogą bowiem wpływać różnice po-
między sędziami. Duża rozbieżność w ocenach wskazuje na znaczący udział
czynników subiektywnych. Przykładem narzędzia, w którym zastosowano oma-
wianą metodę jest Test Niedok011czonych Zdań Rotłera (Jaworowska i Matczak,
1998). Test ten składa się z początków zdal1., które osoba badana ma uzupełnić
zgodnie ze swoimi skojarzeniami i odczuciami. Na podstawie przyjętych kryte-
riów, diagnosta przyznaje punkty za każde uzupełnienie. Jak zauważają autorki
polskiego opracowania, przy tego rodzaju procedurze istnieje element subiek-
tywizmu. Problem rzetelności wiąże się z pytaniem, czy gdyby ten sam arkusz
odpowiedzi oceniały różne osoby, to wynik ogólny byłby taki sam czy też nie.
Badając rzetelność tego testu, wylosowano po 30 protokołów mężczyzn i ko-
biet z każdej z trzech wersji testu. Następnie odpowiedzi osób badanych ocenia-
ne były przez dwóch sędziów kompetentnych, dysponujących kryteriami oceny.
W celu ustalenia zbieżności między sędziami, obliczono współczynnik korelacji
rangowej p Spearmana. Wartości korelacji wahały się od 0,89 do 0,97.
Zgodność ocen sędziów zastosowano również w Teście Płynności Figuralnej
Ruffa (RFFT) (Łojek i Stańczak, 2007). W teście tym osobie badanej prezentuje
się kwadraty z rozmieszczonym w nich układem kropek oraz bodźców zakłócają­
cych. Zadaniem badanego jest połączenie linią prostą co najmniej dwóch kropek
tak, aby powstała nowa figura. Badający zlicza liczbę unikalnych połączel1 oraz
liczbę błędów perseweracyjnych. Autorki polskiej adaptacji zwracają uwagę, że
w RFFT mogą się pojawić rozbieżności w ocenianiu, wynikające z różnorodno­
ści możliwych do popełnienia pomyłek perseweracyjnych. Badacz może czasem
błędnie zakwalifikować jako poprawną figurę powtórzoną lub jako niepoprawny 97
Konrad Jankowski, Marcin Zajenkowski

wzór oryginalny. W związku


z tym, zdecydowano się oszacować rzetelność me-
todą zgodności sędziów, aby określić,
na ile jednoznaczny jest algorytm ocenia-
nia. Uzyskany wysoki współczynnik W-Kendalla wskazywał na dużą zbieżność
ocen trzech sędziów oraz mały wpływ czynników subiektywnych.
c c c
Zgodność oce~.csędzi6wsłuiY dobadaniąrzetell1o~cipoll1iarptestem~razws~a~j~,
na ile obiektyWnajestocenaodpowiedzios6b badanych. Polega na tym, że te same
arkusze odpowiedzi są oceniane. przez sędziów c kompetentnych.

5.1.6. Porównanie metod szacowania rzetelności

Przed wybraniem metody estymacji rzetelności, należy uwzględnić specyfikę


testu oraz czynniki wpływające na wartość danego współczynnika. Każdy z nich
bowiem, mówi o innym, specyficznym źródle błędu. Poniżej prezentujemy skró-
towe zestawienie wszystkich metod szacowania rzetelności (tabela 5.3.).

Tabela 5.3. Zestawienie metod szacowania rzetelności

1 2 3 4
Metoda Źródło błędu specy- Informacje o teście Najczęstsze zastoso-
ficzne dla metody wanie
Wiarygod- Losowe zmiany W jakim stopniu Testy, w których
ność testu związane ze stanem test jest wrażliwy na uczenie się nie ma
osoby badanej i sytu- przypadkowe zmiany wpływu na wyniki np.
acją badania związane z osobą testy motoryczne;
badaną i sytuacją testy na czas reakcji
testowania
Stabilność Losowe zmiany W jakim stopniu Przy pomiarze cech
bezwzględna związanez upływem wyniki testu są stałe np. kwestionariusze
czasu w czasie osobowości, testy
inteligencji
Równoważ- Dobór pozycji do Stopień podobień- Rzadko stosowana
ność wersji testu stwa między wersjami metoda
międzyte s- alternatywnymi testu
towa
Stabilność Dobór pozycji do Stopień podobień- Przy pomiarze cech
względna wersji testu stwa między wersjami np. kwestionariusze
alternatywnymi testu. osobowości, testy
W jakim stopniu inteligencji
pomiar jest stały
w czasie

98
5. Jakich informacji o teście dostarcza testowanie?

Tabela 5.3. c.d.

1 2 3 4
Metoda po- Dobór pozycji do W jakim stopniu test Testy, w których
lówkowa polówek testu jest jednorodny pozycje mają różną
trudność np. testy
inteligencji
Zgodność Niejednorodność W jakim stopniu test Testy, w których po-
wewnętrzna pozycji testu jest jednorodny zycje są równolegle
np. kwestionariusze
osobowości; testy
mierzące style, stany

Zgodność Niejasne kryteria W jakim stopniu na Testy, w których brak


ocen sędziów oceny odpowiedzi; ocenę odpowiedzi jednoznacznych
rozbieżność ocen osób badanych kryteriów oceny od-
sędziów wpływają czynniki su- powiedzi, np. metody
biektywne związane swobodne
z oceniającymi

5.1.7. Metody szacowania rzetelności w SPSS


W części tej zostaną zaprezentowane procedury obliczania wczcśniej omó-
wionych współczynników rzetelności, za pomocą pakietu statystycznego SPSS.
Każda omówiona metoda zawiera przykład, który został policzony na danych
znajdujących się na dołączonej do podręcznika płycie. W tekście, w nawiasach,
znajdują się nazwy plików zawierających dane, na których był liczony konkretny
przykład.

5.1.7.1. Metody dwukrotnego badania tej samej grupy osób


W części tej zostanie opisany sposób obliczania wiarygodności testu, stabil-
ności bezwzględnej, równoważności międzytestowej i stabilności względnej
w SPSS. W metodach tych jako współczynnik rzetelności traktowana będzie
wartość korelacji r-Pearsona między pierwszym a drugim pomiarem danym te-
stem (dla wiarygodności testu i stabilności bezwzględnej) albo między pomiarem
testem pierwszym a drugim (dla równoważności międzytestowej i stabilności
względnej). Mówiąc inaczej, miarą rzetelności pomiaru testem będzie wielkość
korelacji między dwoma zbiorami wyników danej grupy osób. Wymienione me-
tody zostaną omówione razem, gdyż sposób postępowania w przypadku każdej
z nich jest identyczny. Procedura postępowania zostanie omówiona na przykła­
dzie.
W pierwszym kroku należy uzyskać dwa zbiory wyników testu na danej gru-
pie osób i policzyć dla każdej osoby wynik otrzymany (sumaryczny wynik w te-
ście). 99"
Konrad Jankowski. Marcin Zajenkowski

Rysunek 5.1. Okienko arkusza danych z wynikami testu przygotowanymi do analizy sta-
bilności bezwzględnej

W prezentowanym przykładzie (plik danych: stabilnosc.sav) przebadano 100


osób dwa razy tym samym testem z tygodniową przerwą między pomiarami
(czyli przeprowadzono badanie stabilności bezwzględnej). Test, którego rze-
telność sprawdzono, składa się z 10 pozycji. W sumie można było uzyskać od
10 do 20 punktów. Obliczono wyniki całkowite dla każdej osoby, w pierwszym
i drugim pomiarze tym testem, które następnie wprowadzono do arkusza danych
SPSS. Wiersze reprezentują kolejne osoby badane, a kolumny - wyniki otrzyma-
ne w pierwszym i drugim badaniu (rys. 5.1.). W następnej kolejności należy obli-
czyć korelację między oboma zbiorami wyników. Jak wspomnieliśmy wcześniej,
istotne jest również sprawdzenie równości średnich z obu pomiarów. W tym celu
należy wejść w: Analiza -> Porównywanie średnich -> Test t dla prób zależnych
(rys. 5.2.).

Raporty warstwowe •
Opis statystyany •

............
Tabele specjalne •
,1IlI1I1IIIIIIII Średnle ...
. Ogólny modelllniowy Test t dla jednej próby •..
Modele mie&zane • Testt dla prób niezależnych ...
Korelatje
Regresja • Jedno~wa ANOVA ...
... Ii. u.

Rysunek 5.2. Okienko wyboru testu t dla prób zależnych

100
5. Jakich informacji o teście dostarcza testowanie?

Rysunek 5.3. Okienko testu t dla prób zależnych

Po przerzuceniu zmiennych pomimol i pomiar2, należy kliknąć OK (rys. 5.3.).

100 .m .001i

Ist.1M'.
I (II 4""'_)

Rysunek 5.4. Wydruk analizy testu t dla prób zależnych

Ukaże się wydru k analizy (rys. 5.4.). Z tabeli dolnej "Test dla prób zależ­
iły róż­
nych" można odczytać istotność dwustronną, która wskazuje, czy wystąp
przykładzie
nice między średnimi pomiaru 1 i pomia ru 2. W prezentowanym
onna jest większ a od wartośc i 0,05.
różnice nie wystąpiły, gdyż istotność dwustr
pomiar ami, możem y
Skoro spełnione jest założenie o równości średnich między
acje dla prób zależny ch".
odczytać wartość korelacji r-Pearsona z tabeli "Korel
ie istotno ści p<O,OO l. Zatem rzetelność naszego
Wynosi ona 0,982 przy poziom
aż nie wy-
testu badana metodą stabilności bezwzględnej wynosi 0,982. Poniew
lub obniże nie wyników
stąpił żaden efekt, który powodowałby podwyższenie
stwierdzenie, że wyniki tego
(średnie pomia rów nie różnią się), uprawn ione jest
testu są stałe w czasie.

101
Konrad Jankowski, Marcin Zajenkowski

5.1.7.2. Metoda połówkowa w SPSS


W części tej zostanie przedstawiony sposób obliczania rzetelności metodą po-
łówkową Spearmana-Browna w SPSS na poniższym przykładzie.
Skonstruowano kwestionariusz osobowości, składający się z 20 pytań. Zbadano
jego rzetelność za pomocą metody połówkowej. Przebadano w tym celu 60 stu-
dentów. Ich wyniki zapisano w arkuszu danych programu SPSS (plik danych:
połówkowa.sav). W wierszach znajdują się wyniki kolejnych osób, a w kolum-
nach o nagłówkach pl, p2, ... , p20 znajdują się odpowiedzi na kolejne pytania
(rys. 5.5.).

m~~1~~~
l'I!I; Edl'li>! Analiza WY"_ "'2!Jdil!l {
\\jifGl; ~ p!~
, .... " ............. .,... ..,,,
"

Rysunek 5.5. Okienko arkusza danych z wynikami testu przygotowanymi do analizy rze-
telności metodą połówkową

Aby obliczyć rzetelność należy wejśćdo: Analiza->Skalowanie->Analiza rze-


telności(rys. 5.6.). Następnie należy zaznaczyć model połówkowy oraz przerzu-
cić wszystkie pozycje testu do okna "Elementy" (rys. 5.7.).

Porównywanie średnich ,It"',,·,·,,··:·~:, ..... r"'·';"';"',",·":"·' I

Ogólny m.delliniowy
",.,.la,,,,

._,3_
Modele
Korelaq.,
Regresja
Analily il>gIIniowe
!(laByfikacja
RedukCJi' danym

Testy rneparamełryc:zne ,

Maizy pfleźycta
W.,lokrome odpoWiedzi •

Rysunek 5.6. Okienko wyboru analizy rzetelności

102
5. Jakich informacji o teście dostarcza testowanie?

Rysunek 5.7. Okienko analizy rzetelności z zaznaczonym modelem połówkowym

Wydruk analizy rzetelności metodą połówkową prezentuje rys. 5.8.

1nf00000acja o anatizowanych danych


N %

m~ 60 10Q,O
~(ai O ,O
~ 60 1QO.0
11., Usuwanie obserwaQaml ze wanalizie,
5tatyslytll rzetelOOści
Częsc 1 wartosc ,0\$4
Liczba pozycji 1(){a)
Część 2 wartość ,263
Uczba~~ 10(bJ
,&;"ą{~mM§.~ 20
~~~~I'ffi9.u ,542

,703
lWil,ą!!U~i! t:!-~JJ!lY!JM!&l!ł~ ,703
~R9~P'~~~ ,664

ll,. Pozycjami są. pl, p2. 1)3, p4, pS, p6, p7, pS. p9, p10.
lt Pozyqaml są: p11, p12, p13, p14, p15, p16, p17, p18, p19, p20

Rysunek 5.8. Wydruk analizy rzetelności metodą połówkową

Rzetelność powyższego testu zbadana metodą połówkową wynosi 0,703.


Współczynnik Spearmana-Browna w tym przykładzie jest taki sam przy zało­
żeniu równej i nierównej długości testu. Wm10ści te różniłyby się nieznacznie,
gdyby test składał się, inaczej niż w powyższym przykładzie, z nieparzystej licz-
by pozycji.
Korelacja międzypołówkowa to współczynnik korelacji r-Pearsona między
wyodrębnionymi połowami testu. Po podstawieniu tej wartości (0,542) do wzoru
5.1, w miejsce rpp uzyskalibyśmy wyliczoną wartość współczynnika Spearmana-
-Browna przy założeniu o równej długości.
103
Konrad Jankowski, Marcin Zajenkowski

Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą


połówkową dla wcześniejszego przykładu.

RELIABILITY I
/VARIABLES=pl p2 p3 p4 p5 p6 p7 p8 p9 plO pll pl2 pl3 pl4 p15 p16 p17
p18 pl9 p20
ISCALE(' ALL VARIABLES') ALLlMODEL=SPLIT.

Podział na połowy dokonuje się w taki sposób, że do pierwszej części zalicza


siępozycje od pl do plO a do drugiej pozostałe. Aby zbadać rzetelność połówko­
wą przy innym podziale testu na połowy, np. dzieląc go na pozycje parzyste i nie-
parzyste, należałoby w polu "Elementy" (rys. 5.7.) wprowadzić najpierw pozycje
o numerach nieparzystych (czyli 1,3,5 itd.), a następnie o numerach parzystych
(czyli 2, 4, 6 itd.). Wiersz poleceń wyglądałby wtedy następująco:

RELlABILITY
/VARIABLES=pl p3 p5 p7 p9 pll p13 pl5 pl7 pl9 p2 p4 p6 p8 plO pl2 p14
pl6 pl8 p20
ISCALE('ALL VARIABLES') ALLlMODEL=SPLIT.

5.1.7.3. Alfa Cronbacha w SPSS


W części tej zostanie przedstawiony sposób obliczania zgodności wewnętrznej
za pomocą alfy Cronbacha w SPSS na poniższym przykładzie.
Skonstruowano kwestionariusz osobowości, składający się z 20 pytań, i za-
planowano zbadać jego zgodność wewnętrzną. Przebadano w tym celu 60 osób,
a ich wyniki zapisano w arkuszu danych programu SPSS (alfa.sav). W wierszach
znajdują się wyniki kolejnych osób, a w kolumnach o nagłówkach pl,p2, ... ,p20
znajdują się odpowiedzi na kolejne pytania. Aby policzyć alfę Cronbacha, należy
wejść do: Analiza-> Skalowanie->Analiza rzetelności (rys. 5.6.).
Wszystkie pozycje, składające się na skalę, której zgodność będzie badana,
należy przerzucić do okna "Elementy:" (rys. 5.9.). Należy zwrócić uwagę, czy
w okienku "Model:" zaznaczonajest "Alfa". Po kliknięciu przycisku "Statystyki",
pokaże się okno (rys. 5.10.), w którym warto zaznaczyć opcję "Skala przy wy-
kluczeniu pozycji". Opcja ta umożliwia przewidzenie wartości alfy, jeśli usunięto
by daną pozycję z analizy rzetelności. Po kliknięciu "Dalej" i "OK", pojawią się
wydruki przeprowadzonej analizy (rys. 5.11.).
Wartość alfy należy odczytać z okna "Alfa Cronbacha". Dla analizowanego
kwestionariusza wynosi ona 0,715. Z tabeli "Statystyki pozycji Ogółem" można
odczytać, że zgodność wewnętrzna tego kwestionariusza wzrosłaby najbardziej,
104 gdyby usunąć pozycję p13, i wyniosłaby wtedy 0,728. Zatem, można zwiększać
5. Jakich informacji o teście dostarcza testowanie?

zgodność wewnętrzną poprzez eliminowanie pozycji testu, które zmniejszają


jego rzetelność.
Poniżej znajduje się wiersz poleceń do wykonania analizy rzetelności metodą
alfy Cronbacha dla powyższego przykładu.

RELIABILITY
IVARIABLES=pl p2 p3 p4 p5 p6 p7 p8 p9 plO pll p12 p13 p14 p15 p16 p17
p18p19p20
/SCALE(' ALL VARIABLES') ALL/MODEL=ALPHA
ISUMMARY=TOTAL .

Rysunek 5.9. Okienko analizy rzetelności z zaznaczoną alfą Cronbacha

Rysunek 5.10. Okienko statystyki w analizie rzetelności

105
Konrad Jankowski, Marcin Zajenkowski

statystykll'let~lntlści

Stil\Y$llllll po~cP OgÓ!6Il.

Alfa
CronbaCł)S
o usunięciu
P02Ytji
pl 47,68 31,831 ,691
p2 48,03 41,413 ,720
p3 4B,60 36,912 .421 ,690
1'4 48,38 37,529 ,517 ,685
pS 4B,27 37,%2 ,320 ,701
p6 47,43 37,131 ,530 ,6B3
p7 48,13 40,219 ,119 ,723
p6 47,78 38,545 ,443 .693
p9 48,43 37,741 ,364 0696
plO 47,92 3UOO ,502 .685
pll 48,07 41,758 ,048 ,724
p12 48,40 40,447 ,H9 ,713
pi3 47,77 42,555 -,Q15 ,728
pi4 47,35 38,082 ,325 .700
Irl5 48,42 38,145 ,314 ,702
1'16 47,35 40,638 ,167 ,714
1'17 47,93 38,572 ,266 ,707
pH 47,67 39,446 ,386 ,a9a
p19 48,05 41,913 ,041 .724
plO 47,52 41,000 ,368 ,105

Rysunek 5.11, Wydruk analizy rzetelności metodą alfy Cronbacha

5.1.7.4. Rzetelność pomiaru testem jako zgodność sędziów w SPSS


W części tej zostanie przedstawiony sposób obliczania zgodności sędziów
w SPSS na poniższym przykładzie,
Skonstruowano test rysunkowy do badania nasilenia depresyjności u dzieci.
Polega on na poproszeniu dziecka o narysowanie domu na czystej kartce A4, stan-
dardowym, dwunastokolorowym zestawem kredek. Przebadano nim dziesięcioro
dzieci. Ponieważ nie ma prostego klucza przyznawania punktów za wykonanie
tego testu (tzn. nie ma szablonu, który można by przyłożyć do rysunku i zliczyć
punkty), poproszono trzech sędziów o ocenę wykonania każdego testu i przyznanie
odpowiedniej liczby punktów w zależności od nasilenia depresyjności. Sędziowie
dysponują kryteriami do przyznawania punktów, gdzie O oznacza brak depresji,
a 10 - jej wysokie nasilenie. Oceny testów zostały przedstawione na rys, 5.12.

Rysunek 5.12. Okienko arkusza danych z wynikami przygotowanymi do analizy zgodno-


1 Oh ści sędziów
5. Jakich informacji o teście dostarcza testowanie?

Każdy wiersz reprezentuje sędziego, a kolumny - kolejne dzieci, których testy


były oceniane. Zaznaczona komórka reprezentuje ocenę przeprowadzoną przez
trzeciego sędziego testu wykonanego przez dziecko numer 10. Tak przygotowane
dane można podać analizie zgodności sędziów (zgodnosc_sedziow.sav). W tym
celu należy wejść do: Analiza-> Testy nieparametryczne-> K prób zależnych
(rys. 5.13.) i przenieść wszystkie zmienne do okna "Zmielme testowane" oraz
zaznaczyć na dole test "W Kendalla" Uednocześnie odznaczając "Friedman", dla
przejrzystości wydruku analiz) (rys. 5.14.).

POI'ÓWf1Y'1\'anie s-ednkh
Ogółny model liniowy
Modele mieszane
Koreta.."je
R.egresja

.........
Analizy loglinicl'",e •
Klasyfikacja •
Redukcja danych •
Skalowanie •
Chi-kwadrat...
Szeregi czasowe • Dwumianowy •..
MWY prze:źyda • Serii...
Wiełokroll1e odpowredzl • KoS d!aJednej próby ...

Rysunek 5.13. Okienko wyboru analizy zgodności sędziów

Rysunek 5.14. Okienko testów dla kilku prób zależnych z zaznaczonym W-Kendalla

107
Konrad Jankowski, Marcin Zajenkowski

051
os2
os3 5,00
054 2,33
0$5 3,50
056 1,00
os7 4,67
os8 8,33
059 5,67
os10 8,67

5ła1ysl:yki testu
3
,919
24,811
9
,003

Rysunek 5.15. Wydruk analizy W-Kendalla

Rys. 5.15. przedstawia wydruk analiz. Najbardziej interesujący jest współ­


czynnik W-Kendalla, który wynosi 0,919, przy poziomie istotności 0,003
(W = 0,913; chi 2(9) = 24,811; p<O,OI). Oznacza to, że sędziowie dość zgodnie
ocenili testy wykonane przez poszczególne dzieci, co oznacza wysoką rzetel-
ność tego testu.

Poniżej znajduje się wiersz poleceń do obliczenia współczynnika W-Kendalla


dla zaprezentowanego przykładu.

NPAR TESTS
/KENDALL = osI os2 os3 os4 os5 os6 os7 os8 os9 oslO
/MISSING LISTWISE.

Pytania sprawdzające

1. Wyjaśnij, w jaki sposób założenie o równoległości testów odnosi się do


wszystkich omówionych metod szacowania rzetelności.
2. Wskaż podobieństwa i różnice między współczynnikiem stabilności bez-
względnej a współczynnikiem stabilności względnej.
3. Zbadano dwukrotnie 100 osób pewnym kwestionariuszem osobowości w od-
stępie 2 tygodni. Uzyskano korelację pomiędzy pomiarami równą 0,8 oraz
108 istotne statystycznie różnice w średnich w obu badaniach. Czy na podstawie
5. Jakich informacji o teście dostarcza testowanie?

uzyskanych wyników możemy powiedzieć, że kwestionariusz ten jest stabil-


ny czasowo? Uzasadnij odpowiedź.
4. Od czego zależy długość przerwy czasowej w badaniu stabilności względnej?
5. Skonstruowano test inteligencji płynnej, w którym poziom trudności zadań
wzrasta stopniowo. Jakiej metody szacowania rzetelności w grupie dzieci na-
leżałoby użyć w tym przypadku? Uzasadnij wybór.
6. W pewnym teście ocenia się osobowość osób badanych na podstawie ich
skojarzeń z określonymi słowami. Badani mają zapisywać wszystkie skoja-
rzenia, jakie przychodzą im do głowy w związku z danym słowem. W celu
oszacowania rzetelności tego testu, arkusze odpowiedzi osób badanych przed-
stawiono trzem kompetentnym psychologom. Poproszono ich, aby na pod-
stawie określonych kryteriów ocenili każdą odpowiedź badanych na skali
od l do 3. Następnie obliczono współczynnik W-Kendalla i uzyskano war-
tość 0, l. O czym świadczy ten wynik?

Zadania
1. W pewnym teście inteligencji postanowiono obliczyć rzetelność metodą po-
łówkową. Po zbadaniu odpowiedniej grupy osób, podzielono test na dwie
połówki. W jednej znajdowały się pozycje parzyste a w drugiej nieparzyste.
Następnie obliczono współczynnik korelacji między połówkami, który wyno-
sił 0,6. Oblicz rzetelność tego testu.
2. Poniżej, w tabeli 5.4., przedstawiono wyniki pięciu osób uzyskane w pewnym
kwestionariuszu osobowości. Kwestionariusz składał się z czterech pozycji,
a zakres możliwych odpowiedzi wyrażony był na trój stopniowej skali (od l
do 3). Oblicz jego zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha
na podstawie przedstawionych danych.

Tabela 5.4. Wyniki pięciu osób w kolejnych, czterech pozycjach testowych

Pozycje testowe
Osoby
1234
1 221 1
2 2122
3 3323
4 2222
5 1232

109
Konrad Jankowski, Marcin Zajenkowski

Zadania w SPSS
Poniżej prezentujemy zadania do obliczenia w SPSS. Dane zawarte są na pły­
cie dołączonej do podręcznika.
l. Sk0J.1struowano kwestionariusz mierzący pewną cechę osobowości.
Przebadano nim dwukrotnie 100 osób w odstępie 3 tygodni. Uzyskane dane
zawiera zbiór o nazwie "rzetelnoscl.sav". Wybierz odpowiednią metodę i zin-
terpretuj uzyskany współczynnik rzetelności.
2. Pewnym kwestionariuszem osobowości, składającym się z 20 pytań, zbadano
120 osób. W zbiorze danych o nazwie "rzetelnosc2.sav" przedstawiono od-
powiedzi badanych na każde pytanie. Założono, że wszystkie pozycje mają
podobne wskaźniki trudności i są względem siebie równoległe. Wybierz naj-
odpowiedniejszą metodę i zinterpretuj uzyskany współczynnik rzetelności.
3. W zbiorze danych "rzetelnosc3.sav" zawarto wyniki 60 osób uzyskanych
w pewnym teście inteligencji. Test składał się z 20 zadall. W każdym z nich
badani mogli uzyskać l punkt za poprawne rozwiązanie lub O za odpowiedź
niepoprawną. Zadania miały rosnący stopień trudności. Wybierz odpowiednią
metodę i zinterpretuj uzyskany współczynnik rzetelności.
4. Skonstruowano pewien test do badania pamięci wzrokowej. Polega on na
tym, że osobie badanej prezentuje się pewną figurę przez 3 minuty, po czym,
po 10 minutach, prosi się osobę, aby odtworzyła ją z pamięci. Diagnosta, na
podstawie przyjętych kryteriów, ocenia wykonanie zadania na skali od 1 do
10. W celu zbadania rzeteh10ści tego testu poproszono trzech kompetentnych
psychologów o ocenienie rysunków 20 osób. Dane z tego badania zawiera
zbiór o nazwie "rzetelnosc4.sav". Wybierz odpowiednią metodę i zinterpretuj
uzyskany współczynnik rzetelności.

110
Adam Tarnowski
WYDZIAŁ
PSYCHOLOGII
UNIWERSYTET WARSZAWSKI
Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE

5.2. Trafność pomiaru testem


W niniejszym rozdziale przedstawione zostaną najważniejsze informacje doty-
czące trafności pomiarów dokonywanych przy użyciu testów psychologicznych.
Omówione zostaną trzy główne rodzaje trafności oraz sposoby ich szacowania.

5.2.1. Pojęcie trafności i jej związek z innymi właściwościami testu


Tradycyjnie trafność pomiaru testem rozumiana jest jako właściwość wskazu-
jąca, czy test istotnie mierzy to, do mierzenia czego został skonstruowany. Innymi
słowy, trafność pomiaru testem to stopień, w jakim interpretacja jego wyników
jest zgodna ze stanem faktycznym. Jednak bardziej ogólnie można powiedzieć,
że trafność pomiaru testem informuje o tym, jakie wnioski mogą być wyciąga­
ne na jego podstawie. Przykładowo trafność może dotyczyć takich zagadnień,
jak: W jakim stopniu wyniki testu A mierzą zdolności matematyczne?; W jakim
stopniu można przewidywać powodzenie na studiach na podstawie wyników
testu B?; Czy kwestionariusz C dobrze diagnozuje chorobę alkoholową?; Czy
test D mierzy jedynie inteligencję czy też jakieś inne właściwości psychiczne
człowieka? Jak widać we wszystkich tych przykładach chodziło o konkretne
zastosowanie testu, a także o możliwości interpretacyjne uzyskanych wyników.
Zatem np. trafny test inteligencji informuje wiernie o poziomie inteligencji czło­
wieka, a decyzje podjęte na jego podstawie, takie jak np. skierowanie dziecka do
szkoły specjalnej, są słuszne i zgodne ze stanem rzeczywistym. W poruszonym
przykładzie oznaczałoby to, że dziecko wymaga specjalnego toku nauczania ze
względu na upośledzenie. Co więcej, w toku badań nad trafnością może okazać
się, że możliwości interpretacyjne wyników danego testu mogą być szersze nić
początkowo zakładano.
Zmienne, takie jak inteligencja, czy też ekstrawersja wykazały swoją użytecz­
ność w wielu badaniach naukowych i praktyce psychologicznej. Za ich pomocą
można wyjaśniać, opisywać i przewidywać zachowanie ludzi. Takie wewnętrzne
ukryte właściwości człowieka nazywamy zmiennymi latentnymi (nieobserwo-
walnymi), natomiast odzwierciedlające je wyniki testowe - zmiennymi mani-
festowanymi. W psychologii, podobnie jak w wielu innych naukach, istnienie
tego typu zmiennych postulują określone teorie naukowe. Historia psychologii
111
Adam Tarnowski, Krzysztof Fronczyk

dostarcza jednak również przykładów pojęć, których użyteczność okazała się


bardzo niska. Dlatego badanie trafności pomiaru testem dobrze jest zacząć od
refleksji dotyczącej tego, co w zasadzie chcemy mierzyć oraz czy cecha, którą
test mierzy, jest rzeczywiście wymiarem pomagającym zrozumieć zachowanie
człowieka. Budując test inteligencji zakładamy, że taka zmienna, jak "inteligen-
·cja" istnieje naprawdę, niezależnie od konkretnego testu, czyli że jest ona czymś
więcej niż tylko wynikiem testu. Co więcej, na podstawie wyniku testu inteligen-
cji chcemy wyciągać niekiedy daleko idące wnioski, np. o przydatności osoby do
pracy, szansach na ukończenie szkoły itd.
To założenie o istnieniu danej cechy wynika z konkretnej teorii psycholo-
gicznej, a pośrednio potwierdzone jest przez wyniki badań empirycznych. Sama
cecha jest jednak nie obserwowalna, a jej istnienie założone jest jedynie przez
teorię. Oznacza to, że trudno jest zbudować dobry test na podstawie złej teorii
psychologicznej, która np. w mało jasno sposób definiuje daną cechę czy też nie
precyzuje jej przejawów. Pewnym wyjątkiem od powyższej zasady są testy ukie-
runkowane na przewidywanie kryteriów. Dokładniej będzie o nich mowa w cZ't-
ści poświęconej trafności kryterialnej (patrz punkt 5.2.2.3.).
Trafność jest najważniejszą własnością testu. Zależy ona od innych właści­
wości, na które autorowi testu łatwiej jest wpływać. Aby test był trafny, musi
spełniać warunki: rzetelności, normalizacji, standaryzacji i obiektywizmu (oczy-
wiście są to warunki wzajemnie powiązane). Są to warunki konieczne trafności
pomiaru testem, jednak nie są one wystarczające. Aby pomiar testowy był trafny,
musi on dodatkowo być dobrym wskaźnikiem badanej zmiennej latentnej. Zanim
jednak zajmiemy się sposobami dowodzenia związku między wynikami testu
a nieobserwowalną bezpośrednio cechą psychologiczną, przekonajmy się, w jaki
sposób trafność zależy od pozostałych cech testu.
Test o nieustalonej standaryzacji nie może być trafny, ponieważ jego wynik
będzie zależał od niesystematycznych wpływów odmiennie podawanej instrukcji
i różnego zachowania się badającego psychologa w stosunku do różnych osób
badanych. Niewłaściwa instrukcja może nie wzbudzić należytej motywacji do
poprawnego wykonywania zadań lub też po prostu nie wyjaśnić ich w dostatecz-
nym stopniu. Uzyskany wynik będzie zafałszowany, a więc wnioski wyciągnięte
na jego podstawie z pewnością nie będą prawidłowe.
Jeśli nie będą ustalone w sposób jasny zasady interpretacji wyników, a więc
test nie będzie obiektywny, wnioski wyciągane na jego podstawie będą niepra-
widłowe. Psycholog musi zdawać sobie sprawę z tego, do jakich wniosków test
go upoważnia, do jakich zaś nie. Częstym błędem jest wnioskowanie na pod-
stawie testu o cechach, do których odnosi się on pośrednio. Badanie trafności
musi dotyczyć nie tylko testu jako jednej całości, lecz także każdego rodzaju
wniosków, które mogą być wysnuwane na podstawie jego wyników. Tak więc
112 wnioski z testu muszą być ograniczone do sytuacji, w których został on spraw-
5. Jakich informacji o teście dostarcza testowanie?

dzony. Obiektywizm testu, a więc zbiór reguł dochodzenia od wyników testu do


wniosków diagnostycznych, jest warunkiem jego trafności.
Normalizacja (zagadnienie to szerzej opisano w rozdziale 6.2.) oznacza za-
opatrzenie testu w pewien układ odniesienia. Dzięki normom testowym możemy
wiedzieć, że dany wynik jest niski, przeciętny lub też wysoki na tle populacji.
Oznacza to, że jeśli chcemy wyciągać z testu poprawne wnioski, musimy posia-
dać odpowiedni dla danej sytuacji układ odniesienia. Dobrym przykładem ilu-
strującym ten problem są testy koordynacji, wykorzystywane w badaniach kie-
rowców. Normy do tych testów zostały ułożone na podstawie badań mężczyzn.
Kobiety z reguły uzyskują w podobnych zadaniach niższe wyniki niż mężczyźni.
Zatem kobieta badana tego typu testem, uzyskująca wynik przeciętny w grupie
kobiet może zostać oceniona jako osoba o obniżonym poziomic badanej cechy,
gdyż jej wynik został porównany z normami opracowanymi dla mężczyzn. Brak
adekwatnej normalizacji powoduje błędne wnioski, a zatem zakłóca również traf-
ność pomiaru testem. Oczywiście próg nakazujący uznanie osoby za niezdolną do
prowadzenia pojazdu powinien być ustalony obiektywnie i niezależnie od płci,
jednak trzeba pamiętać, że kobieta uzyskująca w teście wynik przeciętny według
norm dla mężczyzn charakteryzuje się koordynacją powyżej średniej dla kobiet.
Powyższe uwagi dotyczą sytuacji diagnozy indywidualnej, nie zaś badań na-
ukowych, w których dopuszcza się wykorzystywanie nieznormalizowanych wy-
ników testowych. W badaniach naukowych nie formułuje się zwykle wniosków
dotyczących pojedynczych osób, a jedynie całych grup badanych. W takiej sy-
tuacji nie są więc potrzebne normy, a tym samym nie wpływają one na trafność
formułowanych wniosków.
W szczególny sposób powiązane są pojęcia trafności i rzetelności. Rzetelność,
przypomnijmy, oznacza dokładność, precyzję pomiaru. Test rzetelny to test
obarczony małym błędem. Nierzetelny test nie może być trafny, gdyż duży błąd
pomiaru uniemożliwia sformułowanie jakichkolwiek wniosków. Mówimy, że
rzetelność jest granicą trafności pomiaru testem, warunkiem koniecznym po-
prawnego wnioskowania.
Warunek ten nie jest jednak wystarczający, gdyż dokładność pomiaru nie gwa-
rantuje sensowności wniosków. Najdokładniejszy test, czyli test o bardzo wy-
sokiej rzetelności, nie musi mierzyć założonej zmiennej. W celu wykazania, że
tak jest rzeczywiście konieczne są szczegółowe badania trafności, co opisano
w dalszej części.
Warto zasygnalizować również odwrotny problem. Jedna z metod szaco-
wania rzetelności pomiaru testem polega na badaniu jego jednorodności (roz-
dział 5.1.4.). Może zdarzyć się tak, że test o skrajnie wysokim współczynniku
rzetelności, rozumianej jako zgodność wewnętrzna, narażony jest na obniżenie
trafności ze względu na nadmiert1ą jednorodność i jednostronność treści pytań
lub zadań testowych. Wysoka rzetelność wyznaczona w inny sposób, np. za po- 113
Adam Tarnowski, Krzysztof Fronczyk

mocą analizy stabilności testu, nie jest powiązana w żaden sposób z trafnością
pomiaru testem.
Tak więc, aby można było zastanawiać nad trafnością pomiaru testem, należy
w pierwszej kolejności zapewnić, by był on rzetelny, obiektywny, wystandaryzo-
wany i znormalizowany.

5.2.2. Rodzaje trafności

Testy psychologiczne stosowane są w bardzo różnych sytuacjach np. w psy-


chologiipracy, w diagnostyce klinicznej, w poradnictwie szkolnym i zawodo-
wym oraz w badaniach naukowych. Wnioski wyciągane z wyników testów i ich
interpretacja muszą więc być trafne w bardzo różnych sytuacjach i aspektach.
Dlatego, między innymi, wyróżnia się kilka rodzajów trafności. Tradycyjnie
wyodrębnia się trafność teoretyczną, kryterialną i treściową. Taką też klasyfika-
cję rodzajów trafności przedstawiamy w ninicjszym podręczniku. Każdy z tych
trzech rodzajów'trafności ważny jest w innych zastosowaniach testu. Dalej zosta-
ną omówione sposoby szacowania poszczególnych rodzajów trafności, a także
zastosowania, w których są one szczególnie istotne.

5.2.2.1. Trafność treściowa

Trafność treściowa (zwana czasem także wewnętrzną) to stopień, w jakim


treść pozycji testowych jest reprezentatywna dla definicji badanej cechy. Badanie
zgodności pomiędzy definicją zmiennej badanej przez test a zawartością treścio­
wą pozycji jest w zasadzie równoznaczne z oceną trafności treściowej testu.
Najprostszym przykładem ilustrującym zagadnienie trafności treściowej jest
test wiadomości szkolnych, którego pytania powinny dotyczyć w jednakowym
stopniu wszystkich zagadnień omawianych w ramach danego przedmiotu i jedno-
cześnie nie dotyczyć treści nauczanych w ramach innych przedmiotów. Jeśli test
ma służyć badaniu zmiennych psychologicznych, sytuacja nieco się komplikuje.
Należy, korzystając z definicj i zmielmej , jaką ma mierzyć dany test, określić" z j a-
kich obszarów powinny pochodzić poszczególne elementy materiału testowego.
Przykładowo, jeśli postawa wobec pewnego zagadnienia powinna z definicji
zawierać w sobie komponent poznawczy (wiedzę o tym zagadnieniu), emocjo-
nalny (emocje z nim związane) oraz behawioralny (gotowość do podejmowania
pewnych zachowań związanych z tym zagadnieniem), to pozycje testu mierzące­
go ową postawę powinny również zawierać wszystkie powyższe elementy w po-
dobnych proporcjach.
Podobnie, jeśli przyjmie się, żc pamięć robocza obejmuje pamięć wzrokowo-
przestrzenną oraz werbalną, to test oceniający sprawność pamięci roboczej wi-
nien zawierać zadania dotyczące operacji angażujących procesy pamięci realizo-
114 wane zarówno na materiale wzrokowo-przestrzennym, jak i werbalnym.
5. Jakich informacji o teście dostarcza testowanie?

Bardzo ważny jest wybór definicji badanej zmiennej. Analiza definicji umożli­
wia określenie zakresu treściowego mierzonej zmiennej. Istotne jest to, że w psy-
chologii istnieje niejednokrotnie wiele koncepcji dotyczących zbliżonych za-
gadnień. Z tego powodu możliwe jest znalezienie różnych definicji tych samych
zmiemlych. Zależnie od wybom określonej definicji, test może okazać się trafny
bądź też nie. Oceniając trafność treściową, należy sprawdzić, czy wszystkie po-
zycje testowe należą do zakresu wybranej definicji.
Jako przykład może posłużyć tu teoria osobowości Eysencka. Według tego
autora (Strelau, 2001) osobowość składa się z trzech wymiarów: ekstrawersji,
neurotyzmu i psychotyzmu. Załóżmy, że chcemy sprawdzić trafność treściową
skali przeznaczonej do pomiam ekstrawersji. W myśl Eysencka na wymiar eks-
trawersji składają się takie składniki, jak: towarzyskość, żywość, aktywność,
asertywność, poszukiwanie doznań, beztroska, dominacja, wybuchowość oraz
śmiałość. Oznacza to, że w kwestionariuszu przeznaczonym do pomiam ekstra-
wersji powinny znaleźć się pytania będące reprezentatywną próbką wszystkich
tych składników. Nie powinny się tam znaleźć pytania dotyczące np. lęku, gdyż
jest to składnik innego wymiam osobowości według Eysencka - neurotyzmu.
Wykazanie trafności treściowej skali ekstrawersji na podstawie definicji
Eysencka nie oznacza, że skala ta jest również trafna, jeśli pod uwagę weźmie
się jakąś inną definicję. Tak mogłoby się zdarzyć, jeśli odwołalibyśmy się do de-
finicji ekstrawersji, np. zaczerpniętej z koncepcji McCrae i Costy (2005). Mimo
że teorie Eysencka oraz Costy i McCrae są dość zbieżne, to jednak treść pojęć
ekstrawersji jest nieco odmienna.
Przyjęta definicja określa nie tylko elementy składowe danego pojęcia, ale tak-
że proporcje, w jakich powinny być one uwzględnione w narzędziu. Trafność tre-
ściowa dotyczy także tego, czy test proporcjonalnie reprezentuje definiowany
konstrukt.
Proporcje te są szczególnie istotne w przypadku testów wiadomości stosowa-
nych w dydaktyce. Na przykład w teście sprawdzającym z psychometrii znacz-
nie więcej powinno znaleźć się pytań dotyczących zagadnień trafności pomiaru
testem niż etyki badań testowych, gdyż tej pierwszej problematyce poświęca
się znacznie więcej uwagi w trakcie zajęć. W przypadku pomiam właściwości
psychicznych kwestia proporcjonalności uwzględnienia poszczególnych składni­
ków mierzonej zmiennej jest rozwiązywana w ten sposób, że najczęściej wszyst-
kie składniki uwzględnione są w jednakowym stopniu. Rzadko bowiem można
wskazać, który ze składników jest bardziej istotny.
Zbudowanie testu trafnego treściowo powinno zatem polegać na zgromadzeniu
pozycji testowych reprezentatywnych dla badanej zmiennej na podstawie przyję-
tej definicji. Problemem do rozstrzygnięciajest to, na ile zebrane pozycje testowe
rzeczywiście są reprezentatywne dla definicji badanej cechy. Zagadnienie to roz-
wiązuje się najczęściej przy pomocy kilku tzw. sędziów kompetentnych, którymi 115
Adam Tarnowski, Krzysztof Fronczyk

są niezależni eksperci w danej dziedzinie. Sędziowie ci oceniają stopień, w jakim


każda z pozycji testowych odpowiada definicji cechy, którą ma mierzyć. test.
Należy pamiętać, że sędziowie powinni być zgodni w opiniach, co do stopnia
reprezentatywności poszczególnych pozycji testowych dla badanej cechy, a ich
oceny powinny wskazywać, że pozycje testowe odpowiadają definicji skali. Oba
te kryteria muszą być sprawdzone statystycznie. W celu sprawdzenia zgodności
sędziów można wykorzystać współczynnik W-Kendalla. Wartość tego współ­
°
czynnika zmienia się w przedziale od do l. Im wyższa jego wartość, tym wyż­
sza zbieżność ocen sędziów. Wysoki współczynnik W-Kendalla nie oznacza jesz-
cze, że test jest trafuy treściowo, a jedynie, że sędziowie podobnie oceniająjego
pozycje testowe. Konieczne jest jeszcze przyjrzenie się ocenom wystawionym
przez sędziów. Tylko jeśli sędziowie są zgodni i wystawiali wysokie ocęny po-
szczególnym pozycjom testowym, test jest trafny. Oczywiście może się zdarzyć,
że sędziowie są zgodni, ale wystawiali niskie oceny. Oznacza to, że test nie jest
trafny. Może się zdarzyć także, że niektóre pozycje testowe uzyskały oceny wy-
sokic, a niektóre - niskie. Przy dużej zgodności sędziów oznacza to, że te pozycje
testowe, które uzyskały niskie oceny są nietrafne, pozostałe zaś - trafne.
Wykorzystanie sędziów kompetentnych w szacowaniu trafności treściowej
ilustruje następujący fikcyjny przykład. Załóżmy, że zbudowano skalę postawy
wobec zasad bezpieczeństwa ruchu drogowego, rozumianej jako stosunek do for-
malnych i nieformalnych norm regulujących poruszanie się po drogach, wyraża­
jący się w poszukiwaniu informacji, przeżywaniu emocji i stosowaniu się do tych
zasad. Sformułowano 6 pytań dotyczących komponentu poznawczego (pytania l
i 2), emocjonalnego (pytania 3 i 4) i behawioralnego (pytania 5 i 6) tej postawy.
Poproszono trzech sędziów, psychologów społecznych i wojskowych o ocenę,
czy treść każdej z pozycji skali jest zgodna z definicją postawy wobec bezpie-
czeństwa ruchu drogowego. Sędziowie ustosunkowywali się do treści każdego
pytania skali, oceniając je na pięciostopniowej skali: 5 - Całkowicie zgodna z de-
finicją, 4 - Zasadniczo zgodna z definicją, 3 - Zgodna w przeciętnym stopniu
z definicją, 2 - W niewielkim stopniu zgodna z definicją, l - Niezgodna z defini-
cją·
Treść pytań i oceny sędziów zawiera Tabela 5.5.
Korzystając z komputera lub kalkulatora i kartki papieru, można wyliczyć śred­
nie ocen przypisanych poszczególnym pozycjom testowym przez sędziów oraz
wartość współczynnika zgodności sędziów W-Kendalla. W powyższym przykła­
dzie wynosi on 0,765 (sposób obliczania przedstawiono w rozdziale 5.2.5.1.) ijest
istotny statystycznie. Świadczy to o dość dużej zgodności sędziów. Zauważmy,
że sędziowie najgorzej ocenili pozycje 5 i 6, a więc jeśli mamy zamiar skrócić
kwestionariusz, to właśnie te pozycje winny być wyeliminowane.

116
5. Jakich informacji o teście dostarcza testowanie?

Tabela 5.5. Oceny stwierdzeń tworzących skalę postaw, dokonane przez 3 sędziów kom-
petentnych (przykład fikcyjny)

Sędzia Sędzia Sędzia Średnia


Stwierdzenie
I II III ocen
1. Czytając opis samochodu w prasie moto- 5 4 5 4,67
ryzacyjnej, szukam wyników testów zde-
rzeniowych
2. Jadąc samochodem, słucham w radio in- 5 3 5 4,33
formacji pozwalających uniknąć ryzykow-
nych miejsc
3. Bezmyślność kierowców ryzykujących na 5 4 4 4,33
drodze budzi we mnie gniew
4. Czuję się bezpiecznie, kiedy jadę zgodnie 5 4 5 4,67
z przepisami
5. Zawsze jeżdżę w zapiętych pasach 3 2 4 3,00
6. W nieznanej okolicy zawsze stosuję się 4 3 3 3,33
do znaków drogowych

Warto zwrócić uwagę na jeszcze jedno istotne zagadnienie dla zachowania


trafności treściowej testu w procesie ustalania ostatecznego zestawu pyta6 lub
zadań testowych. Autor testu nastawiony na optymalizację rzetelności może mieć
tendencję tworzenia zestawu pytań bardzo jednorodnych, wybierając np. pozy-
cje charakteryzujące się wysokimi wskaźnikami mocy dyskryminacyjncj (patrz
rozdział 5.3.2.). W tcn sposób łatwo wycliminować wszystkie pozycje dotyczące
pewnego aspektu treściowego badanej cechy, a pozostawić pozycje dotyczące
innych aspektów badanej cechy. Wynika to z tego, że pozycje testowe dotyczące
zbliżonych zagadnień są zwykle silniej skorelowane ze sobą niż z pozycjami do-
tyczącymi innych aspektów badanej cechy. Tak więc, jcśli w teście znajdzie się
kilka specyficznych pozycji dotyczących jakiegoś ważnego z treściowego punktu
widzenia zagadnienia, a jednocześnie będą one słabo skorelowane z innymi po-
zycjami testowymi, będą one miały także niskie moce dyskryminacyjne. Jak wia-
domo (rozdział 5.3.2.), pozycje o niskich mocach dyskryminacyjnych są zwykle
eliminowane. W tym jednak wypadku usunięcie takich pozycji może pozbawić
test pewnego istotnego aspektu treściowego. W skalach postaw często ofiarą ta-
kiego postępowania padają pozycje dotyczące czynnika behawioralnego posta-
wy. Z pewnych powodów, które nie będą tu bliżej charakteryzowane (być może
dlatego, że trudno znaleźć dobre wskaźniki, być może po prostu badani mają ten-
dencję do zachowa{l nie zawsze zgodnych z deklarowanymi poglądami), pozycje
tego typu słabo korelują z innymi pozycjami. W efekcie wyeliminowania pozycji
badających aspekt behawioralny powstaje test mierzący cechę, którą można za-
pewne nazwać ustosunkowaniem emocjonalno-poznawczym, ale nie postawą.
117
Adam Tarnowski, Krzysztof Fronczyk

5.2.2.2. Trafność teoretyczna


Najważniejszym, podstawowym i koniecznym rodzajem trafności jest traf-
ność teoretyczna. Ten rodzaj trafności jest to zgodność pomiędzy wynikiem te-
stowym a wartością latentnej cechy, do pomiaru której test został skonstruowa-
ny. Ponieważ zmienne latentne nie są bezpośrednio obserwowalne, sprawdzenie
trafności teoretycznej musi opierać się na metodach pośrednich (Nowakowska,
1975).
Możemy ją badać, oceniając stopień, w jakim wyniki badań naukowych da-
nym testem pokrywają się z oczekiwaniami teoretycznymi. Oszacowanie trafno-
ści teoretycznej polega na formułowaniu hipotez wyprowadzonych z teorii psy-
chologicznej i weryfikowaniu ich w badaniach empirycznych z zastosowaniem
testu, którego trafność teoretyczną chcemy oszacować. Jeżeli więc pewna teoria
przewiduje, że zmienna A powiązana jest ze zmienną B, należy oczekiwać, że
wyniki testu przeznaczonego do pomiaru zmiennej A są skorelowane z wynikami
testu przeznaczonego do pomiaru zmiennej B. Przewidywanie to można spraw-
dzić w odpowiednim badaniu. Wynik potwierdzający istnienie takiej korelacji
będzie potwierdzał także trafność teoretyczną obu testów. Wynik niepotwier-
dzający istnienia wspomnianej korelacji - nie potwierdzi także trafności teore-
tycznej pomiarów testowych. Oczywiście wskaźnikiem trafności nie musi być
współczynnik korelacji, tak jak w opisanym przykładzie. Weryfikowanie hipotez
wyprowadzonych z teorii psychologicznej może odbywać się w różny sposób.
Cronbach i Meehl (2005) wyodrębniają pięć podstawowych sposobów umożli­
wiających oszacowanie trafności teoretycznej. Są to:
• analiza korelacji z innymi testami lub zmiennymi,
• badanie wewnętrznej struktury testu,
• oceny różnic międzygrupowych,
• metoda zmian nieprzypadkowych,
• analiza procesu rozwiązywania testu.
Główna idea każdego z wymienionych sposobów polega na przeprowadze-
niu badania empirycznego, którego wynik i stopień zgodności z oczekiwaniami
teoretycznymi są wskaźnikami trafności teoretycznej. Badanie potwierdzające
przewidywania teoretyczne świadczy o trafności teoretycznej testu. Brak takiego
potwierdzenia uważany również jest za wskaźnik braku trafności teoretycznej
testu.
Pierwszym z wyróżnionych przez Cronbacha i Meehla (2005) sposobów jest
wspomniana już metoda analizy korelacji z innymi' testami lub zmiennymi.
Ważne jest, że pomiar wielkości korelacji wynika z założonej teorii psycholo-
gicznej. Chodzi więc o korelowanie testu z takimi zmiennymi, co do których
istnieje uzasadnione teoretyczne przewidywanie, że powinny być one powiązane
ze zmienną mierzoną przez test.
118
5. Jakich informacji o teście dostarcza testowanie?

Dość prosty przykład zastosowania korelacji w analizie trafności dotyczy sy-


tuacji, kiedy wyniki testu, którego trafność badamy, koreluje się z wynikami in-
nego testu przeznaczonego do pomiaru takiej samej zmiennej. Innymi słowy, te
dwa testy muszą być skonstruowane na podstawie tej samej teorii zakładającej
istnienie danej zmiennej i definiującej tę zmienną. Przykładem może być korela-
cja wyników Kwestionariusza Aprobaty Społecznej (Wilczyńska i Drwal, 1995)
i skali K, pochodzącej z kwestionariusza EPQ-R. Oba narzędzia przeznaczone
są do pomiaru tendencji do udzielania odpowiedzi zgodnych z oczekiwaniami
i normami społecznymi. Nie są to więc narzędzia mierzące konkretne cechy psy-
chiczne, ale raczej skale kontrolne. W podręczniku do kwestionariusza EPQ-R
(Brzozowski i Drwal, 1995) można znaleźć informację wskazującą, że te dwie
skale rzeczywiście są ze sobą skorelowane, co potwierdza ich trafność.
Bardziej złożona sytuacja to taka, w której między zmienną badaną przez test
a inną zmienną zachodzi zależność postulowana przez wybraną teorię psycholo-
giczną. Jako przykład posłuży wspomniana w rozdziale 5.2.2.1. postawa wobec
bezpieczeństwa ruchu drogowego. Na podstawie istniejących teorii psycholo-
gicznych można sformułować niejedno twierdzenie na temat tej postawy. Można
między innymi oczekiwać, że postawa charakteryzująca się mniejszą akceptacją
zasad ruchu drogowego współwystępuje z większym zapotrzebowaniem na sty-
mulację i poszukiwaniem doznań. Wynika to z niektórych teorii temperamen-
tu odwołujących się do konstruktu optymalnego poziomu pobudzenia (Strelau,
200 l). Upraszczając nieco to zagadnienie, można powiedzieć, że ludzie różnią
się między sobą poziomem zapotrzebowania na stymulację wynikającą z różnic
pod względem optymalnego poziomu pobudzenia. W celu utrzymania optimum
pobudzenia (które jest różne dla różnych osób), niektórzy ludzie poszukują ze-
wnętrznej stymulacji, inni - wręcz przeciwnie - unikająjej. Zapotrzebowanie na
stymulację jest jednym z uwarunkowań podejmowania różnego rodzaju zacho-
wań, mających na celu podniesienie poziomu pobudzenia. Do zachowań tego ro-
dzaju należy m.in. łamanie norm społecznych, podejmowanie ryzyka, zażywanie
środków psychoaktywnych i wiele innych. Jednym z zachowań tego typu jest
również łamanie zasad ruchu drogowego, związane z brakiem akceptacji przy-
najmniej niektórych przepisów drogowych. Można więc przypuszczać, że zapo-
trzebowanie na stymulację jest jednym (ale nie jedynym!) z uwarunkowań posta-
wy wobec bezpieczeństwa ruchu drogowego. Tak więc, z teoretycznego punktu
widzenia, wyniki Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego
świadczące o nieakceptowaniu zasad ruchu drogowego powinny współwystę­
pować z innymi miarami świadczącymi o zapotrzebowaniu na stymulację. Aby
sprawdzić to przypuszczenie, można wyliczyć korelację pomiędzy wynikami
Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego a Skalą Poszukiwania
Wrażeń Zuckermanna. Prawdopodobnie można też oczekiwać związku pomię­
dzy wynikami Skali Postawy Wobec Bezpieczeństwa Ruchu Drogowego a inny-
mi wymiarami temperamentu (np. Aktywność czy Reaktywność Emocjonalna) 119
Adam Tarnowski, Krzysztof Fronczyk

ujętymi
w inwentarzu Formalna Charakterystyka Zachowania - Kwestionariusz
Temperamentu (FCZ-KT), gdyż odnoszą się one do konstruktu optymalnego po-
ziomu pobudzenia. Przedstawiliśmy tu więc pewne rozumowanie teoretyczne, na
podstawie którego należy oczekiwać skorelowania skal. Korelacje powinny być
nie tylko istotne statystycznie, ale też odpowiednio wysokie.
Rzeczywistym przykładem ilustrującym zastosowanie korelacji testu z innymi
testami lub zmiennymi, jako metody badania trafności teoretycznej jest korelacja
Skali Psychotyczności kwestionariusza EPQ-R i Skali Mach przeznaczonej do
pomiaru makiawelizmu. Według koncepcji osobowości Eysencka (Strelau, 2001)
osoby o wysokim poziomie psychotyczności charakteryzują się między innymi
łamaniem norm społecznych i dziwacznym zachowaniem, chłodem emocjonal-
nym oraz bezosobowym traktowaniem innych ludzi. Natomiast makiawelizm
to cecha osobowości przejawiająca się między innymi instrumentalnym trakto-
waniem innych ludzi. Osoby z tą cechą osobowości często manipulują innymi,
chcąc osiągnąć zyski tylko dla siebie. Nie liczą się z potrzebami partnerów inte-
rakcji. Nie trudno zauważyć, że te dwa opisy mają ze sobą dość dużo wspólnego.
Można więc oczekiwać, że wyniki Skali Psychotyczności powinny korelować
z wynikami Skali Mach, o czym można przekonać się czytając podręcznik do
kwestionariusza EPQ-R (Brzozowski i Drwal, 1995).
Trafność można oszacować za pomocą analizy korelacyjnej tylko, jeśli wybra-
na zmienna ma charakter ilościowy. Miarą trafności w tym wypadku jest współ­
czynnik korelacji (najczęściej stosuje się r-Pearsona, lub tau Kendalla, jeśli zało­
żenia nie są spełnione). W przypadku zmiennych mających charakter nominalny
możliwe jest zastosowanie innych miar związku, takich jak np. współczynnik
korelacji punktowo-dwuseryjnej.
Po to, aby dowieść trafności pomiaru testem nie wystarczy wykazać, że kore-
luje on z innymi zmiennymi, z którymi teoretycznie korelować powinien. Ważne
jest także udowodnienie, że test nie koreluje ze zmiennymi, z którymi korelować
nie powinien. Do tego pierwszego rodzaju korelacji odnosi się pojęcie trafności
zbieżnej (zwanej także konwergencyjną), a do drugiego - różnicowej (zwanej
także dywergencyjną). W celu sprawdzenia obu tych rodzajów trafności, ko-
nieczne jest takie zaplanowanie badania, aby oprócz danego testu użyto w nim
także takich miar, z którymi powinien on korelować oraz innych, z którymi nie
powinien korelować. Jeśli, przykładowo, badamy trafność Skali Ekstrawersji po-
chodzącą z kwestionariusza EPQ-R, możemy zbadać jej korelację z kwestiona-
riuszem NEO-FFI, który również zawiera podobną skalę. Wskaźnikiem trafności
w aspekcie zbieżnym jest wysoka korelacja Skali Ekstrawersji kwestionariusza
EPQ-R z wynikiem odpowiedniej skali NEO-FFI, badającej tę samą zmienną.
Natomiast wskaźnikiem trafności w aspekcie różnicowym są niskie korelacje
Skali Ekstrawersji ze skalami mierzącymi odrębne konstrukty, czyli z pozostały-
120 mi skalami obu kwestionariuszy.
5. Jakich informacji o teście dostarcza testowanie?

Przykładem jednoczesnej analizy trafności zbieżnej i różnicowej jest badanie


trafności Skali Depresji Zunga (Terelak, Tarnowski i Kwasucki 1993). Skala ta
zadowalająco korelowała z innymi testami depresji, natomiast jeszcze silniej ze
Skalą Aprobaty Społecznej. Skala Zunga nie była zatem trafna, gdyż mierzyła
w większym stopniu postawę obronną i wrażliwość na aprobatę społeczną niż
rzeczywistą depresję. Wysokie wyniki w tym inwentarzu uzyskiwali prawdopo-
dobnie ludzie lubiący ponarzekać, a nie cierpiący na rzeczywiste objawy zabu-
rzeń nastroju.
Często opisywaną i wyrafinowaną metodologicznie procedurą korelacyjną, po-
zwalającą na jednoczesną ocenę trafności zbieżnej i różnicowej jest tzw. macierz
wielu cech - wielu metod (Campbell'i Fiske, 2005). Polega ona na wyliczeniu ko-
relacji pomiędzy kilkoma (przynajmniej dwoma) wieloskalowymi narzędziami,
badającymi te same cechy (przynajmniej dwie). Przez pojęcie narzędzia rozumie
się tu nie tylko kwestionariusze czy testy, ale także np. wywiad czy obserwację.
Żeby przybliżyć nieco tę metodę, wyobraźmy sobie, że wykonujemy badanie,
w którym zastosowano kwestionariusz przeznaczony do pomiaru dwóch cech
A i B. Jednocześnie dokonujemy pomiaru tych samych cech przy pomocy sędziów
kompetcntnych, którzy szacują natężenie cech A i B u osób badanych na podsta-
wie obserwacji. Oczywiście w obu badaniach bierze udział ta sama grupa osób.
Na podstawie uzyskanych danych możemy wyliczyć następujące korelacje:
a) dla tej samej cechy uzyskane za pomocą różnych metod (np. dla cechy A mie-
rzonej za pomocą kwestionariusza oraz za pomocą ocen sędziów),
b) dla różnych cech uzyskane za pomocą różnych metod (np. dla cechy A mie-
rzonej za pomocą kwestionariusza oraz cechy B mierzonej za pomocą ocen
sędziów),
c) dla różnych cech uzyskane za pomocą tych samych metod (np. dla cechy
A i cechy B mierzonej za pomocą kwestionariusza).
Korelacje wymienionc w punkcie a) są miarami trafności zbieżnej. Natomiast
korelacje wymienione w punkcie b) są miarami trafności różnicowej. Również
korelacje z punku c) informują o trafności różnicowej, choć nie są onc najlep-
szymi wskaźnikami tego aspektu trafności, gdyż ewentuahle skorelowanie może
wynikać z zastosowania tej samej metody.
Campbell i Fiske sformułowali klika warunków, które muszą spełniać kore-
lacje zawarte w macierzy wielu cech wielu metod, aby można było mówić, że
analizowane narzędzia są trafne. Po pierwsze, wszystkie korelacje powinny być
istotne statystycznie. Po drugie, korelacje dotyczące trafności zbieżnej powinny
być większe niż korelacje dotyczące trafności różnicowej.
Poniżej przedstawiony zostanie przykład wykorzystania macierzy wielu cech
wielu metod zaczerpnięty z pracy Drwala (1995), a dotyczący badania nad traf-
nościąkilku kwestionariuszy agresji. Dla potrzeb niniejszej książki wykorzystane
zostaną dane dotyczące jedynie dwóch kwestionariuszy, jakimi są Skala Agresji
Buss-Durkee (SABD) i Inwentarz Psychologiczny Syndromu Agresji (lPSA). 121
Adam Tarnowski, Krzysztof Fronczyk

Oba narzędzia posiadają wiele skal do pomiaru różnych aspektów agresywno-


ści,jednak dla uproszczenia zaprezentowane zostaną dane dotyczące wyłącznie
agresji fizycznej i agresji słownej. Jeśli oba narzędzia są trafne, to ich skale prze-
znaczone do pomiaru tych samych aspektów agresywności powinny być ze sobą
skorelowane. Tak więc, skale agresji fizycznej obu narzędzi powinny być dość
mocno ze sobą skorelowane, podobnie jak skale przeznaczone do pomiaru agresji
słownej. Natomiast pomiędzy sobą skale mierzące różne aspekty agresywności
nie powinny zbyt wysoko korelować, choć oczywiście nie należy oczekiwać, że
nie będą one w ogóle ze sobą korelować. Po prostu można przypuszczać, że te
dwa aspekty agresywności, ze względu na to, że dotyczą ogólnie zjawiska agre-
sywności, mogą ze sobą korelować, lecz na niższym poziomie niż skale przezna-
czone do pomiaru tych samych aspektów agresywności. Korelacje tych dwóch
narzędzi, uzyskane na podstawie badania 150 uczniów w wieku 14-18 lat, przed-
stawione zostały w tabeli 5.6. Tabela przedstawia więc macierz dwóch cech -
dwóch metod.

Tabela 5.6. Związek skal agresji fizycznej i agresji słownej kwestionariuszy SABD i IPSA

SABD IPSA
Agresja Agresja Agresja Agresja
fizyczna słowna fizyczna słowna

SABD Agresja
fizyczna
Agresja 0,32
słowna

IPSA Agresja Q..6l 0,32


fizyczna
Agresja 0,24 QM 0,42
słowna

Dane zaprezentowane w tabeli pochodzą z pracy Drwala (1995).

W tabeli 5.6., dla wyróżnienia, zostały podkreślone korelacje dotyczące traf-


ności zbieżnej. Są to korelacje dotyczące tych samych cech, ale mierzonych za
pomocą różnych metod. Natomiast korelacje dotyczące trafności różnicowej są
to korelacje między różnymi metodami i różnymi cechami. Tabela ta zawiera
także współczynniki korelacji dotyczące różnych cech, ale mierzone za pomocą
tych samych metod.
Wszystkie zaprezentowane korelacje w tabeli 5.6. są istotne statystycznie,
czyli różne od zera. Dodatkowo korelacje dotyczące trafności zbieżnej są dość
wysokie. Pierwszy warunek postawiony przez Campbella i Fiskego jest więc
spełniony. Korelacje dotyczące trafności zbieżnej są wyższe zarówno od kore-
122 lacji różnych cech różnych metod, jak i od korelacji dotyczących różnych cech
5. Jakich informacji o teście dostarcza testowanie?

mierzonych tymi samymi metodami. Oznacza to, że warunek drugi jest także
spełniony.
Wadą opisywanej procedury jest przede wszystkim trudność w znalezieniu ze-
stawów testów zawierających skale umożliwiające jednocześnie pomiar trafności
zbieżnej i różnicowej. Zestawy takie muszą bowiem zawierać dwa rodzaje skal.
Pierwszy z nich to takie skale, które z teoretycznego punktu widzenia powinny
korelować ze sobą, a drugi to takie, które ze sobą korelować nie powinny.
Szczególnym przykładem skorelowania wyników testów są korelacje skal
wchodzących w skład jednego testu. Jako przykład można wymienić podte-
sty wchodzące w skład baterii APIS. W podręczniku (Matczak, Jaworowska,
Szustrowa, Ciechanowicz, 2006) do tej baterii testów można przeczytać, że
podtesty Synonimy i Nowe Słowa są dość silnie ze sobą skorelowane. Jest to
całkowicie zrozumiałe, gdyż oba mierzą ten sam rodzaj zdolności - zdolności
werbalne. Podobnie podtesty Kwadraty i Klocki, jako mierzące zdolności wzro-
kowo-przestrzenne, również są dość silnie skorelowane. Istotne jest, że podtesty
Kwadraty i Klocki znacznie silniej skorelowane są między sobą niż z podtestami
Synonimy i Nowe Słowa. Te dwa ostatnie także znacznie silniej korelują między
sobą niż z podtestami Kwadraty i Klocki. Można więc mówić o pewnych gru-
pach podtestów silnie skorelowanych ze sobą w obrębie grupy, a słabiej z testanu
z innych grup. Taki układ korelacji potwierdza trafność teoretyczną baterii APIS,
gdyż testy mierzące te same zdolności są silnie ze sobą skorelowane, a z testami
mierzącymi inne zdolności - słabiej.
Możliwość wyodrębnienia w ramach jednego narzędzia składającego się
z wielu takich grup wzajemnie skorelowanych skal, które jednocześnie słabiej
korelują z innymi grupami skal istnieje nie tylko w przypadku baterii APIS, lecz
także w przypadku wielu innych narzędzi. Zwykle takie grupy interpretowane
sąjako mierzące podobne cechy. Niekiedy można wręcz uznać, że grupa silnie
skorelowanych ze sobą skal danego testu mierzy tę samą cechę. Istnienie takich
grup może być interpretowane jako wskaźnik trafności teoretycznej, szczególnie
gdy w jakimś teście można wyodrębnić grupy skal silnie skorelowanych, przy
czym można uznać, że każda z tych grup mierzy cechę postulowaną przez teori~,
na podstawie której tworzono dane narzędzie.
Warto zauważyć, że obecnie rozpatrywane korelacje dotyczą wewnętrznej
struktury testu. Są to bowiem grupy skorelowanych skal składających się na
dane narzędzie. Wcześniej opisywane wskaźniki trafności dotyczące korelacji
między wynikami danego testu a innymi zmiennymi czy innymi testami.
Rozpatrując wewnętrzną strukturę testu, warto zauważyć, że można mówić nie
tylko o grupach wzajemnie skorelowanych skal danego testu, lecz także o gru-
pach wzajemnie skorelowanych pozycji testowych. Podobnie jak w przypadku
skal, tak i w przypadku pojedynczych pozycji testowych można wyróżnić ich
większe grupy relatywnie silnie skorelowane między sobą, a dość słabo skore-
lowane z innymi grupami pozycji. Takie grupy pozycji testowych odpowiadają 123
Adam Tarnowski, Krzysztof Fronczyk

zwykle poszczególnym skalom w narzędziach składających się z dużej liczby


skal. Jeśli pozycje testowe są wzajemnie skorelowane, to powinny mieć także
wysokie mocc dyskryminacyjne (por. rozdział 5.3.2.) w obrębie swojej grupy.
Jeśli któraś z pozycji testowych ma niską moc dyskryminacyjną, to prawdopo-
dobnie mierzy ona jakąś inną cechę niż pozostałe pozycje, a więc jest nietrafna.
Tego typu pozycje usuwa się zwykle w czasie tworzenia testu. Dzięki eliminacji
pozycji testowych słabo korelujących z pozostałymi itemami, uzyskuje się wy-
soką zgodność wewnętrzną (homogeniczność) narzędzia. Test o dużej zgodności
wewnętrznej można uznać za miarę jednej zmiennej, gdyż nie występują w nim
pozycje nietrafne o niskich mocach dyskryminacyjnych.
W przypadku dużej liczby pozycji testowych analiza wszystkich korelacji jest
dość trudna. Dość kłopotliwe byłoby rozpatrzenie wszystkich korelacji np. 100
pozycji testowych każdej z każdą. W celu ułatwienia wyodrębniania wzajem-
nie skorelowanych grup pozycji testowych bądź skal, można zastosować metodę
zwaną analizą czynnikową. Jest to dość skomplikowana matematycznie metoda
analizy danych. W niniejszym podręczniku przedstawione zostanąjedynie główne
jej zastosowania w psychometrii. Omawianie bardziej szczegółowych zagadnień
matematycznych z nią związanych wykraczałoby poza ramy niniejszej książki.
Zainteresowany Czytelnik znajdzie dokładne omówienie analizy czynnikowej
w pracach Okonia (1964), Nowakowskiej (1975) czy Zakrzewskiej (1994).
Analiza czynnikowa umożliwia wyodrębnienie grup pozycji testowych bądź
skal silnie skorelowanych między sobą wewnątrz grupy i relatywnie słabo mię­
dzy grupami. Grupy pozycji testowych bądź skał, wyróżnione dzięki tej meto-
dzie, noszą nazwę czynników. Czynniki interpretowane są jako najważniejsze
zmienne odpowiedzialne za zróżnicowanie wyników poszczególnych skal bądź
pozycji testowych, składających się na dany czynnik. Główna zaleta wyodrębnia­
nia czynników polega na tym, że zamiast dużej liczby pozycji testowych otrzy-
mujemy relatywnie niewielką liczbę zmiennych. Jest to więc łatwy sposób zna-
lezienia najważniejszych zmiennych ujmowanych przez dany test. Skoro więc
analiza czynnikowa umożliwia identyfikację zmiennych mierzonych przez dany
test, jest ona dogodną metodą badania jego trafności.
Zasadniczo wyodrębnia się dwie odmiany analizy czynnikowej . Jedną z nich jest
eksploracyjna analiza czynnikowa, a drugą - konfirmacyjna analiza czynniko-
wa. Konfirmacyjna analiza czynnikowa ma na celu sprawdzenie, czy dany test skła­
da się z określonej, na podstawie teorii psychologicznej, liczby CzyImików. Pozwala
więc ona sprawdzić, czy wyniki danego testu są zgodne z zakładaną teoretyczną
strukturą testu. Konfirmacyjna analiza czynnikowa dostarcza specjalnych wskaźni­
ków dopasowania modelu zakładającego istnienie określonej liczby czynników, na
podstawie których można zweryfikować słuszność takiego modelu teoretycznego.
Dla przykładu załÓŻmy, że chcemy sprawdzić, czy kwestionariusz osobowości NEO-
FFI rzeczywiście składa się z pięciu wymiarów. Na to pytanie może odpowiedzieć
124 konfirmacyjna analiza czynnikowa, dzięki której możliwe jest nie tylko sprawdzenie,
5. Jakich informacji o teście dostarcza testowanie?

że za zmieml0ść wyników wspomnianego narzędzia odpowiada pięć czynników, ale


także można sprawdzić, jakie pytania tworzą poszczególne czynniki. Tak więc,jeżeli
przy tworzeniu tego kwestionariusza założono, że pewne pytanie jest wskaźnikiem
ekstrawersji i wchodzi do skali ekstrawersji, a w analizie czynnikowej okazałoby
się, że wchodzi ono do czynnika neurotyzmu, a nie ekstrawersji, oznaczałoby to, że
pytanie jest nietrafuym wskaźnikiem ekstrawersji i źle zostało dobrane. Najlepszym
rozwiązaniem byłaby w opisanej sytuacji eliminacja tego pytania.
W przypadku eksploracyjnej analizy czynnikowej badacz początkowo nie za-
kłada liczby i struktury czynników mierzonych przez dany test. Celem tego typu
analizy jest poznanie tych czynników. Analiza ta ma zastosowanie w sytuacji,
gdy bardzo mało wiadomo na temat badanego zjawiska psychicznego i celemjest
identyfikacja jego podstawowych wymiarów. Zastosowanie eksploracyjnej ana-
lizy czynnikowej w badaniu trafności testu przedstawione zostanie przy wyko-
rzystaniu danych dotyczących przytaczanej już wcześniej fikcyjnej Skali Postaw
Wobec Bezpieczeństwa Ruchu Drogowego (BRD).

Tabela 5.7. Struktura czynnikowa pozycji Skali Postawy Wobec BRD (przykład fikcyjny)

Stwierdzenie Czynnik I Czynnik II Czynnik III


1. Czytając opis samochodu w prasie motory- 0,79 -0,15 0,22
zacyjnej, szukam wyników testów zderze-
niowych
2. Jadąc samochodem, słucham w radio infor- 0,70 0,22
macji pozwalających uniknąć ryzykownych
miejsc
3. Bezmyślność kierowców ryzykujących na 0,90 0,14
drodze budzi we mnie gniew
4. Czuję się bezpiecznie, kiedy jadę zgodnie 0,41
z przepisami
5. Zawsze jeżdżę w zapiętych pasach 0,17 0,17 0,66
6. W nieznanej okolicy zawsze stosuję się do 0,24 0,56
znaków drogowych
W tabeli pominięto ładunki czynnikowe mniejsze niż 0,1 jako mało istotne.

Hipotetyczne wyniki analizy czynnikowej Skali Postaw Wobec Bezpieczeństwa


Ruchu Drogowego zaprezentowano w tabeli 5.7. Wyniki analizy wskazują, że
struktura tej skali składa się z trzech czynników. W tabeli 5.7. zawarte są tzw.
ładunki czynnikowe, czyli korelacje pomiędzy poszczególnymi stwierdzeniami
a utworzonymi w drodze analizy czynnikami. Przyglądając się tym wartościom,
można wybrać dla każdego czynnika te z nich, które są najwyższe. I tak w przy-
padku czynnika I, najwyższe wartości ładunków czynnikowych mają dwa pierw-
sze stwierdzenia. Na tej podstawie można przypuszczać, że mierzą one bardzo 125
Adam Tarnowski, Krzysztof Fronczyk

zbliżoną zmienną psychologiczną. O jaką zmienną może chodzić? Jej identyfika-


cja następujezwykle na podstawie treści stwierdzeń o najwyższych ładunkach.
Analizując ich treść w omawianym przykładzie, można dojść do wniosku, że
w dużej mierze dotyczą one poszukiwania informacji związanych z bezpieczeń­
stwem ruchu drogowego, czyli poznawczy komponent postawy wobec bezpie-
czeństwa na drodze. W podobny sposób można przeanalizować pozostałe czyn-
niki. Wydaje się, że czynnik II mierzy komponent emocjonalny, a czynnik III
- behawioralny. W ten sposób dokonano analizy trafności przez identyfikację
wymiarów mierzonych przez omawianą skalę.
Taki rezultat jest zrozumiały z teoretycznego punktu widzenia. Można było
bowiem spodziewać się, że pozycje testowe dotyczące jednego z komponentów
postawy będą silniej ze sobą skorelowane niż ze stwierdzeniami dotyczącymi in-
nych komponentów. Z tego też powodu każdy z komponentów postawy utworzył
własny czynnik.
Pewna odmiana tego eksploracyjnego podejścia polega (szerzej pisze o tym
Magnusson, 1991) na zbadaniu grupy ludzi wieloma testami mierzącymi różne
zmienne (w tym testem, którego trafność sprawdzamy). Następnie sprawdza się,
z którymi zmiennymi nasz test "tworzy czynnik", czyli do jakiej grupy właści­
wości psychologicznych należy. Powracając do wcześniejszego przykładu Skali
Postawy Wobec Bezpieczeństwa Ruchu Drogowego, prześledźmy wyniki wspól-
nej analizy czynnikowej omawianej skali wymiarów kwestionariusza FCZ-KT
i skali badającej nieuwagę na drodze.

Tabela 5.8. Struktura czynnikowa skal FCZ-KT oraz Skal Postawy Wobec BRD i Skali
Nieuwagi na drodze (zmodyfikowane dane z badań własnych)

Składowa
Wymiar
1 2 3
Reaktywność (FCZ-KT) 0,87 -0,18
Perseweratywność (FCZ-KT) 0,84 0,19 0,15
Wytrzymałość (FCZ-KT) -0,72 0,45
Skala BRD (FCZ-KT) -0,88
Nieuwaga (FCZ-KT) 0,14 0,62 -0,31
Aktywność (FCZ-KT) -0,49 0,62 0,11
Wrażliwość sensoryczna (FCZ-KT) -0,17 0,81
Żwawość (FCZ-KT) -0,40 0,71
W tabeli pominięto ładunki czynnikowe mniejsze niż 0,1, jako mało istotne.

Skalę
BRD uznamy za trafną, jeżeli jej umiejscowienie w strukturze pozosta-
łychzmiennych daje się przekonująco zinterpretować w świetle wiedzy o związ-
126 kach temperamentu z zachowaniem.
5. Jakich informacji o teście dostarcza testowanie?

Podobnie jak w poprzednim przykładzie czynniki nie są wcześniej znane,


a identyfikacji czynnika dokonuje się na podstawie treści skal, które go utwo-
rzyły. Pierwszym jednak krokiem jest interpretacja uzyskanych czynników, dla
których uzyskane ładunki czynnikowe zawarto w tabeli 5.8.
Przeanalizujmy uzyskane czynniki. Czynnik pierwszy (składowa l) powią­
zany jest naj silniej z wysoką Reaktywnością i Perseweratywnością oraz z niską
Wytrzymałością. Wszystkie te składniki wiążą się z nieadekwatną regulacją emo-
cji czy też słabym typem układu nerwowego (według Pawłowa) i właśnie w ten
sposób można interpretować uzyskany czynnik.
Drugi z czynników wiąże się z negatywną postawą wobec bezpieczeństwa
ruchu drogowego, nieuwagą i aktywnością. Czynnik ten, zauważmy, obejmuje
dwie zmienne opisujące zachowanie na drodze (Skala BRD i Skala Nieuwagi)
oraz zmienną temperamentalną związaną z poszukiwaniem stymulacji. Czynnik
ten można zatem określić jako agresywność na drodze.
Trzeci czynnik, czysto temperamentalny, powiązany jest z wysokimi wynika-
mi skali Wrażliwości Sensorycznej i Żwawości. Wysokie wyniki w tym czynniku
uzyskują zatem ludzie reagujący nawet na słabe bodźce, równocześnie energicz-
ni. Możemy nadać mu roboczą nazwę "energii życiowej".
Powyższe fakty potwierdzają trafność Skali BRD. Po pierwsze, jest ona rela-
tywnie niezależna od zmielll1ych temperamentalnych. Zauważmy, że wchodzi ona
w skład wyłącznie jednego czynnika. Ponadto w czynniku tym ma dość wysoki
ładunek inna zmienna opisująca zachowania na drodze jaką, jest nieuwaga i tylko
jedna zmienna temperamentalna. Po drugie, istnienie takiego jednego czynnika
wskazuje na silny związek między Skalą BRD i Skalą Nieuwagi. Po trzecie duży
ładunek czynnikowy w czynniku 2 Skali Aktywności wskazuje na znaczne po-
wiązanie negatywnej postawy wobec bezpieczellstwa na drodze i podejmowania
działań o wysokiej wartości stymulacyjnej, co jest teoretycznie uzasadnione, po-
nieważ zachowania tego typu zwykle współwystępują z negatywnymi postawami
wobec wielu norm i przepisów.
Zastosowanie analizy czynnikowej, w celu oceny trafności teoretycznej nazy-
wane niekiedy bywa "trafuością czynnikową". Używanie takiego terminu nie wy-
daje się szczególnie trafne, gdyż jest on wieloznaczny. Wieloznaczność wynika
stąd, że dwa sposoby analizy (konfirmacyjna i eksploracyjna) różnią się znacznie
między sobą. Ponadto analiza czynnikowa może być przeprowadzona zarówno
na wynikach poszczególnych pozycji testowych, jak i całych skal. Wykorzystuje
się też w niej, w niektórych sytuacjach, wyniki wielu różnych testów. Ta dość
duża różnorodność zastosowań analizy czynnikowej nie powinna być określana
tym samym terminem.
Kolejna metoda badania trafności teoretycznej to ocena różnic międzygrupo­
wych. Dotyczy ona porównywania wyników testowych grup osób, co do których
istnieje teoretyczne przewidywanie, że powinny się one różnić pod względem
zmiennej mierzonej przez test. Jeśli test jest trafny, czyli dobrze mierzy założoną 127
Adam Tarnowski, Krzysztof Fn;mczyk

zmienną, to wyodrębnione grupy powinny się różnić między sobą pod względem
wyników testowych. Badane grupy mogą być wyodrębnione w dowolny sposób
(w inny sposób niż na podstawie wyników testu, np. na podstawie zmiennych
demograficznych czy innych). Jedynym ograniczeniem jest teoretyczne uzasad-
nienie wyboru określonych grup badanych.
W celu oceny istotności różnic pomiędzy średnimi dwóch grup należy wyko-
nać test t-Studenta dla prób niezależnych lub test Manna-Whitneya jeśli zało-.
żenia testu t-Studenta nie są spełnione. Oczywiście wynik istotny statystycznie
świadczy o tym, że porównywane średnie się różnią. Jeśli średnie te różnią się
w oczekiwanym z teoretycznego punktu widzenia kierunku, to jest to argument
potwierdzający trafność teoretyczną testu. Siła związku łączącego wyniki testu
oraz zmienną, na podstawie której wyodrębniono grupy może być oceniona na
podstawie współczynnika korelacji eta.
Jednym z prostszych przykładów zastosowania tej metody mogą być wy-
niki bada6 dotyczące testu inteligencji Ravena. W podręczniku do tego testu
(Jaworowska, Szustrowa, 2000) znaleźć można informację, o zróżnicowaniu jego
wyników w zależności od wieku badanych. Dorastająca młodzież osiąga prze-
ciętnie wyższe wyniki w tym teście niż dzieci z grup młodszych. W późniejszym
wieku nie obserwuje się już takiego wzrostu. Wynik ten jest całkowicie zgodny
z teorią inteligencji, na podstawie której powstał test Ravena. Teoria ta zakłada
bowiem, że rozwój inteligencji przebiega od urodzenia do wczesnej dorosłości.
Jeśli test jest trafny, podobny wzrost powinny wskazywać także wyniki testowe,
co rzeczywiście zostało stwierdzone w badaniach. Zgodność przewidywałl teo-
retycznych dotyczących zmian rozwojowych i wyników badań z zastosowaniem
testu Ravena jest jednym z przejawów jego trafności.
Jako inny przykład wykorzystania oceny różnic międzygrupowych mogą po-
służyć wynik badań nad trafnością baterii testów APIS. Na podstawie teorii zdol-
ności (Matczak, 1994) można przypuszczać, że badani różnią się poziomem po-
szczególnych zdolności w zależności od obranego kierunku studiów lub rodzaju
szkoły. Hipoteza ta wynika stąd, że ludzie wybierają taki rodzaj edukacji, który
odpowiada ich zdolnościom, a jednocześnie kształcenie w danym kierunku przy~
czynia się do rozwoju specyficznych dla tego kierunku zdolności.
W jednym z badał} trafności baterii APIS wzięli udział studenci różnego typu
wyższych uczelni. Określenie trafności polegało w tym wypadku na sprawdzeniu,
czy te grupy studentów różnią się między sobą w oczekiwany sposób, tzn. czy
studenci poszczególnych rodzajów kierunków osiągają wyższe wyniki w testach
mierzących te zdolności intelektualne, które są szczególnie potrzebne w studio-
waniu danego kierunku studiów (np. studenci studiów humanistycznych powinni
osiągać wyższe wyniki w testach mierzących zdolności werbalne). Wyniki prze-
prowadzonych badań zamieszczone w podręczniku do baterii APIS (Matczak,
Jaworowska, Ciechanowicz i Sta11czak, 2006) wskazują, żc hipoteza ta została
128 potwierdzona, co przemawia za trafnością tej baterii.
5. Jakich informacji o teście dostarcza testowanie?

W omówionych przykładach grupy były wyodrębnione ze względu na pew-


ną zmienną i porównywano je pod względem wyników testu, którego traf-
ność teoretyczna jest analizowana. Procedura może być także nieco odmienna.
Porównywane grupy mogą być wyodrębnione ze względu na wyniki w teście,
a następnie analizowane pod względemjakiejś innej zmiennej. Możliwe jest więc
wyodrębnienie tzw. grup skrajnych, to jest grup o niskich oraz wysokich wyni-
kach w teście.
Kolejna metoda oceny trafności teoretycznej to metoda zmian nieprzypad-
kowych. Polega ona na dwukrotnym badaniu pewnej grupy osób danym testem.
Pomiędzy pierwszym a drugim badaniem wprowadza się jakąś manipulację
eksperymentalną, która zgodnie z teorią psychologiczną powinna wpłynąć na
zmienną mierzoną przez test. Jeśli test ten jest trafną miarą badanej zmiennej
i jednocześnie oczekiwano zmiany jej nasilenia pod wpływem wprowadzonej
manipulacji, to również powinny się zmicnić wyniki testu.
Bardzo cickawym przykładem badania trafności teoretycznej przy wykorzysta-
niu zmian pod wpływem oddziaływania eksperymentalnego jest analiza trafno-
ści Skali Lęku-Stan kwestionariusza STAI (Wrześniewski, Sosnowski, Matusik,
2002). Jeden ze sposobów określania trafności tego narzędzia polegał na porów-
naniu wyników Skali Lęku-Stan uzyskanych przez pewną grupę osób badanych
w trzech różnych sytuacjach. Pierwsza sytuacja była neutralna, czyli niewywo-
łująca lęku. Drugi pomiar został dokonany w sytuacji oczekiwania na wejście do
komory niskich ciśniel1. Oczekiwano, że sytuacja ta jako zagrażająca (np. moż­
liwość utraty przytomności) powinna spowodować podniesienie poziomu lęku,
co powinno znaleźć swoje odzwierciedlenie w wynikach kwestionariusza, o ile
oczywiście jest on trafną miarą stanu lęku. Trzeci pomiar został dokonany po
wyjściu z komory niskich ciśnień. Przypuszczano, że wynik w nim uzyskany
powinien być nieco niższy niż przed wejściem do komory, jednak wciąż wyż­
szy niż w sytuacji neutralnej ze względu na utrzymujące się jeszcze napięcie.
Przypuszczenia te zostały całkowicie potwierdzone przez uzyskane wyniki.
Inną sytuacją zagrażającą, którą wykorzystano w badaniach nad trafnością
STAIjest sytuacja egzaminowania. Podobnie jak zagrożenie fizyczne związane
z pobytem w komorze niskich ciśnień, powinna ona wywoływać lęk ujawniają­
cy się w kwestionariuszu STAI. Hipotezę tę sprawdzono, badając pewną grupę
uczniów w trakcie zwykłej lekcji oraz drugi raz w momencie przed pisaniem
klasówki. Oczekiwanie na sprawdzian spowodowało znaczne podniesienie wyni-
ków Skali Lęk-Stan, co było zgodne z hipotezą. Tak więc różne sytuacje zagroże­
nia wywołują lęk, co znajduje swój wyraz w wynikach kwestionariusza.
W opisanych przykładach oddziaływanie eksperymentalne polegało na odpo-
wiednim doborze sytuacji tak, aby wywoływały one określone zmiany w prze-
życiach osób badanych. Inny rodzaj manipulacji eksperymentalnej może polegać
na wprowadzeniu jakiegoś celowego oddziaływania w czasie między pierwszym
a drugim pomiarem testem. W celu zaprezentowania przykładu tego typu ponow- 129
Adam Tarnowski, Krzysztof Fronczyk

niewykorzystana zostanie hipotetyczna Skala Postaw Wobec Bezpieczeństwa


Ruchu Drogowego. Badanie jej trafności można zaplanować następująco.
Sprawcy wypadków, zbadani omawianą skalą, mogą wziąć udział w szkoleniu
dotyczącym zagrożeń na drodze. Należy oczekiwać, że po takim szkoleniu posta-
wa wobec bezpieczeństwa ruchu drogowego ulegnie poprawie. Jeśli więc skala
jest istotnie wskaźnikiem takiej postawy, to w opisanej sytuacjijej wyniki powin-
ny wzrosnąć po odbytym szkoleniu.
Warto przypomnieć, że wyniki dwukrotnie badanej grupy osób można porów-
nać stosując test t-Studenta dla prób zależnych lub, jeśli jego założenia nie są
spełnione - test Wilcoxona lub test znaków. Nieistotny statystycznie wynik testu
świadczy o braku różnic między porównywanymi średnimi. Oznacza to, że wpro-
wadzone oddziaływanie eksperymentalne nie wpłynęło w oczekiwany sposób na
wyniki testu.
Ostatni ze sposobów oceny trafności teoretycznej nosi nazwę analizy procesu
rozwiązywania testu. Jak sama nazwa wskazuje, polega on na badaniu sposobu,
w jaki badani wypełniają dany test. Metoda ta dotyczy zwykle procesów psy-
chicznych zaangażowanych w rozwiązywanie danego testu. O procesach tych
wnioskuje się na podstawie kolejności wykonywanych czynności, składników
zadań sprawiających najwięcej trudności, rodzaju popełnianych błędów czy też
pomijanych elementów lub pozycji testowych itp. Infonnacje tego typu można
zebrać dzięki dokładnej obserwacji badanych podczas rozwiązywania zadań lub
odpowiadania na pytania. Pomocne bywa także notowanie subiektywnych ocen
osób badanych oraz ich introspekcyjnych relacji na temat sposobu dochodzenia
do odpowiedzi. Często badani zwracają uwagę na niejednoznaczność pytali., opo-
wiadają też, jakie mieli skojarzenia związane z treścią pozycji tcstowych.
Rozważmy stwierdzenie w jednej ze skal badających depresję "mam tylu przy-
jaciół, na ilu zasługuję". W intencji autora osoby depresyjne, czujące się osamot-
nione miały odpowiadać przecząco. W rzeczywistości wielu z nich odpowiada
twierdząco, wyjaśniając "nie mam przyjaciół, bo na nich nie zasługuję". Przykład
ten ilustruje, że analiza uzasadnień wybranych odpowiedzi może rzucić pewne
światło na to, jak poszczególne pozycje testowe rozumiane są przez badanych.
W badaniach nad trafnością niektórych testów badających procesy poznaw-
cze i sprawność intelektualną można niekiedy wykorzystać tzw. komponento-
wą teorię Stemberga. Dokładne jej omówienie wykracza poza ramy niniejszej
książki. Szczegółowe infonnacje znaleźć można w pracach Matczak (1994)
i Nęckiego (2003). W skrócie teoria ta zakłada, że procesy intelektualne składają
się z pewnych komponentów zróżnicowanych pod względem funkcji, jaką peł­
nią. Wyodrębnienie tych komponentów w procesie rozwiązywania zadań intelek-
tualnychjest możliwe, dzięki dekompozycji tych zadall., polegającej na takim ich
modyfikowaniu, by zmieniać liczbę potrzebnych przy ich wykonywaniu kom-
ponentów. Śledząc, jak zmiany te wpływają na rozwiązanie zadań przez osobę
130 badaną (szybkość i poprawność odpowiedzi), można oceniać funkcjonowanie
5. Jakich informacji o teście dostarcza testowanie?

poszczególnych komponentów. Sternberg zakłada, że łączny czas wykonania


zadania jest sumą czasów trwania procesów każdego z komponentów. Pomiaru
szybkości przebiegu procesu danego komponentu można dokonać tak modyfiku-
jąc zadanie, by proces ten został wyeliminowany lub dodany do zadania prost-
szego. Rozpatrzmy następujący przykład. Pierwotne zadanie składa się z czyn-
ności bardzo elementarnej, np. naciskanie klawisza w odpowiedzi na światło.
Kolejne zadanie zawiera jeden dodany element, np. wybór reakcji w zależności
od działającego bodźca. Następne zadania polegają na zwiększaniu obciążenia
o dodatkowe elementy, np. pamiętanie zestawu bodźców, na które należy reago-
wać itd. Jeśli uzyskane czasy reakcji są zgodne z przewidywaniami oraz danymi
pochodzącymi z eksperymentów laboratoryjnych - test jest narzędziem trafnym.
Procedury dekompozycji zadań nie sąjeszcze powszechnie stosowane i wymaga-
ją dalszego doskonalenia. Wydaje się jednak, że może być to interesujący kieru-
nek badań, umożliwiający identyfikację zmiennych mierzonych przez testy.

5.2.2.3. Trafność kryterialna


Trafność kryterialna (zwana niekiedy zewnętrzną) to zgodność wyników te-
stowych z kryterium zewnętrznym. Pewnego wyjaśnienia wymaga pojęcie "ze-
wnętrznego kryterium". Przez pojęcie to rozumie się inną niż test, którego traf-
ność chce się określić, miarę badanej zmiennej. Słowo "zewnętrzny" podkreśla,
że chodzi o taką miarę, która jest całkowicie różna od testu, którego trafność się
szacuje. Pojęcie trafności kryterialnej najczęściej odnosi się do sytuacji, w któ-
rej badaczowi zależy na opracowaniu stosunkowo prostego narzędzia pozwa-
lającego wnioskować o wystąpieniu realnego empirycznego zjawiska, którego
stwierdzenie jest stosunkowo trudne. Przykładem mogą być testy psychologicz-
ne pozwalające wnioskować o uszkodzeniach mózgu, powodujące zaburzenia
w funkcjonowaniu psychicznym, zanim jeszcze mogą zostać wykryte w badaniu
neurologicznym. Podobnie, niekiedy proste testy psychologiczne ułatwiają szyb-
ką diagnozę, np. depresji lub uzależnienia od alkoholu. Bez użycia takich metod
stwierdzenie wymienionych zaburzeń wymagałoby pracochłonnej obserwacji
i badania.
Ogólnie rzecz ujmując, kryterium jest to zachowanie czy właściwość, o której
chcemy wnioskować z wyniku ocenianego testu. Tak więc, jeśli chcielibyśmy
sprawdzić trafność testu przeznaczonego do diagnozowania depresji, musimy
znaleźć pewne kryterium, które byłoby inną miarą depresji. Taką zmienną może
być np. diagnoza psychologiczna lub psychiatryczna. Korelacja (mówiąc w tym
miejscu o korelacji, mamy na myśli współwystępowanie zjawisk, a nie współ­
czynnik korelacji) między tym kryterium a wynikiem testu jest wskaźnikiem
trafności. Jeżeli więc osoby, które zostały zdiagnozowane przez psychiatrę jako
chore na depresję, uzyskują w teście wyniki wskazujące na depresję, a osoby,
które zostały zdiagnozowane jako zdrowe, uzyskują w teście wyniki wskazujące 131
Adam Tarnowski, Krzysztof Fronczyk

na brak zaburzeń, to test jest trafny ze względu na kryterium, jakim jest diagno-
za psychiatryczna depresji. Mogłoby się również zdarzyć, że nie ma żadnego
związku między kryterium a wynikami testu. Stałoby się tak w sytuacji, gdy np.
połowa osób, które zostały zdiagnozowane przez psychiatrę jako chore na depre-
sję, uzyskuje w teście wyniki wskazujące na depresję, a druga połowa - wyniki
wskazujące na brak zaburzell. Oczywiście, świadczy to o braku trafności testu.
Wyniki testowe wykorzystywane są czasem w celu przewidywania jakiegoś
przyszłego stanu osoby badanej, np. powodzenia zawodowego w danym miej-
scu pracy czy też skutków podjętej terapii. Oczywiście, aby takie przewidywanie
było możliwe, nie wystarczy przeświadczenie konstruktora testu, że stworzone
przez niego narzędzie nadaje się do tego celu. Konieczne jest posiadanie odpo-
wiednich danych stwierdzających, że rzeczywiście wyniki testu korelują z pożą­
danym stanem w przyszłości. Są to dane dotyczące także trafności kryterialnej
z tą różnicą, że w obecnie omawianym przypadku interesuje nas kryterium istnie-
jące w przyszłości. Tak więc, aby sprawdzić trafność w tym przypadku musimy
przeprowadzić badanie, w którym pewna liczba osób (np. kandydatów do pracy)
wykona dany test, a po upływie określonego czasu dokonany zostanie pomiar
kryterium (np. efektywności pracy zawodowej ocenianej przez przełożonych).
Jeżeli wyniki testu korelują z tym kryterium zmierzonym po upływie danego
czasu, można uznać, że na podstawie wyników testu możliwe jest przewidywanie
przyszłego stanu osoby badanej.
, Opisane dwie sytuacje dotyczą dwóch rodzajów trafności kryterialnej, jakimi
są trafność diagnostyczna i trafność prognostyczna. W pierwszym z opisanych
przykładów, kiedy na podstawie wyników danego testu można wnioskować o ak-
tualnie istniejącym kryterium, mówimy o trafności diagnostycznej. Natomiast
trafność prognostyczna interesuje nas wtedy, gdy zadaniem testu jest przewidy-
wanie kryterium w przyszłości.
Bardzo istotnym zagadnieniem jest wybór właściwego kryterium. Kryterium
to musi być wybrane tak, aby odpowiadało konkretnemu zapotrzebowaniu sto-
sowania danego testu. Jeśli np. chcemy stosować dane narzędzie do prognozo-
wania skuteczności pracy w zawodzie strażaka, to musimy wykazać, że wyniki
naszego testu pozytywnie korelują z powodzeniem w tym zawodzie. Pojawia
się więc problem dobrego zdefiniowania, czym jest kryterium, jakim w naszym
przykładzie jest "powodzenie w zawodzie strażaka". Może chodzić np. o szyb-
kość gaszenia pożaru albo o szybkość wykonywania pewnych czynności zwią­
zanych z gaszeniem (np. rozwijania węża strażackiego). Specjaliści z zakresu
pożamictwa mogliby prawdopodobnie wskazać jeszcze inne bardziej użyteczne
kryteria powodzenia w zawodzie strażaka. Kryterium to może być też kombi-
nacją różnych umiejętności z zakresu gaszenia pożarów. Jeśli zdecydujemy się
na jakąś definicję kryterium, przeprowadzimy odpowiednie badanie, które do-
prowadzi nas do wniosku, że wyniki testu rzeczywiście korelują z kryterium,
132 to udowodnimy trafność prognostyczną testu. Istotne jest jednak, że w ten spo-
5. Jakich informacji o teście dostarcza testowanie?

sób sprawdzona trafność dotyczy tylko możliwości przewidywania tego jednego


określonego kryterium. Jeśli za kryterium wybraliśmy szybkość rozwijania węża
strażackiego i wyniki testu z nim korelują, to na podstawie tych samych wyników
nic nie można powiedzieć np. o biegłości w posługiwaniu się sprzętem gaśni­
czym. Oczywiście nie można też nic powiedzieć na temat przydatności do pracy
w innych zawodach np. w policji.
Ogólnie wybór kryterium zależy od planowanego zastosowania danego testu
i wniosków, jakie na jakiego podstawie mają być formułowane. Jako kryterium
może posłużyć nie tylko wymieniona wcześniej diagnoza psychiatryczna lub
psychologiczna, czy też powodzenie zawodowe. Psychologa może interesować
diagnozowanie bądź przewidywanie bardzo wielu zachowań lub stanów czło­
wieka. Dlatego jako kryterium może być wykorzystane bardzo wiele zmiennych.
Przykładami takich kryteriów mogą być np. ukończenie szkoły lub uzyskiwa-
ne stopnie szkolne (kryterium powodzenia w nauce szkolnej lub akademickiej).
Oczywiście wybór takiego kryterium ma sens tylko wtedy, jeśli celem stosowania
danego testu jest przewidywanie lub ocenianie osiągnięć szkolnych. W szczegól-
ności można wyobrazić sobic sytuację, w której psycholog zainteresowany jest np.
przewidywaniem osiągnięć z danego przedmiotu, np. z psychometrii. W tym celu
można opracować odpowiedni test, a trafność przewidywań sprawdzić przez sko-
relowanie jego wyników z ocenami z egzaminu z psychometrii. Oczywiście lepiej
byłoby przeprowadzić ten test na początku semestru, a dopiero po przeprowadze-
niu egzaminu obliczyć jego korelację ze stopniami. W ten sposób można spraw-
dzić trafność prognostyczną testu. Jeśli okazałoby się, że wyniki testu korelują ze
stopniami egzaminacyjnymi, możliwe byłoby stosowanie tego testu na początku
semestru do przewidywania osiągnięć studentów pod względem psychometrii.
W niektórych przypadkach możliwe jest zaangażowanie sędziów kompetent-
nych, którzy oszacują (np. na podstawie obserwacji badanych w konkretnych
sytuacjach) interesujące badacza kryterium. W ten sposób np. możliwe jest
określenie poziomu przystosowania społecznego uczestników terapii grupowej.
Hipotetyczna procedura mogłaby wyglądać w ten sposób, że przeszkoleni sę­
dziowie kompetentni (którymi w tym przypadku mogli być terapeuci) oglądaliby
filmy z nagranymi sesjami terapeutycznymi. Na podstawie zaobserwowanych
zachowań pacjentów dokonywaliby oni oszacowania poziomu przystosowania
społecznego. W ten sposób uzyskuje się zmienną, którą można uznać za kryte-
rium trafności. Oczywiście konieczne jest jeszcze przebadanie pacjentów testem,
służącym do diagnozy poziomu przystosowania społecznego i skorelowanie jego
wyników z ocenami sędziów.
Wybór jednego kryterium nie musi oznaczać, że dany test nadaje się tylko do
diagnozowania lub przewidywania tegoż kryterium. Każdy test może być spraw-
dzony w stosunku do wielu różnych kryteriów. Mogą to być zarówno kryteria
dotyczące tej samej zmiennej (np. różne kryteria depresji), jak i kryteria dotyczą-
ce różnych zmiennych (np. powodzenie w zawodzie strażaka oraz powodzenie 133
Adam Tarnowski, Krzysztof Fronczyk

w zawodzie policjanta). Skorelowanie wyników testu z jednym kryterium nie


oznacza, że będą one również skorelowane z innym kryterium. W szczególno-
ści wysoka trafność diagnostyczna nie gwarantuje jego trafności prognostycznej
i odwrotnie. Sprawdzenie trafności pomiaru testem pod względem innego kryte-
rium związane jest z rozszerzeniem jego zastosowania.
W przypadku trafności kryterialnej można mówić, podobnie jak w przypad-
ku trafności teoretycznej, o trafności zbieżnej i różnicowej. Jest to szczegól-
nie ważne w sytuacji, gdy badacz chce mieć pewność, że jego narzędzie dobrze
diagnozuje określone kryterium i tylko to kryterium. Sytuacja taka może wy-
stąpić np. w przypadku kwestionariusza przeznaczonego do diagnozy depresji.
Jak wiemy, kryterium dla tego typu narzędzia może stanowić diagnoza depresji
sformułowana przez psychologa lub psychiatrę, czyli powinna ona korelować
z wynikami kwestionariusza. Jednocześnie twórca kwestionariusza może chcieć,
żeby jego narzędzie było specyficzne dla depresji tzn., żeby nie okazało się, że
osoby cierpiące na inne zaburzenia psychiczne osiągają również wysokie wyniki
w kwestionariuszu. Należy to sprawdzić w odpowiednio zaplanowanym badaniu
empirycznym. Będziemy oczekiwać, że wyniki inwentarza nie będą korelować
z diagnozą schizofrenii czy innych zaburzell. W omówionym przypadku spraw-
dzanie korelacji z diagnozą depresji dotyczy aspektu zbieżnego trafności kryte-
rialnej, a sprawdzanie korelacji z diagnozą innych chorób - aspektu różnicowego
trafności kryterialnej.
Dobrym sposobem szacowania trafności kryterialnej jest również ocena, na ile
wyniki testu wspomagają podejmowanie decyzji diagnostycznych w psycholo-
gii klinicznej. Procedura postępowania powinna wyglądać następująco. Pacjenci
byliby badani przez psychologa stawiającego diagnozę kliniczną pewnego typu
zaburzeń. Dodatkowo podlegaliby oni badaniu przez niezależnego psychologa,
używającego innych technik w tym również skali X, której trafność chcemy
określić. Następnie diagnoza byłaby formułowana niezależnie przez dwie grupy
ekspertów. Pierwsza grupa miałaby do dyspozycji materiały zebrane przez nie-
zależnego psychologa, w tym również skalę X. Druga grupa posługiwałaby się
zebranym materiałem z wyłączeniem skali X. Jeśli wyniki grupy pierwszej by-
łyby istotnie, częściej zbieżne z diagnozą kliniczną, należałoby uznać, że test X
posiada odpowiednią trafność diagnostyczną. W tym przypadku nożna mówić
o tzw. przyroście trafności związanym z zastosowaniem skali X.
Przytoczone przykłady różnych zmiennych kryterialnych miały na celu przy-
bliżenie idei trafności kryterialnej. Należy podkreślić, że ten rodzaj trafności do-
tyczy wyłącznie skorelowania testu z kryterium. Orzeka więc ona o tym, jak
dobrą miarą kryterium jest test. Przedmiotem pomiaru jest więc tylko zmienna
kryterialna, a nie np. wewnętrzne cechy psychiczne odpowiedzialne za skore-
lowanie kryterium i wyników testu. Można by bowiem przypuszczać, że skoro
wyniki pewnego testu umożliwiają przewidywanie powodzenia w studiach inży-
134 nierskich, to prawdopodobnie ten test mierzy pewną cechę psychiczną związaną
5. Jakich informacji o teście dostarcza testowanie?

z tym kierunkiem studiów np. inteligencję ogólną albo zdolności matematyczne


lub też zdolności logiczno-abstrakcyjne. Takie przypuszczenie jest uzasadnione,
choć pojedyncza korelacja wyniku testu i powodzenia w studiach inżynierskich
jednoznacznie nie przesądza o tym, którą z wymienionych zdolności mierzy ten
test. W tej sytuacji nie ulega jednak wątpliwości, że jest on trafną miarą powo-
dzenia w studiach (Magnusson, 1991).
Dokonując oceny trafności kryterialnej, należy pamiętać, że zmienne stano-
wiące kryteria nigdy nie są całkowicie rzetelne i trafne. Jeśli np. jako kryterium
przyjmie się stopnie szkolne to jasne jest, że takie kryterium bywa nierzetelne
i nietrafne. Zdarzają się bowiem nauczyciele, którzy oceniając uczniów biorą pod
uwagę czynniki, które zupełnie nie mają nic wspólnego z przedmiotem oceny
(np. stopnie bywają wystawiane na podstawie opinii, jaką ktoś sobie wyrobił na
początku nauki, w młodszych klasach lepiej bywają oceniani uczniowie grzeczni,
a nie ci, którzy rzeczywiści lepiej opanowali zagadnienia z danego przedmiotu
itd.). Zrozumiałe jest, że na potrzeby szacowania trafności pomiarów testowych
należy wybierać kryteria o jak najwyższej rzetelności i trafności. Jest to warunek
poprawnego szacowania trafności.
Poważnym błędem, który może pojawić się w badaniach nad trafnością kry te-
rialnąjest kontaminacja (skażenie) kryterium (Magnusson, 1991). Wyobraźmy
sobie sytuację, w której psycholog pracujący w klinice bada swoich pacjentów
za pomocą skali nastroju X. Zespół leczący na podstawie różnych danych, w tym
opinii psychologa sformułowanej na podstawie wyniku X, ustala rozpoznanie.
Zgromadziwszy odpowiednio dużo danych, psycholog postanawia zbadać traf-
ność kryterialną skali X i w tym celu porównuje grupę pacjentów z rozpoznaniem
depresji z grupą pozostałych pacjentów. Jak łatwo zauważyć, badanie takie jest
nieprawidłowe, badacz popełnił błąd metodologicznego błędnego koła. Na pod-
stawie (m.in.) skali X ustalił rozpoznanie, które następnie miało stać się kryte-
rium dla oceny trafności X.
W opisanej sytuacji prawidłowe postępowanie powinno polegać na gromadze-
niu wyników skali X, nie.zależnie od postawienia rozpoznania. Samo rozpoznanie
natomiast powinno być w całości sformułowane na podstawie innych przesłanek,
takich jak wywiad, obserwacja czy inne testy niż test, którego trafność chcemy
określić. Następnie można porównać wyniki skali X z niezależnie ustalonym roz-
poznaniem depresji.
Ocena trafności prognostycznej testu wymaga z reguły badań podłużnych, tj.
obejmujących dłuższy okres czasu. Jeśli wynik skali X miałby stanowić progno-
zę skuteczności terapii zaburzeń emocjonalnych, należałoby zbadać wszystkich
pacjentów rozpoczynających terapię. Następnie, po zakończeniu terapii, wyod-
rębniona zostaje grupa pacjentów, u których zaobserwowano pełną poprawę.
Jeśli stwierdzimy, że wyniki skali X tej grupy przed terapią były inne niż w gru-
pie pozostałych pacjentów, u których nie wystąpiła poprawa - test należy uznać
za trafny prognostycznie. 135
Adam Tarnowski, Krzysztof Fronczyk

W przypadku trafności prognostycznej ważny jest nie tylko wybór kryterium,


lecz także odstęp czasu upływającego od momentu pomiaru dokonanego za po-
mocą testu do chwili pomiaru kryterium. Zwykle czas ten podyktowany jest prze-
znaczeniem testu i wybranym kryterium. Jeśli test ma prognozować wyniki tera-
pii, najrozsądniej jest, aby badanie testem zostało wykonane przed rozpoczęciem
terapii, a ocena kryterium po jej zakończeniu. Tak więc, czas upływający między
tymi dwoma pomiarami, to czas trwania leczenia. W przypadku innych zastoso-
wań czas ten może bezpośrednio zależeć od celu stosowania testu. Jeśli chcemy
na podstawie wyników testu przewidywać powodzenie zawodowe po pół roku od
momentu przyjęcia do pracy, to oczywiście pomiar kryterium musi nastąpić po
pół roku od przeprowadzenia badania testem i rozpoczęcia pracy.
Rozważmy jeszcze raz hipotetyczną skalę postaw wobec bezpieczeństwa ru-
chu drogowego w kontekście trafności kryterialnej. Jeżeli poszukujemy narzędzi
umożliwiających przewidywanie, czy badana osoba może stanowić zagrożenie
jako kierowca 2 , skala może wykazać swoją ~rafność kryterialną. O ile jednak do
oceny trafności teoretycznej zwykle wystarcźa uzyskanie odpowiedniej istotnej
różnicy między grupami, to badając trafuość kryterialną staramy się ustalić i zwe-
ryfikować wartość progu wyników, który umożliwia optymalne podejmowanie
decyzji diagnostycznych. Przez pojęcie progu rozumie się taką wartość testu, po-
wyżej której można uznać, że badany spełnia kryterium. Wynik testu jest zwykle
zmienną ciągłą, a kryterium - bardzo często dwukategorialną (np. "chory na de-
presję" - "zdrowy"). Ustalanie takiego progu jest dość skomplikowaną procedu-
rą. Jeśli próg ustalimy zbyt nisko, wiele osób lekceważących przepisy zostanie
uznanych za dobrych kierowców (zakładamy, że wysokie wyniki testu świadczą
o poprawnej postawie wobec bezpieczeństwa na drodze). W tej sytuacji uniknie-
my także błędnych decyzji niedopuszczenia do prowadzenia samochodów osób
niesprawiających zagrożenia. Jeśli, przeciwnie, próg zostanie postawiony zbyt
wysoko, to zidentyfikujemy trafnie większość osób stwarzających zagrożenie,
jednak podejmiemy krzywdzące decyzje wobec wielu dobrych kierowców.

5.2.2.4. Inne aspekty trafności

Lekceważony często rodzaj trafności to trafność fasadowa. Test jest trafny fa-
sadowo, jeśli robi na badanym wrażenie zgodne z oczekiwaniami badacza. Jest
to ważne, gdyż test powinien sprawiać wrażenie profesjonalnego narzędzia, co
może zwiększać u badanego motywację do współpracy. Poza tym, jeśli treść testu
wydaje się niemądra, nieodpowiednia lub dziecinna, to może skutkować brakiem
współdziałania ze strony osoby badanej.

2 Według polskich przepisów obowiązkowe badania psychologiczne przechod7:ą sprawcy poważnych


wypadków drogowych, osoby przekraczające 24 pkt karne, zatrzymane z powodu prowadzenia pojazdu
po spożyciu alkoholu, skierowane przez lekarza oraz kierowcy zawodowi. Celem badań psychologic7:-
136 nych jest właśnie ustalenie, czy badany może powodować zagrożenie jako kierowca.
5. Jakich informacji o teście dostarcza testowanie?

Trafność fasadowa właściwie tylko z nazwy jest trafnością. Nie jest to traf-
ność w sensie definicyjnym, gdyż nie dotyczy tego, co test rzeczywiście mierzy
(Anastasi i Urbina, 1999). Dotyczy ona bowiem raczej tego, co test "wydaje się
mierzyć" w oczach badanych i wpływa na motywację osób badanych. Jest to
istotny aspekt badania testowego, gdyż test funkcjonuje w pewnej rzeczywistości
społecznej. Psycholog bada klientów na ich życzenie lub na zlecenie instytucji
(np. pracodawcy) i nie powinien stosować testów budzących np. złość czy sprze-
ciw klientów lub też zniechęcających do współpracy z psychologiem.
Przykładowo, badając pilotów linii lotniczych, należy m.in. ocenić ich umie-
jętność oceny czasu, pamięć, spostrzegawczość i zdolność wykonywania kilku
czynności równocześnie (reguluje to międzynarodowa metodyka JAR-FCL 3).
Dobrym narzędziem mierzącym te zmienne jest austriacki test SIMCAP. Problem
polega jednak na tym, że treść zadań wykonywanych przez badanego w silnym
stopniu nawiązuje do pracy biurowej (korekta, pamiętanie dat spotkań i telefo-
nów, wykonywanie obliczeń itd.). Test jest trudny, wymaga chwilami wręcz eks-
tremalnej koncentracji. Piloci badani tym testem reagują silnym oporem i zde-
cydowanie nie akceptująjego formy oraz informacji zwrotnych. W opisywanym
przypadku również zlecający badania pracodawca, obawiając się negatywnych
reakcji pilotów, poprosił o zastąpienie tego testu innymi technikami, mimo prze-
konania o wartościowości wniosków. Chociaż więc psycholog ma prawo do swo-
body wyboru narzędzi diagnostycznych i mógłby w takiej sytuacji pozostać przy
swoim zdaniu, korzystniej ze względu na szerszy kontekst badania jest zmienić
test na inny, badający podobne właściwości.

5.2.3. Wzajemne relacje pomiędzy poszczególnymi rodzajami trafności

Trafność pomiaru testem, jak już przedstawiono, ma wiele aspektów, a każdy


pomiar wykonany przy użyciu testu można opisać za pomocą wielu różnych traf-
ności. Nie są one wzajemnie niezależne, ale również nie są w jednoznaczny spo-
sób powiązane. Różne rodzaje trafności mogą się okazać konieczne w zależności
od zakresu stosowania testu i zasad jego konstrukcji.
Pojęcie trafności teoretycznej jest często uważane za warunek konieczny dla
każdego testu (Brzeziński, 2002). Jednak ocena trafności kryterialnej jest zda-
niem Nowakowskiej (1975) niezbędna w procesie oceny trafności pomiaru te-
stowego. Chociaż większość autorów (Magnusson, 1991, Homowska, 2001;
Anastasi i Urbina, 1999) dopuszcza także inne metody badania trafności, trudno
się nie zgodzić ze stwierdzeniem, że wyniki testu powinny wykazywać spójność
z zewnętrznymi danymi, czyli mieć dobrą trafność kryterialną. Testy oceniane
wyłącznie poprzez badanie ich wewnętrznej struktury (tj. wzajemnego skorelo-
wania skal lub struktury czynnikowej) zawsze są narażone na zarzut rozmijania
się z obiektywną rzeczywistością. 13 7
Adam Tarnowski, Krzysztof Fronczyk

Badanie zgodności z zewnętrznym kryterium ma znaczenie nie tylko tam,


gdzie konieczne jest określenie trafności kryterialnej. Może to być rów11ież waż­
ny argument w dowodzeniu trafności teoretycznej testu. Załóżmy, że test prze-
znaczony jest do badania sprawności uwagi wzrokowej. Jeśli okaże się, że grupa
pacjentów z uszkodzeniem pewnych okolic kory mózgowej (o których wiadomo
z innych badań, że odpowiadają za kontrolę uwagi wzrokowej) osiąga wyraźnie
niższe wyniki w tym teście w porównaniu do osób zdrowych, świadczy to o tym,
że test jest trafny diagnostycznie w. ocenie uszkodzenia mózgu. Jednak wynik
taki potwierdza również jego trafność teoretyczną. Skoro bowiem uszkodzenie
struktur odpowiedzialnych za uwagę wzrokową wpływa na obniżenie wyników
testu, uzasadnia to twierdzenie że test mierzy istotnie tę cechę.
Trafność kryterialna może być w dużym stopniu powiązana z trafnością teore-
tyczną. Jeśli test psychologiczny pozwala na przewidywanie pewnych zewnętrz­
nych zachowań (kryterium), to bardzo prawdopodobne, że istnieje psychologicz-
na właściwość, która ten związek tłumaczy. Analiza trafności teoretycznej jest
niezbędna, aby wyjaśnić i opisać mechanizm tej zależności. Tak więc np. jeśli
wyniki pewnego testu korelują z ocenami szkolnymi, daje to podstawę do stwier-
dzenia, że test ten ma dobrą trafność diagnostyczną, jeżeli chodzi o możliwość
oceny postępów szkolnych uczniów. Można jednak zastanawiać się, dlaczego
wyniki tego testu korelują z ocenami szkolnymi. Przecież w zastosowanym teście
nie ma zadań czy pytań, które bezpośrednio dotyczyłyby programu nauczani~.
Jak to więc możliwe, że test ten jest dobrym narzędziem pod względem oceny
uczniów? Prawdopodobnie test ten diagnozuje pewną ważną dla osiągnięć szkol-
nych predyspozycję uczniów. Analizując przyczyny sukcesów edukacyjnych,
można powiedzieć, że jednym z ich uwarunkowańjcst wysoka inteligencja. Z teo-
retycznego punktu widzenia można oczekiwać, że stopnie szkolne powinny kore-
lować z miarą inteligencji. Skoro więc nasz test koreluje ze stopniami szkolnymi,
to bardzo prawdopodobne, że jest on miarą inteligencji. Podobne rozumowanie
leżało u podstaw sprawdzania trafności takich testów inteligencji, jak np. Skala
Dojrzałości Umysłowej Columbia (Ciechanowicz, 1992) czy test inteligencji
Ravena (Jaworowska, Szustrowa, 2000). Oczywiście przedstawione rozumowa-
nie jest pewnym uproszczeniem. Istnieje przecież wiele ważnych uwarunkowań
sukcesów szkolnych, a inteligencja jest tylko jednym z nich. Innym uwarunko-
waniemjest np. motywacja. Gdyby nic więcej nie było wiadomo o teście Ravena
lub skali Columbia, można byłoby przypuszczać, że są to miary np. motywacji do
nauki. Jednak ilme badania, a także analiza treści w połączeniu z przedstawiony-
mi danymi wskazują, że wymienione testy są miarami inteligencji.
Nie zawsze musi istnieć teoria wyjaśniająca współwystępowanie kryterium
i wyników testu. Zdarza się, że takie współwystępowanie jest po prostu empi-
rycznie obserwowalną prawidłowością niemającą swojego teoretycznego uza-
sadnienia. Szczególnym przypadkiem wykorzystującym współwystępowanie
138 danych testowych i zewnętrznych kryteriów w sytuacji, gdy nie istnieje teoria
5. Jakich informacji o teście dostarcza testowanie?

wyjaśniająca związek jednego z drugim jest kwestionariusz MMPI. W inwenta-


rzu tym nawet treść pozycji nie ma znaczenia, gdyż ważna jest jedynie korelacja
wyników testowych i zewnętrznych kryteriów, jakimi są diagnozy różnych zabu-
rze11 psychicznych.
Na wynik każdego testu ma wpływ szereg zmiennych psychologicznych.
Wyniki kwestionariusza badającego nasilenie lęku w pewnym stopniu zależne
są od szeregu innych czynników, takich jak np. sprawność intelektualna (warun-
kująca zasób słownictwa niezbędny do zrozumienia pytań), szczerość i potrzeba
aprobaty społecznej (mające wpływ na unikanie pewnych odpowiedzi w teście)
czy też poziom mechanizmów obronnych (które mogą utrudniać adekwatny sa-
moopis). Niektórzy autorzy (Magnusson, 1991) stwierdzają nawet radykalnie, że
każdy test może być wskaźnikiem każdej cechy, ale w różnym stopniu. Podkreślić
należy, że pełna analiza trafności teoretycznej powinna obejmować zarówno oce-
nę wpływu zasadniczej badanej zmiennej na wynik testu, jak i analizę wpływu
pozostałych zmiennych.
Niektórzy autorzy (Jakubowski, 1983) zdroworozsądkowo stwierdzają, że je-
śli test jest trafny treściowo oraz należycie spójny wewnętrznie (co oceniamy ba-
dając rzetelność), można założyć, że istotnie mierzy on to, co stanowi treść pytań,
a zatem jest trafny teoretycznie. Zasada ta pozwala na potwierdzenie trafności
pomiaru testem po dość pobieżnym badaniu, bez stosowania kryteriów zewnętrz­
nych i powinna być stosowana z rozwagą.

5.2.4. Trafność pomiaru testowego a odstępstwa od standardowej


procedury badania
Testy sąjednym ze sposobów badania psychologicznego. Nigdy nie mogą być
jedynym ani nawet dominującym źródłem wiedzy o badanym. Konieczne jest
ich uzupełnianie wywiadem, obserwacją, zbieraniem danych środowiskowych
i analizą dostępnych dokumentów. Korzystając z testów, należy pamiętać, że ich
trafność była badana dla pewnej konkretnej standaryzacji i obiektywizacji, oraz
że obejmuje tylko pewien zakres wniosków, poza który nie można wykraczać.
Powstaje pytanie o możliwość wnioskowania z testów zastosowanych niezgod-
nie ze standardem. Przed takim problemem może stanąć psycholog, który zain-
teresowany occną pamięci u badanego zastosował jedynie podtest Powtarzanie
Cyfr z testu WAIS (choć instrukcja nakazuje zawsze stosować test w całości).
Załóżmy że wynik jest dramatycznie niski i z pewnością wskazuje na zaburzenia
pamięci. Czy psychologowi wolno wykorzystać tę informację?
Wydaje się, żc istnieje taka możliwość. Jednak używając takiego wyniku, psy-
cholog nie może powoływać się na test WAIS ijego ustaloną trafność. Naruszając
standardową procedurę badania, nie może również odnosić się z zaufaniem do
norm testowych. Jego argumentacja w formułowaniu diagnozy musi uwzględ-
niać fakt nietypowego użycia wyjętego z kontekstu zadania i jest dokonywana na 139
Adam Tarnowski, Krzysztof Fronczyk

całkowitą odpowiedzialność psychologa. Jeśli stosujemy test całkowicie zgodnie


z instrukcją, odpowiedzialność za wnioski częściowo przenosi się na autora te-
stu.
Dlatego, dążąc do maksymalizacji trafuości metod testowych, nie wolno za-
pominać o tym, że nawet najdoskonalszy test nie będzie skutecznym narzędziem
w rękach psychologa ignorującego zasady diagnostyki. Również przyglądając się
danym z badań trafności pomiaru testem, nie należy oczekiwać cudownych, bli-
skichjedności korelacji między testem a kryterium zewnętrznym. Test ma wspo-
magać, a nie zastępować psychologa.

5.2.5. Szacowanie trafności

Przy szacowaniu trafności pomiarów testowych wykorzystuje się znane me-


tody statystyczne używane także w innych celach. Zwykle nie ma potrzeby sto-
sowania specjalnych procedur, tak jak w przypadku szacowania rzetelności po-
miaru za pomocą testów, do której wykorzystuje się np. wzory alfa Cronbacha
czy Spearmana-Browna. Większość metod stosowanych do szacowania trafności
pomiarów przeprowadzanych przy użyciu testów jest powszechnie znana lub zo-
stała opisana przy okazji omawiana szacowania rzetelności (por. rozdział 5.1.).
W rozdziale niniejszym zaprezentowano tylko wybrane, najczęściej stosO'\va-
ne, metody statystyczne znajdujące zastosowanie przy szacowaniu trafności po-
miarów testowych. W praktyce badawczej Czytelnik może spotkać się z różny­
mi metodami, których tu nie uwzględniono z powodu ograniczonego charakteru
podręcznika. Przy każdej z metod podano informację o tym, jaki rodzaj trafności
może być oszacowany przy użyciu danej metody.

5.2.5.1. Współczynnik zgodności sędziów

W cclu oszacowania trafności treściowej stosuje się metodę sędziów kom-


petentnych. W celu określenie zgodności sędziów, można użyć współczynnika
W-Kendalla. Współczynnik ten stosowany jest także jako jedna z metod szaco-
wania rzetelności (rozdz. 5.1.7.4.).
Zastosowanie metody sędziów kompetentnych oraz obliczanie współczynnika
zgodności sędziów zaprezentowane zostanie przy wykorzystaniu danych z przy-
kładu omówionego w rozdziale 5.2.2.1.
W celu obliczenia wartości W-Kendalla konieczne jest, w pierwszej kolejno-
ści, nadanie rang ocenom przypisanym przez sędziów kompetentnych. W tym
celu należy ułożyć pozycje testowe według ocen przyznanych przed danego sę­
dziego w kolejności od najmniejszej do największej i przypisać im kolejne ran-
gi. Rangami tymi są kolejne liczby całkowite, poczynając od liczby jeden. Jako
przykład rozpatrzmy rangowanie ocen przyznanych przez pewnego sędziego.
140 Załóżmy, że przypisał on pozycjom testowym następujące oceny: 4, 3, 1, 5. Po
5. Jakich informacji o teście dostarcza testowanie?

ułożeniuw kolejności rosnącej, otrzymujemy: 1,3,4, 5. Teraz można przypisać


poszczególnym ocenom odpowiednio kolejne rangi, tj.:

Oceny przyznane przez sędziego 3 4 5


Rangi 2 3 4

Sposób rangowania nieco bardziej się komplikuje, jeśli więcej niż jednej pozy-
cji testowej przyznano tę samą rangę, tak jak w przypadku sędziego I w tabeli 5.5.
Jak widać z tej tabeli, sędzia ten aż czterem pozycjom testowym przyznał tę samą
ocenę: 5. W tej sytuacji sposób postępowania jest następujący. Podobnie jak po-
przednio, należy uszeregować oceny od najmniejszej do największej i przypisać
im kolejne liczby całkowite. Otrzymujemy więc:

Oceny przyznane przez sędziego I z tabeli 5.5. 3 4 5 5 5 5


Liczby 2 3 4 5 6

Nie są to jednak jeszcze rangi, gdyż sposób ich obliczania w tym przypadku
wymaga jeszcze następujących przekształceń. Należy zsumować liczby przypi-
sane tym samym ocenom przyznanym przez sędziego. W opisywanym przypad-
ku należy dodać do siebie następujące liczby 3,4,5 i 6, gdyż zostały one nadane
ocenom 5. Suma liczb przypisanych tym samym ocenom wynosi 3+4+5+6=18.
W celu obliczenia rang należy tę sumę podzielić przez liczbę pozycji testowych,
którym sędzia przypisał tę samą ocenę. W naszym przypadku jest to liczba cztery
(czterem pozycjom testowym przypisano ocenę 5). Liczba 18 podzielona na czte-
ry daje 4,5. Ostatecznie otrzymujemy:

Oceny przyznane przez sędziego I z tabeli 5.5. 3 4 5 5 5 5


Liczby 2 3 4 5 6
Rangi 2 4,5 4,5 4,5 4,5

Rangi przypisane pozycjom testov.'Ym, które otrzymały jednakowe oceny na-


zywane są rangami wiązanymi. W opisany powyżej sposób należy porangować
pozostałe oceny sędziów, gdyż wśród nich występują również rangi wiązane. Po
przypisaniu rang ocenom dokonanym przez wszystkim sędziów, otrzymujemy
wyńiki zamieszczone w tabeli 5.9

141
Adam Tarnowski, Krzysztof Fronczyk

Tabel;:l 5.9. Porangowane dane z tabeli 5.5

Pozycja Suma
Sędzia I Sędzia II Sędzia III M-Rj (M-Rj)2
testowa rang Rj
1 4,5 5 5 14,5 -4 16
2 4,5 2,5 5 12 -1,5 2,25
3 4,5 5 2,5 12 -1,5 2,25
4 4,5 5 5 14,5 -4 16
5 1 1 2,5 4,5 6 36
6 2 2,5 1 5,5 5 25
Suma 63 97,5

Po dokonaniu rangowania, można przystąpić do obliczania wartości


W-Kendalla, korzystając z następującego wzoru:

w= S
l e(N3-N)-kt~
12 ;=1
gdzie:
k - liczba sędziów;
N. - liczba ocenianych pozycji testowych;
S - suma kwadratów różnic średniej sumy rang i sumy rang j-tej pozycji te-
stowej;
k
L T; - poprawka na rangi wiązane.
i=l

W celu skorzystania z tego wzoru, konieczne jest wykonanie szeregu obliczeń


pomocniczych, które zostaną poniżej opisane.
Jak widać, w celu obliczenia W-Kendala potrzebna będzie wartość S. Można
ją obliczyć w następujący sposób. Należy dla każdej pozycji testowej obliczyć
sumę rang, tak jak uczyniono to w tabeli 5.9. Sumy rang dla j-tej pozycji testo-
wej oznaczone są symbolem Rj (kolumna "Suma rang R/'). W dalszej kolejności
należy dodać wszystkie wartości Rj' W omawianym przykładzie suma ta wynosi
63. Uzyskaną sumę należy podzielić przez liczbę wszystkich pozycji testowych.
Jest to średnia suma rang oznaczana symbolem M:
k
~R
.LJ }
M=~
N
W naszym przypadku M=63/6=10,5.
W następnej kolejności należy obliczyć wartości M-Rj, czyli dla każdej pozy-
142 cji testowej obliczamy różnicę między średnią sumą rang a sumą rang tej pozycji
5. Jakich informacji o teście dostarcza testowanie?

testowej. Dla pierwszej pozycji testowej z tabeli 5.9. obliczenie to polega to na


odjęciu od liczby 10,5 liczby 14,5. Daje to wartość -4. Wartość ta wpisana jest
w odpowiedniej kolumnie tabeli 5.9. Podobnie postępujemy z pozostałymi pozy-
cjami testowymi zawartymi w tabeli 5.9.
Kolejny krok polega na podniesieniu do kwadratu wartości przed chwilą obli-
czonych różnic. Tak więc dla pierwszej pozycji testowej podnosimy wartość -4
do kwadratu i otrzymujemy 16, co wpisujemy do kolejnej kolumny tabeli 5.9.
Podobnie postępujemy z pozostałymi pozycjami testowymi.
Następnie należy zsumować wszystkie wartości ostatniej kolumny tabe-
li 5.9. W ten sposób obliczyliśmy wartość S występującą w liczniku wzoru na
W-Kendalla. W naszym przypadku S=97,5.
W celu obliczenia wartości W, konieczne jest jeszcze obliczenie wartości
k

L 1'; . Jest to tzw. poprawka na rangi wiązane. Oblicza się ją jedynie wtedy,
;=1

gdy występują rangi wiązane. Jeśli takich rang nie ma, to wartość ta równa jest
O. Wartość 1; należy wyliczyć oddzielnie dla każdego z sędziów z następującego
wzoru:

gdzie
t - liczba ocen związanych tą samą rangą.

Posługując się tym wzorem, obliczmy 1; dla poszczególnych sędziów:

T. = (43 - 4) = 60 =5
\ 12 12
T = (3 3 - 3) + (2 3 - 2) = 30 =2 5
2 12 12'
T = (3 3 - 3) + (2 3 - 2) = 30 = 2 5
3 12 12'
W dalszej kolejności sumujemy wszystkie wartości 1;:
k
L. 7; = 5 + 2,5 + 2,5 = 10
;=\

Obecnie możemy wszystkie potrzebne wartości podstawić do wzoru.


143
Adam Tarnowski, Krzysztof Fronczyk

w= 97,5 =0765
_13 2 (6 3 -6)-3*10 '
12

Te same obliczenia możemy wykonać posługując się programem SPSS.


W celu skorzystania z SPSS, należy odpowiednio przygotować zbiór danych.
Dane z tabeli 5.5. należy wprowadzić w komputera tak, aby każdy sędzia wpisa-
ny był w wierszu, a pozycja testowa - w kolumnie, a więc odwrotnie niż w tabeli
5.5. Odpowiednio przygotowany plik danych zaprezentowano na rys. 5.16. Dane
te zawarte są w pliku zgodnosc_sedziow_trafnosc.sav.

Rysunek 5.16. Sposób organizacji pliku danych do obliczania zgodności sędziów

Następnie z menu "Analiza" wybieramy "Testy nieparametryczne", dalej "K


prób zależnych", w okienku dialogowym wprowadzamy zmienne (wszystkie po-
zycje' testowe) i zaznaczamy "W-Kendalla" (rys. 5.13. i 5.l4.). Po wykonaniu
powyższych operacji, otrzymamy wydruk przedstawiony na rys. 5.17.

Statystytd testu
N 3
W Kendalla a ,765
Chi-kwadrat 11,471
df 5
Istotność asymptotyczna ,043
a. Współczynnikzgodno§cl Kendall«

Rysunek 5.17. Okno wyników dotyczących współczynnika W-Kedndalla

Jak widać z wydruku, wartość współczynnika W-Kedndalla jest dokładnie


taka sama, jak wyliczona wcześniej i wynosi 0,765. Świadczy to o dość znacznej
zgodności ocen sędziów.
Wartość współczynnika W-Kendalla testowana jest za pomocą statystyki chi 2 ,
która również zaprezentowana jest na wydruku. W naszym przypadku wynosi
ona 11,471 ijest istotna statystycznie (dokładnie p wynosi 0,043). Oznacza to, że
144
5. Jakich informacji o teście dostarcza testowanie?

wartość współczynnika W-Kedndalla jest zbyt duża, by można było uznać ją za


rezultat czysto losowego oceniania pozycji testowych przez sędziów.

5.2.5.2. Współczynnik korelacji


Szacując trafność teoretyczną lub kryterialną, dość często
zachodzi koniecz-
ność obliczenia siły związku między wynikami testu, którego trafność nas inte-
resuje i pewnej innej zmiennej będącej albo kryterium trafności, albo teoretyczne
powiązanej z wynikami testu.
Rozważmy następujący przykład. W pewnym badaniu jego uczestnicy wy-
pełnili kwestionariusz EPQ-R oraz Kwestionariusz Aprobaty Społecznej (KAS).
Można oczekiwać (por. rozdział 5.2.2.2.), że wyniki skal P i KAS są ze sobą
związane. W celu sprawdzenia tej hipotezy, należy obliczyć współczynnik kore-
lacji obu skal. Dane do tego przykładu znajdują się w pliku korelacje.sav.
Obecnie przejdziemy do omówienia sposobu obliczania współczynników ko-
relacji za pomocą programu SPSS. W celu obliczenia interesujących nas kore-
lacji, należy wybrać z menu głównego opcję "Analiza", następnie "Korelacje"
i wreszcie "Parami" (rys. 5.18.). Pojawi się wówczas okno dialogowe ukazane
na rys. 5.19.

Rysunek 5.18. Wybór okna "Korelacja parami" z menu głównego SPSS

145
Adam Tarnowski, Krzysztof Fronczyk

Rysunek 5.19. Okno "Korelacja parami"

Następnie dokonujemy wyboru zmiennych do analizy przez kliknięcie ich


nazw na liście znajdującej się po lewcj stronie okna lub zaznaczenie żądanych
zmiennych, a następnie kliknięcie strzałki znajdującej się po środku okna.
Wybranie więcej niż dwóch zmiennych spowoduje obliczenie współczynników
korelacji dla każdej z par zmiennych. Po wybraniu zmiennych do analizy, nale-
ży zaznaczyć, jaki współczynnik korelacji nas interesuje. Przy wyborze dwóch
współczynników zostaną utworzone odpowiednio dwie lub trzy macierze współ­
czynników.
W polu "Test istotności" można wybrać opcję dotyczącą testu istotności ko-
relacji. Jeżeli mamy jakiekolwiek hipotezy co do kierunku (znaku) korelacji
należy wybrać test jednostronny. Z tą sytuacją najczęściej mamy do czynienia
w przypadku obliczania trafności, gdyż posiadamy konkretne przypuszczenia co
do interesującej nas zależności. W przeciwnym wypadku, gdy przeprowadzamy
np. jakąś wstępną analizę, a naszym celem jest zbadanie, czy między zmiennymi
zachodzi jakikolwiek związek, wybieramy test dwustronny.
Po wciśnięciu przycisku OK, komputer obliczy żądane wartości korelacji. Ich
wartości ukażą się w oknie wyników przedstawionym na rys. 5.20.

Korelacje
aprobata
społeczna
(1<'\8) pSYChOtyzm
aprobata społeczna WAS) KOrelacja Peat'sona 1 ·,351'"
łslotnosc uednostronna) ,000
N 100 100
psycl101yzm Korelacja Pearsona -,351*' 1
Istotność (Jednostronna) ,000
N 100 100
... Korełal:)a jest istotna na poziomie 0.01 (jednostronnie).

146 Rysunek 5.20. Okno wyników dotyczących współczynnika korelacji Pearsona


5. Jakich informacji o teście do.starcza testowanie?

Jak widać, utworzona przez komputer tabelka zawiera wartości korelacji po-
szczególnych par zmiennych oraz poziomy istotności tychże korelacji, jak rów-
nież liczebność (N), próby na jakiej obliczono daną korelację. Korelacje istotne
statystycznie na poziomie p<O,Ol zostały wyróżnione gwiazdkami umieszczoną
przy wartości korelacji.

5.2.5.3. Analiza czynnikowa


Analiza czynnikowa od strony obliczeniowej jest dosyć złożona. Poniżej
przedstawionych jest kilka reguł, które w większości przypadków powinny po-
zwolić na uzyskanie wiarygodnych wyników, jednak przy planowaniu poważ­
nych badań niezbędne jest głębsze zapoznanie się z literaturą przedmiotu (np.
Zakrzewska, 1994).
Jeśli planuje się zastosowanie analizy czynnikowej w pewnym badaniu, to
próba osób w nim uczestniczących powinna być możliwie duża. Według niepi-
sanej umowy, aby zapewnić minimalną sensowną liczebność przyjmujemy, że
liczba osób powinna być przynajmniej dziesięciokrotnie większa od liczby ba-
danych zmiennych. Próba powinna być możliwie zróżnicowana pod względem
analizowanych zmiennych i maksymalnie jednorodna pod względem pozosta-
łych zmiennych ubocznych.
Przykładowe obliczanie analizy wariancji zaprezentowane zostanie przy wy-
korzystaniu pliku danych analiza_czynnikowa.sav, zawierającym zmienne wy-
korzystane w tabeli 5.8. W celu przeprowadzenia obliczeń w programie SPSS,
wybieramy polecenia "Analiza", a w dalszej kolejności "Redukcja danych", na-
stępnie "Analiza czynnikowa". Spowoduje to wyświetlenie okna przedstawione-
go na rys. 5.21. W stosunku do domyślnych ustawie11 procedury warto wprowa-
dzić kilka zmian.

Rysunek 5.21. Uruchamianie analizy czynnikowej w SPSS

Po wciśnięciu przycisku "Rotacja" ukaże się okno przedstawione na rys. 5.22.


W oknie tym można wybrać jedną z metod rotowania czynników. Jest to za- 147
Adam Tarnowski, Krzyszto f Fronczy k

bieg zwiększający czytelność uzyskanego rozwiązania. Istota rotacji


polega na
obrocie układu współrzędnych tworzonego przez czynniki. Sprawia
on, że ła­
dunki czynnikowe poszczególnych zmiennych stają się bardzo małe
lub bardzo
duże, co upraszcza przyporządkowanie znanych zmienn
ych nowym czynnikom.
Metoda Varimax rotowania czynników jest najczęściej używaną techni
ką tego
typu i ją też wybieramy w naszym przykładzie.

Rysunek 5.22. Wybór metody rotowania czynników w SPSS

Po powrocie do okna "Analiza czynnik owa" w "Opcjach" wybieramy


sorto-
wanie według wielkości ładunków i pomijanie wartości mniejszych niż
0,1 (rys.
5.23). Są to zabiegi porządkowe, zwiększające czytelność wydruku.

Rysunek 5.23. Wybór opcji W analizie czynnikowej

Zwróćmy uwagę, że w opisie analizy czynnikowej


często wymiennie stosuje
się pojęcia "wariancja", "zmienność" oraz "informacja".
Zróżnicowanie wyni-
ków, czyli ich zmienność, jest nośnikiem informacji, która może być wyjaśn
iana
poprzez różne procedury statystyczne. Gdyby wszyscy badani mieli identyczne
wyniki w pewnej zmiennej (np. postawie), taki zbiór danych nie niósłby
żadnej
148 infonnacji o niej. Nie można by wyjaśnić, co wpływa na tę zmienną
(postawę)
5. Jakich informacji o teście dostarcza testowanie?

i co jest jej skutkiem. Dlatego im bardziej zróżnicowane są dane, tym więcej


infom1acji o postawie mogą one przynieść. Wariancja oznacza, z jednej strony,
znaną ze statystyki miarę pozwalającą ilościowo ująć zmienność wyników, z dru-
giej - niekiedy bywa używana jako synonim takich słów, jak zróżnicowanie czy
też zmienność wyników.
Wykonanie opisanej analizy spowoduje uzyskanie wyników przedstawionych
w tabeli 5.8. Na wydruku zwracamy uwagę na pierwszą tabelę (rys. 5.24.) przed-
stawiającą zasoby zmienności wspólnej, które powinny być jak największe dla
każdej ze zmiemlych uwzględnionych w analizie. Warto rozważyć pominięcie
zmiennych, dla których wartości te są małe. Dla każdej zmiennej zasób zmien-
ności wspólnej, to proporcja informacji zawartej w tej zmiennej, która wiąże się
z pozostałymi zmiennymi używanymi w analizie. Jeśli wartość ta jest niewielka
oznacza to, że zmienna nie ma wiele wspólnego z innymi zmiennymi i prawdo-
podobnie w prowadzonej analizie czynnikowej raczej utrudnia uzyskanie czytel-
nego rozwiązania.

Po
w;odrębn
Począll«>W$ leniu
Skala BRO 1,000 .771
Nieuwaga 1.000 .505
żwawość 1,000 .669
perseweraty.vność 1,000 ,785
wrażliwość sensoryczna 1,000 ,69B
r••kl\'Wność 1,000 ,S05
wytrzymałość 1,000 ,725
akl\'Wność 1,000 ,636
Metod. wyodrębniania C2IInnlków· OIownych skl3aoWyth.

Całk-owłła W)'j3Śniona wariancja

Sumy kwadratów ładunków po


Poc~tl«>we wartości własne VvvodrębnierJiu Sumy kliadra!ówładunków po rotacji
% % %
Składowa Ogółem %wańanc'i skumulowany Ogółem % wariancJi skumulowany Ogółem %w3rliill1cji SkumulOwany
l 2,192 34,902 34,902 2,792 34,902 34,902 2,426 30,325 30,325
2 1,689 21,118 56,020 1,639 21,118 56,020 1,612 20,145 50,470
3 1,093 13,660 69,680 1,093 13,860 69,6BO 1,537 19,210 69,a80
4 ,776 9,694 19,374
5 ,542 6,161 86,155
6 ,450 5.621 91,775
7 ,388 4,853 96.628
a ,270 3,312 100,000
.
Metoda wyodrębmam. czynmk.w- OIownl'th składOWYCh.
~

Rysunek 5.24. Wyniki analizy czynnikowej

W drugiej tabeli (rys. 5.24.) zwracamy szczególną uwagę na skumulowany


procent wariancji wyjaśnionej dla ostatniego czynnika (powinno być jak najwię­
cej, analiza ma mały sens jeśli wartość jest mniejsza od 50), Wartość ta informu-
je, jaka część informacji zawartej w wyjściowych zmiennych tłumaczona jest
przez utworzone czynniki. Jeśli wartość ta jest zbyt mała świadczy to o tym, że 149
Ad,am Tarnowski, Krzysztof Fronczyk

nie udało się utworzyć


czynników wyjaśniających wprowadzone zmienne i ana-
lizę należy uznać za nieudaną.
'
Kolejne tabele wydruku wyników (rys. 5.25.) przedstawiają macierze
czynni-
ków rozwiązania nierotowanego oraz rotowanego.

Macierz sktadOW)łt:ha

Składowa
1 2 3
reaktywność ",859 ,148 ,213
'W)IIrzymałOść .849
zwawosć ,692 ,129 ,417
persewera1ywnośc ",667 ,566
Skała BRD
,803 -,355
Nieuwaga -,258 -,661
ak1ywność ,502 -,612
wrażlh"losć
sensoryczna ,302 ,440 ,643
Metoda wyodrębniania cl\Innlków - Głownych składowych.
a, 3 - liczba wyodrębnionych składowych.

Macierz ro1owanych składowych'"

Składowa
1 2 3
reak1yVl'nośc ,875 -,182
persewera1ywnośc ,841 ,187 ,149
'W)IIrzymalość ",720 ,455
Skala BRD ",876
Nieuwaga ,144 ,623 -,310
aktywność -,490 ,619 ,115
wrażliwość sensoryczna -,169 ,813
zwawość -,403 ,710

MetOda wyodrębniania czYnników - Głównych składowych.


Metoda rotaCji - Varimax z normalizacją Kaisera.
a. Rotacja osiągnęła zbieżność w 5 iteracjach.

Macierz przekształconych składowych


Składowa 1 2 3
1 -.881 ,025 ,472
2 ,151 -,931 ,331
3 ,448 ,363 ,817
Me10da wyodrębniania cl\Innlków - Glownych Składowych.

Metoda rolacji " Varimax z normalizacją Kaisera.

150 Rysunek 5.25. Wyniki analizy czynnikowej - c.d.


5. Jakich informacji o teście dostarcza testowanie?

W omawianym przykładzie nie interesuje nas macierz czynników nierotowa-


nych. Ostatecznie interpretujemy więc macierz ładunków czynnikowych po ro-
tacji. Dla każdego czynnika wyszukujemy zmienne powiązane z nim najsilniej.
Wspólna treść tych zmiennych pozwala zinterpretować utworzony czynnik tak,
jak uczyniono to w rozdziale 5.2.2.2.

5.2.5.4. Analiza różnic międzygrupowych

W badaniach nad trafnością teoretyczną lub kryterialną zachodzi niekiedy ko-


nieczność porównania średnich wyników danego testu uzyskanych w dwóch lub
więcej grupach wyodrębnionych ze względu na kryterium (trafność kryterialna)
bądź zmienną ważną z teoretycznego punktu widzenia (trafność teoretyczna).
Do porównywania różnic między średnimi arytmetycznymi dwóch grup służy
test t-Studenta dla prób niezależnych. W przypadku większej liczby grup można
zastosować analizę wariancji.
W celu omówienia zastosowania SPSS do obliczania testu t-Studenta, a także
jednoczynnikowej analizy wariancji, posłużymy się następującym przykładem.
Wyobraźmy sobie, że przebadaliśmy trzy grupy (w wieku 8, 10 i 12 lat) mło­
dzieży pewnym testem inteligencji. Jeśli test ten jest trafny, to należy przypusz-
czać, żejego wyniki wzrastają wraz z wiekiem badanych. Naszym zadaniem jest
sprawdzenie tego przypuszczenia. Możemy tego dokonać porównując średnie
wyniki w poszczególnych grupach wieku.
Odpowiednie dane do tego przykładu zawiera plik o nazwie porówny-
wanie_grup.sav. W pliku tym zmienna "intel" zawiera wyniki testu inteligencji,
a zmienna "wiek" reprezentuje wiek osób badanych.

5.2.5.4.1. Test t-Studenta


Załóżmy na początek, że chcemy porównać pod względem wyników testu in-
teligencji tylko dwie grupy: dziesięciolatków i dwunastolatków. Zgodnie z teorią
inteligencji należy oczekiwać, że dziesięciolatkowie osiągną niższe wyniki niż
dwunastolatkowie.
W celu przeprowadzenia obliczeń w SPSS, z menu "Analiza" wybieramy po-
lecenie "Porównywanie średnich", a następnie "Test t dla prób niezależnych"
(rys. 5.26.).
Spowoduje to wyświetlenie na ekranie monitora okna przedstawionego na
rys. 5.27. W celu wyboru zmiennej reprezentującej wyniki testu, którego trafność
określamy (w naszym przypadku wynik testu inteligencji - intel), klikamy jej
nazwę, a następnie odpowiednią strzałkę, tak aby zmiem1a ta została przeniesiona
do okna "Zmienne testowane".

151
Adam Tarnowski, Krzysztof Fronczyk

Rysunek 5.26. Wybór okna "Test t dla prób niezależnych" z menu głównego SPSS

Rysunek 5.27. Okno "Test t dla prób niezależnych"

W dalszej kolejności musimy wybrać zmienną niezależną. W naszym przy-


kładzie jest nią przynależność do grupy wieku. Zmienna niezależna w programie
SPSS nosi nazwę tzw. zmiennej grupującej. Musi ona zawierać wartości odpo-
wiadające przynależności do porównywanych grup. Jeśli np. porównujemy dwie
grupy wyróżnione ze względu na płeć, to zarówno kobietom, jak i mężczyznom
należy przypisać jakiś kod liczbowy. Może być on zupełnie dowolny. Możemy
np. ustalić, że wszystkim kobietom przypisujemy cyfrę 1, a mężczyznom - O.
W ten sposób można utworzyć potrzebną zmienną grupującą. W naszym przy-
padku grupom przyporządkowano konkretne wartości oznaczające wiek bada-
nych.
Zdarza się jednak tak, że chcemy wyróżnić dwie grupy na podstawie jakiejś
zmiennej ciągłej czy też porządkowej o wielu wartościach (więcej niż dwóch).
152 Przypuśćmy, że w naszym przykładzie przebadaliśmy młodzież w bardzo róż-
5. Jakich informacji o teście dostarcza testowanie?

nym wieku, a więc zmienna wiek przybiera np. następujące wartości: 7, 8, 9, 10,
11, 12, 13 i 14. Możemy teraz wybrać, jaka wartość będzie dzieliła wszystkich
badanych na dwie grupy. Możemy np. przyjąć, że wszystkich poniżej 10 roku
życia zaliczamy do grupy pierwszej (czyli do grupy młodszych), a pozostałych
badanych do grupy drugiej (czyli grupy starszej).
W oknie z rys. 5.27. zmienną grupującą wzbiera się przez zaznaczenie jej na-
zwy i kliknięcie odpowiedniej strzałki tak, aby jej nazwa znalazła się w polu
"Zmienna grupująca". Teraz możemy zdefiniować, jakie wartości zmiennej
grupującej określają analizowane .grupy, które chcemy porównać. W tym celu
klikamy przycisk "Definiuj grupy", po czym ukaże się okno przedstawione na
rys. 5.28. W zależności od tego, czy zmienna grupująca ma charakter nominal-
ny czy nie, wybieramy potrzebną opcję (odpowiednio: Użyj określonych warto-
ści lub Punkt podziału). W naszym przykładzie wpisujemy wartości: dla grupy
1 -liczba 12, a dla grupy 2 -liczba 10.

Rysunek 5.28. Okno definiowania grup

Po wciśnięciu "Dalej", a następnie "OK", program wykona analizę, której re-


zultaty zamieszczone zostaną w edytorze wyników (rys. 5.29.).

S'~ldl"łlmp

Błąd
Odehylenie: standardtlVvy
wiek N Średnia standardowe $fednie
it)tel 12,00 30 5,,9000 2,48235 ,45321
10,00 30 50,6000 3,13600 ,57255

Tei! L9'/ene-'a
jednOfOClt1o$cl
wariant I Test I róWności średnich

95% przedział ufrtOstl ['jla


e'ą"
Istotność RÓ~l'IiCa stanliartlowy I'OŻnlClf Śre.dnich
lstotnośi df (dWustronna sredt)lct·~ rOilrlicv Doh18 aranICa Góro'i liioj(a
mtel ZałOtono równość
wariancji
1,508 ,224 3,HiO sa ,003 2,30000 ,73022 ,83831 3,78169
Nie l'.1łozono
3,150 55,09. ,00"3 2,30000 ,13022 ,93667 3,76333

Rysunek 5.29, Okno wyników dotyczących testu t-Studenta

153
Adam Tarnowski, Krzysztof Fronczyk

Na wydruku znajdą się dwie tabele. W pierwszej gómej (Statystyki dla grup)
znajdują się statystyki opisowe dla porównywanych grup (ich liczebność, Śred­
nie, odchylenie standardowe i błąd standardowy pomiaru). Z tabeli tej możemy
dowiedzieć się, że dwunastolatkowie osiągają przeciętnie wyższe wyniki (52,9)
niż dziesięciolatkowie (50,6).
Informacje dotyczące tego, czy różnica ta jest istotna statystycznie zamiesz-
czone są w kolejnej tabeli (Test dla prób niezależnych). Dwie pierwsze kolumny
tej tabeli dotyczą testu jednorodności wariancji Levene'a. Jest to sprawdzanie
jednego z założeń testu t-Studenta. Jeżeli test Levene'ajest nieistotny statystycz-
nie, to wariancje są homogeniczne, a co za tym idzie - można zastosować test
t. Wyniki dotyczące tego testu znajdują się w pierwszym wierszu tabeli (wiersz
ten nazwany jest: Założono równo,~ć wariancji). W przeciwnym wypadku, gdy
wariancje nie sąjednorodne, patrzymy na dolny wiersz tabeli, zawierający dane
na temat testu Cochrana-Coxa, który jest odpowiednikiem testu t-Sudenta dla sy-
tuacji, w której nie jest spełnione założenie o homogeniczności wariancji (wiersz
ten nazwany jest: Nie założono równość wariancji).
W naszym przypadku test Levene'a jest nieistotny statycznie (F=I,508;
p=O,224). Oznacza to, że wyniki testu t-Studenta odczytamy z pierwszego wier-
sza tabeli. Jak widzimy, wartość tego testu wynosi t=3,15. Przy 58 stopniach
swobody wynik ten jest istotny statystycznie na poziomie p=0,003. Oznacza to,
że średnie testu inteligencji w dwóch porównywanych grupach wieku istotnie
różnią- się między sobą.

5.2.5.4.2. Jednoczynnikowa analiza wariancji


W przypadku testu t-Studenta mieliśmy możliwość porównania wyników
dwóch grup. Jeśli natomiast chcemy porównać większą liczbę grup, musimy za-
stosować inne metody analizy danych, np. analizę wariancji. Taka konieczność
zachodzi w naszym przykładzie, jeśli chcemy jednocześnie porównać wyniki nie
tylko dziesięciolatków i dwunastolatków, ale także ośmiolatków.
Istotny statystycznie wynik analizy wariancji oznacza, że przynajmniej dwie
z porównywanych grup różnią się między sobą. Nie wiemy jednak w dalszym cią­
gu, o które dokładnie· grupy chodzi. Jak można się tego dowiedzieć? Do tego celu
służą metody posiadające wspólną nazwę porównań wielokrotnych. Wyróżnia się
tzw. wielokrotne porównania zaplanowane (czy też analiza kontrastów zaplano-
wanych) oraz porównania post hoc.
Analiza kontrastów zaplanowanych umożliwia testowanie statystycznej istot-
ności prognozowanych szczegółowych różnic. Chodzi tu o takie zróżnicowa­
nie średnich, którego można było oczekiwać przed przeprowadzeniem badania.
W psychologii rzadko zdarza się, że badacz dysponuje na tyle rozwiniętą teorią,
aby móc stawiać tak szczegółowe hipotezy. Zwykle przewidujemy, że tylko dany
154 czynnik różnicuje wyniki zmiennej zależnej. Nie potrafimy przewidzieć jednak
5. Jakich informacji o teście dostarcza testowanie?

dokładnie, w jaki sposób. Z tego powodu porównania zaplanowane mają dla psy-
chologów mniejsze znaczenie praktyczne. W naszym przypadku właściwie ocze-
kiwalibyśmy, że wszystkie trzy grupy wieku będą różniły się między sobą pod
względem wyników testu inteligencji nie wiemy jednak o jaką wartość.
Natomiast dość często w przeprowadzonym badaniu natrafiamy na zależności,
których albo się nie spodziewaliśmy, albo nie mieliśmy sprecyzowanych hipo-
tez co do ich istnienia. W takim przypadku dokonujemy porównań wszystkich
par średnich bez jakichkolwiek przewidywań co do sposoby ich zróżnicowania.
Najpopularniejszymi testami post-hoc są testy Bonferoniego oraz Tukeya.
Aby wykonać analizę wariancji w programie SPSS, należy wybrać następują­
ce polecania. Z menu "Analiza" należy wybrać polecenie "Porównywanie śred­
nich", a następnie "Jednoczynnikowa Anova" (rys. 5.30.).

Rysunek 5.30. Wybór okna "Jednoczynnikowa Anova'! z menu głównego SP SS

Spowoduje to ukazanie się okienka dialogowego przedstawionego na rys. 5.31.


W okienku tym musimy zdefiniować zmienną (lub zmienne) zależną oraz zmien-
na grupującą (czynnik). Wyboru zmiennych dokonujemy z listy znajdującej się
w polu w lewej części okna. Za pomocą odpowiednich strzałek przenosimy wy-
brane zmienne do pola "Zmienne zależne" oraz do pola "Czynnik". W naszym
przykładzie oczywiście zmienną zależną jest wynik testu inteligencji, a czynni-
kiem - wiek badanych ..

155
Adam Tarnowski, Krzysztof Fronczyk

Rysunek 5.31. Okno "Jednoczynnikowa Anova"

Po wciśnięciu przycisku "Opcje", wyświetli się okno przedstawione na


rys. 5.32. Zaznaczenie odpowiednich opcji w tym oknie umożliwia wyświetlanie
statystyk opisowych i testu Levene'a równości wariancji (tak jak zaznaczono na
rys. 5.32.). Możemy także zażądać, aby program wykonał obliczenia dla wielo-
krotnych porównań zaplanowanych (przycisk "Kontrasty"). Jeżeli okaże się, że
wynik testu jest istotny statystycznie, możemy przeprowadzić analizę powtórnie,
wybierając któryś z testów post-hoc. Do tego celu służy przycisk "Post hoc".

Rysunek 5.32. Okno opcji analizy wariancji

Po wciśnięciu "OK", program SPSS obliczy wyniki analizy wariancji, a tak-


że inne statystyki, które wybraliśmy w "Opcjach". Wyniki te przedstawiono na
rys. 5.33.-5.35. Tabela z rys. 5.33, przedstawia statystyki opisowe analizowa-
nych danych. Oprócz średnich i odchyleń dla dziesięciolatków i dwunastolatków,
156 które znamy z rys. 5.29, zaprezentowano tu także dane dotyczące ośmiolatków.
5. Jakich informacji o teście dostarcza testowanie?

Jak widzimy, kolejne grupy wieku charakteryzują się wyższymi wynikami testu
inteligencji.

staIystyId opisowe
inlel
95% przedział ufności dla
O~ehvlenie Błąd średniej
N> Średnia standardowe slandardol'll' Dolna aranica Górna granica Minimum Maksimum
8,00 3D 49,2661 2,12831 ,49a12 47,2479 49,2854 42,00 54,00
10,00 30 50,6000 3,13600 ,57255 49.4290 51,7710 45,00 56,00
12,00 30 52,9000 2,48235 ,45321 51,9731 53,8269 50,00 5&,00
OgÓłem 90 50,5989 3,35500 ,35365 49,8862 51.2916 42,00 58,00

Rysunek 5.33. Okno wyników analizy wariancji - statystyki opisowe

Aby stwierdzić,
czy różnice te są istotne statystycznie, musimy sprawdzić
wartość testu F oraz poziom jego istotności (rys. 5.34,). Jeżeli jest on niższy niż
0,05, to możemy uznać, że analizowany przez nas czynnik wpływa na poziom
zmiennej zależnej. Tak też jest w naszym przykładzie.

Jednoc~l1jkowa ANOVA
intel
Suma Średni
kwadratów df kwadrat F Istotność
MiedZY grupami 322,022 2 161,011 20,607 ,000
Wewnątrz grup 679,76.7 9T 7,813
Ogółem 1001,789 89

Rysunek 5.34. Wyniki analizy wariancji

. Wnioski z analizy wariancji będą całkowicie uprawnione, jeśli sprawdzimy


jeszcze jedno z założeń analizy wariancji, jakim jest jednorodność wariancji
w analizowanych grupach. Założenie to weryfikuje test Levene'a (rys. 5.35.).
W przypadku, gdy wartość testu Levene'ajest istotna statystycznie, to we wnio-
skowaniu nie możemy opierać się na wynikach analizy wariancji. Nie jest bo-
wiem spełnione założenie o homogeniczności wariancji. W naszym przypadku
wartość ta jest jednak nieistotna statystycznie, a więc założenie o jednorodności
wariancji jest spełnione.

Test jednorodnoścł wariancji


intel
Test Levene'a Istotnost
,831 ,439

Rysunek 5.35. Wyniki testu Levene'a 157


Adam Tarnowski, Krzyszto f Fronczy k

Można więc powiedzieć, że średnie testu inteligencji różnią


się w porównywa-
nych grupach, a różnica ta jest istotna statystycznie. Jednocześnie jest
spełnione
założenie analizy wariancji o jednorodności warian
cji. Nie wiemy jednak w dal-
szym ciągu, która (lub które) ze średnich grupowych różnią się od średnie
j ogól-
nej. Można się tego dowiedzieć wykorzystując metody porównania post
hoc.
Jak już wspomniano, w celu obliczenia któregoś z testów post-hoc
w SPSS
należy kliknąć przycisk "Post hoc" znajdujący się
w oknie przedstawionym na
rys. 5.30. Przycisk ten wywołuje okno znajdujące się na rys. 5.36.

Rysunek 5.36. Okno wyboru testów post-hoc

W okienku zaprezentowanym na rys. 5.36. zaznaczono dwa rodzaje


testów
post-hoc. W zależności od rodzaju wybranego testu można otrzymać
różne wy-
niki, gdyż każdy z nich opiera się na innym sposobie oceny istotności
różnic. Po
kliknięciu przycisku "Dalej", a następnie "OK", kompu
ter wykona analizę przed-
stawiając wyniki analizy wariancji uzupełnione wynika
mi testów post-hoc. Dla
omawianego przykładu wyniki testów post-hoc zaprezentowano na rys.
5.37.

158
5. Jakich informacji o teście dostarcza testowanie?

Testy post hoc

Porównania wielokrotne
Zmienna zależna' intel

Różnica Błąd 95% przedział ufności


(I) wiek {Jlwieksrednich (I·J) standardowy Istotność Dolna granica Górna granica
Test Tukey'a HSD B,OO 10,00 ·2,33333" ,72173 ,005 -4,0543 -,6124
12,00 -4,63333' ,72173 ,000 -6,3543 -2,9124
10,00 8,00 2,33333' ,72173 ,005 ,6124 4,0543
'12,00 ·2.30000' ,72173 ,006 ·4,0210 -,5790
12,00 S,OO 4,63333' ,72173 ,000 2,9124 6,3543
10,00 2,30000' .72173 ,006 ,5790 4,0210
Test 90nferroniego 8,00 10,00 -2,33333' ,72173 ,005 ·4,0952 -,5715
12,00 -4,63333' ,72'173 ,000 -6,3952 -2,2715
10,00 8,00 2,33333* ,72173 ,005 ,5715 4,0952
12,00 -2,30000' ,72173 ,006 -4,0619 ',5331
12,00 a,oo 4,63333' ,72173 ,000 2,8115 6,3952
10,00 2,30000' ,72173 ,00& ,5381 4,0619
Y. Różnica sredmch jest istotna na
poziomie .05.

Grupy jednorodne

inlt'
Podzbiór dla alfa = .05
wiek N 1 2 3
Test Tukey'a HSD' 8,00 30 48,2667
10,00 30 50,6000
12,00 30 52,9000
Istotność 1,000 1,000 1,000
\IIĄIswleUane są sredm8 dla grup jednorodnych.
3. \f\IyKot2Ys\';wana iest średnia harmoniczna wielkości próby" 30,000.

Rysunek 5.37. Wyniki testów post-hoc

Z wyników przedstawionych na rys. 5.37. widać, że każda z porównywany


ch
średnich różni sięw porównaniu z każdą inną średnią. Wszystkie bowiem warto-
ści testów post-hoc (zarówno Tukeya, jak i Bonfer
roniego) są istotne statystycz-
me.
Podsumowując, można powiedzieć, że średnie testu inteligencji różnią się
w porównywanych grupach, a wszystkie różnice są istotne statystycznie.

Pytania sprawdzające
1. Czym jest trafność pomiaru testem?
2, W jaki sposób trafność pomiaru testem zależy od wartości
teorii psycholo-
gicznej, na której jest oparty?
3, W jaki sposób trafność zależy od rzetelności pomiaru testem
? 159
Adam Tarnowski, Krzysztof Fronczyk

4. Dlaczego trafność zależy od standaryzacji, normalizacji i obiektywności te-


stu?
5. W jaki sposób badana jest trafi10ść treściowa?
6. O czym świadczy zgodność sędziów kompetentnych?
7. Jakie zagrożenie dla trafności treściowej stanowi optymalizacja zgodności
wewnętrznej?
8. Jakie są główne strategie badania trafności teoretycznej?
9. Jak można zaplanować ocenę trafności teoretycznej skali lęku?
10. Scharakteryzuj metodę wielu cech - wielu metod.
11. Czy możliwy jest równocześnie wysoki poziom trafności zbieżnej i różnico-
wej testu?
12. W jaki sposób analiza czynnikowa potwierdza trafność teoretyczną testu?
13. Jakie są rodzaje trafności kryterialnej?
14. Na czym polega skażenie (kontaminacja) kryterium?
15. Dlaczego ważna jest trafność fasadowa?
16. Czy wysoka trafność teoretyczna gwarantuje wysoki poziom trafności w po-
zostałych aspektach trafności?
17. W jakiej sytuacji użycie trafnego testu może doprowadzić do nietrafnej dia-
gnozy?
18. W jakich sytuacjach poszczególne rodzaje trafności są szczególnie ważne?
19. Omów różne zastosowania analizy czynnikowej jako metody sprawdzania
trafności pomiaru testem.

160
Ewa Witkowska
WYDZIAŁPSYCHOLOGII
UNIWERSYTET WARSZAWSKI
Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE

5.3. Analiza właściwości pozycji testowych


Rozdział ten będzie poświęcony własnościom psychometrycznych pozycji
testowych oraz zależnościom między własnościami poszczegóhlych pozycji
testowych a właściwościami testu jako całości. Do tej pory zajmowaliśmy się
właściwościami pomiaru testem, takimi jak rzetelność i trafność, informującymi
o tym, jak "dobry" jest test jako całość. Właściwości pozycji testowych informu-
ją natomiast o "dobroci" poszczególnych pozycji.
Większość znanych testów psychologicznych zbudowana jest z wielu pozycji
testowych, z których każda ma w założeniu badać tę samą własność psychiczną.
W typowym teście badającym zdolności, takim jak chociażby Bateria Testów
API S (Matczak, Jaworowska, Szustrowa i Ciechanowicz, 2006) dla każdego za-
dania testowego istnieje jedna dobra odpowiedź, za udzielenie której przyzna-
wany jest 1 punkt. Za odpowiedzi nieprawidłowe punkty nie są przyznawane.
Całkowity wynik w teście jest sumą liczby poprawnych odpowiedzi na poszcze-
gólne zadania testowe.
Analiza własności pozycji testowych pozwala lepiej zrozumieć własności te-
stów psychologicznych. Zbadanie charakterystyk pozycji testu jest kluczowe dla
zrozumienia, dlaczego charakteryzuje go określony poziom rzetelności i trafno-
ści pomiaru. W spółczynnik rzetelności informuje o wpływie błędów pomiaru na
wyniki w teście pomiaru. W spółczynniki trafności pomiaru dają informację o do-
kładności przewidywań budowanych przez psychologów na podstawie wyników
testu. Dobrze przeprowadzona analiza własności pozycji testowych może nie tyl-
ko pomóc zrozumieć, dlaczego test charakteryzuje się niesatysfakcjonującą rze-
telnością lub trafnością pomiaru, ale także - wskazać określone środki zaradcze
w takiej sytuacji (Murphy i Davidshofer, 2005).
Zdarza się, że słaba rzetehlOŚĆ lub trafność pomiaru testem wynika z nie-
precyzyjności językowej pozycji testowych lub ze zbyt skomplikowanej formy.
Poza tym pozornie dobre pozycje testowe mogą mierzyć coś spoza obszaru za-
łożonego przez konstruktora testu. Rzetelność i trafność pomiaru testem z reguły
poprawia się, gdy wyeliminuje się takie pozycje. Na pierwszy rzut oka może
wydawać się, że elimInowanie jakichkolwiek pozycji testowych może obniżać
rzetelność pomiaru testem. Wiadomo bowiem, że im dłuższy test, tym pomIar
dokonany za jego pomocą jest bardziej rzetelny. Oczywiście zależność ta doty- 161
Ewa Witkowska, Krzysztof Fronczyk

czy jedynie zgodności wewnętrznej.W rzeczywistości, nie ma żadnej sprzecz-


ności między zasadą usuwania z testów wadliwych pozycji a troską o maksyma-
lizowanie rzetelności pomiaru testem. Teoria rzetelności zakłada, że wszystkie
pozycje w teście mierzą tę samą właściwości psychiczną. Analiza pozycji testo-
wych pozwala zidentyfikować pozycje, które nie spełniają tego warunku, za-
tem dzięki ich usunięciu rzetelność pomiaru testem ulega poprawie (Murphy
i Davidshofer, 2005).
W sensie metodologicznym, pozycja testowa jest to sformalizowany wskaź­
nik danej cechy psychicznej, a więc zdanie (twierdzenie lub pytanie) opisujące
określone zachowanie (lub zdanie wyzwalające określone zachowanie) oraz ska-
la rejestrująca to zachowanie (zawierająca określone opcje odpowiedzi o danym
formacie oraz reguła przekształcania odpowiedzi w wynik liczbowy).

5.3.1. Trudność pozycji testowych

TIUdnośĆpą~yój{<te~tow~j to po prostustosurH~kiiczby Q~Ób; które ri~ięliły na tę


pozycję prawidłowej (zgodnej z kluczem i diagt)Qstycznej) odpowiedzi, do ogółem
przebadanej liczby osób,~zyli jęstto proporcja odpowiedz~poprawpych. . •. ..

Trudność
pozycji testowej jest zazwyczaj wyrażana jako odsetek osób, które
znały prawidłową odpowiedź na pytanie. W sposób sformalizowany matema-
tycznie można to zapisać jako:
n.
- ' 100%
P ,· = N

gdzie:
Pi - trudność i-tej pozycji testowej;
ni - liczba osób, które odpowiedziały zgodnie z kluczem na i-tę pozycję te-
stową;

N - liczba wszystkich osób wypełniających dany test.

Oczywiście wartość wskaźnika trudnościPi zawiera się w przedziale od Odo 1.


Należy zwrócić uwagę na sposób interpretacji wskaźnika trudności. Wysoka jego
wartość wskazuje na łatwe pytania, a jego niska wartość - na pytania trudne.
Należy zwrócić uwagę, że o trudności pozycji testowych mówi się w zasa-
dzie w przypadku testów zdolności czy inteligencji, w których istnieje jedna pra-
widłowa odpowiedź. W przypadku kwestionariuszy osobowości właściwie nie
można mówić o trudności w takim sensie, w jakim tu opisano, gdyż nie istnieją
w nich odpowiedzi poprawne i niepoprawne. Oczywiście można obliczać wskaź­
niki trudności dla kwestionariuszy o dwukategorialnym formacie odpowiedzi,
162 przy czym jest to wtedy proporcja osób udzielających odpowiedzi zgodnych
5. Jakich informacji o teście dostarcza testowanie?

z kluczem. Dla pozycji kwestionariuszowych o wielu kategoriach, odpowiedzi


odpowiednikiem trudności pozycji jest średnia.
Warto też zauważyć, że trudność pozycji (rozumiana jako proporcja, a nie jako
procent) w testach zdolności czy inteligencji równa się średniej wyników tcj po-
zycji pod warunkiem, że odpowiedzi poprawnej przypisze się wartość l, a odpo-
wiedzi niepoprawnej - O.
Jako przykład obliczania trudności pozycji testowych przyjrzyjmy się wyni-
kom trzech różnych pozycji składających się na pewien test, którym przebadano
30 osób (tabela 5.10.). Dla każdej z pozycji istnieją cztery możliwe odpowiedzi-
A, B, C i D. W przypadku pierwszej pozycji 24 osoby wybrały prawidłową odpo-
wiedź C. Dzielimy zatem 24 (liczba prawidłowych odpowiedzi) przez 30 (liczba
przebadanych osób), co daje nam 0,8=80%. Jest to wynik wysoki, świadczący
o tym, że pytanie jest łatwe. Zastosowanie tej samej procedury wobec drugiego
pytania daje nam 12/30=0,4, co pozwala stwierdzić, że pozycję tę charakteryzu-
je przeciętny poziom trudności. Z kolei pytanie trzecie, na które odpowiedziało
prawidłowo tylko 5 spośród przebadanych 30 osób, ma niską wartość wskaźnika
trudności (około 0,17), czyli okazało się trudne.

Tabela 5.10. Rozkład odpowiedzi na trzy pytania fikcyjnego testu

Odpowiedź
Pytanie
A B C D
#1 O 3 24* 3
#2 12* 13 3 2
#3 5 5* 17 3
*gwiazdką oznaczono prawidłowe odpowiedzi

W powyższym przykładzie, a także w przypadku każdego innego testu wskaź­


niki trudności zależne są od poziomu mierzonej cechy charakterystycznego dla
zbadanej próby. Innymi słowy, to samo zadanie może być bardzo trudne w jednej
grupie badanych i jednocześnie bardzo łatwe w innej grupie badanych. Zależność
tę dość łatwo sobie uświadomić na przykładzie zmian rozwojowych wyników te-
stów zdolności czy inteligencji. To samo zdanie (np. matematyczne), które może
stanowić dość poważny problem np. dla 10-latków (a więc wskaźnik trudności
jest bardzo niski - niewiele osób potrafi rozwiązać zadanie) może jednocześnie
być bardzo łatwe dla osób dorosłych (bardzo dużo lub niemal wszyscy rozwiązu­
ją zadanie prawidłowo - wskaźnik trudności wysoki).
Najlepiej różnicującymi pytaniami są pytania o przeciętnym stopniu trudności,
czyli takie, na które prawidłowo odpowiada około 50% badanych. Są to jedno-
cześnie pozycje o największej wariancji (Magnusson, 1991). Tego typu pozycje
pozwalają na dokonanie największej liczby porównań między osobami w próbie.
Test powinien więc składać się z pozycji testowych o największych wariancjach 163
Ewa Witkowska, Krzysztof Fronczyk

i jednocześnie przeciętnych trudnościach. Inne rozwiązanie to takie, w którym


test zawiera pozycje testowe o zróżnicowanym poziomie trudności, jednak śred­
nia ich trudność powinna wynosić około 50%. Układa je się zwykle w teście
w kolejności od najłatwiejszego do najtrudniejszego.
Aby zilustrować związek trudności pozycji testowych i ich wariancji, można
posłużyć się uproszczonym wzorem na wariancję pozycji testowych:

gdzie:
Si2 wariancja i-tej pozycji testowej;
Pi - trudność i-tej pozycji testowej;

ąi=l-Pi'
Inaczej wariancję pozycji testowej można przedstawić jako funkcję jej trud-
ności:

Si2 = pj(l- Pi)


Korzystając
z ostatniego wzoru, można przedstawić na wykresie zależność
między trudnością pozycji testowej a jej wariancją. Zależność tę ilustruje wy-
kres 5.1. '

0,3

l 0,25:
o
-gj 02
'

;~ 0,15
c.
''"[ 0.1'
'"
'1::

~ 0,05

0.2 0,4 0,6 0,8

Trudność pozvcii testowej

Wykres 5.1. Zależność między trudnością pozycji testowej a wariancją jej wyników

Wykres 5.1. wskazuje, że wraz ze spadkiem trudności pozycji testowych


(a więc wzrostem wskaźnika trudności) dość szybko wzrasta wariancja pozycji
testowych, ale tylko do pewnego momentu. Między wartościami 0,4-0,5 wskaź­
nika trudności przyrosty wariancji są już bardzo niewielkie. Od wartości 0,5
zaczyna się stopniowy spadek wariancji pozycji testowych. Początkowo spadki
wariancji nie są duże, ale od wartości około 0,6 przybierają na znaczeniu.
164
5. Jakich informacji o teście dostarcza testowanie?

5.3.2. Moc dyskryminacyjna pozycji testowych


Podstawowym celem stosowania testów psychologicznych jest uzyskanie in-
formacji o różnicach indywidualnych w zakresie mierzonej zmiennej, którąjest
najczęściej nieobserwowalny konstrukt lub kryterium zewnętrzne, które chcemy
przewidywać na podstawie wyników. Z tego powodu test powinien składać się
z pozycji różnicujących osoby o niskim poziomie mierzonej cechy od osób o wy-
sokim poziomie mierzonej cechy (Hornowska, 2001). Innymi słowy, osoby o ni-
skim poziomie mierzonej cechy rzadziej odpowiadają dobrze czy diagnostycz-
nie na daną pozycję testową, zaś osoby o wysokim poziomie mierzonej cechy
- częściej udzielają takich odpowiedzi. Na przykład: osoby o wyższym poziomie
zdolności matematycznych częściej są w stanie prawidłowo rozwiązać pewne
zadanie matematyczne, np. układ dwóch równań z dwiema niewiadomymi, niż
osoby o niższym poziomie tych zdolności.

\Vs~aźrtikleh1jak(}śdpozy,cj i testowych·· informującym 6 tymc wJakim stopniu dana


pozycja różnicuje daną POPti1ację,zęwzględu na mierzoną cechę jest mocdyskrymi-
nacyJna (Homówska, 200 ł)'

Najczęściej w czasie tworzenia testu, jego autorzy nic mają dostępu do żadncj
innej miary badanej zmiennej (czyli w powyższym przypadku - zdolności mate-
matycznych) poza samym wynikiem w tymże teście. W konsekwencji, właśnie
ten wynik najczęściej traktujemy jak informację o natężeniu interesującej zmien-
nej u badanego, a współczynniki mocy dyskryminacyjnej oparte sąna tym wyni-
ku. W sensie operacyjnym moc dyskryminacyjna jest to po prostu korelacja linio-
wa między pozycją a skalą. Wyniki poszczególnych pozycji mogą być dodatnio
lub ujemnie skorelowane z wynikiem ogólnym testu. W efekcie możemy mieć do
czynienia odpowiednio z dwojakiego rodzaju pozycjami - o dodatniej i ujemnej
mocy dyskryminacyjnej. Pozycje testowe o dodatniej mocy dyskryminacyjnej to
takie, które są częściej poprawnie (diagnostycznie) rozwiązywane przez osoby
badane o wysokich wynikach ogólnych. Pozycje te zatem różnicują badanych
w zgodzie z innymi pozycjami testu. Jeśli pozycja z naszego przykładu miałaby
dodatnią moc dyskryminacyjną, to częściej rozwiązywaliby ją poprawnie "dobrzy
matematycy", czyli działałaby tak, jak byśmy sobie tego życzyli. Z kolei pozycje
o ujemnej mOcy dyskryminacyjnej są częściej rozwiązywane przez osoby bada-
ne o niskich ogólnych wynikach w teście, a więc różnicuje te osoby przeciwnie
niż inne pozycje testu. W naszym przypadku oznaczałoby, że wspomniany układ
równań częściej niż"dobrzy matematycy" rozwiązują poprawnie osoby "mate-
matycznie słabsze", co z naszej perspektywy jest pozbawione sensu i należałoby
się takiego pytania testowego po prostu pozbyć.
Dodatkowo zakłada się, że moce dyskryminacyjne powinny być nie tylko
dodatnie, ale także odpowiednio wysokie. Zwyczajowo przyjmuje się, że moc 165
Ewa Witkowska, Krzysztof Fronczyk

dyskryminacyjna powinna przekraczać wartość 0,20, aby uzasadnione było włą­


czenie pozycji do skali. Można powiedzieć, że ostateczna wersja testu powimla
zawierać te pozycje, które zwiększają wariancję testowania, a więc o dodatniej,
wysokiej mocy dyskryminacyjnej (Homowska, 200 l).
Wysokie moce dyskryminacyjne wszystkich pozycji w teście oznaczają, że
pozycje te są dość silnie ze sobą skorelowane. Jeśli więc w teście znajduje się
dużo pozycji o wysokich mocach dyskryminacyjnych to test cechuje się wysoką
zgodnością wewnętrzną (por. rozdział 5.1.4.). Bowiem wysoka zgodność we-
wnętrzna to nic innego jak wysoki stopień skorelowania poszczególnych pozycji
testowych.
Istnieje kilkadziesiąt różnych współczynników mocy dyskryminaGyjnej.
Najczęściej stosuje się wSpółczYlmiki korelacji biseryjnej, współczynnik kore-
lacji punktowo-dwuseryjnej i współczynnik korelacji punktowo-czteropolowej.
Nie będą one jednak szczegółowo opisywane od strony matematycz-
nej. Zainteresowany Czytelnik znajdzie dokładne ich omówienie pracach
Brzezińskiego (1999), HOTIlowskiej (2001) czy Fergusona i Takane (1999).
Najbardziej rozpowszechnionym obecnie i najczęściej używanym wskaźni­
kiem mocy dyskryminacyjnej jest tzw. skorygowany współczynnik korelacji po-
zycja - skala. Korekta polega na tym, że wyłącza się interesującą nas w danym
momencie pozycję z wyniku ogólnego dla skali. Tak więc dla danej pozycji te-
stowej oblicza się korelację między tą pozycją oraz wynikiem testu pomniejszo-
nym o tę pozycję. Innymi słowy, obliczając wynik testu sumuje się odpowiedzi
na pozycje testowe z wyłączeniem odpowiedzi na tę pozycję, dla której oblicza
się moc dyskryminacyjną. Dzięki takiemu zabiegowi można ocenić, jak bardzo
konkretna pozycja powiązana jest z pozostałymi pozycjami. Co więcej, wynik
ogólny testu nie jest "zafałszowany" przez udział pozycji testowej, dla której
obliczana jest moc dyskryminacyjna. Sposób obliczania tego typu wskaźników
mocy dyskryminacyjnej nie będzie szczegółowo opisywany, a jedynie w dalszej
części niniejszego rozdziału zostanie przedstawione wykorzystanie komputera
w tym celu.
Ograniczymy się do zaprezentowania najprostszego wskaźnika mocy dyskry-
minacyjnej,jakimjest tzw. wskaźnik dyskryminacji, który można stosować tylko
w wypadku pozycji dwukategorialnych. Zostanie on omówiony nieco dokładniej
ze względu na dość dużą prostotę jego obliczania, która powinna ułatwić lepsze
zrozumienie istoty mocy dyskryminacyjnej.
W celu obliczenia wskaźnika dyskryminacji, należy podzielić wszystkich ba-
danych na dwie grupy ze względu na ogólny wynik testowy. Wyodrębnia się
więc osoby o wynikach wysokich (góma część) oraz osoby o wynikach niskich
(dolna część). Punktem podziału może być np. mediana. W takiej sytuacji uzyska
się dwie połowy badanej grupy. Można także zastosować bardziej ostre kryte-
ria wyodrębniania tych grup np. 25% osób o najniższych wynikach i 25% osób
166 o najwyższych wynikach (Homowska, 2001).
5. Jakich informacji o teście dostarcza testowanie?

W dalszej kolejności dla danej pozycji testowej oblicza się osobno w każdej
z wyróżnionych części liczbę osób, które udzieliły odpowiedzi zgodnej z klu-
czem. Następnie dzieli się liczbę osób odpowiadających zgodnie z kluczem na
daną pozycję testową, w górnej części, przez liczbę wszystkich osób w tej części.
W ten sposób uzyskuje się proporcję odpowiedzi zgodnych z kluczem w górnej
części. Podobnie, dzieląc liczbę odpowiadających zgodnie z kluczem na daną po-
zycję testową w dolnej części przez liczbę wszystkich osób w tej części, uzyskuje
się proporcję odpowiedzi zgodnych z kluczem w dolnej części. Teraz pozostaje
tylko skorzystać z prostego wzoru umożliwiającego obliczenie wskaźnika dys-
kryminacji:
D = Pll - Pl
gdzie:
D - wskaźnikdyskryminacji;
Pu - proporcja odpowiedzi zgodnych z kluczem w górnej części;
Pl - proporcja odpowiedzi zgodnych z kluczem w dolnej części.

Jak już wspomniano, wartość dodatnia wskaźnika dyskryminacji wskazuje,


że dana pozycja testowa dobrze różnicuje badanych. Ze wzoru tego widać, że
wskaźnik D przybiera wartość dodatnią tylko wtedy, gdy Pu>Pl' Jest to zrozumia-
łe, jeśli weźmie się pod uwagę, że oczekujemy, iż w górnej części znajdzie się
więcej osób odpowiadających zgodnie z kluczem niż w części dolnej. Jeśli na-
tomiast D miałoby wartość ujemną, to oznaczałoby, że w dolnej części znajduje
się więcej osób odpowiadających zgodnie z kluczem niż w części górnej. Takiej
sytuacji chcemy jednak uniknąć. Taką pozycję należy wyeliminować lub zmody-
fikować (np. przez odwrócenie klucza) w taki sposób, aby wskaźnik dyskrymina-
cji obliczony na podstawie kolejnego badania z zastosowaniem zmodyfikowanej
pozycji, był dodatni
Prześledźmy prosty przykład wyliczania mocy dyskryminacyjnej przy wyko-
rzystaniu miary D. Obliczenia zostaną wykonane na podstawie porównań dwóch
grup wyróżnionych ze względu na medianę. Tabela 5.11. zawiera wyniki ogólne
10 studentów w pewnym teście oraz informacje o ich odpowiedziach na trzy
przykładowe pytania tego testu. W kolumnach odpowiadających poszczególnym
pytaniom cyfra l oznacza, że badany udzielił odpowiedzi zgodnej z kluczem,
a O - niezgodnej .

167
Ewa Witkowska, Krzysztof Fronczyk

Tabela 5.11. Wyniki fikcyjnego badania grupy studentów pewnym testem

Pytanie
Student Wynik ogólny
#1 #2 #3
Jan 90 1 O 1
Krzysztof 90 1 O 1
Joanna 80 O O 1
Wojtek 80 1 O 1
Jacek 70 1 O 1
Piotr 60 1 O O
Julia 60 1 O 1i
Agata 50 1 1 O
Matylda 50 1 1 O
Mateusz 40 O 1 O

Proponowana procedura obliczania mocy dyskryminacyjnej przedstawia się


następująco:
1. W pierwszej kolejności należy podzielić osoby badane na dwie grupy: osoby
o wysokich wynikach i osoby o niskich wynikach. W naszym przykładzie
podziału takiego dokonamy na podstawie mediany wyników ogólnych testu.
W tym celu wystarczy podzielić badanych na dwie równe połowy po uszere-
gowaniu wyników studentów od najwyższego do naj niższego pod względem
wyniku ogólnego (takjak uczyniono to w tabeli 5.11.). W jednej połowie (tzw.
górna połowa) znajdą się osoby o wysokich wynikach, a w drugiej (tzw. dolna
połowa) - o niskich. W naszym przykładzie do górnej połowy przydzieleni
zostali Jan, Krzysztof, Joanna, Wojtek i Jacek, a do dolnej - pozostali.
2. Następnie obliczamy, ilu studentów z wysokimi i ilu z niskimi wynikami wła­
ściwie rozwiązało dane zadanie. Np. dla zadania # 1 jest to po 4 studentów
z obu grup. Dane te zaprezentowano w tabeli 5.12.
3. W każdej połowie obliczamy proporcje osób prawidłowo rozwiązujących
dane zadanie, czyli wartości Pll i PI' Polega to na podzieleniu liczby osób roz-
wiązujących prawidłowo dane zadanie przez liczbę wszystkich osób w tej po-
łowie. Dla zadania #1 Pll = 4/5 = 0,8.
4. Określamy współczynnik mocy dyskryminacyjnej D, odejmując proporcję
studentów z niskimi wynikami, którzy rozwiązali zadanie prawidłowo, od
proporcji studentów z wysokimi wynikami, którzy rozwiązali zadanie prawi-
dłowo. Dla zadania #1 oznacza to odjęcie 0,8 od 0,8, co daje współczynnik
mocy dyskryminacyjnej równy O. Dla pozostałych zadań Czytelnik zechce
sam wyliczyć wartości D i porównać je z już obliczonymi wartościami zapre-
zentowanymi w tabeli 5.12.
168
5. Jakich informacji o teście dostarcza testowanie?

5. Dodatkowo możemy obliczyć wskaźniki trudności, dzieląc liczbę osób, które


rozwiązały zadanie prawidłowo w całej próbie przez liczbę wszystkich bada-
nych. Dla zadania #1 jest to 8/10=0,8
Jak widać z tabeli 5.12. najwyższe moce dyskryminacyjne uzyskujemy dla
pytań o przeciętnym stopniu trudności. Zagadnienie to opisano już wcześniej.

Tabela 5.12. Trudność i moc dyskryminacyjna hipotetycznych zadań testowych

Liczba Liczba
poprawnych poprawnych Moc
Pytanie Trudność
odpowiedzi odpowiedzi dyskryminacyjna
(górna połowa) (dolna polowa)
#1 4 4 0,80 O
#2 O 3 0,30 -0,6
#3 5 1 0,60 0,8

5.3.3. Własności pozycji testowych a kształt rozkładu wyników testu


Kształt rozkładu wyników testu, podobnie jak wszystkie inne własności te-
stu jako całości, zależy od własności poszczególnych pozycji testowych.
"Modelowym" rozkładem w psychometrii jest rozkład normalny, co wynika
z założenia o (teoretycznym) rozkładzie normalnym cech (porównaj rozdział 3).
Idealny rozkład normalny przedstawiony został na wykresie 5.2. Dąży się zatem
do tego, żeby rozkład empiryczny wyników testowych też był jak najbardziej
zbliżony do nonnalnego. Aby to osiągnąć, test powinien być zbudowany z po-
zycji o przeciętnych trudnościach i przeciętnie dodatnio ze sobą skorelowanych.
Innym wariantem prowadzącym do tego rozwiązania jest zbudowanie testu z po-
zycji o bardzo różnym poziomie trudności (zarówno "łatwych", "trudnych", jak
i "przeciętnie trudnych"), które jednocześnie przeciętnie dodatnio są ze sobą sko-
relowane.

0,45
o 0,4'
~
-c
0.35

1lo 0,3
'O 0.25'
o
n. O,i
o
~
a..
0,15
0,1
0.05:
O'
-5 -4 -3
Wartości standaryzowane z

Wykres 5.2. Rozkład normalny 169


Ewa Witkowska, Krzysztof Fronczyk

Odstępstwa od tej zasady prowadzą do tego, że otrzymuje się rozkłady wyni-


ków odbiegające kształtem od rozkładu normalnego. Oczywiście w praktyce ba-
dawczej żaden empiryczny rozkład nie ma nigdy kształtu teoretycznego rozkładu
normalnego. Jednak kształt ten może być w różnym stopniu zbliżony do kształtu
rozkładu nonnalnego, Skorelowanie pozycji testowych decyduje o stopniu sku-
pienia wyników wokół średniej, czyli tzw. kurtozie rozkładu, zaś średnie pozycje
decydują o jego skośności. Przyjmuje się, że wartości kurtozy mieszczące się
w przedziale od -1 do + 1 oraz wartości skośności rozkładu mieszczące się także
w przedziale od -1 do + 1 charakterystyczne są dla rozkładów nieodbiegających
w sposób znaczny od rozkładu normalnego,
Gdy korelacje między poszczególnymi pozycjami są zbyt silne, rozkład wyni-
ków ulega nadmiernego spłaszczeniu (mówimy, żc staje się platokurtyczny), co
zaprezentowano na wykresie 5.3.

0.45:

j 0,4
'" 0,35
'c: ,
.!!! 0,3'
.CI
.g 0,25
&. 0,2
o
~ 0,15
l! 0,1
CL. 0.05:

~5 -4 -3~2 -1 o :2 34 5
Wartości wystandaryzowane z

Wykres 5.3. Rozkład platokurtyczny

W przypadkach skrajnie wysokich korelacji rozkład może stać się dwumodal-


ny czy też przyjmować kształt litery "U" (wykres 5.4.). Tę właściwość rozkła­
du opisuje kurtoza, która w omawianej sytuacji przyjmuje bardzo małe wartości
i znajduje się poniżej -1,

0,45
o 0,4'
!
'c
0,35
~ 0,3
.g 0,25
o
g. 0,2
...~ 0.15
Il. 0,1
0,05

-4 -3 -2 ·1
Wartości
° l 2
wyslandaryzowane z
3 4 5

170 Wykres 5.4, Rozkład dwumodalny


5. Jakich informacji o teście dostarcza testowanie?

Gdy korelacje pozycji są niskie albo wręcz ujemne, to rozkład wyników za-
czyna być nadmiernie skoncentrowany wokół średniej (staje się leptokurtyczny),
co przedstawiono na wykresie 5.5. W sytuacji skrajnego braku korelacji pomię­
dzy pozycjami testowymi rozkład staje się jednomianowy (wszyscy uczestnicy
badania uzyskują identyczny wynik). W tej sytuacji wartość kurtozy jest duża,
znacznie przekraczająca l.

0,8

0,7

!
Ol
0,6
·c
~ 0.5
-8 0.4
8-
o
0.3·
lo.. 0,2

0.1

~5 ·4 ·3 -2 o 2 3 4 5
Wartości wystandaryzowane z

Wykres 5.5. Rozkład leptokurtyczny

Jeśli test zawiera zbyt wiele trudnych pytań, czyli trudności wielu pozycji testo-
wych są niskie, to otrzymujemy niesymetryczny, prawoskośny rozkład. Rozkład
taki przedstawia wykres 5.6. W tym przypadku stosunkowo mało osób badanych
uzyskuje wyniki wysokich, a dość dużo - wyniki niskie.

0,45.
0,4;
!
'.~
0,35:
.!!l 0.3!
..,.g 0,25:

...§ 0,2;

~
0,15j
a. 0,1;
0.05'
O'
-5 -4 -3 -2 -1 o 1 2 3 4 5
Wartości wystandaryzowane z

Wykres 5.6. Rozkład prawoskośny

Jeśli zdarzy się sytuacja odwrotna, gdy test zawiera zbyt wiele łatwych pytań,
czyli dużo jest wysokich wyników, a mało - niskich, otrzymujemy niesymetrycz-
ny, lewoskośny rozkład.
171
Ewa Witkowska, Krzysztof Fronczyk

0,45,
0,4:

i
'c
0,35:
0,3:
:!o
0,25:
'8...
o 0,2'

i
11.
0,15'
0,1 :
0.05:
o'
-5 -4 ~ 4 ~ o 1 234 5
Wartości wystandaryzowane z

Wykres 5.7. Rozkład lewoskośny

Wszystkie opisane powyżej anomalie rozkładu wyników powodują, że test


jako narzędzie pomiarowe nie odzwierciedla badanej cechy na skali. W efekcie
prowadzi to do braku możliwości różnicowania w określonych obszarach rozkła­
du cechy: albo zwiększając nadmiernie różnice międzyosobnicze w określonych
obszarach (blisko średnicj lub na krańcach), albo wyłącznie w obrębie jednego
z krańców, Testy o "zaburzonych" rozkładach mogą mieć co prawda zastoso-
wanie do specyficznych zadaJl diagnostycznych, ale w większości przypadków
optimum diagnostycznym jest uzyskanie normalnego rozkładu wyników.

5.3.4. Obliczanie właściwości pozycji testowych i rozkładu wyników


wSPSS

5.3.4.1. Obliczanie trudności i mocy dyskryminacyjnych przy użyciu


SPSS
Pakiet statystyczny SPSS, przy okazji szacowania rzetelności pomiaru metodą
alfy Cronbacha oblicza także skorygowaną korelację pozycja-skala. W niniej-
szym rozdziale opisany zostanie sposób obliczania mocy dyskryminacyjnej na
podstawie tego typu wskaźników, W tym cclu zostanie wykorzystany przykład
opisany w rozdziale 5.1.7.3. Obliczenia zostaną wykonane także na podstawie
wykorzystanego w tym rozdziale pliku danych tj, alfa,sav,
W celu obliczenia mocy dyskryminacyjnych, należy postępować tak samo, jak
wcześniej opisano to w rozdziale 5, l. 7.3, z tym, że w oknie "Analiza rzetelno-
ści: Statystyki" (rys. 5.10.) należy dodatkowo wybrać opcję "Pozycja testowa".
Dzięki niej można obliczyć nie tylko moc dyskryminacyjną i alfę Cronbacha, ale
także średnie poszczególnych pozycji. Po kliknięciu "Dalej" i "OK", pojawią się
wydruki przeprowadzonej analizy, co przedstawiono na rys. 5.38.

172
5. Jakich informacji o teście dostarcza testowanie?

StatJ/$1Yld rzetelności

StalYStllki I)Ozycjl
Odchylenie
Średnia standardowe N
pl 2.80 ,798 60
p2 2,45 ,746 60
p3 Ul8 ,976 60
1)4 2,10 ,752 60
p5 2,22 ,993 60
p6 3,05 ,790 60
p7 2,35 1,039 60
pB VO ,696 60
pS 2,05 ,946 60
plO 2.'57 ,7B9 60
pll 2,42 .787 60
p12 2,08 ,787 60
p13 2,72 ,739 60
p14 3,13 ,965 60
p15 2,07 ,972 60
p16 3,13 ,769 60
p17 2,55 ,999 60
p18 2,82 ,624 60
p19 2,43 ,745 60
p20 2,97 ,367 60

StatySlykl pozycJi Ollółem


WarianCja Alfa
Średnia skali skali po Korelacja Cronbacha
po usunięciu usunięciu pozycji po usunięciu
PQ?,Ycji pozycji Q>!.ó/em _pozyt:jl
p1 47,68 37,881 ,442 ,691
pl 48,03 41,423 ,092 ,720
p3 48,60 36,922 ,421 ,690
p4 48,38 37,529 ,517 ,685
p5 4B,27 37,962 ,320 ,701
p6 47,43 37,131 ,530 ,683
p7 48,13 40,21 g ,119 ,723
p8 47,78 38,545 ,443 ,593
pe 48,43 37,741 ,364 ,696
plO 47,92 37,400 ,502 ,685
pll 46,01 41,758 ,046 ,724
p12 48,40 40,447 ,179 ,713
p13 47,77 42,555 ',025 ,728
1114 4/,35 38,062 ,325 ,700
p15 48,42 38,145 ,314 ,702
p15 47,35 40,638 ,167 ,714
p17 47,93 38,572 ,266 ,707
p18 47,67 39,446 ,386 ,698
p19 48,05 41,913 ,041 ,724
p20 47,52 41,000 ,368 ,705

Rysunek 5.38, Okno wyników analizy własności pozycji testowych

173
Ewa Witkowska, Krzysztof Fronczyk

W tabeli "Statystyki pozycji" przedstawiono średnie i odchylenia standa


rdowe
pozycjitestu. Gdybyśmy nie mieli do czynienia z kwestionariuszem o
wielokate-
gorialnych odpowiedziach, a z testem inteligencji czy zdolności z jedną
prawidło­
wą odpowiedzią, to średnie byłyby równoważne trudnoś
ci pozycji testowych.
W tabeli "Statystyki pozycji Ogółem", w kolumnie "Korelacja
pozycji
Ogółem", można odczytać wartości skorygowanych
współczynników korelacji
pozycja-skala, które są wskaźnikami mocy dyskryminacyjnych. Jak widać
jedna
z pozycji (p 13) ma ujemną moc dyskryminacyjną i powinna być usunięt
a z testu.
Oprócz niej niektóre z wartości są stosunkowo niskie i nie przekraczają
wartości
0,2. Takimi niskimi mocami dyskryminacyjnymi cechują się pozycje
testowe p2,
p7, pll, p12, p16 i p19. Te pozycje, podobnie jak pozycja p13, powinn
y być usu-
nięte z testu. Łącznie z pozycjąp13 daje to siedem
pozycji testowych, czyli dość
dużo biorąc pod uwagę, że wszystkich pozycji jest
tylko 20. Największą mocą
dyskryminacyjną charakteryzuje się natomi ast pozycj
a p6.
Warto zauważyć, że zgodność wewnętrzna tego kwestionariusza wzrosł
aby
najbardziej, gdyby spośród wymienionych pozycji usunąć p13. Jest
-, to pozycja
o najmniejszej (ujemnej) mocy dyskryminacyjnej, czyli jest ona naj słabiej sko-
relowana z pozostałymi pozycjami. Usunięcie innych pozycji o niskich
mocach
powinno także podnieść wartość alfy Cronbacha. Można więc zwięks
zać zgod-
ność wewnętrzną poprzez eliminowanie kolejnych pozycj
i o niskich mocach, na-
leży jednak pamiętać, aby operację tę przeprowadza
ć krok po kroku, tzn. usuwać
tylko jedną pozycję za każdym razem, następnie przeprowadzić ponow
ną analizę
i znów usunąć pozycję, bez której zgodność skali wzrośnie najbardziej.

5.3.4.2. Obliczanie podstawowych charakterystyk kształtu rozkładu


wyników testu przy zastosowaniu SPSS
Przykładowe obliczenia kurtozy oraz skośności rozkła
du wynikó w testu zapre-
zentowane zostaną przy użyciu opisanego w rozdziale 5.2.5.4. pliku porów
nywa-
nie~rup.sav. Interesować nas będzie rozkład wynikó
w testu inteligencji (zmien-
na o nazwie intel) przeprowadzonego na próbie młodzieży. W celu
uzyskania
miar skośności oraz kurtozy z głównego menu wybieramy komendę
"Analiza",
a następnie "Opis statystyczny", a w jeszcze dalszej kolejności "Statys
tyki opi-
sowe". Po wybraniu tego polecenia, na ekranie monitora zobaczymy okno
przed-
stawione na rys. 5.39.

174
5. Jakich informacji o teście dostarcza testowanie?

Rysunek 5.39. Okno "Statystyki opisowe"

W celu wybrania zmiennych do analizy, należy dwukrotne kliknąć ich nazwy


(w naszym przypadku intel) na liście znajdującej się po lewej stronie okna lub
zaznaczyć żądane zmienne, a następnie kliknąć strzałkę znajdującą się po środku
okna. Po wykonaniu tej czynności w prawej części okna, nazwanej "Zmienne",
znajdą się zmienne, dla których chcemy obliczyć statystyki opisowe.
Po wciśnięciu przycisku "Opcje" na ekranie ukaże się okno przedstawione na
rys. 5.40. Umożliwia ono określenie, jakie dokładnie charakterystyki rozkładu
mają być obliczone. Standardowo ustawione jest obliczanie średniej, odchylenia
standardowego oraz najmniejszej i największej wartości. Możliwe jest także obli-
czenie sumy wszystkich wartości, rozstępu, wariancji i błędu standardowego śred­
niej. Nas oczywiście najbardziej będzie interesować obliczenie kurtozy i skośności.
Zaznaczamy więc kwadraciki znajdujące się przy tych właściwościach rozkładu.

Rysunek 5.40. Okno wyboru opcji statystyk opisowych 175


Ewa Witkowska, Krzysztof Fronczyk

Po zaznaczeniu żądanych wartości do obliczenia i wClsmęciu przycisku


"Dalej", powrócimy do poprzedniego okna. Teraz wciśnięcie przycisku "OK".
spowoduje otwarcie okna z interesującymi nas obliczeniami, co zaprezentowano
na rys. 5.41.

StIll)/lllyldQPIoOW.

N Minimum MakSimum Średnia OdChylenie Sko~noóC Kurtoz~


8łąd Błąd
Blaty.1ika SI.ty.M;, Sta1\'s1\ll<a Slot;s1Vka Sta1Vs1Vka Stalyslika itandardowy SI,tys_ slll1'1dardOvły'
intel 90 42,00 SS,OO 50,5999 ~,35500 ",114 ,254
I
",083 ,503
N W~it1YCh <wvłączanle
obserwiciamO 90

Rysunek 5.41. Okno arkusza wyników statystyk opisowych rozkładu

Jak widać z wyników, skośność ma waliość -0,114±O,254, a kurtoza


-O,083±O,503. Obie te wartości mieszczą się w przedziale <-1; l>, a więc rozkład
wyników testu inteligencji nie odbiega zasadniczo od rozkładu normalnego.

5.3.5. Forma pozycji testowych


W dobrym teście psychologicznym pozycje testowe muszą być przede wszyst-
kim zrozumiałe dla osób badanych. Koniecznym, aczkolwiek niewystarczającym
warunkiem, który musi być spełniony, żeby pozycja testowa dobrze pełniła swoją
funkcję jest jej odpowiednia forma językowa, czyli złożoność gramatyczna, dłu­
gość czy też użyte słownictwo itp.
Wykazano (por. Zawadzki, 2006), że pozycje bardziej skomplikowane języ­
kowo mają słabsze charakterystyki psychometryczne. Na przykład w kwestio-
nariuszu FCZ-KT długość pozycji koreluje ujemnie z mocą dyskryminacyjną
(r=-0,23). Oznacza to, że im dłuższa pozycja testowa, tym niższa moc dyskry-
minacyjna. Wynika stąd, że pytania czy stwierdzenia w kwestionariuszach nie
powinny być zbyt długie.
Ponadto zbytnia złożoność gramatyczna nie jest również pożądana w przy-
padku pozycji testowych. W testach należy unikać nadużywania strony biernej,
wielokrotnie złożonych zdań, stosowania podwójnych przeczeń czy zbędnych
negacji. Również skomplikowane konstrukcje gramatyczne (takie jak na przy-
kład ojciec brata) utrudniają odczytanie sensu pytania i powodują brak spójności
w odpowiedziach u różnych badanych. Wymienione złożone konstrukcje grama-
tyczne (np. podwójne negacje) obniżają moc dyskryminacyjną pozycji kwestio-
nariusza (Zawadzki, 2006).
Stosowany w kwestionariuszach język powinien być możliwie prosty. Należy
bezwzględnie unikać pokusy stosowania języka naukowego czy pseudonauko-
wego, a także rzadko używanych słów.
Ogólność pozycji testowych ma zasadnicze znaczenie dla odnoszenia pozycji
176 do własnego doświadczenia. Pozycje zbyt ogólne zwiększają zmienność interin-
5. Jakich informacji o teście dostarcza testowanie?

dywidualną i intraindywidualną W odnoszeniu treści pozycji do własnego do-


świadczenia (Zawadzki, 2006). Innymi słowy, pytania czy stwierdzenia bardzo
ogólne powodują, że badani, udzielając odpowiedzi, uwzględniają tylko infor-
macje fragmentaryczne lub odnoszące się wyłącznie do wybranej dowolnie przez
siebie kategorii sytuacji czy czasu nieobejmującej wszystkich znaczeń zawar-
tych w ogólnie sformułowanej pozycji testowej. Aby tego uniknąć, należy pytać
o zachowania dostępne w doświadczeniu możliwie szerokiej grupie badanych
oraz zrezygnować z przesadnych uogólnień i pojęć abstrakcyjnych (Zawadzki,
2006).
Trzeba pamiętać, że wraz ze wzrostem złożoności pozycji wydłuża się czas od-
powiedzi i zwiększa liczba błędów. Ma to oczywiście znaczenie jedynie w przy-
padku kwestionariuszy, gdyż w przypadku testów zdolności (przede wszystkim
werbalnych), psycholog może celowo zastosować tego typu zadania w celu po-
miaru poziomu zdolności werbalnych.

Pytania sprawdzające

1. Co to jest trudność pozycji testowej?


2. Jak interpretuje się wskaźnik trudności p?
3. Jaka jest optymalna, z punktu widzenia psychometrycznego, wartość współ­
czynnika trudności pozycji testowej? Czy zawsze testy powinny składać się
wyłącznie z pozycji o optymalnej trudności? Odpowiedź uzasadnij.
4. Jaka zależność zachodzi między mocą dyskryminacyjną pozycji testowej
a jej trudnością?
5. Prosz:ę wybrać dowolny aspekt inteligencji psychometrycznej i opracować 5
przykładowych pozycji testowych go mierzących.
6. Co to jest moc dyskryminacyjna pozycji testowej?
7. Dlaczego na podstawie mocy dyskryminacyjnej eliminuje się niektóre pozy-
cje testowe?
8. Czy moc dyskryminacyjna pozycji testowych powiązana jest z rzetelnością
pomiaru testem? Odpowiedź uzasadnij.
9. Jaką moc dyskryminacyjną ma zadanie poprawnie rozwiązywane przez
wszystkich badanych?
10. Omów związek trudności, wariancji i mocy dyskryminacyjnej pozycji testo-
wych.

Zadania
1. Pięć osób wypełniło pewien test składający się z czterech zadań. Uzyskane
wyniki znajdują się w tabeli.

177
Ewa Witkowska, Krzysztof Fronczyk

Pozycje testowe
Osoby badane
1 2 3 4
1 1 O O O
2 O 1 1 1
3 1 1 1 1
4 O O O O
5 O O 1 1

Na podstawie wyników zebranych w tabeli oblicz:


a) trudność poszczególnych pozycji testowych;
b) wariacnje poszczególnych pozycji testowych;
c) posługując się wskaźnikiem dyskryminacji D, która z pozycji testowych
cechuje si't najwyższą mocą dyskryminacyjną. Do obliczenia wskaźnika D
skonstruuj tak grupy osób o wysokich i niskich wynikach, aby były one rów-
noliczne.

2. Osiem osób uzyskało w teście składającym si't z sześciu zadań wyniki przed-
stawione w tabeli.

Osoby Pozycje testowe


badane 1 2 3 4 5 6
A 1 1 1 1 1 1
B 1 O 1 1 O 1
C 1 1 1 1 O O
D 1 O 1 1 O 1
E 1 O 1 1 O O
F 1 1 O O 1 O
G O 1 O O O 1
H O 1 O O O O

Na podstawie tych wyników oraz odpowiednich obliczeń odpowiedz na nastę­


pujące pytania:
a) Czy pozycja testowa nr 2 ma ujemną moc dyskryminacyjną?
b) Czy pozycja testowa nr 3 jest trudniejsza niż pozycja testowa nr 6?
c) Ile wynosi trudność zadania 5?
d) Ile wynosi moc dyskryminacyjna pozycji testowej nr l?
e) Ile wynosi moc dyskryminacyjna pozycji testowej nr 3?
f) Czy z dwu pozycji testowych o numerach 3 i 4 jedno można by bez szkody
dla testu usunąć? (F)
178
5. Jakich informacji o teście dostarcza testowanie?

Odpowiedzi do zadań

1.
a)
0,4 0,4 0,6 0,6

b)
0,24 0,24 0,24 0,24

c)
O 1 0,5 0,5

2.
a) tak
b) nie
c) 6/8
d) 0,5
e) 0,75
f) nie

179
6. JAKICH INFORMACJI O OSOBIE BADANEJ
DOSTARCZA TESTOWANIE?

Andrzej Rynkiewicz
WYDZIAŁ PSYCHOLOGII
UNIWERSYTET WARSZAWSKI

6.1. Błędy standardowe i przedziały ufności 1

Wynik prawdziwy to hipotetyczna wartość opisująca rzeczywiste nasilenie


mierzonej cechy. Ze względu na ograniczoną dokładność narzędzi pomiarowych
nie można precyzyjnie określić tego wyniku. W praktyce wykorzystuje się więc
jego estymatory, czyli wartości przybliżone. Wynik w teście, a więc tzw. wynik
otrzymany, jest pewnego rodzaju estymatorem wyniku prawdziwego. Jego do-
kładność jest raczej mała, co oznacza, że czasem wynik otrzymany może leżeć
trochę powyżej wyniku prawdziwego, a czasem trochę poniżej. Tak więc w sy-
tuacji diagnozy nigdy nie ma pewności, po której stronie i w jakiej odległości od
konkretnego wyniku otrzymanego znajduje się wynik prawdziwy. Oczywiście
teoretycznie możliwe jest, że w określonym pomiarze wynik prawdziwy bę­
dzie dokładnie równy wynikowi otrzymanemu, ale jest to bardzo mało prawdo-
podobne.
Powyższe uwagi mają bardzo ważne implikacje praktyczne. Załóżmy, że w re-
alnej diagnozie poziomu inteligencji osoba badana uzyskała wynik typowy na tle
mężczyzn w wieku 23 lat. Wynik typowy oznacza, że jest to wynik najbardziej
powszechny w tej grupie osób, czyli równy średniej. Zatem chcielibyśmy powie-
dzieć, że jest to osoba o całkowicie typowym poziomie inteligencji. Jednak praw-
dopodobiel1stwo tego, że jest to wniosek prawdziwy jest bardzo małe. Wynik
otrzymany równy średniej wyników otrzymanych nie musi oznaczać, że wynik
prawdziwy osoby też byłby równy średniej wyników prawdziwych w tcj grupie.
Ze względu na losowy błąd pomiaru, mogłoby się więc okazać, że rzeczywi-
ste nasilenie poziomu inteligencji jest nieco powyżej lub nieco poniżej nasilenia
typowego dla 23-letnich mężczyzn. Błąd pomiaru zatem sprawia, że diagnosta
właściwie nigdy nie może być całkowicie pewien wniosków formułowanych na
podstawie wyników bada6 testowych.
Aby nieco zwiększyć prawdopodobie6stwo wnioskowania i nadać diagnozie
testowej jakąkolwiek użyteczność, wyznacza się tzw. przedział ufności. Jest to
przcdział symetryczny względem wyniku testowego i pełni on funkcję estymato-
ra przedziałowego. Najego podstawie można ze znanym i akceptowalnym praw-
dopodobie6stwem zlokalizować położenie wyniku prawdziwego osoby, a więc
podać przybliżone nasilenie badanej cechy. Wadą przedziału ufności jest jego

I Praca nad rozdziałem była finansowana ze ,~}vdków na badania statutowe Wydziału Psychologii
180 UW w 2008 roku.
6. Jakich informacji o osobie badanej dostarcza testowanie?

stosunkowo duży zakres. Posługując się taką właśnie metodą diagnosta jest ska-
zany na formułowanie wniosków przedziałowych, np. poziom inteligencji osoby
jest typowy lub nieco powyżej typowego dla 23-letnich mężczyzn. Chociaż dla
osób badanych ten brak precyzji może się okazać zaskakujący, to jednak przy
obecnym stanie wiedzy psychometria nie oferuje technik bardziej dokładnych.
W tym rozdziale zostaną omówione dwa najczęściej stosowane sposoby esty-
macji przedziałowej wyniku prawdziwego, czyli dwa rodzaje przedziałów ufno-
ści - przedział dla wyniku otrzymanego i przedział dla estymowanego wyniku
prawdziwego. Każdy z nich jest konstruowany na bazie nieco inaczej definiowa-
nego błędu standardowego. Ponadto zaprezentowana zostanie bardzo użyteczna
metoda porównywania dwóch wyników testowych przy użyciu przedziału ufuo-
ści dla różnicy między wynikami otrzymanymi.

6.1.1. Standardowy błąd pomiaru


Błąd standardowy to określenie szeroko używane w statystyce do oznaczania
odchylenia standardowego w rozkładzie dowolnej statystyki. Znaczenie tego po-
jęcia można sobie łatwo wyobrazić na podstawie doświadczenia myślowego. Jeśli
z populacji losować będziemy kolejno próbki o takiej samej liczebności i w każ­
dej z nich będziemy wyznaczać średnią arytmetycznąjakiejś zmiennej (np. eks-
trawersji), to uzyskamy wiele średnich tworzących pewien rozkład. Najczęściej
średnie w losowanych próbkach będą zbliżone do średniej populacyjnej. Efekt
ten będzie najlepiej widoczny, gdy z populacji wylosujemy bardzo dużo próbek.
Jeśli będzie ich nieskOl1czenie wiele, powstanie rozkład średniej o kształcie nor-
malnym. Odchylenie standardowe tego rozkładu to standardowy błąd średniej.
Błąd standardowy informuje więc o przeciętnej odległości wartości estymatorów
(np. średliich w losowanych próbkach) od wartości parametru (np. średniej w po-
pulacji). Im większy błąd standardowy, tym dalej od średniej populacyjnej może
być zlokalizowana średnia w próbce wylosowanej z tej populacji.
Podobnie można rozumieć standardowy błąd pomiaru. Jest to przeciętna
odległość wszystkich potencjalnych wyników otrzymanych przez jedną osobę
od charakteryzującego tę osobę wyniku prawdziwego. Wynik otrzymany jest tu
rozumiany jako estymator (wartość przybliżona) wyniku prawdziwego. Im więk­
szy standardowy błąd pomiaru tym dalej od wyniku prawdziwego może leżeć
wynik otrzymany przez osobę.
Standardowy błąd pomiaru jest wielkością teoretyczną, a więc w praktyce
posługiwać się będziemy jego estymatorem, czyli wartością przybliżoną. Jego
wzór zapisany jest w równaniu 6.1. Stosowane tu oznaczenie (s E) sugeruje, że jest
to odchylenie standardowe w rozkładzie błędów, a nie wyników otrzymanych.
Jednak rozkład wszystkich potencjalnych wyników otrzymanych przez jedną
osobę i charakteryzujący ją rozkład błędów mają taki sam ksztah, a więc mają
one też takie same odchylenia standardowe. Wyjaśnienie tego zagadnienia i wy- 181
Andrzej Rynkiewicz

prowadzenie wzoru można znaleźć w rozdziale opisującym założenia klasycznej


teorii testów (rozdział 4.).

Błąd p~,"iąr~(~)'=Mzrtlk,Il··.Pliędzy~yrtiki~l11ott?Y1l1~~Yni·Il.· ·Wynik~ell1 . ·pra\Yd#-·.


iii.·.>·
wym·········.···.·····i.»·· .• • •. • • •>......... . . ............................................. . ·........i . . · .· . · ... ............................... ·. .
&taJł(ląf~p~ył.!'ą~·t>~Jłli~~.·(s1ilub.$:EJVI) •. tQpr:zeciętna'o<llęgłość,.'-Vj~kięjJę~;:{Wy;
niki . otąylUąP;ę9ąw)'P;ik.uRr~'Nązlwegoch~rąktel)'~j<lcegąosob~'ł~~ttO.oąchYl~~ie,
stanąarąo ...'1~fąą~ł~'NS:z)'~tkich·ffiQ.i;~i'-VYCh •.•·ąla •. 9soby·.w~ni}{Qw.o~rzymanych
lubwrohłędó:w'PolUiąJ;u. . . . .

SE = sx~l- r" (6.1)

Standardowy błąd pomiaru charakteryzuje test, a nie osobę. Wynika to z za-


łożeń klasycznej teorii Gulliksena. Oznacza to, że przy opisie różnych osób bę­
dziemy wykorzystywali ten sam standardowy błąd pomiaru, pod warunkiem, że
pomiarów dokonamy tym samym testem. W praktyce jednak, jeśli te osoby będą
reprezentowały różne populacje - np. mężczyzna i kobieta, to ze względu na
możliwą różnicę w wariancji cechy w tych populacjach test może mieć nieco
inną wartość estymatora standardowego błędu pomiaru w każdej z nich.
Test, który charakteryzuje się małym standardowym błędem pomiaru, to test
dobry. Jest to związane z jego rzetelnością. Ogólnie mówiąc, mniejszy standar-
dowy błąd pomiaru zwykle oznacza także większą rzetelność narzędzia. Tak więc
im lepsze narzędzie, tym bardziej wyniki otrzymane przy jego użyciu będą zbli-
żone do wyników prawdziwych.

6.1.2. Przedział ufności dla wyniku otrzymanego


Podstawowym, praktycznym przeznaczeniem standardowych błędów jest
konstrukcja przedziałów ufności. W szczególności na podstawie standardowego
błędu pomiaru buduje się przedziały ufności dla wyników otrzymanych.
Ogólnie w statystyce przedział ufności jest zwykle symetryczny względem es-
tymatorajakiejś wartości teoretycznej. Uznajemy, że ta wartość teoretyczna (pa-
rametr) z określonym wysokim prawdopodobieństwem znajduje się w granicach
przedziału ufności. Przedział ufności jest więc formą estymacji parametrów, czyli
wyznaczania ich przybliżonej wartości. Taką formą estymacji posługują się sta-
tystycy chcąc oszacować np. średnie spożycie cukru przez wszystkich Polaków
Gest to wartość parametru) na podstawie średniego spożycia cukru przez małą
próbę Polaków Gest to wartość estymatora). Również taką samą formą estymacji
posługują się psychometrzy chcąc oszacować wynik prawdziwy opisujący osobę
(wartość parametru) na podstawie pojedynczego wyniku otrzymanego (wartość
182 estymatora).
6. Jakich informacji o osobie badanej dostarcza testowanie?

Zanim przejdę do opisu praktycznego sposobu wyznaczania przedziału ufno-


ści, chciałbym opisać teoretyczne podłoże tego rodzaju estymacji. Punktem wyj-
ścia powinien tu być teoretyczny rozkład potencjalnych wyników otrzymanych
dla pojedynczej osoby. Może on powstać tylko w sytuacji hipotetycznej, gdy jed-
ną osobę badamy tym samym testem nieskol1czenie wiele razy. Należy tu przy-
jąć, że pomiary przebiegają w sposób niezależny, tzn. że osoba ta się nie uczy
rozwiązywania zadań, nie męczy i nie nudzi kolejnymi badaniami. Każde nie-
zależne badanie traktuje się tak, jakby było wykonane po raz pierwszy. Rozkład
taki przedstawiony jest na rys. 6.1.

T x
T+z;SEM

,,,
.
~-------------:-·_----·_···ł
,, X,.Z;SEM x, x,+Z:~'SEM

,
~"-""-----~'---'--""-'I przedział ufności dla X,
X,'J:;SEM xa X,.. z;SEM

przedział ufności dla Xz

Rysunek 6.1. Rozkład wszystkich potencjalnych wyników otrzymanych dla jednej osoby
i ilustracja pojęcia przedziału ufności

Pojedyncza osoba o charakteryzującym ją wyniku prawdziwym T może w hi-


potetycznych kolejnych badaniach tym samym testem uzyskiwać różne wyniki
otrzymane, bo w ten sposób ujawniają się losowe błędy pomiaru. W konsekwcn-
cji rozkład takich wyników otrzymanych ma niezerową wariancję. Najczęściej
jednak wyniki otrzymane tej osoby ulokowane byłyby w bezpośredniej blisko-
ści jej wyniku prawdziwego, tzn. tam, gdzie na rys. 6.1. linia wykresu przebega
najwyżej. Przyjmując, że rozkład z rys. 6.1. jest normalny można wyznaczyć
hipotetyczny przedział symetryczny względem średniej (czyli względem wyniku
prawdziwego), obejmujący określony procent potencjalnie możliwych do uzy-
skania przez tę osobę wyników (przedział zaznaczony linią ciągłą w gómej części
rysunku). Granice takiego przedziału byłyby oddalone od wyniku prawdziwego
o z,,'SEM, bo rys. 6.1. przedstawia rozkład wyników otrzymanych osoby i jego
odchylenie standardowe to standardowy błąd pomiaru. Symbol Za oznacza wy- 183
Andrzej Rynkiewicz

standaryzowaną wartość, która jest powiązana z proporcją wyników obejmowa-


nych przez ten przedział. Wartość zamożna oczytać np. z tablic rozkładu normal-
nego. Jest to wynik wystandaryzowany, dla którego wartość dystrybuanty wynosi
dokładnie l-a/2, gdzie a to omówiony poniżej tzw. poziom istotności. Wartości z"
dla najczęściej stosowanych poziomów istotności podane są w tabeli 6.1.

Tab. 6.1. Najczęściej stosowane w psychometrii wystandaryzowane granice przedziałów


ufności Za

a 1- a za
0,01 0,99 2,58
0,05 0,95 1,96
0,10 0,90 1,64
0,15 0,85 1,44

Przedział zaznaczony w górnej części rys. 6.1. linią ciągłą obejmuje znaczny
procent wyników, które potencjalnie może otrzymać osoba. Zatem ze znacznym
prawdopodobieństwem (ale zawsze mniejszym od l) każdy wynik, który otrzy-
małaby ta osoba znajdzie się w omawianym przedziale. Jeśli więc przedział sy-
metryczny względem T ze znacznym prawdopodobieństwem będzie obejmował
każdy możliwy wynik otrzymany X, to jednocześnie tak samo szeroki przedział
symetryczny względem dowolnego wyniku X otrzymanego przez tę osobę ze
znacznym prawdopodobiellstwem będzie obejmował jej wynik prawdziwy T.
Inaczej mówiąc, jeśli przedział narysowany linią ciągłą obejmuje jakiś wynik
X, to tak samo szeroki przedział zbudowany wokół tego wyniku X (narysowany
linią przerywaną) musi obejmować wynik T. Przedziały zaznaczone w dolnej'
części rys. 6.1. linią przerywaną to przykładowe przedziały ufności.

PRZYKLAD'l
symet~9zHy •.~;e~~deIUfYniku.pra"'#iWegQ . T·. przedzi4l.0bejtntljąc~~~Q!o.··pbttm­
cjalni~i~?~li~Ił~?OU~~~kapia przezA~o1?ę.,• wynilj.ó",(a .",ięcprą",ię.w~zy&tlj.ie
możliwęlmiałpygrnnice'u1okowane ··w··.odległości )',96'o<lćhyleniastanctardowego
od·.·'YY~*~...... ..ij~i~e~ę(~~.Z9,055r,96),Z, •. r~cji ,tego,.że·tozk,ł~ij~~ • rYs, • • 6,.·l·ję·~·~J~~·
kładem.wyn ..WOlfZYtnątlych,,· to je gQpdchYlenie standar<l()wej~st·· fó",ne • §tan('la1.'~
dowemlj'błęd,()w!~?1ljłafU··;Zątefugraniąeprzedzi<H!J;·.• qktóo/mjęst.·,tu . mo",a;łlYłybY
o<ldal()p'e9('1'~~i~!J~t~",ą.ziwego Q}:9§·SJĘM.. grzępzjał· taki, . ·. M9f)' . . tlię·jFs~·.ję.S:l~~ę
przędziałe1111xfn()~~i,w~ól.1wj. częścif)'~.6i I· JlPstał zap1a~z\.)Uy linią 9iągłą·Ohej111ie
on ...:l .• praW~~()~(,)Pie~~~ell1(),Q~.kaz9y\Vynil<,.ktÓry ll1()~~.()~rzYlUaĆdąl~.p~()bą.
TegQ.l"Qd2l11jl,l;pr?~d?iał • ·tI1()?e~nY.?1b~d9'iYaęĘ6wn.te~w()ĘQłiw~iku . .otr?YtI1~l1ę~~.• • X:;
Ję!il(),g~aI}icę·uątaliłił)yś111y()dejI}1~j~E .•~·.d()dąj~ę~():X ilQc~. hQ6·~ 'EM·Pąelil:liął. tęn,
2lWanyp~ze4zjąłęW:ufn()§ęi;~R~tał.~ail111c~(m)'Wcłolpęj .• c?~§óirrs .• 6.r.•. Hrii~przęrY­
waną'Z:pr~rwPopp~()1?ie6~twęll1(),9$()bej111()Wałby .• ()nwyniĘprawą2:iwy.os()~y.· . .
184
6. Jakich informacji o osobie badanej dostarcza testowanie?

Przedstawiona na rys. 6.1. sytuacja ma charakter teoretyczny, ponieważ w real-


nych warunkach nigdy nie wiadomo, gdzie znajduje się wynik prawdziwy osoby
badanej. Można jedynie przypuszczać, że leży on w pobliżu wyniku otrzymane-
go z badania testem. Aby sobie to uzmysłowić, można na chwilę zasłonić górną
część rys. 6.1. opisanąjako sytuacja hipotetyczna. To co pozostało na widoku, to
sytuacja realna, a więc dwa przykładowe wyniki Xl i X 2 , które mogłaby uzyskać
w badaniu omawiana osoba. Gdybyśmy dla każdego z nich zbudowali przedział
ufności, to zgodnie z przedstawionym wcześniej rozumowaniem, moglibyśmy
stwierdzić, że ze znacznym prawdopodobieństwem obejmują one wynik praw-
dziwy. Po odsłonięciu górnej części rysunku widać, że przedział dla wyniku Xl
rzeczywiście obejmuje wynik prawdziwy, ale przedział dla wyniku X 2 już nie.
Zatem przy wnioskowaniu na podstawie przedziału ufności zawsze możemy się
mylić. Prawdopodobieństwo takiej pomyłki to a, czyli poziom istotności. Na
szczęście jest to zwykle prawdopodobieństwo małe, znacznie niższe niż tzw. po-
ziom ufności oznaczany przez l-a. Dla przykładu jeśli a=0,05, to oznacza, że
przeciętnie w 5 diagnozach na 100 diagnosta popełni błąd wnioskowania, czyli
pomyli się w opisie nasilenia cechy osoby.

Pozi(jłl1ufllOści,Czylil-a,toprawdópódobienstwo tego, zewr:nik prawdziwy· rze-


cz~iśiłiez~~duJe sięw.prze~~ialeufności,..... .> ......•...........••.....</......( .• . . . •.•. . .•.•. • •
.poziorp IstotnoŚci,czylLo"tc)pra'YdopodobiensfWQ. t!s?,ze wynik prawdziwy
znajclujesiępoza· przedziałem .ufn()śSizbud0'Yanym .wo~ół • . w~nik~ otrzymanego.
Di~gnostazwykłeoczekuJe, .·źe\Vyni~ pr:iwd~iwyznajduJesięwewnątrzprzediiałtl
ufności, więcajest prawdopodobieństwem błędu wnioskowania.

6.1.2.1. Obliczanie przedziału ufności dla wyniku otrzymanego


Omawiany w tym rozdziale przedział ufności zawsze budujemy symetrycznie
względem wyniku otrzymanego. Wzór opisujący taki przedział przedstawia rów-
nanie 6.2.

p(x -Za ·SEM:S; T:S;X +Z" ·SEM)=l-a (6.2)

Wzór ten należy czytać w następujący sposób: prawdopodobieństwo (litera


P) tego, że wynik prawdziwy T znajduje się w przedziale ufności wynosi l-a.
Dolną granicę przedziału budujemy poprzez odjęcie od wyniku otrzymanego X
iloczynu zn'SEM, który nazywany jest półprzedzialem ufności, bo jest równy
dokładnie połowie szerokości całego przedziału. Górna granica powstaje w spo-
sób analogiczny - do wyniku otrzymanego dodajemy półprzedział.
185
Andrzej Rynkiewicz

6.1.2.2. Interpretacja przedziału ufności dla wyniku otrzymanego


Zgodnie z przyjętą konwencją wynik prawdziwy może się znajdować z jed-
nakowym prawdopodobieństwem równym l-a w każdym miejscu przedziału
ufności włącznie z jcgo granicami. Przedział utl10ści jest więc przedziałem obu-
stronnie domkniętym. Nie jest więc możliwe doraźne zawężanie interpretacji
wyniku tylko do środkowej części przedziahl ufności. Z tego względu szerokie
przedziały ufności są raczej niewygodne, bo bardzo utrudniają formułowanie dia-
gnozy. Warto więc zdawać sobie sprawę z czynników, które powodują zwężenie
przedziału. Pierwszy z nich to współczynnik rzetelności testu. Im większa jest
rzetelność, tym mniejsze błędy towarzyszą pomiarom. W konsekwencji zmniej-
sza się standardowy błąd pomiaru i przedział ufności jest węższy.
Drugi istotny czynnik to odchylenie standardowe wyników otrzymanych
w próbie. Imjest ono mniejsze tym węższy będzie przedział ufności. Wydawałoby
się więc, że próby walidacyjne powinny być jak najbardziej jednolite pod wzglę­
dem mierzonej cechy. Jednak dobór takich prób często powoduje obniżanie się
współczynnika rzetelności, a co za tym idzie zwiększanie standardowego błędu
pomiaru i rozszerzanie przedziału ufności. Sposobem na utrzymanie stosunkowo
niskiego odchylenia standardowego wyników i jednocześnie satysfakcjonujące­
go współczynnika rzetelności (oczywiście jeśli test jest dobry) jest losowanie
186 dużych prób reprezentatywnych dla populacji.
6. Jakich informacji o osobie badanej dostarcza testowanie?

Kolejny czynnik wpływający na szerokość przedziału ufności to przyjęty po-


ziom istotności. Im wyższy poziom a, tym węższy będzie przedział. Jest on usta-
lany przez diagnostę, ale trzeba pamiętać, że wysoka wartość a oznacza wysokie
prawdopodobieństwo postawienia błędnej diagnozy. Z kolei niska a (np. 0,01)
daje czasem tak szerokie przedziały, że na podstawie wyników badania bardzo
trudno jest podejmować jakiekolwiek decyzje np. terapeutyczne. Może się tak
zdarzyć, gdy przedział ufności będzie obejmował wszystkie zakresy od wyników
tzw. obniżonych do podwyższonych na tle populacji. Interpretacja diagnosty,
chociaż formalnie poprawna, może wtedy wielu osobom wydać się co najmniej
niesatysfakcjonująca. Z tego względu w diagnozie indywidualnej przyjmuje się
czasami wartość a=0,15. Jest to poziom niedopuszczalny w badaniach nauko-
wych, ale w badaniach indywidualnych przy użyciu testów o raczej niewysokiej
rzetelności tylko taki zabieg daje przedziały ufności na tyle wąskie, aby interpre-
tacja była możliwie użyteczna.

6.1.3. Standardowy błąd różnicy między wynikami otrzymanymi


W praktyce diagnostycznej często zachodzi potrzeba oceny różnic między wy-
nikami otrzymanymi przez jedna osobę w dwóch testach lub przez dwie osoby
w jednym teście. Nie można w takich przypadkach polegać wyłącznie na wyni-
kach otrzymanych, bo każdy z nich może być obarczony błędem. Posłużenie się
przedziałami ufności dla każdego z nich też nie jest dobrym rozwiązaniem, bo
może prowadzić do błędnych decyzji. Najlepszym sposobem jest zastosowanie
przedziału ufności wyznaczonego dla różnicy między wynikami otrzymanymi.
Konstruuje się go na podstawie specjalnie definiowanego błędu standardowego,
który zostanie opisany w tej części rozdziału.
Definicja standardowego błędu różnicy i przedziału ufności dla różnicy do-
tyczy zarówno sytuacji, gdy badamy dwoma testami jedną osobę, jak i jednym
testem dwie osoby. W obu przypadkach porównujemy dwa wyniki otrzymane.
Jednak dla uproszczenia opisu odnosił go będę tylko do sytuacji badania poje-
dynczej osoby.
Tak jak każdy standardowy błąd, również standardowy błąd różnicy między
wynikami otrzymanymi jest odchyleniem standardowym w rozkładzie pewnej
statystyki. W tym przypadku chodzi o rozkład różnic otrzymanych, czyli różnic
między wynikami otrzymanymi (Xd=XI-XZ)' Taki teoretyczny rozkład powstałby
w efekcie dla nieskończenie wielu niezależnych badań tej samej osoby dwoma
różnymi testami. Jeśli rozkłady wyników otrzymanych z każdego z tych pomia-
rów będą normalpe (rys. 6.2., część a)), to różnice między wynikami otrzymany-
mi również utworzyłyby rozkład normalny przedstawiony w części b) rys. 6.2.
Średnia takiego rozkładu to różnica prawdziwa, czyli różnica między wynikami
prawdziwymi dla jednej osoby z dwóch testów (T d= T 1 - T z). Odchylenie standar-
dowe rozkładu różnic to standardowy błąd różnicy między wynikami otrzymany- 187
Andrzej Rynkiewicz

mi (O"Ed). Jest ono talde samo, jak Qdchylenie standardowe w rozkładzie błędów
różnicy między wynikami otrzymanymi (E d) dla pojedynczej osoby, co wyjaśnia
stosowane oznaczenie (litera E w indeksie sugeruje związek z błędem).

a)

b)

Rysunek 6.2. Rozkłady wszystkich możliwych wyników otrzymanych jednej osoby z po-
miarów dwoma testami (a) oraz rozkład różnic tych wyników (b). T 1 i T 2 - wyniki prawdziwe
osoby w testach 1 i 2; X 11 i X 12 - przykładowe wyniki otrzymane przez tę osobę w testach;
T d - różnica między wynikami prawdziwymi; X d1 - różnica między wynikami otrzymanymi

Analogicznie do opisywanego w' poprzednkh rozdziałach błędu pomiaru,


można sobie wyobrazić błąd różnicy między wynikami otrzymanymi - jest
to odległość między różnicą otrzymaną i różnicą prawdziwą (równanie 6.3).
Opuszczając nawiasy w równaniu 6.3, można łatwo przejść do prostego rów-
nania 6.4. Wiedząc, że różnica między wynikiem otrzymanym i prawdziwym to
błąd pomiaru, można przejść do równania 6.5 stwierdzającego, że błąd różnicy
między pomiarami to różnica błędów pomiaru.

(6.3)

(6.4)

(6.5)

188
6. Jakich informacji o osobie badanej dostarcza testowanie?

Błąd r6żrdcy między wynikami otrzymanyrńi(E d) '- to odległość między różnicą


otrzymaną (np. róznicąmiędzywynikami otrzymanymi z dwÓch testów) a różnicą
prawdziwą (różnicą między wynikami prawdziwymi w tych testach),. Błąd różnicy
można sptowadzić do prostej różnicy między błędami pomiaru w dwóch badaniach .
.
'

Na podstawie równania 6.5 można już skonstruować wzór pokazujący odchy-


lenie standardowe w rozkładzie nieskończenie wielu błędów różnicy między wy-
nikami otrzymanymi, czyli standardowy błąd różnicy między wynikami otrzy-
manymi. W równaniu 6.6 wykorzystany został opisywany wcześniej sposób na
wyliczanie wariancji różnicy dwóch składników. Wariancja błędu różnicy, czyli
wariancja różnicy błędów pomiaru w dwóch testach to suma wariancji błędów po-
miaru w tych testach pomniejszona o podwojoną kowariancję (cov = PEIEP Elu E2)
tych błędów pomiaru.

2
2
U &1 =U El-n
2
= U El2 + U E2
2
- PEln u ElU E2 (6.6)

Z podstawowych założeń koncepcji Gulliksena wynika, że dwa błędy losowe


powinny być od siebie całkowicie niezależne. Zatem korelacja między błędami
(PEIE2) oraz cała kowariancja błędów powinna wynosić zero. W konsekwencji
takiego założenia powstaje równanie 6.7. Opisuje ono wariancję w rozkładzie
niesk011czenie wielu błędów różnicy między wynikami otrzymanymi. Chcąc
uzyskać standardowy błąd różnicy między wynikami otrzymanymi trzeba obie
strony równania 6.7 podstawić pod pierwiastek (równanie 6.8).
2
U Ed =U El2 + U E22 (6.7)

(6.8)

Standardowy błąd różtIicy między wynikami otrzymanymi (CJEd lub SEMD) -


przeciętna odległość,wjakiej leżą różnice otrzymane od różnicy prawdziwej. Jest to
odchylenie standardowe wTOzkladziewszystkichpotencjalnych róŹilic między wyni-
kamiotrzymanymi prZez osobę Vi dwóch różnych testach lub W rozkładzie nieskoń­
czeniewielu błędówróżnky między wynikami otrzymanymi.
" ' . . '.
Użyteczny w praktyce estymator standardowego błędu różnicy (SEMD) moż­
na wyliczać według dwóch równoważnych wzorów zapisanych w równaniach
6.9 i 6.10.

(6.9)
189
Andrzej Rynkiewicz

SEMD = .JS~l (1- ~tl) + S~2 (1- '~t2) (6.10)

Wzór 6.10 w niektórych warunkach można nieco uprościć. Wiadomo, że po-


równując wyniki testów będących elementami jednej baterii (np. podtesty bate-
rii Wechslera) wykorzystuje się zwykle tzw. wyniki przeliczone. Stanowią one
coś w rodzaju skali znormalizowanej i w związku z tym mają jednakowe dla
wszystkich podtestów odchylenie standardowe (odchylenie standardowe wyni-
ków przeliczonych w baterii Wechslera wynosi 3). Jeśli więc porównywane są
wyniki jednej osoby uzyskane z dwóch testów takiej baterii to można posłużyć
się prostszym od poprzednich wzorem zapisanym w równaniu 6.11.

(6.11)

Całe powyższe rozważania dotyczą zarówno sytuacji, gdy porównywane są


wyniki jednej osoby z badania dwoma testami, jak i dwóch osób z badania jed-
nym testem. W obu przypadkach definicja standardowego błędu różnicy będzie
taka sama. Jeśli jednak porównywane są wyniki badania jednym testem dwóch
osób należących do tej samej populacji (np. dwóch studentów w wieku 22 lat) to
wzór na SEMD można jeszcze bardziej uprościć, bo w takim przypadku jedna-
kowe są zarówno odchylenia standardowe, jak i współczynniki rzetelności. Wzór
taki zapisany jest w równaniu 6.12.

(6.12)
gdy SXl = SX2 oraz ~Il =~12
Jeślisytuacja jest niejasna i nie wiadomo, którego ze wzorów na SEMD użyć,
to najbezpieczniejszy będzie ogólny wzór zapisany w równaniu 6.10.

6.1.4. Przedział ufności dla różnicy między wynikami otrzymanymi


Podłoże teoretyczne jest tutaj właściwie takie samo, jak w przypadku prze-
działu ufnościdla pojedynczego wyniku otrzymanego. Należy wziąć jednak pod
uwagę nie rozkład wyników otrzymanych dla pojedynczej osoby, ale rozkład róż­
nic między dwoma wynikami otrzymanymi dla tej osoby, który został przedsta-
wiony na rys. 6.3.

190
6. Jakich informacji o osobie badanej dostarcza testowanie?

x.
T•.z;SEMD ..
T+z 'SEMD

~-~~-~~---~·~~:----------~-ł
, X".z;SEMD Xd1 X.,+z:.-SEMD
<

1-----.... ---. -<-----.----


X..-z.·SEMO
<

X(12
--'1
X.....z:SEMD
przedział ufności dla Xdf

przedział ufności dla X",

Rysunek 6.3. Rozkład wszystkich potencjalnych różnic między dwoma wynikami otrzy-
manymi przez jedną osobę w dwóch testach i ilustracja pojęcia przedziału ufności dla
różnicy wyników

Dla uproszczenia opisu różnicę między wynikami otrzymanymi (X d) będę na-


zywał różnicą otrzymaną, a różnicę między wynikami prawdziwymi (T d) - róż­
nicą prawdziwą. Jeśli przedział symetryczny względem różnicy prawdziwej (na
rys. 6.3. zaznaczony linią ciągłą) obejmuje znaczny procent wszystkich możliwych
różnic między wynikami dla pojedynczej osoby, to przedział ufności zbudowany
symetrycznie względem dowolnej różnicy otrzymanej (na rys. 6.3. zaznaczony li-
nią przerywaną) ze znacznym prawdopodobieństwem będzie obejmował różnicę
prawdziwą. Tutaj znów należy przyjąć, że rys. 6.3. pokazuje pewną sytuację hi-
potetyczną. W rzeczywistości diagnosta ma dostęp tylko do tych informacji, które
znajdują się w dolnej części rys. 6.3. Dysponuje dwoma wynikami otrzymanymi,
na podstawie których może wyliczyć różnicę otrzymaną (X d=X]-X 2) i zbudować
symetryczny względem niej przedział ufności. Przedział ten ze znacznym praw-
dopodobieństwem równym poziomowi ufności (l-a) będzie obejmował różnicę
prawdziwą. Jeśli diagnosta uzyska w konkretnym badaniu dwoma testami róż­
nicę, takąjak X dł , to jego przedział ufności będzie w rzeczywistości obejmował
różnicę prawdziwą. Jeśli jednak w badaniu pojawi się różnica otrzymana, taka
jak Xd2 ' to różnica prawdziwa będzie leżała poza przedziałem. Diagnosta jednak
nigdy nie wie, czy się myli przy wnioskowaniu na podstawie przedziału ufności,
bo nie zna dokładnej lokalizacji różnicy prawdziwej. Poziom istotności, czyli a,
to prawdopodobieó.stwo tego, że jego wnioski będą błędne, tzn. że różnica praw-
dziwa będzie w rzeczywistości leżała poza przedziałem ufności. Poziom a jest
więc prawdopodobieństwem błędnej diagnozy. 191
Andrzej Rynkiewicz

6.1.4.1. Obliczanie przedzi,ału ufności dla różnicy między wynikami


otrzymanymi
Wzór pozwalający obliczyć taki przedział ufności zapisany jest w równaniu
6.13. Konstruujemy go w bardzo podobny sposób, jak ilme przedziały ufności -
symetrycznie względem wartości uzyskanej empirycznie, którą w tym przypadku
jest różnica otrzymana. Dolną granicę uzyskujemy odejmując od różnicy otrzy-
manej tzw. półprzedział, który tutaj jest iloczynem wystandaryzowanej wartości
Za i standardowego błędu różnicy między wynikami otrzymanymi SEMD. Górną
granicę uzyskujemy dodając półprzedział do różnicy otrzymanej.

(6.13)

Równanie 6.13 należy czytać w następujący sposób: p~awdopodobieństwo


tego, że różnica prawdziwa (T d) znajduje się pomiędzy granicami przedziału uf-
ności wynosi l-u.

192
6. Jakich informacji o osobie badanej dostarcza testowanie?

6.1.4.2. Istotność różnicy między wynikami otrzymanymi


Przedział ufności dla różnicy między wynikami otrzymanymi wykorzysty-
wany jest do oceny tzw. statystycznej istotności różnicy wyników. Z założeń
koncepcji Gulliksena wynika, że dwie osoby o identycznych poziomach cechy
(czyli o identycznych wynikach prawdziwych) mogą uzyskać w tym samym te-
ście rÓŻne wyniki otrzymane. Jest to związane z losowym i nieprzewidywalnym
błędem pomiaru. Jeśli więc dwie osoby mają różne wyniki otrzymane w teście,
to niekoniecznie oznacza to, że mają różne nasilenie cechy. Aby móc formułować
wnioski o różnym nasileniu cechy u tych osób, różnica między ich wynikami
otrzymanymi musi być wystarczająco duża, czyli istotna statystycznie.

IstQtnastatystyc\lQie)"ó~Jłicałllię~zy wynika"'i9tr\lYłlląny"1ioipac~,ie istnieje


rzec~ywi$ta rąZl1icąl1li~dzywynikąIlli .prawdziwymi. Wtakim przypadkumoznan;tó"
wić o różnicy w pasilenh.l cechy lub cech. .

Do oceny istotności
statystycznej różnicy wyników wykorzystujemy opisany
wcześniej przedział ufności dla różnicy (równanie 6.13). Wiadomo, że ze znacz-
nym prawdopodobieństwem przedział taki obejmuje różnicę prawdziwą. Może
ona znajdować się w każdym miejscu tego przedziału włącznie zjego granicami.
Jeśli taka różnica prawdziwa będzie w rzeczywistości inna niż zero, to zero naj-
prawdopodobniej będzie leżało poza granicami przedziału ufności (rys. 6.4.).

o x d
zero poza przedziałem
ł I la

,. OI
I różnica istotna
x
,
I

I
d I
.. zero w przedziale
różnicanieistotna
I I
przedział ufności dla X.

Rysunek 6.4. Ilustracja istotności statystycznej różnicy między wynikami otrzymanymi.


Na górnej osi różnica jest znaczna i zero leży poza przedziałem ufności- różnica otrzy-
mana jest istotna statystycznie. Na dolnej osi różnica jest nieznaczna i zero leży wewnątrz
przedzialu - różnica otrzymana nie jest istotna statystycznie

Chcąc ocenić istotność statystyczną różnicy, można oczywiście wyznaczyć


przedział ufności według procedury opisanej wcześniej. Różnicę między wyni-
kamiotrzymanymi uznamy za istotną statystycznie, gdy obie granice przedziału
będą miały taki sam znak, tzn. albo obie będą dodatnie, albo obie ujemne. Tylko
w takim przypadku przedział nie będzie obejmował zera. W przykładzie 3 różni­
ca między wynikami otrzymanymi jest istotna statystycznie.
Przy porównywaniu wyników bardzo często diagności posługują się tylko pół­
przedziałem ufności, czyli iloczynem zu·SEMD. Aby zero leżało poza przedziałem 193
Andrzej Rynkiewicz

ufności i aby uznać różnicę dwóch wyników za istotną statystycznie, to jej wartość
bezwzględna musi być większa od półprzedziału ufności (równanie 6.14).

Ix] -X 2 1> za ·SEMD (6.14)


to różnica jest istotna statystycznie

Jeśli zero leży poza granicami przedziału ufności różnicy,


to z dużym
dla
prawdopodobieństwem możemy uznać, że różnica między wynikami prawdzi-
wymi istnieje. Natomiast w odwrotnej sytuacji, gdy zero leży wewnątrz przedzia-
łu ufności, to nie możemy uznać, że różnica między wynikami prawdziwymi nie
istnieje. Jest to typowy problem z jednostronnym wnioskowaniem na podstawie
przedziału ufności. Różnica nieistotna statystycznie nie musi oznaczać, że dwa
wyniki prawdziwe są takie same. Prawdopodobieństw() takiego zdarzenia w me-
todzie przedziału ufności jest nieznane i raczej małe.

6.1.5. Estymowany wynik prawdziwy


Na początku rozdziału przedstawiłem najprostszy i najpopularniejszy sposób
przybliżaniawyniku prawdziwego na podstawie przedziału ufności wyznacza-
nego dla wyniku otrzymanego. Ostatnio coraz większe uznanie zdobywa alter-
natywna metoda, której podłożem jest cstymowany wynik prawdziwy. Na jego
podstawie wyznacza się przedział ufności, który jest węższy, a więc wygodniej-
szy niż przedział konsttuowany na podstawie wyniku otrzymanego.
Jeśli test psychologiczny ma jakąś choćby minimalną dokładność, to możemy
oczekiwać nie zerowej korelacji pomiędzy wynikami otrzymanymi i prawdzi-
wymi. Im większa będzie dokładność (rzetelność) takiego testu, tym silniejsza
będzie to korelacja. W przypadku testu idealnego pomiar powinien dać wynik
otrzymany równy dokładnie wynikowi prawdziwemu. Przy serii pomiarów takim
testem np. grupy osób wszystkie wyniki otrzymane pokrywałyby się z wynikami
prawdziwymi. Sytuację tę można przedstawić przy pomocy układu współrzęd­
nych, na którym oś pozioma odpowiada wynikom otrzymanym, a pionowa -
prawdziwym. Na rys. 6.5. każdy punkt reprezentuje pojedynczą osobę, która uzy-
skała określony wynik otrzymahy (współrzędna na osi poziomej) i ma określony
wynik prawdziwy (współrzędna na osi pionowej). Gdy test ma idealną dokład­
ność, to wszystkie punkty układają się wzdłuż linii prostej, bo zawsze wyniko-
wi otrzymanemu odpowiada taki sam wynik prawdziwy. Ta linia pokazuje trend
zależności między wynikami - im wyższy wynik otrzymany (X), tym wyższy
wynik prawdziwy (T) osoby. Jest to linia regresji. Gdy dokładność testu nie jest
idealna, ale znaczna, to punkty leżą w niezbyt dużej odległości od linii regresji
tak, jak na rysunku 6.5., część a). Przy jeszcze słabszej rzetelności punkty tworzą
194 chmurę dość mocno rozrzuconą wokół linii (rysunek 6.5., część b)).
6. Jakich informacji o osobie badanej dostarcza testowanie?

Linię regresji wyznacza się metodami analitycznymi na podstawie układu


punktów. Dla każdej chmury punktów zwykle istnieje tylko jedna linia regresji.
Można ją przedstawić w postaci równania znanego ze szkoły (równanie 6.15),
gdzie parametry a i b określają dokładny jej przebieg.

a) b)

20 20

18 18

16 16
• •
14 14
T T
12 12

10 10


10 12 14 16 18 20 10 12 14 16 18 20
X X

Rysunek 6.5. Linia regresji dla hipotetycznej zależności pomiędzy wynikami otrzymanymi
(X) i wynikami prawdziwymi (T) w jakiejś grupie osób. Rysunek a) pokazuje silną zależność
(test o wysokiej rzetelności), a rysunek b) słabą zależność (test o niskiej rzetelności)

T' =bX +a (6.15)

Oczywiście równanie 6.15 i rys. 6.5. mają charakter całkowicie hipotetyczny,


bo w realnych warunkach nigdy nic jest znany wynik prawdziwy osoby. Można
jednak parametry równania 6.15 obliczyć na podstawie oszacowanych parame-
trów testu. Powstaje w ten sposób bardzo użyteczne równanie 6.16 będące przy-
bliżeniem teoretycznego równania 6.15.

(6.16)

Posługując się równaniem 6.16 można przewidywać wyniki prawdziwe na


podstawie wyników otrzymanych. Szacowana w ten sposób wartość wyniku
prawdziwego oznaczona została symbolem T', ponieważ raczej nie będzie to
rzeczywisty wynik prawdziwy, tylko jego przybliżenie. Wartość ta została na-
zwana estymowanym wynikiem prawdziwym. Stanowi on tym lepsze przybli-
żenie wyniku prawdziwego im bliżej linii regresji na rys. 6.5. będą leżały punkty.
A więc część a) rys. 6.5. przedstawia estymowane wyniki prawdziwe przeciętnie
obarczone mniejszymi błędami niż na części b) rys. 6.5. 195
Andrzej Rynkiewicz

tstyrnowany wynikprawdziwy·(T')-toPtU1któwy~Styfh~tór~nikupra""d:z;iw~gO
stosowany czasem. \Vzastępst""ie wynikuotrżymane~o.J~stto.przewid~any\Vynik
prawdziwy, . którymog~ibyśmy.·. wyznaczyć .11a.podstawie •. r()\VI1~niaTegreśjiprostoli~
niowej. dla zale~ości pomię<iz~ w)'nikami~trzymanYJl1iiprawdziwYrni. ..••..

PRZYKLAD4
Osoba . uzyskała ""ynik . otrzymany 15 .• wteście . o .wsPółczynnikurzetelnoścfO,~l;.
Średnia wynikówotrzyIllanych w prÓbie osób adekwatfieJ dla· osopyb~dan~j .wyno~i·
20. Zatemestyl110wanywynikprawdziwy .wY'ZIlaczamywnastępującysposób:

r ,sr X+(1--r )x=O,8 bI5 +(1...,0,81) ·20=15,95~16


i
tt tt

Na podstawie równania 6.16 można dokonać charakterystyki estymowanego


wyniku prawdziwego: .
a) estymowany wynik prawdziwy prawie zawsze znajduje się pomiędzy wyni-
kiem otrzymanym i średnią wyników otrzymanych;
b) im większa rzetelność pomiaru testem, tym bliżej wyniku otrzymanego znaj-
duje się estymowany wynik prawdziwy;
c) im mniejsza rzetelność pomiaru testem, tym bliżej średniej wyników otrzyma-
nych znajduje się estymowany wynik prawdziwy;
d) jeśli rzetelność pomiaru testem wynosi l, to estymowany wynik prawdziwy
jest równy wynikowi otrzymanemu (bo pomiar jest bezbłędny);
e) jeśli rzetelność pomiaru testem wynosi O, to estymowany wynik prawdziwy
jest równy średniej wyników otrzymanych (bo pomiar jest całkowicie loso-
wy);
f) im bardziej od średniej odległy jest wynik otrzymany, tym bardziej zwięk­
sza się dystans pomiędzy wynikiem otrzymanym i estymowanym wynikiem
prawdziwym;
g) jeśli wynik otrzymany jest równy średniej wyników otrzymanych, to estymo-
wany wynik prawdziwy jest równy wynikowi otrzymanemu.
Powyższa charakterystyka wynika oczywiście z matematycznego podłoża re-
gresji prostoliniowej, ale można ją podsumować w dość prosty sposób: estymo-
wany wynik prawdziwy jest jakby""przyciągany" przez średnią wyników otrzy-
manych. To "przyciąganie" jest tym silniejsze, im słabszą rzetelność ma test i im
dalej od średniej znajduje się wynik otrzymany. Szczególne znaczenie średniej
nie powinno zaskakiwać, jeśli przyjmie się założenie o normalnym rozkładzie
wyników otrzymanych i prawdziwych w populacji. Średnia wyników otrzyma-
nych to najbardziej prawdopodobny wynik w próbie i w populacji. Oznacza to,
że najwięcej osób uzyskuje wyniki leżące blisko średniej. Jeśli więc ktoś uzyskał
w badaniu wynik leżący w dużej odległości od średniej, to oczywiście istnie-
196 je pewne prawdopodobieństwo, że jest to osoba mocno nietypowa (o skrajnym
6. Jakich informacji o osobie badanej dostarcza testowanie?

nasileniu cechy). Możliwe też jest, że wynik otrzymany tej osoby jest w jakimś
stopniu zniekształcony przez błąd pomiaru. Jeśli tak, to jej wynik prawdziwy
będzie z większym prawdopodobieństwem leżał po tej stronie wyniku otrzyma-
nego, która jest bliższa średniej. Innymi słowy, wyniki skrajne są mało prawdo-
podobne w populacji. Jeśli więc uda nam się napotkać osobę o takim wyniku, to
albo jest to niezwykły zbieg okoliczności, albo konsekwencja znacznego błędu
pomiaru. Im bardziej skrajny wynik, tym mniejsze budzi zaufanie. Podejście to
jest w oczywisty sposób sprzeczne z założeniem Gulliksena o niezależności błę­
du pomiaru od wyniku prawdziwego osoby.

6.1.6. Standardowy błąd estymacji wyniku prawdziwego


Standardowy błąd estymacji wyniku prawdziwego (SEE) jest odchyleniem
standardowym w rozkładzie wszystkich potencjalnych estymowanych wyników
prawdziwych dla jednej osoby. Średnia takiego rozkładu to wynik prawdziwy,
a więc im większy standardowy błąd estymacji, tym większa przeciętna odle-
głość estymowanych wyników prawdziwych od wyniku prawdziwego.
Standardowy błąd estymacji można też rozumieć jako odchylenie standardowe
w rozkładzie błędów estymacji wyniku prawdziwego. Przez błąd zwykle rozu-
miemy różnicę między wartością otrzymaną i wartością prawdziwą. W tym przy-
padku błąd estymacji będzie różnicą między estymowanym wynikiem prawdzi-
wym a wynikiem prawdziwym (równanie 6.17).

E'=T'-T (6.17)

Bląd·ęstymacji.)vYJlikupraWdZiW(!go {E/) • ·.~.ró~ica "między.~stymowalłym·. ~ni-


),<:ieITI~ra.wdziwym i Wynikię111prawdziwym.\.... . . . ... •.. . . ••. . ...... . • .• . •. . . .•.•.• •.• • • •.•. .• . . .\
Standarlłow~Nąlł.~~~.~m~cjt~yl1ik:l1prą"W(l~iw~~o (SEE) .-.przeci~tna.. pąległ9ść,
wjakiejleżąestynzowanx wynikipra~dziwe.o(I .'.Vyniku prawdziwego. Jesttq od-
Pl1ylel1ies~~nqardB"f:~"f:.rozkładziewf)zystkicl1111ożliwychdla·.ol>obYF~~9wallych
·wynikówprawdzjwy.c.h... 1u.bw rozkłądzie błędów e. stymacji wynHmpr.aw.·•..•.dz.i.w.eg. o.
" - '" ",

Standardowy błąd estymacji wyznacza się na podstawie aparatu matematycz-


nego charakterystycznego dla analizy regresji prostoliniowej. W konsekwencji
dostaj emy prosty wzór zapisany w równaniu 6.18.

SEE=F,;SEM (6.18)

Wiedząc, że współczynnik korelacji rtt jest zwykle wartością mniejszą od je-


dynki, łatwo przewidzieć, że standardowy błąd estymacji (SEE) będzie zwykle
mniejszy niż standardowy błąd pomiaru (SEM). To właśnie sprawia, że w tym 197
Andrzej Rynkiewicz

samym teście i dla tej samej osoby przedział ufi10ści wyznaczony na podstawie
standardowego błędu estymacji będzie węższy niż przedział wyznaczony na pod-
stawie standardowego błędu pomiaru. Zależność obu standardowych błędów od
współczynnika rzetelności została pokazana na rys. 6.6. Widać na nim, że linia
wykresu dla standardowego błędu estymacji jest prawie zawsze poniżej linii dla
standardowego błędu pomiaru.
Intuicyjnie można ten efekt wytłumaczyć charakterystyką estymowanego
wyniku prawdziwego. Zgodnie z jego definicją leży on zwykle bliżej średniej
niż wynik otrzymany. W rozkładzie wszystkich potencjalnych wyników otrzy-
manych dla jednej osoby średnia to wynik prawdziwy. Gdybyśmy dla każdego
z tych wyników otrzymanych obliczyli estymowany wynik prawdziwy, to zwykle
leżałby on bliżej średniej, czyli bliżej wyniku prawdziwego. W efekcie rozkład
wyników estymowanych miałby mniejsze odchylenie standardowe, czyli mniej-
szy błąd standardowy, niż rozkład wyników otrzymanych.

o~------------~.-------------~
o 0,5
r.

Rysunek 6.6. Standardowy błąd pomiaru (SEM) i standardowy błąd estymacji wyniku
prawdziwego (SEE) w funkcji współczynnika rzetelności (rtt )

Wykres dla standardowego błędu 'cpomiaru (SEM) z rys. 6.6. pokazuje typo-
wą zależność pomiędzy standardowym błędem a rzetelnością pomiaru testem.
Natomiast zależność pokazywana przez wykres dla standardowego błędu esty-
macji (SEE) jcst z pewnych względów nietypowa. Zgodnie z intuicją wielkość
standardowego błędu wykorzystywanego w psychometrii powinna monotonicz-
nie maleć wraz ze wzrostem rzetelności pomiaru testem - im dokładniejszy test,
tym mniejsze błędy popełniamy przy jego użyciu i tym mniejsze odchylenia
wyników otrzymanych od wyniku prawdziwego. W przypadku standardowego
błędu estymacji tego rodzaju zależność widoczna jest tylko w prawej połówce
wykresu dla współczynników rzetelności większych niż 0,50. Gdy rzetelność jest
198 mniejsza niż 0,50, wtedy wraz ze wzrostem rzetelności pomiaru testem wzra-
6. Jakich informacji o osobie badanej dostarcza testowanie?

sta również wielkość standardowego błędu. Na szczęście raczej nie stosujemy


w praktyce testów o rzetelności mniejszej niż 0,50, ale gdybyśmy takim testem
dysponowali, to paradoksalnie mógłby on dawać węższe przedziały ufności niż
lepszy test o współczynniku rzetelności powyżej 0,50.

6.1.7. Przedział ufności dla estymowanego wyniku prawdziwego


Przedział ten wyznaczamy według analogicznej metody co inne omawiane wcze-
śniej przedziały. Została ona zilustrowana na rys. 6.7. Szczegóły opisane są w czę­
ści dotyczącej przedziału ufności dla wyniku otrzymanego (por. rozdział 6.1.2.).

T T'
,, .
i - - - - - - - - - - - - - - -.......--"----------ł
T.z;SEE T+z:SEE

~- _____ -~~~---!-_MM~~~-~-M~I
,,, T'·z
1 G
'SEE T'1 T'1+zII 'SEE ",::5
,,
ltcs:'
1 r..------------, ~ ~ t;
...........

1'·z 'SEE
............. w __ .1.

T':2
M ~ _ w ~ _ - ...... .....

T'2+z:CI 'SEE
przedzial ufnosci dla T', a:: a: o
~81e'~
li: d:

~ S
pn:edział ufności dla T'z o~Q

Rysunek 6.7. Rozkład wszystkich potencjalnych estymowanych wyników prawdziwych


dla jednej osoby i ilustracja pojęcia przedziału ufności dla estymowanego wyniku praw-
dziwego

Jeśli przedziałsymetryczny względem wyniku prawdziwego (oznaczony na


rys. 6.7. linią ciągłą)
z określonym prawdopodobieństwem l-a obejmuje każdy
możliwy do uzyskania przez osobę estymowany wynik prawdziwy, to przedział
ufności o takiej samej szerokości, ale symetryczny względem dowolnego esty-
mowanego wyniku prawdziwego (oznaczony na rys. 6.7. linią przerywaną) bę­
dzie z takim samym prawdopodobieństwem l-a obejmował wynik prawdziwy.
Oczywiście dla diagnosty dostępna jest tylko dolna część rysunku, ale na podsta-
wie obu części - dolnej empirycznej i górnej hipotetycznej - widać, że niektóre
przedziały ufności będą obejmowały wynik prawdziwy (prawy przedział zazna-
czony linią przerywaną), a inne nie (lewy przedział zaznaczony linia przerywa-
ną). Zatem diagnosta musi się liczyć z tym, że czasem wyznaczony przez niego 199
Andrzej Rynkiewicz

przedział ufności nie będzie określał rzeczywistego nasilenia mierzonej cechy.


Jego wnioski formułowane na podstawie wyników testowych będą wtedy bł~dne.
Prawdopodobieństwo takiego błędu określone jest przez poziom istotności a.

6.1.7.1. Obliczanie przedziału ufności dla estymowanego wyniku


prawdziwego
Przedział ten oblicza się równie łatwo jak przedział dla wyniku otrzymanego.
Należy tylko pamiętać, że jest to przedział symetryczny względem estymowa-
nego wyniku prawdziwego. Zanim przystąpimy więc do wyznaczania samego
przedziału należy wcześniej obliczyć estymowany wynik prawdziwy posługując
się równaniem 6.16. Następnie obliczamy sam przedział ufności według równa-
nia 6.19. Przykład obliczell pokazany jest w ramc~.

P(T' -Za ·SEE s;. T s;. T' + Za ·SEE) = l-a (6.19)

PRZYKLAD5
Mężczyznaw wieku 22 lat uzyskał w teście wynik równy 39 punktom. Z podręcznika
do testu możemy się dowiedzieć, że jego współczynnik rzetelności obliczoriy dla pró-
by mężczyzn w tym wieku wynosi na przykład 0,69, odchylenie standardowe wyni-
ków otrzymanych jest równe 3,50, a średnia wyników otrzymanych wynosi 25. Na tej
podstawie możemy policzyć estymowany wynik prawdziwy osoby (równanie 16)

T' = 0,69· 39+ (1-'- 0,69)·25,=:34,66


standardowy błąd pomiaru (równanie 6.1)

SEM =3 r 50.jl-O,69 =1,95


oraz standardowy błąd estymaej i wyniku prawdziwego (równanie 6.18)

SEE=.jO,69·1.95=1,62. '
Zakładamy poziom istotności 0,10. Odpowiada mu wartość wystandaryzowana
zo==1,64. Możemy teraz obliczyć przedział ufności dla wyniku otrzymanego tej oso-
by.

P(34,66-1,64 ..1,62~ X,., ::; 34,66+ 1,64.1,62) == l-a

P(32,OO~ X= ~ 37,32) = l-a


Granice przedziału ufności zwykle zaokrąglamy do wartości całkowitych. Zatem wy~
nik prawdziwy osoby będzie znajdował się w przedziale od 32 do 37 punktów z praw-
dopodobieństwem 0,90.
200
6. Jakich informacji o osobie badanej dostarcza testowanie?

Przedział ufności
dla estymowanego wyniku prawdziwego zwykle nie jest
symetryczny względem wyniku otrzymanego, bo jest symetryczny względem
estymowanego wyniku prawdziwego. Czasem jednak może się zdarzyć, tak jak
w powyższym przykładzie obliczeń, że tego typu przedział ufności wręcz nie bę­
dzie obejmował wyniku otrzymanego. Taka sytuacja może zachodzić wtedy, gdy
estymowany wynik prawdziwy będzie bardzo oddalony od wyniku otrzymanego,
a więc wtedy, gdy test ma dość słabą rzetelność oraz wynik otrzymany znajduje
się daleko od średniej wyników otrzymanych. W przykładzie obliczeń oba te
warunki są spełnione.
Przedział ufności dla estymowanego wyniku prawdziwego interpretuje się
dokładnie tak samo, jak przedział dla wyniku otrzymanego. Z prawdopodobieIl-
stwem l-a ufamy, że przedział ten zawiera wynik prawdziwy.

Literatura zalecana
Anastasi A., Urbina, S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP. (Str. 150 - 155).
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
(Str. 461-466).
Homowska E. (2005). Testy psychologiczne. Teoria i praktyka. Wydawnictwo Scholar.
(Str. 63 - 69).
Magnusson D. (1991). Wprowadzenie do teorii teslów. Warszawa: PWN. (Wydanie 2:
str. 119-147).

Zadania
1.
Wynik otrzymany osoby w teście o współczynniku rzetelności 0,87 wynosi 48.
Oblicz przedział ufności przy a=O, l, gdy wiadomo, że odchylenie standardowe
wyników otrzymanych w próbie walidacyjnej wynosiło 11,5. Zinterpretuj wy-
nik.

2.
Obliczyć przedziały ufności dla podanych wyników przy a=0,05:
a) st=10; r tt=O,90; X t=55;
b) st=15; r tt=0,95; X t=60;
c) s(=2; r tt =O,85; X t=6.

3.
Przedział ufności dla wyniku otrzymanego obliczony przy a=O,05 wynOSI
<11; 19>.
a) Oblicz wynik otrzymany tej osoby.
201
Andrzej Rynkiewicz

b) Oblicz półprzedział ufności.


c) Oblicz SEM.
d) Oblicz przedział dla tej osoby przy a=O, l O.
e) Oblicz przedział dla innej osoby o wyniku otrzymanym X=17 przy a=0,15.

4.
Wyniki otrzymane dwóch osób wynoszą X A =12 i X B =17. Dane są też rItA=0,90;
rItB=0,87; sXA=4. Jakie musi być odchylenie standardowe wyników dla osoby B
(SXB)' aby górna granica przedziału ufllości dla osoby A pokrywała się z dolną
granicą przedziału ufności dla osoby B, gdyby oba te przcdziały zostały wyzna-
czone przy a=O, 1O?

5.
Współczymlik rzetelności testu wynosi 0,91. W próbie walidacyjnej średnia
wyników otrzymanych była równa 41, a odchylenie standardowe 9,3. Wyznacz
przedział ufności dla estymowanego wyniku prawdziwego tej osoby przy a=O, 10,
gdy wynik otrzymany wynosi 49. Zinterpretuj wynik.

6.
Przedział ufnościdla estymowanego wyniku prawdziwego obliczony przy a=0,05
wynosi <24; 36>.
a) Oblicz estymowany wynik prawdziwy tej osoby.
b) Oblicz półprzedział ufności.
c) Oblicz SEE.
d) Oblicz przedział przy a=0,15.
e) Oblicz przedział dla innej osoby o estymowanym wyniku prawdziwym T'= 18
przya=0,10.

7.
Estymowany wynik prawdziwy osoby w teście o współczynniku rzetelności 0,88
wynosi 34. Oblicz wynik otrzymany tej osoby, gdy wiadomo, że średnia wyni-
ków otrzymanych w próbie walidacyjnej była równa 30.

8.
Wynik otrzymany przy badaniu testem o rzetelności 0,79 wynosi 17. Jaka musi
być wartość sx, aby wynik otrzymany leżał poza granicami przedziału ufności dla
SEE, gdy średnia wyników otrzymanych w próbie była równa 12, a a=0,10?

9.
Przedział ufności zbudowany na podstawie SEM dla a=0,10 wynosi <24,3;
29,7>. Wiedząc, żc współczynnik rzetelności jest równy 0,893, a średnia wyni-
202 ków otrzymanych w próbie 31 oblicz przedział ufności dla SEE.
6. Jakich informacji o osobie badanej dostarcza testowanie?

10.
Dwie kobiety w tym samym wieku uzyskały w teście wyniki 19 i 16. Czy różnią
się one pod względem mierzonej cechy na poziomie O, l O, gdy st=3,2; rtt=0,86?
Sformułuj poprawną odpowiedź.

11.
Standardowy błąd różnicy wynosi 1,7. Ile musi wynosić różnica między wynika-
mi otrzymanymi, aby uznać ją za istotną na poziomie 0,15?

Odpowiedzi do zadań
1. <43,85; 52,15>; po zaokrągleniu <44; 52>. Wynik prawdziwy osoby znaj-
duje się w przedziale pomiędzy wynikami 44 i 52 z prawdopodobieństwem
0,90.

2a. SEM=3,2; <48,73; 61,27>; po zaokrągleniu <49; 61>.


2b. SEM=3,35; <53,43; 66,57>; po zaokrągleniu <53; 67>.
2c. SEM=O,77; <4,49; 7,51>; po zaokrągleniu <4; 8>.

3a. X=15 (środek przedziału ufności).


3b. z"SEM=4 (połowa przedziału ufności).
3c. SEM=2,04.
3d. <11,65; 18,35>; po zaokrągleniu <12; 18>.
3e. <14,06; 19,94>; po zaokrągleniu <14; 20>.

4. sXB=4,96.

5. T'=48,28; SEM=2,79; SEE=2,66; <43,92; 52,64>; po zaokrągleniu <44;


53>. Wynik prawdziwy osoby badanej znajduje się w przedziale pomiędzy
wynikami 44 i 53 z prawdopodobiellstwem 0,90.

6a. T'=30 (środek przedziału ufności).


6b. zaSEE=6 (połowa przedziału ufności).
6c. SEE=3,06.
6d. <25,59; 34,41>; po zaokrągleniu <26; 34>.
6e. <12,98; 23,02>; po zaokrągleniu <13; 23>.

7. X=34,55.

8. sx<1,56.

9. <24,87; 29,99>; po zaokrągleniu <25; 30>; 203


Andrzej Rynkiewicz

10. SEM[=SEM2=1,2; SEMD=1,69; z"SEMD=2,78; Różnica otrzymaila równa


3 jest istotna statystycznie na poziomie 0,10, a więc dwie kobiety różnią się
pod względem mierzonej cechy z prawdopodobieństwem 0,90.

11. Wartość bezwzględna różnicy otrzymanej musi być większa niż 2,45.

204
Andrzej Rynkiewicz
WYDZIAŁ PSYCHOLOGII
UNIWERSYTET WARSZAWSKI

6.2. Normy i normalizacja!

6.2.1. Norma i normy


Norma diagnostyczna to nasilenie cechy, które w populacji występuje najczę­
ściej. Przyjmując dość powszechne założenie, że większość cech psychicznych
ma w populacji rozkład normalny, można uznać, że normę w psychometrii sta-
nowi wynik równy średniej lub leżący blisko niej (rys. 6.8.). Zwykle bierze się
tu pod uwagę przedział wyników, uznając, że norma nie może się ograniczać
tylko do pojedynczej wartości równej średniej arytmetycznej. Jest to przedział
zawsze symetryczny względem średniej, ale jego szerokość jest raczej uznanio-
wa. W medycynie, dziedzinie zajmującej się wykrywaniem i leczeniem zabu-
rzell, osobę o nasileniu cechy leżącym poza normą często uznaje się za chorą.
Zatem w tym przypadku przedział określany jako norma musi być dostatecznie
szeroki i obejmować znaczną część osób z populacji. W obszarach psychologii,
które nie zajmują się zagadnieniami klinicznymi norma może mieć zakres nieco
węższy. Pełni ona wtedy rolę systematyzującą. Diagnosta może ocenić, że ma do
czynienia z osobą typową na tle populacji, gdy jej wynik znajduje się w przedzia-
le normy, lub z osobą o nasileniu cechy nieco wyższym lub niższym niż typowe.
Nie jest to jednak równoznaczne z oceną na wymiarze zdrowy-chory. W tego
rodzaju sytuacjach często przedział wyników zbliżonych do średniej określa się
jako "przedział wyników przeciętnych". Unika się w ten sposób oceniającego
charakteru słowa "norma" i skojarzenia z epitetem "nienormalny".
W diagnostyce psychologicznej zwykle przyjmuje się, że przedział przecięt­
ny obejmuje wyniki oddalone od średniej nie bardziej niż o jedno odchylenie
standardowe. Można sobie jednak wyobrazić, że w określonych okolicznościach
diagnosta przyjmie inne granice przedziału normy. Mogą być one usytuowane
nieco dalej od średniej i wtedy norma będzie miała charakter bardziej liberalny.
W takiej sytuacji więcej osób niż zwykle uznamy za typowe. Natomiast za odbie-
gającą od nonny pod jakimś względem uznamy osobę o rzeczywiście skrajnym
wyniku.
Granice normy można też zawęzić. Wtedy powstanie norma elitarna - tylko
stosunkowo nieduża grupa osób zostanie uznana za typową. Manipulowanie szc-
rokością przedziału wyników typowych nie jest oczywiście operacją zalecaną,
ale w rÓŻnych okolicznościach może być ona podyktowana przesłankami o cha-
rakterze ekonomicznym, formalnym, politycznym lub innym.
I Praca nad rozdziałem była finansowana ze środków na badania statutowe 1fYdzialu Psychologii
UW w 2008 roku. 205
Andrzej Rynkiewicz

-3 -2 -1 o 2

Rysune k 6.8. Normalny rozkład hipotetycznej cechy psychicznej i ilustracja pojęcia nor-
my

Norma - przeqziął~kreślający nasilenie cechy, które w populącji .Występu


je najczę~
ściej,
Normy - statystyąznyukład odnitlsienia, kt6rypo zwala precyzyjnie określić
nasile-
nie cechydąnejo$oby ~zslęqemjnnychosób2;populacji. Normy zwykle1
l1ająpqstać
tabel shlżących~opt:.r:elic.zanja wyników surowych na jeąnostki specją~
nej skal~.

Znając granice przedziału uznanego za nonnę, można


powiedzieć na podstawie
wyniku testowego, że nasilenie cechy danej osoby jest typowe, niższe lub
wyższe
niż typowe. Czasami jednak zachodzi potrzeba bardzie
j precyzyjnego różnico­
wania. Nie zawsze zadowalające jest stwierdzenie, że nasilenie cechy
osoby ba-
danej jest na przykład wyższe niż typowe. Diagnostę może interesować
również
to, o ile jest wyższe. Można się tu posłużyć standaryzacją i za jednos
tkę uznać
odchylenie standardowe. Stwierdzenie, że wynik konkretnej osoby jest
wyższy
od średniej o 2 odchylenia standardowe daje możliwość dokładniejszego
uchwy-
cenia odległości między wynikiem otrzymanym a średnią wyników w
próbie czy
populacji. Jest to infonnacja dość precyzyjna, ale może też mieć bardzie
j uży­
teczną interpretację. Na podstawie charakterystyki
rozkładu normalnego można
sprawdzić, że wyniki takie, jak ta osoba lub jeszcze
wyższe uzyskuje zaledwie
nieco ponad 2,5% osób z populacji. Jest to więc wynik bardzo wysok
i na tle
tej populacji. Dla takich precyzyjnych diagnoz musimy dysponować
nonnami,
czyli statystycznym układem odniesienia, a proces, który umożliwia stworz
enie
systemu norm, to tak zwana norma lizacja . Jest on możliwy tylko wtedy,
gdy
empiryczny rozkład wyników testowych w próbie jest co najmniej podobn
y do
rozkładu normalnego. Jeśli tak nie jest, to pozostają
nam kwant yle, czyli normy
o charakterze procentowym pokazujące frakcje określonych wyników
w próbie.
Wszystkie te rodzaje norm zostaną szczegółowo opisane dalej.
206
6. Jakich informacji o osobie badanej dostarcza testowanie?

6.2.2. Standaryzacja
Z racji tego, że normy stanowią statystyczny układ odniesienia, przy ich kon-
strukcji należy odwoływać się do wyników testowych uzyskanych przez próbę
osób reprezentujących populację (próba reprezentatywna). Próba taka powinna
obejmować wystarczająco dużo osób wylosowanych z populacji. Tylko czyste
losowanie wystarczająco dużej liczby osób daje próbę reprezentatywną ze wzglę­
du na wszystkie zmienne. Jednak dość często procedurę losowania zastępuje się
tańszymi i mniej czasochłonnymi metodami doboru kwotowego, gdzie z góry
zakłada się określona strukturę próby pod względem najbardziej pożądanych
zmiennych (np. płeć, wykształcenie). W konsekwencji próba taka jest mniejsza
(a więc wygodniejsza), ale niekoniecznie reprezentatywna ze względu na pomi-
nięte przy jej planowaniu zmienne.

Popbla~Ja--,zpiorowosć'wszystkiCii ,osóh .(takZeosobriików . ··lub . ()pie~tów), które


spelrtiająolQ-eślohektyterlum (np .. wSzyscy Polacy płci 111ęskiejwwieku 20-40 ·Iat).
Populacjanh,mllsibyć duża (np •. wszyscy Polacywwiektl pOwyzej nO lat), ale ata"'
tystykawł~Ściwiezajril(jJe się (ylkopbpuhtcjathi bardzo dużymi, w których pomiar
pezpośte4ni jest . •. tt;tc\py • ,do.realiz~ji .• Dl~wygody •. stoso\yani~~odeli mat~fu~tycz­
nych.częstoprzyjmuje się, że interesująca.nas.populacja·rriaJic2;ebnośćniesk:Ol1czenie
wielką.. ....... ,.... •. ,..... . . . . ,. . . . . . . . .......... . . . . ····.·..i •.
Próba "";częśćpopulacjf oogr~niczonej izwy kl~ .11iedużeJ lićzebności.
Próbarepr~zentatywna, .-•• próba:.którajest odzwiercied1enieth. populacjif)od wzglę-
. dem struktury wszystkich ~miennych. UzyskUjemy ją np:poprzez los0-wanie określo-
l1ej>liczby osó~lzpopulacJL . ..
PfóbanormaHzllcyjna"'repreZeritatywnapróbaosób;którychvvynikjteśtowę>są
podstawą do sporządzenianotth do testu,

Pierwszy etap procedury normalizacyjnej sprowadza się do prostej standary-


zacji wszystkich wyników z próby. Każdy wynik otrzymany Xi zamieniamy na
wynik wy standaryzowany Zj według równania 6.20.

X-x
Zi = ----'l __ (6.20)
S

~ta~daryzaejaj.eSf.·zaIlliari~M'niku . ~ur~wego·na •.wrnikWiględl1ypÓkaz~jący ..odle.


głośf o~JŚreqiliejwjęlłfio,~tkach~cljylen~astandardp""ęgo. .

Wynik wystandaryzowany Zj pokazuje nam, jak daleko od średniej i w któ-


rym kierunku leży wynik otrzymany osoby. Jako jednostki używamy odchylenia
standardowego. Wynik wystandaryzowany z= 1 oznacza, że odpowiadający mu
207
Andrzej Rynkiewicz

wynik surowy jest wyższy od średniej o wielkość równą l odchyleniu standar-


dowemu. Analogicznie wynik wystandaryzowany z=-1,5 oznacza, że wynik su-
rowy znajduje się po lewej stronie względem średniej w odległości równej 1,5
odchylenia standardowego. Jeśli wynik surowy jest równy średniej, to odpowia-
dający mu wynik wystandaryzowany będzie równy o. Zatem to,jakajest pozycja
wyniku surowego na tle próby zależy zarówno od średniej, jak i od odchylenia
standardowego wyników w tej próbie. Ilustruje to przykład 1.

PRZYKŁAD 1
Porównanie. wyąików wystandaryzowa~ych W grupach' o różnych srednich .
Mężczyzna i kobieta uzy~kali tak:lsam wynik surowy w. teście róWny. 30. Wśród
wszystkich badapychmężczyzn przeciętny wynik 'równy był 33, a: wśród kobiet
27. Odchyleniest~tndardo'we w obu próbach było takie samo rÓwne 3. Żeby ustalić
względtlą' pozycję obu tych osób na tle ich własnych grup,naleZy .wystandary;;:;ować
ich wyniki posługując się równaniem 6.20. .

30-33 .. . 3 0 - 2 7 ..
mężczyzna.: zm.:;;:;
, .. . .d3. ..=-1 kobieta:
' Zk ;;:;
.. 3· ='+1
Wynik luężczy:<:nyjest wyraźnie niższy od przeciętnego dla męzczyzn. a wynik kobie-
tywyrąźQięwy~ftzyod przeciętn,ego dlakobj~t.. Pomimo tęgo, że obie osoby uzy~kały
ten sam wynik surowy w teście, to z powódu różnicy w średnich względny poziom
cechy mężczyzny jest niższy nit względny poziom cechy kobiety.
PorÓwnanie wyni){ów wystandaryzowanych w grupach o różnych~)(:Icbyleniach
standardowyc~
Mężczyzną ~. kobieta· Uzyskali taki sam· wynik surowy w· teście rówrty30 ~ ,Wśród
W!:izystkicqbaganych Qsób przeciętny wyp,iktówny był 27. Odchylenie~t,llldardowe
w próbiemężc;?iyzn było równe ~, a W próbie kobiet 6. ZtlQw żeby ustalić względnl:l
pozycję obu tych osób na tle ich własllych gmp, należy wystapdaryzowaćich wyniki.
c. ' , • • ,~ •• '. ,. ' •• , .' • .,

. '30-27 ... 30..:..27


mężcz.yzna.: zm··.=:t····
. 3 ·=+1
...
· kobieta:>. Zk =. . 6. .. ::::;; +0,5
,.

WYl1ikmężczyzny jest wyraźnie wyższy od przeCiętnego dla mężczyzn, a wyntIc ko-


biety. tylkotrochęwyż~zyod przeciętnego dla kobiet POluimo tego, że obie osoby
uzyskały ten ęam wynik surowy w teście, to z powodu różnicy w odchyletliach stan-
~rdowych. względny poziom· cechy mężczyzny j~st wyższy. niż względny poziom
cechy kobiety.· . . . . ..

Odchylenie standardowe, którym posługujemy się przy ocenie względnej po-


zycji osoby na wymiarze jakiejś cechy jest jednostką całkowicie dla człowieka
208 naturalną. Niezależnie od tego, czy ktoś zna podstawy statystyki czy nie, to do-
6. Jakich informacji o osobie badanej dostarcza testowanie?

konując porównań między ludźmi intuicyjnie posługuje się jakąś miarą zróżnico­
wania w grupie odniesienia, czyli miarą podobną do odchylenia standardowego.
Załóżmy, że obserwujemy dwie grupy osób, w których przeciętny wzrost jest
taki sam, ale różnią się one odchyleniem standardowym - w grupie A osoby mają
wzrost bardzo podobny w granicach od 170 cm do 174 cm, a w grupie B osoby
różnią się wzrostem wyraźnie w granicach od 164 cm do 180 cm. W tych warun-
kach osobę o wzroście 178 cm uznamy na tle grupy A za bardzo wysoką, a na tle
grupy B po prostu za wysoką. To, czy opiszemy kogoś jako bardzo odstającego
od reszty osób zależy w dużej mierze od zróżnicowania cechy w grupie, która
stanowi układ odniesienia.

6.2.3. Normalizacja
Wyniki wystandaryzowane dają już pewną orientację w odległości wyniku
otrzymanego osoby badanej od średniej w próbie. Interpretacja może być jesz-
cze bardziej użyteczna, gdy uwzględni się charakterystykę rozkładu normalnego.
Pojawia się wtedy możliwość wyznaczenia częstości lub prawdopodobieństwa,
które precyzyjnie pokazuje pozycję osoby badanej wśród wszystkich osób w po-
pulacji. Należy zatem przyjąć, że wyniki otrzymane z danego testu miałyby w po-
pulacji rozkład nonnalny. Możliwe jest oczywiście, że w próbie reprezentującej
tę populację rozkład wyników będzie nieco odbiegał od nonnalnego, ale jeśli to
zniekształcenie jest małe, możnaje przypisać błędowi wynikającemu z niedosko-
nałego losowania próby.
Normalizacja jest nieliniowym przekształceniem rozkładu wyników. Można ją
sobie wyobrazić graficznie jako "naciąganie" rozkładu empirycznego tak, żeby
przyjął kształt rozkładu nonnalnego. Z tego widać, że aby nie zostać posądzo­
nym o manipulowanie wynikami nie powinno się dopuścić, by to "naciąganie"
było zbyt duże. Będzie ono małe, gdy rozkład empiryczny przypomina mode-
lowy rozkład nonnalny. Nie zaleca się więc wykonywania nonnalizacji, gdy
rozkład empiryczny wyników testowych w próbie nonnalizacyjnej jest mocno
zniekształcony.
Typowa procedura nonnalizacji wyników hipotetycznego testu przedstawiona
jest w tabeli 6.2.
W kolumnie (1) tabeli 6.2. zapisano wyniki otrzymane w teście. Na ich podsta-
wie widać, że przebadane osoby wykazują dość małą wariancję wyników, ponie-
waż nikt w grupie nie rozwiązał mniej niż 24 ani więcej niż 33 zadań. W kolumnie
(2) zapisana jest liczebność poszczególnych wyników (jak dużo osób uzyskało
konkretny wynik). Kolumna (3) to liczebność skumulowana, czyli liczba osób,
które uzyskały dany wynik lub niższy. Liczebność skumulowana 18 dla wyniku
27 oznacza, że w sumie 18 osób uzyskało wynik 27 lub niższy niż 27. Ostatnia
wartość w kolumnie (3) to całkowita liczebność próby.
209
Andrzej Rynkiewicz

Tabela 6.2. Normalizacja wyników testu. Przebadano 50 osób. Test ma 60 zadań, a więc
osoba może uzyskać odO do 60 punktów. Opis obliczeń w tekście poniżej

wyniki w próbie normalizacja


(1 ) (2) (3) (4) (5) (6)
liczebność
X liczebność skiJmulo- I.s. środka proporcja z
wana
24 1 1 0,5 0,01 -2,33
25 3 4 2,5 0,05 -1,65
26 5 9 6,5 0,13 -1,13
27 9 18 13,5 0,27 -0,61
28 12 30 24 0,48 -0,05
29 8 38 34 0,68 0,47
30 6 44 41 0,82 0,92
31 3 47 45,5 0,91 1,34
32 2 49 48 0,96 1,75
33 1 50 49,5 0,99 2,33

Kolumn~ (4) zawiera liczebności skumulowane liczone dla środka przedziału.


Kolumna ta jest konieczna, gdy zakłada się, że mierzona zmienna ma w rzeczy-
wistości charakter ciągły. Wtedy każdy wynik uzyskany w badaniu należy trakto-
wać jak przedział teoretycznych wartości. Np. wynik 28 jest etykietą dla wszyst-
kich wartości w granicach od 27,5 do 28,5. Szerokość tego przedziału zależy od
jednostki pomiaru - im większa jednostka, tym szerszy będzie przedział. Jest to
naturalna konsekwencja pomiaru zmiennej narzędziem o nieidealnej dokładno­
ści, a więc nie ogranicza się ona wyłącznie do testów psychologicznych. Jeśli
w przypadku pomiaru wzrostu osób zostanie zastosowana miarka z podziałką
w centymetrach, to może się zdarzyć, że kilku osobom przypiszemy wynik 172
cm. Nie musi to jednak oznaczać, że wszystkie te osoby mają identyczny wzrost.
Różnice między nimi mogą być tak małe, że miarka o jednostce równej 1 cm ich
nie wykryje. Należy więc uznać, że wynik 172 cm oznacza wzrost w zakresie
od 171,5 do 172,5, bo w przypadku wszystkich osób o rzeczywistym wzroście
w tym właśnie zakresie zastosowana miarka wskaże wynik 172.
Dodatkowo niezbędne jest tu założenie o równomiernym rozkładzie wszyst-
kich teoretycznych wyników wewnątrz przedziału. Np. wynik 28 przypisano
w sumie 12 osobom. Ich wyniki teoretyczne są równomiernie rozrzucone na od-
cinku całego przedziału od wartości 27,5 do 28,5. Na rys. 6.9. widać, że poniżej
środka tego przedziału znajdują się wynik sześciu osób. Zatem wartość, którą
trzeba wpisać w kolumnie (4) dla wyniku 28 to liczba osób, których wyniki leżą
210 poniżej środka w przedziale 28 (jest ich 6) i we wcześniejszych przedziałach (jest
6. Jakich informacji o osobie badanej dostarcza testowanie?

ich W sumie 18). Licząc tę wielkość zawsze do połowy liczebności z kolumny (2)
dla danego wyniku dodaje się całą liczebność skumulowaną z kolumny (3) dla
wyniku niższego.

27 28 29
27,5 28,5

II IIIIIii IIIIIII
Rysunek 6.9. Równomierny rozkład wyników w teoretycznym przedziale dla wyniku 28
z tabeli 6.2.

Zmienną. ciągła. :tóziUielłIla, k~Ófa może przyjfuoWaĆ niesko~czeniewiele wartości.


PolIliędzydwiema dowolnymi wattościamizmiennej ciągłej znajduje się zawsze co
najni~iej.jednawatt?ś~.po$rednia.
Zmienna tłrs~retna (skokoWll)-tozmiel1l1tl, kt6ta ll1oz.e przyjmować nieskończoIlą
lubskończonąliczbęptzeliczalnych(odsepatowanych) wartości. ',I>?międZY'dWiema
wartbśdami zmienneJdysktetnej', odległymi b JednoStkę riiemoże istniećWattbść poc
śtedpi!i,Jednostkatakiejzmleni1ejtdnajfuniejszaWykryWalua t6znica. Póiniar jakiej-
kolwiekzfiłiennej sprawia, że staje się onazmiennąclysktetną.

W kolumnie (5) tabeli 6.2. znajduje się proporcja jaką stanowi zapisana w ko-
lumnie (4) liczebność skumulowana dla środka przedziału względem całej próby.
Aby ją policzyć należy liczebność skumulowaną z kolumny (4) podzielić przez
liczebność próby znajdującą się w ostatnim wierszu kolumny (3). Dla wyniku 28
ta proporcja to 24/50=0,48. Może być ona traktowana jak prawdopodobieństwo
wylosowania z próby osoby z wynikiem równym lub niższym niż środek danego
przedziału.
Do tego miejsca wszystkie obliczenia wykonywane były wyłącznie na bazie
empirycznych wyników z próby. Nie wiązały się one z żadnymi nieliniowymi
przekształceniami. Oznacza to, że proporcje z kolumny (5) dokładnie odzwier-
ciedlają rozkład liczebności z kolumny (2). Jednak nOffi1alizacja prawie zawsze
powoduje przekształcenie rozkładu. Zachodzi ono na tym etapie procedury, który
w tabeli 6.2. zaznaczony jest podwójną linią pionową. Po jej lewej stronie zapi-
sany jest realny obraz wyników w próbie, a po prawej obraz teoretyczny będący
konsekwencją normalizacji.
W kolumnie (6) zapisane są wartości Zi odpowiadające prawdopodobieństwom
z kolumny (5) w teoretycznej dystrybuancie rozkładu normalnego. Dystrybuanta
to funkcja, która dla podanego nasilenia cechy zwraca prawdopodobiellstwo
tego, że z populacji wylosujemy osobę o takim właśnie nasileniu cechy lub niż­
szym. Wartość dystrybuanty jest więc prawdopodobieństwem skumulowanym.
W procedurze normalizacji prawdopodobieństwo to utożsamia się ze skumulo- 211
Andrzej Rynkiewicz

waną proporcją liczebności, która w tabeli 6.2. zapisana jest w kolumnie (5).
Na podstawie tablic dystrybuanty rozkładu normalnego dostępnych w każdym
podręczniku do statystyki można wykonać również operację odwrotną. Znając
prawdopodobieństwo skumulowane, można wyznaczyć odpowiadające mu na-
silenie cechy. Będzie ono przedstawione w postaci wartości Zj, a więc w postaci
wyniku znormaliilOwanego.

Wyniki··.ZIlOI"~~li~?~an~.;-iwYl1iki.qgPO~iądają~e>surowtglWynikom. otr~tm(lnYlll
lla·p()dsta)Yi~iiT~ •. t~e~zrvi~.tej . (ri!k\\lęrcji· • ·.·~;iją:.8~r.t~ką:~~mą>jedlł()stk~ ·S8\Myn i1u · ·
\\ly~tllwt~~@()\\l~~f~I~I~'m'llilti . ()rg1ttl~!?()\lIani! • I;,!w~zep~~jm\1ją.r()zldadllorrąalny
ijęzwzgJę<l~rnag;ęęzyWi~w: łt WyWkó\M. ęlllpiryęznyęh(~uro\MYęllJ·

Warto zwrócić uwagę, że wyniki znormalizowane są wyznaczane na podstawie


obserwowanych w próbie frekwencji. Na podstawie charakterystyki dystrybuan-
ty wiadomo, że wynik znormalizowany równy Obędzie odpowiadał prawdopo-
dobieństwu skumulowanemu wynoszącemu 0,5. Zostanie on więc przypisany ta-
kiemu wynikowi surowemu, którego środkowa liczebność skumulowana będzie
równa połowie całkowitej liczebności w próbie. Ten wynik surowy to mediana.
Innyl1Ji słowy, średni wynik znonnalizowany jest zawsze równy medianie wyni-
ków surowych. W specyficznych sytuacjach może się więc zdarzyć, że średni wy-
nik znonnalizowany nie będzie równy średniemu wynikowi surowemu. Będzie
tak wtedy, gdy średnia wyników surowych nie będzie pokrywała się z medianą,
a więc wtedy, gdy rozkład wyników surowych nie będzie symetryczny. W przy-
padku normalizacji zawsze trzeba liczyć się z tym, że w konsekwencji dostanie
się rozkład nonnalny, ale niekoniecznie dopasowany do rozkładu rzeczywistych
wyników surowych. Przykłady takich zestawień o mniejszym lub większym nie-
dopasowaniu pokazane są na rys. 6.10.

212
6. Jakich informacji o osobie badanej dostarcza testowanie?

25

~20
!}
!. 15

al
~
ł 10

30

i' 25

b)
!20
·u
'3" .
c:
1110 .
~

1
1·1,6
>5 O,tl5
Ci'
0.40 :~

i'20 0.35 i
<:;:.

li 0,30 ..

i
~ 15,
c)
'c>
'0.26 'm
'3 020
ł 10
0,15
...
~ S 0, 10 1
0,05 ; .

Rysunek 6.10. Rozkłady empiryczne wyników surowych (s/.upki) o kształcie prawie nor-
malnym (a), skośnym (b) i dwuwierzchołkowym (c) oraz odpowiadające im rozkłady wy-
ników znormalizowanych (linia). Pod każdym wykresem podane są wyniki surowe oraz
odpowiadające im wyniki znormalizowane, Na lewej osi pionowej zaznaczone są liczeb-
ności poszczególnych wyników surowych (słupki), a na prawej prawdopodobieństwa dla
wyników znormalizowanych (linia). Dolna pionowa strzałka na wykresach pokazuje śred­
nią dla liczebności (słupki), a górna średnią dla prawdopodobieństw (linia)

Na rys. 6.10. pojawiła się wielkość, której nie zawiera tabela 6.2. Jest to za-
znaczone na prawej osi pionowej prawdopodobieństwo uzyskania określonego
wyniku znormalizowanego. Jeśli na wykresie w części a) rys. 6.10. wynikowi
surowemu 5 odpowiada liczebność 22 (lewa oś pionowa), to w kontekście pozo-
stałych wyników odpowiada mu wynik znormalizowany z=O. Jest tak dlatego,
że wynik surowy 5 stanowi medianę całego zbioru wyników. W tablicach rozkła-
du normalnego (funkcja gęstości lub rzędna krzywej znormalizowanej) można
odczytać wartość prawdopodobieństwa odpowiadającego wynikowi znormali- 213
Andrzej Rynkiewicz

zowanemu z==O. Ta wm10ść to ok. 0,39. W podobny sposób zostały wyznaczo-


ne prawdopodobieństwa dla pozostałych wyników. Na ich podstawie powstał
wykres liniowy na rys. 6.10. Rysunek ten pokazuje więc dopasowanie rozkładu
liczebności wyników surowych (słupki) do rozkładu prawdopodobieństw odpo-
wiadających im wyników znonnalizowanych (linia).
Na rys. 6.10. najlepsze dopasowanie rozkładów widoczne jest na wykresie (a).
Jest to przypadek najkorzystniejszy, bo wyniki surowe tworzą w próbie rozkład
prawie normalny. Normalizacja stanowi wtedy tylko nieznaczne zniekształcenie
obrazu rzeczywistości. Średnia wyników znormalizowanych (z=O) jest idealnie
równa średniej wyników surowych (x=5). Również prawdopodobieństwa wystą­
pienia poszczególnych wyników znormalizowanych sąproporcjonalne do liczeb-
ności dla odpowiednich wyników surowych. Np. w części a) rys. 6.10. wynikowi
surowemu równemu 5 (średnia) odpowiada największe prawdopodobieństwo
w rozkładzie znormalizowanym (linia) oraz największa liczebność w rozkładzie
empirycznym (słupki). Dzięki temu posługując się wynikami znonnalizowanymi
można prawie idealnie odtworzyć obraz rzeczywistości przedstawiony w postaci
wyników empirycznych.
Dppasowanie wykresów nie jest już natomiast takie dobre w przypadku opi-
sywanym w części b) rys. 6.10. Wyniki surowe przyjmują tutaj rozkład prawo-
skośny. Oznacza to, że w próbie zjakichś względów było więcej wyników niskich
niż wysokich. Przyczyny takiego zjawiska mogą być różne. Jeśli test zdolności
jest zbyt trudny, to większość osób rozwiąże tylko początkowe stosunkowo łatwe
zadania, a nie poradzi sobie z pozostałymi. Jeśli kwestionariusz zawiera pozy-
cje odnoszące się do spraw wstydliwych, to większość osób może zareagować
oporem lub skrępowaniem i zaznaczać głownie odpowiedzi "NIE", uzyskując
tym samym wyniki niskie. W większości przypadków skośny rozkład wyników
pojawia się jako konsekwencja błędów w konstrukcji testu lub w doborze pró-
by nonnalizacyjnej. Możliwa, ale raczej rzadka, jest jednak sytuacja, w której
skośny rozkład wyników w próbie będzie odzwierciedleniem rzeczywistego roz-
kładu zmiennej w populacji. Przykładem takiej zmiennej jest Psychotyczność
w koncepcji PEN Hansa Eysencka, którą mierzy się przy użyciu popularnego
kwestionariusza EPQ-R.
Gdy wykonuje się nonnalizację wyników surowych o rozkładzie skośnym
(jak na rys. 6.10., część b», to średnia wyników znormalizowanych będzie rów-
na medianie wyników surowych, ale nie będzie równa ich średniej. W związku
z tym prawdopodobieństwa wystąpienia wyników znonnalizowanych nie będą
proporcjonalne do liczebności odpowiednich wyników surowych. Na rozkładzie
znonnalizowanym (linia) najbardziej prawdopodobny jest wynik równy średniej
(z=O), a na rozkładzie empirycznym najliczniejsze są wyniki równe modalnej
(x=2). W konsekwencji na podstawie nonn diagnosta uzna za typowy wynik,
214 który w rzeczywistym układzie odniesienia wcale typowy niejest.
6. Jakich informacji o osobie badanej dostarcza testowanie?

Efekt zniekształcenia jest jeszcze silniejszy w sytuacji zilustrowanej w czę­


ści c) rys. 6.10. Przedstawiony jest tu dwuwierzchołkowy rozkład wyników
surowych. Powstaje on najczęściej, gdy próba nie jest jednolita pod względem
istotnego dla mierzonej zmiennej czynnika. Może to być np. próba składająca
się prawie wyłącznie z dzieci 7-letnich i 14-letnich. Jeśli przedmiotem pomiaru
będzie inteligencja, to oczywiste jest, że 7-latkowie mają niższy jej poziom niż
14-latkowie. Lewy wierzchołek rozkładu empirycznego (słupki) w części c) rys.
6.10. odpowiada więc średniemu poziomowi inteligencji dzieci 7-letnich, a pra-
wy śrcdniemu poziomowi inteligencji dzieci 14-letnich. Oczywiście konstruktor
testu powinien na tej podstawie dokonać rozdziału próby na dwie podgrupy we-
dług wieku, bo wiek dzieci z oczywistych względów ma olbrzymie znaczenie dla
mierzonej inteligencji.
Normalizacja wyników surowych O rozkładzie dwuwierzchołkowym daje
znaczne niedopasowanie norm do obrazu rzeczywistości. Średnia rozkładu znor-
malizowanego (z=O) odpowiada w tym przypadku średniej rozkładu empirycz-
nego (x=5), bo rozkład dwuwierzchołkowy jest tutaj symetryczny, ale prawdo-
podobieństwa wcale nie są proporcjonalne do liczebności. Na podstawic norm
(wykres liniowy na rys. 6.10, część c)) diagnosta uzna za typowy dla populacji
wynik surowy 5, któremu przypisano wartość znormalizowaną z=O. Natomiast
z rysunku widać, że wynik ten jest jednym z naj rzadszych w próbie.

6.2.4. Skale znormalizowane


Wyniki znormalizowane w postaci jednostek Zi mogą być czasem niewygodne
w użyciu. Po pierwsze dlatego, że mylą się z oznaczanymi w ten sam sposób wy-
nikami wystandaryzowanymi. Różnica między nimi jest zasadnicza i została już
wcześniej wyjaśniona. Po drugie, wyniki znormalizowane mogą występować ze
znakiem ujenmym. Gdy w tej postaci dotyczą nasilenia cechy, mogą sugerować,
że to nasilenie jest mniejsze od zera. Nie jest to oczywiście wielki kłopot, bo
łatwo się do takiej konwencji przyzwyczaić, ale u nmiej wprawnych diagnostów
może w takich sytuacjach powstawać mylne wrażenie, że ujemne nasilenie cechy
jest bezwzględnie gorsze niż dodatnie. Po trzecie, wyniki znormalizowane mają
bardzo dużą dokładność. Paradoksalnie może to być ich wadą, bo dokładność
wyników w tym przypadku wcale nie odzwierciedla dokładności narzędzi po-
miarowych. Efekt wygląda mniej więcej tak, jakbyśmy próbowali ocenić długość
przedmiotu metodą "na oko", podając wynik w mikrometrach. Uzasadnione jest
więc w przypadku testów psychologicznych zwiększenie jednostki pomiarowej.
Z opisanych powyżej powodów, autorzy testów często decydują się na przed-
stawienie norm testowych w postaci tzw. skal znormalizowanych. Zakres takich
skal zwykle zaczyna się od zera lub jedynki. Ich jednostki mają postać prze-
działów, a więc dysponują większą ("grubszą") jednostką pomiarową. Z grubsza
każdy przedział obejmuje taki sam zakres wyników znormalizowanych, ale ten 215
Andrzej Rynkiewicz

zakres może być różny dla różnych skal (np. pojedyncza jednostka skali znor-
malizowanej może obejmować wyniki znormalizowane od z=0,5 do z=I). Bez
problemu można więc przeliczyć dowoh1Y wynik znormalizowany podany w jed-
nostkach Zj na dowolną skalę znormalizowaną i odwrotnie. Jest to przekształce­
nie liniowe i nie zmienia kształtu rozkładu wyników.
Jednostki skali znonnalizowanej, stanowią niepodzielne przedziały. Jeśli dia-
gnosta decyduje się na stosowanie takiej skali, to powinien uznać jej jednostkę
za najmniejszą możliwą. W konsekwencji sens tutaj ma posługiwanie się tylko
liczbami całkowitymi. Wyników w żadnej ze skal znormalizowanych nie można
podawać w ułamku.
Dalej przedstawiona jest charakterystyka najpopularniejszych skal znormali-
zowanych.

6.2.4.1. Skala staninowa


Skala ta ma zakres od l do 9 - stąd jej nazwa (ang. standard nine). Średnia
skali zawsze wypada w jej środku, a więc dla skali staninowej średnia jest równa
5-tej staninie. Odchylenie standardowe skali wynosi 2, tak więc pojedyncza sta-
nina ma szerokość równą połowie odchylenia standardowego. Na tej podstawie
granicom każdej staniny można przypisać odpowiadające im wyniki znormalizo-
wane (rys. 6.11.).

śre!lnia +.';z.~.. ~.~~~~.i,~~",


wartość z -1,75 -1,25 -0,75 -0,25 J,0,25 0,75 1,25 1.+5
-----+I---+--~I--~I~-~I~~~I--~I---+I-----
stan/na 2 3 4 5 6 1 7.t.."._."
1__8 1 9 w • • • ~___ . . __ • • __ .~

O,5z O,5z

Rysunek 6.11. Skala staninowa

W innym miejscu tego rozdziału wspomniałem, że najczęściej za normę uzna-


je się wyniki leżące w odległości najwyżej jednego odchylenia standardowego od
średniej. Na skali staninowej nie da się jednoznacznie określić takiego przedziału.
Może on obejmować staniny od 3 do 7 - wtedy przedział wyników przeciętnych
będzie miał zakres nie od -lz do + lz, tylko od -1,25z do + l ,25z. Inna możliwość
to staniny od 4 do 6 i wtedy zakres będzie odpowiednio mniejszy od -0,75z do
+0,75z. Decyzja, którą z opcji wybrać, należy w tym przypadku do diagnosty.
Krańcowe jednostki skali, a więc staniny l i 9 są przedziałami otwartymi.
Wszystkie wyniki oddalone od średniej o więcej niż 1,74z w lewo zaliczamy do
l staniy, a wszytkie oddalone o 1,75z w prawo do 9 staniny. Zatem użytkowy za-
kres skali staninowej, czyli zakres, w którym skala jest w stanie różnicować dwie
osoby o różnym nasileniu cechy, obejmuje wyniki znonnalizowane od z=--I,75
216 do z=I,75.
6. Jakich informacji o osobie badanej dostarcza testowanie?

6.2.4.2. Skala stenowa


Skala ta ma zakres od 1 do la (ang. standard ten). Odchylenie standardo-
we podobnie jak w skali staninowej wynosi 2. Średnia natomiast zlokalizowana
jest dokładnie w środku skali, a więc leży pomiędzy stenem 5 i 6 (rys. 6.12.).
Najczęściej można spotkać zapis, że średnia skali stenowej wynosi 5,5. Jest to
jednak tylko oznaczenie niemające statusu liczby, bo wcześniej stwierdziłem, że
jednostki skal znormalizowanych są niepodzielne i że ułamki w tym przypadku
nie mają interpretacji. Co więcej, granica pomiędzy stenami ma tylko znaczenie
teoretyczne. Nie ma takiego wyniku, który leżałby dokładnie pomiędzy stenami.
Każdy wynik musi należeć do któregoś stena. Zgodnie z procedurą, która zosta-
nie przedstawiona poniżej wynikowi znormalizowanemu z=O, a więc wynikowi
odpowiadającemu średniej, zostanie przypisany 6 sten.

wartość z -2 -1,5 -1 -0,5


średnia
; 0,5 r .. ..
1z. 2 steny
··~·~~ ····~
I I I I
sten 2 3 4 5
O,5z 0,5z

Rysunek 6.12. Skala stenowa

W przypadku skali stenowej bardzo łatwo jest wyznaczyć przedział obejmują­


cy wyniki typowe - od 4 do 6 stena. Takie wyniki w diagnozie psychologicznej
zostaną najczęściej uznane za normę.
Podobnie jak w skali staninowej, krańcowe jednostki, a więc steny 1 i 10, są
przedziałami otwartymi. W związku z tym skala stenowa różnicuje wyniki osób,
jeśli nie są oddalone od średniej bardziej niż o 2 odchylenia standardowe.

6.2.4.3. Skala tenowa


Skala tenowa ma bardzo duży zakres użytkowy i bardzo małą i dokładnąjed­
nostkę. Jest to skala 100 punktowa (od 1 do 100). Średnia jest równa 50 tenowi.
Dokładniej należałoby powiedzieć, że średnia leży pomiędzy 50 i 51 tenem, ale
szerokość pojedynczego tena jest tak mała, że można sobie pozwolić na tę uła­
twiającą zapis małą niedokładność. Odchylenie standardowe skali wynosi 10.
Tak więc pojedynczy ten to przedział o szerokości równej O,lz. Jak łatwo ob-
liczyć, użytkowy zakres obejmuje wyniki od -5z do +5z. Prawdopodobnie nie
istnieje test psychologiczny, który byłby w stanie różnicować osoby o wynikach
odległych od średniej bardziej niż o 3 odchylenia standardowe. Osób o tak skraj-
nych wynikach (bardzo niskich i bardzo wysokich) jest w populacji zaledwie
0,26%. Prawdopodobieństwo, że napotka się taką osobę na ulicy jest raczej małe.
Oczywiście psycholodzy pracują z osobami o bardzo różnych nasileniach cech
(np. osoby upośledzone umysłowo lub osoby szczególnie inteligentne), ale do 217
Andrzej Rynkiewicz

badania takich osób konstruuje się specjalne testy nienadające się do badań po-
pulacji generalnej. Tak więc skala tenowa skonstruowana została jakby na wyrost
i w większości zastosowań jej pełny zakres nie zostaje wykorzystany.
Oczywiście nie ma też sensu stosowanie skali tenowej w przypadku testów,
w których rozpiętość punktów surowych jest mniejsza niż 60. W teście obejmują­
cym tylko 40 zadałl, ocenianych na skali O-l, osoba może maksymalnie uzyskać
40 punktów. Biorąc pod uwagę realny zakres skali od 20 do 80 tena, duża część
jednostek byłaby w takim przypadku niewykorzystana.
Przedział wyników przeciętnych na tej skali ma zakres od 40 do 60 tena.
Podobnie jak w innych skalach, najbardziej skrajne teny, czyli l i 100, są prze-
działami otwartymi, ale przy skali o tak dużym zakresie nie ma to właściwie
praktycznego znaczenia.

średnia lz = 10 tenów
1··~····"·········i
~ ! i
wartość % -4.9 -2 -1
:
O
,+,. , r.-,.
,
2 4,9
i I II I II III ~ ,~ IIIII11111 i
ten 1 10 " 30 4~ 60 ~o 90 100
śre~nia

-0.1
I

O
I
0,1
I
! 64 l
.~
65 !
•••. "•••• ".... •.•••••••••••• +.
1/102
~

l/lOr
50 51

Rysunek 6.13. Skala tenowa

6.2.4.4. Skala tetronowa


Dość rzadko stosowana w praktyce skala o zakresie od O do 20. Jej średnia
jest równa 10 tetronowi, a odchylenie standardowe wynosi 4. Zakres użytkowy
obejmuje wyniki znormalizowane od -2,5z do +2,5z. Przedział wyników prze-
ciętnych to te trony od 6 do 14 (przedział nieco szerszy niż zwykle używany) lub
od 7 do 13 (przedział nieco węższy).

r2
C"1
~
__
~ ~
M .......
lO
..... '"coN '".....
wartość z
N N ~ ..... ""ej ej '"ej
tetron o
I
1
ł SS; 5
I
6
I
7
I
8
I
9 10 11 i 12 i 13 i 14 15 19 20
~ ....... ~ ........ ~
1/4z 1/4z

Rysunek 6.14. Skala tetronowa


6. Jakich informacji o osobie badanej dostarcza testowanie?

6.2.4.5. Iloraz inteligencji


Jest to skala o średniej 100 i odchyleniu standardowym 15. Jej nazwa i para-
metry mają charakter historyczny. Pojęcie ilorazu inteligencji powstało na po-
czątku XX wieku. Sfonnułował je niemiecki psycholog Wiliam Steru, modyfi-
kując mniej doskonałą miarę poziomu inteligencji wprowadzoną wcześniej przez
Alfreda Bineta. Oryginalna formuła pozwalająca obliczyć rozwojowy iloraz in-
teligencji zapisana jest w równaniu 6.21.

wiek umysłowy 100


IQ = . kb' l .
WIe 10 oglczny
(6.21)

Wiek umysłowy uzyskiwano w wyniku badania testem. Wynik podawany był


nic w punktach, lecz w latach i miesiącach odpowiadających poziomowi wyko-
nania zadań. Jeśli poziom inteligencji dziecka był wyższy niż typowy w jego gru-
pie wiekowej, czyli był typowy dla grupy dzieci starszych, to iloraz inteligencji
był większy niż 100. Gorszy poziom wykonania testu niż u rówieśników dawał
iloraz inteligencji mniejszy niż 100. Zatem IQ= 100 oznaczało typowy w odnie-
sieniu do grupy rówieśników poziom rozwoju intelektualnego.
Dzisiaj oryginalnego ilorazu inteligencji raczej się nie stosuje, bo staje się on
kłopotliwy w przypadku osób w wieku powyżej ok. 18 lat. U osób dorosłych
wiek biologiczny cały czas jednostajnie wzrasta, ale poziom inteligencji, a więc
wiek umysłowy, już nie tak szybko. Iloraz inteligencji w oryginalnej postaci znaj-
duje zastosowanie jedynie w testach rozwojowych, czyli testach służących do ba-
dania poziomu rozwoju różnych funkcji (poznawczych, motorycznych) u małych
dzieci. Nazywany jest wtedy ilorazem rozwoju. W testach przeznaczonych dla
starszych dzieci i dorosłych w miejsce rozwojowego ilorazu inteligencji stosuje
się dewiacyjny iloraz inteligencji. Jest to skala znormalizowana o charakterze
podobnym do innych skal omawianych w tym rozdziale, ale różniąca się para-
metrami.
Jednostka ilorazu inteligencji ma jeszcze większą dokładność niż jednostka
skali tenowej. Jeśli odchylenie standardowe skali jest równel5, to jednajednost-
ka ilorazu inteligencji obejmuje przedział o szerokości 1/15 odchylenia standar-
dowego (co daje w przybliżeniu 0,067z). Zakres użytkowy też jest olbrzymi, bo
skala ilorazów inteligencji jest w stanie różnicować osoby o wynikach odległych
od średniej nawet o 6 odchyleń standardowych. W praktyce jednak tak skrajne
sektory skali nie są wykorżystywane. Przedział wyników przeciętnych to ilorazy
inteligencji od 85 do 115.

219
Andrzej Rynkiewicz

średnia
1z = 15 jednostek
... _------
~._--_._ --- _____!
warlośćz -2 1 2
IQ 70
średnia

I
-O,033~0.033
, . I I
! 110 i 111 i
~ •• -.- •••••. -............. ł
·1/152 . 1/15z .
99 100. 101

Rysunek 6.15. Iloraz inteligencji

Tabela 6.3. Podsumowanie parametrów najpopularniejszych skal znormalizo-


wanych. W ostatniej kolumnie zapisany jest wzór pozwalający przeliczać wyniki
znormalizowane na jednostki danej skali
skala średnia odchylenie standardowe wzór przeliczania
staninowa 5 2 5+2z
śtenowa 5,5 2 5,5+2z
ten owa 50 10 50+10z
tetronowa 10 4 10+4z
iloraz inteligencji 100 15 100+15z

6.2.4.6. Przeliczanie wyników na skale znormalizowane


Procedura normalizacji wyników surowych została omówiona wczesme]
i przedstawiona w tabeli 6.2. W ostatniej kolumnie tabeli zapisane są wyniki
znormalizowane, które można zamienić na dowolną skalę znormalizowaną.
W tym celu trzeba wykorzystać wzory przeliczania zapisane w ostatniej kolum-
nie tabeli 6.3. Jednostki skal znormalizowanych są niepodzielne i dlatego wyniki
obliczeń należy zaokrąglać do najbliższej liczby całkowitej. Przykład 2 pokazuje
tego rodzaju transformację.

PRZYKLAD2
Przeliczanie wyniku znormalizowanego na skalę tenową (na podstawie wzoru
z tabeli 6.3.)
wynik surowy osoby=27
wynik znonnalizowany=-O,61

ten"" 50+ l 0·( -0,61) ==43,9 ~ 44


Na podstawie norm wynikowi surowemu 27 przypisanyzostanie44 ten.

Do przekształcenia wyników znormalizowanych na skalę można też wykorzy-


220 stać przedstawione w tym rozdziale "drabinki". Jest to sposób użyteczny w przy-
6. Jakich informacji o osobie badanej dostarcza testowanie?

padku skal o małej rozpiętości: staninowej (rys. 6.11.), stenowej (rys. 6.12.).
Pozwala on całkowicie kontrolować proces przekształcania i uniknąć pomyłek
związanych z zaokrąglaniem. Jeśli wynik znormalizowany jest dokładnie rów-
ny granicy między dwiema jednostkami skali, zaliczamy go do jednostki wyż­
szej. Oznacza to, że jednostki skal znormalizowanych to przedziały domknięte
od dołu. Tylko w takim przypadku przekształcanie za pomocą "drabinki" da taki
sam rezultat jak przy pomocy wzorów z tabeli 6.3. Procedurę tego rodzaju poka-
zuje przykład 3.

PRZYJ{LAD3
Przeliczanie wyniku znorlUalizowanego na skalę sten ową (na podstawie "drabin-
ki" Z rys. (i.12.)
wyniksurowyosoby=21
"Yynik ?nonnaHzó~any""-O,61 .' ' •. '
wynikten znajduje się wprzedziale oznaczonym na rys, 6.12.jako 4 sten
Na podstawie norm wynikowi surowemu 21 przypisany zostanie 4 stert.

Tabela 6.4. Przeliczanie wyników znormalizowanych z tabeli 6.2. na jednostki skal znor-
malizowanych

z staniny steny ten y tetrony IQ


-2,33 1 1 27 1 65
-1,65 2 2 34 3 75
-1,13 3 3 39 5 83
-0,61 4 4 44 8 91
-0,05 5 5 50 10 99
0,47 6 6 55 12 107
0,92 7 7 59 14 114
1,34 8 8 63 15 120
1,75 9 9 68 17 126
2,33 9 10 73 19 135

Chociaż wyniki znormalizowane można przeliczyć na jednostki dowolnej ska-


li znormalizowanej, to zwykle wybiera się jedną lub dwie najbardziej odpowied-
nie. Należy się tu kierować dwoma kryteriami. Po pierwsze, istotna jest rozdziel-
czość skali. Im jednostka jest mniejsza, tym większa rozdzielczość. Zatem skale
IQ i tenowa mają dużą rozdzielczość, a skale stenowa i staninowa - małą. Po dru-
gie, pod uwagę bierze się zakres użytkowy skali. Największy zakres mają skale
IQ i tenowa, bo mogą różnicować osoby o wynikach odległych od średniej nawet
o 4 odchylenia standardowe. Skale staninowa i stenowa utrzymują zdolność róż- 221
Andrzej Rynkiewicz

nicowania wyników zlokalizowanych nie dalej niż 2 odchylenia standardowe od


średniej. Oba te parametry skal znormalizowanych powinny być dopasowane do
parametrów skali wyników surowych testu. A więc skale o wysokiej rozdziel-
czości i szerokim zakresie stosuje się wtedy, gdy wyniki surowe również mają
dużą rozdzielczość i szeroki zakres. Jest tak zwykle w testach, które składają
się z dużej liczby pozycji. Ważne jest, by osoby badane mogły w nich uzyskać
wyniki z dużego zakresu (np. od O do 300 punktów) oraz żeby rzeczywiście cały,
lub prawie cały, ten zakres był realizowany. Nie ma bowiem sensu stosowanie
skali tenowej w teście o możliwym zakresie punktów surowych od O do 300, gdy
większość osób w rzeczywistości uzyskuje wyniki w zakresie od 150 do 200.
Konsekwencje zastosowania skali tenowej w teście o małym zakresie wyników
surowych widać w tabeli 6.4. - tylko niektóre jednostki skali tenowej zostały tu
wykorzystane. Nie jest to oczywiście błąd, ale wystarczająca w tym przypadku
byłaby skala stenowa lub staninowa o dużo mniejszej rozdzielczości.
Testy o dużej rozdzielczości wyników surowych mogą, ale nic muszą, mieć
szerokiego zakresu użytkowego. Można sobie wyobrazić test inteligencji, któ-
ry ma bardzo dużo zadań ustawionych w porządku od najłatwiejszego do naj-
trudniejszego, ale różnice w trudności kolejnych zadań są nicznaczne. Taki test
będzie miał raczej dużą rozdzielczość (chociaż w praktyce zostanie ona prawdo-
podobnie zatarta przez błąd pomiaru), ale niezbyt szeroki zakres. Osoba, która
rozwiąże tylko kilka początkowych zadań i osoba, która rozwiąże prawie wszyst-
kie zadania będą się pod względem inteligencji różniły raczej mało. Aby ten test
mógł mieć i dużą rozdzielczość, i duży zakres, musi składać się z dużej liczby
zadali różniących się znacznie trudnością.
Tcsty o małej rozdzielczości też mogą, ale nie muszą, mieć szerokiego zakresu
użytkowego. Za przykład może posłużyć test inteligencji składający się tylko
z trzech zadań. Jeśli będą to zadania o ekstremalnie różnej trudności, to test ten
będzie miał małą rozdzielczość (bo będzie różnicował tylko osoby wyraźnie róż­
niące się poziomem inteligencji), ale będzie obejmował szeroki zakres. Gdyby
zadania mały podobną trudność, wtedy test miałby i małą rozdzielczość, i wąski
zakres.
Podsumowując, gdy rozdzielczość testu jest duża lub jego zakres użytkowy
jest szeroki, należy wtedy zastosować skalę IQ lub tenową. Gdy natomiast oba
te parametry są małe, wystarczająca i najwygodniejsza będzie skala stenowa lub
staninowa.

6.2.5. Normy centylowe


Normalizacja wyników surowych jest sensowna tylko wtedy, gdy wyniki te
przyjmują rozkład co najmniej zbliżony do normalnego. Gdy rozkład wyników
z jakichś względów jest znacząco różny od normalnego, albo gdy wyniki testu nie
222 będą interpretowane w odniesieniu do populacji (np. wyniki egzaminu kwalifika-
6. Jakich informacji o osobie badanej dostarcza testowanie?

cyjnego), wtedy możliwe jest zastosowanie norm centylowych. W psychometrii


z reguły korzysta się nie z tradycyjnie rozumianych centyli, tylko z jednostek,
które nazywał będę przedziałami centylowymi. W trosce o porządek tenninolo-
giczny omówię obie te skale podkreślając zasadnicze różnice między nimi.
Klasyczne centyle to rodzaj tzw. kwantyli, czyli powszechnie używanych
w statystyce wielkości, które dzielą uporządkowany szereg wyników w równych
proporcjach. Centyle dzielą taki szereg na 100 równych pod względem liczebno-
ści części, a więc są rozstawione co około l % wyników. Pierwszy centyl to wy-
nik o numerze równym l % liczebności próby, drugi centyl to wynik o numerze
równym 2% liczebności próby itd. Istota klasycznych centyli została zilustrowa-
na w przykładzie 4.

C~ntyle{tljęci~·~ias~czr(9to··te poJedyrtczęWyniki·.~tlpor~ądkowanYtllsź:regu,l(fÓ-
.red~ięlą;gĆln~ l OOró""nych podwzględem liczebności części..-..każda z tych części
obejtnuJe·l~wyników.
Przedziały . ~entylowe •. (tijęciepsychątn~tryczml)to.jedn~stkf,z.·kt6rych kaZdaobej~
muje 10/0 ""yników surowych. Wyjątek stanowią przedziały O i 100, które obejmują
pqO!5%wyników.

PRZYKŁAD 4
Próbah?rtna1i~acyjll~ .• li~z~400.0sób.·.Poniżej.··2apisart'1ch . jęst. kil~ara~cle.poc~ątko­
wy~~(tlajniż$zych )wynikqw •. t:stoWych. z. uporządkowaneg~.·.szeregu.Przy . ljczebno-
ś9i .pró~y40?~c:~tyle~ędąw.Y11ikami . r9~sta""ionymi ·co 4o!;oby;A.""ię91. centylt~
'YYnik:~t1~n:e~~e4,2,cet1tyltwynik Q numęrze8 itd, Wyniki odpowiadające cent'1:-
10m.?!ostałY •. V'iprzykła49WYit1·.szeregu . zaznaczone.
1':,":-, ,':'_.' _"_'/_, : ;':' --,<:::- ,:",,:<c,.,_;<;,,;. ,,;', ". ,:_,', - :;'1'

aJkftZrur osoballl0ŻeuzyskacWYhiktes~o~, ód· 0.d6 360 ··(więcejpul1któw·· nizcen~


tyli) .

Z przykładu 4 wynika, że jeśli liczba punktów możliwych do uzyskania w te-


ściejest większa niż 100 (przykład 4a), wtedy nie każdemu wynikowi będzie od-
powiadał centyl i fonnalnie niektóre wyniki będą leżały pomiędzy centylami. Jeśli
natomiast wyników testowych jest mniej niż 100 (przykład 4b), wtedy niektórym 223
Andrzej Rynkięwicz

wynikom może odpowiadać więcej niż jeden centyl. W takim przypadku wyniko-
wi przypisuje się najwyższy z odpowiadających mu centyli. Na tej podstawie wy-
nikowi 2 z przykładu 4b przypisany zostanie 2 centyl. Klasyczna skala centylowa
zaczyna się od l centyla, a 100 centyl to najwyższy wynik w próbie.
Jak to wynika z powyższego opisu, centyle w klasycznym ujęciu są pojedyn-
czymi wynikami, co w określonych warunkach może utmdniać opisywanie osób
badanych testami. Przy odrobinie wprawy można się do tej ich właściwości przy-
zwyczaić, ale o wiele wygodniejsze w zastosowaniu są skale, których jednostki
są przedziałami wyników. Taki charakter mają opisywane wcześniej skale znor-
malizowane oraz tzw. przedziały centylowe, które przedstawię poniżej.
W tabeli 6.5. pokazany jest sposób obliczania przedziałów centylowych dla fik-
cyjnych danych, których część została wcześniej przedstawiona w przykładzie 4a.

Tabela 6.5. Wyznaczanie przedziałów centylowych

(1 ) (2) (3) (4) (5)


wynik liczebność przedział
liczebność proporcja
surowy skumulowana centylowy
8 2 2 0,005
1
9 1 3 0,008
12 4 7 0,018
14 1 8 0,020 2
18 1 9 0,023
19 2 11 0,028
3
21 1 12 0,030
25 2 14 0,035
4
29 3 17 0,043
31 1 18 0,045
5
35 3 21 0,053

289 5 400 1,000 100

W tabeli 6.5. kolumny (1), (2) i (3) wyznaczane są tak samo, jak w tabeli 6.2.
W kolumnie (4) obliczona jest proporcja liczebności skumulowanej względem
całej próby (liczebność skumulowana podzielona przez liczebność próby). W ko-
lumnie (5) wyznaczone są przedziały centylowe, a więc proporcja z kolumny (4)
pomnożona przcz 100. Wartości w kolumnie (5) powinny być zaokrąglone do
najbliższej liczby całkowitej. W ten sposób nabierają one charaktem przedzia-
łów, co oznacza, że mogą obejmować więcej niż jeden wynik. Warto zauważyć,
224 że jeśli proporcja w kolumnie (4) tabeli 6.5. wynosiłaby mniej niż 0,005, to wte-
6. Jakich informacji o osobie badanej dostarcza testowanie?

dy zgodnie z zasadami zaokrąglania odpowiadałby jej przedział centylowy O.


Obejmuje on wyjątkowo nie l %, tylko 0,5% wyników surowych. Tak samo jest
z przedziałem centylowym 100, który przypisywany jest wynikom surowym
dającym proporcję skumulowaną co najmniej 0,995. A więc skala przedziałów
centylowych, w przeciwieństwie do klasycznych centyli, ma 101 jednostek. Jej
środek odpowiada dokładnie medianie wyników surowych.
Przedziały centylowe wykazują zasadnicze różnice z opisywanymi wcześniej
skalami znormalizowanymi. Nie ma tu zastosowania odchylenie standardowe,
ponieważ skala przedziałów centylowych ma charakter procentowy. Oznacza
to, że pozycję osoby ocenia się na podstawie jej lokalizacji w uporządkowanym
szeregu. Jeśli na przykład wynikowi osoby odpowiada 92 przedział centylowy,
można powiedzieć, że około 92 procent osób w próbie miało wyniki takie same,
jak ta osoba, lub niższe. Można oczywiście tę proporcję przeliczyć na jednostki
odchyleń standardowych przy użyciu odpowiednich tabel lub programu staty-
stycznego, ale ma to sens tylko wtedy, gdy rozkład wyników surowych jest rze-
czywiście normalny.
Skala przedziałów centylowych ma charakter porządkowy. Przedziały ccnty-
lowe można więc traktować najwyżej jak rangi, bo odległości między dwoma
rzadkimi wynikami w próbie (np. bardzo niskimi) będą małe, a pomiędzy wyni-
kami częstymi (typowymi) będą duże. Żeby ten efekt zobaczyć, warto na chwilę
powrócić do tabeli 6.2. opisującej nonnalizację. W tabeli tej nie ma co prawda
policzonych przedziałów centylowych, ale bardzo łatwo je wyznaczyć, mnożąc
proporcje z kolumny (5) przez 100. Widać wtedy, że różnica między wynikami
24 i 25 z dolnego krańca skali wynosi 6 przedziałów centylowych, a różnica mię­
dzy wynikami 27 i 28 ze środka skali to 24 przedziały centylowe. Trudno więc
traktować przedziały centylowe jako jednostkę jednolitą w całym zakresie skali
wyników. Efekt ten pokazany jest również na rys. 6.16.
Skala przedziałów centylowych nie uwzględnia kształtu rozkładu wyników.
Jest to konsekwencja jej procentowego charakteru. Można więc stosować ją na-
wet w przypadku wyników o bardzo dziwacznych rozkładach, bez narażania się
na błędy w interpretacjach. Skala przedziałów centylowych stanowi więc alter-
natywę dla skal znormalizowanych w przypadkach, gdy rozkład wyników su-
rowych nie jest 'normalny. Sytuacja tego rodzaju może zdarzyć się, gdy próba
normalizacyjna jest mała i nieprzypadkowa. Gdy nauczyciel chce ustalić pozycję
konkretnego ucznia na tle całej klasy szkolnej, to powinien raczej posłużyć się
przedziałami centylowymi, bo trudno oczekiwać, że rozkład wyników egzaminu
będzie w małej klasie choćby zbliżony do normalnego. Podobnie, gdy test psy-
chologiczny wykorzystywany jest do selekcji i chodzi jedynie o ustalenie miejsca
kandydata względem innych pod względem mierzonych zdolności. W obu tych
przypadkach układem odniesienia dla interpretacji wyników jest nieduża próba,
a nie populacja. Czasami nonny tego rodzaju, gdy nie są sporządzone na podsta-
wie dużej reprezentatywnej próby, nazywa się normami lokalnymi. 225
Andrzej Rynkiewicz

z
-3
!
1
,
·2

2 3
·1

4
i
5
,6 O

! 7
i
8 9
2

! 10
3
steny
i !i 1
i I I I I I I I staniny
1 2 3 4 5 6 7 8 9
: : : i I

i,f i i I: I i i I: i i i i: i I I i! I i
o 2 4 6 8 10 12 14 16 18 20 tetrony
li I i Iii I li h Iii ił li li II i I i I i I i li iii i ił i .. IIIII 1111' li li i i li II
20; 30 40 50 60 70 80 teny
~łiiinli lilii .nil ltiil II i I n.'lliliti liii I ł'.'lliii I iiln i i~ii lilii iii iI li ';'111 III 111111111
55 70 85 100 115 130 145 IQ
! i l i iillliiiillililliHlililiiiliilliiiiu*mWiII!illiilliiililli:l!iiililfi i, i j i przedziBly
2 16 50 84 98 centy/owe

Rysunek 6.16. Porównanie naj popularniejszych skal znormalizowanych i skali przedzia-


łówcentylowych z rozkładem normalnym.

Może być jednak i tak, że przedziały centylowe zostaną zastosowane do sfor-


mułowania interpretacji wyniku testowego na tle populacji. Zastępuje się nimi
popularne skale znormalizowane, gdy oczekiwany rozkład cechy w populacji nie
jest nonnalny. Jest to raczej rzadka konieczność, bo tylko niewiele cech psy-
chicznych przyjmuje rozkłady na tyle skośne, że nie zaleca się stosowania wobec
nich normalizacji. Ponadto cenioną przez wielu diagnostów zaletą skali przedzia-
łów centylowych jest prosta i intuicyjna interpretacja. Wnioski formułowane na
podstawie przedziałów centylowych bardzo łatwo przekłada się na informacje
zwrotne. Są one zrozumiałe nawet dla osób bez specjalistycznego wykształcenia.
Między innymi z tego względu tak popularne są siatki centylowe, czyli normy
bazujące na przedziałach centylowych i dodatkowo przedstawione w postaci gra-
ficznej.

Zalecana literatura
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP. (Str. 76 - 108).
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
226 (Str. 539-547).
6. Jakich informacji o osobie badanej dostarcza testowanie?

Ferguson G.A., Takane Y. (1999). Analiza statystyczna w psychologii i pedagogice.


Warszawa: PWN. (Str. 504-515).
Hornowska E. (2005). Testy psychologiczne. Teoria i praktyka. Wydawnictwo Scholar.
(Str. 128-157).
Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN. (Wydanie 2:
str. 342-364).
Matuszewski A. (1984). Interpretacja formalna wyników w testach psychologicznych.
W: J. Brzeziński (red.) Wybrane zagadnienia z psychometrii i diagnostyki psycholo-
gicznej, str. 47-72. Poznań: Wydawnictwo UAM.
Zawadzki B. (2006). Kwestionariusze osobowości - strategie i procedura konstruowa-
nia. Warszawa: Scholar. (Str. 258-264).

Zadania

1.
Podaj wystandaryzowane wyniki odpowiadające wynikom surowym 12 i 18, gdy
średnia w próbie wynosi 14, a odchylenie standardowe 4.

2.
Zamień podane wyniki surowe na wyniki znormalizowane oraz na jednostki skali
stenowej, staninowej, tenowej, tetronowej, ilorazów inteligencji.

wyniki 1 2 3 4 5 6 7 8 9 10
liczebności 3 8 10 13 17 16 13 10 7 3

3.
Zamień podane wyniki na centyle i narysuj słupkowy wykres liczebności.
wyniki 10 I 11 12 13 14 15 16 17 18 I 19
liczebności 5 I 11 15 20 16 12 9 6 4 I 2
4.
Przelicz wyniki podane w tenach na staniny, steny i tetrony.
I teny 125 I 38 145 I 50 151 159 162 166 170 173

5.
Przelicz wyniki podane w jednostkach ilorazu inteligencji na staniny, steny i te-
trony.
IIQ 165 173 182 199 1107 1115 1121 1135 1140 1141

227
Andrzej Rynkiewicz

6.
Podaj przybliżone granice 3 staniny w jednos tkach ilorazu inteligencji i w te-
nach.

7.
Podaj przybliżone granice 7 stena w jednos tkach ilorazu inteligencji i w tenach.

8.
Jaki procent osób z teoretycznej popul~cji o norma lnym rozkładzie cechy uzyska
wynik znonna lizowa ny równy
a) 2 staninie;
b) 5 staninie;
c) 8 staninie;
d) 3 stenowi;
e) 6 stenowi;
f) 9 stenowi?

Odpowiedzi do zadań
1. Z12=-{},5; ZlS=1.

2.
wyniki 1 2 3 4 5 6 7 8 9 10
staniny 1 2 3 4 5 5 6 7 8 9
steny 1 3 4 4 5 6 7 8 9 10
tetrony 1 4 6 8 9 11 13 14 16 19
teny 28 35 40 44 48 52 56 60 65 72
IQ 67 78 85 91 97 103 109 116 123 133
3.
wyniki 10 11 12 13 14 15 16 17 18 19
centyle 5 16 31 51 67 79 88 94 98 100
4.
teny 25 38 45 50 51 59 62 66 70 73
staniny 1 3 4 5 5 7 7 8 9 9
steny 1 3 5 6 6 7 8 9 10 10
tetrony O 5 8 10 10 14 15 16 18 19

228
6. Jakich informacji o osobie badanej dostarcza testowanie?

5.
IQ 65 73 82 99 107 115 121 129 135 141
staniny 1 1 3 5 6 7 8 9 9 9
, steny 1 2 3 5 6 8 8 9 10 10
tetrony 1 3 5 10 12 14 16 18 19 20

6. Od 38 do 43 tena; od 81 do 89 jednostki ilorazu inteligencji.

7. Od 55 do 60 tena; od 108 do 115 jednostki ilorazu inteligencji.

8a. 0,106 - 0,040=0,066; 6,6%;


8b. 0,599 - 0,401=0,198; 19,8%;
8c. 0,960 - 0,894=0,066; 6,6%;
8d. 0,159 - 0,067=0,092; 9,2%;
8e. 0,691 - 0,500=0,191; 19,1 %;
8f. 0,977 - 0,933=0,044; 4,4%.
7. ETYKA BADAŃ TESTOWYCH

Ewa Witkowska
WYDZIAŁ
PSYCHOLOGII
UNIWERSYTET WARSZAWSKI

Celem tego rozdziału jest prezentacja najważniejszych zasad dotycz


ących
praktyki diagnozowania psychologicznego na podstawie metod standa
rdowych,
tak, aby po jego lekturze Czytelnik dobrze znał reguły, których musi przestr
zegać
odpowiedzialny użytkownik testu. Oprócz strony etycznej stosowania
testów,
która jest kluczowa dla właściwego wykonywania zawodu psychologa-d
iagno-
sty, odwołamy się do uregulowań prawnych, związanych z tym obszar
em pracy.
Szczególnie zależy nam na podkreśleniu tego, że w gruncie rzeczy "prawa
osób
badanych" oraz "obowiązki psychologów - użytkowników testów", to dwie
stro-
ny tej samej monety.
Panuje powszechna zgoda co do tego, że zawód psychologa jest zawod
em
szczególnym (por. Brzeziński, Chyrowicz, Poznaniak i Toeplitz-Win
iewska,
2008). Psychologowie pracują z ludźmi, powierza im się niejednokrotn
ie poufne
infonnacje. Jest oczywiste, że psycholog powinien zatem być bardzo skrupu
lat-
ny w przestrzeganiu zasad etyki zawodowej, tak aby nie skrzywdzić osób,
które
mu zaufały. Oprócz swojego wewnętrznego kompasu etycznego, który
doradza,
w jaki sposób należy zachować się w określonej sytuacji, istnieją zewnęt
rzne
punkty odniesienia. Są nimi: Ustawa z dnia 8 czerwca 2001 r. o zawod
zie psy-
chologa i samorządzie zawodowym psychologów, Kodeks Etyczno-Zaw
odowy
Psychologa Polskiego Towarzystwa Psychologicznego, oraz - w odnies
ieniu do
wykorzystania narzędzi testowych - Standardy dla testów stosowanych
w psy-
chologii i pedagogice (2007). Dokumenty te różnią się zarówno zawarto
ścią,
jak i statusem. Ustawa jest aktem prawnym, zatem każdy psycholog
jest for-
malnie zobligowany do przestrzegania jej zapisów. Kodeks Etyczno-Zaw
odowy
Psychologa Polskiego Towarzystwa Psychologicznego to spis zasad deonto
logii
zawodowej, do przestrzegania którego formalnie zobowiązani sąjedynie
człon­
kowie Towarzystwa. Z kolei Standardy dla lesIów stosowanych w psycho
logii
i pedagogice (2007) to spis rekomendacji wyznaczających "złoty
standard"
użytkownikom testów. Dodatkowo, należy pamiętać,
że test psychologiczny jest
oczywiście utworem w rozumieniu ustawy Prawo autors
kie i z tego względu też
podlega ochronie.

7 .1. Prawa osoby badanej i obowiązki psychologa-diagnosty


Tak jak już pisaliśmy, ze względu na specyfikę zawodu psychologa, kwesti
e
230 etyczne są przy jego wykonywaniu szczególnie istotne. Niewłaściwe wykon
ywa-
7. Etyka badań testowych

nie zawodu psychologa może naprawdę okazać się tragiczne w skutkach - wy-
starczy wyobrazić sobie sytuację, w której psycholog wyda pozwolenie na posia-
danie broni osobie, która takiego pozwolenia otrzymać nie powinna.

Ametykatiskie· Towarzystwo· Psychologiczne (APA,Z003) opracowało.dwieuzYtecz­


ne listy:?bbWiązk6~PS)'(:hologaorazpraw Osoby badanej. Na psychol()gu-diag11o~
ście spoczywająJ1;astępujące()bowiązki: . .. . . ..... .. . . . ..
a) . powinien wybrać. testdokortkretllego· postępowania diagnostyęznegOpo. uprzęd-c
nil11zapoznanh.lsięzinnY111idostęp~ymina;~zędiiatl)i, .•. .•••••.•. .•. . . . • , . •. . . •.•.••..••..•. ,
b}mą~bą:viązek grnntowniep()znać~atęriałtestowyipo~rę~znik test6'-Vy,
~) . . • p0'-Vinien• tl~i1(rurstosowani~.testu·w·Gelachi~}'ch~iż.zastos?\Vania.zale.cane'.ptzez
. . . . . . autoró~.testp:,<....i . . ' .•.•. ••.. . . .••.••.. .•••.. . •. . • >i·•.. .•. •.•. . . . , . .• . . .• .• . . . . . . . . . . . . . . . .•. •· · •. ·. ·• ·....i . . . . . . . . . . . . ..
d}maudzieli~os~d,ombadanyIl11ubic~.prawny~ •. ()piekunotn{wnajczęśA.i~Jspoty~
kaneJ sytj)acji-;-rodzic()l11 padanych dzieAi)infonnacji o. ich praw~ch, i . ·
. e)· ma udzięnćosobol11 badanym lub ich pmwnYl11opiekunominfonnacjiosposobie
}Jrzec~()'N)'wania •. ~anychi . tym,.jakdługo będąprzechowywaneorazkto bę~~ie

:·miatdd~rCllij()stęr;····.······· • • · ·•·•· • · .· • •· •· · • ··.·.··.·.··.·.···.···.i . ······i • .• 'i


1) •info~a~Jez~rotne.udzielane .·osobie badanej maj~byćprzekązahe*spos{,pijla
< .•..•.. i.··· •.•· .• ·... . . . . . . . . . . ..
niejzrpv;mi~ł~..... .... . .. ... . . . . .. . . . . • . . • • . . . . •. . ....•. H •..•••••• •• • •••••.•••••••..•••••••••.••• > .... ·•.·..i .......... .
Jednocześl1i~;A.l11~ty'kańskie TOWarzystwo . Psychologiczne (APAlpod)(teśla, ··~eoso.,
babadatlatęstem.~aprawo; ... . . .. . •.
a) ... byćt~ak~p\\lana.uptzejll1ie\;lszacurtkiem .• iobiektywhie, . hiezaleZhieodwieku, .• llie-
pełnospra~no$ci, p9suodzenia,płci, .narodowoś"i, religii,prientacjiseksualnej· czy
..innychóech osobistych, . . ...•..... . . . .•••.•. . ..••.. . . . . . . . . . . .......
blbyóbad~na~ietylkol1arzędzilU11ispełhiającymi profesjonalne st~tldardy;aletakże
9dP?Wiedt1ip!i. zJ1~kttJ ~iclzeniac~ludiagnoz~ oraz. użytymi we ~łaściwy spo-
sól:>, .i .....i . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..i.· . . . . . ....... . . . . . . . . . . . . . . . . . . . . . . . . . . :. . . ... . . . . .. . . . . . . . . . . . . . . .. . .
do.u~yska~ia.informacji • (1.tstnej ··hlb pisemnej). ocel1.tbadania;.ll~tychnarzędziach
i •. sposo?iepo~tępo~ani~z yzyskanymLdallYl~i (zwłaszczu, czy .Jest . planowane
udostępniani~ ich osobom trzecim) przed~yraźeniem zgody na udział .w proce-
durZecliagno~ty.c~nej;. .•. •. . . . .•. . . . . .. . . . • .•. .• . •. .. . . . . . ..•. .• ...... ...... .... . ..... . . . . •. .•. .• ..i
d)dowiedZięć sięz~ stosownYl11 wyprzedzenięm, kiedyzostaoie.poddanadanej .proc
.cedurzediagnostyczn.ejorazkiedy mOźe uzyskaćinformacj eną temat swoich wy~
riików, • • · · .· .· ·•·•·. •.•·•·· • .•· ••..••• · .· •.•.• · • •. •· .••• i;·. • . •. . . . . . . . ... .••. ..< ...............
e) d?u9zestl:ticz~~ia. ~.bada~iuprzeprowadzanym .przez . osobę, .• b~dącąkompetent"
ny1ntt±ytkownikięm testu oraz działającą zgodnie z zasaąamiętykizawodowej.

W sytuacji diagnozy psychologicznej, kwestie etyczne sprowadzają się do


dwóch nierozerwalnie związanych ze sobą elementów - tego, że osoba badana
ma w tej sytuacji określone prawa i że psycholog zobowiązany jest do wywią­
zywania się z określonych obowiązków wobec niej. Jako że w procesie diagno-
stycznym psycholog zbiera i analizuje infonnacje, dotyczące prywatności osoby
badanej, konieczne jest, żeby działo się to za zgodą badanego i w taki sposób,
który gwarantuje, że informacje te nie dostaną się w ręce osób niepowołanych. 231
Ewa Witkowska

Ponadto, należy pamiętać, że osoba badana ma prawo wiedzieć, dlaczego ma


być poddana badaniu psychologicznemu, w jaki sposób przebiega proces diagno-
styczny, a także poznać płynące z niego wnioski (por. Brzeziński in., 2008).
Szczegóły strony etycznej diagnozowania ustala się w momencie zawierania
kontraktu diagnostycznego. Główne zasady, których psycholog-diagnosta zo-
bowiązany jest przestrzegać, to: uzyskanie od osoby badanej świadomej zgody
na udział w badaniu, dbałość o zachowanie poufności uzyskanych danych oraz
informowanie osoby badanej o uzyskanych wynikach. Można powiedzieć, że
na największym poziomie ogólności zasady etyczne w kontakcie diagnostycz-
nym sprowadzają się do poszanowania godności badanego (por. Brzeziński in.,
2008).

7.2. Przygotowanie się do diagnozowania


Odpowiedzialny użytkownik testu to taki, który wie, czego w wyniku uży­
cia konkretnego testu chciałby się dowiedzieć oraz jakim celom taka informacja
ma służyć. Zatem należy pamiętać, że planujemy diagnozowanie konkretnego
problemu. Oczywiście, uzyskanie odpowiedzi na zadane pytania diagnostyczne
wymaga zastanowienia, zanim zaczniemy planować kontakt z badanym.
Należy rozważyć, czy wybrana przez nas metoda może dostarczyć informacji
zgodnych z celem diagnostycznym, który sobie postawiliśmy, na przykład, czy
na podstawie wyników Skali Sumienności inwentarza NEO-PI-R, znormalizo-
wanego dla populacji ogólnej możemy określić poziom sumienności kandyda-
tów na głównym księgowych? Refleksja na temat tego, czy wybrany test jest
właściwy ze względu na to, czego chcemy się dowiedzieć o osobie badanej, jest
możliwa dopiero po dogłębnym poznaniu podręcznika dodanego testu. Jego wni-
kliwa lektura powinna być zawsze pierwszym elementem przygotowań do dia-
gnozowal11a.
Ponadto, musimy zastanowić się, czy na podstawie wyniku w teście możemy
wnioskować o innych interesujących nas zachowaniach badanego. Przykładowo,
czy na podstawie wyniku świadczącego o wysokim poziomie ekstrawersji u kan-
dydatów na przedstawicieli handlowych możemy przewidzieć, jaka będzie efek-
tywność ich pracy. I wreszcie musimy rozważyć, czy wybrany test rzeczywiście
mierzy to, co nas interesuje oraz czy jesteśmy w stanie zinterpretować wyniki te-
stowe, co nie musi być oczywiste w odniesieniu do osób badanych o specjalnych
potrzebach czy cechach (por. Standardy, 2007).
N ależy przy tym pamiętać, że badanie psychologiczne nie musi być tym lepsze,
im więcej informacji zbierzemy. Planując diagnozę, powinniśmy myśleć o ściśle
określonym celu i to on powinien wyznaczać nasz sposób postępowania. Jeśli za-
tem mamy odpowiedzieć na pytanie o źródło problemów emocjonalnych u dzie-
sięcioletniego Jasia, ajednocześnie wiemy, że nauka nie sprawia Jasiowi żadnych
232 problemów, to diagnozowanie go Skalą Inteligencji Wechslera dla Dzieci (por.
7. Etyka badań testowych

Matczak, Piotrowska, Ciarkowska, 1998) nie ma żadnego sensu. Niestety, takie


zupełnie nieuzasadnione wykorzystanie tego testu jest czasem spotykaną prakty-
ką psychologów pracujących w niektórych poradniach.
W kontekście przygotowywania się do diagnozowania warto zwrócić uwagę na
zróżnicowaną trudność procedury badania testami psychologicznymi. Właściwe
przeprowadzenie badania prostymi narzędziami, takimi jak Test Matryc Ravena
czy Kwestionariusz Osobowości NEO-PI-R nie powinno sprawić nawet począt­
kującemu psychologowi większych trudności. Jednak użycie Skali Inteligencji
Wechslera, wymagające niejednokrotnie jednoczesnego sprawnego operowania
stoperem, prezentowania materiału testowego (np. test Układanki) we właściwej
kolejności, zapisywania wyników testowych oraz utrzymywania kontaktu z oso-
bą badaną nie jest łatwe (por. Brzeziński i Toeplitz- Wiśniewska, 2004). Wymaga
to starannego przygotowania się oraz przećwiczenia odpowiednich procedur.
Dzięki temu możliwe jest zachowanie standardowych wyników badania.

7.3. Zawieranie kontraktu oraz świadoma zgoda na udział


w badaniu diagnostycznym
Podstawowym obowiązkiem psychologa planującego postawienie indywi-
dualnej diagnozy albo badania naukowe (nieważne, czy z użyciem testów psy-
chologicznych bądź nie), jest uzyskanie od potencjalnego badanego/badanych
świadomej zgody na udział w badaniu. Aby taką zgodę można było nazwać
"świadomą", psycholog musi poinformować klienta (klientów) w zrozumiały
sposób o tym, jak postępowanie diagnostyczne będzie przebiegać i co się będzie
w jego ramach działo. Psycholog ma obowiązek zapoznać badanego z przebie-
giem procedury - z tym, ile zajmie czasu, jakie charakterystyki psychologiczne
będą przedmiotem diagnozowania, do jakiego rodzaju wniosków pozwoli dojść
oraz w jaki sposób i komu będą prezentowane wyniki. Konieczne jest ustale-
nie z badanym (badanymi), ile planujemy spotkań, ile czasu będzie trwało każ­
de z nich, co będziemy podczas nich robić, jakiego rodzaju informacje zwrotne
usłyszą od nas na koniec. Należy też wprost zakomunikować osobie badanej,
że ma prawo w dowolnym momencie wycofać się z badania. Trzeba przy tym
pamiętać, że oile mamy obowiązek możliwie wyczerpująco opowiedzieć osobie
badanej, na czym będzie polegało diagnozowanie, to nie może to w żadnym razie
sprowadzić się do pokazywania oryginalnego materiału testowego. W sytuacji,
gdy badany nalega na zapoznanie go z materiałem testowym przed badaniem,
jedyne co możemy zrobić, to pokazać mu materiał podobny - na przykład, jeśli
planujemy diagnozę z wykorzystaniem Formalnej Charakterystyki Zachowania
- Kwestionariusza Temperamentu (por. Zawadzki i Strelau, 1997), możemy po-
wiedzieć, że badanie będzie polegało na udzielaniu odpowiedzi tak lub nie na
proste pytania typu: Łatwo przychodzi mi zabranie głosu najorum grupy. Jest to
233
Ewa Witkowska

stwierdzenie podobne do wyk orz ysty


wan ych w kwestionariuszu, ale jedn
śnie nie jest to zac yto wan a poz ycja test oc:
owa.
Kwestie wyrażania przez klienta
zgo dy na udział w bad aniu regulują
przepisy prawne. Formalnie podjęcie tak
diag noz owa nia lub rozpoczęcie bad
ukowych reguluje art. 12. Ustawy ali. I
o zawodzie psychologa i samorządz
wym psychologa, który stanowi, że: ie zaw ow
Podjęcie usług psy cho log
za zgodą osoby (klienta) lub grupy icznych następt
osób (klientów) stanowiących pod
gnozowania i oddziaływania psycho mio t dl
logicznego. Zat em bra k zgo dy na
obciąża nie tylko sum ieni badan
e psychologa, ale może wiązać się
konsekwencjami prawnymi. takż e z okr eśl onyr
Podobnie wygląda kwestia udziela
nia informacji o uzy ska nyc h wyn ikac
ona regulowana nie tylko na poz iom h - je
ie etycznym, ale także pra wny m.
informacji udzielanej osobie badane O zak res
j czy ustn iko m badań mó wi art. 13.
w którym stwierdza się, że: Psycho Ustaw.
log poinformuje klienta o celu postęp
jego przebiegu, wynikach i sposob owa ni!
ie ich udostępniania ora z powinie
akceptację planowanych czyn n uzyska
ności. Dod atko wo, ten arty
kuł usta wy pre cyz uje, ż
o ile wyniki badań mają służyć nie
tylko do informacji klienta stosuje się
Ustawy z dnia 29 sierpnia 199 7 r. o przepis.
ochronie danych osobowych.
Należy pamiętać, że w prz
ypa dku osób o ograniczonej zdolno
prawnych (niepełnoletnich lub ube ści do czynnośc
zwłasnowolnionych) zgo
daniu muszą wyrazić opiekunowie dę na udział w ba
prawni, któ rym i w prz ypa dku dzie
częściej rodzice. Zat em w ci są naj
prz ypa dku plan owa nia badań w
osoby niepełnoletnie znajdują się szk ole, pom imo Żt
wów cza s pod opieką pra cow nik ów
ki, nie wystarczy jedy nie zgo da nau pla ców
czy ciel a czy dyrektora, ale kon iecz
uzyskanie zgody od rodziców każ ne jesl
dego z dzieci. W tym wyp
czy opiekuna pra wne go jest klu czo adk u zgo da rodzic2
wa z pow odó w formalnych. Jed nak
padku wszystkich osób bad any ch, w przy-
niezależnie od tego, czy
czynności pra wny ch czy maj ą zdo lność do
nie, diagnosta ma obowiązek pos
ności. Pierwszą praktyczn zan owa nia ich god-
ą konsekwencją tego fakt
samych zainteresowanych, czy zgo u jest konieczność zap ytan ia
dzą się wziąć udział w bad
w przypadku każdego innego bad aniu. Pod obn ie jak
ania diagnostycznego, także w taki
psycholog powinien najpierw poi ej sytuacji
nformować bad any ch, w jak
będzie przebiegać, dO' cze i spo sób bad anie
go posłużą wyniki oraz jak ich info
badani mogą spodziewać się na kon rma cji zwr otn ych
iec, pamiętając, żeby omawiać te
w sposób zrozumiały dla oso by bad kwe stie
anej.
Na koniec warto zaznaczyć, że psy
cho log pow inie n dołożyć wsz elki
żeby unikać sytuacji, gdy ch starań,
zgo da oso by badanej tylko poz orn
Tego typu sytuacja może zdarzyć się ie jest świadoma.
chociażby pod cza s badań
ludzie tak naprawdę nie mają och oty gru pow ych , kiedy
w nich uczestniczyć, ale jednocześ
im niezręcznie odmówić, zwłaszcza nie jest
gdy widzą, że większość wyraża
badanie. zgodę na
7. Etyka badań testowych

7.4. Tajemnica zawodowa


Jak już pisano wcześniej, wykonywanie zawodu psychologa polega w dużej
mierze na zbieraniu i analizowaniu informacji na temat życia prywatnego osób
badanych. Niejednokrotnie są to informacje bardzo intymne, którymi osoba ba-
dana w żadnym wypadku nic chciałaby się dzielić z kimkolwiek i to, że wyja-
wia je psychologowi, wynika z jej przekonania, że będą utrzymane w tajemni-
cy. Należy przy tym pamiętać, że z punktu widzenia osoby badanej, informacja
o tym, jaki ma poziom inteligencji ogólnej czy ekstrawersji, może być niemniej
"prywatna", niż szczegóły życia intymnego. O spoczywającym na nas obowiąz­
ku - zarówno moralnym, jak i prawnym - przestrzegania tajemnicy informujemy
klienta oczywiście w momencie zawierania kontraktu, przed rozpoczęciem pracy
z klientem.
Z punktu widzenia prawa, przepisy o tajemnicy zawodowej stanowią, z jed-
nej strony, gwarancję dla klientów psychologa, że informacje go dotyczące nie
zostaną upublicznione i jednocześnie są rękojmią dla psychologa, że nikt go nie
może zmusić do ujawnienia informacji poufnych, o kliencie. Po raz kolejny wi-
dać tu, jak silnie prawa osób badanych są związane z obowiązkami psychologa.
Sytuacje, kiedy psycholog ma prawo czy obowiązek wyjawienia tego, co objęte
tajemnicą zawodową, w praktyce zdarzają się tak rzadko, że możemy przyjąć, iż
tajemnica zawodowa nigdy nie może zostać wyjawiona i że obowiązek jej zacho-
wania ciąży na nas do kOl1ca życia. Należy pamiętać, że na tajemnicę zawodową
składają się wszelkie związane z klientem informacje, które psycholog uzyskał
w związku z wykonywaniem zawodu.
Z punktu widzenia konsekwencji dla osoby badanej, nie ma większego zna-
czenia, czy naruszenie tajemnicy zawodowej było wynikiem celowego złamania
przez psychologa zasad etycznych, czy też doszło do takiego zdarzenia w spo-
sób niezamierzony, na przykład przez zaniedbanie wynikłe z nienależytcgo prze-
chowywania wyników testowych. Psycholog jest zobowiązany przechowywać
zarówno same materiały testowe, jak i wyniki testowe (tzn. wypełnione testy,
gotowe diagnozy, kartoteki zawierające infonnacje na temat osób badanych, pliki
z danymi) w taki sposób, żeby nie dostały się w niepowołane ręce (por. Standardy,
2007). Czytelnikowi może się to wydawać oczywiste, jednak w praktyce zdarza
się, niestety, że wyniki badal1 testowych przechowywane są przez psychologów
w ogólnodostępnych pokojach, co powoduje, że mogą mieć do nich dostęp oso-
by nieupoważnione. Warto w tym miejscu podkreślić, że na poziomie prawnym,
kwestie właściwego przechowywania danych o osobach badanych, oprócz tego,
że regulowane zapisami ustawy o zawodzie psychologa i samorządzie zawo-
dowym psychologów, reguluje - podobnie jak sprawy związane z przechowy-
waniem wszystkich innych danych osobowych dotyczących osób fizycznych -
Ustawa o ochronie danych osobowych.
235
Ewa Witkowska

Tajemnica zawodowa, mimo że jak pisaliśmy wczesmej nieograniczo-


na w czasie i obejmująca wszystkie informacje związane z klientem uzyskane
w związku z wykonywaniem zawodu - nie wyklucza jednak udzielania określo­
nych informacji na temat osób badanych, czy to innym profesjonalistom - innym
psychologom, psychiatrom, pedagogom, nauczycielom czy też instytucjom, ta-
kim jak sąd, szkoła bądź ewentualny przyszły pracodawca. Dotykamy tu, oprócz
zagadnienia tajemnicy zawodowej, jeszcze jednego ważnego problemu, wiążą­
cego się z możliwymi społecznymi konsekwencjami diagnozowania, bo przecież
przygotowane przez nas diagnozy ktoś będzie czytał i niekoniecznie będzie to
psycholog, dysponujący porównywalną z naszą wiedzą na temat testów. W takiej
sytuacji należy bardzo starannie selekcjonować informacje, zebrane przez nas
w procesie diagnostycznym, w którym może się zdarzyć, że osoba badana powie-
działa nam w zaufaniu coś, co nie miało związku z celem diagnozy (na przykład
uczestnik postępowania rekrutacyjnego na stanowisko przedstawiciela medycz-
nego opowiedział nam w przerwie o swoich kłopotach małżeńskich). Pamiętajmy,
że instytucja zamawiająca diagnozę powinna uzyskać jedynie informację o tym,
co miało stanowić cel diagnozy. Dodatkowo, jeśli psycholog wykonuje określoną
pracę dla organizacji (na przykład w roli zewnętrznego eksperta prowadzi proces
rekrutacyjny na stanowisko kasjera w banku), powinien, z jednej strony, zadbać
o to, żeby uzyskane dane (chociażby w postaci diagnoz opisujących poszczegól-
nych kandydatów) były przechowywane w sposób gwarantujący poufność dostę­
pu do nich (por. Czamota-Bojarska, 1999), z drugiej zaś - przygotować je w taki
sposób, żeby nawet w sytuacji, gdy analizował je będzie niepsycholog nie dawały
one pola do niedopowiedzeń czy nadinterpretacji. Temu, co powinno, a co nie
powinno znaleźć się w informacji zwrotnej udzielanej osobie badanej, a zatem
także temu, co powimla zawierać diagnoza czy opinia przeznaczona dla odbiorcy
nie będącego psychologiem poświęcony jest kolejny podrozdział.

7.5. Komunikowanie wyników testowych


Kiedyś panowało wśród psychologów przekonanie, że osoba badana w procesie
diagnostycznym powinna dowiedzieć się jak najmniej na swój temat. Dotyczyło
to w szczególności informacji negatywnych. Dzisiaj uznaje się, że udzielenie
osobie badanej informacji zwrotnej o uzyskanych przez nią wynikach - nieza-
leżnie czy pozytywnych, czy negatywnych - jest nieodłącznym elementem dia-
gnozy testowej (Anastasi i Urbina, 1999; Homowska, 2001). W zasadzie można
przyjąć, że w praktyce psychologicznej nie udziela się informacji o wynikach
jedynie w sytuacji, gdy osoba badana sobie tego nie życzy. I nawet jeśli mamy
przekonanie, że taka informacja mogłaby być dla osoby badanej pomocna, to
jeśli osoba badana nie chce usłyszeć od nas, jakie wyniki uzyskała w teście, na-
szym obowiązkiem jest uszanować jej wolę i nie udzielać takiej informacji za
236 wszelką cenę.
7. Etyka badań testowych

Podstawową refleksją, która ma towarzyszyć psychologowi przygotowujące­


mu się do udzielenia osobie badanej informacji zwrotnej jest to, że inf01111acje
zwrotne mają na celu udzielenie odpowiedzi na pytanie diagnostyczne. Zakres
tego, co powiemy osobie badanej wyznacza zawarty na początku kontrakt na
badanie. Udzielana przez nas informacja nie może ani wykraczać poza to, co
ustaliliśmy na początku, ani też odnosić się tylko do wybranych kwestii ustalo-
nych w kontrakcie. W tym ostatnim przypadku narażamy się bowiem na ryzy-
ko, że osoba badana nabierze przekonania, iż podczas badania dowiedzieliśmy
się na jej temat czegoś tak negatywnego, że aż boimy się jej o tym powiedzieć.
Jeśli np. skierowano do nas ucznia po to, żebyśmy postarali się dociec, dlacze-
go ma on problemy z nauką szkolną i na taki cel badania zgodzili się wszyscy
zainteresowani (czyli uczeń oraz jego rodzice) w kontrakcie diagnostycznym, to
tylko informacje dotyczące tego problemu powinniśmy zbierać w procesie dia-
gnostycznym i tylko informacji zwrotnych dotyczących tej sfery funkcjonowania
powinniśmy udzielić.
Psychologowie powinni pamiętać, że jako fachowcy mogą być spostrzegani
jako autorytet przez osoby badane. W konsekwencji, badani często przywiązują
znacznie większą wagę do tego, co usłyszą od psychologa niż do tego, eo usły­
szeliby od każdej innej osoby, nawet gdyby te informacje były zbieżne z diagnozą
psychologiczną lub gdyby znający badanego laik był w stanie zbudować bardziej
adekwatną czy wyczerpującą diagnozę. Musimy być zatem bardzo ostrożni w sy-
tuacji komunikowania badanym informacji zwrotnych, aby nie dopuścić do nie-
pożądanych konsekwencji. Jednym z mechanizmów, które psycholog-diagnosta
może niechcący uruchomić jest mechanizm samospełniającej się przepowiedni.
Gdy osoba badana usłyszy na przykład, że ma problemy z uczeniem się, może to
spowodować, że jej oczekiwania, co do uzyskiwanych rezultatów nauki obniżą
się, bo dojdzie do wniosku, że niezależnie od jej wysiłków i tak nie ma szans
osiągnąć zbyt wiele i w rezultacie wyniki też będą gorsze od możliwych.
Oprócz starannego przemyślenia treści udzielanej informacji zwrotnej, na-
leży zwracać baczną uwagę na formę, w jakiej te treści komunikujemy osobie
badanej. Po pierwsze, język, którego używamy, powinien być dostosowany do
możliwości badanego. Nie powinniśmy używać wszelkiego rodzaju "psycholo-
gizmów" i "etykietek" - takich jak chociażby termin "ekstrawersja" -nawet jeśli
wydaje nam się, że już na stałe zadomowiły się w języku potocznym. Zwróćmy
przy tym uwagę, iż terminy psychologiczne, z którymi jesteśmy jako profesjo-
naliści obeznani często inaczej funkcjonują w języku potocznym, niż w języku
używanym przez psychologów. Weźmy choćby pojęcia "neurotyzmu" i "reak-
tywności emocjonalnej" czy "temperamentu". Mimo że w psychologii pojęcia
"neurotyzmu" i "reaktywności emocjonalnej" odnoszą się do bardzo podobnych
zmiennych i żadne z nich nie powinno być prosto wartościowane, bo nawet skraj-
ne natężenie tych cech nie świadczy w żaden sposób o zaburzonej osobowości, to
jednak w powszechnym odbiorze, osoba "neurotyczna" jest kimś, kto ma proble- 237
Ewa Witkowska

my z psychiką, podczas gdy osoba o wysokiej reaktywności emocjonalnej to ktoś


"zupełnie zdrowy". W każdYIn razie, żeby uniknąć możliwych nieporozumień
w rozmowie z osobą badaną, znacznie lepszym wyjściem od używania którego-
kolwiek z tych określeń, stanowiących przecież w pewnym sensie skrót myślo­
wy, jest posługiwanie się opisem funkcjonowania typowego dla osób z wysokimi
czy niskimi wynikami. Z kolei pojęcie temperamentu, używane przez psycholo-
gów w kontekście diagnozy testowej na określenie biologicznych składowych
osobowości, w języku potocznym wydaje się być raczej utożsamiane z ogólną
pobudliwością człowieka, zwłaszcza w dziedzinie seksualnej (por. Uniwersalny
słownik języka polskiego, 2004).
Nigdy nie powinniśmy podawać osobie badanej jakichkolwiek infonnacji licz-
bowych, które i tak są dla badanych, niedysponujących żadnym punktem od-
niesienia, pozbawione jakiegokolwiek znaczenia. Jako psychologowie doskonale
znamy całą "filozofię diagnozy testowej". Wiemy, że testy opierają się na prób-
kach zachowań dotyczących ukrytych cech i że tak naprawdę nie interesuje nas,
czy osoba badana zna właściwą odpowiedź na konkretne pytanie (np. o to, jakie
miasto jest stolicą Boliwii). Ważne jest natomiast to, że na podstawie odpowiedzi
na to i inne pytania staramy się wywnioskować coś o poziomie badanej cechy
np. inteligencji ogólnej. Zdajemy sobie sprawę, że pomiar narzędziami, którymi
się posługujemy w praktyce nigdy nie jest całkowicie rzetelny, co powoduje, że
nie możemy punktowo oceniać wyniku otrzymanego. Każdorazowo w diagnozie
indywidualnej zmuszeni jesteśmy więc budować przedziały ufności, w których
z określonym prawdopodobieństwem zawiera się wynik prawdziwy osoby bada-
nej (Anastasi i Urbina, 1999, Hornowska, 2001, Murphy i Davidshofer, 2004).
Mamy świadomość, że wynik możemy interpretować jedynie w odniesieniu do
norm, bo tylko one dają nam właściwy punkt odniesienia i pozwalają ocenić wy-
nik osoby badanej - a co zatem idzie - natężenie u niej badanej cechy. Osoby
badane nie dysponują całą tą niezbędną wiedzą psychometryczną, zatem poda-
wanie im wyników liczbowych prowadzi jedynie do nieporozumień, w wyniku
których ludzie przerzucają się informacjami typu: "W teście Mensy miałem 107
punktów, a kolega 104, więc byłem lepszy", nie mając świadomości, że oba te
wyniki mogą świadczyć o takim samym poziomie inteligencji.
Jeśli chodzi o formę prezentacji wyników, to należy także starać się, żeby in-
formowanie osoby badanej o wynikach nie przybrało fonny naszego monologu
(Anastasi, Urbina, 1999), ale żeby była to raczej rozmowa z osobą badaną, która
będzie mogła tym samym ustosunkować się do usłyszanych informacji. Po lektu-
rze poprzednich rozdziałów tego podręcznika Czytelnik jest zapewne świadomy,
że w praktyce stosowanych przez nas testów nigdy nie charakteryzuje ich 100%
rzetelność pomiaru, a więc - w konsekwencji - nie mogą być w 100% trafue,
co powoduje, że stawiane przez nas diagnozy będą w jakimś stopniu obciążone
błędem. Jednak osoba badana, nawet jeśli jest nią ktoś starannie wykształcony,
238 nie dysponuje wiedzą psychometryczną i nie jest świadomy ograniczeń stosowa-
7. Etyka badań testowych

nych w diagnozie testowej narzędzi. Zatem psycholog powinien jasno uświado­


mić badanemu, że uzyskane wyniki nie zawsze będą adekwatnie go opisywały.
Pamiętajmy, że trudności pomiarowe nie są bynajmniej specyfiką badań psycholo-
gicznych i że nie powinniśmy się wstydzić czy ukrywać przed badanym, że stoso-
wane przez nas testy nie zawsze działają tak dobrze, jak byśmy sobie tego życzyli.
Zwłaszcza w sytuacji, gdy infonnacje o badanym pochodzące z innych źródeł (ta-
kich jak chociażby wywiad czy obserwacja) pozostają w sprzeczności z wynikami
testowymi, psycholog powinien zachować szczególną ostrożność w ich przekazy-
waniu i dać badanemu szansę ustosunkowania się do tego, co usłyszy.
Planując kolejność tego, co osoba badana od nas usłyszy, powinniśmy zro-
bić tak, aby informacja negatywna znalazła się między dwiema informacjami
pozytywnymi. Tworzymy dla osoby badanej "kanapkę z gorzką zawartością",
mając nadzieję, że dzięki dodaniu dwóch informacji pozytywnych osobie ba-
danej łatwiej przyjdzie przyjęcie jej. Jeśli zaś, informacja jest negatywna, bo na
przykład informujemy uczestnika postępowania rekrutacyjnego, że nie przyjęto
go na stanowisko, o które się ubiegał, to dobrze jest, oprócz sformułowań mają­
cych zmniejszyć dyskomfort wynikły z samej sytuacji (na przykład: Pana/Pani
kwaftfikacje oceniamy wysoko, ale niestety zgłosili się kandydaci lepiej spełnia­
jący oczekiwania pracodawcy) podać konkretny powód dlaczego tak się stało (na
przykład: Pracodawca poszukiwał kogoś z dłuższym doświadczeniem w branży
farmaceutycznej), co może pozwolić badanemu w przyszłości na poszukiwanie
bardziej adekwatnych ofert (Czamota-Bojarska, 1999).
Czasem może się zdarzyć, że mimo najlepszej woli psychologa-diagnosty,
z uwagi na pewne słabości narzędzia (np. gdy posługujemy się starszym testem,
bo nie mamy innej możliwości), uzyskane wyniki będą w pewnym sensie niedo-
skonałe, czyli mniej trafne, niż byśmy sobie tego życzyli. Może to zdarzyć się,je­
śli na przykład normy do testu są przestarzałe lub gdy nie dysponujemy normami
stworzonymi na podstawie wyników grupy odniesienia, do której osoba badana
nie w pełni "pasuje". Może tak zdarzyć się na przykład, gdy interesuje nas po-
równanie wyniku osoby badanej z wynikami innych studentów, a mamy dostęp
jedynie do norm dla studentów z ponadprzeciętnie wysokimi osiągnięciami aka-
demickimi, jak w przypadku Testu Matryc Ravena Dla Zaawansowanych (por.
Jaworowska i Szustrowa, 1992). W takiej sytuacji, informowanie osoby badanej
o wyniku, zwłaszcza takim, którym sami nie całkowicie ufamy, powinniśmy do-
datkowo wzbogacić o informację, że mamy do niego określone zastrzeżenia.
Należy także pamiętać o tym, żeby osobę badaną informować o wynikach i ich
możliwych konsekwencjach, w taki sposób, żeby oszczędzić jej dobrych rad.
Pamiętajmy, że diagnoza jest tylko opisem funkcjonowania badanego i do niego
należy decyzja, w jaki sposób (i czy w ogóle) ją wykorzysta.
Oczywiście, udzielanie osobie badanej informacji zwrotnej w żadnym wypad-
ku nie oznacza, że psycholog ma przekazać jej informacje o samym teście, który
stosował. Jak już pisaliśmy wcześniej, psycholog nigdy nie powinien prezen- 239
Ewa Witkowska

tować osobie badanej poszczególnych pozycji testów


przed przeprowadzeniem
badania. Pamiętajmy, że osoba badana ma prawo poznać swoje wyniki
zinterpre-
towane na podstawie teorii psychologicznej, ale nie zastosowane narzędz
ie.

7.6. Ochrona narzędzi diagnostycznych


Testy psychologiczne to metody, do których dostęp jest z zasady ogranic
zony.
Wynika to z faktu, że testy, będące próbką zachowań mogą efektyw
nie pehlić
swoją funkcję, jedyni e w sytuacji, gdy materiał testow
y jest nieznany osobom
badanym. Obecnie w Polsce testy psychologiczne może zakupić, a w konsek
wen-
cji używać, jedynie osoba legitymująca się dyplomem ukończenia magist
erskich
studiów psychologicznych. To ograniczenie wynika z faktu, iż, pozorn
ie niezwy-
kle proste, diagnozowanie z wykorzystaniem testów psychologicznych
wymaga,
aby użytkownik posiadł stosowną wiedzę psychologiczną oraz wiedzę
z zakresu
psychometrii. Dzięki temu możliwe jest adekwatne i wyczerpujące zinterp
reto-
wanie uzyskanych w teście wyników. Oczywiście, oprócz wiedzy o charak
terze
ogólnym, każdorazowo konieczne jest zapoznanie się z konkretnym narzęd
ziem,
jego własnościami psychometrycznymi, podłożem teoretycznym oraz
procedurą
badania, żeby móc je wykorzystać w diagnozie.
W sytuacji, gdy pozycje, z których jest zbudowany test, stałyby się powsz
ech-
nie znane, test stałby się zupełnie bezużyteczny, bo nie pozwalałby
na różni­
cowanie ludzi w zakresie mierzonej cechy. Oznaczałoby to konieczność
stwo-
rzenia nowego testu, co jest procesem niezwykle żmudnym, pracoc
hłonnym
i wymagającym zaangażowania znaczących środków finansowych. Brak
dbało-
. ści o chronienie narzędzi przez psychologów jest więc działaniem na
niekorzyść
całego środowiska psychologicznego. Jeśli testy
będą powsz echnie dostępne
i przestaną spełniać swoją funkcję diagnostyczną, to psychologowie
stracą tym
samym narzędzia pomagające im stawiać trafne diagnozy. W Kodeksie
Etyczno-
-Zawodowym Psychologa czytamy, że psycholog nie udostępnia specyfi
cznych
technik diagnozy psychologicznej osobom nieprzygotowanym do ich
kompe-
tentnego stosowania. Psycholog przeciwstawia się podejmowaniu działal
ności
psychologicznej, a zwłaszcza stosowaniu specyficznych technik diagno
stycznych
i terapeutycznych przez osoby nieposiadające kwalifikacji psychologiczn
ych.
Natomiast Ustawa o zawodzie psychologa i samorządzie zawodowym
psycho-
logów mówi w artykule 33., że zadaniem samorządu psychologów jest
w szcze-
gólności ( ... ) ochrona prawn a metod i narzędzi psycho
logicznych (punkt 3.).
Dodatkowo, testy jak wszystkie inne utwory (książki, utwory muzyczne
czy pla-
styczne) chronione są przez Prawo autorskie, a także - chroni jest Ustawa
o za-
wodzie psychologa i samorządzie zawodowym psychologów. Należy pamięt
ać, że
także testy zagraniczne są narzędziami chronionymi
, co oznacza, że psycholog
nie ma prawa bez uzyskania zgody właściciela praw autorskich dokona
ć proce-
dury adaptacyjnej oryginalnego narzędzia.
7. Etyka badań testowych

Warto w tym miejscu wspomnieć, że ograniczenie dostępu do testów psycho-


logicznych jest znacznie bardziej restrykcyjne w Polsce niż w innych krajach.
W wielu z nich mamy bowiem do czynienia z taką sytuacją, że testy podzielone
są na podgrupy i że w efekcie istnieją narzędzia dostępne nie tylko dla psycho-
logów, ale także na przykład dla nauczycieli, którzy przeszli specjalne przeszko-
lenie (przykładem takiego testu jest Test Matryc Ravena), narzędzie, z których
mogą korzystać tylko psychologowie oraz narzędzia, do stosowania których
upoważnieni są wyłącznie psychologowie, którzy dodatkowo przeszli specjalne
szkolenie - tutaj sztandarowym przykładem jest Skala Inteligencji Wechslera.
W Polsce funkcjonują dwa rodzaje testów psychologicznych - testy komer-
cyjne i testy nieskomercjalizowane. Testy komercyjne to takie, które zostały opu-
blikowane i są sprzedawane przez ich wydawcę. Z kolei testy niekomercyjne to
testy, które autor albo stworzył czy zaadaptował z myślą o konkretnym badaniu,
albo po prostu nie starczyło mu energii i środków na przeprowadzeni całej pro-
cedury konstrukcji/adaptacji i test na przykład nie ma norm, ale mógłby być
z powodzeniem wykorzystywany w badaniach grupowych. Chociaż jeden i drugi
rodzaj testów podlega ochronie, w tym ochronie przepisów prawa autorskiego,
to zasady korzystania z testów różnią się w zależności od tego, czy test został
skomercjalizowany czy nie.
Testy komercyjne wystarczy kupić, żeby móc ich użyć. Oczywiście, pamięta­
my, że konieczny jest zakup całego kompletu materiałów testowych - czyli ar-
kuszy, podręcznika, klucza, ewentualnie zeszytów z zadaniami testowymi. Warto
podkreślić tutaj słowo "użyć" - użytkownik testu musi stosować takie testy bez
wprowadzania do nich jakichkolwiek modyfikacji, nie może ich w żadnym wy-
padku powielać czy też na przykład zamieszczać w Internecie. Przykładowo,jeśli
zatem w badaniach, jakie planujemy przeprowadzić w ramach pracy magisterskiej
interesuje nas wymiar wytrzymałości - jedna z cech mierzonych przez Formalną
Charakterystykę Zachowania - Kwestionariusz Temperamentu (Zawadzki
i Strelau, 1997), to i tak musimy zastosować cały kwestionariusz i dopiero na
poziomie analizy danych możemy odwołać się tylko do jednej, interesującej nas
cechy. Gdybyśmy chcieli stworzyć inną wersję takiego narzędzia, na przykład
wersję komputerową istniejącego testu w formie "papier i ołówek", to nie mamy
prawa zrobić tegą bez zgody wydawcy testu lub też innego właściciela praw
autorskich. Jednocześnie należy pamiętać, że każdorazowo w prowadzonych ba-
daniach musimy posługiwać się oryginalnymi arkuszami testowymi - powielanie
ich w jakikolwiek sposób jest naruszeniem prawa autorskiego! Oczywiście cały
czas spoczywa na nas obowiązek chronienia testu, zatem jeśli z przyczyn orga-
nizacyjnych decydujemy się na badanie, w którym rozsyłamy uczestnikom testy
pocztą, musimy być świadomi, że grozi nam utrata kontroli nad nimi.
Informacje o testach nieskomercjalizowanych pojawiają się w fachowej li-
teraturze psychologicznej, gdzie autorzy opisują swoje narzędzia bądź badania
prowadzone z ich wykorzystaniem. Najczęściej jednak same narzędzia nie są 241
Ewa Witkowska

publikowane w tego typu wydawnictwach. Czasem możliwe jest jednak


wyko-
rzystanie takich narzędzi w planowanych przez nas badaniach, o ile uzyska
my je
od autora zgodę na jego wykorzystanie w konkretnym badaniu.

7.7. Podsumowanie
Ten rozdział ma charakter jedyni e wprowadzenia w problematykę etyczn
ych
i prawnych aspektów związanych ze stosowaniem testów psychologiczn
ych.
Jego lektura nie powinna zatem w żadnym wypadku stać się podstawą
do nabra-
nia przekonania, że uzyskane informacje są wystarczające, aby czuć
się pewnie
w sytuacjach badań testowych w odniesieniu do różnych ludzi oraz z
wykorzy-
staniem różnych narzędzi diagnostycznych.
Ważne jest, żeby postrzegać treść tego rozdziału jako
pozostającą w ścisłym
powiązaniu z opisanymi w poprzednich rozdziałach
własnościami testów, a tak-
że - żeby wyrobić w sobie nawyk wnikliwej analizy
podręcznika testowego, za-
nim zdecydujemy się wykorzystać nowe narzędzie w procesie diagno
stycznym.
Jednocześnie gorąco zachęcamy do pogłębienia swojej
wiedzy w zakresie etycz-
nych i prawnych aspektów korzystania z testów, na przykład poprzez
lekturę po-
niższych pozycji:

Zalecana literatura
American Educational Research Association & American Psychological
Association &
National Council on Measurement in Education (2007). Standardy dla
testów stosowa-
nych w psychologii i pedagogice. Gdańsk: Gdańskie Wydawnictwo Psycho
logiczne.
Polskie Towarzystwo Psychologiczne (1992). Kodeks Etyczno - Zawodo
wy Psychologa.
Warszawa: PTP. [przedmk w: J. Strelau (red.) (2000). Psychologia. Podręcz
nik akade-
micki (t. 3, str. 839-843). Gdańsk: Gdańskie Wydawnictwo Psychologiczn
e.]
Brzeziński, l, Toep1itz-Winiewska, M. (2004). Etyczne
dylematy psychologii. Warszawa:
Wydawnictwo SWPS Akademia.
Brzeziński, J., Chyrowicz, B., Poznaniak, w., Toeplit
z-Winiewska, M. (2008). Etyka za-
wodu psychologa. Warszawa: Wydawnictwo Naukowe PWN.
Ustawa z dnia 8 czerwca 2001 r. o zawodzie psycho loga i samorządzie
zawodo wym psy-
chologów (Dz. U. Nr 73, poz. 763) [dostępna: hitp://www.ptp.org.pl/
modules.php?na-
me=News&file=articJe&sid=47

Pytania sprawdzające

1. Dlaczego kwestie etyczne są tak ważne przy wykonywaniu zawodu


psycholo-
ga?
2. jakich prawach osoby badanej musi pamiętać psycholog-diagnosta
?
3. Jak długo psycholog zobowiązany jest trzymać w tajemnicy infonn
acje uzy-
·242 skane w związku z wykonywaniem zawodu?
7. Etyka badań testowych

4. Jaki jest kluczowy etap przygotowania do diagnozowania z użyciem nowopo-


znanego testu psychologicznego?
5. Jakie obowiązujące w Polsce ustawy chronią testy psychologiczne?
6. Co należy zrobić, żeby móc użyć komercyjnego testu psychologicznego?
7. Jaki warunek musimy spełnić, żeby zastosować niekomercyjny test psycholo-
giczny?
8. Jakie zasady powinny być przestrzegane przy udzielaniu osobie badanej in-
formacji zwrotnej?

243
LITERATURA

American Educational Reasearch Association & American Psychological Association&


National Council on Measurement in Education (2007). Standardy dla testów stosowa-
nych w psychologii i pedagogice. Gdańsk: Gdańskie Wydawnictwo Psychologiczne.
American Psychological Association (2000). Report of the Task Force on Test User
Qualifications. Practice and Science Directorates. Dostępne on-line: http://www.apa.
org/science/tuq.pdf.
American Psychological Association (2003). The Ethical Principles of Psychologists and
Code of Conduct.
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP.
Angleitner A., Riemann R. (1991). What can we leam jrom the discussion ofperson-
ality questionnaires for the construction of temperament inventories? W: J. Strelau,
A. Angleitner (red.), Explorations in temperament (s. 191-204). New York; Plenum.
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
Brzeziński J., Toeplitz-Winiewska M. (2004). Etyczne dylematy psychologii. Warszawa:
Wydawnictwo SWPS Akademia.
Brzeziński l, Gaul M., Hornowska E., Machowski A, Zakrzewska M. (2005). Skala
Inteligencji D Wechslera dla Dorosłych - wersja zrewidowana. Polska adaptacja
WAIS-R(PL). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Brzozowski P. (1989). Skala Wartości (SW). Polska adaptacja Value Survey M Rokeacha.
Podręcznik. Warszawa: Laboratorium Technik Diagnostycznych im. Bohdana
Zawadzkiego (II wydanie - 1996).
Brzozowski P., Drwal R.Ł. (1995). Kwestionariusz Osobowości Eysencka. Polska ada-
ptac-ja EPQ-R. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
CampbelI D.T., Fiske D.W. (2005). Analiza trafności zbieżnej i różnicowej za pomocą
macierzy wielu cech - wielu metod. W: J. Brzeziński (red.), Trafność i rzetelność te-
slów psychologicznych. wybór tekstów (s. 431--459). Gdańsk: GWP.
Choynowski M. (1971). Podstawy i zastosowania teorii rzetelności testów psycholo-
gicznych. W: J. Kozielecki (red.), Problemy psychologii matematycznej (s. 65-118).
Warszawa: PWN.
Choynowski M. (1972). Skrócony podręcznik do testu Nastroje i Humory. Warszawa:
Wydawnictwo Ministerstwa Oświaty i Wychowania.
Ciechanowicz A. (1992). Skala Dojrzałości Umysłowej Columbia. Podręcznik. Polska
standa/yzacja 1990. Warszawa: PTP.
Cronbach L.J. (2005). W spółczynnik alfa a struktura wewnętrzna testów. W: J. Brzeziński
(red.), Trafność i rzetelność testów psychologicznych. wybór tekstów (s. 177-212).
Gdańsk: GWP.
Cronbach L.J., Meehl P.E. (2005). Trafność teoretyczna testów psychologicznych W:
J. Brzeziński (red.), Trafność i rzetelność testów psychologicznych. ~vbór tekstów
244 (s. 404-430). Gdańsk: GWP.
Literatura

Czamota-Bojarska J. (1999). Selekcja zawodowa. Przygotowanie, prowadzenie i podsta-


wowe metody. Warszawa: Pracownia Testów Psychologicznych Polskiego Towarzystwa
Psychologicznego.
Drwal R.K. (1995). Trafność zbieżna i różnicowa czterech inwentarzy agresji. W:
P. Brzozowski (red.), Adaptacja kwestionariuszy osobowości (s. 36-54). Warszawa:
PWN.
Eysenck H.J., Eysenck S.B.G., Barrett P. (1985). A revised version of the psychoticism
scale. Personality and Individual Differences, 6, 21-29.
Frydrychowicz A., Jaworska J., Woynarowska T., Matuszewski A. (1994). Inwentarz
Zainteresowań. Warszawa: Centrum Metodyczne Pomocy Psychologiczno-
-Pedagogicznej.
Goryńska E. (2005). Przymiotnikowa Skala Nastroju UMACL. Podręcznik. Warszawa:
Pracownia Testów Psychologicznych PTP.
Homowska E. (2001). Testy psychologiczne. Teoria i praktyka. Warszawa: Wydawnictwo
Naukowe "Scholar".
Homowska E. (2004). Skale inteligencji dla doroslych Davida Wechslera WAJS-R oraz
WAIS-III. Warszawa: Scholar.
Jakubowski J. (1983). Elementy klasycznej teorii testów psychologicznych, w:
J. Paluchowski (red.), Z zagadnień diagnostyki osob()w().~ci (s. 223-247). Wrocław:
OssolinewTI.
Jaworowska A., Matczak A. (2008). Test Niedokollczonych Zdań Rottera (RISB).
Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
JaworowskaA., MatczakA., Szustrowa T; (1996). Międzynarodowa Wykonaniowa Skala
Leitera P-93. Podręcznik. Polska standaryzacja: populacja ogólna 3-15 lat, dzieci
głuche 6-14 lat. Warszawa: PTP.
Jaworowska A. Szustrowa T. (1992). Podręcznik do Testu Matryc Ravena. Wersja dla
Zaawansowanych. Warszawa: Pracownia Testów Psychologicznych PTP.
JaworowskaA. Szustrowa T; (2000). Test Matryc Ravena w wersji Standard TMS: formy:
Klasyczna, Równoległa, Plus: polskie standaryzacje. Warszawa: Pracownia Testów
Psychologicznych Polskiego Towarzystwa Psychologicznego,.
Jurkowski A. (1997). Test językowy Leksykon. Warszawa: Pracownia Testów
Psychologicznych Polskiego Towarzystwa Psychologicznego.
Kofta M., Brzeziński J., Ignaczak M. (1977). Konstrukcja i charakterystyka psychome-
tryczna kwestionariusza poczucia winy KPW. Studia Psychologiczne, 15, 93-113.
Krasowicz G., Kurzyp-Wojnarska A. (1990). Kwestionariusz do badania poczucia kon-
troli (KBPK). Warszawa: PTP.
Kuder F., Richardson M. (2005). Teoria estymacji rzetelności testu. W: J. Brzeziński
(red.), Trafność i rzetelność testów psychologicznych. WYbór tekstów (s. 167-176).
Gdańsk: GWP.
Łojek E., Stańczak J. (2007). Test płynności figuralnej RujJa (RFFT). Podręcznik.
Warszawa: Pracownia Testów Psychologicznych PTP.
Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN.
Markowska B., Kotas A. (1971). Badania nad czynnikową trafnością Inwentarza
Psychologicznego H.G. Gougha. Przegląd Psychologiczny, 21, 225-236. 245
Literatura

Marody M. (1976). Sens teoretyczny a sens empiryczny pojęcia postawy. Warszawa:


Wydawnictwo PWN.
MatczakA. (1992). Diagnoza możliwo.~ci intelektualnych (DMI). Podręcznik. Warszawa:
Pracownia Testów Psychologicznych Polskiego Towarzystwa Psychologicznego.
Matczak A. (2001). Testy operacyjności myślenia: diagnoza możliwości intelektualnych
dziecka DMI-2 DMI-2S. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak A. (200 l). Testy operacyjności myślenia: diagnoza możliwości intelektualnych
dziecka. Podręcznik. Warszawa: Pracownia Testów Psychologicznych.
Malczak A. (1994). Diagnoza intelektu. Warszawa: Wydawnictwo Instytutu Psychologii
PAN.
Matczak A., Jaworowska A., Szustrowa T., Ciechanowicz A. (2006). Bateria Testów
APIS-Z. Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak A., Jaworowska A., Ciechanowicz A., Stańczak 1., Zalewska E. (2005). Bateria
Testów APIS-P(R). Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Matczak A., Piotrowska A., Ciarkowska W. (1998). Skala Inteligencji D. Wechslera dla
Dzieci - wersja zmodyfikowana. WISC-R. Podręcznik. Warszawa: Pracownia Testów
Psychologicznych PTP.
McCrae R.R., Costa P.T. (2005). Osobowość dorosłego człowieka. Kraków: Wydawnictwo
WAM.
Murphy K.R., DavidshoferC. O. (2005). Psychological Testing. Principles andApplications
(6'" edition). Upper Saddle River, New Jersey: Pearson Education International.
Nęcka E. (2003). Inteligencja. Geneza, struktura, fimkcje. Gdańsk: Gdańskie
Wydawnictwo Psychologiczne.
Nowakowska M. (1970). Polska adaptacja 16-czynnikowego Kwestionariusza Osobowości
R.B. CaUella. Psychologia Wychowawcza. 13,478-500.
Nowakowska M. (1975). Psychologia ilo/iciowa z elementami naukometrii. Warszawa:
PWN.
Paluchowski W.J. (2006). Diagnoza psychologiczna. Podejście ilościowe i jakościowe.
Warszawa: Wydawnictwo Naukowe "Scholar".
Parnowski T., Jernajczyk W. (1977). Inwentarz Depresji Becka w ocenie nastroju osób
zdrowych i chorych na choroby afektywne (ocena pilotażowa), Psychiatria Polska,
11: 417-425.
Piaget J. (1966). Narodziny inteligencji dziecka. Warszawa: PWN.
Piaget 1. (1981). Równoważenie stmktur poznawczych. Warszawa: PWN.
Piaget 1. (2006). Jak sobie dziecko wyohraża świat. Warszawa: PWN.
Polskie Towarzystwo Psychologiczne (1992). Kodek> Etyczno - Zawodowy Psychologa.
Warszawa: PTP. [przedmk w: J. Strelau (red.) (2000). Psychologia. Podręcznik akade-
micki (t. 3, str. 839-843). Gdańsk: Gdańskie Wydawnictwo Psychologiczne.]
Reykowski J. (1992). Procesy emocjonalne. Motywacja. Osobowość. Warszawa: PWN.
Sanocki W. (1986). Kwestionariusze osobowości w psychologii. Warszawa: PWN.
Siuta 1. (2006). Inwentarz Osobowości NEO - PI Costy i McCrae. Adaptacja polska.
Podręcznik. Warszawa: Pracownia Testów Psychologicznych PTP.
Strelau 1. (2001). Psychologia temperamentu. Wyd. 2 zm. Warszawa: Wydawnictwo
246 Naukowe PWN.
Literatura

Strelau J., Jaworowska A., Wrześniewski K., Szczepaniak P. (2005). Kwestionariusz


radzenia sobie w sytuacjach stresowych CISS. Endler, J.D.A. Parker Podręcznik
Warszawa: Pracownia Testów Psychologicznych PTP.
Szustrowa T. (2003). Raport o stanie orzecznictwa psychologicznego w Polsce. Raport
Polskiego Towarzystwa Psychologicznego dostępny on line: http://www.ptp.org.pl/
teksty/raport_ orzecznictwo.doc
Terelak J., Tarnowski A., Kwasucki J. (1993). Psychometryczna ocena kwestionariuszy
Zunga i Hendlera do oceny psychologicznego komponentu bólu krzyża, Przegląd
Psychologiczny, 36,81-97.
Uniwersalny słownik języka polskiego (2004). Warszawa: Wydawnictwo Naukowe
PWN.
Ustawa z dnia 8 czerwca 2001 r. o zawodzie psychologa i samorządzie zawodowym psy-
chologów (Dz. U. Nr 73, poz. 763) [dostępna: http://www.ptp.org.pl/modules.php?na-
me=N ews&file=article&sid=4 7
Werner P.D., Pervin L.A. (1986). The content ofpersonality inventory items. Journal 0/
Personality and Social Psychology, 51, 622-628.
Wilczyńska J., Drwal R.Ł. (1995). Opracowanie Kwestionariusza Aprobaty Społecznej
(KAS). W: R.Ł. Drwal (J. Brzozowski, red.), Adaptacja kwestionariuszy osobowo-
ści. Wybrane zagadnienia i techniki (s. 57-66). Warszawa: Wydawnictwo Naukowe
PWN.
Wrześniewski K., Sosnowski T., Matusik D, (2002). inwentarz stanu i cechy lęku: pol-
ska adaptacja STAJ: podręcznik. Warszawa: Pracownia Testów Psychologicznych
Polskiego Towarzystwa Psychologicznego.
Zakrzewska M. (1994) Analiza czynnikowa w budowaniu i sprawdzaniu modeli psycho-
logicznych. Poznań: wyd. UAM.
ZalewskaA. (2001). "Arkusz Opisu Pracy" O. Neubergera i M. Allerbeck- adaptacja do
warunków polskich. Studia Psychologiczne, 39, 197-217.
Zawadzki B. (2006). Kwestionariusze osobowości. Strategie i procedura konstruowania.
Warszawa: Wydawnictwo Naukowe Scholar.
Zawadzki B., Strelau J. (1997). Formalna Charakterystyka Zachowania - Kwestionariusz
Temperamentu (FCZ-KT). Podręcznik. Warszawa: Pracownia Testów Psychologicznych
PTP.
Zawadzki B., Strelau J., Szczepaniak P., Śliwińska M. (1998). Inwentarz Osobowo.§ci
NEO-FFI Costy i McCrae. Adaptacja polska. Podręcznik. Warszawa: Pracownia
Testów Psychologicznych PTP.

247
INDEKS

A 138, 139, 162, 163, 165, 169, 172,


180, 182, 185, 186, 193, 197, 200,
aksjomaty klasycznej teorii rzetelności 205,206, 208, 209, 211, 212, 215,
65 216,2 17,22 6,231 ,237,2 38,24 0,
alfa Cronbacha 94-96, 104-106, 140, 241
172, 174 centyl 223-22 5
analiza czynnikowa 124-127, 147-
150 D
analiza pozycji 162
dewiacyjny iloraz inteligencji 219-
aprobata społeczna 43, 119, 121, 139,
220
145
długość testu 91, 103

B dystraktor 15
dystrybuanta 184,21 1-212
bateria 24, 30, 35, 36, 37, 38, 39, 96,
123, 128, 161, 190 E
błąd estymacji 197
estymator 66,80- 81, 180-182, 189
błąd losowy 68-69, 70-71, 73-75, 76-
estymator przedziałowy 180
78,180 ,183,1 89,193 estymator punktowy 196
błąd pomiaru 66-68, 71, 73, 74, 76, 78,
estymowany wynik prawdziwy 181,
79, 80, 85, 113, 180, 182, 188, 193, 194-201
197,22 2
błąd różnicy 188-18 9 H
błąd systematyczny 68-69 homogeniczność 124
błąd wnioskowania 185

C
idiograficzne podejście 18, 56
cecha (psychiczna) 10, 12, 13, 14, 16, iloraz inteligencji, patrz dewiacyjny
17,18 ,21,23 ,40,41 ,43,44 ,45,46 , iloraz inteligencji
50,51, 52,54- 58,59, 60,61, 62-63 , informacji zwrotnych udzielanie 137,
65,66 ,67,68 ,71,74 ,75,76 ,77,78 , 234,23 7
79, 80, 84, 86-87, 90, 93, 96, 98, inwentarze, patrz kwestionariusze
112, 113,114, 115, 116, 117, 118, iq, patrz dewiacyjny iloraz inteligencji
248 119, 120, 121, 122, 123, 124, 134, istotność różnicy 193
Indeks

J nomotetyczne podejście 18, 55-56, 62


jednorodność 96, 113 nonna 16, 205-206
normalizacja 112, 113,205-206,209-
K 212,214-215,220,222,225-226
normy 13, 16-17, 113, 205, 206, 225,
klasyczna teoria rzetelności 65, 69, 71,
239
76, 78, 182
normy lokalne 225
klucz 13, 14,93,94,97,106, 162, 167,
241 o
konstrukt 12, 19,84,96, 115, 119-120,
obiektywność, obiektywny test 16-17,
165
112-113
kontaminacja (skażenie) kryterium
obowiązki diagnosty 15,230-236,242
135
ograniczenie czasu 15,23,27,31,34,
kontinuum 54-55, 64
38,39,43,44
kontrakt diagnostyczny 232-237
kowariancja 72-73, 189 p
KR 2D 93-94 parametr 65-66, 70, 76-77, 181-182,
KR21 93-94 195,219-220,222
kryterium trafności 131-136, 138, 140, pomiary niezależne 74-75, 81, 84, 86,
145,151,165 187
krzywa normalna, patrz rozkład nor- populacja 13, 16, 18,62-63,66,70-72,
malny 76-79, 81-83, 113, 165, 181-182,
kwestionariusz 13, 18,21,39-52 186-187, 190, 196-197, 205-207,
L 209,211,214,215,217,218,222,
225,226,232
linia regresji 194-195 poziom istotności 101, 108, 184-187,
191-192,200
M
poziom ufności 185, 191
metoda połówkowa 84,90-93,94,99, półprzedział ufności 185, 192-194
102-104 prawa osoby badanej 230-232
metoda powtarzanego pomiaru (testu), próba 63,70-71,79,96, 100, 101,107,
patrz stabilność bezwzględna 128, 130, 144, 147, 151, 152, 154,
metoda testów (wersji) alternatywnych, 163, 169, 174, 181, 182, 186, 192,
patrz testy równoległe 196, 200, 206, 207-212, 214, 215,
metoda testów równoległych, patrz te- 223-225
sty równoległe próba normalizacyjna 15, 16,207,209,
moc dyskryminacyjna 117, 124, 165- 214,223,225
169, 172, 174, 176 próba reprezentatywna 66, 81, 82, 115,
186,207,209,225
N próbka zachowania 12,17-19,21,238,
narzędzidiagnostycznych ochrona 17, 240
230,240-241 przedział centylowy 223-226 249
Indeks

przedział ufności
10, 78, 81, 180-187, skale znormalizowane 215-222, 224-
190-194,198-201,238 226
Spearmana-Brown wzór 91-92, 102-
R 103, 140
rangi 52, 140-143,225 stabilność bezwzględna 84-90, 98, 99,
rozkład dwumodalny 170, patrz też 100-101
rozkład dwuwierzchołkowy stabilność względna 87,89-90,98,99
rozkład dwuwierzchołkowy 2l3, 215, stałość testu, patrz stabilność bez-
patrz też rozkład dwumodalny względna
rozkład Gaussa, patrz rozkład normal- stałość w czasie 66, 86-88
ny standardowy błąd estymacji, patrz SEE
rozkład normalny 55-56, 61, 63, 74, standardowy błąd pomiaru 182, 184
76,169 - 170,176,184,187,205, 186,198
206,209,211-213,226 standardowy błąd pomiaru, patrz SEM
rozkład skośny 170-172, 174-176, standardowy błąd różnicy 187-190,
213-214,226 192
rozwojowy iloraz inteligencji 25, 219 standardowy błąd różnicy patrz SEMD
równoważność międzytestowa 89-90, standaryzacja (procedury badania) 15,
98,99 112,
rzetelność 13, 14, 16, 17,22,65,67-69, standaryzacja (rozkładu wyników)
71, 73, 76-82, 84-87, 89-94, 96- 206-209
106, 108, 112, 113, 117, 135, 139, stanina 216, 221
140, 161-162, 172, 182, 186-187, sten 217,221
190, 192, 194-196, 198-20 l
T
S tajemnica zawodowa 235-236
SEE 197-198,200 ten 217,221
selekcja 19,22,30,38,41,42,43,45, test mocy 23, 27,
225 test szybkości 23, 68
SEM 16,74-75,77, 80-82, 181-186, test zdolności 13, 18,21,23-39
189,192,197-198,200 testowy materiał 12-13,15-16,22-23,
SEMD 187, 189-190,192-194 26-35,114,233,240,24]
sędzia kompetentny 84, 97-98, 115- testowy podręcznik 12-13, 15-16, 81,
117, 121, 133, 140 119-120, 123, 128, 186, 192, 200,
siatka centylowa 226 232,242
skala centylowa, patrz centyl, siatka test-retest, patrz stabilność bezwzględ­
centylowa, przedział centylowy na
skala iq, patrz dewiacyjny iloraz inte- testy niewerbalne 15, 23, 24, 25, 26,
ligencji 29,30,31
skala staninowa, patrz stanin testy równoległe 14,84-86,88,89,90,
skala stenowa, patrz sten 92,98
250 skala tenowa, patrz ten testy werbalne 23, 30, 31
Indeks

testy wykonaniowe, patrz testy niewer- wskaźnik rzetelności 80


balne wskaźnik trudności pozycji, patrz trud-
tetron 218,221 ność pozycji testowej
trafności diagnostyczna 132, 134, 138 wskaźniki (cechy psychicznej) 57-61,
trafność 13, 14, 16, 17,68, 111-159, 63, 66, 85, 112, 117, 125, 130, 139,
161 162
trafność dywergencyjna, patrz trafność wskaźniki trafności 118, 120-121, 123,
różnicowa 131
trafność fasadowa 136-137 współczynnik alfa Cronbacha, patrz
trafność konwergencyj na, patrz traf- alfa Cronbacha
ność zbieżna współczynnik determinacji 79-80
trafnośćkryterialna 112,114,131-136, współczynnik korelacji 84, 85, 86, 87,
137, 138, 151 88, 89, 90, 91, 97, 103, 118, 120,
trafność prognostyczna 132-136 122, 128, 131, 145-146, 166, 174,
trafność różnicowa 120-123, 134 198,
trafność teoretyczna 87, 114, 118-131, współczynnik równoważności między­
134, 136, 137, 138, 139, 145, 151 testowej, patrz testy równoległe
trafność treściowa 114-117, 140 współczynnik rzetelności 79, 81, 85,
trafność wewnętrzna, patrz trafność 91,92,99,113,161,186,191,192,
treściowa 196,198,199,200
trafność zbieżna 120-123, 134 współczynnik Spearmana-Brown, patrz
trafność zewnętrzna, patrz trafność Spearmana-Brown wzór
kryterialna współczynnik stabilności bezwzględ­
trudność pozycji testowej 23, 24, 26, nej, patrz stabilność bezwzględna
27, 29, 30, 34, 91, 92, 94, 99, 162- współczynnik stabilności względnej,
164, 169, 171, 172, 174,222 patrz testy równoległe
współczynnik wiarygodności, patrz
W stabilność bezwzględna
wariancja błędów 72, 78-80, 189 współczynnik W-Kendalla, patrz
wariancja całkowita 72, 78, 80 W-Kendalla
wariancja prawdziwa, patrz wariancja współczynnik zgodności sędziów, patrz
wyników prawdziwych W-Kendalla
wariancja wyników otrzymanych 72, współczynnik zgodności wewnętrznej,
78-80,84 patrz zgodność wewnętrzna
wariancja wyników prawdziwych 72, wynik otrzymany 67, 69-72, 74, 79,
78-80,84 95,99,180-182,184-186,188,190,
wiarygodność testu 84, 85, 89, 98, 99 194,196-201,206,207,209,238
W-Kendalla97-98, ]07-108, 116, 140, wynik prawdziwy 66-68, 70-72, 74-
142-145 76,81,84,180-186,194-201,238
wskaźnik dyskryminacj i 166-167 wynik przeliczony 96, 190
wskaźnik mocy dyskryminacyjnej, wynik surowy 16, 206-208,212-215,
patrz moc dyskryminacyjna 218,220-225 251
Indeks

wynik wystandaryzowany 184, 207-


z
209,212,215
wynik znormalizowany 212-21 8, 220- zgoda na udział w badaniu diagno-
221 stycznym 231-23 4
zgodność ocen sędziów 97-99, 144
wyników testowych komunikowanie
zgodność wewnętrzna 84-86, 90, 93,
236-239
wzory Kuder i Richardson, patrz KR20 94, 96, 99, 104, 105, 109, 1l3, 124,
i KR2I 160, 162, 166, 174
wzór Spearmana-Brown, patrz Spear- zmienn a ciągła l36, 152,21 0,211
mana-Brown wzór zmienna dyskretna 211
zmienna kryterialna, patrz kryterium
trafności

252

You might also like