Professional Documents
Culture Documents
Fronczyk - Psychometria
Fronczyk - Psychometria
Recenzent
Prof. dr hab. Bogdan Zawadzki
Redaktor prowadzący
Wojciech Żyłko
Redakcja i korekta
Joanna Dziejowska
Wydanie I
ISBN: 978-83-61086-31-4
Skład i łamanie
BEST Stanisław Beczek, tel. 693 650 984
Warszawa 2009
Spis treści
Wprowadzenie . . . . . . . . . . . . . . . 9
Andrzej Rynkiewicz
6.2. Normy i normalizacja · 205
6.2.1. Norma i normy · 205
6.2.2. Standaryzacja . · 207
6.2.3. Normalizacja . .209
6.2.4. Skale znonnalizowane ; 215
6.2.4.1. Skala staninowa · 216
6.2.4.2. Skala stenowa . · 217 7
6.2.4.3. Skala tenowa .. · 217
6.2.4.4. Skala tetronowa . · 218
6.2.4.5. Iloraz inteligencji · 219
6.2.4.6. Przeliczanie wyników na skale znonnalizowane : 220
6.2.5. Nonny centylowe . .222
Zalecana literatura. . .226
Zadania . . . . . . . .227
Odpowiedzi do zadań .228
Literatura. .244
Indeks . .. .248
WPROWADZENIE
11
1. ZASTOSOWANIE TESTÓW PSYCHOLOGICZNYCH
Ewa Witkowska
WYDZIAŁPSYCHOLOGII
UNIWERSYTET WARSZAWSKI
1.1.3. Standaryzacja
Pojęcie standaryzacji odnosi się do warunków badania testem, a konkretnie -
do zapewnienia, że każdorazowo stosowana procedura jest identyczna z opisaną
w podręczniku testowym. Chodzi tu zarówno o to, żeby badania nie zakłócały
żadne dystraktory (np. hałas, pojawienie się niepożądanych osób trzecich, złe
oświetlenie), jak i o to, aby używany materiał testowy był zawsze taki sam, co
jest oczywiście najważniejsze w przypadku testów wykonani owych (na przy-
kład, gdy badany ma za zadanie ułożenie układanki, przed badaniem psycholog
musi upewnić się, że jej elementy nie zostały uszkodzone w dotychczasowych
badaniach) .
Procedura badania testem jest wyczerpująco opisana w podręczniku do danego
testu. Znajdziemy tam informacje o tym, czy badanie ma charakter indywidualny
czy grupowy, czy ma ono być prowadzone z ograniczeniem czasowym czy też
bcz niego, czy osoba badana ma możliwość powrotu do wcześniejszych zadań,
w jakim zakresie psycholog jest uprawniony do udzielania pomocy badanemu
i inne wskazówki dotyczące przeprowadzania badania danym narzędziem.
Standaryzacja jest ważna z tego względu, że tylko wtedy, gdy przestrzega-
na jest jednolitość warunków testowania badanych, różnice w wynikach można
przypisywać różnicom indywidualnym, a nie warunkom testowania. Aby lepiej
zrozumieć konsekwencje nieprzestrzegania standardowej procedury badania,
wyobraźmy sobie następującą, przerysowaną sytuację. Psycholog miał porównać
inteligencję Jasia i Małgosi. Jaś był badany około południa, w dobrze oświetlo
nym, cichym pomieszczeniu, natomiast Małgosia - po całym dniu pracy, oko-
ło godziny 21.00, w pokoju, gdzie w denerwujący sposób migała jarzeniówka,
a przez cały czas trwania badania zza okna dochodził odgłos alarmu samocho-
dowego. Załóżmy, że Małgosia otrzymała wynik wskazujący na niższy poziom
inteligencji niż Jaś. Czy taki rezultat jest miarodajny? Czy rzeczywiście wskazuje
on na niższe zdolności poznawcze Małgosi, czy jedynie na gorsze warunki ba-
dania? Niestety, w takiej sytuacji nie da się tego rozstrzygnąć i tym samym nie
można porównywać wyników obu badań. Podobny problem występuje w sytu-
acji, gdy sposób badania odbiega od tego, któremu poddana była próba norma-
lizacyjna (na przykład psycholog podzielił długi test na dwie części i spotkał
się z badanym dwukrotnie, zamiast jednorazowo, jak informował podręcznik).
Tracimy wówczas możliwość odnoszenia wyniku uzyskanego przez osobę bada-
ną do podanych norm i tym samym - możliwość porównania z grupą odniesienia
(Homowska, 2002).
Aby możliwe było porównywanie wyników różnych osób psycholog-diagno-
sta zobówiązany jest do dokładnego zapoznania się z prOCedurą badania testem,
opisaną w podręczniku testowym i do skrupulatnego jej przestrzegania. 15
Ewa Witkowska
1.1.4. Normy
Normy dla testu, pozwalają na nadawanie sensu wynikom testowym poszcze-
gólnych osób badanych, poprzez porównywanie ich z wynikami uzyskanymi
przez populację odniesienia. Wynik surowy uzyskany przez osobę badaną w te-
ście (suma punktów odpowiedzi poprawnych lub diagnostycznych) jest zupełnie
bezużyteczny, gdyż sam w sobie nie jest możliwy do zinterpretowania. Ilościowa
interpretacja wyniku testu psychologicznego odbywa się poprzez porównanie go
z rozkładem wyników próby normalizacyjnej. Ten sam wynik może być oczy-
wiście porównywany z różnymi grupami odniesienia, prowadząc'do innych in-
terpretacji. Przykładowo na podstawie danych normalizacyjnych, zamieszczo-
nych w podręczniku testowym, wynik pewnego badanego w skali Sumienności
inwentarza NEO-PI-R (Siuta, 2006) może być oceniony jako wynik wysoki na
tle populacji ogólnej. Jednak ten sam wynik może okazać się przeciętny na tle
wyników biegłych księgowych.
W celu uniknięcia nieporozumień, należy dobrze zrozumieć pojęcie normy.
W sensie psychometrycznym "norma" opisuje jedynie typowy poziom wykona-
nia, określony albo na podstawie tego, jaki odsetek osób w grupie odniesienia
uzyskał określone wyniki, albo na podstawie średniej wartości oszacow.anej dla
przedstawicieli danej grupy. Tak rozumiana norma nie odnosi się do tego, czy
dane natężenie cechy świadczy o zdrowiu czy chorobie, ani nie wyznacza stan-
dardu "praw~dłowego" czy "dobrego" wykonania.
1.1.5. Obiektywność
19
Ewa Witkowska
Pytania sprawdzające
l. Co to jest test psychologiczny?
2. Jak odróżnić profesjonalny test psychologiczny od popularnej psychozaba-
wy?
3. Wymień podstawowe charakterystyki testu.
4. Co to jest rzetelność pomiaru testem?
5. Dlaczego trafność pomiaru testem jest uznawana za jego najważniejszą cha-
rakterystykę?
6. Na czym polega standaryzacja warunków testowania?
7. Co to jest "obiektywność" diagnozy testowej?
8. Co to jest "norma" w sensie psychometrycznym?
9. Na czym polega diagnozowanie psychologiczne?
10. Jakie inne metody, oprócz testów psychometrycznych, mogą być wykorzy-
stane przez psychologa w diagnozie?
11. Jakie informacje zawiera podręcznik testowy?
12. Po czym można poznać dobry test psychologiczny?
13. Opisz podejście idiograficzne i nomotetyczne do diagnozy osobowości.
20
2. PRZEGLĄD WYBRANYCH TESTÓW PSYCHOLOGICZNYCH
Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE
Testy grupowe, które mogą być wykonywane jednocześnie przez wiele osób,
cechują się prostym sposobem badania, ograniczającym się do podania instrukcji
i wręczenia badanym arkuszy testowych. Prostota badania sprzyja zachowaniu
standardowej procedury badania. Dzięki testom grupowym możliwe jest jedno-
czesne badanie dużej liczby osób, której wielkość ograniczona jest właściwie
tylko rozmiarami sali, w jakiej przeprowadza się badanie (z czego wynika liczba
dostępnych miejsc do siedzenia oraz słyszalność psychologa mówiącego treść
instrukcji do danego testu), a także możliwością kontroli zachowania osób ba-
danych i prowadzenia badań w zbliżonych warunkach dla wszystkich badanych.
Z powodu jednoczesnego badania wielu osób, pozycje testowe testów grupo-
wych są skonstruowane tak, aby nie było konieczności wchodzenia w indywi-
dualny kontakt z badanymi, udzielania im dodatkowych wyjaśnień itp. Testy
grupowe składają się z zamkniętych pozycji testowych, zawierających kilka go-
towych odpowiedzi, a badany musi wybrać jedną spośród nich. Pozwala to na
szybkie i sprawne przeprowadzenie badania. W testach grupowych nie zdarzają
się otwarte pozycje testowe, czyli takie, w których osoba badana sama musi sfor-
mułować odpowiedź. Wydłużałoby to znacznie procedurę badania i obliczania
wyników. Sposób obliczania wyników jest możliwie uproszczony, tak by spraw-
dzanie dużej liczby testów zajęło jak najmniej czasu.
Testy grupowe wymagają od badanych korzystania z instrukcji udzielanych
całej grupie, samodzielnego czytania ewentualnych, wydrukowanych instrukcji
oraz samodzielnego wpisywania swoich odpowiedzi. Brak bezpośredniej kon-
troli nad tym, czy badani stosują się do instrukcji we właściwy sposób lub czy
odpowiadają na wszystkie pozycje testowe może obniżać rzetelność wyników
badań grupowych.
Testy grupowe są idealne w sytuacji, gdy trzeba szybko przebadać większą
liczbę osób, np. w celu wstępnej selekcji, gdy chodzi o wyłonienie osób o skraj-
nym nasileniu jakiejś właściwości psychicznej.
Natomiast testy indywidualne, ze względu na swoją specyfikę, nie mogą być
wykorzystywane do jednoczesnego badania więcej niż jednej osoby. Specyfika
ta wynika zwykle ze złożoności procedury badania, wymagającej od psychologa
jednoczesnego wykonywania wielu czynności (np. mierzenia czasu udzielania
odpowiedzi na poszczególne pozycje testowe, zapisywania odpowiedzi osoby
badanej, prezentowania materiału testowego w odpowiedniej kolejności, punkto-
wania odpowiedzi badanego w trakcie przeprowadzania badania itp.). Trudność
polega nie tylko na uciążliwości procedury testowej, która przez diagnostę musi
być bardzo dobrze opanowana, ale również na konieczności nawiązania indywi-
dualnego kontaktu z osobą badaną. Dzięki temu testy indywidualne umożliwia
ją dokonywanie szczegółowych obserwacji zachowania osoby badanej podczas
udzielania odpowiedzi na pytania testu. Wymienione właściwości testów indy-
widualnych przyczyniają się do tego, że są one znacznie bardziej czasochłonne.
22 Najczęściej (choć nie musi być to regułą) testy indywidualne znajdują zasto-
2. Przegląd wybranych teslów psychologicznych
intelektualne dziecka. Oznacza to, że zadania, które były stosunkowo trudne dla
dzieci młodszych, dla dzieci starszych stają się łatwe lub wręcz banalne, a tym
samym przestają różnicować badanych, gdyż wszystkie starsze dzieci są w sta-
nie je prawidłowo rozwiązać. Tak więc w zestawach przeznaczonych dla dzieci,
w kolejnych grupach wieku, znajdują się co raz trudniejsze zadania.
Badanie za pomocą skal rozwojowych, które jest indywidualne, rozpoczyna
się zwykle od zestawu odpowiadającego liczbie lat żyda danego dziecka. W wy-
padku, gdy badany nie radzi sobie z zadaniami przeznaczonymi dla jego wieku
wykonuje się zadania łatwiejsze, przeznaczone dla osób młodszych. Jeśli dziecko
rozwiązuje bez problemu zadania dla swojego wieku, to można przejść do zadań
trudniejszych, dochodząc do zadań o takim poziomie trudności, których dziecko
nie jest w stanie rozwiązać.
Niektóre z narzędzi przeznaczonych do pomiaru inteligencji i zdolności mają
szczególna formę zwaną bateriami. Baterie składają się z pewnej liczby odręb
nych testów. Każdy z nich przeznaczony jest do pomiaru nieco innej zdolności
intelektualnej. Oprócz wyników w poszczególnych testach, zazwyczaj oblicza się
jakiś rodzaj wyniku ogólnego, będącego łącznym rezultatem wszystkich testów.
Procedura badania baterią zakłada zwykle, że wykonuje się kolejno wszystkie
testy wchodzące w jej skład.
Za twórcę pierwszego testu inteligencji uważany jest Alfred Binet (1857-1911)
i jego współpracownik - Theophile Simon. W 1905 roku opracowali oni zestaw
zadań o wzrastającym poziomie trudności, opartych na treściach nauczania. Tak
utworzony test przeznaczony był do pomiaru bardzo różnych funkcji intelek-
tualnych, ze szczególnym uwzględnieniem oceniania i rozumowania. Skala ta
zawierała także zadania sensoryczne i percepcyjne. Test ten zawierał więc za-
równo zadania werbalne, jak i wykonani owe. Ten pierwszy test inteligencji był
jednocześnie narzędziem o charakterze skali rozwojowej przeznaczonej dla dzie-
ci w wieku od 3 do 13 lat.
Opracowany przez siebie test Binet i Simon przekazali pewnej liczbie pary-
skich uczniów. Następnie określono, ilu uczniów danego rocznika odpowiada-
ło prawidłowo na każde zadanie testu. Jeżeli jakieś zadanie zostało rozwiązane
przez 70% dzieci w tym samym wieku, uznawano, że większość dzieci w da-
nym wieku powinnaje prawidłowo rozwiązać. W ten sposób dla dzieci o różnym
poziomie wieku przyporządkowano zadania, które przez dzieci te powinny być
prawidłowo rozwiązywane. Tak więc np. poziomowi 3 lat przypisywano wszyst-
kie zadania pomyślnie wykonane przez większość trzylatków, poziomowi 4 lat -
wszystkie zadania prawidłowo wykonane przez większość czterolatków itd., aż
do wieku 13 lat.
Procedura obliczania wyników indywidualnych dzieci była następująca. Jeśli
jakieś dziecko poprawnie rozwiązało zadania przeznaczone dla pewnej grupy
wieku, wynik jego określano jako tzw. wiek umysłowy odpowiadający wieko-
24 wi dzieci wykonujących poprawnie te same zadania. Przykładowo: jeśli dziecko
2. Przegląd wybranych testów psychologicznych
stach. Uważa się także, że zdolność tę człowiek zaczyna nabywać dość wcześnie
w trakcie swojego rozwoju, co umożliwia wykorzystywanie zadań dotyczących
klasyfikacji w testach przeznaczonych dla dzieci.
cji możliwe jest dzięki zauważaniu różnic między elementami. Zmieniający się
wraz z rozwojem poziom tych zdolności jest przedmiotem diagnozy przy użyciu
testów DM!. Tak więc testy te umożliwiają ocenę stopnia rozwojowego zaawan-
sowania myślenia operacyjnego i wykrywania jego deficytów. Każdy z testów
zawiera zadania zrealizowane zarówno na materiale werbalnym, rysunkowym,
jak i liczbowym. Oprócz oceny ilościowej, testy DMI dostarczają jakościowych
infonnacji o stopniu rozwoju operacji umysłowych. Możliwa jest także analiza
uzasadnień odpowiedzi udzielanych przez dziecko.
Nieco dokładniej zostanie opisana konstrukcja testów DMI-2. Każdy z nich
składa się z dwóch podtestów, z których jeden zawiera zadania o strukturze klas,
a drugi - zadania o strukturze relacji. W ramach każdego z podtestów występują
trzy rodzaje zadań. Pierwszym, i najprostszym z nich, jest Uzupełnianie. Zadania
tego typu polegają na uzupełnianiu trójelementowej klasy lub serii czwartym ele-
mentem. Drugi rodzaj pozycji testowych to Analogie. Zadaniem osoby badanej
jest dopasowanie do istniejącej pary elementów drugiej pary elementów na wzór
pierwszej. Ostatni rodzaj zadań stanowi Mnożenie. Nie chodzi tu oczywiście
o mnożenie w sensie algebraicznym, a o mnożenie klas lub relacji, czyli o po-
szukiwanie ich części wspólnych. Badany ma tu uzupełnić dwie klasy lub serie
wspólnym elementem, spełniającym reguły, wedle których dobrano elementy
tych dwóch układów.
Właściwe odpowiedzi badany każdorazowo wybiera spośród czterech (DMI)
lub pięciu (DMI-2) podanych. Odpowiedzi punktuje się w skali od O do 3 (w za-
leżności od stopnia ich poprawności).
Testy DMI przeznaczone są dla dzieci w wieku szkolnym. Przeprowadza się je
indywidualne lub grupowo (zależnie od wersji) w trakcie dwu sesji. Czas badania
testami DMIjest nieograniczony. Wersje przeznaczone do badał} indywidualnych
tym różnią się od wersji do badań grupowych, że w tych pierwszych przewi-
dziane jest zbieranie od dzieci uzasadnidł odpowiedzi. Wersje przeznaczone do
badań indywidualnych stanowią próbę połączenia diagnozy psychometrycznej
z ideami diagnozy dynamicznej.
Testy DMI można stosować zamiast, lub jako uzupełnienie, testu inteligencji,
w celu oceny ogólnego poziomu umysłowego dziecka. Ponadto mogą być one
przydatne w diagnozowaniu stopnia rozwojowego zaawansowania myślenia ope-
racyjnego i w określaniu jego deficytów. Są to istotne przesłanki prognozowania
osiągnięć szkolnych lub wykrywania przyczyn trudnośCi w nauce. Uzyskiwane
infonnacje jakościowe (zwłaszcza pochodzące z badał} indywidualnych) mogą
być pomocne przy planowaniu oddziaływań korekcyjno-wychowawczych.
Testy DMI kończą prezentację wybranych, najbardziej znanych w Polsce skal
rozwojowych.
28
2. Przegląd wybranych testów psychologicznych
2 3
O C) L:) V V V I (] C
O O O V
er-
V
-o-
V
---o
-er il
V V
O O D o-
n
-o-
n D C- D
I 234 2 3 .4
[BD~[§) [®wOOW
S 6 7 8 S 678 5 678
Rysunek 2.3. Przykład zadania zbliżonego do pozycji testowych testu Braki w obrazkach
ze Skali Wechslera
;I·
następowania po sobie kolejnych zdarzeń.
A B c
i
t
Rysunek 2.4. Przykład zadania zbliżonego do pozycji testowych testu Porządkowanie
obrazków ze Skali Wechslera
Rysunek. 2.6. Wzór zbliżony do układów klocków, jakie należy odtworzyć w teście Klocki
ze Skali Wechslera
Rysunek 2.7. Elementy pozycji testowej zbliżonej do zadań testu Układanki ze Skali
Wechslera 33
Krzysztof Fronczyk
Test Symbole cyfr bada zdolności uczenia się, koncentrację i pamięć krót-
kotrwałą. Test ten składa się ze swego rodzaju szyfru przyporządkowującego
każdej z dziesięciu cyfr pewne symbole graficzne. Zadaniem osoby badanej jest
zakodowanie długiego ciągu cyfr przy użyciu podanego szyfru. Czas wykonania
jest ograniczony tak, aby żaden badany nie zdążył zakodować wszystkich cyfr
(których jest 100) w wyznaczonym czasie (rys. 2.8.). Oczywiście poszczególne
osoby różnią się tym, jak dużo cyfr udało im się zakodować w określonym czasie
(Homowska, 2004).
Rysunek 2.9. Przykład zadania zbliżonego do pozycji testowych testu Symbole cyfr ze
Skali Wechslera
Oprócz WAIS-R, przeznaczonego dla osób powyżej 18 lat, stworzono też wer-
sję dla dzieci od 6 do 17 lat (WICS-R - Wechsler Intelligence Scalejor Chidren-
Revised) oraz wersję dla małych dzieci od 4 lat do 6,5 roku (WPSSI - Wechsler
Preschool and Primary Scale oj Intelligence). Wersja dla dzieci składa się z ta-
kich samych testów słownych i bezsłownych jak wersja dla dorosłych (oczywi-
ście o innym poziomie trudności). Dodatkowo WISC-R zawiera test Labirynty
(rys. 2.10.) przeznaczony do badania koordynacji wzrokowo-ruchowej i orienta-
cji w przestrzeni. Zadania tego testu polegają na znalezieniu wyjścia z labiryntu,
przy czym poszukiwanie drogi wyjścia rozpoczyna się od środka labiryntu. Test
składa się z szeregu labiryntów o wzrastającym poziomie złożoności.
34
2. Przegląd wybranych testów psychologicznych
Rysunek 2.10. Przykład zadania zbliżonego do pozycji testowych testu Labirynt ze Skali
Wechslera dla dzieci
15 5 0,3 0,1 9
36
2. Przegląd wybranych testów psychologicznych
/" łownia
wica
let
Rysunek 2.12. Przykład zadania zbliżonego do pozycji testowych testu Nowe słowa ba-
terii APIS
Test Kwadraty składa się z wielobocznych figur. Każdą z takich figur należy
tak przeciąć w wyobraźni na dwie części za pomocą jednej linii prostej, aby po
odpowiednim obróceniu powstałych elementów utworzyć kwadrat. Zadaniem
osoby badanej jest znalezienie takiego przecięcia (rys. 2.13.). Linię taką należy
narysować między parą wybranych liczb znajdujących się na bokach figury.
12 13
7 8
4 3 2
Rysunek 2.13. Przykład zadania zbliżonego do pozycji testowych testu Kwadraty baterii
APIS
37
Krzysztof Fronczyk
Rysunek 2.14. Przykład zadania zbliżonego do pozycji testowych testu Klocki baterii
APIS
dwie wersje, dla dziewcząt i chłopców, różniące się wyłącznie formą gramatycz-
ną pytań. Zawiera pytania dotyczące różnych sytuacji występujących w życiu
młodzieży (kontakty w grupie rówieśniczej, życie rodzinne, osiągnięcia szkolne,
spędzanie wolnego czasu itp.). KBPK stosowany jest przede wszystkim do ce-
lów badawczych, ewentualnie jako metoda wspomagająca diagnozę osobowości
w praktyce psychologicznej.
Kwestionariusz Radzenia Sobie w Sytuacjach Stresowych (CISS) Endlera
i Parkera (Strelau, Jaworowska, Wrześniewski, Szczepaniak, 2005) przeznaczo-
ny jest do badania zachowań, jakie ludzie mogą przejawiać w sytuacjach stre-
sowych, ujętych w trzy style radzenia sobie z,e stresem: styl skoncentrowany na
zadaniu, styl skoncentrowany na emocjach oraz styl skoncentrowany na unika-
niu. Ten ostatni styl może przyjmować dwie fonny: angażowanie się w czynności
zastępcze i poszukiwanie kontaktów towarzyskich.
CISS składa się z 48 stwierdzeń dotyczących różnych zachowań, jakie ludzie
mogą podejmować w sytuacjach trudnych. Badany określa na S-stopniowej skali
częstotliwość tego typu zachowań.
Jeszcze innym przykładem wykorzystania kwestionariuszy jest Inwentarz
Zainteresowań opracowany przez Frydrychowicz, Jaworską, Woynarowską,
Matuszewskiego (1994), który pozwala na ocenę 9 grup zainteresowań tworzą
cych odpowiednie skale (Handlowo-Biurowe, Techniczne, Literackie, Rolnicze,
Opiekuńcze, Wojskowe, Plastyczne, Naukowe, Muzyczne). Kwestionariusz ten
przeznaczony jest do badań młodzieży przygotowującej się do wyboru kierun-
ku dalszego kształcenia. Narzędzie to może być wykorzystywane w praktyce
psychologicznej, chociaż przy interpretacji wyników należy zachować pewną
ostrożność, gdyż nonny zostały opracowane w 1991 roku, czyli już dość dawno.
Inwentarz Zainteresowań, mimo że przeznaczony do diagnozy jednego aspektu
osobowości, jakim są zainteresowania, posiada wiele wymiarów. Podobną wie-
lowymiarową strukturę ma Skala Agresji Buss Durkec (Drwal, 1995). Struktura
ta wynika z tego, że w psychologii rozróżnia się wiele rodzajów agresji. Skala
Agresji Buss Durkee zawiera siedem skal odnoszących się do różnych fonn za-
chowania agresywnego (Atak, Wrogość pośrednia, Drażliwość, Negatywizm,
Uraza, Podejrzliwość, Agresja słowna). Jest to o tyle ważne, o ile inne istnieją
ce na świecie kwestionariusze agresywności dostarczają jedynie ogólnej miary
agresywności, bez uwzględniania różnorodnych przejawów tej cechy. Wyniki
wszystkich siedmiu skal, po zsumowaniu, dają wskaźnik ogólnego poziomu
agresji. Dodatkowo, w inwentarzu zawarta jest skala poczucia winy.
Skala Agresji Buss Durkee bywa stosowana w praktyce sądowej do badania
więźniów i oskarżonych, a także w praktyce klinicznej przy diagnozie agresyw-
ności pacjentów psychiatrycznych. Inwentarz ten nie służy do badania przyczyn
i intencji agresywnego zachowania, a jedynie umożliwia diagnozę poziomu po-
46 szczególnych rodzajów agresywności.
2. Przegląd wybranych lesIów psychologicznych
do jakiej odnoszą się sytuacji. Tego typu pozycje testowe to wszystkie przytoczo-
ne dotychczas przykłady. Po drugie, istnieją pozycje testowe, w których w ogól-
nikowy sposób określono, jakiej sytuacji dotyczą ("Zrobiłbym chyba wszystko,
gdyby mnie sprowokowano"; IPSA, "Zwraca moją uwagę zmiana smaku wody,
gdy przebywam w nowym miejscu"; FCZ-KT). Trzecią grupę stanowią takie po-
zycje testowe, w których w dość jasny sposób określono sytuację ("W karnawale,
jeśli tylko mam taką możliwość, uczestniczę w wielu zabawach, prywatkach";
"Jeśli śpię krócej niż zwykle, to następnego dnia czuję się rozbity (rozbita) i zmę
czony (zmęczona)"; FCZ-KT). Dwie ostatnie kategorie stanowią około połowy
pozycji testowych, znajdujących się w najczęściej stosowanych kwestionariu-
szach osobowości (Werner i Pervin, 1986).
Oprócz treści oraz sytuacji można także analizować aspekt czasowy, jakiego
dotyczą pozycje testowe. Generalnie pozycje testowe mogą odnosić się do prze-
szłości, przyszłości lub teraźniejszości, co wyrażone jest najczęściej odpowied-
nim czasem gramatycznym czasowników. Oprócz tego w kwestionariuszach spo-
tyka się pozycje testowe wyrażone w trybie przypuszczającym (np. "Najchętniej
bym siedział przez większość czasu i marzył, zamiast coś robić", "Chciałbym
być śpiewakiem"; MMPI). Najcz~ściej jednak w kwestionariuszach osobowości
spotyka się pozycje testowe dotyczące teraźniejszości (Werner i Pervin, 1986).
Poruszając zagadnienie aspektu czasowego, jakiego dotyczą pozycje testowe,
należy także wspomnieć o częstości wykonywania czynności. W niektórych po-
zycjach testowych stosuje si~ określniki częstości w rodzaju: "często", "czasa-
mi", "rzadko", "bywa, że", "przez większość czasu" itp. Inne pozycje testowe
w ogóle nie precyzują częstości. Oprócz pozycji testowych, należących do tych
dwóch przeciwstawnych grup, bywają także takie, których treść nie całkowicie
jest jasna co do częstości występowania danej czynności. Niejasność ta wynika
niekiedy z trudności w takim sfonnułowaniu pytań, aby dotyczyły one jedynie
częstości a nie innych aspektów danego zachowania np. intensywności. Jako
przykład takiej pozycji testowej może posłużyć stwierdzenie pochodzące z kwe-
stionariusza MMPI - "Ludzie łatwo mnie niecierpliwią'. W zdaniu tym nie do
końca wiadomo, czy zniecierpliwienie ludźmi następuje u badanej osoby dość
szybko czy też badany często obserwuje u siebie takie zniecierpliwienie.
Pytania sprawdzające
1. Jak można scharakteryzować kwestionariusze osobowości?
2. Co jest źródłem informacji w testach inteligencji?
3. Jaki charakter mogą mieć pozycje testowe w kwestionariuszach osobowości?
52 4. Podaj przykłady znanych Ci testów inteligenci i zdolności.
2. Przegląd wybranych testów psychologicznych
53
3. CO TO JEST POMIAR PSYCHOLOGICZNY?
Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE
Osoba Wynik
A 100
B 130
C 70
D 100
bie równe. Przyporządkowanie osobie B wartości 130 punktów w tej samej skali
inteligencj i odzwierciedla sytuacj ę, w której osoby A i D są mniej inteligentne niż
osoba B. Ponadto różnica w poziomie inteligencji między osobąAa osobą B jest
dokładnie taka sama, jak różnica między osobą A a osobą C. Podkreślić należy,
że nie chodzi tu po prostu o różnice w wynikach zastosowanego testu inteligencji,
który jest tylko jednym z wielu rÓżnych sposobów pomiaru inteligencji, ale o to,
że wyniki te odzwierciedlają poziom inteligencji osób badanych. Jak wspomnia-
no, inteligencja może być mierzona na wiele różnych sposobów. Gdyby zastoso-
wano inne narzędzie pomiarowe, otrzymałoby się oczywiście inne liczby. Jednak
relacje między nimi powinny być takie same, jak w opisanym przykładzie. Tak
więc, niezależnie od wykorzystanej techniki pomiaru, powinniśmy uzyskać wy-
niki wskazujące, że osoba B jest najbardziej inteligentna, a osoba C - najmniej .
., Poziom inteligencji osób A i D powinien być sobie równy. Dodatkowo osoba B
powinna być o tyle samo inteligentniejsza od A (oraz D), o ile A (oraz D) jest
inteligentniejsza od C.
3.3. Wskaźniki
wypadkową wielu cech oraz sytuacji, w jakiej człowiek się aktualnie znajduje.
Jeżeli więc widzimy mężczyznę i kobietę w eleganckiej restauracji przy jednym
stoliku zajętych rozmową i spożywaniem obiadu, to możemy domyślać się przy-
najmniej kilku powodów, dla których się tam znaleźli. Po pierwsze, być może
obserwujemy pracowników jednej finny, którzy właśnie wyszli na przerwę obia-
dową. Być może są to osoby bardzo towarzyskie, które nigdy nie jadają obiadów
samotnie i zawsze udają się do restauracji z kimś ze znajomych z pracy. Możliwe
jest nawet, że są to przyjaciele, którzy często jadają wspólnie obiad. Po drugie
możliwe jest, że ta para jest wzajemnie sobą zainteresowana i obserwujemy ich
właśnie podczas randki. I wreszcie, ostatnia interpretacja to taka, według której
obie osoby są bardzo głodne a to, że siedzą przy jednym stoliku jest czystym
przypadkiem.
Jak widać, wszystkie podane interpretacje odwołują się do takich zmiennych
psychologicznych, jak towarzyskość, stan głodu czy uczucie zakochania lub miło
ści. Wszystkie te zmienne nie są bezpośrednio obserwowalne, mają więc charak-
ter latentny. W celu wnioskowania o którejkolwiek z wymienionych zmiennych,
konieczne jest znalezienie odpowiednich wskaźników. Jak pokazano w opisa-
nym przykładzie, jeden wskaźnik, jakim jest zjedzenie wspólnego obiadu może
dotyczyć różnych zmiennych. Tak więc obserwując tylko to jedno zachowanie
nie można jednoznacznie określić jego psychologicznych przyczyn. Konieczne
jest zatem zaobserwowanie jeszcze innych dodatkowych wskaźników. Żaden bo-
wiem pojedynczy wskaźnik nie jest całkowicie jednoznaczny. W przytoczonym
przykładzie należałoby np. obserwować, czy obie osoby patrzą sobie w oczy, jak
szybko jedzą, czy rozmawiają ze sobą i wiele innych. Gdyby okazało się, że obie
osoby z opisanej scenki dość szybko jedzą i nie rozmawiają ze sobą zbyt dużo
moglibyśmy uznać, że ich zachowanie podyktowane jest stanem głodu. Gdyby
natomiast opisane osoby z ożywieniem dyskutowały i nie przejawiały zbytniej
bliskości, skłonni bylibyśmy sądzić, że osoby te są rozmowne i być może towa-
rzyskie. Oczywiście nie wyklucza to motywacji głodu. Z łatwością można by
znaleźć także takie wskaźniki, które będą świadczyć o tym, że opisana para jest
w trakcie randki.
Warto zauważyć, że im częściej lub więcej razy zaobserwujemy u danej oso-
by zachowania wskazujące na posiadanie danej cechy, tym bardziej będziemy
skłonni przypisywać jej tę cechę. Tak więc z dość dużą łatwością uznamy, że Jaś
cechuje się wysokim poziomem inteligencji, jeśli zaobserwujemy, że potrafi on
nie tylko szybko i poprawnie rozwiązywać zadania matematyczne, lecz także
obserwowaliśmy to wielokrotnie w trakcie lekcji, a co więcej Jaś łatwo przyswa-
ja sobie nową wiedzę oraz posługuje się bogatym słownictwem. Dużo trudniej
byłoby przypisać Jasiowi wysoką inteligencję, gdybyśmy jednorazowo zaobser-
wowali poprawne rozwiązanie zadania przez Jasia.
Wcześniej powiedziano, że pomiar psychologiczny polega na przyporządko-
waniu liczb osobom badanym. Z omówionego przykładu widać, że w psycho- 59
Krzysztof Fronczyk
ZIiczaniewsk:ąźnikóWd1tnej-właŚdwOścipsychiczł1ejjest]ej-mierz~niem{Sta()howsld; .
2008).
Aby określić, czy jakiś zbiór jednostek na skali testowej odpowiada 'równo-
miernym jednostkom na kontinuum odpowiedniej zmiennej psychologicznej,
należałoby ustalić istotę funkcjonalnego związku między nimi. Aby poznać ten
związek, trzeba by posiadać jakąś niezależną miarę zmiennej psychologicznej
(Guilford i Comrey, 1961).
Pytania sprawdzające
64
4. KLASYCZNA TEORIA RZETELNOŚCI TESTÓW'
Andrzej Rynkiewicz
WYDZIAŁ PSYCHOLOGII
UNIWERSYTET WARSZAWSKI
I Praca nad rozdziałem była finansowana ze ,5rodków na badania statutowe WYdziału Psychologii
UW w 2008 roku. 65
Andrzej Rynkiewicz
X=T+E (J)
E=X-T (2)
Wykonując pomiar, badacz chce poznać wynik prawdziwy. Jest to jednak nie-
wykonalne, bo żadne narzędzie pomiarowe nie jest idealnie dokładne. Narzędzie
pomiarowe zwykle pokaże więc wynik mniej lub bardziej odległy od wyniku
prawdziwego. Ta różnica to właśnie błąd pomiaru (rys. 4.1.).
Błąd pomiaru może być dodatni, gdy wynik otrzymany jest wyższy od praw-
dziwego, lub ujemny, gdy wynik otrzymany jest niższy od prawdziwego. Błąd
pomiaru może też być znaczny, gdy wynik otrzymany jest bardzo oddalony od
wyniku prawdziwego, lub nieznaczny, gdy ta odległość jest mała. Może się też
zdarzyć, że w konkretnym pomiarze nie będzie błędu (błąd pomiaru będzie rów-
ny zero), ale diagnosta nigdy nie będzie tego wiedział, bo najważniejszą cechą
błędu pomiaru jest jego nieprzewidywalność.
67
Andrzej Rynkiewicz
T
wynik prawdziwy i błędy
(niedostępne dla diagnosty)
x
wyniki otrzymane
(dostępne dla diagnosty)
Rysunek 4.1. Hipotetyczny wynik prawdziwy osoby (T) oraz przykładowe wyniki otrzyma-
ne tej osoby z trzech badań tym samym testem (X j , X2 , X 3 ) i błędy pomiaru (Ej, E2 , E3 ).
Błąd pomiaru dla wyniku X2 (E 2 =
X2 - T) wynosi zero
stem czy różnymi. Znaczenia też nie miałoby to, czy wyniki pochodziłyby od
jednej osoby czy od różnych osób.
Najprościej matematycznie można to założenie zapisać jako wartość parame-
tru średniej rozkładu nieskOllczenie wielu błędów pomiaru (równanie 3).
(3)
lim
n~OC)
LE
n
=0 (4)
(5)
To równanie można zapisać nie tylko dla wszystkich osób z konkretnej próby,
ale także dla nieskończenie wielu osób z hipotetycznej populacji (równanie 6).
11 X == IlT + 11 E (6)
ników otrzymanych, tym bardziej średnia z nich będzie zbliżała się do średniej
wyników prawdziwych (równanie 8).
(7)
lim
n~CI)
LX =!!T
n
(8)
PTE =0 (9)
(lO)
ax
2 2
=a r+E =ar2 + a E2 + 2 PrE a TaE (11)
(12)
72
4. Klasyczna teoria rzetelności testów
Równanie 12 opisuje zależność, która jest bardzo ważna w dyskusji nad ogól-
nym pojęciem rzetelności testu. Powrócę więc do niego w jednym z kolejnych
rozdziałów.
PEl E 2 =O (13)
2
CJ" EI+E2 = CJ" EJ2 + CJ"E22 + 2 PEJE2 CJ" EJCJ" E2 (14)
2 2 2
CJ"EJ-EZ =CJ"EJ +CJ"E2 -
2P (15)
ElE2 CJ" EJ CJ"E2
2 2 2
CJ" EI+E2 = CJ"El + CJ" E2 (16)
73
Andrzej Rynkiewicz
2 2 2
(J' El-E2 = (J' EJ + (J' E2 (17)
Tak więc wariancja sumy oraz różnicy dwóch różnych błędów jest równa po
prostu sumie wariancji tych błędów. Te równania będą istotne przy rozważaniu
tzw. błędów standardowych.
a)
E, El
, ,
I
'X, T
i !
:X
•X
1
b)
Rysunek 4.2. Rozkład nieskończenie wielu wyników otrzymanych (a) oraz błędów po-
miaru (b) z niezależnych pomiarów tym samym testem nasilenia cechy u tej samej osoby.
Średnia górnego rozkładu to wynik prawdziwy osoby (T). Średnia dolnego rozkładu wyno-
si zero. Odchylenie standardowe w obu rozkładach to standardowy błąd pomiaru (SEM).
Wartości X 1 i X 2 to przykładowe wyniki otrzymane, wybrane z nieskończenie wielu poten-
cjalnych wyników tej osoby. E1 i E2 to błędy pomiaru rozumiane jako różnice między X i T
76
4. Klasyczna teoria rzetelności testów
•x
b)
c)
Rysunek 4.3. Rozkłady wyników i błędów z pomiarów tym samym testem nasilenia cechy
u wszystkich osób z nieskończenie wielkiej populacji.
a) Rozkład wyników otrzymanych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi-
lenia cechy w populacji, a odchylenie standardowe informuje o wielkości obserwowa-
nych różnic indywidualnych.
b) Rozkład wyników prawdziwych. Średnia rozkładu jest wskaźnikiem przeciętnego nasi-
lenia cechy w populacji, a odchylenie standardowe informuje o wielkości rzeczywistych
różnic indywidualnych.'
c) Rozkład losowych błędów pomiaru. Średnia rozkładu wynosi zero, a odchylenie stan-
dardowe to standardowy błąd pomiaru. Kształt i parametry tego rozkładu są dokładnie
takie same, jak w rozkładzie błędów dla jednej osoby przedstawionym na rys. 4.2.,
część b).
niki otrzymane z pomiaru będą leżały bardzo blisko wyników prawdziwych. Nie
oznacza to jednak, że w konkretnym pomiarze błąd będzie mały, bo ma on losowy
charakter i teoretycznie może przyjąć każdą wartość. Nawet testy o bardzo wyso-
kiej rzetelności mogą od czasu do czasu wprowadzać duże błędy, jednak im wyż
sza rzetelność testu, tym większe prawdopodobieństwo, że błąd w konkretnym
pomiarze będzie jednak stosunkowo mały. Jest to prawdopodobieństwo związane
z tzw. przedziałem ufności, o którym jest mowa w innej części tej książki (por.
rozdział 6.1.2.).
W klasycznej teorii testów rzetelność definiuje się jako proporcję wariancji
wyników prawdziwych do wariancji wyników otrzymanych od osób z nieskoń
czenie wielkiej populacji (równanie 18).
er 2
P/ /_ T
--2 (18)
er x
(19)
78
4. Klasyczna teoria rzetelności testów
Jeśli test jest idealnie dokładny, jego rzetelność wynosi l. Oznacza to, że cał
kowite zróżnicowanie wyników pomiaru testem (mianownik równania 18) spo-
wodowane jest wyłącznie rzeczywistymi różnicami indywidualnymi w zakresie
mierzonej cechy (licznik równania 18). Tym samym zróżnicowanie wyników
spowodowane błędami całkowicie znika. W takim przypadku można też powie-
dzieć, że każdy wynik otrzymany jest równy prawdziwemu.
Jeśli test jest całkowicie niedokładny, jego rzetelność wynosi o. Wtedy ob-
serwowane zróżnicowanie wyników otrzymanych spowodowane jest wyłącznie
błędem pomiaru. W żadnym stopniu nie oddaje ono zróżnicowania pod wzglę
dem mierzonej cechy. Pomiar takim testem można porównać do przypisywania
osobom liczb uzyskiwanych z rzutów kostką do gry, czyli wynik pomiaru byłby
całkowicie przypadkowy.
Jeśli test jest umiarkowanie dokładny, to jego rzetelność może wynosić np.
0,80. Oznacza to, że 80% całkowitego zróżnicowania wyników uzyskiwanych
przy pomiarze tym testem można wyjaśnić rzeczywistymi różnicami między
ludźmi, a 20% tego zróżnicowania spowodowane jest błędem pomiaru. Te pro-
porcje dotyczą wyłącznie wariancji i nieuzasadnione jest stwierdzenie, że 80%
wyników otrzymanych równe jest wynikom prawdziwym.
Z równania 18 wynika dość ważna praktyczna konkluzja. Rzetelność testu bę
dzie większa w populacji o dużej wariancji wyników prawdziwych (populacja
heterogeniczna) niż w populacji o małej wariancji wyników prawdziwych (popu-
lacja homogeniczna). Jest tak dlatego, że zgodnie z założeniami teorii Gulliksena
te dwie populacje będą miały taką samą wariancję błędu. Wariancja błędu nie za-
leży od populacji. Zatem spadek wariancji wyników prawdziwych pociągnie za
sobą oczywiście spadek wariancji wyników otrzymanych, ale nieproporcjonalnie
mniejszy. W konsekwencji obniżenia wariancji wyników prawdziwych licznik
równania 18 zmniejszy się bardziej niż mianownik.
Jeszcze wyraźniej widać to na podstawie równania 19. W populacji o dużej
wariancji wyników prawdziwych (heterogenicznej) mianownik w równaniu (wa-
riancja wyników otrzymanych) będzie duży. W populacji homogenicznej ten
mianownik będzie mały. Natomiast w obu tych populacjach licznik (wariancja
błędu) pozostanie bez zmian. Tak więc rzetelność będzie większa w populacji he-
terogenicznej niż w populacji homogenicznej. Badacze i autorzy testów psycho-
logicznych powinni starać się więc o to, by próbki na podstawie których szacuje
się rzetelność były możliwie zróżnicowane.
Rzetelność testu empirycznie określa się na podstawie tzw. współczynnika
rzetelności (rit) opisywanego w innej części tej książki.
= fP: = ~
2
P TX -f.
Ux
(20)
(21)
aE = a x ~1 - Pll (22)
(23)
Sta~«l~r"~W~blą«lpo.nląru(a!l!$ĘlijbsEMr~·odchylertiestandardo*~"wrozkła
d~iebłędówlub \y ro.~k:ładzie wyników otrzymanych z· niezależnych'. vomiarów od
jeqnejosoby.Jestto przeciętna odległość błędów pomiaru odzeralub przeciętna odle.,
głoś9.potencjalllychwynik9woJ;rzYll1anycl:1 jednej. osoby od jej wyniku prawdziwego.
Wielkość tę opisują równania 22 i 2);
nych. Tak więc im bardziej dokładny test oraz im mniejsze zróżnicowanie wy-
ników w populacji, tym mniejszy standardowy błąd pomiaru. Jednak rzetelność
testu pozostaje w ścisłym związku z jednolitością populacji i reprezentującej ją
próby. Im mniejsze odchylenie standardowe wyników, tym niższa rzetelność.
Tak więc obniżanie zróżnicowania w próbie, w celu zredukowania standardo-
wego błędu pomiaru, nie przyniesie oczekiwanego efektu. Za sprawą obniżonej
rzetelności testu standardowy błąd pomiaru pozostanie naj prawdopodobniej nie-
zmieniony. Jedyny więc pewny i sensowny sposób na zmniejszenie tego błędu to
konstruowanie i wykorzystywanie rzetelnych testów.
Zalecana literatura
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
(Str. 458-461).
Ferguson G.A., Takane, Y. (1999). Analiza statystyczna w psychologii i pedagogice.
Warszawa: PWN. (Str. 489-592).
Homowska E. (2005). Testy psychologiczne. Teoria i praktyka. Wydawnictwo Scholar.
(Str. 41-49).
Magnusson D. (1991). Wprowadzenie do teorii testów. Warszawa: PWN. (Wydanie 2:
str. 92-134).
Zadania
1.
Wariancja wyników otrzymanych w teoretycznej populacji wynosi 16, a warian-
cja błędów 3. Ile wynosi rzetelność testu i jaki procent zróżnicowania wyników
otrzymanych to zróżnicowanie prawdziwe między osobami?
2.
Rzetelność testu jest równa 0,67. Jaka byłaby wariancja wyników otrzymanych
w teoretycznej populacji, gdyby wariancja wyników prawdziwych wynosiła 13?
3.
Nieskończenie wiele niezależnych badał'l pojedynczej osoby testem o rzetelno-
ści 0,79 dało wyniki otrzymane o wariancji 36. Oblicz odchylenie standardowe
w rozkładzie błędów.
82
4. Klasyczna teoria rzetelności testów
4.
Badanie teoretycznej populacji testem o rzetelności 0,82 dało wyniki otrzymane
o wariancji 28. Oblicz odchylenie standardowe w rozkładzie błędów.
5.
Hipotetyczny wynik prawdziwy osoby wynosi 24. Badanie teoretycznej popula-
cji, z której pochodzi ta osoba testem o rzetelności 0,87 dało odchylenie standar-
dowe wyników otrzymanych 4,5. Jakie jest prawdopodobieństwo, że w realnym
badaniu tym testem wynik otrzymany tej osoby będzie większy niż 27?
6.
Rzetelność testu wynosi 0,74. Badanie tym testem osób z teoretycznej populacji
dało odchylenie standardowe wyników otrzymanych równe 4,8. Jaki procent błę
dów pomiaru nie będzie wykraczał poza granice przedziału od -2 do +2?
7.
Jaka musi być wariancja wszystkich potencjalnych wyników otrzymanych po-
jedynczej osoby, aby 99% najbardziej typowych dla niej wyników otrzymanych
w teście znajdowało się w granicach od 95 do 105 punktów?
Odpowiedzi do zadań
1. ptt=0,875. Zróżnicowanie prawdziwe to 87,5% zróżnicowania otrzymanego.
2. O"x=19,4.
3. Pojedyncza osoba, więc O"x=O"E=6 (pierwiastek z wariancji wyników otrzyma-
nych).
4. Populacja osób, więc O"E=2,24 (standardowy błąd pomiaru).
5. O"E=1,62; z27=1,85 (wystandaryzowana wartość wyniku 27); P(X>27)=0,032
(z tablic dystrybuanty rozkładu normalnego).
6. O"E=2,45; Z_2 =--0,82 (wy standaryzowana wartość błędu pomiaru -2); z2=0,82
(wy standaryzowana wartość błędupomiaru2); P(-2<E<2)=0,794-0,2 06=0,588
(z tablic dystrybuanty rozkładu normalnego).
7. P(ZA<X<Z8)=0,99; zA=-2,57; z8=2,57 (z tablic dystrybuanty rozkładu normal-
nego); pojedyncza osoba, więc O"x=O"E=1,95.
83
5. JAKICH INFORMACJI O TEŚCIE DOSTARCZA
TESTOWANIE?
itp. Metoda ta nazywa się estymacją stabilności bezwzględnej testu lub popular- .
nie test-retest (czasem używa się również nazwy stałość testu). Wielkość współ
czynnika korelacji (najczęściej r-Pearsona) pomiędzy dwoma zbiorami wyników
(z pierwszego i drugiego wykonania testu) jest tu miarą rzetelności. Stabilność
bezwzględna mówi o tym, na ile wyniki testu są niezależne od losowych czyn-
ników związanych z osobą badaną lub sytuacją badania, i na ile są stałe w cza-
sie. Kwestia interpretacji współczynnika stabilności bezwzględnej jako stałości
wyników w czasie zostanie bardziej szczegółowo omówiona w dalszej części
rozdziału.
Psychometrzy wskazują na problemy związane z tą techniką (np. Brzeziński,
1996). Wiążą się one z faktem, iż osoby badane mają do czynienia dwukrot-
nie z tym samym testem. Prezentowany podczas drugiej sesji materiał nie jest
dla nich nowy, tak jak przy pierwszym badaniu. Na wyniki drugiego pomiaru
mogą zatem wpływać takie czynniki, jak pamięć czy uczenie się. Może to być
szczególnie widoczne w testach inteligencji, np. takich, w których sprawdza się
czyjąś wiedzę ogólną (np. w podteście Wiadomości z WAIS-R) lub znajomość
synonimów słów (w podteście Synonimy z APIS-Z). Należy zdawać sobie spra-
wę, iż badając kogoś dwukrotnie tym samym testem, nie możemy wykluczyć, że
w przerwie między pomiarami ktoś po prostu posiądzie nową wiedzę i np. dowie
się, jaki jest synonim słowa prezentowanego we wcześniejszym badaniu. Ważne
jest zatem, aby badana właściwość nie uległa zmianie podczas przerwy między
pierwszym a drugim badaniem testem.
W pewnych przypadkach zmiana właściwości jest na tyle wyraźna, że sto-
sowanie metody test-retest staje się nicuzasadnione. Będzie to szczególnie za-
uważalne u dzieci, które podlegają dynamicznemu rozwojowi. Dobrym przykła
dem jest tu test DMI (Diagnoza Możliwości Iiltelektualnych) opracowany przez
Matczak (2001). Zdaniem autorki test ma mierzyć zdolność do operacyjnego
myślenia, zgodnie z koncepcją Piageta. Owa zdolność kształtuje się w stadium
operacji konkretnych (czyli w wieku od 6-7 lat do 11-12 lat). Badając zmiany
rozwojowe, Matczak porównywała poprawność wykonania DMI-2M w różnych
grupach wieku dzieci (od 6 do 10 lat). Okazało się, że poprawność wykonania
istotnie wzrasta wraz z wiekiem. Pomiar stabilności bezwzględnej byłby w tym
przypadku wysoce ryzykowny, gdyż zmiany w wykonaniu zadall mogłyby być
widoczne nawet w krótkim okresie. Oznaczałoby to, że nie zostało spełnione
założenie o równoległości testów, ponieważ średnia w drugim pomiarze byłaby
wyższa niż w pierwszym. W związku z tym rzetelność szacowano inną metodą -
zgodności wewnętrznej (patrz punkt 5.1.4.).
Podstawowym problemem staje się długość przerwy pomiędzy pomiarami.
Niestety nie ustalono optymalnego odstępu czasowego. W związku z tym propo-
nuje się, aby przerwa pomiędzy badaniami była na tyle długa, aby badani zdążyli
zapomnieć prezentowany wcześniej materiał. Jednakże zbyt długa przerwa może
86 spowodować, iż cecha mierzona przez test zmieni się u badanego.
5. Jakich informacji o teście dostarcza testowanie?
Tabela 5.1. Wyniki dwukrotnego badania testem A (A 1,A2) i testem 8 (81,82) grupy pięciu
osób
Nr osoby A1 A2 81 82
1 5 5 5 7
2 4 4 4 6
3 3 3 3 5
4 2 2 2 4
5 1 1 1 3
Średnia 3 3 3 5
Korelacja rA1A2 =1 r8182 =1
Jego długość powinna być dobrana w zależności od tego, co mierzą testy alterna-
tywne oraz od specyfiki grupy, dla której chcemy oszacować rzetelność testów:
Jeśli testy przeznaczone są do pomiaru względnie stałych czasowo właściwości,
jak np. cech temperamentu, to przerwa ta może być dłuższa, np. kilka miesięcy.
Dłuższych przerw zazwyczaj nie stosuje się ze względu na potencjalne trudności
badawcze - mogłoby być trudno dotrzeć do tych samych osób np. po upływie
kilku lat. Jeśli istnieje podejrzenie, że badana właściwość psychiczna może szyb-
ko ulegać zmianom, przerwa między oboma pomiarami powinna być krótsza.
Krótkie przerwy czasowe będą również właściwsze w przypadku osób, u któ-
rych badana właściwość może szybko ulec zmianie ze względów rozwojowych.
Grupą taką z pewnością będą dzieci. Łatwo można wyobrazić sobie, że poziom
wykonania np. testu inteligencji zmieniłby się znacznie, gdyby przebadano dzieci
w piątej klasie, a następnie te same dzieci po roku, w szóstej klasie. Zważywszy,
że dodatkowo występują różnice w tempie rozwoju dzieci, to uzyskany współ
cZylmik korelacji między pomiarami testami alternatywnymi byłby zniekształco
ny. Nie odzwierciedlałby on zatem tego, jak dokładny jest pomiar tymi testami.
W praktyce ustalanie długości przerwy czasowej między pomiarami podczas
szacowania stabilności względnej wiąże się z takimi samymi problemami, jak
w wypadku stabilności bezwzględnej (por. rozdział 5.1.1.)
2rpp
rt/=-- (5.1)
1+ rpp
rft - rzetelność całegotestu;
rpp - współczynnik korelacji między połówkami testu.
nrtti
rUn=----- (5.2)
1 + (n-l)rtri
Powyższy
wzór pozwala na oszacowanie rzetelności pomiaru testem (r fln ) po
jego n-krotnym przedłużeniu, znając rzetelność pomiaru testem przed jego prze-
dłużeniem (rflJ Skoro znamy rzetelność połowy testu, rzetelność całego testu
to inaczej rzetelność połowy testu po dwukrotnym przedłużeniu. W takim razie,
gdy wstawimy za n wartość 2, otrzymamy wzór 5.1. Ze wzoru 5.2 wynika, że
rzetelność pomiaru testem wzrasta w miarę jego wydłużania, w związku z czym
rzetelność całego testu będzie zawsze większa niż rzetelność jego połówek (niż
korelacja miedzy połówkami testu).
Podstawowe pytanie dotyczy tego, w jaki sposób podzielić test na połowy.
Podział ten powinien być przeprowadzony tak, aby połówki testu były względem
siebie równoległe. Możliwych jest kilka rozwiązań.
Prosty podział na połowy zachodzi wtedy, gdy m.in. narzędzie zawierające 10
pozycji testowych, podzielonoby w ten sposób, że w pierwszej połowie znajdą
się te o numerach 1-5, a w drugiej o numerach 6-10. Podział taki może mieć sens
w przypadku krótkich testów o podobnych wskaźnikach trudności pozycji (m.in.
kwestionariuszy osobowości). Jeśli kolejne pozycje testowe miałyby rosnące
wskaźniki trudności, to przy takim podziale otrzymano by połowę łatwą i połowę
trudną, a więc założenie o równoległości połówek testu byłoby złamane. Jeśli 91
Konrad Jankowski, Marcin Zajenkowski
test byłby bardzo długi, nastawienie osoby badanej mogłoby być istotnie róż
ne podczas rozwiązywania pierwszej i drugiej połowy testu (m.in. zmęczenie),
a więc różnice w sytuacji badania mogłyby w efekcie doprowadzić do złamania
założenia o równoległości połówek.
Dobór losowy sprowadza się do podzielenia pozycji do obu połówek w sposób
przypadkowy. Metoda taka jest odpowiednia, jeśli poszczególne pozycje testu
nie różnią si~ zbytnio ze względu na ich trudność, zatem może być właściwa dla
kwestionariuszy osobowości. Natomiast, jeśli trudność pozycji wzrasta, tak jak
to się często zdarza w przypadku testów inteligencji, moglibyśmy otrzymać dwie
połowy testu różniące się trudnością.
Dobór parzyste-nieparzyste polega na tym, że do jednej połówki testu włącza
. się pozycje testowe o numerach parzystych, a do drugiej - o numerach nieparzy-
stych. Dzięki temu, przy wzrastającej trudności kolejnych pozycji, zadania łatwe
i trudne rozłożą się do obu połówek równomiernie, dzięki czemu połowy testu
będą do siebie zbliżone pod względem trudności.
Dobór uwzględniający właściwości pozycji testowych, polega na tym że do
obu połówek przydziela się pozycje, tak aby połówki testu spełniały założenia
testów równoległych. Kryterium podobieństwa może być też trudność pozycji i,
w efekcie, związana z tym trudność obu połówek testu. Metoda ta będzie odpo-
wiednia dla testów, których pozycje nie są równoległe, ale da się utworzyć rów-
noległe połówki testu. Przykładem mogą być testy, których pozycje mają różny
format odpowiedzi, tzn. w teście znajdują się pozycje posiadające dwu-, trzy-,
czterokategorialny format odpowiedzi.
Dobór pozycji testowych do obu połówek ma zasadnicze znaczenie dla wiel-
kości współczynnika rzetelności. Najniższa wartość współczynnika rzetelności
wystąpi, jeślipozycje testu będą wysoko skorelowane w obrębie swojej połówki
testu i nisko między połówkami testu. Przypadek taki otrzymalibyśmy, gdyby
m.in. w teście o rosnącej trudności pozycji zastosować prosty podział na połowy.
Wtedy odpowiedzi na pozycje w obrębie połówek testu byłyby wysoko skorelo-
wane ze sobą, natomiast korelacja między połówkami byłaby niska. Natomiast
najwyższa wartość współczynnika rzetelności w metodzie połówkowej wystąpi,
jeśli wysoko skorelowane pozycje zostaną rozdzielone do oddzielnych połówek
testu.
Metodę połówkową zastosowano m.in. do analizy rzetelności w Teście Matryc
Ravena - wersja Dla Zaawansowanych (Jaworowska i Szustrowa, 1992). W na~
rzędziu tym mamy do czynienia z rosnącą trudnością zadań, a zatem autorki pol-
skiej adaptacji zdecydowały się podzielić test na dwie połówki ze względu na
pozycje parzyste i nieparzyste. Następnie oszacowały rzetelność pomiaru testem
przy pomocy wzoru Spearmana-Browna, uzyskując wartość bliską 0,80.
92
5. Jakich informacji o teście dostarcza testowanie?
(5.3)
93
Konrad Jankowski, Marcin Zajenkowski
Drugi wzór (KR21 ) wymaga założenia, że pozycje testowe mają taką sarną
trudność (równe proporcje odpowiedzi zgodnych i niezgodnych z kluczem). Ma
on postać:
k S,2 -kj5(j
k-l (5.4)
S,
a= (5.5)
Tabela 5.2. Wyniki poszczególnych pozycji testowych oraz wyniki ogólne dla 5 osób bada-
nych w teście składającym się z 4 pozycji
Pozycje
Osoby Cały test Pozycja 1 Pozycja 2 Pozycja 3 Pozycja 4
testowe
1234 LXc' (Xc- xJ' X/ (X1-xS' X 2' (X2-XX X3' (XrxS' X4' (X4-xS'
(Xc-Xc )2'" (X1- X1)2'" (X2- X2)2'" (Xr X3)2'" (Xr X4)2'"
1 31 1 2 7 -5 25 3 OO 1 -2 4 1 -2 4 2 -1 1
2 2454 15 3 9 2 -1 1 4 1 1 5 2 4 4 1 1
3 5545 19 -7 49 5 2 4 5 2 4 4 1 1 5 24
4 4223 11 -1 1 4 1 1 2 -1 1 2 -1 1 3 OO
5 1 331 8 -4 16 1 -2 4 3 OO 3 OO 1 -2 4
L Xc = 60 L XI = 15 L X 2 = 15 L X3 = 15 L X4 = 15
Kolejne kroki A. X2 = 3
Xc = 12 Xl =3 )(3 = 3 )(4 = 3
obliczeń: B. L(Xc - X cl 2 = L(X1- X 1)2= L(X2 - X 2)2= L( XrX 3)2= 'L( X4 - X 4)2=
C. = 100 = 10 = 10 =10 = 10
D.
=
s/ 100/4 = =
s/ 10/4 = =
s/ 10/4 = s/= 10/4 = si = 10/4 =
= 25 = 2.5 = 2.5 = 2.5 = 2.5
* 1 kolumna, *·2 kolumna, *.* 3 kolumna.
X - wynik otrzymany przez daną osobę;
X -
średnia wyników otrzymanych;
LX - suma wyników otrzymanych;
(X-X) - odchylenie wyniku otrzymanego przez daną osobę od średniej;
(X- X)2 - kwadrat odchylenia wyniku otrzymanego przez daną osobę od średniej;
L(X- X)2 - suma kwadratów odchyleń wyników otrzymanych od średniej;
52 - wariancja wyników.
95
Konrad Jankowski, Marcin Zajenkowski
a = -
4-1
4 10
(1- - )
25
= °
'
80
96
5. Jakich informacji o teście dostarcza testowanie?
1 2 3 4
Metoda Źródło błędu specy- Informacje o teście Najczęstsze zastoso-
ficzne dla metody wanie
Wiarygod- Losowe zmiany W jakim stopniu Testy, w których
ność testu związane ze stanem test jest wrażliwy na uczenie się nie ma
osoby badanej i sytu- przypadkowe zmiany wpływu na wyniki np.
acją badania związane z osobą testy motoryczne;
badaną i sytuacją testy na czas reakcji
testowania
Stabilność Losowe zmiany W jakim stopniu Przy pomiarze cech
bezwzględna związanez upływem wyniki testu są stałe np. kwestionariusze
czasu w czasie osobowości, testy
inteligencji
Równoważ- Dobór pozycji do Stopień podobień- Rzadko stosowana
ność wersji testu stwa między wersjami metoda
międzyte s- alternatywnymi testu
towa
Stabilność Dobór pozycji do Stopień podobień- Przy pomiarze cech
względna wersji testu stwa między wersjami np. kwestionariusze
alternatywnymi testu. osobowości, testy
W jakim stopniu inteligencji
pomiar jest stały
w czasie
98
5. Jakich informacji o teście dostarcza testowanie?
1 2 3 4
Metoda po- Dobór pozycji do W jakim stopniu test Testy, w których
lówkowa polówek testu jest jednorodny pozycje mają różną
trudność np. testy
inteligencji
Zgodność Niejednorodność W jakim stopniu test Testy, w których po-
wewnętrzna pozycji testu jest jednorodny zycje są równolegle
np. kwestionariusze
osobowości; testy
mierzące style, stany
Rysunek 5.1. Okienko arkusza danych z wynikami testu przygotowanymi do analizy sta-
bilności bezwzględnej
Raporty warstwowe •
Opis statystyany •
............
Tabele specjalne •
,1IlI1I1IIIIIIII Średnle ...
. Ogólny modelllniowy Test t dla jednej próby •..
Modele mie&zane • Testt dla prób niezależnych ...
Korelatje
Regresja • Jedno~wa ANOVA ...
... Ii. u.
100
5. Jakich informacji o teście dostarcza testowanie?
100 .m .001i
Ist.1M'.
I (II 4""'_)
Ukaże się wydru k analizy (rys. 5.4.). Z tabeli dolnej "Test dla prób zależ
iły róż
nych" można odczytać istotność dwustronną, która wskazuje, czy wystąp
przykładzie
nice między średnimi pomiaru 1 i pomia ru 2. W prezentowanym
onna jest większ a od wartośc i 0,05.
różnice nie wystąpiły, gdyż istotność dwustr
pomiar ami, możem y
Skoro spełnione jest założenie o równości średnich między
acje dla prób zależny ch".
odczytać wartość korelacji r-Pearsona z tabeli "Korel
ie istotno ści p<O,OO l. Zatem rzetelność naszego
Wynosi ona 0,982 przy poziom
aż nie wy-
testu badana metodą stabilności bezwzględnej wynosi 0,982. Poniew
lub obniże nie wyników
stąpił żaden efekt, który powodowałby podwyższenie
stwierdzenie, że wyniki tego
(średnie pomia rów nie różnią się), uprawn ione jest
testu są stałe w czasie.
101
Konrad Jankowski, Marcin Zajenkowski
m~~1~~~
l'I!I; Edl'li>! Analiza WY"_ "'2!Jdil!l {
\\jifGl; ~ p!~
, .... " ............. .,... ..,,,
"
Rysunek 5.5. Okienko arkusza danych z wynikami testu przygotowanymi do analizy rze-
telności metodą połówkową
Ogólny m.delliniowy
",.,.la,,,,
._,3_
Modele
Korelaq.,
Regresja
Analily il>gIIniowe
!(laByfikacja
RedukCJi' danym
Testy rneparamełryc:zne ,
Maizy pfleźycta
W.,lokrome odpoWiedzi •
102
5. Jakich informacji o teście dostarcza testowanie?
m~ 60 10Q,O
~(ai O ,O
~ 60 1QO.0
11., Usuwanie obserwaQaml ze wanalizie,
5tatyslytll rzetelOOści
Częsc 1 wartosc ,0\$4
Liczba pozycji 1(){a)
Część 2 wartość ,263
Uczba~~ 10(bJ
,&;"ą{~mM§.~ 20
~~~~I'ffi9.u ,542
,703
lWil,ą!!U~i! t:!-~JJ!lY!JM!&l!ł~ ,703
~R9~P'~~~ ,664
ll,. Pozycjami są. pl, p2. 1)3, p4, pS, p6, p7, pS. p9, p10.
lt Pozyqaml są: p11, p12, p13, p14, p15, p16, p17, p18, p19, p20
RELIABILITY I
/VARIABLES=pl p2 p3 p4 p5 p6 p7 p8 p9 plO pll pl2 pl3 pl4 p15 p16 p17
p18 pl9 p20
ISCALE(' ALL VARIABLES') ALLlMODEL=SPLIT.
RELlABILITY
/VARIABLES=pl p3 p5 p7 p9 pll p13 pl5 pl7 pl9 p2 p4 p6 p8 plO pl2 p14
pl6 pl8 p20
ISCALE('ALL VARIABLES') ALLlMODEL=SPLIT.
RELIABILITY
IVARIABLES=pl p2 p3 p4 p5 p6 p7 p8 p9 plO pll p12 p13 p14 p15 p16 p17
p18p19p20
/SCALE(' ALL VARIABLES') ALL/MODEL=ALPHA
ISUMMARY=TOTAL .
105
Konrad Jankowski, Marcin Zajenkowski
statystykll'let~lntlści
Alfa
CronbaCł)S
o usunięciu
P02Ytji
pl 47,68 31,831 ,691
p2 48,03 41,413 ,720
p3 4B,60 36,912 .421 ,690
1'4 48,38 37,529 ,517 ,685
pS 4B,27 37,%2 ,320 ,701
p6 47,43 37,131 ,530 ,6B3
p7 48,13 40,219 ,119 ,723
p6 47,78 38,545 ,443 .693
p9 48,43 37,741 ,364 0696
plO 47,92 3UOO ,502 .685
pll 48,07 41,758 ,048 ,724
p12 48,40 40,447 ,H9 ,713
pi3 47,77 42,555 -,Q15 ,728
pi4 47,35 38,082 ,325 .700
Irl5 48,42 38,145 ,314 ,702
1'16 47,35 40,638 ,167 ,714
1'17 47,93 38,572 ,266 ,707
pH 47,67 39,446 ,386 ,a9a
p19 48,05 41,913 ,041 .724
plO 47,52 41,000 ,368 ,105
POI'ÓWf1Y'1\'anie s-ednkh
Ogółny model liniowy
Modele mieszane
Koreta.."je
R.egresja
.........
Analizy loglinicl'",e •
Klasyfikacja •
Redukcja danych •
Skalowanie •
Chi-kwadrat...
Szeregi czasowe • Dwumianowy •..
MWY prze:źyda • Serii...
Wiełokroll1e odpowredzl • KoS d!aJednej próby ...
Rysunek 5.14. Okienko testów dla kilku prób zależnych z zaznaczonym W-Kendalla
107
Konrad Jankowski, Marcin Zajenkowski
051
os2
os3 5,00
054 2,33
0$5 3,50
056 1,00
os7 4,67
os8 8,33
059 5,67
os10 8,67
5ła1ysl:yki testu
3
,919
24,811
9
,003
NPAR TESTS
/KENDALL = osI os2 os3 os4 os5 os6 os7 os8 os9 oslO
/MISSING LISTWISE.
Pytania sprawdzające
Zadania
1. W pewnym teście inteligencji postanowiono obliczyć rzetelność metodą po-
łówkową. Po zbadaniu odpowiedniej grupy osób, podzielono test na dwie
połówki. W jednej znajdowały się pozycje parzyste a w drugiej nieparzyste.
Następnie obliczono współczynnik korelacji między połówkami, który wyno-
sił 0,6. Oblicz rzetelność tego testu.
2. Poniżej, w tabeli 5.4., przedstawiono wyniki pięciu osób uzyskane w pewnym
kwestionariuszu osobowości. Kwestionariusz składał się z czterech pozycji,
a zakres możliwych odpowiedzi wyrażony był na trój stopniowej skali (od l
do 3). Oblicz jego zgodność wewnętrzną przy użyciu wzoru alfa Cronbacha
na podstawie przedstawionych danych.
Pozycje testowe
Osoby
1234
1 221 1
2 2122
3 3323
4 2222
5 1232
109
Konrad Jankowski, Marcin Zajenkowski
Zadania w SPSS
Poniżej prezentujemy zadania do obliczenia w SPSS. Dane zawarte są na pły
cie dołączonej do podręcznika.
l. Sk0J.1struowano kwestionariusz mierzący pewną cechę osobowości.
Przebadano nim dwukrotnie 100 osób w odstępie 3 tygodni. Uzyskane dane
zawiera zbiór o nazwie "rzetelnoscl.sav". Wybierz odpowiednią metodę i zin-
terpretuj uzyskany współczynnik rzetelności.
2. Pewnym kwestionariuszem osobowości, składającym się z 20 pytań, zbadano
120 osób. W zbiorze danych o nazwie "rzetelnosc2.sav" przedstawiono od-
powiedzi badanych na każde pytanie. Założono, że wszystkie pozycje mają
podobne wskaźniki trudności i są względem siebie równoległe. Wybierz naj-
odpowiedniejszą metodę i zinterpretuj uzyskany współczynnik rzetelności.
3. W zbiorze danych "rzetelnosc3.sav" zawarto wyniki 60 osób uzyskanych
w pewnym teście inteligencji. Test składał się z 20 zadall. W każdym z nich
badani mogli uzyskać l punkt za poprawne rozwiązanie lub O za odpowiedź
niepoprawną. Zadania miały rosnący stopień trudności. Wybierz odpowiednią
metodę i zinterpretuj uzyskany współczynnik rzetelności.
4. Skonstruowano pewien test do badania pamięci wzrokowej. Polega on na
tym, że osobie badanej prezentuje się pewną figurę przez 3 minuty, po czym,
po 10 minutach, prosi się osobę, aby odtworzyła ją z pamięci. Diagnosta, na
podstawie przyjętych kryteriów, ocenia wykonanie zadania na skali od 1 do
10. W celu zbadania rzeteh10ści tego testu poproszono trzech kompetentnych
psychologów o ocenienie rysunków 20 osób. Dane z tego badania zawiera
zbiór o nazwie "rzetelnosc4.sav". Wybierz odpowiednią metodę i zinterpretuj
uzyskany współczynnik rzetelności.
110
Adam Tarnowski
WYDZIAŁ
PSYCHOLOGII
UNIWERSYTET WARSZAWSKI
Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE
mocą analizy stabilności testu, nie jest powiązana w żaden sposób z trafnością
pomiaru testem.
Tak więc, aby można było zastanawiać nad trafnością pomiaru testem, należy
w pierwszej kolejności zapewnić, by był on rzetelny, obiektywny, wystandaryzo-
wany i znormalizowany.
Bardzo ważny jest wybór definicji badanej zmiennej. Analiza definicji umożli
wia określenie zakresu treściowego mierzonej zmiennej. Istotne jest to, że w psy-
chologii istnieje niejednokrotnie wiele koncepcji dotyczących zbliżonych za-
gadnień. Z tego powodu możliwe jest znalezienie różnych definicji tych samych
zmiemlych. Zależnie od wybom określonej definicji, test może okazać się trafny
bądź też nie. Oceniając trafność treściową, należy sprawdzić, czy wszystkie po-
zycje testowe należą do zakresu wybranej definicji.
Jako przykład może posłużyć tu teoria osobowości Eysencka. Według tego
autora (Strelau, 2001) osobowość składa się z trzech wymiarów: ekstrawersji,
neurotyzmu i psychotyzmu. Załóżmy, że chcemy sprawdzić trafność treściową
skali przeznaczonej do pomiam ekstrawersji. W myśl Eysencka na wymiar eks-
trawersji składają się takie składniki, jak: towarzyskość, żywość, aktywność,
asertywność, poszukiwanie doznań, beztroska, dominacja, wybuchowość oraz
śmiałość. Oznacza to, że w kwestionariuszu przeznaczonym do pomiam ekstra-
wersji powinny znaleźć się pytania będące reprezentatywną próbką wszystkich
tych składników. Nie powinny się tam znaleźć pytania dotyczące np. lęku, gdyż
jest to składnik innego wymiam osobowości według Eysencka - neurotyzmu.
Wykazanie trafności treściowej skali ekstrawersji na podstawie definicji
Eysencka nie oznacza, że skala ta jest również trafna, jeśli pod uwagę weźmie
się jakąś inną definicję. Tak mogłoby się zdarzyć, jeśli odwołalibyśmy się do de-
finicji ekstrawersji, np. zaczerpniętej z koncepcji McCrae i Costy (2005). Mimo
że teorie Eysencka oraz Costy i McCrae są dość zbieżne, to jednak treść pojęć
ekstrawersji jest nieco odmienna.
Przyjęta definicja określa nie tylko elementy składowe danego pojęcia, ale tak-
że proporcje, w jakich powinny być one uwzględnione w narzędziu. Trafność tre-
ściowa dotyczy także tego, czy test proporcjonalnie reprezentuje definiowany
konstrukt.
Proporcje te są szczególnie istotne w przypadku testów wiadomości stosowa-
nych w dydaktyce. Na przykład w teście sprawdzającym z psychometrii znacz-
nie więcej powinno znaleźć się pytań dotyczących zagadnień trafności pomiaru
testem niż etyki badań testowych, gdyż tej pierwszej problematyce poświęca
się znacznie więcej uwagi w trakcie zajęć. W przypadku pomiam właściwości
psychicznych kwestia proporcjonalności uwzględnienia poszczególnych składni
ków mierzonej zmiennej jest rozwiązywana w ten sposób, że najczęściej wszyst-
kie składniki uwzględnione są w jednakowym stopniu. Rzadko bowiem można
wskazać, który ze składników jest bardziej istotny.
Zbudowanie testu trafnego treściowo powinno zatem polegać na zgromadzeniu
pozycji testowych reprezentatywnych dla badanej zmiennej na podstawie przyję-
tej definicji. Problemem do rozstrzygnięciajest to, na ile zebrane pozycje testowe
rzeczywiście są reprezentatywne dla definicji badanej cechy. Zagadnienie to roz-
wiązuje się najczęściej przy pomocy kilku tzw. sędziów kompetentnych, którymi 115
Adam Tarnowski, Krzysztof Fronczyk
116
5. Jakich informacji o teście dostarcza testowanie?
Tabela 5.5. Oceny stwierdzeń tworzących skalę postaw, dokonane przez 3 sędziów kom-
petentnych (przykład fikcyjny)
ujętymi
w inwentarzu Formalna Charakterystyka Zachowania - Kwestionariusz
Temperamentu (FCZ-KT), gdyż odnoszą się one do konstruktu optymalnego po-
ziomu pobudzenia. Przedstawiliśmy tu więc pewne rozumowanie teoretyczne, na
podstawie którego należy oczekiwać skorelowania skal. Korelacje powinny być
nie tylko istotne statystycznie, ale też odpowiednio wysokie.
Rzeczywistym przykładem ilustrującym zastosowanie korelacji testu z innymi
testami lub zmiennymi, jako metody badania trafności teoretycznej jest korelacja
Skali Psychotyczności kwestionariusza EPQ-R i Skali Mach przeznaczonej do
pomiaru makiawelizmu. Według koncepcji osobowości Eysencka (Strelau, 2001)
osoby o wysokim poziomie psychotyczności charakteryzują się między innymi
łamaniem norm społecznych i dziwacznym zachowaniem, chłodem emocjonal-
nym oraz bezosobowym traktowaniem innych ludzi. Natomiast makiawelizm
to cecha osobowości przejawiająca się między innymi instrumentalnym trakto-
waniem innych ludzi. Osoby z tą cechą osobowości często manipulują innymi,
chcąc osiągnąć zyski tylko dla siebie. Nie liczą się z potrzebami partnerów inte-
rakcji. Nie trudno zauważyć, że te dwa opisy mają ze sobą dość dużo wspólnego.
Można więc oczekiwać, że wyniki Skali Psychotyczności powinny korelować
z wynikami Skali Mach, o czym można przekonać się czytając podręcznik do
kwestionariusza EPQ-R (Brzozowski i Drwal, 1995).
Trafność można oszacować za pomocą analizy korelacyjnej tylko, jeśli wybra-
na zmienna ma charakter ilościowy. Miarą trafności w tym wypadku jest współ
czynnik korelacji (najczęściej stosuje się r-Pearsona, lub tau Kendalla, jeśli zało
żenia nie są spełnione). W przypadku zmiennych mających charakter nominalny
możliwe jest zastosowanie innych miar związku, takich jak np. współczynnik
korelacji punktowo-dwuseryjnej.
Po to, aby dowieść trafności pomiaru testem nie wystarczy wykazać, że kore-
luje on z innymi zmiennymi, z którymi teoretycznie korelować powinien. Ważne
jest także udowodnienie, że test nie koreluje ze zmiennymi, z którymi korelować
nie powinien. Do tego pierwszego rodzaju korelacji odnosi się pojęcie trafności
zbieżnej (zwanej także konwergencyjną), a do drugiego - różnicowej (zwanej
także dywergencyjną). W celu sprawdzenia obu tych rodzajów trafności, ko-
nieczne jest takie zaplanowanie badania, aby oprócz danego testu użyto w nim
także takich miar, z którymi powinien on korelować oraz innych, z którymi nie
powinien korelować. Jeśli, przykładowo, badamy trafność Skali Ekstrawersji po-
chodzącą z kwestionariusza EPQ-R, możemy zbadać jej korelację z kwestiona-
riuszem NEO-FFI, który również zawiera podobną skalę. Wskaźnikiem trafności
w aspekcie zbieżnym jest wysoka korelacja Skali Ekstrawersji kwestionariusza
EPQ-R z wynikiem odpowiedniej skali NEO-FFI, badającej tę samą zmienną.
Natomiast wskaźnikiem trafności w aspekcie różnicowym są niskie korelacje
Skali Ekstrawersji ze skalami mierzącymi odrębne konstrukty, czyli z pozostały-
120 mi skalami obu kwestionariuszy.
5. Jakich informacji o teście dostarcza testowanie?
Tabela 5.6. Związek skal agresji fizycznej i agresji słownej kwestionariuszy SABD i IPSA
SABD IPSA
Agresja Agresja Agresja Agresja
fizyczna słowna fizyczna słowna
SABD Agresja
fizyczna
Agresja 0,32
słowna
mierzonych tymi samymi metodami. Oznacza to, że warunek drugi jest także
spełniony.
Wadą opisywanej procedury jest przede wszystkim trudność w znalezieniu ze-
stawów testów zawierających skale umożliwiające jednocześnie pomiar trafności
zbieżnej i różnicowej. Zestawy takie muszą bowiem zawierać dwa rodzaje skal.
Pierwszy z nich to takie skale, które z teoretycznego punktu widzenia powinny
korelować ze sobą, a drugi to takie, które ze sobą korelować nie powinny.
Szczególnym przykładem skorelowania wyników testów są korelacje skal
wchodzących w skład jednego testu. Jako przykład można wymienić podte-
sty wchodzące w skład baterii APIS. W podręczniku (Matczak, Jaworowska,
Szustrowa, Ciechanowicz, 2006) do tej baterii testów można przeczytać, że
podtesty Synonimy i Nowe Słowa są dość silnie ze sobą skorelowane. Jest to
całkowicie zrozumiałe, gdyż oba mierzą ten sam rodzaj zdolności - zdolności
werbalne. Podobnie podtesty Kwadraty i Klocki, jako mierzące zdolności wzro-
kowo-przestrzenne, również są dość silnie skorelowane. Istotne jest, że podtesty
Kwadraty i Klocki znacznie silniej skorelowane są między sobą niż z podtestami
Synonimy i Nowe Słowa. Te dwa ostatnie także znacznie silniej korelują między
sobą niż z podtestami Kwadraty i Klocki. Można więc mówić o pewnych gru-
pach podtestów silnie skorelowanych ze sobą w obrębie grupy, a słabiej z testanu
z innych grup. Taki układ korelacji potwierdza trafność teoretyczną baterii APIS,
gdyż testy mierzące te same zdolności są silnie ze sobą skorelowane, a z testami
mierzącymi inne zdolności - słabiej.
Możliwość wyodrębnienia w ramach jednego narzędzia składającego się
z wielu takich grup wzajemnie skorelowanych skal, które jednocześnie słabiej
korelują z innymi grupami skal istnieje nie tylko w przypadku baterii APIS, lecz
także w przypadku wielu innych narzędzi. Zwykle takie grupy interpretowane
sąjako mierzące podobne cechy. Niekiedy można wręcz uznać, że grupa silnie
skorelowanych ze sobą skal danego testu mierzy tę samą cechę. Istnienie takich
grup może być interpretowane jako wskaźnik trafności teoretycznej, szczególnie
gdy w jakimś teście można wyodrębnić grupy skal silnie skorelowanych, przy
czym można uznać, że każda z tych grup mierzy cechę postulowaną przez teori~,
na podstawie której tworzono dane narzędzie.
Warto zauważyć, że obecnie rozpatrywane korelacje dotyczą wewnętrznej
struktury testu. Są to bowiem grupy skorelowanych skal składających się na
dane narzędzie. Wcześniej opisywane wskaźniki trafności dotyczące korelacji
między wynikami danego testu a innymi zmiennymi czy innymi testami.
Rozpatrując wewnętrzną strukturę testu, warto zauważyć, że można mówić nie
tylko o grupach wzajemnie skorelowanych skal danego testu, lecz także o gru-
pach wzajemnie skorelowanych pozycji testowych. Podobnie jak w przypadku
skal, tak i w przypadku pojedynczych pozycji testowych można wyróżnić ich
większe grupy relatywnie silnie skorelowane między sobą, a dość słabo skore-
lowane z innymi grupami pozycji. Takie grupy pozycji testowych odpowiadają 123
Adam Tarnowski, Krzysztof Fronczyk
Tabela 5.7. Struktura czynnikowa pozycji Skali Postawy Wobec BRD (przykład fikcyjny)
Tabela 5.8. Struktura czynnikowa skal FCZ-KT oraz Skal Postawy Wobec BRD i Skali
Nieuwagi na drodze (zmodyfikowane dane z badań własnych)
Składowa
Wymiar
1 2 3
Reaktywność (FCZ-KT) 0,87 -0,18
Perseweratywność (FCZ-KT) 0,84 0,19 0,15
Wytrzymałość (FCZ-KT) -0,72 0,45
Skala BRD (FCZ-KT) -0,88
Nieuwaga (FCZ-KT) 0,14 0,62 -0,31
Aktywność (FCZ-KT) -0,49 0,62 0,11
Wrażliwość sensoryczna (FCZ-KT) -0,17 0,81
Żwawość (FCZ-KT) -0,40 0,71
W tabeli pominięto ładunki czynnikowe mniejsze niż 0,1, jako mało istotne.
Skalę
BRD uznamy za trafną, jeżeli jej umiejscowienie w strukturze pozosta-
łychzmiennych daje się przekonująco zinterpretować w świetle wiedzy o związ-
126 kach temperamentu z zachowaniem.
5. Jakich informacji o teście dostarcza testowanie?
zmienną, to wyodrębnione grupy powinny się różnić między sobą pod względem
wyników testowych. Badane grupy mogą być wyodrębnione w dowolny sposób
(w inny sposób niż na podstawie wyników testu, np. na podstawie zmiennych
demograficznych czy innych). Jedynym ograniczeniem jest teoretyczne uzasad-
nienie wyboru określonych grup badanych.
W celu oceny istotności różnic pomiędzy średnimi dwóch grup należy wyko-
nać test t-Studenta dla prób niezależnych lub test Manna-Whitneya jeśli zało-.
żenia testu t-Studenta nie są spełnione. Oczywiście wynik istotny statystycznie
świadczy o tym, że porównywane średnie się różnią. Jeśli średnie te różnią się
w oczekiwanym z teoretycznego punktu widzenia kierunku, to jest to argument
potwierdzający trafność teoretyczną testu. Siła związku łączącego wyniki testu
oraz zmienną, na podstawie której wyodrębniono grupy może być oceniona na
podstawie współczynnika korelacji eta.
Jednym z prostszych przykładów zastosowania tej metody mogą być wy-
niki bada6 dotyczące testu inteligencji Ravena. W podręczniku do tego testu
(Jaworowska, Szustrowa, 2000) znaleźć można informację, o zróżnicowaniu jego
wyników w zależności od wieku badanych. Dorastająca młodzież osiąga prze-
ciętnie wyższe wyniki w tym teście niż dzieci z grup młodszych. W późniejszym
wieku nie obserwuje się już takiego wzrostu. Wynik ten jest całkowicie zgodny
z teorią inteligencji, na podstawie której powstał test Ravena. Teoria ta zakłada
bowiem, że rozwój inteligencji przebiega od urodzenia do wczesnej dorosłości.
Jeśli test jest trafny, podobny wzrost powinny wskazywać także wyniki testowe,
co rzeczywiście zostało stwierdzone w badaniach. Zgodność przewidywałl teo-
retycznych dotyczących zmian rozwojowych i wyników badań z zastosowaniem
testu Ravena jest jednym z przejawów jego trafności.
Jako inny przykład wykorzystania oceny różnic międzygrupowych mogą po-
służyć wynik badań nad trafnością baterii testów APIS. Na podstawie teorii zdol-
ności (Matczak, 1994) można przypuszczać, że badani różnią się poziomem po-
szczególnych zdolności w zależności od obranego kierunku studiów lub rodzaju
szkoły. Hipoteza ta wynika stąd, że ludzie wybierają taki rodzaj edukacji, który
odpowiada ich zdolnościom, a jednocześnie kształcenie w danym kierunku przy~
czynia się do rozwoju specyficznych dla tego kierunku zdolności.
W jednym z badał} trafności baterii APIS wzięli udział studenci różnego typu
wyższych uczelni. Określenie trafności polegało w tym wypadku na sprawdzeniu,
czy te grupy studentów różnią się między sobą w oczekiwany sposób, tzn. czy
studenci poszczególnych rodzajów kierunków osiągają wyższe wyniki w testach
mierzących te zdolności intelektualne, które są szczególnie potrzebne w studio-
waniu danego kierunku studiów (np. studenci studiów humanistycznych powinni
osiągać wyższe wyniki w testach mierzących zdolności werbalne). Wyniki prze-
prowadzonych badań zamieszczone w podręczniku do baterii APIS (Matczak,
Jaworowska, Ciechanowicz i Sta11czak, 2006) wskazują, żc hipoteza ta została
128 potwierdzona, co przemawia za trafnością tej baterii.
5. Jakich informacji o teście dostarcza testowanie?
na brak zaburzeń, to test jest trafny ze względu na kryterium, jakim jest diagno-
za psychiatryczna depresji. Mogłoby się również zdarzyć, że nie ma żadnego
związku między kryterium a wynikami testu. Stałoby się tak w sytuacji, gdy np.
połowa osób, które zostały zdiagnozowane przez psychiatrę jako chore na depre-
sję, uzyskuje w teście wyniki wskazujące na depresję, a druga połowa - wyniki
wskazujące na brak zaburzell. Oczywiście, świadczy to o braku trafności testu.
Wyniki testowe wykorzystywane są czasem w celu przewidywania jakiegoś
przyszłego stanu osoby badanej, np. powodzenia zawodowego w danym miej-
scu pracy czy też skutków podjętej terapii. Oczywiście, aby takie przewidywanie
było możliwe, nie wystarczy przeświadczenie konstruktora testu, że stworzone
przez niego narzędzie nadaje się do tego celu. Konieczne jest posiadanie odpo-
wiednich danych stwierdzających, że rzeczywiście wyniki testu korelują z pożą
danym stanem w przyszłości. Są to dane dotyczące także trafności kryterialnej
z tą różnicą, że w obecnie omawianym przypadku interesuje nas kryterium istnie-
jące w przyszłości. Tak więc, aby sprawdzić trafność w tym przypadku musimy
przeprowadzić badanie, w którym pewna liczba osób (np. kandydatów do pracy)
wykona dany test, a po upływie określonego czasu dokonany zostanie pomiar
kryterium (np. efektywności pracy zawodowej ocenianej przez przełożonych).
Jeżeli wyniki testu korelują z tym kryterium zmierzonym po upływie danego
czasu, można uznać, że na podstawie wyników testu możliwe jest przewidywanie
przyszłego stanu osoby badanej.
, Opisane dwie sytuacje dotyczą dwóch rodzajów trafności kryterialnej, jakimi
są trafność diagnostyczna i trafność prognostyczna. W pierwszym z opisanych
przykładów, kiedy na podstawie wyników danego testu można wnioskować o ak-
tualnie istniejącym kryterium, mówimy o trafności diagnostycznej. Natomiast
trafność prognostyczna interesuje nas wtedy, gdy zadaniem testu jest przewidy-
wanie kryterium w przyszłości.
Bardzo istotnym zagadnieniem jest wybór właściwego kryterium. Kryterium
to musi być wybrane tak, aby odpowiadało konkretnemu zapotrzebowaniu sto-
sowania danego testu. Jeśli np. chcemy stosować dane narzędzie do prognozo-
wania skuteczności pracy w zawodzie strażaka, to musimy wykazać, że wyniki
naszego testu pozytywnie korelują z powodzeniem w tym zawodzie. Pojawia
się więc problem dobrego zdefiniowania, czym jest kryterium, jakim w naszym
przykładzie jest "powodzenie w zawodzie strażaka". Może chodzić np. o szyb-
kość gaszenia pożaru albo o szybkość wykonywania pewnych czynności zwią
zanych z gaszeniem (np. rozwijania węża strażackiego). Specjaliści z zakresu
pożamictwa mogliby prawdopodobnie wskazać jeszcze inne bardziej użyteczne
kryteria powodzenia w zawodzie strażaka. Kryterium to może być też kombi-
nacją różnych umiejętności z zakresu gaszenia pożarów. Jeśli zdecydujemy się
na jakąś definicję kryterium, przeprowadzimy odpowiednie badanie, które do-
prowadzi nas do wniosku, że wyniki testu rzeczywiście korelują z kryterium,
132 to udowodnimy trafność prognostyczną testu. Istotne jest jednak, że w ten spo-
5. Jakich informacji o teście dostarcza testowanie?
Lekceważony często rodzaj trafności to trafność fasadowa. Test jest trafny fa-
sadowo, jeśli robi na badanym wrażenie zgodne z oczekiwaniami badacza. Jest
to ważne, gdyż test powinien sprawiać wrażenie profesjonalnego narzędzia, co
może zwiększać u badanego motywację do współpracy. Poza tym, jeśli treść testu
wydaje się niemądra, nieodpowiednia lub dziecinna, to może skutkować brakiem
współdziałania ze strony osoby badanej.
Trafność fasadowa właściwie tylko z nazwy jest trafnością. Nie jest to traf-
ność w sensie definicyjnym, gdyż nie dotyczy tego, co test rzeczywiście mierzy
(Anastasi i Urbina, 1999). Dotyczy ona bowiem raczej tego, co test "wydaje się
mierzyć" w oczach badanych i wpływa na motywację osób badanych. Jest to
istotny aspekt badania testowego, gdyż test funkcjonuje w pewnej rzeczywistości
społecznej. Psycholog bada klientów na ich życzenie lub na zlecenie instytucji
(np. pracodawcy) i nie powinien stosować testów budzących np. złość czy sprze-
ciw klientów lub też zniechęcających do współpracy z psychologiem.
Przykładowo, badając pilotów linii lotniczych, należy m.in. ocenić ich umie-
jętność oceny czasu, pamięć, spostrzegawczość i zdolność wykonywania kilku
czynności równocześnie (reguluje to międzynarodowa metodyka JAR-FCL 3).
Dobrym narzędziem mierzącym te zmienne jest austriacki test SIMCAP. Problem
polega jednak na tym, że treść zadań wykonywanych przez badanego w silnym
stopniu nawiązuje do pracy biurowej (korekta, pamiętanie dat spotkań i telefo-
nów, wykonywanie obliczeń itd.). Test jest trudny, wymaga chwilami wręcz eks-
tremalnej koncentracji. Piloci badani tym testem reagują silnym oporem i zde-
cydowanie nie akceptująjego formy oraz informacji zwrotnych. W opisywanym
przypadku również zlecający badania pracodawca, obawiając się negatywnych
reakcji pilotów, poprosił o zastąpienie tego testu innymi technikami, mimo prze-
konania o wartościowości wniosków. Chociaż więc psycholog ma prawo do swo-
body wyboru narzędzi diagnostycznych i mógłby w takiej sytuacji pozostać przy
swoim zdaniu, korzystniej ze względu na szerszy kontekst badania jest zmienić
test na inny, badający podobne właściwości.
Sposób rangowania nieco bardziej się komplikuje, jeśli więcej niż jednej pozy-
cji testowej przyznano tę samą rangę, tak jak w przypadku sędziego I w tabeli 5.5.
Jak widać z tej tabeli, sędzia ten aż czterem pozycjom testowym przyznał tę samą
ocenę: 5. W tej sytuacji sposób postępowania jest następujący. Podobnie jak po-
przednio, należy uszeregować oceny od najmniejszej do największej i przypisać
im kolejne liczby całkowite. Otrzymujemy więc:
Nie są to jednak jeszcze rangi, gdyż sposób ich obliczania w tym przypadku
wymaga jeszcze następujących przekształceń. Należy zsumować liczby przypi-
sane tym samym ocenom przyznanym przez sędziego. W opisywanym przypad-
ku należy dodać do siebie następujące liczby 3,4,5 i 6, gdyż zostały one nadane
ocenom 5. Suma liczb przypisanych tym samym ocenom wynosi 3+4+5+6=18.
W celu obliczenia rang należy tę sumę podzielić przez liczbę pozycji testowych,
którym sędzia przypisał tę samą ocenę. W naszym przypadku jest to liczba cztery
(czterem pozycjom testowym przypisano ocenę 5). Liczba 18 podzielona na czte-
ry daje 4,5. Ostatecznie otrzymujemy:
141
Adam Tarnowski, Krzysztof Fronczyk
Pozycja Suma
Sędzia I Sędzia II Sędzia III M-Rj (M-Rj)2
testowa rang Rj
1 4,5 5 5 14,5 -4 16
2 4,5 2,5 5 12 -1,5 2,25
3 4,5 5 2,5 12 -1,5 2,25
4 4,5 5 5 14,5 -4 16
5 1 1 2,5 4,5 6 36
6 2 2,5 1 5,5 5 25
Suma 63 97,5
w= S
l e(N3-N)-kt~
12 ;=1
gdzie:
k - liczba sędziów;
N. - liczba ocenianych pozycji testowych;
S - suma kwadratów różnic średniej sumy rang i sumy rang j-tej pozycji te-
stowej;
k
L T; - poprawka na rangi wiązane.
i=l
L 1'; . Jest to tzw. poprawka na rangi wiązane. Oblicza się ją jedynie wtedy,
;=1
gdy występują rangi wiązane. Jeśli takich rang nie ma, to wartość ta równa jest
O. Wartość 1; należy wyliczyć oddzielnie dla każdego z sędziów z następującego
wzoru:
gdzie
t - liczba ocen związanych tą samą rangą.
T. = (43 - 4) = 60 =5
\ 12 12
T = (3 3 - 3) + (2 3 - 2) = 30 =2 5
2 12 12'
T = (3 3 - 3) + (2 3 - 2) = 30 = 2 5
3 12 12'
W dalszej kolejności sumujemy wszystkie wartości 1;:
k
L. 7; = 5 + 2,5 + 2,5 = 10
;=\
w= 97,5 =0765
_13 2 (6 3 -6)-3*10 '
12
Statystytd testu
N 3
W Kendalla a ,765
Chi-kwadrat 11,471
df 5
Istotność asymptotyczna ,043
a. Współczynnikzgodno§cl Kendall«
145
Adam Tarnowski, Krzysztof Fronczyk
Korelacje
aprobata
społeczna
(1<'\8) pSYChOtyzm
aprobata społeczna WAS) KOrelacja Peat'sona 1 ·,351'"
łslotnosc uednostronna) ,000
N 100 100
psycl101yzm Korelacja Pearsona -,351*' 1
Istotność (Jednostronna) ,000
N 100 100
... Korełal:)a jest istotna na poziomie 0.01 (jednostronnie).
Jak widać, utworzona przez komputer tabelka zawiera wartości korelacji po-
szczególnych par zmiennych oraz poziomy istotności tychże korelacji, jak rów-
nież liczebność (N), próby na jakiej obliczono daną korelację. Korelacje istotne
statystycznie na poziomie p<O,Ol zostały wyróżnione gwiazdkami umieszczoną
przy wartości korelacji.
Po
w;odrębn
Począll«>W$ leniu
Skala BRO 1,000 .771
Nieuwaga 1.000 .505
żwawość 1,000 .669
perseweraty.vność 1,000 ,785
wrażliwość sensoryczna 1,000 ,69B
r••kl\'Wność 1,000 ,S05
wytrzymałość 1,000 ,725
akl\'Wność 1,000 ,636
Metod. wyodrębniania C2IInnlków· OIownych skl3aoWyth.
Macierz sktadOW)łt:ha
Składowa
1 2 3
reaktywność ",859 ,148 ,213
'W)IIrzymałOść .849
zwawosć ,692 ,129 ,417
persewera1ywnośc ",667 ,566
Skała BRD
,803 -,355
Nieuwaga -,258 -,661
ak1ywność ,502 -,612
wrażlh"losć
sensoryczna ,302 ,440 ,643
Metoda wyodrębniania cl\Innlków - Głownych składowych.
a, 3 - liczba wyodrębnionych składowych.
Składowa
1 2 3
reak1yVl'nośc ,875 -,182
persewera1ywnośc ,841 ,187 ,149
'W)IIrzymalość ",720 ,455
Skala BRD ",876
Nieuwaga ,144 ,623 -,310
aktywność -,490 ,619 ,115
wrażliwość sensoryczna -,169 ,813
zwawość -,403 ,710
151
Adam Tarnowski, Krzysztof Fronczyk
Rysunek 5.26. Wybór okna "Test t dla prób niezależnych" z menu głównego SPSS
nym wieku, a więc zmienna wiek przybiera np. następujące wartości: 7, 8, 9, 10,
11, 12, 13 i 14. Możemy teraz wybrać, jaka wartość będzie dzieliła wszystkich
badanych na dwie grupy. Możemy np. przyjąć, że wszystkich poniżej 10 roku
życia zaliczamy do grupy pierwszej (czyli do grupy młodszych), a pozostałych
badanych do grupy drugiej (czyli grupy starszej).
W oknie z rys. 5.27. zmienną grupującą wzbiera się przez zaznaczenie jej na-
zwy i kliknięcie odpowiedniej strzałki tak, aby jej nazwa znalazła się w polu
"Zmienna grupująca". Teraz możemy zdefiniować, jakie wartości zmiennej
grupującej określają analizowane .grupy, które chcemy porównać. W tym celu
klikamy przycisk "Definiuj grupy", po czym ukaże się okno przedstawione na
rys. 5.28. W zależności od tego, czy zmienna grupująca ma charakter nominal-
ny czy nie, wybieramy potrzebną opcję (odpowiednio: Użyj określonych warto-
ści lub Punkt podziału). W naszym przykładzie wpisujemy wartości: dla grupy
1 -liczba 12, a dla grupy 2 -liczba 10.
S'~ldl"łlmp
Błąd
Odehylenie: standardtlVvy
wiek N Średnia standardowe $fednie
it)tel 12,00 30 5,,9000 2,48235 ,45321
10,00 30 50,6000 3,13600 ,57255
Tei! L9'/ene-'a
jednOfOClt1o$cl
wariant I Test I róWności średnich
153
Adam Tarnowski, Krzysztof Fronczyk
Na wydruku znajdą się dwie tabele. W pierwszej gómej (Statystyki dla grup)
znajdują się statystyki opisowe dla porównywanych grup (ich liczebność, Śred
nie, odchylenie standardowe i błąd standardowy pomiaru). Z tabeli tej możemy
dowiedzieć się, że dwunastolatkowie osiągają przeciętnie wyższe wyniki (52,9)
niż dziesięciolatkowie (50,6).
Informacje dotyczące tego, czy różnica ta jest istotna statystycznie zamiesz-
czone są w kolejnej tabeli (Test dla prób niezależnych). Dwie pierwsze kolumny
tej tabeli dotyczą testu jednorodności wariancji Levene'a. Jest to sprawdzanie
jednego z założeń testu t-Studenta. Jeżeli test Levene'ajest nieistotny statystycz-
nie, to wariancje są homogeniczne, a co za tym idzie - można zastosować test
t. Wyniki dotyczące tego testu znajdują się w pierwszym wierszu tabeli (wiersz
ten nazwany jest: Założono równo,~ć wariancji). W przeciwnym wypadku, gdy
wariancje nie sąjednorodne, patrzymy na dolny wiersz tabeli, zawierający dane
na temat testu Cochrana-Coxa, który jest odpowiednikiem testu t-Sudenta dla sy-
tuacji, w której nie jest spełnione założenie o homogeniczności wariancji (wiersz
ten nazwany jest: Nie założono równość wariancji).
W naszym przypadku test Levene'a jest nieistotny statycznie (F=I,508;
p=O,224). Oznacza to, że wyniki testu t-Studenta odczytamy z pierwszego wier-
sza tabeli. Jak widzimy, wartość tego testu wynosi t=3,15. Przy 58 stopniach
swobody wynik ten jest istotny statystycznie na poziomie p=0,003. Oznacza to,
że średnie testu inteligencji w dwóch porównywanych grupach wieku istotnie
różnią- się między sobą.
dokładnie, w jaki sposób. Z tego powodu porównania zaplanowane mają dla psy-
chologów mniejsze znaczenie praktyczne. W naszym przypadku właściwie ocze-
kiwalibyśmy, że wszystkie trzy grupy wieku będą różniły się między sobą pod
względem wyników testu inteligencji nie wiemy jednak o jaką wartość.
Natomiast dość często w przeprowadzonym badaniu natrafiamy na zależności,
których albo się nie spodziewaliśmy, albo nie mieliśmy sprecyzowanych hipo-
tez co do ich istnienia. W takim przypadku dokonujemy porównań wszystkich
par średnich bez jakichkolwiek przewidywań co do sposoby ich zróżnicowania.
Najpopularniejszymi testami post-hoc są testy Bonferoniego oraz Tukeya.
Aby wykonać analizę wariancji w programie SPSS, należy wybrać następują
ce polecania. Z menu "Analiza" należy wybrać polecenie "Porównywanie śred
nich", a następnie "Jednoczynnikowa Anova" (rys. 5.30.).
155
Adam Tarnowski, Krzysztof Fronczyk
Jak widzimy, kolejne grupy wieku charakteryzują się wyższymi wynikami testu
inteligencji.
staIystyId opisowe
inlel
95% przedział ufności dla
O~ehvlenie Błąd średniej
N> Średnia standardowe slandardol'll' Dolna aranica Górna granica Minimum Maksimum
8,00 3D 49,2661 2,12831 ,49a12 47,2479 49,2854 42,00 54,00
10,00 30 50,6000 3,13600 ,57255 49.4290 51,7710 45,00 56,00
12,00 30 52,9000 2,48235 ,45321 51,9731 53,8269 50,00 5&,00
OgÓłem 90 50,5989 3,35500 ,35365 49,8862 51.2916 42,00 58,00
Aby stwierdzić,
czy różnice te są istotne statystycznie, musimy sprawdzić
wartość testu F oraz poziom jego istotności (rys. 5.34,). Jeżeli jest on niższy niż
0,05, to możemy uznać, że analizowany przez nas czynnik wpływa na poziom
zmiennej zależnej. Tak też jest w naszym przykładzie.
Jednoc~l1jkowa ANOVA
intel
Suma Średni
kwadratów df kwadrat F Istotność
MiedZY grupami 322,022 2 161,011 20,607 ,000
Wewnątrz grup 679,76.7 9T 7,813
Ogółem 1001,789 89
158
5. Jakich informacji o teście dostarcza testowanie?
Porównania wielokrotne
Zmienna zależna' intel
Grupy jednorodne
inlt'
Podzbiór dla alfa = .05
wiek N 1 2 3
Test Tukey'a HSD' 8,00 30 48,2667
10,00 30 50,6000
12,00 30 52,9000
Istotność 1,000 1,000 1,000
\IIĄIswleUane są sredm8 dla grup jednorodnych.
3. \f\IyKot2Ys\';wana iest średnia harmoniczna wielkości próby" 30,000.
Pytania sprawdzające
1. Czym jest trafność pomiaru testem?
2, W jaki sposób trafność pomiaru testem zależy od wartości
teorii psycholo-
gicznej, na której jest oparty?
3, W jaki sposób trafność zależy od rzetelności pomiaru testem
? 159
Adam Tarnowski, Krzysztof Fronczyk
160
Ewa Witkowska
WYDZIAŁPSYCHOLOGII
UNIWERSYTET WARSZAWSKI
Krzysztof Fronczyk
WYDZIAŁ PSYCHOLOGII
WYŻSZA SZKOŁA FINANSÓW I ZARZĄDZANIA W WARSZAWIE
Trudność
pozycji testowej jest zazwyczaj wyrażana jako odsetek osób, które
znały prawidłową odpowiedź na pytanie. W sposób sformalizowany matema-
tycznie można to zapisać jako:
n.
- ' 100%
P ,· = N
gdzie:
Pi - trudność i-tej pozycji testowej;
ni - liczba osób, które odpowiedziały zgodnie z kluczem na i-tę pozycję te-
stową;
Odpowiedź
Pytanie
A B C D
#1 O 3 24* 3
#2 12* 13 3 2
#3 5 5* 17 3
*gwiazdką oznaczono prawidłowe odpowiedzi
gdzie:
Si2 wariancja i-tej pozycji testowej;
Pi - trudność i-tej pozycji testowej;
ąi=l-Pi'
Inaczej wariancję pozycji testowej można przedstawić jako funkcję jej trud-
ności:
0,3
l 0,25:
o
-gj 02
'
;~ 0,15
c.
''"[ 0.1'
'"
'1::
~ 0,05
Wykres 5.1. Zależność między trudnością pozycji testowej a wariancją jej wyników
Najczęściej w czasie tworzenia testu, jego autorzy nic mają dostępu do żadncj
innej miary badanej zmiennej (czyli w powyższym przypadku - zdolności mate-
matycznych) poza samym wynikiem w tymże teście. W konsekwencji, właśnie
ten wynik najczęściej traktujemy jak informację o natężeniu interesującej zmien-
nej u badanego, a współczynniki mocy dyskryminacyjnej oparte sąna tym wyni-
ku. W sensie operacyjnym moc dyskryminacyjna jest to po prostu korelacja linio-
wa między pozycją a skalą. Wyniki poszczególnych pozycji mogą być dodatnio
lub ujemnie skorelowane z wynikiem ogólnym testu. W efekcie możemy mieć do
czynienia odpowiednio z dwojakiego rodzaju pozycjami - o dodatniej i ujemnej
mocy dyskryminacyjnej. Pozycje testowe o dodatniej mocy dyskryminacyjnej to
takie, które są częściej poprawnie (diagnostycznie) rozwiązywane przez osoby
badane o wysokich wynikach ogólnych. Pozycje te zatem różnicują badanych
w zgodzie z innymi pozycjami testu. Jeśli pozycja z naszego przykładu miałaby
dodatnią moc dyskryminacyjną, to częściej rozwiązywaliby ją poprawnie "dobrzy
matematycy", czyli działałaby tak, jak byśmy sobie tego życzyli. Z kolei pozycje
o ujemnej mOcy dyskryminacyjnej są częściej rozwiązywane przez osoby bada-
ne o niskich ogólnych wynikach w teście, a więc różnicuje te osoby przeciwnie
niż inne pozycje testu. W naszym przypadku oznaczałoby, że wspomniany układ
równań częściej niż"dobrzy matematycy" rozwiązują poprawnie osoby "mate-
matycznie słabsze", co z naszej perspektywy jest pozbawione sensu i należałoby
się takiego pytania testowego po prostu pozbyć.
Dodatkowo zakłada się, że moce dyskryminacyjne powinny być nie tylko
dodatnie, ale także odpowiednio wysokie. Zwyczajowo przyjmuje się, że moc 165
Ewa Witkowska, Krzysztof Fronczyk
W dalszej kolejności dla danej pozycji testowej oblicza się osobno w każdej
z wyróżnionych części liczbę osób, które udzieliły odpowiedzi zgodnej z klu-
czem. Następnie dzieli się liczbę osób odpowiadających zgodnie z kluczem na
daną pozycję testową, w górnej części, przez liczbę wszystkich osób w tej części.
W ten sposób uzyskuje się proporcję odpowiedzi zgodnych z kluczem w górnej
części. Podobnie, dzieląc liczbę odpowiadających zgodnie z kluczem na daną po-
zycję testową w dolnej części przez liczbę wszystkich osób w tej części, uzyskuje
się proporcję odpowiedzi zgodnych z kluczem w dolnej części. Teraz pozostaje
tylko skorzystać z prostego wzoru umożliwiającego obliczenie wskaźnika dys-
kryminacji:
D = Pll - Pl
gdzie:
D - wskaźnikdyskryminacji;
Pu - proporcja odpowiedzi zgodnych z kluczem w górnej części;
Pl - proporcja odpowiedzi zgodnych z kluczem w dolnej części.
167
Ewa Witkowska, Krzysztof Fronczyk
Pytanie
Student Wynik ogólny
#1 #2 #3
Jan 90 1 O 1
Krzysztof 90 1 O 1
Joanna 80 O O 1
Wojtek 80 1 O 1
Jacek 70 1 O 1
Piotr 60 1 O O
Julia 60 1 O 1i
Agata 50 1 1 O
Matylda 50 1 1 O
Mateusz 40 O 1 O
Liczba Liczba
poprawnych poprawnych Moc
Pytanie Trudność
odpowiedzi odpowiedzi dyskryminacyjna
(górna połowa) (dolna polowa)
#1 4 4 0,80 O
#2 O 3 0,30 -0,6
#3 5 1 0,60 0,8
0,45
o 0,4'
~
-c
0.35
1lo 0,3
'O 0.25'
o
n. O,i
o
~
a..
0,15
0,1
0.05:
O'
-5 -4 -3
Wartości standaryzowane z
0.45:
j 0,4
'" 0,35
'c: ,
.!!! 0,3'
.CI
.g 0,25
&. 0,2
o
~ 0,15
l! 0,1
CL. 0.05:
~5 -4 -3~2 -1 o :2 34 5
Wartości wystandaryzowane z
0,45
o 0,4'
!
'c
0,35
~ 0,3
.g 0,25
o
g. 0,2
...~ 0.15
Il. 0,1
0,05
-4 -3 -2 ·1
Wartości
° l 2
wyslandaryzowane z
3 4 5
Gdy korelacje pozycji są niskie albo wręcz ujemne, to rozkład wyników za-
czyna być nadmiernie skoncentrowany wokół średniej (staje się leptokurtyczny),
co przedstawiono na wykresie 5.5. W sytuacji skrajnego braku korelacji pomię
dzy pozycjami testowymi rozkład staje się jednomianowy (wszyscy uczestnicy
badania uzyskują identyczny wynik). W tej sytuacji wartość kurtozy jest duża,
znacznie przekraczająca l.
0,8
0,7
!
Ol
0,6
·c
~ 0.5
-8 0.4
8-
o
0.3·
lo.. 0,2
0.1
~5 ·4 ·3 -2 o 2 3 4 5
Wartości wystandaryzowane z
Jeśli test zawiera zbyt wiele trudnych pytań, czyli trudności wielu pozycji testo-
wych są niskie, to otrzymujemy niesymetryczny, prawoskośny rozkład. Rozkład
taki przedstawia wykres 5.6. W tym przypadku stosunkowo mało osób badanych
uzyskuje wyniki wysokich, a dość dużo - wyniki niskie.
0,45.
0,4;
!
'.~
0,35:
.!!l 0.3!
..,.g 0,25:
...§ 0,2;
~
0,15j
a. 0,1;
0.05'
O'
-5 -4 -3 -2 -1 o 1 2 3 4 5
Wartości wystandaryzowane z
Jeśli zdarzy się sytuacja odwrotna, gdy test zawiera zbyt wiele łatwych pytań,
czyli dużo jest wysokich wyników, a mało - niskich, otrzymujemy niesymetrycz-
ny, lewoskośny rozkład.
171
Ewa Witkowska, Krzysztof Fronczyk
0,45,
0,4:
i
'c
0,35:
0,3:
:!o
0,25:
'8...
o 0,2'
i
11.
0,15'
0,1 :
0.05:
o'
-5 -4 ~ 4 ~ o 1 234 5
Wartości wystandaryzowane z
172
5. Jakich informacji o teście dostarcza testowanie?
StatJ/$1Yld rzetelności
StalYStllki I)Ozycjl
Odchylenie
Średnia standardowe N
pl 2.80 ,798 60
p2 2,45 ,746 60
p3 Ul8 ,976 60
1)4 2,10 ,752 60
p5 2,22 ,993 60
p6 3,05 ,790 60
p7 2,35 1,039 60
pB VO ,696 60
pS 2,05 ,946 60
plO 2.'57 ,7B9 60
pll 2,42 .787 60
p12 2,08 ,787 60
p13 2,72 ,739 60
p14 3,13 ,965 60
p15 2,07 ,972 60
p16 3,13 ,769 60
p17 2,55 ,999 60
p18 2,82 ,624 60
p19 2,43 ,745 60
p20 2,97 ,367 60
173
Ewa Witkowska, Krzysztof Fronczyk
174
5. Jakich informacji o teście dostarcza testowanie?
StIll)/lllyldQPIoOW.
Pytania sprawdzające
Zadania
1. Pięć osób wypełniło pewien test składający się z czterech zadań. Uzyskane
wyniki znajdują się w tabeli.
177
Ewa Witkowska, Krzysztof Fronczyk
Pozycje testowe
Osoby badane
1 2 3 4
1 1 O O O
2 O 1 1 1
3 1 1 1 1
4 O O O O
5 O O 1 1
2. Osiem osób uzyskało w teście składającym si't z sześciu zadań wyniki przed-
stawione w tabeli.
Odpowiedzi do zadań
1.
a)
0,4 0,4 0,6 0,6
b)
0,24 0,24 0,24 0,24
c)
O 1 0,5 0,5
2.
a) tak
b) nie
c) 6/8
d) 0,5
e) 0,75
f) nie
179
6. JAKICH INFORMACJI O OSOBIE BADANEJ
DOSTARCZA TESTOWANIE?
Andrzej Rynkiewicz
WYDZIAŁ PSYCHOLOGII
UNIWERSYTET WARSZAWSKI
I Praca nad rozdziałem była finansowana ze ,~}vdków na badania statutowe Wydziału Psychologii
180 UW w 2008 roku.
6. Jakich informacji o osobie badanej dostarcza testowanie?
stosunkowo duży zakres. Posługując się taką właśnie metodą diagnosta jest ska-
zany na formułowanie wniosków przedziałowych, np. poziom inteligencji osoby
jest typowy lub nieco powyżej typowego dla 23-letnich mężczyzn. Chociaż dla
osób badanych ten brak precyzji może się okazać zaskakujący, to jednak przy
obecnym stanie wiedzy psychometria nie oferuje technik bardziej dokładnych.
W tym rozdziale zostaną omówione dwa najczęściej stosowane sposoby esty-
macji przedziałowej wyniku prawdziwego, czyli dwa rodzaje przedziałów ufno-
ści - przedział dla wyniku otrzymanego i przedział dla estymowanego wyniku
prawdziwego. Każdy z nich jest konstruowany na bazie nieco inaczej definiowa-
nego błędu standardowego. Ponadto zaprezentowana zostanie bardzo użyteczna
metoda porównywania dwóch wyników testowych przy użyciu przedziału ufuo-
ści dla różnicy między wynikami otrzymanymi.
T x
T+z;SEM
,,,
.
~-------------:-·_----·_···ł
,, X,.Z;SEM x, x,+Z:~'SEM
,
~"-""-----~'---'--""-'I przedział ufności dla X,
X,'J:;SEM xa X,.. z;SEM
Rysunek 6.1. Rozkład wszystkich potencjalnych wyników otrzymanych dla jednej osoby
i ilustracja pojęcia przedziału ufności
a 1- a za
0,01 0,99 2,58
0,05 0,95 1,96
0,10 0,90 1,64
0,15 0,85 1,44
Przedział zaznaczony w górnej części rys. 6.1. linią ciągłą obejmuje znaczny
procent wyników, które potencjalnie może otrzymać osoba. Zatem ze znacznym
prawdopodobieństwem (ale zawsze mniejszym od l) każdy wynik, który otrzy-
małaby ta osoba znajdzie się w omawianym przedziale. Jeśli więc przedział sy-
metryczny względem T ze znacznym prawdopodobieństwem będzie obejmował
każdy możliwy wynik otrzymany X, to jednocześnie tak samo szeroki przedział
symetryczny względem dowolnego wyniku X otrzymanego przez tę osobę ze
znacznym prawdopodobiellstwem będzie obejmował jej wynik prawdziwy T.
Inaczej mówiąc, jeśli przedział narysowany linią ciągłą obejmuje jakiś wynik
X, to tak samo szeroki przedział zbudowany wokół tego wyniku X (narysowany
linią przerywaną) musi obejmować wynik T. Przedziały zaznaczone w dolnej'
części rys. 6.1. linią przerywaną to przykładowe przedziały ufności.
PRZYKLAD'l
symet~9zHy •.~;e~~deIUfYniku.pra"'#iWegQ . T·. przedzi4l.0bejtntljąc~~~Q!o.··pbttm
cjalni~i~?~li~Ił~?OU~~~kapia przezA~o1?ę.,• wynilj.ó",(a .",ięcprą",ię.w~zy&tlj.ie
możliwęlmiałpygrnnice'u1okowane ··w··.odległości )',96'o<lćhyleniastanctardowego
od·.·'YY~*~...... ..ij~i~e~ę(~~.Z9,055r,96),Z, •. r~cji ,tego,.że·tozk,ł~ij~~ • rYs, • • 6,.·l·ję·~·~J~~·
kładem.wyn ..WOlfZYtnątlych,,· to je gQpdchYlenie standar<l()wej~st·· fó",ne • §tan('la1.'~
dowemlj'błęd,()w!~?1ljłafU··;Zątefugraniąeprzedzi<H!J;·.• qktóo/mjęst.·,tu . mo",a;łlYłybY
o<ldal()p'e9('1'~~i~!J~t~",ą.ziwego Q}:9§·SJĘM.. grzępzjał· taki, . ·. M9f)' . . tlię·jFs~·.ję.S:l~~ę
przędziałe1111xfn()~~i,w~ól.1wj. częścif)'~.6i I· JlPstał zap1a~z\.)Uy linią 9iągłą·Ohej111ie
on ...:l .• praW~~()~(,)Pie~~~ell1(),Q~.kaz9y\Vynil<,.ktÓry ll1()~~.()~rzYlUaĆdąl~.p~()bą.
TegQ.l"Qd2l11jl,l;pr?~d?iał • ·tI1()?e~nY.?1b~d9'iYaęĘ6wn.te~w()ĘQłiw~iku . .otr?YtI1~l1ę~~.• • X:;
Ję!il(),g~aI}icę·uątaliłił)yś111y()dejI}1~j~E .•~·.d()dąj~ę~():X ilQc~. hQ6·~ 'EM·Pąelil:liął. tęn,
2lWanyp~ze4zjąłęW:ufn()§ęi;~R~tał.~ail111c~(m)'Wcłolpęj .• c?~§óirrs .• 6.r.•. Hrii~przęrY
waną'Z:pr~rwPopp~()1?ie6~twęll1(),9$()bej111()Wałby .• ()nwyniĘprawą2:iwy.os()~y.· . .
184
6. Jakich informacji o osobie badanej dostarcza testowanie?
mi (O"Ed). Jest ono talde samo, jak Qdchylenie standardowe w rozkładzie błędów
różnicy między wynikami otrzymanymi (E d) dla pojedynczej osoby, co wyjaśnia
stosowane oznaczenie (litera E w indeksie sugeruje związek z błędem).
a)
b)
Rysunek 6.2. Rozkłady wszystkich możliwych wyników otrzymanych jednej osoby z po-
miarów dwoma testami (a) oraz rozkład różnic tych wyników (b). T 1 i T 2 - wyniki prawdziwe
osoby w testach 1 i 2; X 11 i X 12 - przykładowe wyniki otrzymane przez tę osobę w testach;
T d - różnica między wynikami prawdziwymi; X d1 - różnica między wynikami otrzymanymi
(6.3)
(6.4)
(6.5)
188
6. Jakich informacji o osobie badanej dostarcza testowanie?
2
2
U &1 =U El-n
2
= U El2 + U E2
2
- PEln u ElU E2 (6.6)
(6.8)
(6.9)
189
Andrzej Rynkiewicz
(6.11)
(6.12)
gdy SXl = SX2 oraz ~Il =~12
Jeślisytuacja jest niejasna i nie wiadomo, którego ze wzorów na SEMD użyć,
to najbezpieczniejszy będzie ogólny wzór zapisany w równaniu 6.10.
190
6. Jakich informacji o osobie badanej dostarcza testowanie?
x.
T•.z;SEMD ..
T+z 'SEMD
~-~~-~~---~·~~:----------~-ł
, X".z;SEMD Xd1 X.,+z:.-SEMD
<
X(12
--'1
X.....z:SEMD
przedział ufności dla Xdf
Rysunek 6.3. Rozkład wszystkich potencjalnych różnic między dwoma wynikami otrzy-
manymi przez jedną osobę w dwóch testach i ilustracja pojęcia przedziału ufności dla
różnicy wyników
(6.13)
192
6. Jakich informacji o osobie badanej dostarcza testowanie?
Do oceny istotności
statystycznej różnicy wyników wykorzystujemy opisany
wcześniej przedział ufności dla różnicy (równanie 6.13). Wiadomo, że ze znacz-
nym prawdopodobieństwem przedział taki obejmuje różnicę prawdziwą. Może
ona znajdować się w każdym miejscu tego przedziału włącznie zjego granicami.
Jeśli taka różnica prawdziwa będzie w rzeczywistości inna niż zero, to zero naj-
prawdopodobniej będzie leżało poza granicami przedziału ufności (rys. 6.4.).
o x d
zero poza przedziałem
ł I la
,. OI
I różnica istotna
x
,
I
I
d I
.. zero w przedziale
różnicanieistotna
I I
przedział ufności dla X.
ufności i aby uznać różnicę dwóch wyników za istotną statystycznie, to jej wartość
bezwzględna musi być większa od półprzedziału ufności (równanie 6.14).
a) b)
20 20
18 18
16 16
• •
14 14
T T
12 12
10 10
•
10 12 14 16 18 20 10 12 14 16 18 20
X X
Rysunek 6.5. Linia regresji dla hipotetycznej zależności pomiędzy wynikami otrzymanymi
(X) i wynikami prawdziwymi (T) w jakiejś grupie osób. Rysunek a) pokazuje silną zależność
(test o wysokiej rzetelności), a rysunek b) słabą zależność (test o niskiej rzetelności)
(6.16)
tstyrnowany wynikprawdziwy·(T')-toPtU1któwy~Styfh~tór~nikupra""d:z;iw~gO
stosowany czasem. \Vzastępst""ie wynikuotrżymane~o.J~stto.przewid~any\Vynik
prawdziwy, . którymog~ibyśmy.·. wyznaczyć .11a.podstawie •. r()\VI1~niaTegreśjiprostoli~
niowej. dla zale~ości pomię<iz~ w)'nikami~trzymanYJl1iiprawdziwYrni. ..••..
PRZYKLAD4
Osoba . uzyskała ""ynik . otrzymany 15 .• wteście . o .wsPółczynnikurzetelnoścfO,~l;.
Średnia wynikówotrzyIllanych w prÓbie osób adekwatfieJ dla· osopyb~dan~j .wyno~i·
20. Zatemestyl110wanywynikprawdziwy .wY'ZIlaczamywnastępującysposób:
nasileniu cechy). Możliwe też jest, że wynik otrzymany tej osoby jest w jakimś
stopniu zniekształcony przez błąd pomiaru. Jeśli tak, to jej wynik prawdziwy
będzie z większym prawdopodobieństwem leżał po tej stronie wyniku otrzyma-
nego, która jest bliższa średniej. Innymi słowy, wyniki skrajne są mało prawdo-
podobne w populacji. Jeśli więc uda nam się napotkać osobę o takim wyniku, to
albo jest to niezwykły zbieg okoliczności, albo konsekwencja znacznego błędu
pomiaru. Im bardziej skrajny wynik, tym mniejsze budzi zaufanie. Podejście to
jest w oczywisty sposób sprzeczne z założeniem Gulliksena o niezależności błę
du pomiaru od wyniku prawdziwego osoby.
E'=T'-T (6.17)
SEE=F,;SEM (6.18)
samym teście i dla tej samej osoby przedział ufi10ści wyznaczony na podstawie
standardowego błędu estymacji będzie węższy niż przedział wyznaczony na pod-
stawie standardowego błędu pomiaru. Zależność obu standardowych błędów od
współczynnika rzetelności została pokazana na rys. 6.6. Widać na nim, że linia
wykresu dla standardowego błędu estymacji jest prawie zawsze poniżej linii dla
standardowego błędu pomiaru.
Intuicyjnie można ten efekt wytłumaczyć charakterystyką estymowanego
wyniku prawdziwego. Zgodnie z jego definicją leży on zwykle bliżej średniej
niż wynik otrzymany. W rozkładzie wszystkich potencjalnych wyników otrzy-
manych dla jednej osoby średnia to wynik prawdziwy. Gdybyśmy dla każdego
z tych wyników otrzymanych obliczyli estymowany wynik prawdziwy, to zwykle
leżałby on bliżej średniej, czyli bliżej wyniku prawdziwego. W efekcie rozkład
wyników estymowanych miałby mniejsze odchylenie standardowe, czyli mniej-
szy błąd standardowy, niż rozkład wyników otrzymanych.
o~------------~.-------------~
o 0,5
r.
Rysunek 6.6. Standardowy błąd pomiaru (SEM) i standardowy błąd estymacji wyniku
prawdziwego (SEE) w funkcji współczynnika rzetelności (rtt )
Wykres dla standardowego błędu 'cpomiaru (SEM) z rys. 6.6. pokazuje typo-
wą zależność pomiędzy standardowym błędem a rzetelnością pomiaru testem.
Natomiast zależność pokazywana przez wykres dla standardowego błędu esty-
macji (SEE) jcst z pewnych względów nietypowa. Zgodnie z intuicją wielkość
standardowego błędu wykorzystywanego w psychometrii powinna monotonicz-
nie maleć wraz ze wzrostem rzetelności pomiaru testem - im dokładniejszy test,
tym mniejsze błędy popełniamy przy jego użyciu i tym mniejsze odchylenia
wyników otrzymanych od wyniku prawdziwego. W przypadku standardowego
błędu estymacji tego rodzaju zależność widoczna jest tylko w prawej połówce
wykresu dla współczynników rzetelności większych niż 0,50. Gdy rzetelność jest
198 mniejsza niż 0,50, wtedy wraz ze wzrostem rzetelności pomiaru testem wzra-
6. Jakich informacji o osobie badanej dostarcza testowanie?
T T'
,, .
i - - - - - - - - - - - - - - -.......--"----------ł
T.z;SEE T+z:SEE
~- _____ -~~~---!-_MM~~~-~-M~I
,,, T'·z
1 G
'SEE T'1 T'1+zII 'SEE ",::5
,,
ltcs:'
1 r..------------, ~ ~ t;
...........
1'·z 'SEE
............. w __ .1.
T':2
M ~ _ w ~ _ - ...... .....
T'2+z:CI 'SEE
przedzial ufnosci dla T', a:: a: o
~81e'~
li: d:
~ S
pn:edział ufności dla T'z o~Q
PRZYKLAD5
Mężczyznaw wieku 22 lat uzyskał w teście wynik równy 39 punktom. Z podręcznika
do testu możemy się dowiedzieć, że jego współczynnik rzetelności obliczoriy dla pró-
by mężczyzn w tym wieku wynosi na przykład 0,69, odchylenie standardowe wyni-
ków otrzymanych jest równe 3,50, a średnia wyników otrzymanych wynosi 25. Na tej
podstawie możemy policzyć estymowany wynik prawdziwy osoby (równanie 16)
SEE=.jO,69·1.95=1,62. '
Zakładamy poziom istotności 0,10. Odpowiada mu wartość wystandaryzowana
zo==1,64. Możemy teraz obliczyć przedział ufności dla wyniku otrzymanego tej oso-
by.
Przedział ufności
dla estymowanego wyniku prawdziwego zwykle nie jest
symetryczny względem wyniku otrzymanego, bo jest symetryczny względem
estymowanego wyniku prawdziwego. Czasem jednak może się zdarzyć, tak jak
w powyższym przykładzie obliczeń, że tego typu przedział ufności wręcz nie bę
dzie obejmował wyniku otrzymanego. Taka sytuacja może zachodzić wtedy, gdy
estymowany wynik prawdziwy będzie bardzo oddalony od wyniku otrzymanego,
a więc wtedy, gdy test ma dość słabą rzetelność oraz wynik otrzymany znajduje
się daleko od średniej wyników otrzymanych. W przykładzie obliczeń oba te
warunki są spełnione.
Przedział ufności dla estymowanego wyniku prawdziwego interpretuje się
dokładnie tak samo, jak przedział dla wyniku otrzymanego. Z prawdopodobieIl-
stwem l-a ufamy, że przedział ten zawiera wynik prawdziwy.
Literatura zalecana
Anastasi A., Urbina, S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP. (Str. 150 - 155).
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
(Str. 461-466).
Homowska E. (2005). Testy psychologiczne. Teoria i praktyka. Wydawnictwo Scholar.
(Str. 63 - 69).
Magnusson D. (1991). Wprowadzenie do teorii teslów. Warszawa: PWN. (Wydanie 2:
str. 119-147).
Zadania
1.
Wynik otrzymany osoby w teście o współczynniku rzetelności 0,87 wynosi 48.
Oblicz przedział ufności przy a=O, l, gdy wiadomo, że odchylenie standardowe
wyników otrzymanych w próbie walidacyjnej wynosiło 11,5. Zinterpretuj wy-
nik.
2.
Obliczyć przedziały ufności dla podanych wyników przy a=0,05:
a) st=10; r tt=O,90; X t=55;
b) st=15; r tt=0,95; X t=60;
c) s(=2; r tt =O,85; X t=6.
3.
Przedział ufności dla wyniku otrzymanego obliczony przy a=O,05 wynOSI
<11; 19>.
a) Oblicz wynik otrzymany tej osoby.
201
Andrzej Rynkiewicz
4.
Wyniki otrzymane dwóch osób wynoszą X A =12 i X B =17. Dane są też rItA=0,90;
rItB=0,87; sXA=4. Jakie musi być odchylenie standardowe wyników dla osoby B
(SXB)' aby górna granica przedziału ufllości dla osoby A pokrywała się z dolną
granicą przedziału ufności dla osoby B, gdyby oba te przcdziały zostały wyzna-
czone przy a=O, 1O?
5.
Współczymlik rzetelności testu wynosi 0,91. W próbie walidacyjnej średnia
wyników otrzymanych była równa 41, a odchylenie standardowe 9,3. Wyznacz
przedział ufności dla estymowanego wyniku prawdziwego tej osoby przy a=O, 10,
gdy wynik otrzymany wynosi 49. Zinterpretuj wynik.
6.
Przedział ufnościdla estymowanego wyniku prawdziwego obliczony przy a=0,05
wynosi <24; 36>.
a) Oblicz estymowany wynik prawdziwy tej osoby.
b) Oblicz półprzedział ufności.
c) Oblicz SEE.
d) Oblicz przedział przy a=0,15.
e) Oblicz przedział dla innej osoby o estymowanym wyniku prawdziwym T'= 18
przya=0,10.
7.
Estymowany wynik prawdziwy osoby w teście o współczynniku rzetelności 0,88
wynosi 34. Oblicz wynik otrzymany tej osoby, gdy wiadomo, że średnia wyni-
ków otrzymanych w próbie walidacyjnej była równa 30.
8.
Wynik otrzymany przy badaniu testem o rzetelności 0,79 wynosi 17. Jaka musi
być wartość sx, aby wynik otrzymany leżał poza granicami przedziału ufności dla
SEE, gdy średnia wyników otrzymanych w próbie była równa 12, a a=0,10?
9.
Przedział ufności zbudowany na podstawie SEM dla a=0,10 wynosi <24,3;
29,7>. Wiedząc, żc współczynnik rzetelności jest równy 0,893, a średnia wyni-
202 ków otrzymanych w próbie 31 oblicz przedział ufności dla SEE.
6. Jakich informacji o osobie badanej dostarcza testowanie?
10.
Dwie kobiety w tym samym wieku uzyskały w teście wyniki 19 i 16. Czy różnią
się one pod względem mierzonej cechy na poziomie O, l O, gdy st=3,2; rtt=0,86?
Sformułuj poprawną odpowiedź.
11.
Standardowy błąd różnicy wynosi 1,7. Ile musi wynosić różnica między wynika-
mi otrzymanymi, aby uznać ją za istotną na poziomie 0,15?
Odpowiedzi do zadań
1. <43,85; 52,15>; po zaokrągleniu <44; 52>. Wynik prawdziwy osoby znaj-
duje się w przedziale pomiędzy wynikami 44 i 52 z prawdopodobieństwem
0,90.
4. sXB=4,96.
7. X=34,55.
8. sx<1,56.
11. Wartość bezwzględna różnicy otrzymanej musi być większa niż 2,45.
204
Andrzej Rynkiewicz
WYDZIAŁ PSYCHOLOGII
UNIWERSYTET WARSZAWSKI
-3 -2 -1 o 2
Rysune k 6.8. Normalny rozkład hipotetycznej cechy psychicznej i ilustracja pojęcia nor-
my
6.2.2. Standaryzacja
Z racji tego, że normy stanowią statystyczny układ odniesienia, przy ich kon-
strukcji należy odwoływać się do wyników testowych uzyskanych przez próbę
osób reprezentujących populację (próba reprezentatywna). Próba taka powinna
obejmować wystarczająco dużo osób wylosowanych z populacji. Tylko czyste
losowanie wystarczająco dużej liczby osób daje próbę reprezentatywną ze wzglę
du na wszystkie zmienne. Jednak dość często procedurę losowania zastępuje się
tańszymi i mniej czasochłonnymi metodami doboru kwotowego, gdzie z góry
zakłada się określona strukturę próby pod względem najbardziej pożądanych
zmiennych (np. płeć, wykształcenie). W konsekwencji próba taka jest mniejsza
(a więc wygodniejsza), ale niekoniecznie reprezentatywna ze względu na pomi-
nięte przy jej planowaniu zmienne.
X-x
Zi = ----'l __ (6.20)
S
PRZYKŁAD 1
Porównanie. wyąików wystandaryzowa~ych W grupach' o różnych srednich .
Mężczyzna i kobieta uzy~kali tak:lsam wynik surowy w. teście róWny. 30. Wśród
wszystkich badapychmężczyzn przeciętny wynik 'równy był 33, a: wśród kobiet
27. Odchyleniest~tndardo'we w obu próbach było takie samo rÓwne 3. Żeby ustalić
względtlą' pozycję obu tych osób na tle ich własnych grup,naleZy .wystandary;;:;ować
ich wyniki posługując się równaniem 6.20. .
30-33 .. . 3 0 - 2 7 ..
mężczyzna.: zm.:;;:;
, .. . .d3. ..=-1 kobieta:
' Zk ;;:;
.. 3· ='+1
Wynik luężczy:<:nyjest wyraźnie niższy od przeciętnego dla męzczyzn. a wynik kobie-
tywyrąźQięwy~ftzyod przeciętn,ego dlakobj~t.. Pomimo tęgo, że obie osoby uzy~kały
ten sam wynik surowy w teście, to z powódu różnicy w średnich względny poziom
cechy mężczyzny jest niższy nit względny poziom cechy kobiety.
PorÓwnanie wyni){ów wystandaryzowanych w grupach o różnych~)(:Icbyleniach
standardowyc~
Mężczyzną ~. kobieta· Uzyskali taki sam· wynik surowy w· teście rówrty30 ~ ,Wśród
W!:izystkicqbaganych Qsób przeciętny wyp,iktówny był 27. Odchylenie~t,llldardowe
w próbiemężc;?iyzn było równe ~, a W próbie kobiet 6. ZtlQw żeby ustalić względnl:l
pozycję obu tych osób na tle ich własllych gmp, należy wystapdaryzowaćich wyniki.
c. ' , • • ,~ •• '. ,. ' •• , .' • .,
konując porównań między ludźmi intuicyjnie posługuje się jakąś miarą zróżnico
wania w grupie odniesienia, czyli miarą podobną do odchylenia standardowego.
Załóżmy, że obserwujemy dwie grupy osób, w których przeciętny wzrost jest
taki sam, ale różnią się one odchyleniem standardowym - w grupie A osoby mają
wzrost bardzo podobny w granicach od 170 cm do 174 cm, a w grupie B osoby
różnią się wzrostem wyraźnie w granicach od 164 cm do 180 cm. W tych warun-
kach osobę o wzroście 178 cm uznamy na tle grupy A za bardzo wysoką, a na tle
grupy B po prostu za wysoką. To, czy opiszemy kogoś jako bardzo odstającego
od reszty osób zależy w dużej mierze od zróżnicowania cechy w grupie, która
stanowi układ odniesienia.
6.2.3. Normalizacja
Wyniki wystandaryzowane dają już pewną orientację w odległości wyniku
otrzymanego osoby badanej od średniej w próbie. Interpretacja może być jesz-
cze bardziej użyteczna, gdy uwzględni się charakterystykę rozkładu normalnego.
Pojawia się wtedy możliwość wyznaczenia częstości lub prawdopodobieństwa,
które precyzyjnie pokazuje pozycję osoby badanej wśród wszystkich osób w po-
pulacji. Należy zatem przyjąć, że wyniki otrzymane z danego testu miałyby w po-
pulacji rozkład nonnalny. Możliwe jest oczywiście, że w próbie reprezentującej
tę populację rozkład wyników będzie nieco odbiegał od nonnalnego, ale jeśli to
zniekształcenie jest małe, możnaje przypisać błędowi wynikającemu z niedosko-
nałego losowania próby.
Normalizacja jest nieliniowym przekształceniem rozkładu wyników. Można ją
sobie wyobrazić graficznie jako "naciąganie" rozkładu empirycznego tak, żeby
przyjął kształt rozkładu nonnalnego. Z tego widać, że aby nie zostać posądzo
nym o manipulowanie wynikami nie powinno się dopuścić, by to "naciąganie"
było zbyt duże. Będzie ono małe, gdy rozkład empiryczny przypomina mode-
lowy rozkład nonnalny. Nie zaleca się więc wykonywania nonnalizacji, gdy
rozkład empiryczny wyników testowych w próbie nonnalizacyjnej jest mocno
zniekształcony.
Typowa procedura nonnalizacji wyników hipotetycznego testu przedstawiona
jest w tabeli 6.2.
W kolumnie (1) tabeli 6.2. zapisano wyniki otrzymane w teście. Na ich podsta-
wie widać, że przebadane osoby wykazują dość małą wariancję wyników, ponie-
waż nikt w grupie nie rozwiązał mniej niż 24 ani więcej niż 33 zadań. W kolumnie
(2) zapisana jest liczebność poszczególnych wyników (jak dużo osób uzyskało
konkretny wynik). Kolumna (3) to liczebność skumulowana, czyli liczba osób,
które uzyskały dany wynik lub niższy. Liczebność skumulowana 18 dla wyniku
27 oznacza, że w sumie 18 osób uzyskało wynik 27 lub niższy niż 27. Ostatnia
wartość w kolumnie (3) to całkowita liczebność próby.
209
Andrzej Rynkiewicz
Tabela 6.2. Normalizacja wyników testu. Przebadano 50 osób. Test ma 60 zadań, a więc
osoba może uzyskać odO do 60 punktów. Opis obliczeń w tekście poniżej
ich W sumie 18). Licząc tę wielkość zawsze do połowy liczebności z kolumny (2)
dla danego wyniku dodaje się całą liczebność skumulowaną z kolumny (3) dla
wyniku niższego.
27 28 29
27,5 28,5
II IIIIIii IIIIIII
Rysunek 6.9. Równomierny rozkład wyników w teoretycznym przedziale dla wyniku 28
z tabeli 6.2.
W kolumnie (5) tabeli 6.2. znajduje się proporcja jaką stanowi zapisana w ko-
lumnie (4) liczebność skumulowana dla środka przedziału względem całej próby.
Aby ją policzyć należy liczebność skumulowaną z kolumny (4) podzielić przez
liczebność próby znajdującą się w ostatnim wierszu kolumny (3). Dla wyniku 28
ta proporcja to 24/50=0,48. Może być ona traktowana jak prawdopodobieństwo
wylosowania z próby osoby z wynikiem równym lub niższym niż środek danego
przedziału.
Do tego miejsca wszystkie obliczenia wykonywane były wyłącznie na bazie
empirycznych wyników z próby. Nie wiązały się one z żadnymi nieliniowymi
przekształceniami. Oznacza to, że proporcje z kolumny (5) dokładnie odzwier-
ciedlają rozkład liczebności z kolumny (2). Jednak nOffi1alizacja prawie zawsze
powoduje przekształcenie rozkładu. Zachodzi ono na tym etapie procedury, który
w tabeli 6.2. zaznaczony jest podwójną linią pionową. Po jej lewej stronie zapi-
sany jest realny obraz wyników w próbie, a po prawej obraz teoretyczny będący
konsekwencją normalizacji.
W kolumnie (6) zapisane są wartości Zi odpowiadające prawdopodobieństwom
z kolumny (5) w teoretycznej dystrybuancie rozkładu normalnego. Dystrybuanta
to funkcja, która dla podanego nasilenia cechy zwraca prawdopodobiellstwo
tego, że z populacji wylosujemy osobę o takim właśnie nasileniu cechy lub niż
szym. Wartość dystrybuanty jest więc prawdopodobieństwem skumulowanym.
W procedurze normalizacji prawdopodobieństwo to utożsamia się ze skumulo- 211
Andrzej Rynkiewicz
waną proporcją liczebności, która w tabeli 6.2. zapisana jest w kolumnie (5).
Na podstawie tablic dystrybuanty rozkładu normalnego dostępnych w każdym
podręczniku do statystyki można wykonać również operację odwrotną. Znając
prawdopodobieństwo skumulowane, można wyznaczyć odpowiadające mu na-
silenie cechy. Będzie ono przedstawione w postaci wartości Zj, a więc w postaci
wyniku znormaliilOwanego.
Wyniki··.ZIlOI"~~li~?~an~.;-iwYl1iki.qgPO~iądają~e>surowtglWynikom. otr~tm(lnYlll
lla·p()dsta)Yi~iiT~ •. t~e~zrvi~.tej . (ri!k\\lęrcji· • ·.·~;iją:.8~r.t~ką:~~mą>jedlł()stk~ ·S8\Myn i1u · ·
\\ly~tllwt~~@()\\l~~f~I~I~'m'llilti . ()rg1ttl~!?()\lIani! • I;,!w~zep~~jm\1ją.r()zldadllorrąalny
ijęzwzgJę<l~rnag;ęęzyWi~w: łt WyWkó\M. ęlllpiryęznyęh(~uro\MYęllJ·
212
6. Jakich informacji o osobie badanej dostarcza testowanie?
25
~20
!}
!. 15
al
~
ł 10
30
i' 25
b)
!20
·u
'3" .
c:
1110 .
~
1
1·1,6
>5 O,tl5
Ci'
0.40 :~
i'20 0.35 i
<:;:.
li 0,30 ..
i
~ 15,
c)
'c>
'0.26 'm
'3 020
ł 10
0,15
...
~ S 0, 10 1
0,05 ; .
Rysunek 6.10. Rozkłady empiryczne wyników surowych (s/.upki) o kształcie prawie nor-
malnym (a), skośnym (b) i dwuwierzchołkowym (c) oraz odpowiadające im rozkłady wy-
ników znormalizowanych (linia). Pod każdym wykresem podane są wyniki surowe oraz
odpowiadające im wyniki znormalizowane, Na lewej osi pionowej zaznaczone są liczeb-
ności poszczególnych wyników surowych (słupki), a na prawej prawdopodobieństwa dla
wyników znormalizowanych (linia). Dolna pionowa strzałka na wykresach pokazuje śred
nią dla liczebności (słupki), a górna średnią dla prawdopodobieństw (linia)
Na rys. 6.10. pojawiła się wielkość, której nie zawiera tabela 6.2. Jest to za-
znaczone na prawej osi pionowej prawdopodobieństwo uzyskania określonego
wyniku znormalizowanego. Jeśli na wykresie w części a) rys. 6.10. wynikowi
surowemu 5 odpowiada liczebność 22 (lewa oś pionowa), to w kontekście pozo-
stałych wyników odpowiada mu wynik znormalizowany z=O. Jest tak dlatego,
że wynik surowy 5 stanowi medianę całego zbioru wyników. W tablicach rozkła-
du normalnego (funkcja gęstości lub rzędna krzywej znormalizowanej) można
odczytać wartość prawdopodobieństwa odpowiadającego wynikowi znormali- 213
Andrzej Rynkiewicz
zakres może być różny dla różnych skal (np. pojedyncza jednostka skali znor-
malizowanej może obejmować wyniki znormalizowane od z=0,5 do z=I). Bez
problemu można więc przeliczyć dowoh1Y wynik znormalizowany podany w jed-
nostkach Zj na dowolną skalę znormalizowaną i odwrotnie. Jest to przekształce
nie liniowe i nie zmienia kształtu rozkładu wyników.
Jednostki skali znonnalizowanej, stanowią niepodzielne przedziały. Jeśli dia-
gnosta decyduje się na stosowanie takiej skali, to powinien uznać jej jednostkę
za najmniejszą możliwą. W konsekwencji sens tutaj ma posługiwanie się tylko
liczbami całkowitymi. Wyników w żadnej ze skal znormalizowanych nie można
podawać w ułamku.
Dalej przedstawiona jest charakterystyka najpopularniejszych skal znormali-
zowanych.
O,5z O,5z
badania takich osób konstruuje się specjalne testy nienadające się do badań po-
pulacji generalnej. Tak więc skala tenowa skonstruowana została jakby na wyrost
i w większości zastosowań jej pełny zakres nie zostaje wykorzystany.
Oczywiście nie ma też sensu stosowanie skali tenowej w przypadku testów,
w których rozpiętość punktów surowych jest mniejsza niż 60. W teście obejmują
cym tylko 40 zadałl, ocenianych na skali O-l, osoba może maksymalnie uzyskać
40 punktów. Biorąc pod uwagę realny zakres skali od 20 do 80 tena, duża część
jednostek byłaby w takim przypadku niewykorzystana.
Przedział wyników przeciętnych na tej skali ma zakres od 40 do 60 tena.
Podobnie jak w innych skalach, najbardziej skrajne teny, czyli l i 100, są prze-
działami otwartymi, ale przy skali o tak dużym zakresie nie ma to właściwie
praktycznego znaczenia.
średnia lz = 10 tenów
1··~····"·········i
~ ! i
wartość % -4.9 -2 -1
:
O
,+,. , r.-,.
,
2 4,9
i I II I II III ~ ,~ IIIII11111 i
ten 1 10 " 30 4~ 60 ~o 90 100
śre~nia
-0.1
I
•
O
I
0,1
I
! 64 l
.~
65 !
•••. "•••• ".... •.•••••••••••• +.
1/102
~
l/lOr
50 51
r2
C"1
~
__
~ ~
M .......
lO
..... '"coN '".....
wartość z
N N ~ ..... ""ej ej '"ej
tetron o
I
1
ł SS; 5
I
6
I
7
I
8
I
9 10 11 i 12 i 13 i 14 15 19 20
~ ....... ~ ........ ~
1/4z 1/4z
219
Andrzej Rynkiewicz
średnia
1z = 15 jednostek
... _------
~._--_._ --- _____!
warlośćz -2 1 2
IQ 70
średnia
I
-O,033~0.033
, . I I
! 110 i 111 i
~ •• -.- •••••. -............. ł
·1/152 . 1/15z .
99 100. 101
PRZYKLAD2
Przeliczanie wyniku znormalizowanego na skalę tenową (na podstawie wzoru
z tabeli 6.3.)
wynik surowy osoby=27
wynik znonnalizowany=-O,61
padku skal o małej rozpiętości: staninowej (rys. 6.11.), stenowej (rys. 6.12.).
Pozwala on całkowicie kontrolować proces przekształcania i uniknąć pomyłek
związanych z zaokrąglaniem. Jeśli wynik znormalizowany jest dokładnie rów-
ny granicy między dwiema jednostkami skali, zaliczamy go do jednostki wyż
szej. Oznacza to, że jednostki skal znormalizowanych to przedziały domknięte
od dołu. Tylko w takim przypadku przekształcanie za pomocą "drabinki" da taki
sam rezultat jak przy pomocy wzorów z tabeli 6.3. Procedurę tego rodzaju poka-
zuje przykład 3.
PRZYJ{LAD3
Przeliczanie wyniku znorlUalizowanego na skalę sten ową (na podstawie "drabin-
ki" Z rys. (i.12.)
wyniksurowyosoby=21
"Yynik ?nonnaHzó~any""-O,61 .' ' •. '
wynikten znajduje się wprzedziale oznaczonym na rys, 6.12.jako 4 sten
Na podstawie norm wynikowi surowemu 21 przypisany zostanie 4 stert.
Tabela 6.4. Przeliczanie wyników znormalizowanych z tabeli 6.2. na jednostki skal znor-
malizowanych
C~ntyle{tljęci~·~ias~czr(9to··te poJedyrtczęWyniki·.~tlpor~ądkowanYtllsź:regu,l(fÓ-
.red~ięlą;gĆln~ l OOró""nych podwzględem liczebności części..-..każda z tych części
obejtnuJe·l~wyników.
Przedziały . ~entylowe •. (tijęciepsychątn~tryczml)to.jedn~stkf,z.·kt6rych kaZdaobej~
muje 10/0 ""yników surowych. Wyjątek stanowią przedziały O i 100, które obejmują
pqO!5%wyników.
PRZYKŁAD 4
Próbah?rtna1i~acyjll~ .• li~z~400.0sób.·.Poniżej.··2apisart'1ch . jęst. kil~ara~cle.poc~ątko
wy~~(tlajniż$zych )wynikqw •. t:stoWych. z. uporządkowaneg~.·.szeregu.Przy . ljczebno-
ś9i .pró~y40?~c:~tyle~ędąw.Y11ikami . r9~sta""ionymi ·co 4o!;oby;A.""ię91. centylt~
'YYnik:~t1~n:e~~e4,2,cet1tyltwynik Q numęrze8 itd, Wyniki odpowiadające cent'1:-
10m.?!ostałY •. V'iprzykła49WYit1·.szeregu . zaznaczone.
1':,":-, ,':'_.' _"_'/_, : ;':' --,<:::- ,:",,:<c,.,_;<;,,;. ,,;', ". ,:_,', - :;'1'
wynikom może odpowiadać więcej niż jeden centyl. W takim przypadku wyniko-
wi przypisuje się najwyższy z odpowiadających mu centyli. Na tej podstawie wy-
nikowi 2 z przykładu 4b przypisany zostanie 2 centyl. Klasyczna skala centylowa
zaczyna się od l centyla, a 100 centyl to najwyższy wynik w próbie.
Jak to wynika z powyższego opisu, centyle w klasycznym ujęciu są pojedyn-
czymi wynikami, co w określonych warunkach może utmdniać opisywanie osób
badanych testami. Przy odrobinie wprawy można się do tej ich właściwości przy-
zwyczaić, ale o wiele wygodniejsze w zastosowaniu są skale, których jednostki
są przedziałami wyników. Taki charakter mają opisywane wcześniej skale znor-
malizowane oraz tzw. przedziały centylowe, które przedstawię poniżej.
W tabeli 6.5. pokazany jest sposób obliczania przedziałów centylowych dla fik-
cyjnych danych, których część została wcześniej przedstawiona w przykładzie 4a.
W tabeli 6.5. kolumny (1), (2) i (3) wyznaczane są tak samo, jak w tabeli 6.2.
W kolumnie (4) obliczona jest proporcja liczebności skumulowanej względem
całej próby (liczebność skumulowana podzielona przez liczebność próby). W ko-
lumnie (5) wyznaczone są przedziały centylowe, a więc proporcja z kolumny (4)
pomnożona przcz 100. Wartości w kolumnie (5) powinny być zaokrąglone do
najbliższej liczby całkowitej. W ten sposób nabierają one charaktem przedzia-
łów, co oznacza, że mogą obejmować więcej niż jeden wynik. Warto zauważyć,
224 że jeśli proporcja w kolumnie (4) tabeli 6.5. wynosiłaby mniej niż 0,005, to wte-
6. Jakich informacji o osobie badanej dostarcza testowanie?
z
-3
!
1
,
·2
2 3
·1
4
i
5
,6 O
! 7
i
8 9
2
! 10
3
steny
i !i 1
i I I I I I I I staniny
1 2 3 4 5 6 7 8 9
: : : i I
i,f i i I: I i i I: i i i i: i I I i! I i
o 2 4 6 8 10 12 14 16 18 20 tetrony
li I i Iii I li h Iii ił li li II i I i I i I i li iii i ił i .. IIIII 1111' li li i i li II
20; 30 40 50 60 70 80 teny
~łiiinli lilii .nil ltiil II i I n.'lliliti liii I ł'.'lliii I iiln i i~ii lilii iii iI li ';'111 III 111111111
55 70 85 100 115 130 145 IQ
! i l i iillliiiillililliHlililiiiliilliiiiu*mWiII!illiilliiililli:l!iiililfi i, i j i przedziBly
2 16 50 84 98 centy/owe
Zalecana literatura
Anastasi A., Urbina S. (1999). Testy psychologiczne. Warszawa: Pracownia Testów
Psychologicznych PTP. (Str. 76 - 108).
Brzeziński J. (1996). Metodologia badań psychologicznych. Warszawa: PWN.
226 (Str. 539-547).
6. Jakich informacji o osobie badanej dostarcza testowanie?
Zadania
1.
Podaj wystandaryzowane wyniki odpowiadające wynikom surowym 12 i 18, gdy
średnia w próbie wynosi 14, a odchylenie standardowe 4.
2.
Zamień podane wyniki surowe na wyniki znormalizowane oraz na jednostki skali
stenowej, staninowej, tenowej, tetronowej, ilorazów inteligencji.
wyniki 1 2 3 4 5 6 7 8 9 10
liczebności 3 8 10 13 17 16 13 10 7 3
3.
Zamień podane wyniki na centyle i narysuj słupkowy wykres liczebności.
wyniki 10 I 11 12 13 14 15 16 17 18 I 19
liczebności 5 I 11 15 20 16 12 9 6 4 I 2
4.
Przelicz wyniki podane w tenach na staniny, steny i tetrony.
I teny 125 I 38 145 I 50 151 159 162 166 170 173
5.
Przelicz wyniki podane w jednostkach ilorazu inteligencji na staniny, steny i te-
trony.
IIQ 165 173 182 199 1107 1115 1121 1135 1140 1141
227
Andrzej Rynkiewicz
6.
Podaj przybliżone granice 3 staniny w jednos tkach ilorazu inteligencji i w te-
nach.
7.
Podaj przybliżone granice 7 stena w jednos tkach ilorazu inteligencji i w tenach.
8.
Jaki procent osób z teoretycznej popul~cji o norma lnym rozkładzie cechy uzyska
wynik znonna lizowa ny równy
a) 2 staninie;
b) 5 staninie;
c) 8 staninie;
d) 3 stenowi;
e) 6 stenowi;
f) 9 stenowi?
Odpowiedzi do zadań
1. Z12=-{},5; ZlS=1.
2.
wyniki 1 2 3 4 5 6 7 8 9 10
staniny 1 2 3 4 5 5 6 7 8 9
steny 1 3 4 4 5 6 7 8 9 10
tetrony 1 4 6 8 9 11 13 14 16 19
teny 28 35 40 44 48 52 56 60 65 72
IQ 67 78 85 91 97 103 109 116 123 133
3.
wyniki 10 11 12 13 14 15 16 17 18 19
centyle 5 16 31 51 67 79 88 94 98 100
4.
teny 25 38 45 50 51 59 62 66 70 73
staniny 1 3 4 5 5 7 7 8 9 9
steny 1 3 5 6 6 7 8 9 10 10
tetrony O 5 8 10 10 14 15 16 18 19
228
6. Jakich informacji o osobie badanej dostarcza testowanie?
5.
IQ 65 73 82 99 107 115 121 129 135 141
staniny 1 1 3 5 6 7 8 9 9 9
, steny 1 2 3 5 6 8 8 9 10 10
tetrony 1 3 5 10 12 14 16 18 19 20
Ewa Witkowska
WYDZIAŁ
PSYCHOLOGII
UNIWERSYTET WARSZAWSKI
nie zawodu psychologa może naprawdę okazać się tragiczne w skutkach - wy-
starczy wyobrazić sobie sytuację, w której psycholog wyda pozwolenie na posia-
danie broni osobie, która takiego pozwolenia otrzymać nie powinna.
7.7. Podsumowanie
Ten rozdział ma charakter jedyni e wprowadzenia w problematykę etyczn
ych
i prawnych aspektów związanych ze stosowaniem testów psychologiczn
ych.
Jego lektura nie powinna zatem w żadnym wypadku stać się podstawą
do nabra-
nia przekonania, że uzyskane informacje są wystarczające, aby czuć
się pewnie
w sytuacjach badań testowych w odniesieniu do różnych ludzi oraz z
wykorzy-
staniem różnych narzędzi diagnostycznych.
Ważne jest, żeby postrzegać treść tego rozdziału jako
pozostającą w ścisłym
powiązaniu z opisanymi w poprzednich rozdziałach
własnościami testów, a tak-
że - żeby wyrobić w sobie nawyk wnikliwej analizy
podręcznika testowego, za-
nim zdecydujemy się wykorzystać nowe narzędzie w procesie diagno
stycznym.
Jednocześnie gorąco zachęcamy do pogłębienia swojej
wiedzy w zakresie etycz-
nych i prawnych aspektów korzystania z testów, na przykład poprzez
lekturę po-
niższych pozycji:
Zalecana literatura
American Educational Research Association & American Psychological
Association &
National Council on Measurement in Education (2007). Standardy dla
testów stosowa-
nych w psychologii i pedagogice. Gdańsk: Gdańskie Wydawnictwo Psycho
logiczne.
Polskie Towarzystwo Psychologiczne (1992). Kodeks Etyczno - Zawodo
wy Psychologa.
Warszawa: PTP. [przedmk w: J. Strelau (red.) (2000). Psychologia. Podręcz
nik akade-
micki (t. 3, str. 839-843). Gdańsk: Gdańskie Wydawnictwo Psychologiczn
e.]
Brzeziński, l, Toep1itz-Winiewska, M. (2004). Etyczne
dylematy psychologii. Warszawa:
Wydawnictwo SWPS Akademia.
Brzeziński, J., Chyrowicz, B., Poznaniak, w., Toeplit
z-Winiewska, M. (2008). Etyka za-
wodu psychologa. Warszawa: Wydawnictwo Naukowe PWN.
Ustawa z dnia 8 czerwca 2001 r. o zawodzie psycho loga i samorządzie
zawodo wym psy-
chologów (Dz. U. Nr 73, poz. 763) [dostępna: hitp://www.ptp.org.pl/
modules.php?na-
me=News&file=articJe&sid=47
Pytania sprawdzające
243
LITERATURA
247
INDEKS
B dystraktor 15
dystrybuanta 184,21 1-212
bateria 24, 30, 35, 36, 37, 38, 39, 96,
123, 128, 161, 190 E
błąd estymacji 197
estymator 66,80- 81, 180-182, 189
błąd losowy 68-69, 70-71, 73-75, 76-
estymator przedziałowy 180
78,180 ,183,1 89,193 estymator punktowy 196
błąd pomiaru 66-68, 71, 73, 74, 76, 78,
estymowany wynik prawdziwy 181,
79, 80, 85, 113, 180, 182, 188, 193, 194-201
197,22 2
błąd różnicy 188-18 9 H
błąd systematyczny 68-69 homogeniczność 124
błąd wnioskowania 185
C
idiograficzne podejście 18, 56
cecha (psychiczna) 10, 12, 13, 14, 16, iloraz inteligencji, patrz dewiacyjny
17,18 ,21,23 ,40,41 ,43,44 ,45,46 , iloraz inteligencji
50,51, 52,54- 58,59, 60,61, 62-63 , informacji zwrotnych udzielanie 137,
65,66 ,67,68 ,71,74 ,75,76 ,77,78 , 234,23 7
79, 80, 84, 86-87, 90, 93, 96, 98, inwentarze, patrz kwestionariusze
112, 113,114, 115, 116, 117, 118, iq, patrz dewiacyjny iloraz inteligencji
248 119, 120, 121, 122, 123, 124, 134, istotność różnicy 193
Indeks
przedział ufności
10, 78, 81, 180-187, skale znormalizowane 215-222, 224-
190-194,198-201,238 226
Spearmana-Brown wzór 91-92, 102-
R 103, 140
rangi 52, 140-143,225 stabilność bezwzględna 84-90, 98, 99,
rozkład dwumodalny 170, patrz też 100-101
rozkład dwuwierzchołkowy stabilność względna 87,89-90,98,99
rozkład dwuwierzchołkowy 2l3, 215, stałość testu, patrz stabilność bez-
patrz też rozkład dwumodalny względna
rozkład Gaussa, patrz rozkład normal- stałość w czasie 66, 86-88
ny standardowy błąd estymacji, patrz SEE
rozkład normalny 55-56, 61, 63, 74, standardowy błąd pomiaru 182, 184
76,169 - 170,176,184,187,205, 186,198
206,209,211-213,226 standardowy błąd pomiaru, patrz SEM
rozkład skośny 170-172, 174-176, standardowy błąd różnicy 187-190,
213-214,226 192
rozwojowy iloraz inteligencji 25, 219 standardowy błąd różnicy patrz SEMD
równoważność międzytestowa 89-90, standaryzacja (procedury badania) 15,
98,99 112,
rzetelność 13, 14, 16, 17,22,65,67-69, standaryzacja (rozkładu wyników)
71, 73, 76-82, 84-87, 89-94, 96- 206-209
106, 108, 112, 113, 117, 135, 139, stanina 216, 221
140, 161-162, 172, 182, 186-187, sten 217,221
190, 192, 194-196, 198-20 l
T
S tajemnica zawodowa 235-236
SEE 197-198,200 ten 217,221
selekcja 19,22,30,38,41,42,43,45, test mocy 23, 27,
225 test szybkości 23, 68
SEM 16,74-75,77, 80-82, 181-186, test zdolności 13, 18,21,23-39
189,192,197-198,200 testowy materiał 12-13,15-16,22-23,
SEMD 187, 189-190,192-194 26-35,114,233,240,24]
sędzia kompetentny 84, 97-98, 115- testowy podręcznik 12-13, 15-16, 81,
117, 121, 133, 140 119-120, 123, 128, 186, 192, 200,
siatka centylowa 226 232,242
skala centylowa, patrz centyl, siatka test-retest, patrz stabilność bezwzględ
centylowa, przedział centylowy na
skala iq, patrz dewiacyjny iloraz inte- testy niewerbalne 15, 23, 24, 25, 26,
ligencji 29,30,31
skala staninowa, patrz stanin testy równoległe 14,84-86,88,89,90,
skala stenowa, patrz sten 92,98
250 skala tenowa, patrz ten testy werbalne 23, 30, 31
Indeks
252