Download as pdf or txt
Download as pdf or txt
You are on page 1of 50

PSYCHOMETRIA - NOTATKI Z

KSIĄŻKI
KOLOKWIUM II
ROZDZIAŁY 5.2, 5.3, 6.1, 6.2
Bibliogra a: Fronczyk, K. (2009),
„Psychometria podstawowe
zagadnienia”
SKŁAD NOTATEK:
- wyróżnienia w tekście na która zwraca uwagę również prowadzący zajęcia
(podpowiedź czego można się spodziewać na kolokwium)
- Pojęcia na które zwrócono uwagę w podsumowaniu rozdziałów
- Teoria
- Wklejone fragmenty książki, które tłumaczą praktykę stosowania teorii

LEGENDA:
- kursywa- przykłady
- Kolory:
- Czerwony- istotne informacje
- Zaznaczenie- wyróżnione w tekście pojęcia + zabrane z podsumowania działu
fi
ROZDZIAŁ 5.2
TRAFNOŚĆ POMIARU TESTEM

5.2.1 POJĘCIE TRAFNOŚCI I JEJ ZWIĄZEK Z INNYMI


WŁAŚCIWOŚCIAMI TESTU

Trafność pomiaru testem- właściwość wskazująca, czy test istotnie mierzy, do mierzenia czego
został skonstruowany
- stopień w jakim interpretacja jego wyników jest zgodna ze stanem faktycznym
- Informuje o tym jakie wnioski mogą być wyciągane na jego podstawie
- Chodzi o zastosowanie testu
- Oraz o możliwości interpretacyjne
- Np: „w jakim stopniu wyniki testu A mierzą zdolności matematyczne ?”
- jest najważniejszą własnością testu- zależy ona od innych właściwości, na które autorowi
testu łatwiej jest wpływać

Zmienne latentne- (zmienne nieobserwowalne) to zmienne wskazujące na wewnętrzne


właściwości człowieka
Zmienne manifestowalne- to wyniki testowe

Od czego zaczynamy badanie trafności testu ?


- re eksji- CO chcemy mierzyć?
- Trudno jest zbudować dobry test na podstawie złej teorii (* wyjątkiem są testy ukierunkowane na
przewidywanie kryteriów)

Jakie warunki musi spełniać test, aby był trafny?:


Warunki:
- rzetelności
- Normalizacji
- Standaryzacji
- Obiektywizmu
! Są to warunki wzajemnie powiązane! - ale nie są wystarczające
- musi być dobrym wskaźnikiem badanej zmiennej latentnej
Kiedy test nie będzie trafny?
1. Test o nieustalonej standaryzacji- ponieważ jego wynik będzie zależał od
niesystematycznych wpływów odmiennie podawanej instrukcji i rożnego zachowania się
badającego psychologa w stosunku do różnych osób badanych np: niewłaściwa instrukcja
może nie wzbudzić należytej motywacji do poprawnego wykonywania zadań. Uzyskany wynik
będzie zafałszowany, a wnioski wyciągnięte na jego temat nieprawdziwe
2. Test nie będzie obiektywny= brak ustalonej interpretacji wyników- psycholog musi
zdawać sobie sprawę do jakich wniosków test go upoważnia, do jakich nie. Badanie trafności
musi dotyczący nie tylko testu, ale i rodzajów wyników, które są wyciągane na jego
podstawie.
Obiektywizm testu- zbiór reguł dochodzenia od wyników testu do wniosków diagnostycznych

3. Test nie posiada normalizacji


Normalizacja- zaopatrzenie testu w pewien układ odniesienia. Dzięki normom testowym,
możemy wiedzieć, że dany wynik jest niski, przeciętny, czy też wysoki na tle populacji np: normy
pewnego testu kierowców zostały ułożone tylko na podstawie mężczyzn. Jeśli kobiet weźmie
udział w teście, jej wynik może zostać oceniony jako obniżony poziom danej cechy.

4. Test nierzetelny- duży błąd uniemożliwia sformułowanie jakichkolwiek wniosków.


- rzetelność jest granicą trafności pomiaru testem- warunek poprawnego wnioskowania
fl
- Dokładność pomiaru X NIE gwarantuje sensowności wniosków.
rzetelność- dokładność, precyzja pomiary

Odwrotny problem duża rzetelność vs mała trafność


—> może zdarzyć się tak, iż test o skrajnie wysokim współczynniku rzetelności narażony jest na
obniżenie trafności ze względu na jego nadmierną jednorodność i jednostronność treści pytań lub
zadań testowych
—> wysoka rzetelność wyznaczona w inny sposób (np: za pomocą analizy stabilności testu) nie
jest powiązana z trafnością pomiaru testem

5.2.2. Rodzaje trafności

Rodzaje trafności:
1. Trafność teoretyczna
2. Trafność kryterialna
3. Trafność treściowa

5.2.2.1. Trafność treściowa (3)

Trafność treściowa (wewnętrzna)- to stopień w jakim treść pozycji testowych jest


reprezentatywna dla de nicji badanej cechy.

Istotne zagadnienia dla trafności testowej:


1. Badanie zgodności między de nicją zmiennej, a zawartością treściową pozycji jest
równoznaczne z oceną trafności treściowej testu
- Np: test wiadomości szkolnych- pytania powinny dotyczyć w jednakowym stopniu wszystkich
zagadnień omawianych w ramach danego przedmiotu (mowa o kartkówce lub sprawdzianie)
2. Bardzo ważny jest wybór de nicji badanej zmiennej- umożliwia to określenie zakresu
treściowego mierzonej zmiennej
3. Oceniając trafność testową należy sprawdzić czy wszystkie pozycje testowe należą do
zakresu wybranej de nicji np: teoria osobowości Eysencka- w pytaniach badających
wymiary ekstrawersji nie powinny znajdować się badania odnośnie lęku- ponieważ jest to
składnik innego wymiaru osobowości
4. Trafność testowa dotyczy tego, czy test proporcjonalnie reprezentuje de niowany
konstrukt np: w teście sprawdzającym z psychometrii powinno być więcej pytań odnośnie
trafności pomiaru niż etyki badań testowych- gdyż tej pierwszej tematyce w teorii powinno się
więcej poświęcać czasu na zajęciach
- * w przypadku właściwości psychicznych—> wszystkie składniki uwzględnione są w
jednakowym stopniu
5. zbudowanie testu trafnego treściowo powinno polegać na Zgromadzeniu pozycji testowych
reprezentatywnych dla badanej zmiennej na podstawie przyjętej de nicji
6. W tworzeniu istotnie trafnej treści jest aby pytania nie były jednorodne, aby nie
wyeliminować aspektu treściowego badanej cechy
fi
fi
fi
fi
fi
fi
POMOC SĘDZIÓW KOMPETENTNYCH

Problem: na ile zebrane pozycje testowe rzeczywiście są reprezentatywne dla de nicji badanej
cechy

Sędziowie kompetentni- niezależni eksperci w danej dziedzinie, którzy oceniają stopień w jakim
każda z pozycji testowych odpowiada de nicji cechy, którą ma mierzyć test.

- sędziowie powinni być zgodni w opiniach co do stopnia reprezentatywności poszczególnych


pozycji testowych dla danej cechy
- Ich oceny powinny wskazywać, że pozycje testowe odpowiadają de nicji skali (oba kryteria
muszą być sprawdzone statystycznie)
- Jeśli oceny są WYSOKIE a sędziowie ZGODNI= TEST JEST TRAFNY
- Sędziowie ZGDONI, NISKIE oceny —> test nie jest trafny
- Niektóre pozycje wyniki WYSOKIE niektore NISKIE+ duża ZGODNOŚĆ sędziów—> pozycje
testowe, które uzyskały niskie oceny są nietrafne

Jak sprawdzić statystycznie zgodność sędziów kompetentnych ?


—> za pomocą współczynnika W-Kendalla
- wartość zmienia się w przedziale od 0 do 1
- Im ⬆ wyższa wartość tym ⬆ wyższa zbieżność sędziów (sędziowie podobnie oceniają
pozycje testowe)

Średnia ocen (widoczna w tabelce)


Wartość współczynnika zgodności sędziów W-Kendalla= 0,765 —> świadczy to dużej
zgodności sędziów
Sędziowie najgorzej ocenili pozycję 5 oraz 6- te pozycje powinny być wyeliminowane
fi
fi
fi
5.2.2.2 Trafność teoretyczna (1)

- najważniejszy rodzaj trafności


Trafność teoretyczna- zgodność między wynikiem testowym a wartością latentnej cechy, do
pomiaru której test został skonstruowany
- ponieważ zmienne latentne nie są bezpośrednio obserwowalne, sprawdzenie trafności
teoretycznej musi opierać się na metodach pośrednich

Na czym polega oszacowanie trafności teoretycznej?


Na formułowaniu hipotez wyprowadzonych z teorii psychologicznej i wery kowanie ich w
badaniach empirycznych z zastosowaniem testu, którego trafność teoretyczną chcemy
oszacować

Wery kowanie hipotez szanujących poziom trafności teoretycznej:


1. Analiza korelacji z innymi testami lub zmiennymi
2. Badanie wewnętrznej struktury testu
3. Oceny różnic międzygrupowych
4. Metoda zmian nieprzypadkowych
5. Analiza procesu rozwiązywania testu

Główna idea wery kowania hipotez:


Przeprowadzenie badania empirycznego, którego wynik i stopień zgodności z oczekiwaniami
teoretycznymi są wskaźnikami trafności teoretycznej. Badanie potwierdzające przewidywania
teoretyczne świadczy o trafności teoretycznej testu

1. Metoda analizy korelacji z innymi testami lub zmiennymi


- pomiar wielkości korelacji wynika z założonej teorii psychologicznej
1A Korelacje powinny być WYSOKIE i ISTOTNE STATYSTYCZNIE
- Trafność za pomocą tej metody można oszacować tylko, jeśli wybrana zmienna ma
CHARAKTER ILOŚCIOWY
- Chodzi o korelowanie testu z takimi zmiennymi, co do których instancje uzasadnione
teoretyczne przewidywanie, że powinny być one powiązane ze zmienną mierzoną przez test.
- np: dwa testy muszą być skonstruowane na podstawie tej samej teorii zakładającej istnienie
danej zmiennej i de niującej tę zmienną ( korelacja wyników aprobaty społecznej i skali K
pochodzącej z kwestionariusza EPQR) - oba narzędzia badają tendencje do udzielania
odpowiedzi aprobowanych społecznie
- miara trafności analizy korelacji:
- r-pearson
- tau Kendalla
- Spełnione założenia
- Współczynnik korelacji punktowo- dwuseryjnej
- pojęcie trafności zbieżnej = konwergencyjnej

1B
- należy udowodnić również, że test NIE KORELUJE ZE ZMIENNYMI Z KTÓRYMI NIE POWINIEN
- Pojęcie trafności różnicowej = dywergencyjna

Prościej mówiąc
1A- testy/ zmienne korelują ze zmiennymi z którymi powinny korelować
1B- test nie koreluje ze zmiennymi z którymi nie powinien
fi
fi
fi
fi
3 PRZYKŁADY ANALIZY

Badanie trafności Skali Ekstrawersji pochodzącej z kwestionariusza EPQ-R badamy korelacje z


kwestionariuszem NEO-FFI, który zawiera podobną skalę

1. Badanie trafności zbieżnej (konwergencyjnej)


- Wskaźnikiem trafności jest: wysoka korelacja Skali Ekstrawersji kwestionariusza EPQ-R z
wynikiem odpowiedniej skali NEO-FFI badającej tą samą zmienną
2. Badanie trafności różnicowej (dywergencyjnej )
- wskaźnik trafności: niskie korelacje Skali Ekstrawersji ze skalami mierzącymi odrębne struktury,
czyli z pozostałymi skalami obu kwestionariuszy

3. Badanie trafności zbieżnej + różnicowej


Badanie trafności Skali depresji Zunga. Skala silnie korelowała ze Skalą Abrobaty społecznej. nie
była zatem trafna, gdyż mierzyła w większym stopniu postawę obronna i wrażliwość na aprobatę
społeczną niż depresję.

Sposoby badania trafności zbieżnej i różnicowej:

MACIERZ WIELU CECH- polega ona na wyliczeniu korelacji pomiędzy kilkoma (min.2 )
wielkoskalowymi narzędziami (test, kwestionariusz, wywia, obserwacja) , badającej te same cechy
( min.2)

Np: wykonujemy badanie, w którym zastosowano kwestionariusz badający cechę A oraz B.


Jednocześnie dokonujemy pomiaru tych samych cech przy pomocy sędziów kompetentnych. Na
podstawie uzyskanych wyników możemy wyliczyć następujące korelacje:
a) dla tej samej cechy uzyskane za pomocą różnych metod ( A- za pomocą kwestionariusza
+ ocena sędziów)
b) dla różnych cech uzyskane za pomocą różnych metod (A-= za pomocą kwestionariusza,
B- za pomocą ocen sędziów)
c) dla różnych cech uzyskane za pomocą tych samych metod ( A oraz B- za pomocą
kwestionariusza)

TERAZ UWAGA !
a) to miara trafności zbieżnej
b) to miara trafności różnicowej
c) to miara trafności różnicowej

WARUNKI, które muszą spełniać korelacje zawarte w macierzy wielu cech wielu metod, aby
można było mówić, że analizowane narzędzia są trafne:
1. Wszystkie korelacje powinny być istotne statystycznie
2. Korelacje dotyczące trafności zbieżnej powinny być większe > niż korelacje dotyczące
trafności różnicowej

PRZYKŁAD wykorzystania macierzy wielu cech wielu metod


Skład:
- skala Agresji Buss-Durkee (SABD)
- Inwentarz Psychologiczny Syndromu Agresji (IPSA)

Badane skale:
- agresja zyczna
- Agresja słowna

Założenie: jeśli narzędzia są trafne, to ich skale przeznaczone do pomiaru tych samych aspektów
agresji powinny być skorelowane
fi
O czym mówi nam tabela ?
- podkreślone są korelacje trafności zbieżnej- są to korelacje dotyczące tych samych cech, ale
mierzonych za pomocą różnych metod
- Są korelacje trafności różnicowej- korelacje między różnymi metodami i różnymi cechami
- Są tu również współczynniki korelacji dotyczącej różnych cech
Istotnie statyczne- różne od 0

Sprawdźmy teraz czy warunki są spełnione:


1 warunek - TAK - korelacje dotyczące trafności zbieżnej są wyższe od korelacji różnych cech
różnych metod, jak i od korelacji dotyczących różnych cech mierzonych tymi samymi metodami
CZYLI
2 warunek jest również spełniony

Obecnie rozpatrywane korelacje dotyczą wewnętrznej struktury testu- są to grupy


skorelowanych skal składających się na dane narzędzie

2. Metoda- analiza czynnikowa


- jest to łatwy sposób znalezienia najważniejszych zmiennych ujmowanych przez dany test
- Umożliwia identy kację zmiennych mierzonych przez dany test
- Może być przeprowadzona zarówno na wynikach poszczególnych pozycji testowych, jak i
całych skal

Analiza czynnikowa- umożliwia wyodrębnienie grup pozycji testowych bądź skal silnie
skorelowanych między sobą wewnątrz grupy i relatywnie słabo między grupami.

Czynniki- grupy pozycji testowych bądź skal wyróżnione dzięki tej metodzie
- interpretowane są jako najważniejsze zmienne odpowiedzialne za zróżnicowanie wyników
poszczególnych skal bądź pozycji testowych, składających się na dany czynnik

Odmiany analizy czynnikowej:


1. Eksploracyjna analiza czynnikowa
2. Kon rmacyjna analiza czynnikowa

1. Eksploracyjna analiza czynnikowa


- początkowo X brak założenia liczy i struktury czynników mierzonych przez dany test
- Celem jest poznawanie tych czynników
- Zastosowanie: gdy mało wiemy na temat badanego zjawiska psychicznego i celem jest
identy kacja podstawowych wymiarów

2. Kon rmacyjna analiza czynnikowa


fi
fi
fi
fi
- ma na celu sprawdzenie czy dany test składa się, z określonej na podstawie teorii
psychologicznej, liczby czynników
- Czy wyniki danego testu są zgodne z zakładaną teoretyczną strukturą testu
- Jakie pytania tworzą poszczególne Czynniki
- Dostarcza specjalnych wskaźników dopasowania modelu zakładającego istnienie określonej
liczby czynników, na podstawie którego, można zwery kować słuszność takiego modelu
teoretycznego
Np: chcemy sprawdzić czy kwestionariusz osobowości NEO-FFI rzeczywiście składa się z 5
wymiarów. Jeżeli przy tworzeniu kwestionariusza założono, że pewne pytanie jest wskaźnikiem
ekstrawersji i wchodzi do skal ekstrawersji, a w analizie czynnikowej okazałoby się, że wchodzi ono
do czynnika neurotyzmu, a nie ekstrawersji oznaczałoby to , że pytanie jest nietrafnym wskaźnikiem
ekstrawersji i źle zostało dobrane

3. Metoda- Ocena różnic międzygrupowych


Ocena różnic międzygrupowych- dotyczy porównywania wyników testowych grup osób, co do
których istnieje teoretyczne przewidywanie, że powinny się one różnić pod względem zmiennej
mierzonej przez test

- badane grupy mogą być wyodrębnione w dowolny sposób (inny niż na podstawie wyników
testu np: danych demogra cznych )

Aby ocenić istotność różnic międzygrupowych należy:


- wykonać test t-Studenta
- Lub Manna-Whitney jeśli założenia testu t-Studenta nie są spełnione
Wynik istotnie statyczny świadczy o tym, że porównywane średnie się różnią ( jeśli różnią się
w oczekiwanym z teoretycznego punkt widzenia kierunku, to jest to argument potwierdzający
trafność teoretyczną testu)

Np: badania nad trafnością baterii Apis.


Na podstawie teorii zdolności, badani różnią się poziomem poszczególnych zdolności w zależności
od wyboru studiów (np: studenci kierunków humanistycznych - mają wyższe zdolności werbalne w
założeniu). Określenie trafności polegało na sprawdzeniu, czy grupy studentów różnią się w
oczekiwany sposób - czy faktycznie „humaniści” mają wyższe wyniki w tych zdolnościach
intelektualnych dlatego wybrali te studia. HIpoteza została potwierdzona

4. Metoda- Metoda zmian nieprzypadkowych


Metoda zmian nieprzypadkowych- polega na dwukrotnym badaniu pewnej grupy osób danym
testem. Pomiędzy pierwszym a drugim badaniem wprowadza się jakąś manipulację zmienną
mierzoną przez test.

Jeśli test jest trafną miarą badanej zmiennej i jednocześnie oczekiwano zmiany jej nasilenia
pod wpływem wprowadzonej manipulacji- powinny się zmienić wyniki testu

Np: Analiza Trafności Skali Lęku-Stan kwestionariusza STAI


Polegało to na porównaniu wyników Skali Lęku-Stan uzyskanych przez pewną grupę osób
badanych w trzech sytuacjach.
1) neutralna- niewywołująca lęku
2) Sytuacja zagrażająca ( w badaniu to było wejście do komory niskich ciśnień=)
3) Mierzenie po wyjściu z kolory niskich ciśnień

Hipoteza: 3) najwyższy zmierzony poziom lęku. Hipoteza jest trafna \

Jak porównać wyniki dwukrotnie badanej grupy ?


- test t-Studenta dla prób zależnych
fi
fi
- Test Wilcoxona (gdy test t-Studenta niespełniony)
- Test znaków (gdy test t-Studenta niespełniony)

5. Metoda- Analiza procesu rozwiązywania testu


Analiza procesu rozwiązywania testu- polega na badaniu sposobu w jaki badani wypełnią dany
test. Metoda ta dotyczy zwykle procesów psychicznych zaangażowanych w rozwiązywanie
danego testu.

Jak wnioskuje się stosując tę metodę ? (Obserwacja badanych podczas rozwiązywania testu)
- na podstawie kolejności wykonywanych czynności
- Na podstawie składników zadań sprawiających najwięcej trudności
- Rodzaju popełnianych błędów
- Pomijanych elementów/ pozycji testowych itp.
Np: co badani myślą o stwierdzeniu „mam tylu przyjaciół, na ilu zasługuje” w jeden ze skal
badających depresję.
W intencji autora osoby depresyjne czują się osamotnione- mają odpowiadać przecząco. W
rzeczywistości wielu badanych odpowiada twierdząco wyjaśniając „nie mam przyjaciół, bo na nich
nie zasługuje”- rzuca to światło jak poszczególne propozycje mogą być rozumiane przez badanych

*Komponentowa teoria Sternberga- teoria


zakłada, że procesy intelektualne, składają się z
pewnych komponentów zróżnicowanych pod
względem funkcji, jaką pełnią. Wyodrębnienie tych
komponentów w procesie rozwiązywania zadań
intelektualnych jest możliwe, dzięki dekompozycji
tych zadań, polegającej na takim ich
mody kowaniu, żeby zmienić liczbę potrzebnych
komponentów.

5.2.2.3 Trafność kryterialna (zewnętrzna) (2)


Trafność kryterialna- to zgodność wyników testowych z kryterium zewnętrznym

(* myślniki poniżej warto doczytać po skończeniu omawiania trafności kryterialnej, w celu lepszego
zrozumienia materiału)
- dotyczy wyłącznie korelowania testu z kryterium
- Przedmiot pomiaru: zmienna kryterialna (nie wewnętrzne cechy psychiczne)
- Orzeka jak dobrą miarą jest kryterium
- Badając trafność kryterialną staramy się ustalić i zwery kować wartość progu wyników, który
umożliwia optymalne podejmowanie decyzji diagnostycznych
- Wynik testu jest zwykle zmienną ciągłą
- Kryterium- zmienną dwukategorialną (np: chory na depresję- zdrowy)
Zewnętrzne kryterium- miara badanej zmiennej inna niż test; zewnętrzne czyli całkowicie różne
od testu, którego trafność się szacuje

Np: badaczowi zależy na opracowaniu stosunkowo prostego narzędzia pozwalającego


wnioskować o wystąpieniu realnego empirycznego zjawiska (bez pracochłonne obserwacji i
badania)
fi
fi
- testy psychologiczne pozwalające wnioskować o uszkodzeniach mózgu

Kryterium- zachowanie lub właściwość, o której chcemy wnioskować z wyniku ocenianego testu
Np: jeśli chcemy sprawdzić trafność testu przeznaczonego do diagnozy depresji, musimy znaleźć
pewne kryterium, które byłoby inną miarą depresji. Taką zmienną może być np: diagnoza
psychologiczna lub psychiatryczna.
Test jest trafny jeśli z testu i diagnozy wyjdzie depresja
- ! Zmienne stanowiące kryterium nie są całkowicie rzetelne i trafne ! (Np: wystawianie oceny
końcowo rocznej na podstawie własnej opinii)

Korelacja ( nie współczynnik korelacji, tylko współwystępowanie zjawisk) między kryterium, a


wynikiem testu jest wskaźnikiem trafności.

Rodzaje trafności kryterialnej:


1. Trafność diagnostyczna- na podstawie wyników danego testu można wnioskować o
aktualnie istniejącym kryterium
2. Trafność prognostyczna- zadaniem testu jest przewidywanie kryterium w przyszłości
Np: przewidywanie powodzenia zawodowego w danym miejscu pracy
! Ważny jest odstęp czasu upływającego od moment pomiaru dokonanego za pomocą testu do
chwili pomiaru kryterium!

Wybór właściwego kryterium


- kryterium musi odpowiadać konkretnemu zapotrzebowaniu stosowania danego testu
(Np:zapotrzebowanie: powodzenie w zawodzie strażaka/ kryterium: umiejętności z zakresu
gaszenia pożarów)
- zależy od planowanego zastosowania danego testu i wniosków, jakie na jego podstawie mają
być formułowane
(Np: kryterium może być ukończenie szkoły, uzyskiwane stopnie w szkole (kryterium powodzenia w
nauce szkolnej)
- test może być stworzony do diagnozowania lub przewidywania wielu kryterium ( te same
zmienne lub różne zmienne)

W przypadku trafności kryterialnej można mówić o trafności ZBIEŻNEJ I RÓŻNICOWEJ


(zobacz wyżej)
- trafność zbieżna trafności kryterialnej- sprawdzenie korelacji diagnozy psychologa (nasze
kryterium) z kwestionariuszem depresji
- Trafność różnicowa trafności kryterialnej- sprawdzenie czy wyniki inwentarza nie korelują z
diagnozą schizofrenii lub innych zaburzen

Poważny BŁĄD w badaniach nad trafnością kryterialną:

KONTAMINACJA (SKAŻENIE) KRYTERIUM-

Na czym polega ten błąd:


- psycholog bada pacjentów za pomocą skali nastroju X. Zespół leczący na podstawie różnych
danych w tym opinii psychologa opartej na podstawie skali X ustala rozpoznanie.
Zgromadziwszy dużo danych psycholog postanawia sprawdzić trafność kryterialną skali nastroju
X PORÓWNUJĄC PACJENTÓW z rozpoznaniem depresji z pozostałą grupą pacjentów.
- Gdzie jest błąd? Na podstawie skali X ustalił rozpoznanie, które następnie miało stać się
kryterium dla oceny trafności X

Prawidłowe postępowanie :
- gromadzenie wyników skali X, niezależnie od postawienia rozpoznania. Samo rozpoznanie
powinno być w całości sformułowane na podstawie innych przesłanek, takich jak wywiad,
obserwacja, czy inne testy, niż test, którego trafność chcemy określić. Następnie można
porównywać wyniki skali X z niezależnie ustalonym rozpoznaniem depresji
Prościej mówiąc Jest to sytuacja, w której znajomość wyników danej osoby w teście wpływa
na ocenę jej wyniku zmiennej kryterialnej

Badania podłużne- badania obejmujące dłuższy okres czasu

5.2.2.4 Inne aspekty trafności

Trafność fasadowa- test jest trafny fasadowo jeśli robi na badanym wrażenie zgodne z
oczekiwaniami badacza ( wrażenie profesjonalnego narzędzia- wpływa na mobilizację badanego
do rozwiązani testu)

! Trafność fasadowa jest trafnością tylko z nazwy !- nie dotyczy tego co test rzeczywiście mierzy !

5.2.3 Wzajemne relacje pomiędzy poszczególnymi rodzajami trafności


Re eksja na ten temat: trafności nie są wzajemnie niezależne, ale nie są w jednoznaczny sposób
powiązane. Różne rodzaje trafności mogą się okazać konieczne w zależności od zakresu
stosowania testu i jego zasad konstrukcji

Trafność kryterialna jest niezbędna w procesie oceny trafności pomiaru testowego


(spójność między wewnętrznymi danymi)

1) trafność kryterialna, a trafność teoretyczna


- Jeśli test psychologiczny pozwala na przewidywanie pewnych zewnętrznych zachowań czyli
kryterium, to bardzo prawdopodobne, że istnieje Psychologiczna właściwość, które ten związek
tłumaczy- niezbędna analiza trafności teoretycznej
Np: warunkowanie sukcesów szkolnych między innymi inteligencją
- nie zawsze musi istnieć teoria wyjaśniająca współwystępowanie kryterium i wyników
testu np: kwestionariusz MMPI

Czy wysoką trafność teoretyczna gwarantuje wysoki poziom trafności w pozostałych


aspektach trafności?
NIE !

5.2.4 Trafność pomiaru testowego, a odstępstwa od standardowej


procedury badania

- testy nigdy X NIE MOGĄ BYĆ jedynym ani dominującym źródłem wiedzy o badanym
- Test ma wspomagać, a nie zastępować psychologa
Np: psycholog zastosował podtest Powtarzanie Cyfr z testu WAIS choć instrukcja nakazuje zawsze
stosować test w całości. Czy psycholog może wykorzystać informacje ? Istnieje taka możliwości
ALE nie może powoływać się na test i jego ustaloną trafność. Nie może odnosić się do norm
testowych. Jego argumentacja w formułowaniu diagnozy MUSI uwzględnić fakt nietypowego
użycia.
fl
5.2.5 Szacowanie trafności

Wybrane metody:
1. Współczynnik zgodności sędziów
2. Współczynnik korelacji
3. Analiza czynnikowa
4. Analiza różnic międzygrupowych
5. Test t-studenta
6. Jednoczynnikowa analiza wariancji
5.3. Analiza właściwości pozycji testowych
- właściwości pomiaru testem (rzetelność, trafność,..) informują nas jak „dobry jest test
jako całość”
- Właściwości pozycji testowych informują o „dobroci” poszczególnych pozycji

Współczynnik rzetelności- informuje o wpływie błędów pomiaru na wyniki w teście pomiarów


Współczynnik trafności- daje informacje o dokładności przewidywań budowanych przez
psycholog na podstawie wyników testu

Co nam daje przeprowadzenie analizy pozycji testowych ?


✓ Pomaga zrozumieć dlaczego test charakteryzuje się niesatysfakcjonującą rzetelnością lub
trafnością
✓ Pozwala wskazać środki zaradcze takiej sytuacji
✓ Pozwala po prostu lepiej rozumieć własności testów psychologicznych
✓ Pozwala identy kować pozycje, które nie spełniają teorii rzetelności
✓ Rzetelność ulega poprawie
Teoria rzetelności- zakłada, że wszystkie pozycje testowe mierzą te samą właściwość
psychiczną

Pozycja testowa (sens metodologiczny)- sformalizowany wskaźnik danej cechy psychicznej,


zdanie opisujące określone zachowanie oraz skala rejestrująca to zachowanie

5.3.1. Trudności pozycji testowych

Trudność pozycji testowej- stosunek liczby osób, które udzieliły na tę pozycję prawidłowej
odpowiedzi ( zgodnej z kluczem i diagnostycznej odpowiedzi), do ogółem przebadanej liczby
osób. Jest to proporcja odpowiedzi poprawnych

W jaki sposób jest wyrażana trudność pozycji testowej ?


—> wyrażana zazwyczaj jako odsetek osób, które znały prawidłową odpowiesz na pytanie

Sposób matematyczny:

Wartość wskaźnika trudności p1 zawiera się w przedziale od 0 do 1

Sposób interpretacji wskaźnika trudności:


⬆ wysoka wartość wskazuje na łatwe pytania
⬇ niska wartości na pytania trudne

Jak obliczyć wskaźnik w przypadku kwestionariuszy o dwukategorialnym formacie ?


fi
- musi być proporcja osób udzielających odpowiedzi zgodnych z kluczem
- Odpowiednikiem trudności pozycji jest ŚREDNIA
Suche fakty:
- mówi się w przypadku testów zdolności, Testy inteligencji w których istnieje tylko 1
prawidłowa odpowiedź
- Trudność pozycji = średnia wyników pozycji
- ! Odpowiedzi poprawnej należy przypisać wartość 1
- Odpowiedzi niepoprawnej należy przypisać wartość 0
- Wskaźniki trudności są zależne od poziomu mierzonej cechy charakterystycznego dla zbadanej
próby TO ZNACZY ŻE, To samo zadanie możny być trudne w jednej grupie badanych, i
jednocześnie bardzo łatwe w innej
- (np: łatwe dla osób dorosłych, ALE trudne dla 10 latków wskaźnik trudności niski)

Pytania o przeciętnym stopniu trudności- pytania na które odpowiada 50% badanych


- pozycje o największej wariancji
- Pozwalają na dokonanie większej liczby porównań między osobami w próbie
Z czego powinien się za tem składać test ?
I pozycje testowe o najwiekszych wariancjach+ przeciętnych trudnościach
II pozycje o zróżnicowanym poziomie trudności ( średnia trudność powinna wynosić 50%)
układając od najłatwiejszego do najtrudniejszego
5.3.2. Moc dyskryminacyjna pozycji testowych

Osoby o niskim ⬇ poziomie mierzonej cechy rzadziej odpowiadają dobrze czy


diagnostycznie na daną pozycję testową

Osoby o wysokim⬆ poziomie mierzonej cechy cześciej udzielają dobrych czy


diagnostycznych odpowiedzi

Moc dyskryminacyjna- wskaźnik jakości pozycji testowych informujących o tym, w jaki stopniu
dana pozycja różnicuje daną populację, ze względu na mierzoną cechę

Na jakim wyniku oparta jest moc dyskryminacyjna ?


W czasie tworzenia testu, autorzy nie mają dostępu do żadnej innej miary badanej zmiennej – np.
zdolności matematyczne poza samym wynikiem w tymże teście.
W konsekwencji, właśnie ten wynik najczęściej traktujemy jako informacje o natężeniu
interesującej zmiennej u badanego, a współczynniki mocy dyskryminacyjnej oparte są na tym
wyniku
—> moc dyskryminacyjna jest to korelacja linowa między pozycją a skalą

+ dodatnia moc dyskryminacyjna wyniki poszczególnych pozycji są dodatnio skorelowane z


wynikiem ogólnym testu; są poprawne diagnostycznie rozwiązywane przez osoby badane o
wysokich wynikach ogólnych wskazuje iż dana pozycja testowa dobrze różnicuje badanych

- ujemna moc dyskryminacyjna wyniki poszczególnych pozycji są ujemnie skorelowane z


wynikiem ogólnym testu; są cześciej rozwiązywanie przez osoby badane o niskich ogólnych
wynikach w teście, a więc różnicuje te osoby przeciwnie niż inne pozycje testu

Moc dyskryminacyjna powinna przekraczać wartość 0,20 aby uzasadnione było włączenie
pozycji do skali

Ostateczna wersja testu powinna zawierać te pozycje, które zwiększają wariancję


testowania, a więc o dodatniej , wysokiej mocy dyskryminacyjnej

Wysoka moc dyskryminacyjna- pozycje są silnie ze sobą skorelowane.


- jeśli w teście znajduje się ⬆ dużo pozycji o ⬆ wysokich mocach dyskryminacyjnych to test
cechuje się ⬆ wysoką zgodnością wewnętrzną

Wysoka zgodność wewnętrzna- wysoki stopień skorelowania poszczególnych pozycji


testowych

Współczynniki mocy dyskryminacyjnej:


Jest ich bardzo dużo, ale o to kilka z nich:
- współczynnik korelacji biseryjnej
- Współczynnik korelacji punktowo-dwuseryjnej
- Współczynnik korelacji punktowo-czteropolowej

Wskaźniki mocy dyskryminacyjnej:


Skorygowany współczynnik korelacji pozycji- skala - korekta polega na wyłączeniu
interesującej nas w danym momencie pozycję z wyniku ogólnego dla skali. Oblicza się korelację
między tą pozycją oraz wynikiem testu pomniejszonym o tę pozycję.
- Sumuje się odpowiedzi na pozycje testowe z wyłączeniem odpowiedzi na tę pozycje, dla
której oblicza się moc dyskryminacyjną
- Co nam to daje ?
✓ Można ocenić jak bardzo konkretna pozycja powiązana jest z pozostałymi pozycjami
wskaźnik dyskryminacji
(1) należy podzielić wszystkich badanych na 2 grupy ze względu na ogólny wynik testowy
1. Osoby o wynikach wysokich (górna część)
2. Osoby o niskich wynikach (dolna część)

Obliczenie wskaźnika dyskryminacji - wzór

Wskaźnik D przybiera tylko wartość (+) dodatnią gdy pu> pl


5.3.3. Własności pozycji testowych a kasztany rozkładu wyników testu

Kształt rozkładu wyników testu:


1. Rozkład normalny
2. Rozkład platokurtyczny
3. Rozkład dwumodalny
4. Rozkład leptokurtyczny
5. Rozkład prawoskośny
6. Rozkład lewoskośny

Anomalie rozkładu wyników powodują, że test jako narzędzie pomiarowe nie odzwierciedla
badanej cechy na skali

1. Rozkład normalny
- modelowy rozkład w psychometrii co wynika z założenia o rozkładzie normalnym cech
- Dąży się aby rozkład empiryczny wyników testowych był jak najbardziej zbliżony do
normalnego
- Aby to osiągnąć test powinien
1. Możliwość- zbudowany z:
- Pozycji o przeciętnych trudnościach
- Pozycji przeciętnie dodatnio ze sobą skorelowanych
2. Możliwość- zbudowanie testu z pozycji o różnym poziomie trudności, które jednocześnie
przeciętnie dodatnio są ze sobą skorelowane

Kurtoza rozkładu- stopień skupienia wyników wokół średniej, o czym decyduje skorelowanie
pozycji testowych

Skorelowanie pozycji testowych decyduje o stopni skupienia wyników wokół średniej


ŚREDNIE POZYCJE- decydują o skośności rozkładu

Wartości kurtozy w przedziale od -1 do +1 oraz wartości skośności rozkładu w przedziale


od -1 do +1 charakterystyczne są dla rozkładów nieodbiegających w sposób znaczny od
normalnego
2. Rozkład platokurtyczny
Rozkład platokurtyczny- gdy korelacje między poszczególnymi pozycjami są zbyt silne, rozkład
wyników ulega nadmiernemu spłaszczeniu

3. Rozkład dwumodalny
Rozkład dwumodalny- w przypadkach skrajnie wysokich korelacji rozkład może stać się
dwumodalny czy też przyjmować kształt litery „U”. Tę właściwość rozkładu opisuje kurtoza, która
w omawiane sytuacji przyjmuje bardzo małe wartości i znajduje się poniżej -1
4. Rozkład leptokurtyczny
Rozkład leptokurtyczny- gdy korelacje pozycji są niskie lub wręcz ujemne, to rozkład wyników
zaczyna być nadmiernie skoncentrowany wokół średniej (staje się leptokurtyczny)

W sytuacji skrajnego braku korelacji pomiędzy pozycjami testowymi rozkład staje się
jednomianowy ( wszyscy uczestnicy badania uzyskują identyczny wynik). W tej sytuacji wartość
kurtozy jest duża, znacznie przekraczająca 1

5. Rozkład prawoskośny
Rozkład prawoskośny- jeśli test zawiera zbyt wiele trudnych pytań, czyli trudności wielu pozycji
testowych są niskie, to otrzymujemy niesymetryczny prawoskośny rozkład.
W tym przypadku stosunkowo mało osób badanych uzyskuje wyniki wysokie, a dość dużo-
wyniki niskie
6. Rozkład lewoskośny
Rozkład lewoskośny- test zawiera zbyt wiele łatwych pytań, czyli dużó jest wysokich wyników, a
mało- niskich, otrzymujemy lewoskośny rozkład
6. Jakich informacji o osobie badanej dostracza
testowanie ?

6.1 Błędy standardowe i przedziały ufności


Wynik prawdziwy- hipotetyczna wartość opisująca rzeczywiste nasilenie mierzonej cechy.
- ze względu na ograniczoną dokładność narzędzi pomiarowych nie można precyzyjnie
określić tego wyniku.
- w praktyce wykorzystuje się jego estymatory- wartości przybliżone

Wynik w teście= wynik otrzymany - jest pewnego rodzaju estymatorem wyniku prawdziwego
- dokładność jest raczej mała = czasem wynik otrzymany może leżeć powyżej wyniku
prawdziwego, a czasem trochę poniżej

Wynik typowy= wynik równy średniej

Błąd pomiaru- sprawia, że diagnosta nigdy nie może być pewien wniosków formułowanych na
podstawie wyników badań testowych.

Przedział ufności- służy zwiększeniu prawdopodobieństwa wnioskowania i nadaje użyteczność


diagnozie testowej . Jest to przedział symetryczny względem wyniku testowego i pełni on funkcję
estymatora przydziałowego
- na jego pozastawiane można ze znanym i akceptowalnym prawdopodobieństwem
zlokalizować położenie wyniku prawdziwego osoby, a więc podać przybliżone nasilenie
badanej cechy
X Wada- stosunkowo duży zakres
Dwa najczęściej stosowane sposoby estymacji przedziałowej wyniku prawdziwego = 2
rodzaje przedziałów ufności:
1. Przedział dla wyniku otrzymanego
2. Przedział dla estymowanego wyniku prawdziwego
6.1.1. Standardowy błąd pomiaru

Błąd standardowy- określenie używane w statystyce do oznaczania odchylenia standardowego


w rozkładzie dowolnej statystyki
- informuje on o przeciętnej odległości wartości estymatorów ( np: średnich w losowanych
próbkach) od wartości parametru ( np: średniej w populacji)
- Im większy ⬆ błąd standardowy, tym dalej ⬆ od średniej populacyjne moze być
zlokalizowana średnia w próbce wylosowanej z tej populacji.
- Charakteryzuje test a nie osobę
Standardowy błąd pomiaru- jest to przeciętna odległość wszystkich potencjalnych wyników
otrzymanych przez 1 osobę od charakteryzującego tę osobę wyniku prawdziwego
- jest wielkością teoretyczna TO ZNACZY ŻE, w praktyce posługiwać się będziemy jego
estymatorem a więc wartością przybliżoną

Wynik otrzymany- estymator (wartość przybliżona) wyniku prawdziwego.

Im większy ⬆ standardowy błąd pomiaru tym ⬆ dalej od wyniku prawdziwego może leżeć
wynik otrzymany przez osobę

! Rozkład wszystkich potencjalnych wyników otrzymanych przez 1 osobę i charakteryzujący ją


rozkład błędów mają TAKI SAM KSZTAŁT = to znaczy, że MAJĄ TAKIE SAME ODCHYLENIA
STANDARDOWE !

Klasyczna teoria Gulliksena-Przy opisie różnych osób będziemy wykorzystywali ten sam
standardowy błąd pomiaru, pod warunkiem, że pomiarów dokonamy tym samym testem

STĄD WNIOSEK ŻE:


Standardowy błąd pomiaru charakteryzuje test a nie osobę

Skąd wiemy że test jest dobry ?


Test, który charakteryzuje się MAŁYM STANDARDOWYM BŁĘDEM POMIARU to test dobry. Jest
to związane z jego rzetelnością
⬇ Mniejszy standardowy błąd pomiaru oznacza ⬆ większą rzetelność narzędzia
⬆ Im lepsze narzędzie tym ⬆ wyniki otrzymane bardziej zbliżone do wyników prawdziwych
6.1.2 Przedział ufności dla wyniku otrzymanego
Po co istnieją standardowe błędy pomiaru ?
- podstawowym i praktycznym ich przeznaczeniem jest konstrukcja przedziałów ufności
Kilka faktów:
- w statystyce przedział ufności zwykle jest symetryczny względem estymatora jakiejś wartość
teoretycznej
- Wspomniana właśnie wartość teoretyczna (parametr) znajduje się w granicach przedziału
ufności

Przedział ufności- forma estymacji parametrów, czyli wyznaczania ich przybliżonej wartości
- taką formą estymacji posługują się statystycy chcąc oszacować np: średnie spożycie cukru
prze małą próbę Polaków (jest to wartość estymatora)
- Posługują się nią również psychometrzy chcąc oszacować wynik prawdziwy opisujący osobę
(wartość parametru) na podstawie pojedynczego wyniku otrzymanego (wartość estymatora)

Teoretyczne podłoże sposobu wyznaczania przedziału ufności:


- punktem wyjścia powinien być teoretyczny rozkład potencjalnych wyników otrzymanych dla
pojedynczej osoby ( każde badanie traktuje się tak jakby było wykonane po raz pierwszy)

Krótki opis wyżej pokazanego rysunku 6.1


T- to wynik prawdziwy pojedynczej osoby
Z alfa - oznacza wystandaryzwoaną wartość - można ją odczytać z np: tablicy rozkładu
normalnego. Jest to wynik wystandaryzowany, dla którego wartości wynosi dokładnie 1-alfa /2
Alfa- poziom istotności
Przedziały ufności- zaznaczone są w dolnej części rysunku linią przerywaną
POMOC GOOGLE DLA LEPSZEGO ZROZUMIENIA :
- Przedział ufności to statystyczna miara niepewności związana z oszacowaniem parametru
populacji.
- Jest on zwykle wyrażany jako zakres wartości powyżej i poniżej szacowanej wartości.
- ⬆ Im większa szerokość przedziału, tym ⬆ większa niepewność związana z oszacowaniem
✓ Przedziały ufności są wykorzystywane do przekazywania informacji na temat zakresu, w
którym może znajdować się nieznany parametr populacji. Dają one wskazanie precyzji
oszacowania uzyskanego z próbki danych.
✓ W swojej najbardziej podstawowej formie przedział ufności zapewnia zakres wartości, które
prawdopodobnie zawierają nieznany parametr populacji. Na przykład można stwierdzić,
że 95% populacji mieści się w określonym przedziale.
✓ Przedziały ufności mogą być wykorzystywane do oceny istotności statystycznej wyników
badania.
✓ Mogą one również pomóc w ocenie wpływu różnych czynników na populację.
Istnieją różne sposoby obliczania
przedziałów ufności. Najczęściej
stosowanymi metodami są przedział t,
przedział z i formuła przedziału ufności.
Ponadto dostępne są różne programy
komputerowe do obliczania
przedziałów ufności.
Przedział ufności jest ważnym
narzędziem analizy danych. Służy do
oceny dokładności szacunków
uzyskanych z danych
statystycznych. Służy również do
pomiaru poziomu zaufania do
dokładności szacunków.
6.1.2.1 Obliczanie przedziału ufności dla wyniku otrzymanego

Teoria
- przedział ufności zawsze budujemy symetrycznie względem wyniku otrzymanego
Wzór opisujący przedział:

Jak odczytać powyższy wzór ?


Prawdopodobieństwo (litera P) tego, że wynik prawdziwy T znajduje się w przedziale ufności
wynosii 1-α.
Dolną granicę przedziału budujemy poprzez odcięcie od wyniku otrzymanego X iloczynu zα x
SEM, który nazwany jest półprzedziałem ufności- bo jest równy dokładnie połowie szerokości
całego przedziału.
Górna granica powstaje w sposób analogiczny- do wyniku otrzymanego dodajemy półprzedział

Praktyka
6.1.2.2. Interpretacja przedziału ufności dla wyniku otrzymanego
Teoria
- wynik prawdziwy może znajdować się z jednakowym prawdopodobieństwem równy 1-α w
każdym miejscu przedziału ufności włącznie z jego granicami
- Przedział ufności jest więc przedziałem obustronnie domkniętym

Czynniki powodujące zwężanie przedziału:


1. Współczynnik rzetelności
2. Odchylenie standardowe
3. Poziom istotności

Czynniki powodujące zwężanie przedziału:


1. Współczynnik rzetelności
Im większa ⬆ jest rzetelności tym mniejsze ⬇ błędy towarzyszą pomiarom
W konsekwencji zmniejsza się ⬇ błąd pomiaru i ↔ przedział ufności jest węższy

2. Odchylenie standardowe wyników otrzymanych w próbie


Im mniejsze ⬇ odchylenie standardowe tym ↔ węższy będzie przedział ufności
- sposobem na utrzymanie niskiego odchylenia standardowego jest losowanie dużych prób
reprezentatywnych dla populacji

3. Poziom istotności
Im wyższy poziom ⬆ α , tym ↔ węższy przedział ufności

- Wysokie α oznacza wysokie prawdopodobieństwo postawienia błędnej diagnozy


- Niska α (np: 0,01) daje szerokie przedziały ufności na których trudno podjąć decyzje
diagnostyczne

Tylko i wyłącznie w diagnozie indywidualnej przyjmuj się wartość α=0,15- poziom


niedopuszczalny w badaniach naukowych

6.1.3 Standardowy błąd różnicy między wynikami otrzymanymi

Teoria
- konstruuje się go na podstawie specjalnie de niowanego błędu standardowego
Standardowy błąd różnicy i przedziału ufności dla różnicy- dotyczy sytuacji gdy badamy
dwoma testami jedną osobę, jak i jednym testem dwie osoby. W obu przypadkach porównujemy
dwa wyniki otrzymane

- każdy standardowy błąd jest odchyleniem standardowym w rozkładzie pewnej statystyki


- Tutaj chodzi o rozkład różnic otrzymanych- czy różnic między wynikami otrzymanymi (Xd-
X1-X2)

- średnia takiego rozkładu to różnica prawdziwa- czyli różnica między wynikami prawdziwymi
dla jednej osoby z dwóch testów (Td= T1-T2)
- W tym przypadek błąd różnicy między wynikami otrzymanymi- jest to odległość między
różnicą otrzymaną i różnicą prawdziwą
- błąd różnicy miedzy pomiarami to różnica błędów pomiaru
fi
- jeśli rozkłady wyników otrzymanych z każdego z tych pomiarów będą normalne (podpunkt a)
zobacz niżej) to różnice między wynikami otrzymanymi również utworzyłyby rozkład normalny
(podpunkt b na rysunku poniżej)
Błąd różnicy miedzy wynikami otrzymanymi- to odległość między różnicą otrzymaną (np:
różnicą między wynikami otrzymanymi z dwóch testów) a różnicą prawdziwą (różnicą między
wynikami prawdziwymi w tych testach). Błąd różnicy mozna sprowadzić do prostej różnicy
między błędami pomiaru w dwóch badaniach

Wariancja błędów różnicy- wariancja różnicy błędów pomiaru w dwóch testach to suma
wariancji błędów pomiaru w tych testach pomniejszona o podwojoną kowariancję tych błędów
pomiaru

POMOC GOOGLE W ZROZUMIENIU czym jest kowariancja

Standardowy błąd różnicy między wynikami otrzymanymi- przeciętna odległość, w jakiej leżą
różnice otrzymane od różnicy prawdziwej. Jest to odchylenie standardowe w rozkładzie
wszystkich potencjalnych różnic między wynikami otrzymanymi przez osobę w dwóch różnych
testach lub w rozkładzie nieskończenie wielu błędów różnicy między wynikami otrzymanymi

Strony dołączone do opisywanego rozdziału


6.1.4 Przedział ufności dla różnicy między wynikami otrzymanymi

Teoria
- podłoże teoretyczne takie samo jak w przypadku przedziału ufności dla pojedynczego wyniku
otrzymanego
- Należy wziąć pod uwagę jednak X NIE rozkład wynikow otrzymanych dla pojedynczej osoby,
ale rozkład różnic między dwoma wynikami otrzymanymi dla tej osoby, przedstawione na
rysunku 6.3

Opis rysunku 6.3


Różnica między wynikami otrzymanymi (Xd) - RÓŻNICA OTRZYMANA
Różnica miedzy wynikami prawdziwymi (Td) - RÓŻNICA PRAWDZIWA

- jeśli przedział symetryczny względem różnicy prawdziwej ( na rysunku zaznaczony linią ciągłą)
obejmuje znaczny procent wszystkich możliwych różnic między wynikami dla pojedynczej
osoby, to przedział ufności zbudowany symetrycznie względem dowolnej różnicy otrzymanej
(linia przerywana) ze znacznym prawdopodobieństwem będzie obejmował różnicę protetyczną
- Przedział ze znacznym prawdopodobieństwem równym poziom ufności (1-α) będzie
obejmował różnicę prawdziwą
- Jeśli diagnosta otrzyma w konkretnym badaniu dwoma testami różnicę taką jak Xd1, to jego
przedział ufności bedzie w rzeczywistości obejmował różnicę prawdziwą
- Jeśli diagnosta otrzyma różnicę otrzymaną taką jak Xd2 to różnica prawdziwa będzie
POZA przedziałem
- Poziom istotności ( czyli α)- to prawdopodobieństwo tego, że wnioski będą błędne tzn.
Różnica prawdziwa będzie w rzeczywistości leżała POZA przedziałem ufności
- Poziom α jest prawdopodobieństwem błędnej diagnozy
6.1.4.1 Obliczanie przedziału ufności dla różnicy między wynikami

Teoria
Jak otrzymać wzór pozwalający obliczyć taki przedział ufności ?
- konstruujemy go symetrycznie względem wartości uzyskanej empirycznie, którą w tym
przypadku jest różnica otrzymana
- Dolną granicę otrzymujemy odejmując od różnicy otrzymanej tzw. Półprzedział , który tutaj
jest iloczynem wystandaryzowanej wartości zα i standardowego błędu różnicy między
wynikami otrzymanymi SEMD.
- Górną granicę uzyskujemy dodając półprzedział + różnicy otrzymanej

Jak czytać poniższe równanie ?


- prawdopodobieństwo tego, że różnica prawdziwa (Td) znajduje się miedzy granicami przedziału
ufności wynosić 1-α

Praktyka
6.1.4.2 Istotność różnicy między wynikami otrzymanymi

Teoria
- zastosowanie- do oceny tzw. Statystycznej istotności różnicy wyników
- Wg koncepcji Gulliksena Dwie osoby o identycznych poziomach cechy ( czyli o identycznych
wynikach prawdziwych) mogą uzyskać w tym samym teście różne wynik otrzymane.
- Jest to związane z losowym i nieprzewidywalnym błędem pomiaru
- Aby móc formułować wnioski o różnym nasileniu cech u tych osób, różnica między ich
wynikami otrzymanymi musi być WYSTARCZAJĄCO DUŻA = ISTOTNA STATYSTYCZNIE

Istotna statystycznie różnica między wynikami otrzymanymi- oznacza, że istnieje rzeczywista


różnica między wynikami prawdziwymi. W takim przypadku można mówić o różnicy w nasileniu
cechy lub cech

Jak ustalić istotność statystyczną


- wyznaczyć przedział ufności
- Różnice między wynikami uznamy za istotnie statystyczną gdy obie granice przedziału
będą miały taki sam znak ( OBIE DODATNIE LUB OBIE UJEMNE)
- Posłużeniem się iloczynem zα x SEMD
- Aby 0 leżało poza przedziałem ufności i aby uznać różnicę dwóch wyników za istotną
statystycznie - to jej wartość bezwględna musi być WIĘKSZA od półprzedziału ufności

Kiedy różnica istnieje ?


ISTNIEJE- Jeśli zero leży poza granicami przedziału ufności dla różnicy, to z dużym
prawdopodobieństwem możemy uznać, że różnica między wynikami prawdziwymi istnieje
NIE ISTNIEJE- gdy zero leży wewnątrz przedziału ufności, to nie możemy uznać, że różnica
między wynikami prawdziwymi nie istnieje

6.1.5 Estymowany wynik prawdziwy

Estymowany wynik prawdziwy (T)- to punktowy estymator wyniku prawdziwego stosowany


czasem w zastępstwie wyniku otrzymanego. Jest to przewidywany wynik prawdziwy, który
moglibyśmy wyznaczyć na podstawie równania regresji prostoliniowe dla zależności pomiędzy
wynikami otrzymanymi i prawdziwymi
Teoria
- jeśli test ma choćby minimalną dokładność to możemy oczekiwać niezerowej korelacji
między wynikami otrzymanymi i prawdziwymi
- Im ⬆ większa dokładność (rzetelność) testu⬆ , tym silniejsza korelacja
- układ współrzędnych
- Oś pozioma- wyniki otrzymane ( współrzędna na osi poziomej)
- Oś pionowa- wynik prawdziwy (współrzędna na osi pionowej)
- gdy test ma idealną rzetelność- punkty układają się wzdłuż LINI PROSTEJ, bo zawsze
wynikowi otrzymanemu odpowiada taki sam wynik prawdziwy
- trend zależności między wynikami
- Im wyższy ⬆ wynik otrzymany (X) tym wyższy wynik prawdziwy (T) osoby —> jest to
LINIA REGRESJI

Praktyka
6.1.6 Standardowy błąd estymacji wyniku prawdziwego

Błąd estymacji wyniku prawdziwego (E’)- różnica między estymowanym wynikiem prawdziwym
i wynikiem prawdziwym

Standardowy błąd estymacji wyniku prawdziwego (SEE)- przeciętna odległość, w jakiej leżą
estymowane wyniki prawdziwe od wyniku prawdziwego. Jest to odchylenie standardowe w
rozkładzie wszystkich możliwych dla osoby estymowanych wyników prawdziwych lub w
rozkładzie błędów estymacji wyniku prawdziwego

Teoria
Standardowy błąd estymacji wyniku prawdziwego (SEE)- jest odchyleniem standardowym w
rozkładzie wszystkich potencjalnych estymowanych wyników prawdziwych dla jednej osoby.
- średnia takiego rozkładu to wynik prawdziwy
- Im ⬆ większy standardowy błąd estymacji, tym większa ⬆ przeciętna odległość
estymowanych wyników prawdziwych od wyniku prawdziwego

Standardowy błąd estymacji ( 2 de nicja)- odchylenie standardowe w rozkładzie błędów


estymacji wyniku prawdziwego

Błąd ( klasyczne rozumienie)- różnica między wartością otrzymaną i wartością prawdziwą


W TYM PRZYPADKU BŁĄD ESTYMACJI- różnica między estymowanym wynikiem prawdziwym
a wynikiem prawdziwym

E’= T’- T
fi
Kontynuacja teorii
- współczynnik rtt - jest zwykle wartością < mniejszą niż 1
- Standardowy błąd estymacji (SEE) będzie mniejszy niż standardowy błąd pomiaru (SEM)
- To właśnie sprawia, że w tym samym teście i dla tej same osoby przedział ufności
wyznaczony na podstawie standardowego błędu estymacji będzie węższy niż przedział
wyznaczony na podstawie błędu pomiaru

RYSUNEK PRZEDSTAWIA ZALEŻNOŚĆ OBU STANDARDOWYCH BŁĘDÓW OD


WSPÓŁCZYNNIKA
- widać na nim, że linia wykresu dla standardowego błędu estymacji jest prawie ZAWSZE
poniżej linii dla standardowego błędu pomiaru
- SEM- pokazuje typową zależność pomiędzy standardowym błędem a rzetelnością pomiaru
testem
- SEE- w tym przypadku- zależność, że im bardziej dokładny jest test tym mniejsze błędy
popełniamy widoczna jest tylko w prawej połówce wykresu dla współczynników większych
od 0,5

Jak to wytłumaczyć ?
—> charakterystyką estymowanego wyniku prawdziwego
Zgodnie z jego de nicją leży on zwykle bliżej średniej niż wynik otrzymany
fi
6.1.7 Przedział ufności dla estymowanego wyniku prawdziwego

Teoria opisująca wykres


- jeśli przedział symetryczny względem wyniku prawdziwego ( linia ciągła) z określonym
prawdopodobieństwem 1-α obejmuje każdy możliwy do uzyskania przez osobę Estymowany
wynik prawdziwy, to przedzial ufności o takiej samej szerokości ale symetryczny względem
dowolnego estymowanego wyniku prawdziwego (linia przerywana) będzie z takim samym
wynikiem obejmować wynik prawdziwy
- Dla diagnosty dostępna jest tylko dolna część rysunku
6.1.7. Obliczanie przedziału ufności dla estymowanego wyniku
prawdziwego
6.2 Normy i normalizacja
6.2.1. Norma i normy
6.2.2 Standaryzacja
6.2.3 Normalizacja
6.2.4 Skale znormalizowane
6.2.4.1 Skala staninowa
6.2.4.2. Skala stenowa
6.2.4.3. Skala tenowa
6.2.4.4. Skala tetronowa
6.2.4.5 Iloraz inteligencji
6.2.4.6. Przeliczenie wyników na skale znormalizowane
6.2.5. Normy centylowe

6.2.1. Norma i normy

Norma- przedział określający nasilenie cechy, które w populacji występuje najczęściej


Normy- statystyczny układ odniesienia, który pozwala precyzyjnie określić nasilenie cechy danej
osoby względem innych osób z populacji. Normy zwykle mają postać tabel służących do
przeliczania wyników surowych na jednostki specjalnej skali

Teoria:
Norma diagnostyczna- to nasilenie cechy, które w populacji występuje najczęściej

- Norma nie może ograniczać się tylko do pojedynczej wartości równej średniej arytmetycznej
- Jest to przedział zawsze symetryczny względem średniej, ale jego szerokość jest raczej
uznaniowa
- Przedział musi być szeroki i obejmować znaczną cześć osób z populacji
- Przedział wyników
- Rola systematyzująca- w obszarach psychologii, które nie zajmują się zagadnieniami
klinicznymi norma może mieć zakres nieco węższy. Diagnosta może ocenić, że ma do czynienia
z osobą typową na tle populacji
- W przypadku normy nie ma podziału zdrowy- chory. raczej przedział wyników przeciętnych
aby uniknąć określenia „norma” i „nienormalny”
- Znając granice przedziału uznanego za normę można powiedzieć, że nasilenie cechy jest:
- Typowe
- Niższe
- Wyższe

Norma elitarna- tylko stosunkowo nieduża grupa osób zostanie uznana za typową
Jeśli interesuje nas o ile wynik jest wyższy od normy, używamy standaryzacji
Np: wynik osoby jest wyższy od średniej o 2 odchylenia standardowe

Normy- statystyczny układ odniesienia, a proces, który umożliwia stworzenie systemu norm to
normalizacja

Kiedy możliwa jest normalizacja ?


Gdy empiryczny rozkład wynikow testowych w próbie jest co najmniej podobny do rozkładu
normalnego
JEŚLI NIE X—> pozostają nam KWANTYLE

Kwantyle- normy o charakterze procentowym pokazujące frakcje określonych wyników w próbie

6.2.2. Standaryzacja
Teoria
Próba reprezentatywna- wyniki testowe uzyskanych przez próbę osób reprezentujących
populacje
- tylko czyste losowanie wystarczająco dużej liczby osób daje próbę reprezetatywną

Populacja- zbiorowość wszystkich osób, które spełniają określone kryterium (np: wszyscy Polacy
płci męskiej w wieku 20-40 lat)
- populacja nie musi być duża (np: wszyscy Polacy w wieku powyżej 110 lat) ale statystyka
zajmuje się tylko populacjami bardzo dużymi, w których pomiar Bezposredni jest trudny do
realizacji

Próba- część populacji o ograniczonej i zwykle niedużej liczebności


Próba reprezentatywna- próba, która jest odzwierciedleniem populacji pod względem struktury
wszystkich zmiennych.
- uzyskujemy ją np: poprzez losowanie określonej liczny osób z populacji
Próba normalizacja- reprezentatywna próba osób, których wyniki testowe są podstawą do
sporządzenia norm do testu.

Standaryzacja- zamiana wyniku surowego na wynik względny pokazujący odległość od średniej


w jednostkach odchylenia standardowego

Wynik wystandaryzowany- pokazuje nam, jak daleko od średniej i w którym kierunku leży wynik
otrzymany osoby

Wynik wystandaryzowany=1 oznacza, że wynik surowy jest wyższy od średniej o wielkość


równą 1 odchyleniu standardowemu

Jeśli wynik surowy= jest równy średniej, to wynik wystandaryzowany=0


6.2.3. Normalizacja

Normalizacja- jest nieliniowym przekształceniem przekształceniem rozkładu wyników

Kolumna 1- wyniki otrzymane w teście; na jej podstawie widać że przebadane osoby wykazują
małą wariancję wyników, ponieważ nikt w grupie nie rozwiązał mniej niż 24 ani więcej niż 33 zadań
Kolumna 2- zapisana jest liczebność poszczególnych wyników ( jak dużo osób uzyskało
konkretny wynik)
Kolumna 3- liczebność skumulowana- liczba osób które uzyskały dany wynik lub niższy
Liczebność skumulowana 18 dla wyniku 27 oznacza, że w sumie 18 osób uzyskało wynik 27 lub
niższy niż 27. Ostatnia wartość to całkowita liczebność próby
Kolumna 4- liczebność skumulowane liczone dla środka przedziału
Im większa ⬆ jednostka pomiaru tym ⬅ ➡ szerszy przedział

Założenie o równomiernym rozkładzie wszytkich teoretycznych wyników wewnątrz przedziału

Kolumna 5 proporcja jaką stanowi zapisana w kolumnie 4 liczebność skumulowana dla środka
przedziału względem całej próby
Aby ją policzyć należy:
- liczebność z kolumny 4 / podzielić przez liczebność próby znajdującą się w ostatnim wierszu
kolumny 3. Dla wyniku 28 ta proporcja to 24/50= 0,48
Kolumna 6 zapisane wartości Zi odpowiadajcie prawdopodobieństwom z kolumny 5 w
teoretycznej dystrybuancie rozkładu normalnego
Zmienna ciągła- to zmienna, która może przyjmować nieskończenie wiele wartości;
- pomiędzy dwiema dowolnymi wartościami zmiennej ciągłej znajduje się zawsz co
najmniej jedna wartość pośrednia

Zmienna dyskretna (skokowa)- to zmienna, która może przyjmować nieskończoną lub


skończoną liczbę przeliczanych (odseparowanych) wartości.
- pomiędzy dwiema wartościami zmiennej dyskretnej odległymi o jednostkę nie może istnieć
wartość pośrednia
- Jednostka takiej zmiennej to najmniejsza wykrywalna różnica
- Pomiar jakiejkolwiek zmienne sprawia, że staje się ona zmienną dyskretną
Wyniki znormalizowane- wyniki odpowiadajcie surowym wynikom otrzymanym na podstawie
ich rzeczywistej frekwencji
- mają one taką sama jednostkę co wyniki wystandaryzowane , ALE wyniki znormalizowane
zawsze przyjmują rozkład normalny bez względu na rzeczywisty kształt wyników
empirycznych (surowych)
- Średni wynik znormalizowany ZAWSZE = jest równy MEDIANIE WYNIKÓW SUROWYCH

ROZKŁAD WYNIKÓW jest NIESYMETRYCZNY- gdy średnia wyników surowych nie będzie
pokrywała się z medianą
RYSUNEK POKAZUJE DOPASOWANIE ROZKŁADU LICZEBNOŚCI WYNIKOW SUROWYCH
(SŁUPKI) DO ROZKŁADU PRAWDOPODOBIEŃSTW ODPOWIADAJĄCYCH IM WYNIKÓW
ZNORMALIZOWANYCH (LINIA)

Wykres a)
-najlepsze dopasowanie rozkładów
-Wyniki surowe tworzą w próbie rozkład
prawie normalny
-Normalizacja stanowi nieznaczne
zniekształcenie obrazu rzeczywistości
-Średnia wyników znormalizowanych (z=0) jest
idealnie równa średniej wyników surowych
(x=5)
-Prawdopodobieństwa wystąpienia
poszczególnych wyników znormalizowanych są
proporcjonalne do liczebności dla
odpowiednich wyników surowych

Wykres b)
-wyniki surowe przyjmują rozkład
prawoskośny- w próbie było więcej wyników
niskich niż wysokich
-Średnia wyników surowych o rozkładzie
skośnym- to średnia wyników
znormalizowanych będzie = równa medianie
wyników surowych, ale nie będzie równa ich
średniej
-Na rozkladzie znormalizowanymi (linia)
najbardziej prawdopodobny jest wynik równy
średniej (z=0)
-Najliczniejsze wyniki równe modalnej (x=2)

Wykres c)
- dwuwierzchołkowy rozkład wyników surowych- powstaje najczęściej gdy próba nie jest
jednolita pod względem istotnego dla mierzonej zmiennej czynnika ( przedmiotem pomiaru jest
inteligencja a badaniu biorą udział 7 i 14 Latkowie. 7 latkowie mają niższy jej poziom)
- Normalizacja wyników surowych o rozkładzie dwuwierzchołkowym daje znaczne
niedopasowanie norm do obrazu rzeczywistości
- Średnia rozkładu (z=0) odpowiada w tym przypadku średniej rozkładu empirycznego (x=5)
- Rozkład dwuwierzcholkowy jest tutaj symetryczny, ale prawdopodobieństwa wcale nie są
proporcjonalne do liczebności
6.2.4. Skale znormalizowane

Dlaczego wyniki znormalizowane mogą być niewygodne: ( z jakich powodów przedstawia


się jednak tzw. Skale znormalizowane)
1. Mylą się z oznaczanymi w ten sposób wynikami wywstandaryzowanymi
2. Wyniki znormalizowane mogą występować ze znakiem ujemnym
3. Wyniki znormalizowane mają bardzo dużą dokładność- dokładność wyników nie
odzwierciedla dokładności narzędzi

Charakterystyka skal znormalizowanych:


- zakres od 0-1
- Jednostki mają postać przedziałów
- Zakres może być rożny dla różnych skal
- Jednostki stanowią niepodzielne przedziały
- Stosowanie przez diagnostę: uznanie jednostki za najmniejszą możliwą
- Posługiwanie się liczbami całkowitymi

6.2.4.1 Skala staninowa


Skala staninowa:
- ma zakres od 1-9
- Średnia skali zawsze wypada w jej środku równa=5
- Odchylenie standardowe= 2
- Nie da się jednoznacznie określić przedziału ( np: że wynik leży w odchyleniu standardowym)
- Może obejmować staniny 3-7
- Przedział wynikow od -1,25z do +1,25z
- Może obejmować staniny 4-6
- Zakres od -0,75 do +0,75
- przedziały otwarte- to staniny skrajne czyli (1 i 9)
- Wszystkie wyniki oddalone od średniej o więcej niż 1,74z w lewo —> 1 staniny
- Wyniki oddalone od średniej 1,75 w prawo —> 9 staniny
- użytkowy zakres stali staninowej- zakres, w którym skala jest w stanie różnicowac dwie
osoby o rożnym nasileniu cechy, obejmuje wyniki znormalizowane od z= -1,75 do z= + 1,75
6.2.4.2 Skala stenowa
Skala stenowa:
- zakres od 1-10
- Odchylenie standardowe= 2
- Średnia między stenem 5 i 6 ( nie może być 5,5 bo nie ma ułamków)
- Każdy wynik musi należeć do któregoś stena
- Wynik znormalizowany z=0, a więc wynikowi odpowiadającemu średniej zostanie przypisany
sten 6
- Wyniki typowe steny od 4-6
- Steny 1 i 10 to przedziały otwarte
- Skala stenowa różnicuje wyniki osób, jesli nie są oddalone od średniej bardziej niż 2 odchylenia
standardowe

6.2.4.3 Skala tenowa


Skala tenowa:
- od 1-100
- Średnia = 50 tenowi (leży między 50 i 51 tenem)
- Odchylenie standardowe = 10
- Pojedynczy ten to przedział o szerokości = 0,1z
- Użytkowy zakres od -5z do +5z
- MAX 3 odchylenia standardowe
- Przedział wyników przeciętnych od 40-60
- Skrajne geny to 1, 100 są przedziałami otwartymi
6.2.4.4. Skala tetronowa

Skala tetronowa:
- od 0-20
- Średnia = 10 tetronowi
- Odchylenie standardowe =4
- Zakres użytkowy od -2,5z do +2,5z
- Przedział wyników przeciętnych 6-14 lub 7-13

6.2.4.5. Iloraz inteligencji (skala historyczna*)


Iloraz inteligencji
- skala o średniej 100
- Odchylenie standardowe 15
FORMUŁA POZWALAJĄCA NA OBLICZENIE ROZWOJOWEGO ILORAZU INTELIGENCJI

- IQ=100 typowy poziom rozowoju intelektualnego

Dewiacyjny iloraz inteligencji- skala znormalizowana o charakterze podobnym do innych skal


omawianych w tym rozdziale, ale różniąca parametrami
6.2.4.6 Przeliczanie wyników na skale znormalizowane
PODSUMOWANIE

2 kryteria wyboru skali:


1. Istotna jest rozdzielczość skali
⬇ im jednostka jest mniejsza tym ⬆ większa rozdzielczość
- skale IQ i tenowe- mają dużą rozdzielczość
- Skale stenowa i staninowa - mała rozdzielczość
2. Zakres użytkowy skali
- IQ i tenowa- największy zakres skal- bo mogą roznicować osoby o wynikach odległych od
średniej nawet od 4 odchylenia standardowe
- Staninowa i stenowa- mały zakres bo max 2 odchylenia standardowe
6.2.5 Normy centylowe
Stosujemy gdy rozkład jest znacząco rożny od normalnego lub gdy wyniki testu nie będą
interpretowane w odniesieniu populacji

Centyle (rodzaj kwantyli)- pojedyncze wyniki w uporządkowanym szeregu, które dzielą go na


100 równych pod względem liczebności części- każda z tych części obejmuje 1% wyników

Przedziały centylowe - (ujęcie psychometryczne)- to jednostki, z których każda obejmuje 1%


wyników surowych. Wyjątek stanowią przedziały od 0 do 100, które obejmują 0,5% wyników

Normy centylowe:
- mają charakter % procentowy (X brak zastosowania odchylenia standardowego)
- Pozycję osoby ocenia się na podstawie jej lokalizacji w uporządkowanym szeregu
- Skala przedziałów centylowych ma charakter porządkowy
- Odległość między dwoma rzadkimi wynikami w próbie będzie MAŁA
- Odległość między wynikami częstymi DUŻE
- X brak uwzględnienia kształtu rozkładu wyników
- Układem odniesienia jest nieduża próba X a nie populacja
- Normy lokalne- sporządzone na podstawie dużej reprezentacyjnej próby

You might also like