Podstawy Psychometrii

Podstawy Psychometrii
Psychometria:
- psycho+ metro = mierzyć
- dziedzina obejmująca badania psychomertryczne
- psychometryczny – odnoszący się do pomiaru tego co jest psychiczne a więc odnoszący
się do badań różnych aspektów procesów psychicznych, w tym osobowości, inteligencji,
zdolności
- odnoszący się do kwestii zastosowania zasad matematycznych i statystycznych w
psychologii
Pomiar zjawisk fizycznych

- zespół czynników wykonywanych w celu ustalenia miary określonej wielkości
fizycznej lub umownej
- porównywanie wartości danej wielkości z jednostka miary tej wielkości
Jak zmierzyć zjawiska i procesy psychiczne

- psychometryczny – odnoszący się do pomiaru tego co jest psychiczne
Zmierzyć osobowość:
- zmierzyć – sprowadzić do liczby
- każdy człowiek jest wyjątkowy, nie da się do sprowadzić do zestawu liczb
Po co?
- diagnozować, porównywać, wybrać terapię
- przewidywać przyszłe wyniki, osiągnięcia i dokonywać selekcji
- rozwijać wiedzę, prowadzić badania naukowe
- Każdy pomiar jest tylko przybliżeniem, próbą uchwycenia rzeczywistości trudno
uchwytnej.
Co to jest test psychologiczny?

Testem jest narzędzie lub procedura służące ocenie. Ich istotą zaś – otrzymywanie w
określonych warunkach próbki zachowania osób badanych, a następnie dokonywanie ich
oceny zgodnie z wystandaryzowanymi regułami.
Jakie wymogi muszą spełniać testy?

- Standaryzacja
Takie opracowanie procedury badania testem, by stosowany był za każdym razem
identycznie, niezależnie od osoby badającej, osoby badanej. Ma na celu
zminimalizowanie wpływu czynników ubocznych lub zakłócających na wyniki testowe.
- Obiektywność
Takie opracowanie procedury interpretacji wyników badania testem, aby stosowanie jej
było za każdym razem identyczne, niezależnie od osoby badającej.
Ma na celu zminimalizowanie wpływu osoby badanej na wyniki testowe, ma
zagwarantować, że różne osoby badające dokonują identycznej oceny wyników testy. W
kwestionariuszach samoopisowych także niezależność wyników od świadomej intencji
osoby badanej.
- Rzetelność
Opracowanie testu tak, aby maksymalizował on dokładność pomiaru badanej cechy.
Dwa aspekty rzetelności pomiaru testowego:
• stabilność – wyniki danej osoby badanej nie będą się zmieniały w czasie
• konsystencja = zgodność wewnętrzna – pomiar cech danej osoby nie jest
obciążony błędem, jest dokonywany z maksymalną dokładnością.
- Trafność
Takie opracowanie testu, by maksymalizował stopień w jakim test mierzy daną cechę.
Dwa aspekty trafności pomiaru testowego:
• diagnostyczny - co test mierzy i jak dobrze to mierzy
• prognostyczny – co możemy przewidywać na podstawie wyników testowych.
- Normalizacja – opracowanie procedury przekształcania wyników liczbowych,
uzyskanych przez osobę badaną, w wyniki różnicowe, umożliwiające lokalizację cechy
danej osoby na tle reprezentowanej populacji. Ma na celu zminimalizowanie błędnej
diagnozy psychologicznej.
Do czego służą testy?

Testy są metodami służącymi do zbierania informacji o człowieku, potrzebnej do
diagnozy psychologicznej.
Diagnoza psychologiczna jest procesem aktywnego poszukiwania danych potrzebnych

do podjęcia decyzji w działaniach zmierzających do zmiany aktualnego stanu
psychospołecznego ludzi ( w efekcie terapii, porady, itp.)
Etapy testu:
1. Tworzenie testu
2. Stosowanie testu w praktyce
3. Obliczanie wyników
4. Diagnoza
Co mierzą testy?
- Służą do rejestracji faktów psychologicznych z życia człowieka, informują o jego
zachowaniu przeszłym lub obecnym, typowym lub chwilowym
- Rejestrując różnice w zachowaniu ludzi oraz stałość czasową i sytuacyjną zachowania
danego człowieka
Test jako narzędzie operacjonalizacji pojęć

Rodzaje pojęć:
• teoretyczne (inteligencja, osobowość)
• obserwacyjne (uśmiech)
To samo pojęcie teoretyczne może być różnie operacjonalizowane
- Żadna operacjonalizacja nie ma charakteru uniwersalnego
- Pomiar psychologiczny oparty jest na ograniczonej próbce zachowań.
Specyfika pomiaru psychologicznego:

- Cechy psychologiczne są zmiennymi nieobserwowalnymi (utajone, latentne), a jedynie
zachowania są zmiennymi obserwowalnymi.
- Psychologowie na podstawie zachowań wnioskują o poziomie danej cechy
- Zmienne latentne nie istnieją realnie
- Cechy są psychologicznymi interpretacjami istnienia różnic indywidualnych w
wynikach testu.
Wynik testu ma określony związek z sytuacjami życiowymi (obserwacja mająca

określoną trafność)
Realne sytuacje życiowe działają podobnie jak testy – wywołują określone zachowania.
Cechy jako przedmiot pomiaru

- testy mierzą zazwyczaj cechy, czyli takie właściwości zachowania, które wykazują:
• międzyosobniczą zmienność
• wewnątrzosobniczą stałość: międzysytuacyjną i czasową.
Metody badawcze w psychologii:
- metody eksperymentalne
- metody diagnostyczne
Podstawowy schemat badawczy dla wszystkich metod: bodziec → reakcja
Schemat badawczy metod eksperymentalnych!!

- Zmienna Niezależna różni się dla poszczególnych grup/ osób
- Inne zmienne niezależne są identyczne dla wszystkich osób badanych (lub rozkładają
się losowo)
- Wniosek (zmiany lub różnice w zmiennej zależnej zależą od głównej zmiennej
niezależnej.
Metody eksperymentalne pozwalają na ocenę wpływu czynników zewnętrznych na
zachowanie.
Schemat badawczy metod diagnostycznych

- Zmienna niezależna jest identyczna dla wszystkich osób badanych
- Inne zmienne niezależne są identyczne dla wszystkich badanych albo rozkładają się
losowo
- Wniosek: różnice międzyosobnicze w zachowaniu nie zależą od zmiennej niezależnej
ale od czynników wewnętrznych.
Metody diagnostyczne pozwalają na ocenę wpływu czynników wewnętrznych na
zachowanie.
Elementy składowe testu

Test psychologiczny zawiera próbki zadań – określone wystandaryzowane bodźce. Jest to
specyficzna forma interakcji między osobą badającą a badaną, która zachodzi w
określonych warunkach czasowych, fizycznych i psychicznych.
Test psychologiczny zawiera 1 lub wiele skal standardowych, rejestrujących wywołane
przez bodźce reakcje.
Przedmiotem rejestracji w teście jest zachowanie:
• które jest opisem badanej cechy
• którego aspekt spełnia kryteria: typowości, specyfiki dla występującego bodźca
oraz reprezentacji ilościowej a nie jakościowej.
Dostarcza reguł dochodzenia do wyniku oraz jego oceny w aspektach:
• indywidualnym – informacje o nasileniu danej cechy u danej osoby
• pomiarowym – umożliwia oszacowanie parametrów „dobroci pomiaru testem”
Testy – umożliwiają wnioskowanie o zachowaniu w sytuacji pozatestowej.
Diagnoza i pomiar testowy
4 Aspekty diagnozy za pomocą testów:

Psychologiczny
Określenie problemu diagnozy – pytania badawczego → w konsekwencji – wybór
konkretnego (związanego z teorią) narzędzia.
Potrzebna jest dobra definicja mierzonej zmiennej, np. jak rozumiemy inteligencję.
Następnie potrzeby jest test, który operacjonalizuje zmienne zdefiniowanej w określonej
teorii:
• tylko wtedy zbiór pytań stanowi narzędzie pomiaru
• sensowna interpretacja wyniku testowego wymaga odniesienia do twierdzeń
teorii, na której opieramy test
Metodologiczny
Dotyczy formalnych reguł stosowania testu: wybór testu, procedury badania, obliczania
wyników i transformacji na wyniki standaryzowane oraz interpretacji uzyskanych danych
Odnosi się do procesu dochodzenia do diagnozy psychologicznej.
Wymaga standaryzacji, obiektywności i normalizacji testu.
W szerszym rozumieniu odnosi się do całej „proceduralnej” sfery funkcjonowania
diagnosty, np. gromadzenia danych w celu renormalizacji narzędzia, pozyskania nowych
informacji o trafności kryterialnej.
Etyczny
Odnosi się do życiowych i społecznych konsekwencji diagnozy dla osoby badanej
• problem stronniczości testów – prowadzi do dyskryminowania (lub
faworyzowania) określonych osób lub grup społecznych, np. w postaci seksizmu,
rasizmu
• problem poufności – ujawnienie tajemnicy pomiaru testowego osobom
postronnym (kto powinien mieć dostęp do pomiaru, kto będzie miał dostęp),
niewłaściwy sposób komunikowania wyników samej osobie badanej
(przekazywanie wyników w sposób przystępny), brak dobrowolności udziału w
badaniach lub brak możliwości rezygnacji w trakcie badania
• „etykietowanie” (stygmatyzowanie), wynikające z ahumanistycznego celu
badania
Efekty niedostatków pomiarowych narzędzi badawczych
Psychometryczny
Wymogi rzetelności i trafności testu
Dotyczy konieczności uwzględnienia we wnioskowaniu wskaźników opisujących
precyzję i pewność diagnozy, określenia błędów: pomiaru i przewidywania.
Odnosi się do stosowania modeli matematycznych i statystycznych stanowiących
podstawę formalną budowy wskaźników opartych na badaniu testami.
Metody diagnozy psychologicznej

Podział metod ze względu na interpretację zachowania i stopień sformalizowania
procedury:
• Zachowanie jako próbka – testy standaryzowane
• zachowania jako znak – techniki projekcyjne (wskaźnik psychologiczny, który nie
jest dostępny wprost).
• metody niesformalizowane – swobodne (wywiad, obserwacja kliniczna, nie ma
reguł narzuconych)
Rodzaje testów
• Podział wg sposobu badania, np. testy indywidualne – grupowe, słowne,
bezsłowne
• Podział wg rodzaju zadań
• Testy maksymalnego wykonania
• Kwestionariusze samoopisowe
• Skale obserwacyjne
Testy maksymalnego wykonania – pokazują granice możliwości

Test w którym osoba wykonuje specyficzne zadanie, np. test inteligencji, zdolności,
wiadomości
Diagnostycznymi odpowiedziami są tzw. „odpowiedzi prawidłowe” - prawidłowe
rozwiązania
Testy maksymalnego wykonania:
• testy mocy – trzeba pokazać swoje maksymalne możliwości, tyle na ile da radę je
wykonać
• testy szybkości – zestaw zadań wykonanie na czas, ale ważne ile czasu mu to
zajmie
• testy z ograniczeniem czasowym – czas jest z góry narzucony, ważne ile działań
osoba wykonania.
1. Testy inteligencji i zdolności
Testy ogólnych uzdolnień poznawczych (np. WAIS, APIS, Raven)
Testy uzdolnień szczegółowych (wykorzystywane, np. w poradnictwie zawodowym,
mierzenie zdolności)
Testy osiągnięć – badające, co osoba może wykonać lub umie obecnie (np. jaki ma
poziom wiedzy w danej dziedzinie).
Kwestionariusze samoopisowe
Test, w którym osoba sama opisuje swoje zachowanie.
Test rejestruje samoopis typowego zachowania
Nie mają odpowiedzi prawidłowych diagnostycznych ocenianych zgodnie z kluczem.
Dotyczące wielu różnych cech obejmujących „całość psychiki”, np. MMPI, CPI, NEO-
FFI
Dotyczące poszczególnych cech, np. poziom lęku ( kwestionariusz Spielberga), poziom
objawów klinicznych, kwestionariusze do badania samooceny, poczucia koherencji
Skale obserwacyjne
Testy, w którym osoba jest obserwowana w specyficznej sytuacji lub w wielu
określonych sytuacyjnych
Test rejestruje dane obserwacyjne typowego zachowania lub wykonania zadania w
naturalnych warunkach
Diagnostyczne są oceny powyżej określonej granicy
Próbki pracy zawodowej, arkusze obserwacyjne, arkusze szacowania cech,
wykorzystywane np. w AC/ DC (you shook me all night long).
Czym różni się ankieta od kwestionariusza?

W ankiecie pojedyncze pytanie jest wskaźnikiem badanej zmiennej, np. wiek
W kwestionariuszach wskaźnikami są wyniki uzyskiwane na podstawie wielu pozycji.
Indywidualny wynik testowy

Rozwiązanie pojedynczego zadania testowego może przyjmować wartość 0 lub 1
Odpowiedzi diagnostyczne = 1
• Testy maksymalnego wykonania – prawidłowe wykonanie zadania
• Kwestionariusze samoopisowe – odpowiedź zgodna z kluczem
• Skala obserwacyjna – ocena powyżej określonej granicy.
Pomiar w psychologii
Proces przyporządkowania liczb (tzn. wyników testowych) osobom badanym w taki
sposób, aby mierzone testem właściwości psychologiczne tych osób były
odzwierciedlone przez własność liczb.
Dokładność instrumentów pomiarowych decyduje o tym, że pomiar jest dokonywany na
skalach pomiarowych o różnej „subtelności”
Skale pomiarowe:
nominalne
Wartości na tej skali nie mają oczywistego uporządkowania (np. nazwa miejscowości,
odpowiedź na pytanie tak/nie)
porządkowa
Wartości mają jasno określony porządek, ale nie są dane odległości między nimi,
możliwe są relacje porządku
przedziałowa - interwałowa
Różnice pomiędzy wartościami mają sensowną interpretację, ale ich iloraz nie, np. daty.
Ilorazowa - stosunkowa
Nie tylko różnice, ale także ilorazy wielkości mają interpretację. Wielkości na skali
ilorazowej można dodawać, dzielić, odejmować
Skale pomiarowe w testach psychologicznych
Zwykle w testach:
• odpowiedzi na jedną pozycję testową traktuje się jako pomiar na skali nominalnej
• wynik całego testy – na skali porządkowej
• wynik testu po normalizacji – na skali przedziałowej
Chociaż jednocześnie wielu badaczy uważa, że już:
• dla pozycji uzyskujemy pomiar na skali porządkowej
• dla testu – na skali przedziałowej
W psychologii zazwyczaj nie mamy możliwości pomiaru ilorazowego (wyjątkowo
rzadko – w odniesieniu do funkcji psychofizjologicznych).
Trudności pomiarowe w psychologii

Celem pomiaru jest różnicowanie ludzi między sobą – skala konstruowana tak, aby
służyła jak najlepszemu różnicowaniu osób badanych.
Pomiar jest zależny od przedmiotu pomiaru, fakt mierzenia konstytuuje przedmiot
pomiaru, np. inteligencja jest bytem zależnym od pomiaru.
Specyfika pomiaru psychometrycznego

Trudność ze wskazaniem tzw. zera absolutnego
Rozwiązanie: posługiwanie się przez psychologów się tzw. zerem względnym – średnia
grupowa i charakteryzowanie poszczególnych osób w relacji do tej średniej za pomocą
statystycznych miar rozproszenia → pomiar o charakterze różnicowym.
Rozkład normalny a pomiar w psychologii

Założenie: cechy psychologiczne (podobnie jak cechy fizyczne) mają rozkład normalny
w populacji
Więc: testy przeznaczone do pomiaru tych cech powinny dostarczać wyników o
rozkładzie normalnym.
Na podstawie tego założenia krzywa normalna jest traktowana jako model rozkładu
wyników testu:
• wartości ciągłe
• równe odległości pomiędzy wszystkimi wartościami wyników na skali
Standardy porównań dla pomiaru cech różnicowych

Dla różnicowych cech ilościowych standardem (punktem odniesienia) jest średnia
rozkładu normalnego
Zmienność definiowana jest poprzez odchylenie standardowe lub wariancję tego
rozkładu
Wynik Sumaryczny wyników poszczególnych pozycji dla danej osoby jest informacją o
nasileniu u niej cechy badanej przez test.
Odchylenie standardowe może być stosowane jako jednostka skali – na ile uzyskany
wynik odchyla się od wartości średniej.
Wariancja wyników testu – miara zmienności w rozkładzie wyników otrzymanych.
Podniesione do kwadratu odchylenie standardowe. Dobrze zróżnicowane badanie ma
wysoką wariancję
Wariancja wyników testu
Wariancja pojedynczego zadania
• Proporcja odpowiedzi diagnostycznych do niediagnostycznych
• Największa, gdy ok. połowa osób udzieli odpowiedzi diagnostycznej
• Gdy bliska 0 – zadanie bez wartości
Wariancja wyników całego testu
• Zależna od wariancji poszczególnych zadań i ich interpretacji. Najwyższa gdy:
• największe wariancje poszczególnych zadań
• największe interkorelacji między zadaniami
Wynik standaryzowany – Pozwala na podanie indywidualnego wyniku jako odchylenia
od wartości średniej. Jednostką jest odchylenie standardowe.
Charakterystyka rozkładu normalnego:

Charakteryzując wyniki uzyskiwane przez daną osobę w jednostkach odchylenia
standardowego od średniej populacyjnej (wyniki standaryzowane z) potrafimy
jednocześnie określić częstość ich występowania.
Czwartek 12:00 CN-P07 – laboratorium
Właściwości pozycji testowej
Jak można osiągnąć wyniki ilościowe w teście?

Jak test musi być skonstruowany, aby dostarczał wyników ilościowych informujących o
intensywności mierzonej cechy?
• Cel ten może zostać osiągnięty poprzez wprowadzenie do testu wielu zadań.
• Test jest narzędziem obejmującym wiele pozycji.
Pozycja testowa (item)

Bodziec w formie zadania lub pytania, na który osoba badana ma odpowiednio
zareagować (udzielić odpowiedzi zgodnie z przyjętą w teście procedurą odpowiadania) –
nie interesuje nas każda odpowiedź, tylko ta która jest w kluczu albo zbliżona do niej.
Podlega zobiektywizowanej ocenie ilościowej (zgodnie z ustaloną procedurą oceny
zachowania).
Jest wskaźnikiem badanej cechy.
Odpowiedzi na pozycje testowe:

Rozwiązanie diagnostyczne = 1, a niediagnostyczne = 0.
Inne formaty odpowiedzi: Oprócz tego możliwe pytania/ twierdzenia buforowe i
dystraktory (fillers), nie wliczane do wyniku ogólnego. Pozycje buforowe są potrzebne,
aby test który dotyczy spraw trudnych nie były zbyt stresujące. Rozpoczęcie badania od
czegoś co będzie przyjemne, neutralne. Są często umieszczane na początku i na końcu.
Dystraktory – czyli wypełniacze. Są to pozycje, które odwracają uwagę od tego co
mierzy test, szczególnie jeśli test jest krótki.
Przyjmowane są też systemy punktacyjne o szerszym zakresie, np. skala o 1-7.
Wynik ogólny testu - Zwykle suma lub średnia odpowiedzi na wszystkie diagnostyczne
pozycje testowe. Cecha, którą test mierzy ma wpływ na odpowiedź w teście.
Argumenty za stosowaniem wielu zadań:

• Pomiar ilościowy – różnicowanie osób badanych
• Minimalizacja błędu (czynnika losowego)
• Diagnoza jako efekt współwystępowania wielu zachowań
• Ogólność psychologiczna wyniku testowego a elementarność i konkretność
pozycji testowych.
Pomiar ilościowy
Rozkład wyników testu jest „normalny”, ale większość pozycji dostarcza danych
mierzonych na skali nominalnej.
Poprzez zsumowanie wyników pozycji, wynik ogólny testu odpowiada pomiarowi na
skali przedziałowej.
Błąd pomiaru
Prawidłowa odpowiedź na każdą z pozycji może być odgadnięta lub uzyskana losowo –
pomiar cechy za pomocą jednej pozycji jest obciążony dużym błędem (przypadkowości).
Mało prawdopodobne jest otrzymanie wysokiego wyniku wyłącznie na drodze
zgadywania (prawdopodobieństwo warunkowe wielu losowych sukcesów w przypadku
testu z 10 zadaniami wynosi 0,00098).
Współwystępowanie zachowań
Cecha jest własnością, która uzewnętrznia się w różnych zachowaniach
Współwystępowanie tych zachowań jest specyficzne wyłącznie dla danej cechy
Każda z form zachowania może być charakterystyczna dla wielu cech, ale ich
kombinacja jest specyficzna tylko dla danej cechy
Diagnoza, że dana osoba posiada daną cechę, jest trafna jedynie, gdy wykazuje wszystkie
zachowania, charakterystyczne dla tej cechy.
Każda z form zachowania informuje o specyficznym aspekcie cechy, wszystkie razem –
o cesze jako własności ogólnej.
Każda pozycja testowa bada specyficzną formę zachowania
Wynik ogólny w teście – ogólną tendencję (niespecyficzną, dla określonej sytuacji lub
formy zachowania).
Wynik testu a wynik pozycji:

Wynik testu jest zazwyczaj definiowany jako suma ważonych lub nieważonych wyników
poszczególnych pozycji bądź ich średnia (niektóre pozycje lepiej mierzą daną cechę).
W efekcie wszystkie własności testu jako całości zależą wprost od wyników
poszczególnych pozycji oraz ich interkorelacji.
Wariancja pozycji testowej:

Miara zmienności w rozkładzie wyników otrzymanych podniesione do kwadratu
odchylenie standardowe.
S2 = Ʃ(Xi – M)2/ N
Kowariancja pozycji testu:

Cov 1,2 = r 1,2 S 1S 2
Miara zmienności wyników pozycji testowych, która wynika z ich skorelowania
Liczna wyrażeń kowariancyjnych = k(k-1)/ 2 (k – liczba pozycji testowych)
Wariancja testu:
Uzyskanie dużego zróżnicowania wyników testu (wyrażonego w wariancji testu) jest
celem pomiaru różnicowego.
Wariancja testu jest równa sumie wariancji pozycji oraz ich podwojonych kowariancji
Zadanie 1 2 i
1 S2 1 C 1,2 C 1,i
2 C 2,1 s2 2 C 2,i
i C 1,i C 2,i s i2
Wariancja testu a wariancja pozycji

Nowa pozycja dodana do testu zwiększa wariancję całkowitą, tylko wtedy, gdy wariancja
pozycji nie jest równą zero.
Nie ma sensu dodawania pozycji o zerowej wariancji, wydłuża to test, a różnice między
wynikami testowymi pozostają takie same.
Wariancja testu a interkorelacje pozycji

Nowa pozycja dodana do testu zwiększa wariancję całkowitą, jeśli jej interkorelacje z
innymi pozycjami są dodatnie – generuje duże dodatnie kowariancje.
Dodatnie korelacje oznaczają, że pozycje mierzą tę samą cechę – generują realną, a nie
losową zmienność.
Dodanie pozycji z zerowymi korelacjami zwiększa tylko trochę wariancję całkowitą
(generuje zerowe kowariancje)
Dodanie pozycji o ujemnych korelacjach z innymi pozycjami obniża wariancję całkowitą
(ujemne kowariancje).
Moc dyskryminacyjna
Stopień, w jakim dana pozycji testowa różnicuje badaną populację – umożliwia
różnicowanie między osobami z niskimi i wysokimi wynikami ( różnica w poziomie
poprawnych odpowiedzi na daną pozycję testową)
Pozwala ocenić na ile dana pozycja mierzy tę samą cechę, która jest mierzona przez cały
test.
Zwykle obliczana jako korelacja między pozycją testu a jego wynikiem ogólnym, z
wyłączeniem tej pozycji (niższa niż z jej uwzględnieniem)
Współczynniki mocy dyskryminacyjnej

Należy dobrać odpowiedni korelacyjny współczynnik mocy dyskryminacyjnej (w
zależności od skali pomiarowej danego pytania i skali pomiarowej wyniku ogólnego w
teście)
Przyjmuje się, że moc dyskryminacyjna musi mieć wartość > 0,2, aby pozycja była
włączona do skali (około 5% wspólnej wariancji ze skalą)
Wartości mocy dyskryminacyjnej maksymalizują się dla pozycji o przeciętnej trudności.
Rozkład wyników testu

Charakterystyka testu jako całości zależy od charakterystyki pozycji.
Wady pozycji (lub ich niewłaściwa kompozycja) decydują o wadach rozkładu wyników
oraz zaburzeniu relacji między wynikami testu a nasileniem cechy.
Własności pozycji testu doskonałego

Test doskonały powinien zawierać pozycje o identycznych właściwościach
statystycznych (średnich, wariancjach oraz korelacjach z innymi pozycjami)
W takim wypadku wszystkie pozycje byłyby diagnostycznie równoważne (wnosiłby tę
samą wariancję do wyników testu), a rozkład wyników testu byłby normalny (skala
pomiarowa: ciągła i prostoliniowa).
Rozkład wyników: test powinien zawierać wiele pozycji, własności pozycji wyznaczają
podstawowe charakterystyki rozkładu wyników testu. Rozkład wyników powinien być
normalny, tylko taki test pozwala na przyjęcie założenia o liniowej relacji między
wynikami testu a „latentną” cechą.
Jakie pozycje powinny zostać włączone do testu?

Średnia pozycji nie powinna osiągnąć wartości ekstremalnej w danej skali punktowej
(wszyscy uzyskali ten sam wynik).
Najlepiej gdy średnia pozycji leży w środku danej skali pomiarowej.
W testach zdolności wprowadza się pozycję o zróżnicowanej średniej.
Jakie pozycje powinny zostać włączone do testu?

Wariancja pozycji nie powinna być różną zero (nie rejestruje różnic)
Najlepiej, gdy pozycja ma dużą wariancję wyników (>0,2)
Pozycja powinna wykazywać dodatnie skorelowanie z innymi pozycjami testu
Interkorelacje z innymi pozycjami powinny być dodatnie, ale niezbyt silne. Zbyt duża
zgodność odpowiedzi prowadzi do uzyskania rozkładu platykurtycznego.
Rzetelność testu
Rzetelność – dokładność pomiaru cechy badanej przez test. Stopień w jakim wyniki testu
odzwierciedlają faktyczne nasilenie cechy psychologicznej.
Ma dwa aspekty:
• stabilność pomiaru – powtarzalność wyników badania
• konsystencje – precyzję pomiaru
Błąd pomiaru – nie istnieje pomiar bez błędu (w badaniach naukowych, w ocenach
prywatnych); Im większy błąd, tym mniejsza rzetelność pomiaru danym narzędziem.
Błąd obniża precyzję pomiaru cechy – w miejsce wyniku prawdziwego osoba badana
uzyskuje wynik zniekształcony przez błąd.
Źródła błędu pomiaru
• Konstrukcja testu, dobór specyficznych treści (samo sąsiedztwo może
nakierowywać na odpowiedzi)
• Czynniki związane z osobą badaną, np. obecność/ nieobecność w trakcie badania,
umiejętność nawiązywania kontaktu.
• Krótkotrwałe lub chwilowe czynniki indywidualne, np. stan zdrowia, stan
emocjonalny, zmęczenie, koncentracja uwagi, motywacja, lęk przed testowaniem.
• Czynniki sytuacyjne, np. obecność innych ludzi, hałas, temperatura.
• Sposób oceny wyników, np. niedokładne kryteria oceny wyników, błędy przy
zliczaniu wyników (źle przyłożony klucz)
Błąd jako czynnik losowy

Jest efektem wpływu wielu niekontrolowanych i nieprzewidywalnych czynników
(wewnętrznych i zewnętrznych)
Kombinacja tych czynników jest tak zawikłana, że przyjmuje się , ze błąd ma charakter
losowy.
Teorie rzetelności pomiaru:

Dwa modele psychometryczne opisują błąd pomiaru i rzetelność pomiaru:
• Klasyczna teoria testów (Gulliksen, 1950; Lord i Novick, 1968)
• Teoria odpowiedzi na pozycje testowe (IRT – Item Response Theory).
Klasyczne teorie testów – twierdzenia:

• Wynik otrzymany w teście jest efektem:
• czynników, które wpływają na konsystencję zachowania, czyli cechy
psychologicznej,
• czynników, które wpływają na niespójność zachowania – zmienne te
wyznaczają reakcje osoby badanej, ale nie mają nic wspólnego z badaną
cechą.
• Wynik obserwowany (otrzymany) w teście (X) jest efektem dwóch czynników:
• Wyniku prawdziwego (T – true score) – średni wynik, jaki badana
otrzymałaby w nieskończenie wielu badaniach tym testem;
• Błąd pomiaru (E – error) – może porzyjmować wartości dodatnie lub ujemne
X = T+E
• Założenie 1: ME = 0
• średnia błędów pomiaru jest równa zero
• wszystkie błędy, jakie otrzymalibyśmy badając tym testem tę samą osobę
nieskończenie wiele razy, mają rozkład normalny.
• Błąd w pomiarze testowym ma charakter losowy – mało przewidywalny
• Założenie o braku obciążenia narzędzia pomiarowego
• Założenie 2: rTE = 0
• wynik prawdziwy i błąd pomiaru nie są skorelowane
• Założenie o niezależności
• Założenie 3: r E1E2 = 0
• Błędy różnych pomiarów nie są skorelowane
• Skoro błąd pomiaru ma charakter losowy, to nie ma związku między błędami
otrzymanymi w dwóch kolejnych badaniach
• Twierdzenie 2: MX = MT+ME = Mr
• średnia wyników otrzymanych jest równa średniej wyników prawdziwych
testu.
• Średnia wyników otrzymanych nie jest zniekształcona przez błąd, bo ME=0
• Twierdzenie 3: Sx2 = Sr2+SE2
• wariancja (zmienność) wyników otrzymanych jest równa sumie wariancji
wyników prawdziwych oraz wariancji błędu (Sx2 = Sr2+SE2 = 2covTE).
• Nie ma kowariancji pomiędzy wynikami prawdziwymi oraz błędem
(założenie 2)
• Wariancja wyników otrzymanych jest zniekształcona przez błąd
• Twierdzenie 4:
• rtt= ST2/ Sx2 lub rtt = 1 – SE2/ Sx2
• Rzetelność pomiaru testem to stosunek wariancji wyniku prawdziwego do
wariancji wyniku otrzymanego
• lub stosunek wariancji błędu do wariancji wyników otrzymanych
odejmowany od jedności
• Współczynnik rzetelności wskazuje na zakres w jakim różnice indywidualne
w wynikach testowych można przypisać prawdziwym różnicom w zakresie
badanej cechy, a w jakim – błędem losowym. Współczynnik rzetelności waha
się od 0 do 1.
Wynik prawdziwy jest nieobserwowalny więc:

• nie można obliczyć rzetelności, można jedynie oszacować jej wartość
• każde oszacowanie jest odmienną próbą oceny udziału wariancji wyniku
prawdziwego w wariancji wyniku otrzymanego.
Rzetelność testu:
rtt = rx1x2
• korzystając z założeń klasycznej teorii testów można przekształcić wzór na
rzetelność pomiaru
• Estymacja rzetelności – korelacja wyników otrzymanych przez tę samą grupę
osób w dwukrotnym badaniu tym samym testem.
• Twierdzenie 5:
SEM = Sx
• Standardowy błąd pomiaru wyniku otrzymanego (SEM)
• Jest to odchylenie standardowe rozkładu wyników badania danej osoby
nieskończenie wiele razy lub badania danej osoby nieskończoną liczbą testów
równoległych (granice w jakich może lokować się faktyczny wynik osoby
badanej)
• Średnia tego rozkłady stanowi wynik prawdziwy, a odchylenie standardowe –
standardowy błąd pomiaru
SEM a SEE
• Lord i Novick zaproponowali inne niż Guliksen rozumienie SEM - SEE
• Standardowy błąd estymacji (SEE) wyniku otrzymanego, który jest zależny od
wyniku prawdziwego.
• Ma rozkład symetryczny wokół estymowanego wyniku prawdziwego i
niesymetryczny wokół wyniku otrzymanego ( jest symetryczny dla wyników
średnich i skośny dla wyników skrajnych)
• W praktyce bardziej zachowawcze jest stosowanie SEM a różnica jest niewielka:
SEE = SEM
Interpretacja standardowego błędu pomiaru wyników otrzymanych

• SEM wskazuje zakres wyników, w obrębie którego lokuje się wynik prawdziwy
osoby badanej (z określonym prawdopodobieństwo)
• Jest identyczny dla wszystkich osób badanych (niezależnie od wyniku
otrzymanego)
• Jest stosowany do wyznaczania przedziału ufności Zα/2 dla wyniku prawdziwego z
określoną pewnością (99%, 45% czy 85%).
Wyznaczanie przedziału ufności:

• W celu wyznaczenia przedziału ufności należy wyznaczyć półprzedział, tzn.
standardowy błąd pomiary przemnożyć przez wartość:
• 2,58 (99%)
• 1,96 (95%)
• 1,44 (85%)
• Narzędzie dodać i odjąć od wyniku otrzymanego granice wyznaczonego
przedziału ufności.
Zastosowanie standardowych błędów pomiaru

• Do wyznaczenia granic przedziału ufności wokół wyniku otrzymanego i
przedziałowej estymacji wyniku prawdziwego ( w zakresie którego mieści się – z
określoną pewnością wynik prawdziwy osoby badanej)
• Do porównania wyniku danej osoby z normą (średnią w grupie) czy inną
wartością (np. wynikiem progowym).
• Do porównania wyników dwóch osób (różnice interindywidualne) badanych tym
samym testem (czy różnica jest realna – wynika z cechy czy jest spowodowana
przez błąd)
• Do porównania wyników danej osoby (różnice intraindywidualne) badanej
dwoma testami (czy różnica jest realna – wynika z cechy czy jest spowodowana
przez błąd).
RODZAJE OSZACOWAŃ RZETELNOŚCI:
1. Zgodność test-retest / stabilność bezwzględna – dwukrotne badanie tej samej grupy

osób tym samym testem w dwóch różnych momentach czasu
→ zał.: wartości badanej zmiennej nie ulegają zmianie w czasie
→ czynniki zakłócające: wprawa, doświadczenie, zapamiętanie
→ miara rzetelności: współczynnik korelacji
→ odstęp czasowy: kilka tygodni – kilka miesięcy
→ czynniki wpływające na stabilność czasową:
• zgodność wew. skal → wyższa stabilność dla bardziej rzetelnych skal
• liczba pozycji w skali → większa stabilność dla dłuższych skal
• długość przerwy → wyższa stabilność przy krótszej przerwie
• wiek osoby badanej podczas pierwszego badania → wyższa dla osób starszych
→ standard: współczynnik stabilności ok. 0,50 otrzymany po upływie roku
* Dwukrotne badanie tym samym testem – metoda estymacji wiarygodności testu →

badanie tej samej grupy ponownie, zaraz po zakończeniu pierwszego badania
• ocena chwilowych i związanych z badanym czynników zakłócających pomiar np.
zmęczenie, fluktuacja uwagi
2. Metoda wersji równoległych testów – badanie tej samej grupy osób dwoma różnymi
wersjami tego samego testu
• wersje równoległe – narzędzia badające dokładnie to samo i w ten sam sposób ale
treści pozycji są inne
→ równoważność i trudność pozycji
→ służą do porównywania wyników osiągniętych przez te same osoby w dwóch
pomiarach
• Idea testu równoległego – spełnienie 4 kryteriów:
• równe średnie wyników otrzymanych dla obu wersji
• równe odchylenia standardowe
• te same interkorelacje pozycji
• takie same korelacje wyników otrzymanych z zewnętrznym kryterium
• miara rzetelności: współczynnik korelacji oby testów równoległych –
równoważność międzytestowa
• szacowanie stabilności względnej – możliwość badania z przerwą czasową; dwa
testy równoległe
STABILNOŚĆ BEZWZGLĘDNA STABILNOŚĆ WZGLĘDNA

• Badanie 2 razy tym samym testem • Badanie dwoma rożnymi wersjami testu
ZALETY METODY: minimalizowanie efektu zapamiętywania

WADY: możliwość nabywania wprawy i uczenia się; mała ekonomiczność przy
tworzeniu 2 wersji testu
3. Metoda zgodności połówkowej – jednokrotny pomiar jednym testem; korelacja między

parami wyników równoważnych połówek testu
• ocenianym źródłem błędu są różnice między połówkami dotyczącymi
specyficznej treści pytań
• oszacowanie współczynnika rzetelności: korelacja między dwoma połówkami
testu → współczynnik równoważności międzypołówkowej
• sposoby podziału:
• parzyste-nieparzyste
• równoważna zawartość treściowa
• dobór losowy
• NIE DZIELIMY W POŁOWIE TESTU
• oszacowanie rzetelności testu o połowę krótszego niż którego rzetelności chcemy
zbadać
→ poprawka Spearmana-Browna na zredukowaną długość testu – oszacowuje jaka
byłaby korelacja między dwoma połówkami testu gdyby każda połówka miała długość
całego testu
4. Metoda zgodności wewnętrznej przy podziale testu na wiele części

• max. liczba części na jakie można podzielić dany test jest równa liczbie jego
pozycji testowych
• zał: równoległość wszystkich części
• wzór Kudera-Richardsona KR20 – wzór szacowania zgodności wewnętrznej →
używany w przypadku dwukategorialnych formatów odpowiedzi
• alfa Cronbacha jest uogólnieniem KR20 dla kwestionariuszy składających się z
pozycji o większej liczbie możliwych odpowiedzi
→ wzrost liczby pozycji – wzrost alfa
→ zalety: wystarczy jeden pomiar i jedno narzędzie
→ wady: test musi składać się z pozycji równoległych
5. Zgodność ocen sędziów – stopień zgodności pomiędzy dwoma lub więcej ocenami
przypisanymi przez sędziów kompetentnych
• stosowana rzadko, zazwyczaj w przypadku narzędzi gdzie odpowiedzi osoby
badanej podlegają swobodnej ocenie diagnosty
• źródło wariancji błędu: niedostatki pracy diagnosty lub klucza
• w celu oceny zgodności kilku zestawów ocen tego samego materiału oblicza się
różne współczynniki zgodności sędziów:
• procent zgodności sędziów
• proporcja zgodnych kategoryzacji Holstiego
• Pi Scotta
• Kappa Cohena
• Alfa Kripendorfa
• W Kendalla
testy zgodności → m. połówkowe

inwentarze osobowości → alfa, KR20
testy szybkości → test-retest, m. testów równoległych
6. Interpretacja wartości współczynnika rzetelności:

• rg > 0,90 – bardzo rzetelny pomiar, stosowaniew badaniach naukowych i
diagnozie indywidualnej
• 0,80-0,90 – rzetelny, badania naukowe i diagnoza która będzie mniej precyzyjna
• 0,70-0,80 – przeciętna rzetelność, badania naukowe
• 0,60-0,70 – rzetelność niska; stosowanie warunkowo w badaniach naukowych
• 0,50-0,60 – rzetelność wątpliwa
• 0,50 – absolutna wartość minimalna
Podstawowe aspekty trafności:

Kryterialna – ocena na podstawie zewnętrznego kryterium czy osoba posiada lub będzie
posiadać pewną cechę:
• trafność prognostyczną
• Trafność diagnostyczna
Treściowa (wewnętrzna) całokształtu zachowań, których próbkę pobiera test, czy
narzędzie pomiarowe pokrywa cały obszar problemowy mierzonego konstruktu.
Teoretyczna – pomiar nasilenia teoretycznej właściwości, czyli konstruktu, o którym
mają świadczyć odpowiedzi tekstowe.
Trafność kryterialna
Wyznaczana przez stopień zgodności dwóch pomiarów:
• wyników testowych
• zmiennej kryterialnej (zewnętrznego kryterium)
Miarą trafności kryterialnej – korelacja między kryterium (istniejącym teraz bądź w
przyszłości) a wynikami testu.
Kryterium
Jest to zachowanie czy właściwość, o której chcemy wnioskować z wyniku ocenianego
testu.
Kryterium jest zewnętrzne w stosunku do testu.
Jest pomiarem innej zmiennej niż ta, którą mierzy test.
Przykłady: efektywność pracy zawodowej, stopnie szkolne, diagnoza psychiatryczna lub
psychologiczna, oceny sędziów, miary psychofizjologiczne, wyniki innych testów.
Trafność kryterialna:
Kryterium musi być rzetelne i trafne raz adekwatne z punktu widzenia tego, co mierzy
test.
Problem kontaminacji („skażenia”) kryterium – np. sędzia oceniający wynik osoby
badanej w kryterium zna jej wynik w teście.
Wyniki testowe nie mogą pływać na pozycję jednostki w zakresie badanego kryterium.
Trafność prognostyczna
Kryterium jest pomiar zachowania mającego wystąpić w przyszłości u osoby badanej.
Ważna, gdy chcemy przewidywać jakieś wyniki.
Trafność diagnostyczna
Kryterium jest pomiar zachowania aktualnego u osoby badanej.
Poprawki na obniżenie trafności

Zarówno kryterium jak i test, którego trafność chce się określić mają swoją rzetelność
różną od 1.
Trafność kryterialna – poprawka na nierzetelność kryterium

rs-k = rkt/ pierwiastek rtt-k
Poprawka na nierzetelność kryterium i testu
rs-kt = rkt/ pierwiastek rtt-k*rtt-t.
Rtt-t -współczynnik rzetelności testu
rsk-kt – skorygowany współczynnik korelacji
rst – współczynnik korelacji przed skorygowaniem
rtt-k – współczynnik rzetelności kryterium.
Trafność kryterialna – dane z metaanaliz

Testy zdolności – korelacje
• ok 0,5 ze wskaźnikami efektywności pracy
• ok. 0,5 z osiągnięciami szkolnymi
• 0,7 – szkoła podstawowa
• 0,5 – szkoła średnia
• 0,3 – szkoła wyższa
Skale osobowości – korelacje
• ok.0,3 ze wskaźnikami efektywności pracy
• ok. 0,5 z diagnozą kliniczną (psychiatryczną).
Trafność treściowa (wewnętrzna)

Jest to zakres w jakim pozycje testowe reprezentują uniwersum pozycji lub interesujący
nas konstrukt.
Czy próba pozycji testowych jest reprezentatywna dla populacji pozycji testowych.
Ograniczenia: test pokrywa tylko część zakresu treściowego badanego konstruktu; test
pokrywa oprócz pełnego zakresu badanego konstruktu także treści z nim nie związane;
test pokrywa część zakresu treściowego badanego konstruktu oraz częściowo treści z nim
nie związane.
Sytuacja idealna – wysoka trafność treściowa testu.
Konieczne jest określenie uniwersum, czyli pełnego zakresy dziedziny, której ma
dotyczyć test.
W tym celu konieczne jest dobre zdefiniowanie mierzonego konstruktu.
Trafność treściowa dotyczy adekwatności materiału testowego i odpowiedniego jego
zakresu.
Jest wstępnym aspektem analizy trafności teoretycznej.
Etapy oceny trafności treściowej (sytuacja konstruowania testu).

• Precyzyjna definicja cech (konstruktu) oraz porównanie z innymi konstruktami
teoretycznymi.
• Opis aspektów cechy (podwymiarów cechy) – cecha, jak i jej podwymiary
powinny mieć budowę hierarchiczną i być precyzyjnie zdefiniowane.
• Ocena liczby pozycji w każdym podwymiarze oraz w teście jako całości (każdy
podwymiar powinien być reprezentowany w całym teście i obejmować zbliżoną
liczbę pozycji).
• Ocena pozycji w każdym z podwymiarze oraz w całym teście przez grupę
ekspertów na skalach ocen (trafność treściowa) lub przez grupę osób badanych
(typowość). Współczynnik zgodności ocen sędziów.
Ocena trafności treściowej pozycji:

Ocena przez sędziów kompetentnych czy dana pozycja testowa:
• ma zasadnicze znaczenie dla testu
• jest użyteczna, ale nie ma zasadniczego znaczenia,
• nie powinna znaleźć się w teście
Jeżeli więcej niż połowa sędziów uzna daną pozycję za istotną dla testu, można przyjąć,
że jest ona trafna treściowo.
Trafność teoretyczna
Stopień, w jakim test mierzy założony konstrukt teoretyczny.
Nazwa narzędzia wcale nie musi być jednoznaczna z tym, co to narzędzie mierzy.
Popularność danego narzędzia również nie gwarantuje trafności.
Powinno się stosować wiele różnych oszacowań tego typu trafności. Nie istnieje jedno
oszacowanie trafności teoretycznej, takie jak np. współczynnik korelacji.
Oszacowanie trafności teoretycznej polega na formułowaniu hipotezy wyprowadzonych z

teorii psychologicznej i weryfikowaniu ich w badaniach empirycznych.
Ustalenie trafności teoretycznej:

Analiza różnic międzygrupowych
Analiza macierzy Wielu Cech – Wielu Metod (macierz WCWM)
Analiza zmian nieprzypadkowych
Analiza procesu rozwiązywania testu
Analiza struktury czynnikowej testu.
Trafność fasadowa:
Jak test jest postrzegany przez osoby badane – co test wydaje się mierzyć.
Osoba badana wierzy, że test rzeczywiście mierzy to, co jej się wydaje.
Trafność fasadowa powiązana jest z motywacją badanych.
Nie jest to prawdziwy rodzaj trafności, a raczej sposób, w jaki badani reagują na test.
Trafność teoretyczna testu

Trafność teoretyczna:
Stopień w jakim test mierzy założony konstrukt teoretyczny
Zawiera w sobie inne aspekty trafności
Powinno się stosować wiele różnych oszacowań tego typu trafności Nie istnieje jedno
oszacowanie trafności teoretycznej takie jak np. współczynnik korelacji.
Oszacowanie trafności teoretycznej polega na formułowaniu hipotez wyprowadzonych z
teorii psychometrycznej i weryfikowaniu ich w badaniach empirycznych.
(między zmiennymi latentnymi zachodzi zależność teoretyczna)
Teoria powinna opisywać:

• wewnętrzną strukturę konstruktu.
• Sposób powiązania konstruktu z jego wskaźnikami,
• związki konstruktu z innymi zmiennymi
Wyprowadzone z teorii hipotezy poddaje się weryfikacji.
Ustalanie trafności teoretycznej

Analiza różnic międzygrupowych
Weryfikacja hipotez dotyczących zachowania się grup różniących się ze względu na
poziom mierzonej cechy. Przykład: skale inteligencji ogólnej, Skala Siły Ego.
Analiza macierzy Wielu Cech – Wielu Metod (macierz WCWM)

• Analiza macierzy korelacji (macierz WCWM) – korelacje wyników
analizowanego testu z innymi testami
• Pomiar kilku cech przy użyciu kilku narzędzi.
• Aspekt zbieżny i różnicowy trafności.
Aspekt zbieżny trafności:
• trafność konwergencyjna
• wysokie korelacje z innymi metodami mierzącymi podobne cechy
• Przykład: Ekstrawersja mierzona EPQ-R.
Aspekt różnicowy trafności:
• trafność dywergencyjna
• niskie korelacje z metodami mierzącymi odmienne cechy.
Macierz korelacji umożliwiających ocenę trafności teoretycznej, w której jednocześnie
uwzględniono aspekt zbieżny i różnicowy trafności.
Założenie: W każdej z szeregu cech mierzona jest przy użyciu więcej niż jednej metody.
W idealnej sytuacji każda cecha powinna być mierzona przy zastosowaniu każdej z
metod.
Rodzaje korelacji w macierzy WCWM:
• Pomiędzy skalami mierzącymi różne cechy w obrębie tej samej metody (różne
cechy, ta sama metoda)
• Pomiędzy skalami mierzącymi te same cechy, ale za pomocą różnych metod (te
same cechy, różne metody)
• Pomiędzy skalami mierzącymi różne cechy za pomocą różnych metod (różne
cechy, różne metody)
Wymóg trafności zbieżnej
Korelacje pomiędzy różnymi metodami badających te same cechy (te same cechy, różne
metody) powinny być co najmniej przeciętne (istotne statystycznie).
Wymóg trafności różnicowej
Korelacje skal różnych metod badających te same metody powinny być wyższe niż:
• korelacje skal mierzących różne cechy, za pomocą tej samej metody (różne cechy,
ta sama metoda)
• korelacje skal mierzących różne cechy, za pomocą różnych metod (różne cechy,
różne metody).
Ten sam konstrukt i ta sama metoda – rzetelność
ten sam konstrukt i inna metoda – trafność zbieżna
różne konstrukty i taka sama metoda – trafność różnicowa
różne konstrukty i różne metody – trafność różnicowa!!!
Analiza zmian nieprzypadkowych
Porównanie wyników dwóch badań między którymi wprowadza się oddziaływanie
eksperymentalne związane z cechą.
Najczęściej tego typu manipulacją jest np. kształcenie lub terapia.
Problemem jest odpowiednie zaplanowanie eksperymentu.
• Zmiany rozwojowe – wyniki testów zdolności pwinny wskazywać systematyczną
tendencję wzrostową wraz ze wzrostem wieku w dzieciństwie oraz tendencję
regresywną w dorosłości.
• Wyniki niektórych skal osobowości powinny wykazywać zmiany z wiekiem –
aktywność temperamentalna powinna systematycznie maleć wraz z wiekiem, z
uwagi na malejące zasoby energii.
Analiza procesu rozwiązywania testu

Polega na analizowaniu zadań z punktu widzenia przetwarzania informacji
Obserwuje się kolejność wykonania, pomijanie elementu, czas poświęcony na
rozwiązanie poszczególnych zadań, popełnianie błędy
Stosuje się także technikę dekompozycji zadania polegającą na manipulowaniu cechami
zadania.
• Testy zdolności – eksperymenty z manipulowaniem złożonością zadań.
• Skale osobowości - „analiza protokołów” w celu identyfikacji czynników
wpływających na udzielanie odpowiedzi na pozycje.
Analiza struktury czynnikowej testu.

Trafność teoretyczna testu oceniana za pomocą analizy czynnikowej:
• Eksploracyjnej (EFA) – empiryczna klasyfikacja pytań;
• Konfirmacyjna (CFA) – porównanie modelu teoretycznego do danych – analiza
dobroci dopasowania modelu do struktury danych testowych.
Czy otrzymane dane empiryczne są zgodne z teoretycznie zakładaną strukturą testu?
Identyfikacja wymiarów:
Wymiary:
• liczba skal potrzebnych do opisania właściwości jakiegoś przedmiotu, np.
pudełko: długość, szerokość, głębokość.
Analiza czynnikowa:
Dzięki analizie czynnikowej można znaleźć wymiary opisujące dane zjawisko.
Stosowana przede wszystkim przy testach wieloskalowych.
Pozycja powinna wysoko korelować z własną skalą i nisko z innymi skalami (pozycja
powinna mierzyć określoną treść psychologiczną i jednocześnie nie mierzyć innych
treści).
Relacja między trafnością i rzetelnością

Trafność – ma mierzyć to co ma mierzyć
Rzetelność – jak mierzy to co ma mierzyć.
EFA - Metoda służąca odnajdywaniu struktury danych w zbiorze zmiennych losowych

Dzięki analizie czynnikowej można znaleźć wymiary opisujące dane zjawisko, np. jakie
można wyróżnić typy depresji, poczucia kontroli, itp.
Pozycja powinna wysoko korelować z własną skalą i nisko z innymi skalami (może
mierzyć określoną treść psychologiczną i jednocześnie nie mierzyć innych)
Analiza czynnikowa:
EFA – empiryczna klasyfikacja pozycji
CFA – porównanie modelu teoretycznego danych – analiza dobroci dopasowania modelu
do struktury danych testowych.
Konfirmacyjna analiza czynnikowa
Testowanie hipotez wyprowadzonych z teorii zjawiska wskazujących, że dana zmienna
ukryta jest wyrażona przez określony zestaw zmiennych obserwowalnych. Testujemy
kilka modeli i wybieramy ten, który najlepiej pasuje do danych.
Możliwość porównania różnych modeli (możemy budować modele alternatywne).
Jest rodzajem równań strukturalnych.
Równania strukturalnych – SEM – trzy odmiany:

• Analiza ścieżek – uwzględnia różne czynniki (główne, np. 3 zmienne), które mają
wpływ na zmienną zależną, uwzględnia również błąd – czynnik zakłócający,
który również może wpłynąć na zmienną zależną. Pomiędzy czynnikami można
sprawdzić korelację i jak one wpływają na siebie.
• Konfirmacyjna analiza czynnikowa
Zmienna obserwowalna 1
Zmienna obserwowalna 2
Modelujemy zmienne latentne korzystając ze zmiennych obserwowalnych
• Modele strukturalne
Inne zmienne latentne mają wpływ na inne zmienne latentne – oznacza to, że nie
mierzymy ich wprost.
Zmienne obserwowalne (zachowania testowe)

z1
z2
z3
z4
z5
z6
Strzałki oznaczają, że cecha wpływa na zmienną. WOW!
Miary dopasowania modeli:

• chi2, p>0,05 (nie różni się istotnie od macierzy danych)
• RMSEA <_0,05 – im mniejsza wartość tym lepiej.
• Jeżeli jest mniejszy niż <0,8 to jest akceptowalny.
• GFI – goodness of fit index >0,9
• NFI Normed Fit Index >0,9
• CFI Confirmed Fit Index >0,9
Po co potrzebne są normy?
Jak ocenić czy uzyskany wynik testowy jest wysoki czy niski?
Jak porównać dwa wyniki tekstowe? O ile się różnią.
NORMY
Norma empiryczna
Jest to sposób określania podobieństwa osób badanych do grup odniesienia
Standard ilościowy, wyznaczony przez liczbę osób uzyskujących dane wyniki lub przez
średnią, medianę, czy inną miarę tendencji centralnej obliczoną dla przedstawicieli danej
grupy.
Normy:
• Normy równoważnikowe:
• Normy rozwojowe – pozwalają określić jak daleko na drodze normalnego
rozwoju znajduje się dana osoba
Pokazują opóźnienie lub przyśpieszenie w stosunku do rówieśników
Tzw. równoważniki: wieku, klasy
Równoważniki wieku – liczby lat i miesięcy odpowiadające średniemu poziomowi
wykonania testu na danym poziomie rozwoju.
Wiek umysłowy – poziom, z którego zadania udało się dziecku rozwiązać:
• spopularyzowane przez Bineta i Simona
• zadania łączone w grupy odpowiadające poziomowi wieku
• szacowany na podstawie średniego wyniku w grupie wiekowej.
Równoważnik klas szkolnych – liczby wskazujące na rok i miesiąc nauczania w roku
szkolnym odpowiadającym średniej dla dzieci na danym poziomie rozwoju
Można je testować tylko w odniesieniu do przedmiotów, które są nauczane rzez całą
szkołę (a takich jest mało).
Krytyka norm równoważnikowych
Zakładają związek liniowy między mierzoną właściwością a wiekiem, co jest niezgodne
z prawdą.
Normy te mogą być niejasne – uważane za opis zakresu wymagań
Nie można porównywać wyników osób w różnych obszarach, np. wiek umysłowy 8 lat
nie oznacza, że dziecko zachowuje się jak 8-latek pod względem funkcjonowania
społecznego.
• Normy typu rangowego
• Centyle:
Jaki procent ma wyniki niższe od uzyskanego
Określają względne położenie osoby w grupie standaryzacyjnej
Mają rozkład prostokątny (każdy wynik jest jednakowo podobny).
Jest skalą typu rangowego, więc odnosi się do Mediany = 50.
Liczba jednostek skali = 101 <0; 100>
Skok skali = 1 centyl (1% wyników, tylko centyle krańcowe 0 i 100 obejmują po 0,5%
obserwacji)
Krytyka norm centylowych
Skala centylowa nie odzwierciedla kształtu rozkładu – wszystkie wartości zmiennej mają
jednakowe prawdopodobieństwo
Prowadzi do przecenienia wielkości różnic pośrodku, a niedoceniania ich na krańcach
rozkładu.
Oddaje dobrze uporządkowanie osób na skali, ale nie oddaje względnych różnic między
nimi.
• Normy typu standardowego
Sposób tworzenia skal standardowych
Jeśli rozkład wyników testu jest rozkładem normalnym, wyniki surowe przekształca się
na wyniki standardowe „Z”
z = x – odchylenie standardowe / SD
Jeśli rozkład nie jest normalny – wymaga wcześniej przekształcenia.
• Skala jednostek znormalizowanych „z”
Rozkład po transformacji wyników surowych jest normalny (ciągły)
średnia = 0
SD = 1
Skok w skali = praktycznie = 1.0
Różnicowanie = dowolny zakres
Przeznaczenie - skala podstawowa, stanowiąca punkt wyjścia do transformacji wyników
surowych na inne skale znormalizowane.
Interpretacja wyników skali „z” - 2 i poniżej – b. niskie.
Skala „z” jest nieco kłopotliwa, dlatego używa się innych skal, tzw. skal
niestandardowych.
• Skala Tenowa
zakres od -5 do +5 S skali „z”
101 jednostek (0 do 100 punktów).
M = 50
SD =10
• Skala ilorazów inteligencji IQ
Skok skali = 1/15 odchylenia standardowego jednostek znormalizowanych.
Zakres od -6 do +6 S skali „z”; 201 jednostek IQ <0;200>
• Skala staninowa
Zakres od -2 do +2 S skali „z”
9 jednostek (1 do 9 pkt)
M =5, SD = 2
Skok skali = 1 stanin (0,5 odchylenia standardowego jednostek znormalizowanych).
• Skala stenowa
Zakres <-2,25; 2,25> SD skali „z”
10 jednostek (1; 10pkt)
Skok skali = 1 sten (0,5 odchylenia standardowego jednostek znormalizowanych „z”).
Skala stenowa to przekształcenie wyników standaryzowanych „z” w odniesieniu do
grupy normalizacyjnej.
Przekształcanie wyników skali „z” na inne skale standardowe.

y = zSy + My
y – wynik w znormalizowanej skali standardowej
z – znormalizowany wynik standardowy
Sy – odchylenie standardowe skali standardowej
My – średnia wyników danej skali standardowej
Kryteria wyboru skali normalizacyjnej

• Kształt rozkładu wyników surowych (reguła: rozkłady skośne – skale prostokątne
• Liczba stopni skal w stosunku do zakresu rozkładu wyników surowych (reguła:
dla krótkich testów krótkie skale)
• Rzetelność pomiaru i wielkość standardowego błędu pomiaru (reguła: gdy SEM
duży – raczej skala o mniejszej liczbie wartości)
• Przeznaczenie - różnicowanie w obrębie normy czy patologii (reguła:
różnicowanie w obrębie patologii – skala o większym zakresie)
Normy a grupa odniesienia

• Z wynikami jakiej grupy porównujemy otrzymany wynik?
• Reprezentatywna próba dla danej populacji
• Zwykle dobierana:
• warstwowo – podział populacji na warstwy biorąc pod uwagę istotne
zmienne, losowanie z warstw
• kwotowo – maksymalne podobieństwo do populacji wyjściowej
• Informacje o próbie są zawarte w podręczniku testowym
Próba normalizacyjna
• Normy ogólnokrajowe
• stosowane we wszystkich typach testów
• umożliwiają porównywanie z wynikami reprezentującymi populację
• nie zawsze są potrzebne, czasem bardziej interesujące jest to, jak osoba
wypada na tle konkretnej grupy
• Normy lokalne
• odwołują się do wyników w konkretnych grupach
• są wykorzystywane do realizacji jasno określonych i zdefiniowanych celów
• np. średnie wyniki z danego przedmiotu na danym roczniku studiów
Zakres stosowania norm:

• Wynik testu nie jest miarą bezwzględną dającą się uogólnić na wszystkie
okoliczności, zależy m.in. od zastosowanej normy – grupy odniesienia
• Normy starzeją się
• przed zastosowaniem testu należy sprawdzić rok opracowania norm.
Testy zorientowane na standard wykonania

w testach zorientowanych na standard wykonania nie grupa normalizacyjna jest punktem
odniesienia, ale arbitralnie określony zakres wymagań.
Konstruowanie testu
Strategie konstruowania testu:

• teoretyczna (dedukcyjna)
Opiera się na teorii psychologicznej, celem konstrukcji jest pomiar cech postulowanych
przez teorię
Kluczowym etapem konstrukcji jest analiza definicji cech
Odwołuje się do danych z prób reprezentatywnych
Kryterium włączania pozycji do skali mogą być: trudność pozycji, moc dyskryminacyjna.
Powstałe narzędzia cechuje wysoka trafność teoretyczna i często wysoka trafność
kryterialna.
Wadą tak zbudowanego testu jest wzajemne skorelowanie skal.
• kryterialna (zewnętrzna)
Opiera się na ogólnej wiedzy psychologicznej, nie na konkretnej teorii psychologicznej,
celem konstrukcji jest pomiar „syndromów zachowania”
Kluczowym etapem konstrukcji jest empiryczny dobór wskaźników.
Odwołuje się do danych z prób dobranych celowo
Kryterium włączania pozycji do skali to korelacja pozycji z zewnętrznym kryterium.
Powstałe narzędzia cechuje wysoka trafność kryterialna
Często takie testy są nisko rzetelne i zbyt długie.
• wewnętrzna (indukcyjna)
Opiera się na metodologii, a nie na wiedzy i teorii, celem konstrukcji jest identyfikacja
podstawowych wymiarów zachowania, a przedmiotem pomiaru są cechy.
Kluczowym etapem konstrukcji jest empiryczny dobór wskaźników (analiza
czynnikowa)
Odwołuje się do danych z prób reprezentatywnych
Kryterium włączania pozycji do skal może być ładunek czynnikowy
Powstałe skale są oszczędne i trafne teoretyczne
Wadą zbudowanych skal jest ich nadmierna jednorodność i ogólność.
Porównanie strategii konstrukcji testów:
Dostępność teorii psychologicznej w strategii:
• dedukcyjna – teoria
• kryterialna – wiedza
• indukcyjna – metodologia
Model psychometryczny zastosowany do konstrukcji testu:
- t – analiza pozycji (korelacja pozycja - skala)
- z – analiza pozycji (korelacja pozycja - )
Każda strategia ma swoje wady i zalety - zależne od problemu należy stosować różne
strategie
Łączenia elementów poszczególnych strategii w celu uzyskania narzędzi
maksymalizujących różne rodzaje trafności.
Etapy tworzenia testu:

1. Zdefiniowanie mierzonej właściwości
2. Wybór strategii konstruowania narzędzia
3. Zapisywanie pozycji testowych (wyrzucimy pozycje)
4. Analiza językowa pozycji, ustalenie tematu i klucza odpowiedzi. Przygotowanie
instrukcji i formularza testu
5. Badanie pilotażowe
6. Obliczanie statystyczne – trafność, rzetelność, eliminacja wadliwych pozycji
(wyrzucimy pozycje)
Czy charakter języka psychometrycznego narzędzia jest zadowalająca
7. Ostateczna wersja testu. Normalizacja, przygotowanie testu do publikacji.
1.Zdefiniowanie mierzonej właściwości

• Do pomiaru jakiej właściwości ma być przeznaczony test (np. cechy osobowości,
zdolności)
• Hierarchiczna struktura konstruktu – podwymiary lub składniki definicyjne
• Określenie specyfiki konstruktu (nie tylko aspekt zbieżny, ale i równoważny),
także poprzez hipotezy dotyczące relacji do innych konstruktów.
2. Wybór strategii konstruowania narzędzia

• Do czego ma być przeznaczony test (badania naukowe, diagnoza indywidualna,
poradnictwo zawodowe, klasyfikacja, selekcja)
• Strategia konstruowania zależy od celu do jakiego będzie wykorzystywany test.
3. Zapisywanie pozycji testowych

• Poszukiwanie wskaźników (przejawów) danej cechy
• Wskaźnikami mogą być zachowania, przekonania, emocje
• Tworzenie pozycji testowych.
Pozycja testowa
Sformalizowany wskaźnik danej cechy psychologicznej. Zawiera 2 elementy:
• Zadanie opisujące określone zachowanie (lub zadanie wyzwalające określone
zachowanie)
• Skala rejestrująca to zachowanie (opcje odpowiedzi o określonym formacie oraz
reguła przekształcania odpowiedzi w wynik liczbowy)
Tworzenie pozycji:
• Poszukiwanie takich zachowań i sytuacji, które występują w życiu określonej
grupy osób badanych
• Wymaga wyrażenia wskaźników teoretycznych w „języku” naturalnych
zachowań i sytuacji
• Wymaga przełożenia terminów psychologicznych na język, którym posługują się
osoby badane.
Źródła pozycji
• Zapożyczenia z innych narzędzi, testy zdolności – typowe dla strategii
zewnętrznej
• Poszukiwanie „naturalnych” banków pozycji (zasoby słownikowe, listy
przymiotnikowe – typowe dla strategii indukcyjnej)
• Tworzenie nowych pozycji przez profesjonalistów lub nieprofesjonalistów –
typowe dla strategii teoretycznej lub łączonej.
4. Analiza językowa pozycji. Ustalenie tematu i klucza odpowiedzi. Przygotowanie

instrukcji i formularza testu
• Przy analizie językowo – treściowej można skorzystać z pomocy sędziów
kompetentnych (ekspertów z zakresu językoznawstwa oraz psychologii)
• Analiza własności formalnych pozycji testowych.
Analiza właściwości formalnych pozycji:

• zrozumiałość
• Długość pozycji (liczba zdań, słów), ale też unikanie telegraficznej skrótowości
• Złożoność i forma gramatyczna pozycji, np. negacja, strona bierna, komplikacja
pozycji w postaci zdań złożonych
• poprawność gramatyczna – dostępność użytych pojęć
• Wyrażenie zdań w pierwszej osobie
• Respektowanie obyczajów językowych i zasad językowych, np. form obocznych
dla płci, ale bez żargonu
• niejasność
• Możliwość przypisania wielu różnych znaczeń pozycji – interpretowania jej treści
na wiele sposobów, z których każdy jest poprawny językowo i dopuszczalny z
punktu widzenia formy gramatycznej
• Niewłaściwa forma gramatyczna zdania, np. negacja, złożoność gramatyczna,
błędy interpunkcyjne
• zapisanie pozycji w formie zadania złożonego, którego zdania proste mogą
wymagać odrębnej odpowiedzi.
• Ogólność
• wynika z abstrakcyjności pojęć użytych do opisu zachowania, sytuacji czy cech
osobowych
• Pozycja ogólna zakłada konieczność integracji informacji, uzupełniania jej przez
konkluzje, uogólniania zachowań z różnych sytuacji czy dokonania porównań z
niespecyficznymi standardami
• Unikać określeń: czasami, rzadko, nigdy, często, niekiedy, wiele.
• dostępność w osobistym doświadczeniu
• Odwołanie do „ja” do osobistych doświadczeń – zdania w pierwszej osobie
• obciążane czynnikami zniekształcającymi
• analiza podatności na odpowiedzi obciążone aprobatą społeczną
Format odpowiedzi:
• odpowiedzi dwukategorialne Tak/Nie
• Odpowiedzi wieokategoriwalne Zdecydowanie zgadzam się/ Zgadzam się/ Nie
zgadzam się/ Zdecydowanie zgadzam się
• Opcja centralna – czy powinna być
• szerokość formatu odpowiedzi.
• zakotwiczenie
Szerokość formatu odpowiedzi

wady formatów dwukategorialnych:
• zmuszają do odpowiedzi zdecydowanej
• Nie gwarantują odpowiedniego zróżnicowania odpowiedzi
Wady formatów wielokategorialnych:
• trudne poznawczo, zwłaszcza dla osób gorzej wykształconych
• Poziom zróżnicowania – poziom do zawężania formatu
Problem opcji centralnej

• Opcja centralna w formie nie wiem, ?, tak i nie,
• słaby status opcji centralnej – odpowiedź osoby badanej może oznaczać, żę:
• zachowanie zależy od sytuacji
• ma trudności w ocenie własnego zachowania.
• Nie potrafi jednoznacznie rozkodować treści pozycji
• faktycznie ma przeciętne nasilenie cechy
• format może być nieparzysty, ale opcja pośrednia powinna wskazywać na
umiarkowanie nasilenie cechy.
Szerokość formatu odpowiedzi:

Optymalna szerokość
- górna granica 7 +/- 2
- Zalecane 4-7 opcji
- Osoby badane o większych zdolnościach 5-7
- Osoby badane o mniejszych zdolnościach 2-5
Inne aspekty formatu odpowiedzi:

Zakotwiczenie skali, np. całkowicie zgadzam się – całkowicie nie zgadzam się
Kierunek zakotwiczenia: negatywne – pozytywne
Wartości liczbowe są wtórne, podstawowe są określenia słowne
Ujednolicone dla wszystkich pozycji (także w skali kontrolnej)
Przygotowanie testu do badań

• Przyjęcie nazwy testu, jej skrótu, podanie nazwiska autora i roku opracowania
• Zaopatrzenie go w jasną instrukcję, przykładowy sposób odpowiadania
• Miejsce na dane personalne
• Wprowadzenie losowej kolejności pozycji lub uporządkowania pozycji według
stopnia trudności
• Przygotowanie arkusza testowego, ocena pod względem graficznym.
5. Badania pilotażowe
• przeprowadzenie badania wstępnego przy użyciu konstruowanego narzędzia
• Liczebność: zwykle 5-10 osób na jedną pozycję testową
• Maksymalne zróżnicowanie demograficzne: płeć, wiek, wykształcenie, zawód,
miejsce zamieszkania
• Skład próby uzależniony jest od celu stosowania narzędzia.
6.Obliczanie statystyczne – trafność, rzetelność, eliminacja wadliwych pozycji

• Analiza pozycji testowych – analiza psychometryczna:
• wskaźnik trudności pozycji
• Trudność pozycji – proporcja odpowiedzi zgodnych z kluczem
• Trafność zewnętrzna pozycji – wskaźnik stopnia, w jakim pozycja mierzy
kryterium pozatestowe (oceniana poprzez korelację pozycja - kryterium)
• moc dyskryminacyjna
• wskaźnik stopnia, w jakim pozycja mierzy, cechę, którą mierzy cały test
• oceniana przez korelację pozycja – skala.
• Pozycja o niskich lub ujemnych mocach dyskryminacyjnych są
modyfikowane lub eliminowane.
• Rzetelność i trafność
• Analizy weryfikacyjne finalnej wersji metody
• Rzetelność – zgodność wewnętrzna i stabilność czasowa
• Trafność – zbieżna i różnicowa
• Ocena rzetelności i trafności w kilku grupach – stabilność
(niezmiennoliczność grupowa).
7. Ostateczna wersja testu. Normalizacja. Przygotowanie testu do publikacji.

• Przygotowanie testu do praktycznego stosowania:
• normalizacja,
• Publikacja testu wraz z podręcznikiem i wszystkimi pomocami
• Ten etap jest niekonieczny, jeśli test nie będzie wykorzystywany w praktyce
psychologicznej, a jedynie w badaniach naukowych.
Struktura podręcznika testowego/ artykułu

• prezentacja teoretyczna podstaw testu
• opis procedury konstrukcji
• precyzyjny opis testu, jego przeznaczenia
• dane ilustrujące rzetelność i trafność pomiaru
• procedura praktycznego stosowania testu i obliczania wyników
• procedura interpretacji wyników testu, informację o możliwej stronniczości czy
ograniczeniach stosowania testu.
• Opis procedury normalizacji oraz normy.
Dalsze prace?
• Aktualizacja norm – najdalej po 10 latach
• Rewizja testu – po maksymalnie 25 latach albo wcześniej po stwierdzeniu
ewidentnych wad diagnostycznych.
Adaptacja kulturowa testów

Stosowanie testów powstałych w innej kulturze:
• Większość testów psychologicznych to testy skonstruowane w innych krajach (o
odmiennym języku, religii, systemie społecznym, edukacyjnym)
• Testy skonstruowane w jednej kulturze są stosowane w innej – problem ich
równoważności
• Możliwość dokonywania porównań międzykulturowych
Testy a kultura:
• Testy (inteligencji) mierzą zdolności decydujące o sukcesie w tej kulturze, w
której zostały stworzone
• Różnice w wynikach testu w różnych kulturach mogą pochodzić nie tyle z
samych cech, ale z właściwości narzędzia pomiaru
• Czy konstrukty takie jak agresja, asertywność, potrzeba osiągnięć, depresja mają
tę samą treść w różnych kulturach.
Aspekty kultury
Rozróżnienie w lingwistyce – podejście:
• fonemiczne – skupione na dźwiękach charakterystycznych dla danego języka
• fonetyczne – skupione na uniwersalnych aspektach języka
Rozróżnienie w odniesieniu do kultury:
• emic – aspekty odnoszące się do jednej kultury, pojęcia, kategorie lokalne
• etic – uniwersalne, wspólne dla różnych kultur
Kulturowa adaptacja testu:
• Przystosowanie wersji oryginalnej testu do innej specyfiki kulturowej
• Konieczność wprowadzenia specjalnych procedur przystosowujących
• decentrujących – uniwersalizujących
• lub centrujących na kulturze adaptacji
• Stosowanie narzędzia bez jego adaptacji kulturowej prowadzi do stronniczości
lub faworyzacji kultury.
Kolejne aspekty równoważności kulturowej testu

• Równoważność psychologicznych koncepcji człowieka (np. europejsko –
hinduska)
• Równoważność wymiarów psychologicznych (uniwersalność, istotność wymiaru
dla nowej kultury, np. postawy wobec Internetu)
• Równoważność pojęć psychologicznych (takie samo rozumienie, porównywanie
najczęstszych znaczeń danego pojęć w obu kulturach).
• Równoważność wskaźników cech – zachowań (materiał testowy jednakowo
obecny w obu kulturach i pełniący podobne funkcje, np. giełda, klocki, chodzenie
do baru – afiliacja).
• Równoważność procedury badania (znajomość sytuacji testowania, motywacja,
umiejętność czytania, płeć badającego).
Kryteria równoważności testu:

• Równoważność fasadowa (forma testu, liczna i kolejność pytań, format
odpowiedzi, klucze),
• Równoważność psychometryczna (wskaźniki dobroci pomiaru) – stosowanie do
przyjętej przez autora wersji oryginalnej teorii tworzenia testu (np. klasyczna
teoria testów), (równoważność struktury czynnikowej, rzetelności, trafności,
mocy dyskryminacyjnej, interkorelacji).
• Równoważność funkcjonalna (równoważność psychologiczna – zastosowanie
badawcze/ praktyczne, podatność na aprobatę, potakiwanie)
• Wierność tłumaczenia (treść pytań trafność słów, zdań).
• Wierność rekonstrukcji (powtórzenie etapów konstrukcji, grupa standaryzacyjna i
normalizacyjna).
Strategie kulturowej adaptacji testów

Począwszy od najbardziej wiernych adaptacji:
• Transkrypcja
• maksymalnie wierne tłumaczenie oryginalnych pozycji
• założenie, że zarówno konstrukty, jak i zachowania są uniwersalne,
równoważne kulturowo
• celem adaptacji jest dochowanie wierności tłumaczenia oraz wierności
fasadowej testu.
• Adaptacje transkrypcyjne bywają „niezręczne” językowo i wykazują szereg
wad psychometrycznych.
• Translacja
• wierne tłumaczenie z oryginalnych pozycji, ale z możliwością wprowadzenia
niezbędnych modyfikacji językowych
• Założenie, że konstrukty, jak i zachowania są uniwersalne kulturowo, ale nie
są uniwersalne pojęcia używane w danej kulturze do opisu zachowania.
• Trawesacja
• Swobodne tłumaczenie oryginały z wprowadzeniem wielu modyfikacji,
sugerowanych względami językowymi i psychologicznymi, treściowymi lub
psychometrycznymi
• Założenie, że konstrukty psychologiczne są uniwersalne, ale nie są
uniwersalne pojęcia używane w danej kulturze do opisu zachowania i nie
zawsze uniwersalne są same zachowania – część zachowań ma charakter
emikalny.
• Prowadzi do uzyskania dostosowanych do danej kultury formy testu, ale mże
się on różnić od oryginału.
• Parafraza
• Opracowanie nowego narzędzia, dla którego inspiracją jest test oryginalny.
Pozycje oryginalne są wykorzystywane tylko częściowo, większość pozycji
jest generowana na bazie pozycji oryginalnych.
• Założenie, że konstrukty psychologiczne są uniwersalne kulturowo, ale z
reguły nie są uniwersalne zachowania – tylko część z nich ma charakter
etikalny, tj. równoważny kulturowo
• Parafraza jest bardzo czasochłonna, ale prowadzi do uzyskania w pełni
dostosowanych do danej kultury adaptacji testu.
• Rekonstrukcja
• Opracowanie całkowicie nowego narzędzia, dla którego inspiracją jest
oryginalny model teoretyczny i strategia konstrukcji.
• Założenie, że zachowania z reguły nie są uniwersalne kulturowo, ale możliwe
że nie są uniwersalne również konstrukty psychologiczne.
• Rekonstrukcja może prowadzić do uzyskania innej niż oryginalna wersja testu
i jest najbardziej czasochłonną strategią adaptacji, ale prowadzi do uzyskania
całkowicie dostosowanych kulturowo wersji testu.
Procedura tłumaczenia:
• Przygotowanie kilku niezależnych tłumaczeń,
• Jeśli istnieją inne wersje językowe testu (np. francuska, niemiecka w przypadku
testu pierwotnie opracowanego w języku angielskim) należy dokonać tłumaczeń z
tych języków.
• Uzgodnienie wersji polskiej.
• Dokonanie tłumaczeniu zwrotnego lub inna procedura.
• Dokonanie poprawy wersji polskiej
• Ocena wersji polskiej przez psychologów i przedstawicieli grupy, dla której test
jest przeznaczony.
Ocena równoważności testu:

• Badanie obiema wersjami testu samych osób znających dobrze obydwa języki
(np., studenci polscy filologii obcych, studenci zagraniczni studiujący w Polsce)
– problem asymetrii w znajomości kultury. Obliczenie korelacji między tymi
pomiarami
• Zastosowanie procedury Wielu Cech Wielu Metod
• Zastosowanie konfirmacyjnej analizy czynnikowej dla wielu grup do oceny
równoważności psychometrycznej.
Adaptacja demograficzna testu:

• Przystosowanie testu przeznaczonego do badania określonej grupy do stosowania
w innej grupie demograficznej.
• Tak jak adaptacja kulturowa, oznacza konieczność wprowadzenia specjalnych
procedur przystosowujących (decentrujących - uniwersalizujących na kulturze
danej grupy)
• W przeciwnym razie stosowanie testu prowadzi do stronniczości lub faworyzacji
demograficznej (np. seksizmu).
Aspekty adaptacji demograficznej testów: płeć, wiek, niepełnosprawność, rasa, klasa

społeczna (status społeczno – ekonomiczny – SES), środowisko, podkultura.
Porównania międzykulturowe:
• Różnice między średnimi dla osób pochodzących z różnych kultur (grup) mogą
wskazywać na:
• różnice w składzie badanej populacji
• różnica w znaczeniu pytań i psychometrycznych właściwościach skali
• różnice w faktycznym poziome cech
• Konieczność opracowana norm dla adaptowanej wersji testu.
• Bez stwierdzenia równoważności psychometrycznej metod nie może
porównywać średnich dla grup.
• Wtedy możliwe tylko analizy jakościowe, bez możliwości porównań ilościowych.
Zagadnienia dotyczące aktów prawnych dot zastosowania testów.

W konstytucji art.17 ust.1 – odrębne ustawy mogą regulować zawody zaufania
publicznego. Konstytucja gwarantuje: tworzenie samorządu zawodowego;
Kwestie zaufania zawodowego reguluje ustawa projekt) – o sprawowaniu przez

samorządy zawodowego.
Ustawa o zawodach zaufania publicznego:

zawód zaufania publicznego
1. Wiąże się ze świadczeniem usług polegających na obsłudze ważnych potrzeb
osobistych lub gospodarczych
2. Ze względu na występowanie szczególnej więzi zaufania między osobami
świadczącymi w ramach wykonywania zawodu a usługobiorcą może wiązać się z
dostępem do informacji dotyczących sfery prywatności osoby fizycznej lub tajemnicy
przedsiębiorstwa.
3. Wiąże się z bardzo szczegółowym uregulowaniem tajemnicy zawodowej oraz
gwarancją, że uchylenie obowiązku przestrzegania tej tajemnicy może nastąpić tylko
wyjątkowo i tylko w sytuacji prawem przewidzianej;
4. Może być wykonywany przez osoby dopuszczone do jego wykonywania po
sprawdzeniu na zasadach i w trybie określonych w przepisach właściwych dla danego
zawodu zaufania publicznego, wiedzy i umiejętności niezbędnych do wykonywania tego
zawodu.
5. jest wykonywany, w ramach form określonych w przepisach właściwych dla danego
zawodu zaufania publicznego, bez stosowania zasady kierowania, określonej w
przepisach prawa pracy
6. Wymaga do należnego wykonywania określenia odpowiednio sformalizowanych zasad
etycznych jego wykonywania (deontologia zawodowa) i złożenia ślubowania
określonego w przepisach właściwych dla danego zawodu zaufania publicznego.
Ustawa o zawodzie psychologa:

Kwestie wykonywania zawodu psychologa reguluje ustawa z dnia 8.06 2001r. O
zawodzie psychologa i samorządzie zawodowym psychologów (Dz.U. Z dn. 18 lipca
2001)
Aktualnie trwają prace nad nową ustawą regulującą wykonywanie zawodu psychologa.
Ustawa o zawodzie psychologa. Rozdz. 1 art. 4 1) wykonywanie zawodu psychologa
polega na świadczeniu usług psychologicznych, a w szczególności na:
- diagnozie psychologicznej.
- opiniowaniu
- orzekaniu, o ile przepisy odrębne tak stanowią,
- psychoterapii
- udzielaniu pomocy psychologicznej.
Wykonywanie zawodu psychologa: art12 1) podjęcie usług psychologicznych nastepuje

za zgodą osoby klienta lub grupy osób stanowiący przedmiot stanowiących podmiot
diagnozowanie i oddziaływania psychologicznego
2. zgoda nie jest wymagana w przypadku osób wobec których toczy się postępowanie
karne i mogą zagrażać życiu i zdrowiu, nie jest też wymagana wobec poborowych.
Rozdział 3, art13.
Psycholog informuje klienta o celu postępowania, jego przebiegu i wynikach, powinien
również uzyskać zgodę osoby badanej.
Art 14.
1. psycholog ma bowiązek zachowania w tajemnicy informacji związanych z klientem,
uzyskanych w związku z wykonywanie zawodu
2. Obowiązek zachowania tajemnicy zawodowej nie może być ograniczony w czasie
3. Przepis ust.1 nie stosuje się, gdy: poważnie jest zagrożone zdrowie, życie klienta lub
innych osób, bądź tak stanowią ustawy.
Rozdz. 3. art.16 Tworzy się Komisja Ekspertów do realizacji zadań zawartych w art. 17
ust. 3. art 18 ust 3 i art 19 ust 1.
Komisja Ekspertów ustala i aktualizuje listę metod i narzędzi psychologicznych
zastrzeżonych wyłącznie do stosowania przez psychologów.
Krajowa Rada Psychologów sprawuje nadzór i takie tam.
Komisja do spraw testów psychologicznych PTP

Cele działania:
• Określenie standardów stosowania metod
• Uporządkowanie dostępu do metod oferowanych na rynku
• Wyodrębnienie narzędzi, które bezwzględnie wymagają wykształcenia
psychologicznego.
Proponowane kategorie testów:

• Testy psychologiczne – tylko dla psychologów.
• Narzędzia dla psychologów oraz innych profesjonalistów po szkoleniu
• Narzędzia dla psychologów dla innych profesjonalistów.
Kryteria oceny i kategoryzacji:

• Konsekwencje użycia testu dla osoby badanej – czy na podstawie wyników
badania danym testem podejmowane są decyzje wpływające na zmianę losu
jednostki (orzecznictw, opinie zostające w aktach i mające konsekwencje
prawne),
• Diagnozowane obszary – im bardziej pogłębionej wiedzy psychologicznej
wymaga użycie danego testu (poprawna interpretacja wyników, przekazywanie
informacji zwrotnych), tym wyższe kwalifikacje należy posiadać, by móc go
stosować.
• Kompetencje psychometryczne – czy poprawne użycie danego testu (ocena i
interpretacja wyników) wymaga znajomości psychometrii
• Trudność w stosowaniu – czy poprawne użycie testu wymaga specyficznych
kompetencji nabywanych w toku studiów lub szkoleń, czy też wystarczy
znajomość instrukcji.
Kodeks etyczo – zawodowy psychologa

Art. 12:
Psycholog wykazuje stałą troskę o prestiż i poziom wykonywania zawodu. Nie
udostępnia specyficznych technik diagnozy psychologicznej osobom nieprzygotowanym
do ich kompetencji stosowania. Psycholog przeciwstawia się podejmowaniu działalności
psychologicznej osobom nieprzygotowanym a zwłaszcza stosowaniu specyficznych
technik diagnostycznych i terapeutycznych przez osoby nie posiadające kwalifikacji
psychologicznych.
Art 20. (przeczytać)
Raport o stanie orzecznictwa psychologicznego:

raport o stanie orzecznictwa psychologicznego w Polsce (szustrowa)
Opracowanie powstałe z inicjatywy Zarządu Głównego PTP
Zastawienie treści ustaw i rozporządzeń odnoszących się do orzecznictwa
psychologicznego.
Status prawny orzeczeń i opinii:

• Zarówno status orzeczeń i opinii, jak i status psychologa – orzecznika jest
zróżnicowania, a prawo w bardzo różnych stopniu ingerują w działalność
psychologa w różnych dziedzinach praktyki.
• Status orzeczeń i opinii można scharakteryzować odwołując się do trzech
kryteriów:
• obligatoryjne /nieobligatoryjne
Obligatoryjne – gdy nie podejmuje się decyzji określonego rodzaju bez
orzeczenia, opinii lub badania psychologicznego (np. orzeczenia w
sprawach pozwolenia na broń, o zdolności kierowania pojazdem).
Nieobligatoryjne – gdy odwołanie się do opinii psychologa pozostaje w gestii
osoby lub organu podejmującego decyzję
• samodzielne/ niesamodzielne
Samodzielne – odrębny, samodzielny dokument, który bezpośrednio dostarcza
przesłanek osobie podejmującej decyzje
Niesamodzielne – orzeczenie albo opinia jest dziełem zespołowym lub wyniki
badań psychologicznych są jedną z podstaw dla sformułowania opinii lub
rzeczenia przez innego specjalistę.
• rozstrzygające/ nierozstrzygające
Rozstrzygające – przesądzają o kształcie określonej decyzji (np. orzeczenie o
zdolności kierowania pojazdami, o braku przeciwwskazań
psychologicznych do posiadania broni, opinia o przydatności zawodowej
w transporcie kolejowym) – orzeczenia.
Nierozstrzygające – nie przesądzają kształtu decyzji, choć są brane pod uwagę
przy jej podejmowaniu.
Status psychologa – orzecznika

1. psycholog uprawniony lub upoważniony – ekspert wydający na podstawie badania
psychologicznego odrębne orzeczenie lub opinię psychologiczną (na ogół o mocy
rozstrzygającej)
2. Biegły – samodzielny ekspert wydający orzeczenia lub opinie
3. Samodzielny specjalista – prowadzi badania i wydaje samodzielne opinie dotyczące
osób, nad którymi instytucja sprawują opiekę lub kontrolę
4. Członek zespołu specjalistów – odpowiedzialność za opinię ponosi dyrektor instytucji.
5. Specjalista opisujący dla potrzeb innego specjalisty 0 orzecznika (np. w medycynie
pracy).
Inne regulacje
• APA style
• Deklaracja zasad etyczno - zawodowych.
Cechy prawdziwego testu: musi mieć autora, to nie tylko materiał testwy, ale także
podręcznik, materiał testowy ma ściśle określoną postać, test jest niedostępny dla osób
niekompetentnych, test jest rozpowszechniany w określone sposób.
Testy publikowane i niepublikowane

4 typowe sytuacje:
test opublikowany i podlegający dystrybucji przez specjalistyczne wydawnictwo
Test opublikowany w czasopiśmie fachowym
Test niepublikowany (mający autora)
Psychotest „niby test”.
Testowanie i równowaga skal
Psycholotia kulturowa czy międzykulturowa

Szereg kryteriów stanowi o tym podziale:
Universalizm vs relatywizm
Stopień nasycenia procesów psychicznych kulturą
Preterencje metodologiczne badania jakościowe vs ilościowe.
Problemy psychometryczne w badaniach miedzykulturowych

Czy konstrukty psychologiczne, które chcemy badać są porównywalne u różnych kultur
Czy narzędzi, które stanowią operacjonalizacje tych konstruktów rzeczywiście mierzą to
samo?
Pytania z zakresu ontologii i teorii poznania - czy przedmiot badań jest ten sam w
różnych kulturach i czy język potoczny stanowi porównywalne źródło poznania?
Odpowiedź pozytywna na powyższe pytania pozwala na porównywanie ilościowe
miedzykulturowe.
Dotychczasowe rozwiązania
Serie niezależnych badań w różnych kulturach.
Ilościowe analizy porównawcze bez psychometrycznego testowania równoważności
narzędzi. Założenie, że stosowane metody mierzą ten sam konstrukt w różnych kulturach,
a bład pomiaru jest na tyle niewieli, ze moze byc uwzględniony w analizie.
Psychometryczne testowanie równoważności metod

1. Testowanie czy rzeczywiście w różnych grupach występuje
równoważnośćnpsychometryczna metod pomiaru.
2. Testowanie różjic międzykulturowych za pomocą wcześniej zweryfikowanego
narzedzia
Co oznacza równoważność psychometryczna.

Dany konstrukt może być uogolniony na różne konteksty spoleczno - kulturowe.
Źródła błędu pomiaru są minimalne.
Różjice kulturowe nie wpływają w różny sposób na właściwości narzędzia pomiarowego.
Różnice zmiennych na tle kulturowym są natury ilościowej.
Co oznacz brak równoważności.
Występowanie cultural bias.
Występowanie problemow w tlumaczeniu metody - tlumaczenie zwrotne jako złota
zasada.
Różnice miedzykulturowe w zakresie badanych zmiennych są natury jakościowej.
Testowanie równoważności narzędzi pomiarowych.

Testowanie hipotez wyprowadzonych z teorii zjawiska wskazujących, że dana zmienna
ukryta jest wyrażona przez określonu zestaw zmiennych obserwowalnych.
Konfirmacyjna analiza czynnikowa w wielu grupach.
Testowanie równoważności narzedzi pomiarowych.

1. Testowanie równoważności struktury modelu
2. Testowanie równoważności ładunków czynnikowych
3. Testowanie rownoważności stałej w modelu.
4. Testowanie równoważności warianvji resztowych.
Każdy kolejny poziom testowanej równoważności jest dodawany do poprzedniego.
Testowanie relacji strukturalnej w modelu.

Spelnienie warunków rownoważności narzedzi pomiarowych pozwala na przejście do
tego
Kryteria dopasowania modelu:

We wszystkich etapach analiz jako kryterium przyjmowane jest całościowe dopasowanie
modelu i istotności różnicy w dopasowaniu w porownywaniu z modelem o mniejszej
liczbie założen co do parametrow.
Zmainy w zakresie 2 wskaźników:
Dela chi2<0.05
Różnica cfi >0.01
Ograniczenia metody testowania psychometrycznej równoważności skal.

Ma zastosowanie do werbalnych skal pomiarowych.
Podejścje psychometryczne, użyteczne gdy chcemy dokonywać porownań ilościowych.

Podstawy Psychometrii

Uploaded by

Copyright:

Available Formats

You might also like

Podstawy Psychometrii

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Podstawy Psychometrii

Uploaded by

Copyright:

Available Formats

Podstawy Psychometrii

Pomiar zjawisk fizycznych

Jak zmierzyć zjawiska i procesy psychiczne

Co to jest test psychologiczny?

Jakie wymogi muszą spełniać testy?

Do czego służą testy?

Diagnoza psychologiczna jest procesem aktywnego poszukiwania danych potrzebnych

Test jako narzędzie operacjonalizacji pojęć

Specyfika pomiaru psychologicznego:

Wynik testu ma określony związek z sytuacjami życiowymi (obserwacja mająca

Cechy jako przedmiot pomiaru

Podstawowy schemat badawczy dla wszystkich metod: bodziec → reakcja

Schemat badawczy metod eksperymentalnych!!

Schemat badawczy metod diagnostycznych

Elementy składowe testu

Diagnoza i pomiar testowy

4 Aspekty diagnozy za pomocą testów:

Metody diagnozy psychologicznej

Testy maksymalnego wykonania – pokazują granice możliwości

Czym różni się ankieta od kwestionariusza?

Indywidualny wynik testowy

Trudności pomiarowe w psychologii

Specyfika pomiaru psychometrycznego

Rozkład normalny a pomiar w psychologii

Standardy porównań dla pomiaru cech różnicowych

Charakterystyka rozkładu normalnego:

Czwartek 12:00 CN-P07 – laboratorium

Właściwości pozycji testowej

Jak można osiągnąć wyniki ilościowe w teście?

Pozycja testowa (item)

Odpowiedzi na pozycje testowe:

Argumenty za stosowaniem wielu zadań:

Wynik testu a wynik pozycji:

Wariancja pozycji testowej:

Kowariancja pozycji testu:

Wariancja testu a wariancja pozycji

Wariancja testu a interkorelacje pozycji

Współczynniki mocy dyskryminacyjnej

Rozkład wyników testu

Własności pozycji testu doskonałego

Jakie pozycje powinny zostać włączone do testu?

Jakie pozycje powinny zostać włączone do testu?

Błąd jako czynnik losowy

Teorie rzetelności pomiaru:

Klasyczne teorie testów – twierdzenia:

Wynik prawdziwy jest nieobserwowalny więc:

Interpretacja standardowego błędu pomiaru wyników otrzymanych

Wyznaczanie przedziału ufności:

Zastosowanie standardowych błędów pomiaru

RODZAJE OSZACOWAŃ RZETELNOŚCI:

1. Zgodność test-retest / stabilność bezwzględna – dwukrotne badanie tej samej grupy

* Dwukrotne badanie tym samym testem – metoda estymacji wiarygodności testu →

STABILNOŚĆ BEZWZGLĘDNA STABILNOŚĆ WZGLĘDNA

ZALETY METODY: minimalizowanie efektu zapamiętywania

3. Metoda zgodności połówkowej – jednokrotny pomiar jednym testem; korelacja między

4. Metoda zgodności wewnętrznej przy podziale testu na wiele części

testy zgodności → m. połówkowe

6. Interpretacja wartości współczynnika rzetelności: