Professional Documents
Culture Documents
B - VALJANOST PSIHOLOGIJSKIH MJERENJA - Ver - 25 - 1 - 2020
B - VALJANOST PSIHOLOGIJSKIH MJERENJA - Ver - 25 - 1 - 2020
INSTRUMENATA
Na osnovi pregleda literature koja se odnosi na problem razvoja koncepta, pojedini autori
okvirno razlikuju tri razdoblja. Prvo razdoblje približno obuhvaća prvu polovicu dvadesetog
stoljeća, a obilježava ga početni izostanak interesa za valjanost te uvođenje različitih termina
koji se odnose na valjanost pri čemu ipak dominira određenje valjanosti testa na osnovi
korelacije s nekim vanjskim kriterijskim mjerama. Drugo razdoblje započinje 1954. objavom
Tehničkih preporuka za psihološke testove (kasnije Standarda za pedagoško i psihološko
testiranje) u kojima se predlaže kategorizacija valjanosti najprije u četiri, a kasnije tri
kategorije koja je dugo dominirala u teoriji testova. Trećim razdobljem možemo označiti
objavu Standarda za pedagoško i psihološko testiranje 1999. u kojemu se napušta
tradicionalni koncept tri vrste valjanosti a predlaže usmjeravanje na različite vrste izvora
validacijskih podataka, a valjanost se shvaća kao jedinstven koncept.
1
faza razmatranja valjanosti može pratiti od kasnih 1930-ih godina dvadesetog stoljeća, a
karakterizira ju bihevioristička tradicija u psihologiji kao i filozofski okvir logičkog pozitivizma.
U tom kontekstu „značenje“ sadržaja testovnih čestica, kao i s njima povezani „konstrukti“,
nedostupni opažanju, smatraju se previše subjektivnim i time neprikladnim za biheviorističku
znanost. U ovom kontekstu valjanost testovnih rezultata nastoji se odrediti kao njihova efikasnost
pri predviđanju nekih objektivnih kriterijskih aktivnosti. U prvom razdoblju razvoja testova
primarni interes autora usmjeren je na mjerenje intelektualnih sposobnosti, a masovna
primjena armijskih testova tijekom prvog svjetskog rata dovodi do niza kontroverznih
rezultata i otvara pitanje prirode inteligencije. U tom kontekstu Edwin Boring u članku
Intelligence as the Tests Test It (1923) predlaže da se u početnoj fazi pojam inteligencije
ograniči na sposobnost da se uspješno rješavaju testovi inteligencije, tj. da se u užem smislu
inteligencija tehnički odredi kao ono što mjere testovi inteligencije. Boring naglašava da su
stvarno značenje i priroda inteligencije znatno širi ali da je određenje koje on predlaže dobar
temelj za ozbiljnu raspravu. U nastavku teksta Boring navodi da je objektivna metoda za
analizu ovako mjerene inteligencije koeficijent korelacije. Korelacija pruža uvid u prirodu
inteligencije mjerene testovima, a niti jedan test ne može mjeriti inteligenciju na
zadovoljavajući način ukoliko uključuje samo jednu vrstu mentalnih operacija.
2
1985. Standards for Educational and Psychological Kategorije: kriterijska,
Testing (AERA, APA, & NCME) konstruktna, sadržajna
1999. Standards for Educational and Psychological Izvori podataka: sadržaj testa,
Testing (AERA, APA, & NCME) proces odgovaranja,
unutrašnja struktura, odnosi s
drugim varijablama,
posljedice testiranja
2014. Standards for Educational and Psychological Izvori podataka: sadržaj testa,
Testing (AERA, APA, & NCME) proces odgovaranja,
unutrašnja struktura, odnosi s
drugim varijablama,
posljedice testiranja
Pored Standarda važnu ulogu u konceptualizaciji pojma valjanosti odigrao je L. Cronbach koji
1955. objavljuje članak Construct validity in psychological tests zajedno s Meehlom. U ovom
članku autori su dali značajan doprinos određenju i definiranju koncepta konstruktne
valjanosti. Drugi važan doprinos pružili su Campbell i Fiske 1959. godine u članku
Convergent and discriminant validation by the multitrait–multimethod matrix u kojemu uvode
koncepte konvergentne i diskriminantne valjanosti te naglašavaju važnost korištenja
metodologije pri provjeri valjanosti testova. Veliki doprinos konceptualizaciji valjanosti u
Standardima 1999. dao je S. Messick svojim radovima objavljenim krajem osamdesetih i
početkom devedesetih godina 20. stoljeća.
3
B. AKTUALNI PRISTUP KONCEPTU VALJANOSTI
Proces validacije
Proces validacije u osnovi započinje određenjem interpretacije testovnih rezultata za koju se
nastoji ispitati valjanost odnosno opravdanost. U slučaju kada se testovni rezultati
namjeravaju koristiti ili interpretirati na više načina, svaka od tih namjena mora se zasebno
validirati. U najvećem broju slučajeva planirana interpretacija uključuje određenje konstrukta
koji se mjernim postupkom želi zahvatiti iako postoje i specifične situacije u kojima primarna
namjena testa nije mjerenje nekog zadanog konstrukta.
Npr. test divergentnog mišljenja može se koristiti s ciljem ispitivanja individualnih razlika u
razvijenosti tog konstrukta kod učenika osnovne škole ili kod studenata likovne akademije,
može se koristiti kao mjera u istraživanju kojim se ispituju korelati kreativnosti, kao prediktor
pri izboru darovitih učenika srednje škole, kao prediktor akademskog uspjeha u umjetničkoj
gimnaziji ili kao jedan od testova u okviru profesionalne orijentacije kod učenika osmih
razreda osnovne škole. Svaka od ovih različitih namjena testovnih rezultata implicira manje ili
više različito razumijevanje i interpretaciju rezultata kao i uključivanje ponešto različitih
izvora validacijskih podataka. Ukoliko je npr. namjena testa predviđanje akademskog uspjeha,
korelacije testa s odabranim kriterijima opravdavaju takvu vrstu uporabe, pri čemu mogući
nedostaci koji proizlaze iz sadržaja ne moraju biti od primarnog značaja. Međutim ukoliko
4
korelacije s kriterijem nisu zadovoljavajuće, analiza sadržaja može ponuditi moguće odgovore
za nisku valjanost testa za takvu namjenu. S druge strane ukoliko je primarna namjena testa
mjerenje razvijenosti konstrukta divergentnog mišljenja, sadržajna valjanost može imati veći
značaj u dokazivanju konstruktne valjanosti testa te se može kombinirati s drugim izvorima
validacijskih podataka. Validacija se može promatrati kao prikupljanje uvjerljive
znanstvene argumentacije koja opravdava planiranu interpretaciju testovnih rezultata i
njihovu relevantnost za predviđene svrhe (APA, 1999). Odluka o tome koji su tipovi
podataka važni za neku validaciju može se pojasniti razvojem skupa pretpostavki koje
opravdavaju predloženu interpretaciju za određenu svrhu testiranja (APA, 1999). Pojedini
testovi i mjerni instrumenti od početka se razvijaju za jasnu namjenu (npr. predikciju uspjeha
u zadanom poslu) što posao validacije može učiniti lakšim jer je moguće da sam autor testa
nudi detaljan konceptualni okvir razvoja testa za pretpostavljenu namjenu. Kvalitetan proces
validacije podrazumijeva dobru pripremu i planiranje prikupljanja validacijskih podataka,
odnosno pravovremeno uključivanje svih dodatnih relevantnih varijabli i kriterija koji mogu
poslužiti kao dokazi valjanosti. U određenim slučajevima naknadno prikupljanje ili nije
moguće ili zahtijeva značajne logističke resurse (npr. novi ciklus prijemnih ispita, novu
generaciju kandidata na državnoj maturi i sl.). Pored toga provedba prikupljanja validacijskih
podataka podrazumijeva analizu različitih metodoloških aspekata i uvjeta u kojima se
prikupljaju podaci, a koji mogu otežati integraciju i usporedbu validacijskih podataka i
mogućnost njihove generalizacije. Primjeri nekih od takvih uvjeta mogu biti: a) jesu li podaci
prikupljeni u situaciji selekcije ili istraživanja, tj. jesu li ispitanici odgovarali anonimno ili su
se identificirali imenom i prezimenom; b) radi li se o testiranjima visokog ili niskog uloga, te
kakva je bila motivacija ispitanika; c) postoji li neka sustavna selekcija ispitanika koja je
mogla utjecati na homogenost/heterogenost korištenih uzorka; d) postoje li razlike u
standardizaciji uvjeta između različitih primjena i sl.
U slučaju kada prikupljeni podaci ne potvrđuju opravdanost predviđenih namjena testa važno
je pokušati detektirati razloge za nisku valjanost testovnih rezultata. Messick (1994) i
Standardi (1999) upućuju na razmatranje barem dva moguća izvora problema:
5
karakteristikama ispitanika (stupanj motivacije, brzina rada, anksioznost, impulzivnost i dr.),
te nekim uvjetima primjene testa (mogućnosti za prepisivanje, uvjeti rada i sl.)
Primjeri:
6
Pr. 2. Upitnik čija je namjena dijagnostika posttraumatskog stresnog poremećaja kod ratnih
veterana može biti sačinjen na osnovi popisa simptoma za taj poremećaj navedenih u
priručniku DSM-IV iz 1994. godine (Dijagnostički i statistički priručnik za duševne
poremećaje). U novom izdanju DSM-V iz 2013. kriteriji dijagnoze i kategorije simptoma su
izmijenjeni stoga uporaba upitnika čiji je sadržaj sačinjen na osnovi ranijeg određenja
poremećaja može biti smanjene valjanosti za svrhu dijagnoze ovog poremećaja. DSM-V npr.
uvodi novu skupinu simptoma koje u ranijem izdanju nema: negativne kognitivne promjene i
promjene raspoloženja. U ovom slučaju sadržaj upitnika konceptualno ne odgovara
novom određenju konstrukta posttraumatskog stresnog poremećaja te se time dovodi u
pitanje valjanost dijagnoze učinjene na osnovi stare verzije upitnika.
Pr 4. U pojedinim testovima područje sadržaja nije jasno definirano već u značajnoj mjeri
proizlazi iz šireg određenja konstrukta te se pojedini istraživači ili korisnici testova ne slažu u
potpunosti oko svih domena ili sadržaja koje treba uključiti u test. Tako se npr. u Testu opće
kulture mogu pojaviti vrlo specifična pitanja poput „Navedite pobjednika Svjetskog
prvenstva u nogometu 1974. godine“. Ovakva pitanja mogu favorizirati pripadnike pojedinih
skupina kao što su muškarci ili osobe s posebnim interesom za sport. Iako podaci o korelaciji
ovoga testa s uspjehom u nekom vanjskom kriteriju mogu ukazivati na prihvatljivu
prediktivnu valjanost prisutnost ovakvih pitanja može dovesti u pitanje valjanost testa za
ispitivanje razlika na konstruktu poznavanja opće kulture. U ovakvim slučajevima sadržaj
može umanjiti i tzv. pojavnu valjanost testa kod ispitanika ali je za konačnu odluku potrebno
prikupiti i dodatne vrste validacijskih podataka.
Pr. 5. U nekom testu inteligencije verbalnog sadržaja koji je dugo u upotrebi mogu se nalaziti
termini i pojmovi koji su tijekom vremena izašli iz svakodnevne uporabe (npr. izraz
busola za kompas) čime sadržaj pojedinih pitanja može nekim skupinama ispitanika postati
manje razumljiv. Ovakav problem može dovesti do problema pristranosti (bolji uradak starijih
ispitanika) ili konstruktno irelevantne varijance (bolje poznavanje rječnika bit će uključeno u
ukupni rezultat).
7
Pr. 6. U pojedinim slučajevima čestice upitnika ili testa mogu biti teorijski relevantne ali
njihova formulacija nije jednoznačna ili je različite kategorije ispitanika mogu razumjeti
na različite načine. Tako npr. u Upitniku religioznosti možemo pronaći pitanje:
Pr. 7. U pojedinim slučajevima područje konstrukta može biti teorijski podijeljeno na dvije ili
više faceta ili kategorija. U tom slučaju važno je provjeriti jesu li pojedine poddomene
područja konstrukta zastupljene dovoljnim brojem pitanja. U slučaju provjere faktorske
strukture poželjno je da je svaki očekivani faktor opisan s dovoljnim brojem pitanja. Primjeri
nekih konstrukata za koje se u okviru zadanog teorijskog polazišta pretpostavlja da se sastoje
od više poddomena ili faceta:
Pr. 8. U slučaju testova znanja čiji je cilj provjera stupnja usvojenosti nekog zadanog
programa analiza sadržaja može biti usmjerena na reprezentativnost sadržaja uključenog u
test u odnosu na zadani program. U tom slučaju recenzent testa polazi od zadanog
programa i tablice strukture testovnog sadržaja. U slučaju da je programom nastave u srednjoj
školi područje psihologije podijeljeno u devet cjelina, sadržaj testa također treba reprezentirati
takvu podjelu. Potrebno je provjeriti jesu li sva područja zastupljena u testu, je li broj zadataka
proporcionalan opsegu i važnosti pojedine cjeline, jesu li u svaku sadržajnu cjelinu uključene
različite vrste zadataka te je li svaka cjelina u testu reprezentirana proporcionalnim brojem
bodova (u slučaju da svi zadaci ne donose jednak broj bodova). Naime ukoliko autori ne vode
računa o broju bodova koje može donositi svako područje, reprezentativnost testa može biti
narušena unatoč činjenici da je iz svakog područja odabran razmjeran broj zadataka.
U slučaju da ne postoji jasno definiran program poželjno je da autor ovakvog testa na početku
nekog nastavnog procesa ima ideju o tome što očekuje da njegovi polaznici znaju i mogu
nakon završetka nastave.
8
Primjer strukture Testa znanja iz psihologije
U prethodnoj tablici autor određuje broj i vrstu zadataka koje će test sadržavati. Na ovaj način
se osigurava sadržajna reprezentativnost kao i zastupljenost određenih vrsta zadataka te
procesa koji se žele mjeriti. Tijekom konceptualizacije strukture testa predviđeno je da se test
sastoji od tri vrste zadataka, te da se oni boduju na sljedeći način: odgovori u zadacima
višestrukoga izbora boduju se s 0 ili 1 bod, odgovori u zadacima kratkoga odgovora s 0,1 i 2
boda, a zadaci produženoga odgovora s 0,1,2, i 3 boda ovisno o odgovoru.
9
6 Gospodarstvo i ekonomija 2 zadatka
7 Estrada i zabava 5 zadataka
8 Osobe 2 zadatka
9 Graditeljstvo 2 zadatka
10 Medicina i zdravlje 1 zadatak
11 Crna kronika 2 zadatka
12 Važni događaji 6 zadataka
Ukupno: 62 zadatka
Valjanost može biti ugrožena ili narušena u slučajevima kada pretpostavljeni procesi koje se
nastojalo izazvati testovnim sadržajem nisu u skladu sa stvarno izazvanim procesima ili kada
su odgovori ispitanika pod značajnim utjecajem strategija rješavanja testa i nekih osobina
ispitanika.
Počevši od 7 sati ujutro, s neke autobusne stanice svakih 40 minuta kreće autobus prema
Grabovcu, a svakih 25 minuta autobus prema Dubovcu. Koliko puta će ova dva autobusa
krenuti istovremeno s polazne stanice u intervalu od 5 sati?
Ovaj zadatak kod ispitanika može potaknuti različite procese ili pristupe kojima će
pokušati pronaći rješenje. Dio ispitanika će do rješenja pokušati doći logičkom analizom, a
dio pokušajima i pogreškama. Preostali dio ispitanika će prepoznati da se rješenje problema
krije u određivanju najmanjeg zajedničkog višekratnika brojeva 25 i 40 (što u ovom slučaju
iznosi 200) što znači da će autobusi ponovno krenuti sa polazne stanice nakon 200 minuta.
To u ovom slučaju može dovesti do individualnih razlika zasnovanih na različitim procesima
koje autor nije predvidio pri izradi zadataka. Analiza procesa kojim ispitanici dolaze do
točnog odgovora može biti vrlo korisna pri objašnjavanju pojedinih korelacija ovakvog testa s
mjerama znanja (npr. matematike) i ovisno o namjeni testa može biti argument za
isključivanje ili zadržavanje pojedinih zadataka.
10
Pr. 2. U pojedinim testovima format zadatka može u značajnoj mjeri utjecati na procese i
strategije ispitanika tijekom rješavanja zadataka. Tako uputa u kojoj nije specificiran
tretman slučajnog pogađanja kod dijela ispitanika može potaknuti strategiju slučajnog odabira
odgovora, dok kod drugih ispitanika može dovesti do izostavljanja bilo kakvog odgovora.
Slučajno pogađanje predstavlja faktor koji unosi irelevantnu varijancu u testovne rezultate
tako da je detekcija udjela slučajnog pogađanja u rezultatima važan dio procesa validacije.
Jedan mogući način jest da se u test uvrsti dio zadataka uz koji niti jedan odgovor nije točan te
se analizira koliki broj ispitanika bira odgovore i u tim zadacima. Drugi pristup može biti
analiza vremena koje je ispitaniku bilo potrebno da odabere odgovor što je moguće pri
računalnoj primjeni testa. Ukoliko je ispitanik u teškom zadatku (u kojemu je prosječno
vrijeme rješavanja npr. 45 sekundi) odabrao odgovor nakon svega 9 sekundi to može
ukazivati na slučajni odabir odgovora.
Pr. 3. Jednim testom rezoniranja nastoji se ispitati uspješnost u rješavanju zadataka na način
da se minimalizira utjecaj ranijeg znanja. S ciljem provjere procesa koji ispitanici koriste
pri rješavanju zadataka test je primijenjen individualno na 15 ispitanika iz ciljane
populacije primjenom tzv. tehnike razmišljanja naglas (engl. think aloud protocol).
Ispitanik rješava zadatke uz prisutnost ispitivača pri čemu za vrijeme rješavanja glasno
verbalizira ideje i procese tijekom rješavanja. Ispitivač reakcije ispitanika registrira u
pripremljene protokole te se kasnije analiziraju procesi koje ispitanici koriste pri rješavanju
pojedinih zadataka i uspoređuju s teorijski očekivanim procesima.
Pr. 4. U jednom testu znanja uz svako pitanje ponuđena su četiri odgovora. Pored analize
indeksa lakoće i težine, tj. frekvencije točnih odgovora na pojedino pitanje provedena je
analiza karakterističnih krivulja za netočne odgovore i frekvencija čestine odabira
netočnih odgovora uz svaki zadatak. Ova vrsta analize može ukazati na lošu kvalitetu
pojedinih „distraktora“, tj. netočnih ponuđenih odgovora jer ih ponekad značajan dio
ispitanika bira kao točne. Ukoliko je to slučaj sa ispitanicima koji su visoko na konstruktu
potrebno je utvrditi razloge odnosno procese i logiku odabira tih odgovora. Moguće je da se
radi o odgovorima koji se mogu smatrati točnim ali ih autor testa nije predvidio.
Dodatna mogućnost jest da ponuđeni odgovori nisu dovoljno atraktivni tako da dio ispitanika
koji ne znaju točan odgovor do točnog odgovora dolazi eliminacijom odgovora koji nisu
prihvatljivi.
U navedenom primjeru dio ispitanika može eliminirati odgovore b), c) i d) jer im je poznato
da nisu u Nigeriji i odabrati odgovor a), iako nikada nisu čuli za taj grad. U ovom slučaju se u
većoj mjeri ispituje testna bistrina i rezoniranje nego znanje geografije.
11
Pr. 5. U testu znanja autor, na osnovi polazne taksonomije, nastoji ispitati očekivane ishode u
području statistike na tri razine:
b) Razina razumijevanja ili interpretacije: Ispitanik treba razumjeti bitne elemente nekog
pojma, te njegov odnos s drugim relevantnim pojmovima (Npr. Koje su pretpostavke za
izračunavanje koeficijenta rang korelacije?)
Pr. 6. Analiza odgovora u različitim vrstama upitnika u kojima se traži opis vlastitog
ponašanja, doživljavanja ili stavova može biti pod utjecajem različitih faktora kao što su
davanje socijalno poželjnih odgovora, simulacija, disimulacija i sl. Kao neka vrsta kontrole
odgovora moguće je uključiti tzv. skale laganje ili slične postupke koji mogu pružiti dodatni
uvid u proces odgovaranja. Pored toga odgovori se mogu povezati s nekim karakteristikama
ispitanika kao što su ugodnost, iskrenost i dr.
12
Pr. 8. U pojedinim slučajevima pitanjem se nastoji izazvati neki ciljani proces. Formulacija
pitanja ili neki drugi aspekt mogu aktivirati neki drugi proces različit od željenog. U tom
slučaju analiza procesa izazvanog pojedinim pitanjem može pružiti argumentaciju za nisku
valjanost pitanja. Kao primjer mogu poslužiti dva pitanja iz klasičnog upitnika za mjerenje
lokusa kontrole J. Rottera:
Pitanje 1:
a) Jedan od najvažnijih razloga postojanja ratova je u tome što ljudi nemaju dovoljno
interesa za politiku.
b) Uvijek će biti ratova, bez obzira na to koliko uporno ljudi pokušavali da ih spriječe.
Pitanje 2:
a) Često sam se sam(a) uvjerio(la) u to da će se doista dogoditi ono što se “mora” dogoditi.
b) Za mene se pouzdavanje u sudbinu nikad nije pokazalo tako uspješnim kao odluka da
sam(a) poduzmem neku akciju.
Osnovna ideja autora jest da odabir tvrdnje b) u prvom pitanju i tvrdnje a) u drugom pitanju
ukazuje na eksternalni lokus kontrole. Analiza odgovora može biti usmjerena na procese
izazvane s ova dva pitanja. U drugom pitanju zadatak ispitanika jest da procijeni osobno
uvjerenje o uzrocima događaja koje je sam iskusio. Prvo pitanje može u većoj mjeri ispitivati
opći stav ispitanika pri čemu ne mora biti usko povezano s osobnim lokusom kontrole.
Analiza procesa koje izazivaju ovako formulirana pitanja može biti dodatni pokazatelj njihove
valjanosti za mjerenje lokusa kontrole.
Analiza unutrašnje strukture kompozitnih testova najčešće uključuje kvantitativne analize kao
što su faktorska analiza, izračunavanje različitih koeficijenata zasnovanih na međusobnim
korelacijama dijelova testa, analiza strukture varijance dijelova ili ukupnih rezultata,
povezanost pojedinog zadatka s ukupnim rezultatom i sl. Prema Standardima (1999) analize
unutrašnje strukture testa mogu pokazati koliko odnosi između testovnih zadataka i
komponenata testa odgovaraju konstruktu na kojem je utemeljena interpretacija
testovnih rezultata. Autor pri konstrukciji testa najčešće postavlja određenu pretpostavku o
složenosti i dimenzionalnosti konstrukta koji se želi ispitati testom. U skladu s tim biraju se
zadaci ili pitanja tako da reprezentiraju područje sadržaja konstrukta odnosno eventualne
poddomene. Očekivanje autora može biti da unatoč sadržajnoj heterogenosti sadržaja pojedini
zadaci budu visoko povezani, tj. zasićeni jednim faktorom ili jednom latentnom dimenzijom.
Druga vrsta očekivanja može ići u smjeru kreiranja dvije ili više subskala koje zahtijevaju
različitu interpretaciju što uključuje i očekivanje o veličini povezanosti među subskalama ili
dimenzijama.
13
Među glavne prijetnje valjanosti u ovom kontekstu spada loše konceptualizirana
dimenzionalnost, odnosno pretpostavka o latentnoj strukturi testa. S druge strane unutrašnju
strukturu narušavaju zadaci s lošim psihometrijskim karakteristikama.
PITANJA A B
1. Općenito govoreći zadovoljan/zadovoljna
sam sobom. ,561 ,315
2. Želio/željela bih da imam više poštovanja
prema samom/samoj sebi ,386 ,149
3. Osjećam da nema puno toga čime bih se
mogao/mogla ponositi. ,769 ,591
4. Ponekad se osjećam potpuno
beskorisnim/beskorisnom. ,759 ,576
5. Sposoban/sposobna sam raditi i izvršavati
zadatke podjednako uspješno kao i većina ,463 ,214
drugih ljudi.
6. S vremena na vrijeme osjećam da ništa
ne vrijedim. ,684 ,468
7. Osjećam da sam isto toliko sposoban/sposobna
koliko i drugi ljudi. ,390 ,152
8. Osjećam da posjedujem niz vrijednih osobina. ,487 ,237
9. Sve više dolazim do saznanja da jako malo vrijedim. ,676 ,457
10. Mislim da vrijedim barem koliko i drugi ljudi. ,413 ,171
Ova vrsta analize pruža argumente za korištenje ukupnog rezultata kao mjere razvijenosti
konstrukta samopoštovanja. Iz gornje tablice može se uočiti da pojedina pitanja imaju
razmjerno niske komunalitete (npr. pitanja 2, 7 i 10). U nastavku validacije bilo bi korisno
provjeriti moguće razloge analizom sadržaja ovih pitanja, procesa koji izazivaju kod
ispitanika, i dr.
14
Pr. 2. Za iste podatke izračunata je prosječna korelacija među česticama upitnika. Prosječna
korelacija izračunata na 45 različitih korelacija iznosi 0,312 i predstavlja pokazatelj
homogenosti upitnika. Visoka korelacija među dijelovima kompozita ukazuje na homogenost
sadržaja. Posredno nam može ukazivati na vjerojatno visoku pouzdanost tipa unutrašnje
konzistencije, te vjerojatno postojanje jednog faktora u osnovi kovariranja dijelova
kompozita.
Pr. 3. Za iste podatke moguće je analizirati i stupanj u kojemu je svaki pojedini zadatak
povezan s ukupnim rezultatom, te koliko je varijanca u pojedinom zadatku objašnjiva na
osnovi preostalih zadataka u kompozitu.
A B
1. Općenito govoreći zadovoljan/zadovoljna
sam sobom. ,507 ,292
2. Želio/željela bih da imam više poštovanja
prema samom/samoj sebi ,344 ,181
3. Osjećam da nema puno toga čime bih se
mogao/mogla ponositi. ,681 ,514
4. Ponekad se osjećam potpuno
beskorisnim/beskorisnom. ,667 ,562
5. Sposoban/sposobna sam raditi i izvršavati
zadatke podjednako uspješno kao i većina ,434 ,261
drugih ljudi.
6. S vremena na vrijeme osjećam da ništa
ne vrijedim. ,608 ,550
7. Osjećam da sam isto toliko sposoban/sposobna
koliko i drugi ljudi. ,366 ,332
8. Osjećam da posjedujem niz vrijednih osobina. ,449 ,258
9. Sve više dolazim do saznanja da jako malo vrijedim. ,600 ,450
10. Mislim da vrijedim barem koliko i drugi ljudi. ,390 ,289
U ovom kontekstu mogu se provesti i druge različite analize koje ukazuju na stupanj u kojemu
se pojedini zadatak uklapa u strukturu testa. S tim ciljem mogu se nacrtati ili procijeniti
karakteristične krivulje zadataka, izračunati prosječne korelacije jednog zadatka s preostalim
zadacima ili procijeniti različiti koeficijenti koji ukazuju na stupanj u kojemu pojedini zadatak
15
mjeri generalni predmet mjerenja ili neki specifični faktor ukoliko analiza ukazuje na veći
broj faktora.
Pr. 4. Upitnik percepcije socijalne nepravde sastoji se od 8 pitanja, a očekivanje autora jest da
zahvaća dva izvora socijalne nepravde: obitelj i školu. Faktorska analiza ukazala je na dva
značajna faktora prema KG kriteriju. Nakon provedene varimax rotacije prvi faktor ima
karakteristični korijen 1 = 1,9 i objašnjava 23,8% ukupne varijance. Drugi faktor ima
karakteristični korijen 2 = 1.8 i objašnjava 22,40% ukupne varijance. Ukupno je s ova dva
faktora objašnjeno 46,2% varijance.
F1 F2
1. Moji roditelji su ponekad nepravedni prema meni. ,595 ,172
2. Ne osjećam da sam ravnopravni član moje obitelji. ,645 ,085
3. Moji roditelji kod mene primjećuju samo loše strane. ,776 ,078
4. Roditelji me kažnjavaju i kad nisam kriv/a. ,691 ,125
5. U mojoj školi nastavnici se ne odnose jednako prema svim učenicima. ,056 ,787
6. Nastavnici nemaju jednake kriterije za sve učenike pri
ocjenjivanju. ,017 ,823
7. Prema meni su u školi ponekad nepravedni. ,188 ,550
8. Osjećam da sam u jednakom položaju kao i drugi učenici. ,134 ,362
Komunaliteti svih 8 pitanja objašnjeni na osnovi dva zadržana faktora prikazani su u donjoj
tablici.
komunalitet
1. Moji roditelji su ponekad nepravedni prema meni. ,383
2. Ne osjećam da sam ravnopravni član moje obitelji. ,423
3. Moji roditelji kod mene primjećuju samo loše strane. ,608
4. Roditelji me kažnjavaju i kad nisam kriv/a. ,492
5. U mojoj školi nastavnici se ne odnose jednako prema svim učenicima. ,622
6. Nastavnici nemaju jednake kriterije za sve učenike pri
ocjenjivanju. ,678
7. Prema meni su u školi ponekad nepravedni. ,338
8. Osjećam da sam u jednakom položaju kao i drugi učenici. ,149
Ukoliko se na osnovi faktorske strukture kreiraju dvije subskale nepravde u obitelji i nepravde
u školi korelacija među njima iznosi r = 0,244. (p<0,01) što nudi dodatni argument za zasebnu
interpretaciju rezultata ispitanika na ove dvije dimenzije.
16
4. Podaci utemeljeni na odnosima s drugim varijablama
Analize povezanosti testovnih rezultata s vanjskim varijablama tradicionalno predstavljaju
važan izvor validacijskih podataka. S obzirom na sadržaj i značenje vanjskih varijabli
Standardi (1999) razlikuju tri slučaja:
a) Vanjske varijable mogu biti mjere nekih neovisnih kriterija za koje se očekuje da bi ih
promatrani test mogao predviđati,
b) Vanjske varijable mogu predstavljati druge testove za koje se pretpostavlja da mjere iste
konstrukte kao i promatrani test
c) Vanjske varijable mogu predstavljati testove koji mjere povezane ili sasvim različite
konstrukte u odnosu na promatrani test.
Korisnik teksta u svakom slučaju treba razmotriti značenje uporabe termina kriterij u svakom
pojedinom slučaju.
Analiza povezanosti testa i kriterija. Vrlo često se testovi u praksi koriste s ciljem da
omoguće predviđanje rezultata u nekoj vanjskoj neovisnoj mjeri ili kriteriju. Kriterij može
predstavljati mjeru uspješnosti ili učinka u različitim vrstama aktivnosti (uspjeh u određenoj
vrsti posla, uspjeh u zadanom studiju i sl.).
Pr. 1. U postupku izbora kandidata za posao voditelja poslovnice u jednoj banci korišten je
test APM (Ravenove progresivne matrice za napredne). Izračunata je korelacija između
rezultata u testu koji su kandidati ostvarili na postupku selekcije i uspješnosti u poslu.
Uspješnost u poslu procijenjena je od strane nadređenih nakon 12 mjeseci radnog staža.
Također su kao mjera uspješnosti u kriteriju prikupljeni podaci o poslovanju poslovnice u
protekloj godini te procjene zaposlenika vezane uz zadovoljstvo radom voditelja poslovnice.
Kriterijski rezultati kandidata primljenih uz primjenu testa APM uspoređeni su s uzorkom
voditelja poslovnica za čiji prijem nije korištena mjera inteligencije.
Pr. 2. Test apstraktnog rezoniranja korišten je u okviru prijemnog ispita za studij psihologije.
Na uzorku primljenih studenata izračunata je korelacija između rezultata u testu apstraktnog
rezoniranja i prosječne ocjene u preddiplomskom studiju. Opažena korelacija dodatno je
korigirana zbog redukcije varijabiliteta uzrokovanog selekcijom ispitanika.
17
Konvergentni podaci ili dokazi konvergentnosti zasnivaju se na povezanosti testovnih
rezultata i drugih mjera namijenjenih procjeni sličnih konstrukata. U ovom slučaju
postoje teorijski ili empirijski argumenti za očekivanje povezanosti između rezultata u
promatranom testu i vanjskoj varijabli.
Pr. 3. Autori su razvili novi upitnik za mjerenje lokusa kontrole. Rezultati dobiveni
primjenom novog upitnika korelirani su s rezultatima istih ispitanika u upitniku za mjerenje
lokusa kontrole J. Rottera koji je već dugo u uporabi i o kojemu postoji značajan broj
validacijskih podataka. Opažena korelacija iznosila je 0,54. Ova vrsta dokaza tradicionalno se
u literaturi opisivala kao dokaz kongruentne valjanosti, tj. povezivanje testa s nekom drugom
mjerom istog konstrukta.
Pr. 4. Autori su razvili novi instrument za mjerenje konstrukta potrebe za kontrolom. Ovaj
konstrukt definiran je kao relativno stabilna osobina ličnosti koja ukazuje na stupanj
motivacije pojedinca da kontrolira događaje u svom životu. Autori u teorijskoj
konceptualizaciji smatraju da je ovaj konstrukt različit od konstrukta lokusa kontrole. S ciljem
prikupljanja podataka o diskriminantnosti odnosno razlikovanju ova dva konstrukta rezultat u
novom upitniku koreliran je s Rotterovim upitnikom lokusa kontrole. Opažena korelacija od
0,14 potvrđuje različitost ova dva konstrukta.
18
5. Podaci utemeljeni na posljedicama testiranja
Iako se testovi u pravilu koriste s nekom zadanom namjenom u pojedinim slučajevima
posljedice testiranja mogu ukazivati na neočekivane ili neplanirane ishode. Ovaj aspekt
valjanosti privukao je značajnu pažnju istraživača i Standardi (1999) ih razmatraju kao
relevantan izvor informacija koji se može uključiti u analizu valjanosti testa.
Ovdje, međutim, treba razlikovati podatke koji su neposredno relevantni za valjanost od
onih koji mogu djelovati na odluke u socijalnoj politici, ali se ipak nalaze izvan okvira
valjanosti (Standardi, 1999). Primjene testova u postupcima selekcije ili izbora kandidata
mogu posljedično ukazati na razlike između različitih spolova, zanimanja, rasa, nacija, regija,
škola i sl. Autor, korisnici ili izdavači testova u takvim slučajevima trebaju prikupiti podatke
o potencijalnim razlozima i stabilnosti opaženih razlika. Jedna je mogućnost da validacijski
podaci ukazuju da se testom registriraju postojeće razlike između pripadnika definiranih
skupina a druga mogućnost jest da su razlike posljedica pristranosti testovnog sadržaja (npr.
uslijed podzastupljenosti nekih aspekata konstrukta) ili prisutnosti konstruktno irelevantne
varijance. U tom slučaju ove podatke i zaključke treba uključiti u osnovne interpretacije
testovnih rezultata. U situacijama selekcije kandidata za neki posao ove razlike mogu biti
prihvatljive u slučajevima kada postoje dokazi da pripadnici skupine koja ostvaruje bolje
rezultate u testu ujedno ostvaruju i bolje rezultate u kriteriju. U svakom slučaju ignoriranje
opaženih razlika može dovesti do smanjene valjanosti upotrebe testa kao i izvođenja netočnih
interpretacija i odluka zasnovanih na osnovi rezultata primjena testa.
Pr. 1. Tako npr. rezultati primjene M-serije te nekih sličnih verbalnih baterija za mjerenje
inteligencije ukazuju na sustavno postojanje razlike među spolovima iako u teoriji nema
konzistentnih dokaza o utemeljenosti ovakve razlike. Zadatak autora i korisnika testa jest da
pokušaju prikupiti dokaze iz kojih dijelova testovnog sadržaja (zadaci, subtestovi) proizlaze
ove razlike te koji su procesi u osnovi nastajanja razlika. Ponekad autori testa ovaj problem
rješavaju izradom zasebnih normi za muškarce i žene, ali ne ulaze u analizu razloga opaženih
razlika.
Ako se nekim testom registriraju razlike za koje ne postoje teorijski ili logički
argumenti preporučljivo je izbjegavati uporabu takvih testova kako bi se izbjegla potencijalna
pristranost.
Pr. 2. Većina testova kognitivnih sposobnosti ili općeg obrazovanja primarno je konstruirana
s ciljem ispitivanja individualnih razlika na zadanim konstruktima. Analiza rezultata u takvim
testovima često ukazuje na razlike između osoba iz mjesta različite veličine (gradovi, manja
mjesta, sela). Postojanje i veličina ovih razlika ne mora nužno biti sadržana u teorijskoj
konceptualizaciji testa već se javlja kao posljedica primjene testa. Interpretacija ovakvih
nalaza vrlo je osjetljiva i jedan smjer argumentacije može se zasnivati na nejednakom
iskustvu vezanom uz testove ili razlikama okolini u kojoj su se razvijali ispitanici koji potječu
iz mjesta različite veličine. U tom slučaju je opravdana izrada zasebnih testovnih normi za
mala i velika mjesta. Druga pretpostavka može biti da testovni rezultati ukazuju na stvarne
razlike u sposobnosti između osoba iz mjesta različite veličine a neki od argumenata mogu
biti migracije stanovništva koje dovode do negativne selekcije i sl. U svakom slučaju
interpretacija ovakvih razlika je vrlo osjetljiva i zahtjeva veliku količinu validacijskih
podataka. Posljedice površnih zaključaka na društvenoj razini mogu biti opasne i dalekosežne.
19
Pr. 3. U Hrvatskoj se posljednjih godina provodi Državna matura koja je zasnovana na
primjeni testova znanja. Valjanost i kvaliteta testova se kontinuirano provjerava od strane
stručnjaka a temeljna namjena testova jest ispitivanje razine u kojoj je pojedini učenik usvojio
programom predviđene obrazovne ishode iz pojedinog predmeta. Međutim rezultati u
testovima znanja na maturi koriste se i za neke druge namjene. Jedna namjena je da se
rezultati u testovima koriste kao elementi za predikciju uspjeha na pojedinim studijima. Za
ovu namjenu potrebno je prikupiti dodatne validacijske podatke. Na osnovi rezultata ponekad
se izrađuju rang liste škola ili županija prema uspjehu učenika u pojedinom predmetu.
Interpretacija ovakvih rang lista podrazumijeva prikupljanje dodatnih podataka jer u
suprotnom može dovesti do netočnih zaključaka. Jedna od posljedica uvođenja mature na
razini obrazovnog sustava jest da pojedini nastavnici ili škole izvođenje nastave prilagođavaju
načinima provjere obrazovnih ishoda putem testova na maturi jer se uspjeh na maturi
odražava na sudbine i učenika i škola (npr. analiziraju se sadržaji ranijih testova pa se nastava
prilagođava sadržaju testova) . To može utjecati na valjanost zaključaka izvedenih iz testovnih
rezultata. Zanimljiv slučaj dogodio se početnih godina uvođenja mature kada je jedan dio
učenika pristupio testu, ali su predali prazne listove za odgovore. Ovaj postupak imao je za
posljedicu snižavanje prosječnog rezultata svih učenika koji su izašli na maturu te posljedično
smanjenje praga prolaznosti. Autori i korisnici testova moraju analizirati uvjete i kontekst
primjene testova u širem opsegu nego što je to zadano osnovnom namjenom testa.
Pr. 4. PISA istraživanja ili PISA testiranja (Programme for International Student
Asessment) predstavljaju međunarodno istraživanje procjene znanja i vještina
petnaestogodišnjih učenika pod pokroviteljstvom OECD-a. Osnovana su s ciljem ocjenjivanja
razine obrazovanja među mladima u glavnim industrijskim zemljama i provode se svake tri
godine u više od 70 zemalja. Osnovni ciljevi PISA istraživanja usmjereni su na politiku
obrazovanja, a rezultati se objavljuju javno i omogućuju rangiranje zemalja u 3 područja:
matematika, prirodoslovlje i čitalačka pismenost. Rezultati omogućavaju zemljama
učesnicama praćenje promjena u postizanju ključnih obrazovnih ciljeva. Rezultati izazivaju
značajnu pozornost kreatora obrazovnih politika i uključuju analizu razloga i interpretacije za
visok ili nizak položaj pojedine zemlje na rang listi. Posljedice rezultata predstavljaju poticaj
za analizu metodoloških i psihometrijskih razloga (kvaliteta i komparabilnost uzoraka,
međukulturalna primjerenost testova) kao i analize faktora vezanih uz sustave obrazovanja
koji mogu dovoditi do razlika u položaju pojedine zemlje na rang listi.
20
C) PREGLED NEKIH STARIJIH TERMINA KOJI SU SE
TRADICIONALNO KORISTILI U LITERATURI ZA
OPISIVANJE RAZLIČITIH VRSTA ILI ASPEKATA
VALJANOSTI.
Iako nova izdanja Standarda (1999, 2014) namjerno izbjegavaju korištenje tradicionalnih
termina kojima se opisuju različite vrste ili aspekti valjanosti ovi termini mogu se pronaći u
literaturi, priručnicima za testove ili evaluacijskim tekstovima objavljenim u ranijem
razdoblju. Zbog toga je važno razumjeti temeljna značenja tih pojmova iako ponekad različiti
autori ne koriste iste termine u potpuno istom značenju ili opsegu. U nastavku su navedena
određenja pojedinih tradicionalnih vrsta ili aspekta valjanosti preuzeta iz stručnih rječnika i
literature.
Prilikom pisanja novih evaluacijskih tekstova važno je razumjeti kako ranije termine uklopiti
u nova značenja izvora validacijskih podataka.
Sadržajna valjanost (content validity) – Procjena o valjanosti testa ili mjernog postupka
na temelju sistematske logičke analize njegova sadržaja. Pri toj analizi procjenjuje se a) da li
je svaka čestica testa u skladu s polaznom definicijom konstrukta (hipotetske osobine koju test
treba mjeriti); b) da li sve čestice testa uravnoteženo reprezentiraju sve aspekte ponašanja koji
su teorijski indikativni za predmet mjerenja. Sadržajna validacija je zapravo početna faza u
razvoju svakog instrumenta. Ona je implicitno uključena u sam proces izbora i formuliranja
mjernih čestica. No za neke testove može biti i glavni oblik validacije (npr. za testove znanja).
21
Budući da se sadržajna valjanost temelji na logičkoj analizi i procjenama ona je zapravo jedna
vrsta apriorne valjanosti.
22
umjesto termina diskriminantna valjanost u srodnom značenju koriste termin divergentna
valjanost (npr. Nunnaly, Bernstein, 1994).
Kongruentna valjanost (eng. congruent validity) – (lat. congruere – podudarati se) Oblik
valjanosti testa utvrđen koreliranjem njegovih rezultata s rezultatima nekog drugog testa
konstruiranog da mjeri isti konstrukt, a čije su metrijske karakteristike poznate od ranije.
Apriorna valjanost (a priori validity) – Svaka procjena valjanosti mjernog postupka koja
nije utemeljena na empirijskim podacima i analizi rezultata mjerenja. Prema značenju ovaj
termin suprotan je empirijskoj valjanosti.
23