Professional Documents
Culture Documents
Samenvatting Testtheorie en Diagnostiek
Samenvatting Testtheorie en Diagnostiek
Samenvatting_testtheorie_en_diagnostiek.pdf
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
TESTTHEORIE
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
In Europa bleef men meer bij de individuele diagnostiek daarbij blijkt niet alleen dat de wijze
waarop de proefpersoon een taak verricht van belang is maar ook de houding t.o.v. zijn eigen
prestaties.
In Amerika en Engeland probeerde men het testen minder subjectief te maken door het vrijeantwoordenexamen te vervangen voor meerkeuze-toetsen. Daarnaast waren het vanaf nu
meer specialisten die verantwoordelijk waren voor het testen dan de docent.
In deze periode veranderde ook de definitie van intelligentie van een n-factor iets naar
verschillende factoren (woordenrijkdom, redeneren, geheugen, verbaal,...).
In dit hoofdstuk wordt nog even kort ingegaan op het ontstaan van de persoonlijkheidstests.
Eerst waren er observatietests die niet gestandardiseerd, onbetrouwbaar en subjectief waren.
Vervolgens is men letterlijk de vragen van interviews gaan gebruiken om schriftelijke
persoonlijkheidvragenlijsten te construeren. Een laatste methode van die tijd was het ontstaan
van projectietesten zoals de inktvlekken van Rorschach (1929) en de Thematic Apperception
Test (TAT-test) van Morgan en Murrey (1935). De bedoeling was dat mensen die die
vlekken of fotos zagen daar een verhaal bij bedachten en daaruit bleek dan wat voor een
persoonlijkheid ze hadden.
1.4 Van het begin van W.O. II tot heden
Deze periode staat gekend voor de expansie op alle terreinen van het testen. De beste
psychologen op het terrein van selectie, testontwikkeling en psychiatrische-medische keuring
werden allemaal ingeschakeld om voor het leger iedereen te plaatsen naar de kwaliteiten van
de soldaten. 9.000.000 mensen werden getest met de Army General Classification Test
(AGCT).
Na de oorlog is deze trend van testen in de VS gebleven. Ook in het onderwijs en
personeelsselectie. In 1949 werd daarvoor het Educational Testing Service (ETS) opgericht.
Het testen nog sneller is gegaan is door de ontdekking van het rekenmachine en de computer.
Europa is steeds een beetje achtergebleven op het gebied van testen maar in de zestiger jaren
ging Europa volgen in Amerikas voetsporen op het gebied van testen.
In Nederland was het in de veertig en vijftiger jaren nog steeds intutief testen, ze testte meer
in de vorm van verstehen. Er was hier geen ruimte voor objectiviteit of kwantitatieve
benadering. Hier gebruikte men nog steeds observatietests of projectietests.
Zelfs op school gebruikte men nog steeds de essay-examens. Maar medio jaren zestig begin
jaren zeventig deed hier de testtheorie zijn intrede. In deze periode ontstond het Centraal
Instituut voor ToetsOntwikkeling (CITO). In Nederland is er dan een vooruitgang gekend in
het kwalitatieve en kwantitatieve ontwikkelen van de testen.
Hiermee heeft de psychologische test definitief een wetenschappelijke plaats veroverd in de
Nederlandse psychologie.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Een tweede mogelijkheid is die waarbij er een keuzemogelijkheid is tussen ten minste
twee criteria, die onderling qua niveau of kwalitatief verschillend zijn. B.v. studierichting
keuze.
Voor sommige vragen is de absolute hoogte van verschillende scores in een testserie
minder belangrijk dan hun onderlinge verhouding. B.v. de sterke of zwakke punten van de
onderzochte of meer of minder genteresseerd
Ook kan een vergelijking worden gemaakt tussen de resultaten die een onderzochte op een
eerder of later tijdstip behaald.
Ook kan dit een beschrijving inhouden van een onderzochte persoon. Dit kan uit interne
rapportage bestaan waar een psycholoog een persoon observeert en hierover rapporteert.
Ook kan dit om externe rapportage gaan waarbij ouders zich tot een psycholoog wenden
met de vraag om een verklarende beschrijving van het gedrag vah hun kind in aanvulling
op of in plaats van een mondelinge bespreking.
Ook denken we aan de niet-directieve vorm van therapie, de counseling.
2. Het doen van uitspraken over groepen van mensen: Men kan hier verschillende sociale
klassen vergelijken. Het gaat hier in eerste instantie om het resultaat van vergelijkend
onderzoek zelf en is vooral genteresseerd in de grootte van het verschil. Vaak is dit een
voorstadium voor individueel onderzoek.
3. Het doen van uitspraken over situaties en methoden: Hier beoordeeld men vooral de
methoden (b.v. de behandeling, opleiding of benvloeding) en van verschillende situaties
(b.v. stress of leiderschap). Men gaat na welke procedure effectiever is en vergelijkt deze
met gebruik van een controle groep. Ook hier is het startpunt het groepsonderzoek. Een
voorbeeld is een schoolvorderingstoets waarbij de resultaten aan de prestaties van de
docent worden gekoppeld.
Averechtse diagnostiek: wanneer een test met een criterium correleert, kan men van deze
correlatie gebruik maken door voorspellingen te doen over de kansen op criteriumsucces,
bovendien werpt deze correlatie licht op het criterium zelf.( Hofstee)
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Niveautests voor gedragswijze het gaat om een prestatie die beoordeeld wordt
met een duidelijke norm voor wat goed en fout is.
o Experimentele tests afkomstig uit een experimenteel laboratorium
o Motoriektests bijv. met de vingers trommelen meten en
cordinatieproeven.
o Intelligentietests
o Karakter tests bijv. wilskracht meten
o Cognitieve stijl (wijze waarop men info wordt georganiseerd); perceptuele
stijl (hoe specifiek de waarnemingsgegevens, subjectief en selectief,
worden opgenomen en verwerkt)
Projectietests
o perceptietests Rorschachtest
o interpretatietests Thematic Apperception Test
o expressietests
o constructietests
o associatietests bijv. zin-aanvullingstest
o keuzetests
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Het gaat bij het onderscheid tussen cultuurvrije en niet-cultuurvrije tests meer om een
continum dan om een tegenstelling. Een zuivere cultuurvrije test bestaan niet en dus
is het ook zinloos om naar de constructie van zon test te streven. Natuurlijk zijn
verbale tests doorgaans cultuurgevoelig, maar dat houdt niet in dat non-verbale tests
dit niet zijn.
Om uitspraken te kunnen doen over de capaciteiten van de onderzochten, is het
noodzakelijk om ervan uit te gaan of ervoor te zorgen dat de vereiste skills volledig
worden beheerst. Er zijn 3 manieren om dit terug te brengen:
1. De skill-verschillen zelf tot minimum te krijgen (instructie uitbreiden en/of meer
opgaven geven)
2. De interpretatie en de testscores beperken tot dat gedeelte van de populatie dat de
skills heeft (bijv. test doen voor kleuren zien, die niet zo goed de kleuren kunnen
onderscheiden niet mee laten doen).
3. Invloed van de skill-verschillen vermindert door het ontwikkelen van skill
reduced tests.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Een gevaar is wel dat soms wordt vergeten dat betrouwbaarheid nog geen validiteit
inhoudt. Denk bv aan het gewicht van een tafel dat wordt gemeten met een meetlat. Elke
meting zal hetzelfde gemeten worden, maar wat je meet is niet het gewicht, maar de lengte
van de tafel.
Als advies wordt meegegeven de codering zoveel mogelijk van tevoren vast te stellen
(niet ad-hoc) en een zoveel mogelijk onafhankelijk persoon de codering uit te laten voeren.
4.2.2 Scoring van de keuze-antwoordenvorm
De voornaamste zorgen bij deze antwoordvorm zijn accuraatheid (correctiesysteem zo min
mogelijk fouten toestaan) en efficintie (tijd en kosten per gecorrigeerd formulier, met behoud
van nauwkeurigheid, zo laag mogelijk).
Drie mogelijkheden;
Handscoring; correctoren tellen aantal goede of foutgemaakte, en/of onvoltooide of
overgeslagen opgaven (dmv een goed ingevuld voorbeeld, een transparante sleutel of
een kartonnen sleutel (meestal een goedsleutel n en foutsleutel).
Problemen; scoring tweemaal moeten uitvoeren en de tijdsduur.
Zelfscoring; deze vorm kent verschillende versies. Bij de bekendste vorm wordt onder
het antwoordformulier een tweede vel geplaatst. Via een doordrukmethode wordt de
scoring van de persoon meteen op dit formulier geregistreerd zodat alleen de
verschillende scores opgeteld hoeven te worden. Deze methode is sneller en
efficinter, alleen de kosten liggen weer iets hoger.
Machinale scoring; bij deze snelste methode van verwerking worden schrapkaarten
gebruikt waarop het juiste antwoord aangekruist kan worden, en die in een computer
verwerkt worden. Een andere mogelijkheid is respondenten via een beeldscherm dat is
aangesloten op een computer, de items presenteren zodat de antwoorden direct
verwerkt kunnen worden. Vooral bij de verwerking van grote aantallen gegevens is dit
een nuttige methode
4.2.3 Toevalscorrectie
Alleen bij de keuze-antwoordenvorm moeten we aan de toevalscorrectie denken. We maken
er gebruik van om te voorkomen dat de respondent door te gokken de score kan verbeteren.
Dit bezwaar vermindert als er meer keuzemogelijkheden zijn. Maar zoals heironder duidelijk
wordt, zijn de meeste van de hieronder genoemde bezwaren zo steekhoudend, dat het vaak
beter is de correctie niet te gebruiken, zelfs als een unanieme antwoordstrategie gebruikt
wordt (denk aan bezwaar 5 hieronder).
De meest gebruikte formule is:
Xc X
kX
A 1
Xc = gecorrigeerde score
X = aantal goed
k = aantal items
k X = aantal fout A = aantal antwoordmogelijkheden
De gedachtegang is dat er bij het niet-weten van het goede antwoord wordt gegokt;
tegenover elk goed geraden antwoord staan (A 1) fout gegokte antwoorden. Men moet het
totaal aantal goed dus verminderen met 1 / A 1) maal het aantal fout. Bij een twee-keuze
item (A = 2) wordt de gecorrigeerde score dan Xc = 2X k
Hetzelfde principe geldt voor een correctie waarbij een respondent voor een
onbeantwoorde vraag toch punten ontvangt. Als aantal 'fout' = Xf, dan geldt dat k X Xf
items onbeantwoord zijn gebleven. Naar verwachting zouden bij blind raden hiervan
(1 / A) (k X Xf) items goed zijn beantwoord. Dit aantal wordt opgeteld bij aantal 'goed':
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Xc X
k X Xf
A
Kritische kanttekeningen:
Deze formules gaan uit van de lang niet altijd rele vooronderstelling dat er een
scherp onderscheid is tussen wel en niet weten van een vragen. Er wordt dus geen
rekening gehouden met partile kennis (rele giskans kan dus groter of kleiner zijn dan
de theoretische, blinde giskans). Denk bv aan het wegstrepen van antwoorden die
zeker niet kunnen volgens respondent. Deze correctie geldt dus alleen wanneer voor
de respondent alle antwoordmogelijkheden even plausibel lijken (dat gebeurt bijna
nooit).
De mogelijkheid bestaat dat iemand een fout antwoord geeft op basis van onjuiste info
of verkeerd inzicht. Het zou onrechtvaardig zijn om daar ook nog eens een keer extra
punten voor af te trekken.
De voor toeval gecorrigeerde scores suggereren ten onrechte een grotere spreiding
(denk aan 2-keuzevragen; 2 maal zo groot gewicht zonder effectiviteit te vergroten).
Een praktisch bezwaar is dat dit soort formules de scoring complex maakt en de kans
op fouten doet toenemen. Hoe simpeler de bewerking, hoe minder fouten naar
verwachting op zullen treden.
Nog een praktisch bezwaar heeft te maken met dat de gecorrigeerde score Xc een
lineaire functie is van X (af te leiden uit eerste formule):
Xc
A
k
X
A 1
A 1
A / (A 1) is dus een positief getal. Onder deze twee condities (lineariteit en een positieve
cofficint) geldt dat de correlatie tussen X en Xc gelijk is aan n.
Consequenties:
1) Ordening van personen volgens Xc is dezelfde als die volgens X.
2) Correlatie van X en een andere testscore Y is identiek aan de correlatie tussen Xc en
Y, wat impliceert dat men met beiden score even goed een criteriumscore Y voorspelt.
3) De nauwkeurigheid (of betrouwbaarheid) van X en Xc is gelijk.
Dit alles is ook toepasbaar op tweede formule van hierboven.
4.2.4 Weging
De laatste vraag die zich voordoet is of men alle vragen even zwaar moet wegen. Je zou
zeggen dat je de vragen die het kenmerk van de test het best meten zwaarder telt dan de
vragen die het kenmerk minder goed meten. Dit brengt naast veel extra werk, niet veel
voordeel met zich mee omdat de hoge correlaties tussen de testitems ervoor zorgen dat de
verschillen tussen de gewichten niet zo groot zijn. Dan kun je je tijd beter besteden aan het
uitbreiden van je test.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
meer info hebben. We kunnen drie soorten bewerkte scores onderscheiden waar we het deze
paragraaf over gaan hebben;
Vergelijking met een absolute standaard (bv. je hebt 5 fout, maar van de hoeveel?).
Gebaseerd op deling door leeftijd, schoolklas e.d. (bv. goede of slechte prestatie
gezien je leeftijd of opleiding?).
Gebaseerd op relatieve positie in vergelijkingsgroep (bv. hoe hebben anderen het
gemaakt?).
Er is duidelijk verschil tussen een bewerkte score en een norm. Niet iedere bewerkte score
heeft een normkarakter. Verschillende bewerkingen zijn onafhankelijk van prestaties van
anderen, terwijl afhankelijkheid juist voorwaarde is om te spreken van testnormen. Andere
bewerkingen blijven beperkt tot een toevallige groep (examenkandidaten, sollicitanten etc.),
en ook dan is er nog geen sprake van normen (gaat al wel om vergelijking).
Een norm is een referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd
op kenmerken van de distributie (geschat op basis van een representatieve steekproef) van de
ruwe scores in een populatie. Normen zijn dus afhankelijk van de normeringssteekproef (om
distributiekenmerken vast te stellen), en bij het handhaven ervan treffen we een vergelijking
van de score met de scoreverdeling binnen de referentiegroep. Je kunt dus meteen de prestatie
van een individu waarderen (inschatten), en toevalligheden (van een individu) hebben geen
invloed meer, en men is niet meer afhankelijk van het niveau van de rest van de groep.
Soms heb je geen norm nodig, dan volstaat een eenvoudigere vorm van bewerkte
scores. Dan is bv de rangschikking (plaats tov anderen) in de groep voldoende (bv bij
sollicitatie). Soms heb je zelfs genoeg aan ruwe scores als je alleen genteresseerd bent in
samenhang tussen test- en criteriumscores (omzetting is dan niet noodzakelijk).
De overgang van vergelijking binnen een onderzochte groep naar 'gebruiken van'
normen is vloeiend (hoe groter de groep, hoe meer norm weerspiegeld wordt).
Twee dingen zijn van belang; 1) Bij normerings- of testonderzoek dienen de kenmerken van
de onderzochte groep vermeld te worden (om te weten of normsteekproef geschikt is), en
2) normen dienen niet als te absoluut gezien te worden (denk aan dat met een verandering van
de populatie, de normeis ook verandert).
4.4.1 Vergelijking met een absolute standaard
Het gaat dus om de vraag hoe goed de prestatie van een persoon is in vergelijking met een
absolute maatstaf. Deze maatstaf kan subjectief en arbitrair zijn (1 fout, half punt minderregeling), of gebaseerd zijn op analyse van het te meten gebied van kennis, inzicht of
vaardigheden. Dit noemt men (vooral als vraagstuk in het onderwijs gezien) 'criterionreferenced versus norm-referenced measurement', of 'absoluut tegenover normatief meten'.
Absoluut meten werd gezien als nieuwe dimensie omdat het geen onderlinge vergelijking
inhoudt. Hierbij wordt een zware wissel getrokken op de formulering van de doelen van het
proces dat men bij de onderzochte wil evalueren (leerproces, aanpassingsproces, training).
Verder wordt gekeken naar of de mate waarin die doelen zijn verwezenlijkt op een
betrouwbare manier te meten valt (is dit niet zo, dan krijgt absoluut meten een arbitrair
karakter).
Als het juist wel gaat om die vergelijking tussen de onderzochten (dus het constateren
van verschillen) dan is gebruik van een normering waarbij deze onderlinge verschillen
gemaximaliseerd (zoals bij KTT) worden het beste, en is een vorm van absoluut meten minder
geschikt.
4.4.2 Verhoudingsnormen
Bij deze vorm van scorebewerking worden testscores gedeeld door een andere variabele
(leeftijd, klasse) en daardoor onafhankelijk gemaakt van de betreffende variabele. Het
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
bekendste voorbeeld is het IQ aan de hand waarvan deze paragraaf verder ingericht is. IQ
werd gemeten als het quotint van de mentale leeftijd (ML) en de chronologische leeftijd
(CL) (echte leeftijd in jaren), maal 100
IQ
ML
100
CL
Er worden vragen voorgelegd die bij een bepaalde leeftijd horen. Dat begint bij een leeftijd
waarvan men verwacht dat het kind alle vragen van onder die leeftijd goed zal beantwoorden.
De basale leeftijd (bl) van een kind is de leeftijd (die bij het niveau van de vragen hoort)
waarbij er nog geen vragen fout beantwoord worden. Het aantal fouten zal toenemen
naarmate het niveau van de vragen met de leeftijd (die bij het niveau van de vragen hoort)
toeneemt. Ieder goed beantwoorde vraag (g) telt verder voor jaar. Dus:
ML bl
g
4
Kritische kanttekeningen
1. Zuiverheid van begrippen. Het lijkt alsof twee exact vergelijkbare leeftijdsmaten
worden vergeleken, maar ML is een testscore gebaseerd op goedgemaakte opgaven, en
CL is dat niet. Het is dan dus ook zinloos deze twee op elkaar te delen. Het gaat niet
om vergelijking van twee maten van dezelfde persoon, maar om een vergelijking met
prestaties van anderen. Verder zal na het 15de levensjaar de ML niet meer toenemen,
terwijl de verstandelijke bagage e.d. natuurlijk wel toe blijft nemen. Testscores boven
de 15 jaar zouden dus geen verschillen meer opleveren tussen verschillende leeftijden.
Dus een 20-jarige zou de gemiddelde ML van een 15-jarige hebben. We hebben hier
dus te maken met normen. De selectie van de vragen had immers plaats op basis van
een percentage correcte antwoorden in een normpopulatie.
2. De waarde van het begrip IQ zou in haar constante karakter te liggen. Het IQ vertoont
in haar ontwikkeling juist veel schommelingen. 1) De test bevat vragen die evenzeer
van scholing en vorming als van intelligentie afhankelijk zijn. 2) De psychologische
groei wordt benvloed door lichamelijke en fysiologische groeifactoren (veel
verschillen tussen kinderen). 3) Wijzigingen in leermogelijkheden en motivatie, en
emotionele bereidheid van kinderen om hiervan gebruik te maken kunnen zorgen voor
belangrijke wijzigingen in hun relatieve positie tov leeftijdsgenoten, en dus hun IQ.
Doordat met ten onrechte twee dingen in n getal wil combineren (prestatie van het
kind in vergelijking met leeftijdgenoten, en plaats die het kind inneemt binnen eigen
leeftijdsgroep) ontstaan 'ongerijmdheden'.
3. In normale gevallen blijft men bij het berekenen van het IQ boven de hoogste leeftijd
waar beneden de test nog onderscheid maakt nog delen door deze topleeftijd. De
intellectuele prestaties van mensen lopen echter terug met toename van de leeftijd. Als
je ouder wordt blijf je dus wel delen door een steeds hoger wordend getal, terwijl je
mentale capaciteiten achteruit gaan.
4. Veel testen voldeden niet aan een evenredig toenemende spreiding bij hogere
leeftijden. Een jaar achterstand op 6-jarige leeftijd is immers twee keer zo 'erg' als een
jaar achterstand op 12-jarige leeftijd. Wanneer men deelt door een steeds groter
worden noemer (toenemende leeftijd), moet spreiding van de prestatie op hogere
leeftijden steeds groter worden om de breuk constant te houden.
Ondanks de bezwaren van het begrip IQ is het wel zinvol als ontwikkelingsbegrip.. Er kan
gekeken worden of een kind in zijn/haar ontwikkeling 'voor' of 'achter' is door dat af te leiden
uit een vergelijking van zijn leeftijd met die van de categorie kinderen die dezelfde
testprestatie leveren.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Sx
1
( )
n
Om kleine of negatieve getallen tegen te gaan wordt het gemiddelde gesteld op 100 of 50 en
de spreiding op 20 of 10. De vorm van de verdeling blijft zo wel in stand. Als de verdeling
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
door bv specifieke karakteristieken van de populatie scheef wordt, mag je niet meer zeggen
dat bv 16% van de scores hoger is dan z=1. Standaardscores behouden dus (op gemiddelde en
sd na) dezelfde verdelingskenmerken als de originele scores. De wijzigingen zijn lineair van
aard (net als de wijziging van seconden naar minuten); lineaire standaardscores.
2. Als de transformaties niet lineair van aard zijn noemen we ze genormaliseerde
standaardscores. Er ontstaat hierbij een normaalverdeling. De constructie van de
genormaliseerde standaardscores gaat als volgt; Men zoekt uit welke ruwe scores de
percentages markeren die horen bij de standaardscore eenheden in een normaalverdeling.
De ruwe scores worden vervolgens omgezet in genormaliseerde standaardscores. We
moeten wel in het oog houden dat dit geen rechtvaardiging is voor het zogenaamd
normaal verdeeld zijn van intelligentie. Bij het testen van een eigenschap als intelligentie
ligt de situatie geheel anders dan bij de direct meetbare eigenschappen lengte en gewicht.
De vorm van de intelligentieverdeling is nooit los te denken van de test waarmee die
intelligentie gemeten wordt (te makkelijke items zullen zorgen voor een scheefheid naar
links van de verdeling, te moeilijke items zullen zorgen voor een scheefheid naar rechts).
Door enkele kunstmatige ingrepen (items weglaten of invoegen) is de verdeling dan
normaal te maken.
Deze omzetting in genormaliseerde standaardscores wordt gerechtvaardigd door het
gemak en de bruikbaarheid ervan. Doordat bij gebruik van deze scores intervalschaal
verondersteld wordt (met gelijke eenheden), onderscheiden deze standaardscores zich van
andere categorien.
Tot de categorie van genormaliseerde standaardscores behoren de volgende (meest
voorkomende) vormen;
1) De T-scores waarbij een gemiddelde aangenomen wordt van 50 en een spreiding
van 10 (verdeling ligt dus praktisch tussen 20 en 80).
2) De stanines; standard scores from nine eenheden; gebruikt om zoveel mogelijk
testinformatie in een kolom te verwerken. Deze scores komen niet exact overeen
met een bepaalde ruwe score (bij T-scores is dat wel zo), maar ze
vertegenwoordigen een breedte van 0.5 Sx. Het gemiddelde van de 5de stanine
komt overeen met het gemiddelde van de verdeling. Toekenning van de stanines
aan de verschillende verdelingssegmenten geschiedt volgens op normaalverdeling
gebaseerde tabel; stanine 1 t/m 9, 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%.
3) Het deviatie-IQ; gaat om standaardnormen met een gemiddelde van 100.
Testprestaties per leeftijdsklasse worden verwerkt tot genormaliseerde
standaardscores. Testprestatie van een persoon wordt vergeleken met de tot diens
leeftijd behorende normaalverdeling.
Scores in de WAIS per leeftijd; gemiddelde=100, sd=15
P.93; overzicht van verschillende bewerkte scores (zoals behandeld in dit hoofdstuk) voor
snelle onderlinge vergelijking van de diverse scores.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Vooraf: mijn samenvatting bevat heel veel formules. Ik verwijs dan naar het boek, want ik
weet niet goed waar al die tekens hier op word te vinden zijn en dan wordt het allemaal te
onduidelijk.
Hoofdstuk 5 Betrouwbaarheid
Betrouwbaarheid wil in het kort zeggen: herhaalbaarheid van metingen, dus in hoe verre,
wanneer een test onder gelijkblijvende condities tweemaal of vaker aan dezelfde persoon
wordt voorgelegd, varieert de verkregen testscore dan over deze testsessies?
5.1 herhaalbaarheid van metingen
Het herhaald voorleggen van dezelfde test levert vaak dezelfde score, een hogere score of een
lagere score op, omdat (respectievelijk):
- men zich herinnert wat hij vorige keer geantwoord heeft
- men leert bij
- men leert zich verkeerde trucjes aan
Een zinvolle herhaling wordt dus bemoeilijkt door geheugen- en leerprocessen. Ook spelen
allerlei kenmerken van de testomgeving en testprocedure mee, die van invloed zijn op de
testscores. Herhaalbaarheid van metingen moeten we ons dus hypothetisch voorstellen.
Er zijn dus invloeden op de testprestatie werkzaam die onvoorspelbaar of onsystematisch
varieren over herhaalde afnemingen van een test. Maar over een groot aantal herhaalde
metingen bij dezelfde persoon heffen voor- en nadelen mekaar op.
Herhaalbaarheid van metingen kan worden beoordeeld indien we een persoon vele malen
dezelfde test onder gelijkblijvende condities kunnen voorleggen. De afnemingen dienen
onafhankelijk van elkaar te zijn. In deze situatie zijn er bij verschillende afnemingen factoren
werkzaam die de testprestatie op een onvoorspelbare wijze benvloeden.
5.2 De klassieke testtheorie
In de klassieke testtheorie wordt iemands testscore opgesplitst in een constant of systematisch
deel en een toevallig of niet-systematisch deel. De geobserveerde testscore van persoon i
behaald tijdens replicatie j van een specifieke test geven we aan met Xij. De opsplitsing van
Xij in een systematisch deel T en een toevallig deel E.
Xij = Ti + Eij
[5.1]
Het toevallige deel Eij varieert bij replicaties op een onvoorspelbare wijze. De beide score
componenten zijn gedefinieerd als:
[5.2] en [5.3]
T = de betrouwbare score en E = de meetfout.
Omdat positieve en negatieve invloeden uiteindelijk tegen elkaar wegvallen is de gemiddelde
meetfout gelijk aan nul. [5.4]
Voor een specifieke persoon i geldt dat over onafhankelijke replicaties de spreiding van de
geobserveerde scores gelijk is aan de spreiding van de meetfouten. [5.5] en [5.6]
Voor een willekeurig persoon i luidt het klassieke testmodel:
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Bij zich weinig wijzigende eigenschappen geeft de test-hertestmethode een goede indruk van
de betrouwbaarheid volgens de parallelvorm-methode. Zodra er veranderingen optreden in de
gemeten eigenschap is dat echter niet meer het geval. Die veranderingen zijn het gevolg van
het feit dat men voor de tweede maal dezelfde test maakt. Wanneer deze veranderingen voor
alle mensen even sterk zou zijn dan zou men in termen van testscores bij iedereen dezelfde
verandering kunnen verwachten, maar het probleem is dat mensen verschillen in de mate
waarin zij leren. Ook kun je te maken hebben met het afnemen van de beschikbare groep van
respondenten naarmate het tijdsinterval tussen de 2 testen groter wordt. Hieruit volgt dat X1
en X2 vaak niet als onafhankelijke replicaties kunnen worden beschouwd. Derhalve zal
r(X1,X2) in veel gevallen in de populatie te laag of te hoog uitvallen.
De splitsingsmethode
Een test wordt opgedeeld in 2 even lange helften die in het ideale geval parallel zijn. Achteraf
wordt per testhelft een ruwe score bepaald. Indien beide scores werkelijk parallel zijn, dan is
hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test.
Ten slotte wordt een correctie uitgevoerd op de verkregen betrouwbaarheid teneinde de
betrouwbaarheid van de gehele test te kunnen bepalen.
[5.25] en [5.26]
waarbij rxx = de betrouwbaarheid van de score op de oorspronkelijke test
en rkk = de betrouwbaarheid van de score op de test na verlenging of verkorting
K = verlengings- verkortingsfactor.
Een evenwichtige spreiding van gemakkelijke en moeilijke items over beide testhelften is het
beste. Een selectie van items volgens even en oneven rangnummers lijkt dit probleem
nagenoeg op te lossen. Ook is het aan te raden om in verschillende versies items te kiezen die
inhoudelijk veel op elkaar lijken.
De interne-consistentie-methode
Deze methode is gebaseerd op de inwisselbaarheid van individuele items in een test. Alle
covarianties tussen de items worden berekend, alsmede de variantie van de ruwe score X.
Tezamen met het aantal items, k, worden deze resultaten ingevuld in een van de vele
cofficinten van interne consistentie. Deze cofficinten worden dan gebruikt als schattingen
van de betrouwbaarheid.
Aantonen dat alfa ondergrens is voor betrouwbaarheid :[5.27] , [5.28] [5.29] [5.30] [5.31]
[5.32] [5.33] [5.34] [5.35] hieruit volgt: [5.36]
Hieruit volgt dat alfa praktisch gezien altijd een systematische onderschatting levert van de
betrouwbaarheid. De formules voor alfa zijn [5.37] en [5.38].
Een alfa waarde van 0.90 kan karakteristiek zijn voor een lange test met lage inter-itemcorrelaties, maar ook voor een korte test met hoge inter-item-correlaties. Een toenemende
waarde van alfa brengt daarentegen wel tot uitdrukking dat de systematiek van de meting
steeds meer de overhand krijgt ten opzichte van toevallige scorecomponenten in de
testprestatie. Ook kan alfa een hoge waarde hebben terwijl de test in sterke mate heterogeen
is. Binnen een specifieke deelgroep correleren de items hoog, maar items uit verschillende
deelgroepen correleren laag. We prefereren alfa dus als ondergrens van de betrouwbaarheid.
Alternatief voor alfa is lambda-2 [5.39] met [5.40].
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
modellen van birnbaum een adequate verklaring geven voor testgedrag dat men dan ook het
rasch-model mag gebruiken.
Het strengste model van de twee Birnbaum-modellen is het model met twee itemparameters.
De functie van het model met de twee item-paramters wordt weergegeven in figuur 6.3
De items in een test die aan de eisen van dit Birnbaum-model voldoen hebben in de regel een
verschillend discriminerend vermogen. De items hoeven niet allemaal van dezelfde kwaliteit
te zijn, wat wel het geval is in het Rasch-model. Een overeenkomst van dit model met het
Rasch-model is dat voor lage Q-waarden de succeskans tot nul nadert.
Populatieonafhankelijk meten van personen is bij het Birnbaum-model problematisch.
Meting van de persoon is wel onafhankelijk van de item-moeilijkheid maar niet van het
discriminerend vermogen. Om de Q-waarden te bepalen is het nodig dat eerst de
discriminatie-parameters bepaald worden. Deze discriminatieparameters spelen bij het Raschmodel geen rol aangezien ze identiek zijn voor alle items.
Wanneer men een minder streng testmodel kiest gaat dit gepaard met verlies aan
meeteigenschappen.Door middel van het Birnbaum-model kunnen alleen de personen
populatie-onafhankelijk worden gemeten maar niet de items.In het Rash-model kan dit laatste
wel.
Het tweede en minder strenge model van Birnbaum is het model met drie parameters. Deze
functie wordt weergegeven in figuur 6.4. Meetwaarden bij dit model zijn
populatieonafhankelijk te bepalen wanneer de populatieafhankelijke itemkenmerken bekend
zijn.
Verder wordt er in het boek niet echt diep ingegaan op het model van Birnbaum met drie
parameters .
6.2.3 De modellen volgens Mokken:
Mokken heeft twee item-response-modellen gepresenteerd die belangrijke verschillen
vertonen met de modellen volgens Rasch en Birnbaum.
Het minst restrictieve model volgens Mokken(= het model van monotone homogeniteit)
Mokken gaat ervan uit dat over veel psychologische begrippen zo weinig kennis dat het
gebruik van de relatief restrictieve Rasch en Birnbaum-modellen niet door dergelijke kennis
gerechtvaardigd kan worden. Dit is de rede dat Mokken in eerste instantie uit gaat van een
model waarin het antwoordgedrag van respondenten niet wordt beperkt door de keuze van een
specifieke response-formule. De enige restrictie die aan de item-karakteristieke-functies wordt
opgelegd, is dat zij monotoon niet-dalend zijn. Verder moet het antwoordgedrag op alle items
een afspiegeling zijn van dezelfde psychologische eigenschap. De enige restrictie op het
antwoordgedrag is dat een toenemende meetwaarde gepaard gaat met een toenemende of
constante succeskans. De modellen volgens Rasch en Birnbaum zijn speciale gevallen van het
eerste model van Mokken. In de Rasch-en Birnbaum-modellen wordt de item-karakteristieke
curve door een specifieke functie vastgelegd en dit gebeurt in het eerste Mokken-model niet.
Bij het eerste model stellen we zonder verder bewijs ervoor vast dat de ordening van personen
populatie-onafhankelijk is.
Het tweede model volgens Mokken is het model van dubbele monotonie. Dit model leid wel
tot populatie-onafhankelijke ordeningen van zowel personenals van items. Het model van
dubbele monotonie is een speciaal geval van het eerste model volgens Mokken(= model van
monotone homogeniteit).Bij dit model wordt er eveneens vanuit gegaan dat de itemkarakteristieke-functies monotoon niet-dalend zijn. Bovendien mogen de functies elkaar niet
snijden! De discriminatieparameter en de pseudokansniveauparamter spelen in het tweede
model geen rol , de moelijkheidsparamter daarentegen wel.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
De tweede strategie:
Bij de tweede strategie wordt er een verband gelegd tussen eigenschappen van personen
enerzijds en kritische kenmerken van items in vergelijking met onpartijdige items anderzijds.
De derde strategie:
De derde strategie is het experimentele onderzoek naar oorzaken van vraagonzuiverheid. Kok
beschrijft hierbij een toets waarin items uit een rekentoets werden gemanipuleerd door
moeilijke woorden te vervangen door makkelijkere woorden. Bij de gewijzigde versie ging
men er van uit dat deze minder partijdig zou zijn t.o.v Turkse en Marokkaanse kinderen.
6.4.5 Afwijkende scorepatronen:
Wanneer bekend is dat het gedrag van leden van een specifieke populatie beschreven kan
worden met behulp van een item-response-model , dan bevat de Q waarde alle informatie over
deze personen die met deze test te verkrijgen is. Toch kan het gebeuren dat sommige
individuen uit de populatie in hun testgedrag afwijken van de meerderheid. Dit afwijkende
gedrag kan er voor zorgen dat er een patroon van item-scores onstaat dat niet waarschijnlijk is
voor iemands Q waarde en voor de itemkenmerken.In een dergelijke situatie moet je
concluderen dat de Q waarde niet alle informatie over het individu bevat en de additionele
informatie te verkrijgen is op basis van de afwijkendheid van het scorepatroon. ( zie blz 168
voor een drietal voorbeelden van situaties waarin afwijkende patronen te verwachten zijn ).
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
HOOFDSTUK 7
VALIDITEIT EN BETEKENIS
Begrip validiteit heeft betrekking op de vraag of die sprong van testgedrag naar iets anders
verantwoord is. Proces van verzamelen van evidentie van deze rechtvaardiging heet
validerings- of validatie proces. De mate waarin die rechtvaardiging kan worden gevonden
wordt aangegeven door de term validiteit.
1. Predictieve validiteit (voorspellend), selectie, beroepsadvisering, enz.
2. Begripsvaliditeit (van belang in het kader meten, eigenschap)
Onderzochte in psychologische termen begrijpen en beschrijven
Validiteit van test geeft aan in hoeverre deze aan zijn doel beantwoordt, waarom vaststelling
van deze validiteit moet worden gebaseerd op de relatie tussen de test en andere variabelen of
tests die alle zijn op te vaten als operationaliseringen van hypothetische begrippen.
Vier Soorten Validiteit:
1. predictive validity (verschil deze en eerder genoemde, deze alleen toekomst, komt veel
voor in de praktijk)
Heeft betrekking op relatie tussen testprestaties en op een later tijdstip verkregen
criterium prestaties.
Schatting die wordt verkregen door na te gaan in welke maten de voorspellingen, gedaan
op basis van testprestatie, worden bevestigd door gegevens of observaties verzameld op
een later tijdstip.
2. concurrent validity
Deze vorm van validiteit wordt beoordeeld door na te gaan hoezeer test resultaten
corresponderen met gelijktijdig beschikbare criteriumgegevens. Deze vorm komt ook vrij
veel voor.
V.b. valideren van test door testresultaten van leerlingen te vergelijken met gelijktijdige,
b.v. door leraar uitgevoerde prestatiebeoordelingen
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Bepalen van samenhang tussenscores op twee equivalente tests. Hiervan wordt schatting
verkregen door te beoordelen hoezeer de inhoud van de test
4. construct
Het gaat er in betekenisanalyse dus om het vinden en bevestigen van een theorie of een
theoretisch begrip als verklaring voor het testgedrag.
Dit gebeurt aan de hand van trekvaliditeit (verklaring aan een persoonlijkheidstrek), of
Nomologische validiteit waarbij een hele theorie ter sprake komt. Trekvaliditeit wordt in
psychologie voornamelijk gebruikt, omdat eisen die door de nomologische gesteld zijn nog
niet zijn voldaan.
Eenmaal trek- of nomologische netwerk als verklaring gekozen start de begripsvalidering.
Er kunnen nu twee soorten voorspellingen worden gedaan:
1. confirmerende voorspelling
2. discriminerende voorspelling
7.4.2. Op zoek naar de betekenis
Vaak zijn de betekenis en de theorie vaag, onhelder, of geheel afwezig.
Daarom>>> betekenisanalyse langs 2 wegen:
1. Structuuronderzoek
2 suggesties: > psychologische analyse van de inhoud van de vragen en opdrachten
> Analyse van de meer formele kenmerken van de test
2. Relatieonderzoek
Hier gaat het om het reflatieonderzoek als bron voor ideen, niet ter toetsing van de `
hypothesen.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
spreiding en norm
experimenten
factoranalytisch onderzoek
predicties (wat de test kan voorspellen)
7.5
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Er kan ook een onderscheid worden gemaakt op de vraag of de beslissingen in een enkele fase
worden genomen (single-stage of non-sequential decisions), of dat het hele
beslissingsproces in verschillende fasen verloopt (sequential decisions) vb: voorselectie.
8.2 Enkelvoudige selectie-c.q. afwijzingsmodel
Van enkelvoudige selectie is sprake indien individuen worden onderzocht ten aanzien van een
enkel criterium, waarbij er slechts twee mogelijkheden zijn: onderzochte voldoet niet of
onderzochte voldoet wel aan de eisen. Het gaat hierbij om institutionele beslissingen, waarbij
wordt uitgegaan van univariate informatie.
8.2.1 Het gebruik van een enkele test
De effectiviteit van de selectie hangt van meer factoren af dan van alleen de validiteit van de
test. Bij een afwijzingsmodel is het belangrijk de correlatie te weten met het criterium.
Zie voor onderstaande; figuur 8.3 in boek (pag.226)
-Taylor en Russell (1939): selectieratio (percentage kandidaten dat wordt aangenomen)
(B+D)/(A+B+C+D)= 0.84
-Wiegersma (1963): toevalskans/base rate (percentage geschikten wanneer men niet zou
selecteren maar volgens toeval zou aannemen)
(A+B)/(A+B+C+D)= 0.76
-Succesratio (indicatie van effectiviteit van de selectie)
Is afhankelijk van de validiteit van de test. (Hoe hoger de correlatie tussen test en criterium,
hoe voller de kwadranten van B en C zullen worden en hoe leger A en D)
Ook wordt de succesratio benvloed door de toevalskans. (Als de som A+B in verhouding
groter zou worden, zou dit ook het geval zijn met de verhouding van B en (B+D))
De derde factor die de succesratio benvloedt is de selectieratio. (Hoe meer personen we
afwijzen, hoe groter de breuk B/(B+D) zou worden. (zie fig. 8.4.4)
In de praktijk van het beslissen en voor de evaluatie van de uiteindelijke waarde van de
beslissing zijn er nog een aantal kanttekeningen:
-Er speelt een rol in het beslissingsproces hoeveel kandidaten moeten worden aangenomen.
Eveneens speelt mee naar welke succesratio men streeft, of hoeveel risico men wilt lopen om
een ongeschikte persoon aan te nemen.
-Het optimaliseringsprobleem. Verder dient men bij iedere beslissing het belang van de
verhouding van twee categorin tegen elkaar af te wegen. Door de selectieratio te variren,
varieert men tevens de verhouding tussen de groep en van positieve en negatieve missers; hoe
minder positieve, hoe meer negatieve missers en omgekeerd. Een negatieve misser kan
ernstige problemen geven, bijv. bij het aannemen van een ongeschikte kandidaat voor een
zeer dure opleiding, bijvoorbeeld tot piloot. Hier zal men liever meer positieve missers op de
koop toe nemen. De situatie andersom is ook denkbaar. Ook kan er een situatie zijn waarin
zowel de groep van positieve als de groep van negatieve missers zo klein mogelijk gehouden
moet worden. Het verschuiven van de aftestgrens op de predictorvariabele zorgt dus voor een
vermindering van het aantal missers van het ene type, maar vergroot tegelijk het aantal
missers van het andere type. Het vaststellen van een optimale kritische testscore of aftestgrens
is dus niet eenvoudig. Men kan zeggen dat de aftestgrens optimaal is als de daarbijhorende
opbrengst of utiliteit van de selectieprocedure optimaal is of, omgekeerd, als het verlies van
de procedure minimaal is.
-Ook heeft eenzelfde validiteit niet steeds dezelfde waarde voor de beslissing. Als de
toevalskans dicht bij 1 komt te liggen heeft het vrijwel geen zin meer om te testen, omdat de
succesratio toch weinig kan worden opgevoerd en selectie met de test bovendien zal leiden tot
het afwijzen van een relatief groot aantal geschikten. Omgekeerd geldt dit ook.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
zelfs bij een nog kleinere kans op succes in K, bijvoorbeeld 0.45, toch terecht beslissen de
functie te aanvaarden. In zaak geval wordt de berekening namelijk:
Rk= o.45 x 2 + 0.55 x (-1) = 0.35
Het psychologische advieswerk dient niet beperkt te worden tot het berekenen van kansen en
het vinden van waarderingscijfers. In de eerste plaats is de exacte kansbepaling meestal niet
zo eenvoudig als hier wordt gesuggereerd. In de tweede plaats is het evaluatieproces van de
diverse alternatieven uitkomsten een allesbehalve eenvoudig proces. In de derde plaats
moeten binnen een keuze veelal meer mogelijkheden, variaties en schadeposten zijn.
8.5 Open vraag
Voor een beantwoording van een open vraag is de beste weg die van het testen in fasen. In
een eerste fasen kan het grote aantal mogelijkheden worden gereduceerd tot een meer
beperkte keuze of een bepaalde veronderstelling. In een tweede fase kan deze hypothese
worden getoetst of kan met betrekking tot dit beperkte aantal mogelijkheden worden beslist.
Een polaire relatie tussen bandwijdte en zuiverheid: hoe meer informatie tegelijk, hoe minder
zuiver, en omgekeerd. Bij het testen wordt steeds getracht een compromis te vinden tussen de
veelheid van informatie (bandwijdte) en de accuratesse van de informatie (zuiverheid). Bij
een hypothesevorming of een inperking van de keuzemogelijkheden (eerste fase) dient juist
de breedte, het bereik van de test op de voorgrond te staan. Voldoende zuiverheid is niet meer
te handhaven indien de reikwijdte van de test veel groter moet worden. Ideaal geacht worden
tests met een geringe bandwijdte en grote zuiverheid (intelligentietests). In de sfeer van een
grote bandwijdte en een lage zuiverheid liggen in de eerst plaats diagnostische methoden als
het interview en het autobiografische opstel, en daarnaast typische open-vraaginstrumenten
als observatietests en projectietests en ten slotte de kwalitatieve analyse van op zichzelf
objectieve tests.
Er moet veel onderzoek verricht worden voordat deze brede-band techniek echt als een
zuivere nauwe-bandtest bruikbaar zou worden. Een eerste vereiste is betrouwbaarheid van de
testgegevens, door standaardiseren van de procedure afnemen, een voldoende objectief
verwerkingssysteem en voldoende spreiding. Er moet meer exacte differentiatie van normen
voor specifieke populaties beschikbaar zijn. Ook moeten beoordeelde kenmerken een
omschreven plaats krijgen in een trektheorie of een theorie rondom een psychologisch
construct, opdat men te weten komt welke psychologische betekenis aan die kenmerken mag
worden toegekend.
Bij een open vraag is de brede-bandtechniek aangewezen en zelf onmisbaar. Er is dan wel een
tweede, gericht toetsingsonderzoek te volgen om een definitieve uitspraak te kunnen doen.
Bij gebruik van specifieke brede-bandtest zijn veel minder strakke regels te geven dan voor
een selectie-of plaatsingsbeslissing. Wel dienen de volgende richtlijnen in het oog te worden
gehouden:
Bij het ontwikkelen van hypothesen dient zoveel mogelijk aangesloten te worden bij
resultaten die in de literatuur of volgens eigen ervaring in vergelijkbare situaties zijn
gevonden.
In de hypothesevorming wordt altijd gebruik gemaakt van impliciete en expliciete theorien.
Wil men succes hebben, moet men zich onthouden van allerlei duistere, neologistische en
metafysische theorien.
Ook doet men er goed aan af te zien van het gebruik van projectietests.
Brede-bandprocedures kunnen enerzijds niet voor definitieve beslissingen gebruikt worden,
maar anderzijds in een eerste stadium van een onderzoek ter beantwoording van open vragen
een belangrijke en onmisbare bijdrage kunnen leveren.
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Er moet onderscheid gemaakt worden tussen de praktische functie van een test en het principe
van de test als zodanig. Voor vele tests is aangetoond dat de betrouwbaarheid en validiteit
ontoereikend zijn, toch zijn er ook veel test waarvan dan niet bewezen is dat ze niet
betrouwbaar en valide zijn, er ook nog niet aangetoond is dat ze dat wel zijn. Een veilig
standpunt is dan ook: een test is onbruikbaar tot het tegendeel blijkt.
Een laatste methodologisch bezwaar is dat tests door hun beperkte karakter, de
ondernemende, creatieve en exceptionele kandidaat weren, en de fantasie- en initiatiefloze
conformist belonen.
9.3 Misbruik
Volgende problemen hebben een specifiek ethisch karakter, en hebben te maken met misbruik
of onaanvaardbare condities of consequenties.
9.3.1 Vertrouwen.
Een schending van het vertrouwen wordt gezien als een van de belangrijkste bronnen van
ongenoegen en terughoudendheid tegenover tests, de vraag is dus of testresultaten wel genoeg
binnenskamers blijven. Hier moet onderscheid gemaakt worden tussen de research situatie en
de praktijksituatie. In de research situatie hoeft er geen probleem op te treden indien de
anonimiteit gewaarborgd blijft. Bij de praktijksituatie zijn er twee gevaren te onderscheiden:
1. niet-psychologen krijgen inzage in de testgegevens
2. een uit handen gegeven rapport loopt met recht uit de hand
Een andere zaak is de geheimhouding voor de onderzochte zelf, er bestaat een gevaar voor
misinterpretatie en verkeerde effecten. De clint heeft volgens de NIP-ethiek recht op
nabespreking van de resultaten, hetgeen meer moet zijn dan alleen inzage in de gegevens.
9.3.2 Misleiding.
Hierbij gaat het erom dat de onderzochte niet weet wat de test meet, en zich dus niet kan
wapenen. De onderzochte heeft het recht precies te weten wat er in het onderzoek/ de test
gemeten gaat worden. Ook heeft hij/ zij het recht om op elk moment te stoppen indien
gewenst.
9.3.3 Binnendringen in het priv-leven.
Het recht op privacy is heilig. In principe is het met een test binnendringen van het privleven wel mogelijk, alleen geldt dit niet alleen voor tests maar ook voor bijvoorbeeld het
belastingformulier, curriculum vitae en een interview. In plaats van pleiten voor absolute
privacy is een redelijke mate van privacy reler. Enkele redenen om een afweging te maken
tussen privacy en onderzoek zijn:
Het is van belang wetenschappelijk inzicht te krijgen in het menselijk
gedrag en de menselijke motieven, onze gezamenlijke
verantwoordelijkheid om onszelf en onze wereld te leren kennen moet even
serieus genomen worden als het recht op privacy.
De wenselijkheid of soms noodzaak uit (bepaalde sectoren van) de
maatschappij sommige personen te weren.
De wenselijkheid om in een maatschappij een optimale benutting van
kwaliteiten, capaciteiten en kennis te bereiken.
Privacy dus niet tot elke prijs, er moet een goed evenwicht gevonden worden tussen privacy
en andere uiteenlopende belangen.
9.3.4 Discriminatie.
Er is een discussie over de vraag of psychologische tests tot discriminatie van (allochtone)
minderheidsgroepen bijdraagt. Er zijn een aantal klachten als het hierom gaat:
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com