Samenvatting Testtheorie en Diagnostiek

Een samenvatting van het boek van Testtheorie
Samenvatting_testtheorie_en_diagnostiek.pdf
Rijksuniversiteit Groningen | Testtheorie en testgebruik
Verspreiden niet toegestaan | Gedownload door: Rein Spanjer | E-mail adres: reinfalke@gmail.com
TESTTHEORIE
1 HISTORISCHE ONTWIKKELING VAN HET TESTEN

Testdiagnostiek is een vak van de 20ste eeuw maar in het verleden zijn er genoeg voorbeelden
van vormen van testonderzoekingen. En voorbeeld is een Chinese keizer (2000 v. Chr.) die
om de 3 jaar zijn personeel liet toetsen voor een bevordering of ontslag. Dit soort pogingen
hadden meer een intutief oordeel dan een empirisch onderzocht resultaat.
1.1 Periode tot het verschijnen van de Binet-Simon-Test.
In 1974 kwam de eerste stimulans uit Frankrijk vanuit de psychiatrie. Een arts Pinel liet alle
krankzinnige vrij uit hun strafkerkers en beweerde dat ze geen misdadigers waren maar
gewoon ziek. Hierdoor ontstond een sterke interesse in geestelijke abnormaliteit en
zwakzinnigheid.
Ook Duitsland toonde interesse in geestelijke vermogens. Ebbinghaus probeerde
bijvoorbeeld psychische vermoeidheid te meten. Ook andere ontwikkelingen vonden plaats in
de testpsychologie maar ze kampten met het probleem dat hun de verschillen tussen
proefpersonen altijd toeschreven aan fouten in het experimenteer proces en niet aan de
werkelijke verschillen in bijvoorbeeld vaardigheden van de proefpersonen.
In 1879 richtte Wundt een labo op. In zijn onderzoek kende hij twee problemen. Ten eerste
bleef het beperkt tot enkel primaire sensorische en motorische functies. Ten tweede was het
doel het generaliseren van wetten terwijl de verschillen beschouwd werden als
experimenteerfouten.
In 1890 gebruikte Cattell het woord test daarbij waren de verschillen tussen de
proefpersonen interessant geworden. Ook Galton vond dit belangrijk maar daarnaast was er
standaardisatie nodig die het generaliseren en verglijken tussen onderzoeken mogelijk maakt.
Volgens hem moesten de onderzoeksresultaten ook uitgedrukt worden in statistische termen
(vb spreiding van het gemiddelde).
1.2 Periode tussen het verschijnen van de Binet-Simon-test en de W.O. I
In 1904 vroeg het ministerie van onderwijs van Frankrijk aan Binet een onderzoek om een
onderscheid te maken tussen luie en incapabele kinderen. Binet ontwikkelde een test met de
aandacht voor het geheugen, het begrip; het probleem oplossen en de verbeeldingskracht. Al
dit zette hij om in testopgaven en stelde voor om voor intelligentie n totaalscore te
gebruiken. In een tweede versie van zijn test gebruikt Binet een mentale leeftijd zo kreeg
men een indicatie van eventuele geestelijke groei.
Terman in Amerika ging nog een stap verder en vond dat de score van Binet om breuken te
vermijden moesten vermenigvuldigd worden met honderd. Zo kon met de verschillende
leeftijden makkelijker vergelijken en gaf het een indicatie van het intelligentieniveau van het
kind.
1.3 Van het begin van W.O I tot W.O II
Door de eerste W.O. ontstond er de noodzaak om veel mensen tegelijk te selecteren naar
gelang de functie die ze zouden kunnen bekleden in het leger. Individuele testprocedures
zouden te lang duren. Hierdoor ontstonden schriftelijke tests die ze in grote groepen konden
afnemen nl. Army Alpha test. Door de vele immigranten ontstond er voor de onderzoekers
een nieuw probleem namelijk de taal. Hierdoor ontstond de Army Beta test die niet taal
gebonden was.
In Europa bleef men meer bij de individuele diagnostiek daarbij blijkt niet alleen dat de wijze
waarop de proefpersoon een taak verricht van belang is maar ook de houding t.o.v. zijn eigen
prestaties.
In Amerika en Engeland probeerde men het testen minder subjectief te maken door het vrijeantwoordenexamen te vervangen voor meerkeuze-toetsen. Daarnaast waren het vanaf nu
meer specialisten die verantwoordelijk waren voor het testen dan de docent.
In deze periode veranderde ook de definitie van intelligentie van een n-factor iets naar
verschillende factoren (woordenrijkdom, redeneren, geheugen, verbaal,...).
In dit hoofdstuk wordt nog even kort ingegaan op het ontstaan van de persoonlijkheidstests.
Eerst waren er observatietests die niet gestandardiseerd, onbetrouwbaar en subjectief waren.
Vervolgens is men letterlijk de vragen van interviews gaan gebruiken om schriftelijke
persoonlijkheidvragenlijsten te construeren. Een laatste methode van die tijd was het ontstaan
van projectietesten zoals de inktvlekken van Rorschach (1929) en de Thematic Apperception
Test (TAT-test) van Morgan en Murrey (1935). De bedoeling was dat mensen die die
vlekken of fotos zagen daar een verhaal bij bedachten en daaruit bleek dan wat voor een
persoonlijkheid ze hadden.
1.4 Van het begin van W.O. II tot heden
Deze periode staat gekend voor de expansie op alle terreinen van het testen. De beste
psychologen op het terrein van selectie, testontwikkeling en psychiatrische-medische keuring
werden allemaal ingeschakeld om voor het leger iedereen te plaatsen naar de kwaliteiten van
de soldaten. 9.000.000 mensen werden getest met de Army General Classification Test
(AGCT).
Na de oorlog is deze trend van testen in de VS gebleven. Ook in het onderwijs en
personeelsselectie. In 1949 werd daarvoor het Educational Testing Service (ETS) opgericht.
Het testen nog sneller is gegaan is door de ontdekking van het rekenmachine en de computer.
Europa is steeds een beetje achtergebleven op het gebied van testen maar in de zestiger jaren
ging Europa volgen in Amerikas voetsporen op het gebied van testen.
In Nederland was het in de veertig en vijftiger jaren nog steeds intutief testen, ze testte meer
in de vorm van verstehen. Er was hier geen ruimte voor objectiviteit of kwantitatieve
benadering. Hier gebruikte men nog steeds observatietests of projectietests.
Zelfs op school gebruikte men nog steeds de essay-examens. Maar medio jaren zestig begin
jaren zeventig deed hier de testtheorie zijn intrede. In deze periode ontstond het Centraal
Instituut voor ToetsOntwikkeling (CITO). In Nederland is er dan een vooruitgang gekend in
het kwalitatieve en kwantitatieve ontwikkelen van de testen.
Hiermee heeft de psychologische test definitief een wetenschappelijke plaats veroverd in de
Nederlandse psychologie.
Samenvatting hoofdstuk 2: Aard en toepassingen

Verschijningen:
In een verantwoorde en gepubliceerde test zal men de volgende onderdelen kunnen
tegenkomen:
1. Het noemen van het testmateriaal. Dit testmateriaal varieert sterk met de aard van de test.
Het zou bijvoorbeeld kunnen bestaan uit fotos, plaatjes of onvolledige zinnen. Soms is er
geen testmateriaal in strikte zin, zoals wanneer het bestaat uit vrije discussie.
2. Je treft ook de testformulieren aan. Op deze formulieren worden de antwoorden, reacties
of gedragsgegevens verzameld, die op hun beurt het materiaal vormen waaruit de
psychologische interpretatie of conclusies worden afgeleid.
3. Je treft ook de testhandleiding aan welke kan variren tot heel uitgebreid of beknopte
richtlijnen. In een goede handleiding kan je verwachten dat de volgende vier onderwerpen
aan de orde komen:
Een exacte testinstructie wat al dat gene bevat wat betrekking heeft op de gang van
zaken tijdens het testonderzoek.
De verwerkingsprocedure die voornamelijk bestaat uit richtlijnen voor de scoring van
de opgaven.
De normtabellen. Deze zijn gemaakt zodat men de scores kan vergelijken met de
prestaties van meer of minder representatieve normgroepen.
Een bespreking van de wetenschappelijke kwaliteiten van de test. Bijvoorbeeld de
betrouwbaarheid van de test, een bespreking van de testbetekenis (welke
persoonlijkheidstrek of vaardigheid de test meet) en voor welke voorspellingen de test
gebruikt zou kunnen worden.
Een eerste omschrijving:
De bedoeling van het testonderzoek is het doen van een uitspraak, hetzij een voorspellende,
hetzij een classificerende, hetzij van beschrijvende aard, over het onderzochte individu. Het
gaat impliciet altijd om een vergelijking met andere mensen.
Bij een testonderzoek denken we aan een systematisch onderzoek van apart voor het testdoel
geselecteerde gedragingen. Deze gedragingen zijn gekozen omdat zij een typerende
steekproef vormen uit een geheel van gedragingen, die men niet allemaal in een enkele
testsessie kan onderzoeken.
Nu zouden we kunnen stellen dat de omschrijving van een psychologische test kan zijn: Een
systematisch onderzoek van gedrag met behulp van speciaal geselecteerde vragen of opgaven;
met de bedoeling inzicht te krijgen in een kenmerk van de onderzochte in vergelijking met
anderen.
Kenmerken:
Indien een psychologische test wel een juister beeld oplevert dan het voorwetenschappelijk
oordeel, of een verbetering en aanvulling hierop kan betekenen en de kosten of ethische
bezwaren niet prohibitief zijn, is het gebruik ervan gerechtvaardigd.
Ten tweede kenmerkt een test zich door efficintie. In het dagelijks leven doen zich talrijke
situaties voor, die indicaties bevatten voor het schatten van de intelligentie . Helaas moet men
wachten tot die situaties zich voordoen. In deze situaties is intelligentie eerder een bijproduct.
Omdat het hier niet bij uitstek om de bepaling van de intelligentie gaat , krijgt deze ook niet
altijd alle kansen om tot haar recht te komen. Daarom is deze schatting inexact en arbitrair.
Hiertegenover staat de intelligentietest die specifiek is samengesteld om een schatting hiervan
te maken. Je bent niet afhankelijk van het beschikbaar zijn van gelegenheden. Er is een
situatie gecreerd en er zijn opgaven uitgezocht die de intelligentie optimaal naar voren laten
komen, bovendien zijn alle storende invloeden zoveel mogelijk weggewerkt.
Een ander kenmerk is standaardisatie. De testprestatie dient vergelijkbaar te zijn met de

prestaties die anderen hebben geleverd, alvorens er iets verstandigs over kan worden gezegd.
Bij voorwetenschappelijke oordelen maakt men ook gebruik van het vergelijken van prestaties
van verschillende mensen met elkaar. Om een vergelijking te maken moeten de betrokkenen
in gelijke omstandigheden hebben geopereerd. Bij het voorwetenschappelijke oordeel is
hiervan geen sprake.
Bij volledige afwezigheid van enige standaardisatie in de testsituatie is er eigenlijk niet meer
sprake van een test, maar voor het overige houdt deze eis een ideaal in waar men zoveel
mogelijk naar streeft.
Weer een ander kenmerk is de normering van de testresultaten. Wil men de intelligentie van
persoon i vergelijken met die van persoon j met behulp van welke indicatie dan ook
(schoolprestaties, testprestaties) dan moet men in elk geval de grootte van de afstand tussen i
en j zo exact mogelijk schatten. Exactheid stelt de beoordelaar in staat ook kleinere
verschillen vast te stellen.
Zodra er een onderscheid moet worden gemaakt tussen mensen die qua intelligentie minder
verschillen, is er een gevoeliger instrument nodig dan de globale maatstaven die in het
lekenoordeel worden gehanteerd.
Ook zal men eerder kunnen generaliseren als de onderzochte populatie groot is dan wanneer
dit slechts een kleine groep is.
De beschikbaarheid van normen is niet slechts gemakkelijk en handig bij het interpreteren van
het resultaat, maar meestal is dit ook een noodzakelijke voorwaarde voor het gebruik van een
test.
Weer een andere eis is die van objectiviteit. Voor de testinterpretatie houdt dit in dat men mag
aannemen dat het hele testproces vrij is van aan de testleider gebonden invloeden. Het
resultaat van het onderzoek is onafhankelijk van de persoon van degene die de gegevens
verzamelt of uitwerkt. Hierdoor maakt het niet uit wie optreedt als beoordelaar en is er
openheid en reproduceerbaarheid van de test en evaluatie procedure.
Het is duidelijk dat de subjectiviteit toeneemt en de objectiviteit afneemt als men zich verder
van het descriptieve niveau verwijdert, en meer overgaat tot verklaring en interpretatie. Indien
men verder wil gaan dan de objectief controleerbare gedragsaspecten zal een exact
voorgeschreven verwerkingsprocedure de objectiviteit bevorderen.
Weer een andere eis is die van betrouwbaarheid. Hier wordt er steeds van uitgegaan dat de
meting en de herhaling ervan onder dezelfde condities plaatsvinden. Hierdoor krijgt men in de
psychologie problemen die men in de fysica niet heeft; het is moeilijk en vaak onmogelijk om
twee onafhankelijke metingen te krijgen. Vaak leren proefpersonen bij van een eerste meting.
Een volgend belangrijk punt is de validiteit. Een goede test heeft een vaststaande
psychologische betekenis. Men weet naar welke eigenschap van de persoon die test verwijst.
Er is dus niet of nauwelijks verschil van mening mogelijk over de interpretatie, de betekenis
van de testprestatie. De betekenis van de testprestatie kan soms een enkelvoudige
persoonlijkheidstrek of een vaardigheid zijn, soms ook met een concept uit een meer
omvattende theorie samenvallen, maar steeds moet deze betekenis empirisch geverifieerd zijn.
Het praktisch voorspellend gebruik moet altijd op een in empirisch onderzoek daadwerkelijk
gebleken samenhang zijn gebaseerd.
Relatie tussen testen en meten:
De meest ruime opvatting over meten is voorgesteld door Stevens. In deze opvatting is meten
veel meer dan het leggen van een object langs een schaal met gelijke eenheden, zoals het in de
natuurwetenschappen vaak is omschreven. Volgens de hier bedoelde opvatting hebben we
met meten te maken zodra getallen kunnen worden toegekend aan objecten, personen of
groepen volgens welke regel dan ook. Alleen al categorisering en naamgeving is volgens deze
opvatting een vorm van meten. Dit eerste niveau van meten vindt plaats op de nominale
schaal. Aangezien getallen hier alleen dienen om categorien of objecten te onderscheiden,

maakt het niet uit welke getallen men kiest, zolang ze maar verschillend zijn;
Een niveau hoger ligt de ordinale schaal. Bij het begrip rangorde waardoor deze schaal wordt
gekenmerkt, is er altijd sprake van een meer of minder. Zo is het mogelijk een rangorde qua
intelligentie te vergelijken met een rangorde qua inkomen en de overeenstemming van de
rangordes uit te drukken in een kwantitatieve maat, bijvoorbeeld rangordecorrelatiecofficint. De keuze van de getallen is derhalve vrij zolang zij maar de juiste
ordening blijven weerspiegelen.
Weer een niveau hoger ligt de intervalschaal. Hier liggen de verschillende posities niet slechts
op een rangorde van minder of meer, maar zijn bovendien nog de afstanden tussen de
verschillende posities van betekenis. Een voorbeeld is de temperatuurschaal. Er is bij de
intervalschaal geen sprake van een nulpunt. Bij een intervalschaal mag men wel optellen en
aftrekken, maar niet, juist vanwege de afwezigheid van dit nulpunt, de ene score door de
andere delen.
Het vierde niveau van meten is de ratioschaal. Niet alleen zijn de afstanden tussen de posities
gelijk zoals bij de interval schaal maar bovendien is hierbij een absoluut nulpunt gegeven,
waardoor rekenkundige bewerkingen zijn toegestaan.
De meeste toepassingen van de psychologie vergen overigens hoogstens een intervalschaal.
Het scoren van een intelligentietest of het vaststellen van de hoeveelheid agressieve of
gefrustreerde reacties in een projectietest, is nog geen meten. Men kan pas van meten spreken
als vanuit dit getelde aantal een conclusie volgt over de eigenschap in kwestie. Daarbij zijn
twee mogelijkheden te onderscheiden:
Een eigenschap kan direct worden gemeten. Dit doet zich voor wanneer deze eigenschap
van een zodanig karakter is, dat zij geheel bepaald wordt door de operaties die zijn
gevolgd om haar te beschrijven. Daarbij is de eigenschap volledig gekoppeld aan de wijze
waarop ze wordt geconstateerd. Het grootste probleem is hier de betrouwbaarheid. Men
kan een persoonlijkheidskenmerk wel definiren als datgene wat een gegeven test meet,
maar dan moet dit wel op een betrouwbare wijze zijn gebeurd.
Ook is er een indirecte vorm van meten bij de psychologie. Hier moet men bepaalde
operaties verrichten waardoor men bepaalde trekken kan meten zoals neuroticisme,
aangepastheid. Deze begrippen zijn meer operationeel van karakter. Van indirect meten is
sprake als het gaat om eigenschappen die men niet direct kan waarnemen, maar die
abstract-theoretisch van aard zijn.
Definitie van een test
Een test is een systematische classificatie- of meetprocedure, waarbij het mogelijk wordt een
uitspraak te doen over n of meer emperisch-theoretisch gefundeerde eigenschappen van de
onderzochte of over specifiek niet-testgedrag, door uit te gaan van een objectieve verwerking
van reacies van hem/haar, in vergelijking tot die van anderen, op een aantal
gestandaardiseerde, zorgvuldig gekozen stimuli.
Toepassingsmogelijkheden
Er zijn drie vormen van toepassing:
1. Het doen van uitspraken over het individu: probeert met grotere precisie en meer kans
op succes een uitspraak te doen over het gedrag van de onderzochte. De beslissingen in
het kader, waarvan deze uitspraken zin hebben, kunnen zeer uiteenlopend zijn, en bepalen
ook telkens de soort en de gebruikswijze van de meest geschikte tests:
Een eerste mogelijkheid doet zich voor wanneer er sprake is van een criterium waaraan de
eisen waarvan men al of niet kan voldoen. B.v. een school of bedrijfsopleiding die men al
dan niet kan voltooien
Een tweede mogelijkheid is die waarbij er een keuzemogelijkheid is tussen ten minste
twee criteria, die onderling qua niveau of kwalitatief verschillend zijn. B.v. studierichting
keuze.
Voor sommige vragen is de absolute hoogte van verschillende scores in een testserie
minder belangrijk dan hun onderlinge verhouding. B.v. de sterke of zwakke punten van de
onderzochte of meer of minder genteresseerd
Ook kan een vergelijking worden gemaakt tussen de resultaten die een onderzochte op een
eerder of later tijdstip behaald.
Ook kan dit een beschrijving inhouden van een onderzochte persoon. Dit kan uit interne
rapportage bestaan waar een psycholoog een persoon observeert en hierover rapporteert.
Ook kan dit om externe rapportage gaan waarbij ouders zich tot een psycholoog wenden
met de vraag om een verklarende beschrijving van het gedrag vah hun kind in aanvulling
op of in plaats van een mondelinge bespreking.
Ook denken we aan de niet-directieve vorm van therapie, de counseling.
2. Het doen van uitspraken over groepen van mensen: Men kan hier verschillende sociale
klassen vergelijken. Het gaat hier in eerste instantie om het resultaat van vergelijkend
onderzoek zelf en is vooral genteresseerd in de grootte van het verschil. Vaak is dit een
voorstadium voor individueel onderzoek.
3. Het doen van uitspraken over situaties en methoden: Hier beoordeeld men vooral de
methoden (b.v. de behandeling, opleiding of benvloeding) en van verschillende situaties
(b.v. stress of leiderschap). Men gaat na welke procedure effectiever is en vergelijkt deze
met gebruik van een controle groep. Ook hier is het startpunt het groepsonderzoek. Een
voorbeeld is een schoolvorderingstoets waarbij de resultaten aan de prestaties van de
docent worden gekoppeld.
Averechtse diagnostiek: wanneer een test met een criterium correleert, kan men van deze
correlatie gebruik maken door voorspellingen te doen over de kansen op criteriumsucces,
bovendien werpt deze correlatie licht op het criterium zelf.( Hofstee)
H. 3 Indelingen, onderscheidingen en begrippen.

1. Indeling naar testgedrag.
Er is een belangrijk onderscheid dat uitgaat van het geteste gedrag. Namelijk dat tussen:
Tests voor prestatieniveau (het gaat om een voor de onderzochte persoon
maximale prestatie: er een duidelijke norm voor wat goed en wat fout is)
Tests voor gedragswijze (het gaat vooral om de vraag hoe iemand iets doet en
op welke wijze de prestatie of reactie plaatsvindt: hier is geen duidelijke
goed/foutsleutel beschikbaar(!))
Tests voor prestatieniveau:
1. Enkelvoudige algemene niveautests (het gaat hier slechts om een algemene
niveaubepaling van de intelligentie)
Individuele ontwikkelingstests afnemen vindt individueel plaats
Individuele intelligentietests voor volwassenen afnemen = individueel
Algemene collectieve intelligentietests afnemen vindt plaats in een groep
2. Veelvoudige algemene niveautests
(test = afzonderlijk betrouwbaar en onderling voldoende onafhankelijk)
Testbatterijen voor intelligentiefactoren gaan uit van alle of enkele van
Thurstones factoren(intelligentie= verbal, number, spatial etc.
Testbatterijen voor geschiktheden gaat meer over leergeschiktheid, een
maatschappelijke of een schooltaak.
3. Speciale niveautests
Tests voor speciale intelligentiefactoren
Tests voor speciale geschiktheden vooral de tests voor leergeschiktheden.
Tests voor speciale niet-intelligentiefactoren het gaat hier om de capaciteiten of
vaardigheden, waarvan de meting voor een maatschappelijke functie, of bij de
klinische diagnostiek van belang kan zijn
4. vorderingentests
Bij sommige opleidingen gaat het niet om de kennis die ze vergaren, maar om het
bijbrengen van manuele of sociale vaardigheden.
Tests voor gedragswijze:
1. Observatietests (hier loopt de info steeds via een van de onderzochte
onafhankelijke persoon)
Individuele observatietests slechts 1 respondent wordt in het observatieproces
betrokken.
Groepsobservatietests het gaat om de observatie van een groep mensen, die
gezamenlijk een opdracht verrichten.
2. Somato-fysiologische methoden (lichamelijke kenmerken hebben een
voorspellende waarde op de psychologische kwaliteiten van de onderzochte)
Morfologisch onderzoek zoekt naar somatische kenmerken als indicatie voor
persoonlijkheidskenmerken
Fysiologisch onderzoek bijv. EEG, bloeddruk en volume meten.
3. Zelfbeoordelingen (vroeger nogal wantrouwend; nu als er een bepaald patroon

bestaat in de instemmingen en ontkenningen op de vragen, dan moet er een
gemeenschappelijke instelling of attitude zijn voor dit patroon)
Interessetests dienen om de beslissing voor school- of beroepskeuze te
vergemakkelijken.
Waarden- en attitudetests nagaan wat de meningen zijn.
Biografische vragenlijsten gesystematiseerde schriftelijk afgenomen
anamneses.
Persoonlijkheidsvragenlijsten meerdere soorten, ook zonder goede patronen.
4. Kwalitatieve prestatietests (van belang is dat de onderzochte geen idee heeft van
de bedoeling van de opdracht)
Niveautests voor gedragswijze het gaat om een prestatie die beoordeeld wordt
met een duidelijke norm voor wat goed en fout is.
o Experimentele tests afkomstig uit een experimenteel laboratorium
o Motoriektests bijv. met de vingers trommelen meten en
cordinatieproeven.
o Intelligentietests
o Karakter tests bijv. wilskracht meten
o Cognitieve stijl (wijze waarop men info wordt georganiseerd); perceptuele
stijl (hoe specifiek de waarnemingsgegevens, subjectief en selectief,
worden opgenomen en verwerkt)
Projectietests
o perceptietests Rorschachtest
o interpretatietests Thematic Apperception Test
o expressietests
o constructietests
o associatietests bijv. zin-aanvullingstest
o keuzetests
2. Indeling naar instructie en afneming.
Individuele test individuele relatie tussen de testleider en de onderzochte

(onderzochte kunnen stimuleren, vragen verduidelijken en beter kunnen observeren)
schriftelijk of via de computer, mondeling of een soort verrichtingstest.
Groepstest activiteiten van de groepsleider: geven van de instructies, het

surveilleren, geven van aanwijzingen tijdens het afnemen van de test en het inzamelen
van de voltooide testopgaven (zeer efficint!) meestal schriftelijk
Snelheidstest hoe snel de onderzochte kan werken
Niveautest hier varieert men de opgaven in moeilijkheidsgraad, van makkelijk tot

moeilijk om te zien hoe ver men komt.
3. Onderscheidingen op basis van de testvragen.
Het gaat bij het onderscheid tussen cultuurvrije en niet-cultuurvrije tests meer om een
continum dan om een tegenstelling. Een zuivere cultuurvrije test bestaan niet en dus
is het ook zinloos om naar de constructie van zon test te streven. Natuurlijk zijn
verbale tests doorgaans cultuurgevoelig, maar dat houdt niet in dat non-verbale tests
dit niet zijn.
Om uitspraken te kunnen doen over de capaciteiten van de onderzochten, is het
noodzakelijk om ervan uit te gaan of ervoor te zorgen dat de vereiste skills volledig
worden beheerst. Er zijn 3 manieren om dit terug te brengen:
1. De skill-verschillen zelf tot minimum te krijgen (instructie uitbreiden en/of meer
opgaven geven)
2. De interpretatie en de testscores beperken tot dat gedeelte van de populatie dat de
skills heeft (bijv. test doen voor kleuren zien, die niet zo goed de kleuren kunnen
onderscheiden niet mee laten doen).
3. Invloed van de skill-verschillen vermindert door het ontwikkelen van skill
reduced tests.
Er zijn vrije-antwoordentests en keuze-antwoordentests.

Bij de vrije antwoorden moet men zelf het antwoord bedenken en formuleren.
Bij de keuze antwoorden zijn er bestaande antwoordmogelijkheden. Er zijn 3 soorten:
1. Kiezen
o (in)correcte-antwoordvorm 1 antwoord is goed
o meest/minst juiste antwoordvorm welke is het meest logisch
o verschillende antwoordenvorm welke antwoorden passen er het meest bij
o complexe vormen een gecombineerd antwoord (bijv. a en b wel maar c niet)
2. Rangschikken (de respondent moet de alternatieven plaatsen in een volgorde van
juistheid, toepasbaarheid of voorkeur)
3. Toeschrijven (= matching, een juiste combinatie maken van de gegevens)
Bij vrije-antwoordentests kan het zo zijn dat het begrijpen van de antwoorden moeilijk is, de
betrouwbaarheid lijdt eronder en het kan zo zijn dat de respondent het antwoord wel weet,
maar dat hij de vraag anders interpreteert.
Bij keuze-antwoordentests is er veel voorwerk. Men kan gaan gokken en bovendien kunnen er
alleen eenvoudige cognitieve vaardigheden worden gemeten.
Geen enkele vorm van testen dient overschat te worden, aan elke methode zit wel een nadeel.
PS. Zie voor duidelijke schemas blz. 38 en 44.
Hoofdstuk 4; afnemen en verwerken

In dit hoofdstuk wordt vooral aandacht geschonken aan het afnemen van de test. Naast de
meer conventionele vormen van testen worden de nieuwere testen per computer ook
uitgebreid behandeld. Verder wordt ook ingegaan op het proces dat ligt tussen het geven van
antwoorden door de respondenten en de uiteindelijke waardering die op basis van deze
antwoorden wordt toegekend. Scoringsmogelijkheden, verwerking van deze scores en de
verschillende normsystemen komen aan de orde.
4.1 Afnemen
Het afnemen van tests is complex, je moet met veel dingen rekening houden.
Een testsituatie kan een hoge mate van neutraliteit bezitten, of juist een hoge mate van
inzet van zowel proefleider als van de proefpersoon vereisen.
Ppn zelf verschillen in mate van coperativiteit, motivatie, onbevangenheid en andere
relatie-benvloedende eigenschappen. (Ze kunnen ook al testervaring hebben)
Proefleiders kunne variren in training, ervaring inzicht, sensitiviteit, etc. (vooral
belangrijk bij individuele tests)
Er bestaat een grote variteit in instructietechniek en hoeveelheid oefening die door de
test wordt vereist
Bij een psychologische test is het heel belangrijk dat je prestaties van individuen kunt
vergelijken. Dat is pas mogelijk als je een gestandaardiseerde testsituatie creert.
Enkele aspecten van standaardisatie;
Standaardisatie van testcondities
1. Goed uitgewerkte instructie
2. De eis je bij het testen daar zo goed mogelijk aan te houden
3. Het ontbreken van opvallende of specifieke omgevingsinvloeden.
De standaardisatie van testsituatie is zowel belangrijk bij individuele als groepstestsituaties.
Het is veel moeilijker om standaardisatie te verwezenlijken als men naast de

testsituatie, ook de situatie waarin de pp zich bevindt zoveel mogelijk constant wil
houden, omdat je wilt dat de test alleen meet wat het moet meten.
1. Bij het meten van fysieke eigenschappen is het controleren van de situatie
waarin de ppn verkeert geen probleem omdat deze zelf geen invloed heeft op
de uitslag.
2. Bij prestatie en gedrag ligt dit natuurlijk heel anders (denk bv aan
lichamelijke of geestelijke vermoeidheid, verwachtingen van de ppn etc.).
Een aantal van die factoren zijn wel te controleren maar je houdt er altijd een
tal over waarbij dat niet (of niet helemaal) kan.
Voorbeelden;
Verschillen tussen mensen ogv SES en daarmee gepaarde reacties op
prikkels als beloningen, interesse in het onderwerp
De manier waarop de proefleider hiermee omgaat
Angst voor een slechte testprestatie
o Positieve faalangst; bevorderend voor prestatie
o Negatieve faalangst; stoort de prestatie
Deze angstdimensies zijn volgens Hermans in sterke mate onafhankelijk van elkaar.
Dit motivatieprobleem ligt anders bij persoonlijkheidstests. Ook hierbij kun
je lukraak antwoorden of met opzet fouten maken, maar het is moeilijk om
van liegen of vervalsing te spreken. De onderzochte zal namelijk altijd een
idee hebben van de bedoeling waarmee bepaalde vragen gesteld worden, of

hoe de antwoorden genterpreteerd zullen worden (zoek voor meer info in
literatuur bij faking)
3. De variatie in het gedrag van de proefleider kan grotendeels gecontroleerd
worden. Hij/zij zorgt ervoor dat de test in kwestie en de instructie goed
beheerst wordt, verder kan een bepaalde ervaring verlangd worden ogv
testen.
Dat is moeilijker door psychologische mechanismen zoals vooroordelen,
sympathien en antipathien, de blijvende indruk van een eerste impressie,
en de neiging om ideaaltypen te ontdekken. Strikte zelfcontrole en
zelfcorrectie zijn noodzakelijk om het oordeel niet te laten vertroebelen.
Deze problematiek speelt vooral bij afname van de individuele test.
Hoe de problemen (gedeeltelijk) te ondervangen
Ontkenning; struisvogelpolitiek, deze doet gebruik en interpretatie van tests geen
recht.
Langs klinisch-intutieve weg de testsituatie in de evaluatie verwerken. Nadeel is dat
je te maken krijgt met subjectieve impressies en ideen waarvan je dus geen
juistheidgarantie hebt (ook al voelt het wel zo). Of deze methode gebruikt kan
worden hangt af van de aard van de beslissing (gaat het om het voortbrengen van een
nieuwe hypothese (dan is dit een goede manier), of gaat het om beslissing met een
beslissend karakter (dan is het beter de volgende methode te gebruiken).
Door zoveel mogelijk vergelijkbaarheid en objectiviteit te bewaren. Dit kan het beste
worden bereikt door een zo normaal mogelijke relatie op te bouwen met een positief
stimulerend, vriendelijk rapport. Bij verwerking en berekening van de testscore zal
men doen alsof alle genoemde invloeden uit de interactiesfeer genegeerd worden.
De onbetrouwbaarheid zal afnemen, waardoor de vergelijkbaarheid toeneemt. We
nemen op de koop toe dat we door het principe van uitwisselbaarheid iets van het
unieke van de situatie opofferen.
Dit alles wil overigens niet zeggen dat je nooit een common sense interpretatie mag
maken.
4.2 Scoring
Als er in het scoringsproces meer subjectieve oordeelsvorming plaatsvindt, zal er een grotere
foutenmarge zijn in het resultaat van dit proces. Het is wenselijk voor een scoringssysteem dat
het zo objectief mogelijk is. Er is met het oog hierop een duidelijk verschil tussen de vrije
antwoordenvorm en de keuze antwoordenvorm.
4.2.1 Scoring bij de vrije antwoordenvorm
Bij veel tests kunnen geen geprecodeerde antwoordvormen gebruikt worden (bv bij
creativiteitstests, psychomotorische tests, projectietests etc.). Daarbij kiest men voor de vrije
antwoordvorm, waarbij men als nadelen hoge subjectiviteit en lage interbeoordelaarbetrouwbaarheid heeft.
Een goed coderingssysteem is hiervoor de beste oplossing. Het systeem moet 1)
volledig, en 2) duidelijk en ondubbelzinnig zijn. Zonder betrouwbare gegevens (dus hier
zonder een voldoende interbeoordelaar-betrouwbaarheid) kun je geen zinvolle uitspraken of
predicties doen, en is validiteitsonderzoek tijdverspilling. Een vrije antwoordenvorm kn
natuurlijk wel betrouwbare gegevens opleveren (bv bij onafhankelijke beoordeling van
gezond verstand, bij Tat etc.).
Een gevaar is wel dat soms wordt vergeten dat betrouwbaarheid nog geen validiteit
inhoudt. Denk bv aan het gewicht van een tafel dat wordt gemeten met een meetlat. Elke
meting zal hetzelfde gemeten worden, maar wat je meet is niet het gewicht, maar de lengte
van de tafel.
Als advies wordt meegegeven de codering zoveel mogelijk van tevoren vast te stellen
(niet ad-hoc) en een zoveel mogelijk onafhankelijk persoon de codering uit te laten voeren.
4.2.2 Scoring van de keuze-antwoordenvorm
De voornaamste zorgen bij deze antwoordvorm zijn accuraatheid (correctiesysteem zo min
mogelijk fouten toestaan) en efficintie (tijd en kosten per gecorrigeerd formulier, met behoud
van nauwkeurigheid, zo laag mogelijk).
Drie mogelijkheden;
Handscoring; correctoren tellen aantal goede of foutgemaakte, en/of onvoltooide of
overgeslagen opgaven (dmv een goed ingevuld voorbeeld, een transparante sleutel of
een kartonnen sleutel (meestal een goedsleutel n en foutsleutel).
Problemen; scoring tweemaal moeten uitvoeren en de tijdsduur.
Zelfscoring; deze vorm kent verschillende versies. Bij de bekendste vorm wordt onder
het antwoordformulier een tweede vel geplaatst. Via een doordrukmethode wordt de
scoring van de persoon meteen op dit formulier geregistreerd zodat alleen de
verschillende scores opgeteld hoeven te worden. Deze methode is sneller en
efficinter, alleen de kosten liggen weer iets hoger.
Machinale scoring; bij deze snelste methode van verwerking worden schrapkaarten
gebruikt waarop het juiste antwoord aangekruist kan worden, en die in een computer
verwerkt worden. Een andere mogelijkheid is respondenten via een beeldscherm dat is
aangesloten op een computer, de items presenteren zodat de antwoorden direct
verwerkt kunnen worden. Vooral bij de verwerking van grote aantallen gegevens is dit
een nuttige methode
4.2.3 Toevalscorrectie
Alleen bij de keuze-antwoordenvorm moeten we aan de toevalscorrectie denken. We maken
er gebruik van om te voorkomen dat de respondent door te gokken de score kan verbeteren.
Dit bezwaar vermindert als er meer keuzemogelijkheden zijn. Maar zoals heironder duidelijk
wordt, zijn de meeste van de hieronder genoemde bezwaren zo steekhoudend, dat het vaak
beter is de correctie niet te gebruiken, zelfs als een unanieme antwoordstrategie gebruikt
wordt (denk aan bezwaar 5 hieronder).
De meest gebruikte formule is:
Xc X
kX
A 1
Xc = gecorrigeerde score
X = aantal goed
k = aantal items
k X = aantal fout A = aantal antwoordmogelijkheden
De gedachtegang is dat er bij het niet-weten van het goede antwoord wordt gegokt;
tegenover elk goed geraden antwoord staan (A 1) fout gegokte antwoorden. Men moet het
totaal aantal goed dus verminderen met 1 / A 1) maal het aantal fout. Bij een twee-keuze
item (A = 2) wordt de gecorrigeerde score dan Xc = 2X k
Hetzelfde principe geldt voor een correctie waarbij een respondent voor een
onbeantwoorde vraag toch punten ontvangt. Als aantal 'fout' = Xf, dan geldt dat k X Xf
items onbeantwoord zijn gebleven. Naar verwachting zouden bij blind raden hiervan
(1 / A) (k X Xf) items goed zijn beantwoord. Dit aantal wordt opgeteld bij aantal 'goed':
Xc X
k X Xf
A
Kritische kanttekeningen:
Deze formules gaan uit van de lang niet altijd rele vooronderstelling dat er een
scherp onderscheid is tussen wel en niet weten van een vragen. Er wordt dus geen
rekening gehouden met partile kennis (rele giskans kan dus groter of kleiner zijn dan
de theoretische, blinde giskans). Denk bv aan het wegstrepen van antwoorden die
zeker niet kunnen volgens respondent. Deze correctie geldt dus alleen wanneer voor
de respondent alle antwoordmogelijkheden even plausibel lijken (dat gebeurt bijna
nooit).
De mogelijkheid bestaat dat iemand een fout antwoord geeft op basis van onjuiste info
of verkeerd inzicht. Het zou onrechtvaardig zijn om daar ook nog eens een keer extra
punten voor af te trekken.
De voor toeval gecorrigeerde scores suggereren ten onrechte een grotere spreiding
(denk aan 2-keuzevragen; 2 maal zo groot gewicht zonder effectiviteit te vergroten).
Een praktisch bezwaar is dat dit soort formules de scoring complex maakt en de kans
op fouten doet toenemen. Hoe simpeler de bewerking, hoe minder fouten naar
verwachting op zullen treden.
Nog een praktisch bezwaar heeft te maken met dat de gecorrigeerde score Xc een
lineaire functie is van X (af te leiden uit eerste formule):
Xc
A
k
X
A 1
A 1
A / (A 1) is dus een positief getal. Onder deze twee condities (lineariteit en een positieve
cofficint) geldt dat de correlatie tussen X en Xc gelijk is aan n.
Consequenties:
1) Ordening van personen volgens Xc is dezelfde als die volgens X.
2) Correlatie van X en een andere testscore Y is identiek aan de correlatie tussen Xc en
Y, wat impliceert dat men met beiden score even goed een criteriumscore Y voorspelt.
3) De nauwkeurigheid (of betrouwbaarheid) van X en Xc is gelijk.
Dit alles is ook toepasbaar op tweede formule van hierboven.
4.2.4 Weging
De laatste vraag die zich voordoet is of men alle vragen even zwaar moet wegen. Je zou
zeggen dat je de vragen die het kenmerk van de test het best meten zwaarder telt dan de
vragen die het kenmerk minder goed meten. Dit brengt naast veel extra werk, niet veel
voordeel met zich mee omdat de hoge correlaties tussen de testitems ervoor zorgen dat de
verschillen tussen de gewichten niet zo groot zijn. Dan kun je je tijd beter besteden aan het
uitbreiden van je test.
4.3 Testen per computer

De respondent zit achter een beeldscherm en kan via knoppen op een toetsenbord of met een
muis reageren op de items of stimuli op het beeldscherm. Na de test verschijnt bv de testscore
op het beeldscherm of een vorm van diagnostiek of aanwijzing wat de volgende stap(pen) zal
zijn. In deze paragraaf zal worden stilgestaan bij mogelijkheden van, en problemen bij, het
afnemen van tests en het coderen van antwoorden. Hierbij zal een onderscheid gemaakt
worden tussen technologische bijdragen (afneming, opslag en administratie van items, en
administratie van testgegevens, en psychologische rapportage) en wetenschappelijke
bijdragen (inhoudelijke psychologische veranderingen of veranderingen op psychometrisch
terrein die veroorzaakt worden door, of samengaan met, het gebruik van een computer.
4.3.1 Technologische bijdragen en veranderingen
Het testen per computer zorgt voor veranderingen op administratief gebied; zowel het coderen
als het opslaan in een gegevensbestand van responses van respondenten verlopen
geautomatiseerd. Er is ook tijdswinst (tov conventionele testprocedures) door de mogelijkheid
tot vrijwel ogenblikkelijke terugkoppeling van resultaten aan psycholoog en respondent, en
snelle beschikbaarheid van gegevens voor rapportage.
Het veranderen, toevoegen of verwijderen van items wordt vanuit administratief
oogpunt een stuk makkelijker als de test in een computer is opgeslagen. Dit neemt natuurlijk
niet weg dat de validiteit en betrouwbaarheid daardoor ook kunnen veranderen.
Het is gemakkelijk om heel veel items in de computer op te slaan en een aselecte
steekproef gebruiken om verschillende tests te maken die wel hetzelfde meten.
Er zijn verschillende toepassingsgebieden bedacht voor deze technologie. Denk aan
databanken op scholen over individuele leerlingen met leerdoelen, en testscores, en
itemanalyse ed. Er worden nog steeds meer toepassingsgebieden gevonden.
Een andere technologische verandering betreft de vorm van de items en het type van
gegevens dat wordt verzameld. Het is nu bv mogelijk bewegende beelden te laten zien zodat
kan worden onderzocht hoe daar door respondenten op gereageerd wordt. Zo ontstaat dus een
nieuw type items dat niet op conventionele wijze realiseerbaar is. De variabelen snelheid en
nauwkeurigheid kunnen hiermee bv beter gemeten worden en bv betrokken worden bij
onderzoek naar verbale vaardigheid en een heel scala aan andere vaardigheden.
Technologische veranderingen kunnen dus duidelijk van wetenschappelijk belang zijn.
4.3.2 Wetenschappelijke bijdragen en veranderingen
Mogelijkheden hier worden vooral gezien ogv het meten van individuele verschillen in
ruimtelijk-visueel redeneren, geheugen en aandacht. Verder zou het bepalen van individuele
verschillen in leerpotentieel wellicht beter mogelijk zijn mbv computergestuurde
testprocedures. Zonder computers zou dit moeilijk meetbaar zijn. Denk bv aan een taak
waarbij twee dingen tegelijk gemeten worden, bv reactietijd en aantal fouten, of concentratie
richten op geluiden die de ene keer in linkeroor aangeboden worden en andere keer aan
rechteroor. Toepassingsgebied is bv bediening machines of vlieg- of treinverkeer.
Kanttekeningen bij meten van aandacht;
Vermeende instabiliteit van aandacht bij een bepaald individu
Vermenging van individuele verschillen in vaardigheid bij uitvoering van een taak en
individuele verschillen in aandacht. Het isoleren van eigenschappen is lastig en een
complicerende factor in onderzoek naar verschillen in aandacht.
Naast bijdragen zijn er ook problemen ontstaan door gebruik van de computer bij testen:
testangst en ervaring met computer. Na enige tijd oefenen met de computer kan dat
waarschijnlijk wel overwonnen worden, maar men moet rekening blijven houden met angst
voor machines.
Verder is er onderzoek gedaan naar uiteenlopende invloeden van conventionele tests

en computergestuurde tests op het testgedrag van respondenten (bv verschillen in scores op
een vorderingstoets onderzoeken). Uit dergelijke onderzoeken kwam dat zowel voor
persoonlijkheidstests als voor capaciteitentests de verschillen in testprestatie onder
computergestuurd en conventioneel testen meestal niet groot zullen zijn. De verschillen die
soms echter gevonden worden zijn toch dusdanig dat de normen behorend bij een
conventionele test volgens sommigen niet zonder meer overgenomen mogen worden voor de
computergestuurde versie. Het is bij een computerversie bv niet mogelijk een item zomaar
over te slaan (zonder een toets in te drukken), of later nog eens terug te gaan naar een eerder
beantwoorde vraag. Hierdoor ontstaat wellicht een andere verdeling van itemscores.
4.3.3 Adaptief testen
Hier wordt de bijdrage van de computer aan de psychometrie besproken; het adaptieve testen,
ofwel, het testen op maat. Hierbij krijgt iedere respondent een test voorgelegd die op zijn of
haar niveau is toegesneden. Verschillende respondenten krijgen dus verschillende tests van
dezelfde eigenschap gepresenteerd. Omdat iedereen verschillende tests heeft gekregen, en de
scores van de verschillende respondenten toch vergelijkbaar gemaakt moeten worden, is het
nodig dat de hele verzameling items, opgeslagen in een itembank, voldoet aan de eisen van de
item-respons-theorie (theorie over analyse van itemscores, zie h. 6).
Waarom is het gebruik van adaptieve tests optimaal? Binnen de item-respons-theorie
kan worden aangetoond dat de meting van een eigenschap van een persoon met een bepaald
item de grootste nauwkeurigheid heeft als de moeilijkheid van het item en de 'attribuutwaarde'
van de persoon, beide gemeten op dezelfde schaal, samenvallen (middelmatige moeilijkheid
van item; subjectieve kans op positief antwoord op item is 0.5.
Wat je nodig hebt is dus de attribuutwaarde van een persoon. Maar als je deze weet
hoef je niet meer te meten. De oplossing hierbij is eerst 1 of enkele items die voor de
populatie een gemiddelde moeilijkheid hebben aanbieden. Met deze responses wordt een
schatting gemaakt van de waarde die de persoon toekent op de schaal van het attribuut. Op
basis hiervan worden de volgende items aangeboden enz. De schatting wordt dus bij iedere
stap in het proces nauwkeuriger; de moeilijkheid en de attribuutwaarde komen steeds beter
overeen. De testsessie is ten einde als bv de schatting een bevredigende nauwkeurigheid heeft
bereikt.
Een verschil met KTT is dat hierbij iedereen dezelfde test krijgt gepresenteerd. Een
persoon krijgt dus niet die items voorgelegd die optimaal geschikt zijn. Veel items uit een
standaardtest zullen een subjectieve succeskans die sterk afwijkt van 0.5. Voor personen met
extreme attribuutwaarden is een standaardtest dus een slecht meetinstrument. Adaptief testen
lost dit soort problemen op.
Er is een vuistregel opgesteld (door Weiss, 1985) die zegt dat een adaptieve test die
ongeveer de helft is van een standaardtest, ongeveer met dezelfde nauwkeurigheid meet als
een standaardtest. Verder worden hier drie toepassingsgebieden van adaptief testen genoemd;
Bepalen of iemand geslaagd is.
Bepalen of iemands prestatie binnen de grenen van een bepaald interval ligt.
Bepalen of iemand in een specifiek leerstofgebied vooruitgang heeft geboekt.
Na Amerika is in Nederland het adaptief testen nu ook populairder aan het worden.
4.4 Bewerkte scores en normen
In deze paragraaf gaan we het hebben over wat de score betekent en hoe we deze moeten
interpreteren.
De basisscore noemen we ruwe score welke van aard kan verschillen (aantal goed,
aantal fout, aantal mislukte pogingen etc.). De ruwe score op zich zegt niet veel. Je moet altijd
meer info hebben. We kunnen drie soorten bewerkte scores onderscheiden waar we het deze
paragraaf over gaan hebben;
Vergelijking met een absolute standaard (bv. je hebt 5 fout, maar van de hoeveel?).
Gebaseerd op deling door leeftijd, schoolklas e.d. (bv. goede of slechte prestatie
gezien je leeftijd of opleiding?).
Gebaseerd op relatieve positie in vergelijkingsgroep (bv. hoe hebben anderen het
gemaakt?).
Er is duidelijk verschil tussen een bewerkte score en een norm. Niet iedere bewerkte score
heeft een normkarakter. Verschillende bewerkingen zijn onafhankelijk van prestaties van
anderen, terwijl afhankelijkheid juist voorwaarde is om te spreken van testnormen. Andere
bewerkingen blijven beperkt tot een toevallige groep (examenkandidaten, sollicitanten etc.),
en ook dan is er nog geen sprake van normen (gaat al wel om vergelijking).
Een norm is een referentiekader voor de evaluatie van de ruwe scores dat is gebaseerd
op kenmerken van de distributie (geschat op basis van een representatieve steekproef) van de
ruwe scores in een populatie. Normen zijn dus afhankelijk van de normeringssteekproef (om
distributiekenmerken vast te stellen), en bij het handhaven ervan treffen we een vergelijking
van de score met de scoreverdeling binnen de referentiegroep. Je kunt dus meteen de prestatie
van een individu waarderen (inschatten), en toevalligheden (van een individu) hebben geen
invloed meer, en men is niet meer afhankelijk van het niveau van de rest van de groep.
Soms heb je geen norm nodig, dan volstaat een eenvoudigere vorm van bewerkte
scores. Dan is bv de rangschikking (plaats tov anderen) in de groep voldoende (bv bij
sollicitatie). Soms heb je zelfs genoeg aan ruwe scores als je alleen genteresseerd bent in
samenhang tussen testen criteriumscores (omzetting is dan niet noodzakelijk).
De overgang van vergelijking binnen een onderzochte groep naar 'gebruiken van'
normen is vloeiend (hoe groter de groep, hoe meer norm weerspiegeld wordt).
Twee dingen zijn van belang; 1) Bij normerings- of testonderzoek dienen de kenmerken van
de onderzochte groep vermeld te worden (om te weten of normsteekproef geschikt is), en
2) normen dienen niet als te absoluut gezien te worden (denk aan dat met een verandering van
de populatie, de normeis ook verandert).
4.4.1 Vergelijking met een absolute standaard
Het gaat dus om de vraag hoe goed de prestatie van een persoon is in vergelijking met een
absolute maatstaf. Deze maatstaf kan subjectief en arbitrair zijn (1 fout, half punt minderregeling), of gebaseerd zijn op analyse van het te meten gebied van kennis, inzicht of
vaardigheden. Dit noemt men (vooral als vraagstuk in het onderwijs gezien) 'criterionreferenced versus norm-referenced measurement', of 'absoluut tegenover normatief meten'.
Absoluut meten werd gezien als nieuwe dimensie omdat het geen onderlinge vergelijking
inhoudt. Hierbij wordt een zware wissel getrokken op de formulering van de doelen van het
proces dat men bij de onderzochte wil evalueren (leerproces, aanpassingsproces, training).
Verder wordt gekeken naar of de mate waarin die doelen zijn verwezenlijkt op een
betrouwbare manier te meten valt (is dit niet zo, dan krijgt absoluut meten een arbitrair
karakter).
Als het juist wel gaat om die vergelijking tussen de onderzochten (dus het constateren
van verschillen) dan is gebruik van een normering waarbij deze onderlinge verschillen
gemaximaliseerd (zoals bij KTT) worden het beste, en is een vorm van absoluut meten minder
geschikt.
4.4.2 Verhoudingsnormen
Bij deze vorm van scorebewerking worden testscores gedeeld door een andere variabele
(leeftijd, klasse) en daardoor onafhankelijk gemaakt van de betreffende variabele. Het
bekendste voorbeeld is het IQ aan de hand waarvan deze paragraaf verder ingericht is. IQ
werd gemeten als het quotint van de mentale leeftijd (ML) en de chronologische leeftijd
(CL) (echte leeftijd in jaren), maal 100
IQ
ML
100
CL
Er worden vragen voorgelegd die bij een bepaalde leeftijd horen. Dat begint bij een leeftijd
waarvan men verwacht dat het kind alle vragen van onder die leeftijd goed zal beantwoorden.
De basale leeftijd (bl) van een kind is de leeftijd (die bij het niveau van de vragen hoort)
waarbij er nog geen vragen fout beantwoord worden. Het aantal fouten zal toenemen
naarmate het niveau van de vragen met de leeftijd (die bij het niveau van de vragen hoort)
toeneemt. Ieder goed beantwoorde vraag (g) telt verder voor jaar. Dus:
ML bl
g
4
Kritische kanttekeningen
1. Zuiverheid van begrippen. Het lijkt alsof twee exact vergelijkbare leeftijdsmaten
worden vergeleken, maar ML is een testscore gebaseerd op goedgemaakte opgaven, en
CL is dat niet. Het is dan dus ook zinloos deze twee op elkaar te delen. Het gaat niet
om vergelijking van twee maten van dezelfde persoon, maar om een vergelijking met
prestaties van anderen. Verder zal na het 15de levensjaar de ML niet meer toenemen,
terwijl de verstandelijke bagage e.d. natuurlijk wel toe blijft nemen. Testscores boven
de 15 jaar zouden dus geen verschillen meer opleveren tussen verschillende leeftijden.
Dus een 20-jarige zou de gemiddelde ML van een 15-jarige hebben. We hebben hier
dus te maken met normen. De selectie van de vragen had immers plaats op basis van
een percentage correcte antwoorden in een normpopulatie.
2. De waarde van het begrip IQ zou in haar constante karakter te liggen. Het IQ vertoont
in haar ontwikkeling juist veel schommelingen. 1) De test bevat vragen die evenzeer
van scholing en vorming als van intelligentie afhankelijk zijn. 2) De psychologische
groei wordt benvloed door lichamelijke en fysiologische groeifactoren (veel
verschillen tussen kinderen). 3) Wijzigingen in leermogelijkheden en motivatie, en
emotionele bereidheid van kinderen om hiervan gebruik te maken kunnen zorgen voor
belangrijke wijzigingen in hun relatieve positie tov leeftijdsgenoten, en dus hun IQ.
Doordat met ten onrechte twee dingen in n getal wil combineren (prestatie van het
kind in vergelijking met leeftijdgenoten, en plaats die het kind inneemt binnen eigen
leeftijdsgroep) ontstaan 'ongerijmdheden'.
3. In normale gevallen blijft men bij het berekenen van het IQ boven de hoogste leeftijd
waar beneden de test nog onderscheid maakt nog delen door deze topleeftijd. De
intellectuele prestaties van mensen lopen echter terug met toename van de leeftijd. Als
je ouder wordt blijf je dus wel delen door een steeds hoger wordend getal, terwijl je
mentale capaciteiten achteruit gaan.
4. Veel testen voldeden niet aan een evenredig toenemende spreiding bij hogere
leeftijden. Een jaar achterstand op 6-jarige leeftijd is immers twee keer zo 'erg' als een
jaar achterstand op 12-jarige leeftijd. Wanneer men deelt door een steeds groter
worden noemer (toenemende leeftijd), moet spreiding van de prestatie op hogere
leeftijden steeds groter worden om de breuk constant te houden.
Ondanks de bezwaren van het begrip IQ is het wel zinvol als ontwikkelingsbegrip.. Er kan
gekeken worden of een kind in zijn/haar ontwikkeling 'voor' of 'achter' is door dat af te leiden
uit een vergelijking van zijn leeftijd met die van de categorie kinderen die dezelfde
testprestatie leveren.
4.4.3 Vergelijking en normen gebaseerd op een rangorde

De eenvoudigste vorm van interindividuele vergelijking is de rangordening. Deze bewerkte
score is het rangnummer: score 1 voor de eerste positie, score 2 voor de tweede positie, etc. Er
is geen norm, de rangscores zijn direct gebonden aan de groep en groepsgrootte. Zonder
kennis van de groepsgrootte en buiten de bewuste groep hebben ze dan ook geen betekenis.
Bij percentiele scores is kennis van de groepsgrootte niet noodzakelijk. Percentielen
zijn die 99 punten die een frequentieverdeling verdelen in 100 even grote groepen. P50
betekent bv dat 50% van de scores onder p50 ligt (bij p50 heet dat mediaan). Een probleem
bij deze aanpak is dat een relatief grote groep vaak dezelfde score heeft. Je kunt dan dus niet
differentiren in percentielscores. De percentielscore wordt nu berekend dmv lineaire
interpolatie; stel dat 28% van de respondenten een ruwe score heeft van 61 of lager en dat
34% een ruwe score heeft van 62 of lager, dan heeft 6% een ruwe score gelijk aan 62 en de
percentielscore die hier bijhoort bereken je als volgt: 28 + 0.5 (34 28) = 31. Je hebt dan geen
last meer van afhankelijkheid van absolute groepsgrootte. Er is nog wel en directe
afhankelijkheid van niveau, spreiding en toevallige kenmerken van de groep. Bij gebruik van
percentiele normen bestaat dit bezwaar niet. Hier wordt een schatting gemaakt van de
verdeling in de (beoogde) populatie. De frequentiepolygoon is een vloeiende kromme waarbij
de onregelmatigheden door de steekproef zijn rechtgetrokken. Het makkelijkst is om ipv een
rekenkundige afleiding te maken, een grafiek te tekenen met op de x-as (abscis) de ruwe
scores en op de y-as (ordinaat) de percentiele scores.
Nadelen percentiele scores (directe consequentie werken met ordinale schaal);
1. Met percentielscores mogen eigenlijk geen deelbewerkingen uitgevoerd worden
zoals bij het berekenen van gemiddelden. Je mag alleen de rangcorrelatie
gebruiken.
2. Het heeft geen zin de frequentieverdelingen van percentiele en ruwe score
eenheden te vergelijken (voor illustratie zie plaatje p. 90). Verder bestaan er
decielen die de frequentieverdeling in 10 gelijke groepen verdelen, en vigintielen
die de verdeling in 20 gelijke groepen indelen.
Als men een snelle indicatie wil hebben van de relatieve positie van de onderzochte in een
groep of in de populatie, dan zijn rangordescores en normen goed bruikbaar itt gebruik
hiervan voor wetenschappelijk onderzoek.
4.4.4 Vergelijking en normen gebaseerd op gemiddelde spreiding
De bewerkte scores in deze categorie worden standaardscores genoemd, of bij een
(representatie van een) populatie, standaardnormen.
1. Hier vallen de lineaire standaardscores (z-scores) onder. De testprestaties worden
uitgedrukt in het aantal standaarddeviatie-eenheden (sd) dat de scores van het gemiddelde
verwijderd liggen volgens de volgende formule;
Sx
waarin z = standaardscore, X = ruwe score, Xgem. = gemiddelde,

Sx = de standaarddeviatie, volgens de formule
Sx =
1
( )
n
Om kleine of negatieve getallen tegen te gaan wordt het gemiddelde gesteld op 100 of 50 en
de spreiding op 20 of 10. De vorm van de verdeling blijft zo wel in stand. Als de verdeling
door bv specifieke karakteristieken van de populatie scheef wordt, mag je niet meer zeggen
dat bv 16% van de scores hoger is dan z=1. Standaardscores behouden dus (op gemiddelde en
sd na) dezelfde verdelingskenmerken als de originele scores. De wijzigingen zijn lineair van
aard (net als de wijziging van seconden naar minuten); lineaire standaardscores.
2. Als de transformaties niet lineair van aard zijn noemen we ze genormaliseerde
standaardscores. Er ontstaat hierbij een normaalverdeling. De constructie van de
genormaliseerde standaardscores gaat als volgt; Men zoekt uit welke ruwe scores de
percentages markeren die horen bij de standaardscore eenheden in een normaalverdeling.
De ruwe scores worden vervolgens omgezet in genormaliseerde standaardscores. We
moeten wel in het oog houden dat dit geen rechtvaardiging is voor het zogenaamd
normaal verdeeld zijn van intelligentie. Bij het testen van een eigenschap als intelligentie
ligt de situatie geheel anders dan bij de direct meetbare eigenschappen lengte en gewicht.
De vorm van de intelligentieverdeling is nooit los te denken van de test waarmee die
intelligentie gemeten wordt (te makkelijke items zullen zorgen voor een scheefheid naar
links van de verdeling, te moeilijke items zullen zorgen voor een scheefheid naar rechts).
Door enkele kunstmatige ingrepen (items weglaten of invoegen) is de verdeling dan
normaal te maken.
Deze omzetting in genormaliseerde standaardscores wordt gerechtvaardigd door het
gemak en de bruikbaarheid ervan. Doordat bij gebruik van deze scores intervalschaal
verondersteld wordt (met gelijke eenheden), onderscheiden deze standaardscores zich van
andere categorien.
Tot de categorie van genormaliseerde standaardscores behoren de volgende (meest
voorkomende) vormen;
1) De T-scores waarbij een gemiddelde aangenomen wordt van 50 en een spreiding
van 10 (verdeling ligt dus praktisch tussen 20 en 80).
2) De stanines; standard scores from nine eenheden; gebruikt om zoveel mogelijk
testinformatie in een kolom te verwerken. Deze scores komen niet exact overeen
met een bepaalde ruwe score (bij T-scores is dat wel zo), maar ze
vertegenwoordigen een breedte van 0.5 Sx. Het gemiddelde van de 5de stanine
komt overeen met het gemiddelde van de verdeling. Toekenning van de stanines
aan de verschillende verdelingssegmenten geschiedt volgens op normaalverdeling
gebaseerde tabel; stanine 1 t/m 9, 4%, 7%, 12%, 17%, 20%, 17%, 12%, 7%, 4%.
3) Het deviatie-IQ; gaat om standaardnormen met een gemiddelde van 100.
Testprestaties per leeftijdsklasse worden verwerkt tot genormaliseerde
standaardscores. Testprestatie van een persoon wordt vergeleken met de tot diens
leeftijd behorende normaalverdeling.
Scores in de WAIS per leeftijd; gemiddelde=100, sd=15
P.93; overzicht van verschillende bewerkte scores (zoals behandeld in dit hoofdstuk) voor
snelle onderlinge vergelijking van de diverse scores.
Vooraf: mijn samenvatting bevat heel veel formules. Ik verwijs dan naar het boek, want ik
weet niet goed waar al die tekens hier op word te vinden zijn en dan wordt het allemaal te
onduidelijk.
Hoofdstuk 5 Betrouwbaarheid
Betrouwbaarheid wil in het kort zeggen: herhaalbaarheid van metingen, dus in hoe verre,
wanneer een test onder gelijkblijvende condities tweemaal of vaker aan dezelfde persoon
wordt voorgelegd, varieert de verkregen testscore dan over deze testsessies?
5.1 herhaalbaarheid van metingen
Het herhaald voorleggen van dezelfde test levert vaak dezelfde score, een hogere score of een
lagere score op, omdat (respectievelijk):
- men zich herinnert wat hij vorige keer geantwoord heeft
- men leert bij
- men leert zich verkeerde trucjes aan
Een zinvolle herhaling wordt dus bemoeilijkt door geheugen- en leerprocessen. Ook spelen
allerlei kenmerken van de testomgeving en testprocedure mee, die van invloed zijn op de
testscores. Herhaalbaarheid van metingen moeten we ons dus hypothetisch voorstellen.
Er zijn dus invloeden op de testprestatie werkzaam die onvoorspelbaar of onsystematisch
varieren over herhaalde afnemingen van een test. Maar over een groot aantal herhaalde
metingen bij dezelfde persoon heffen voor- en nadelen mekaar op.
Herhaalbaarheid van metingen kan worden beoordeeld indien we een persoon vele malen
dezelfde test onder gelijkblijvende condities kunnen voorleggen. De afnemingen dienen
onafhankelijk van elkaar te zijn. In deze situatie zijn er bij verschillende afnemingen factoren
werkzaam die de testprestatie op een onvoorspelbare wijze benvloeden.
5.2 De klassieke testtheorie
In de klassieke testtheorie wordt iemands testscore opgesplitst in een constant of systematisch
deel en een toevallig of niet-systematisch deel. De geobserveerde testscore van persoon i
behaald tijdens replicatie j van een specifieke test geven we aan met Xij. De opsplitsing van
Xij in een systematisch deel T en een toevallig deel E.
Xij = Ti + Eij
[5.1]
Het toevallige deel Eij varieert bij replicaties op een onvoorspelbare wijze. De beide score
componenten zijn gedefinieerd als:
[5.2] en [5.3]
T = de betrouwbare score en E = de meetfout.
Omdat positieve en negatieve invloeden uiteindelijk tegen elkaar wegvallen is de gemiddelde
meetfout gelijk aan nul. [5.4]
Voor een specifieke persoon i geldt dat over onafhankelijke replicaties de spreiding van de
geobserveerde scores gelijk is aan de spreiding van de meetfouten. [5.5] en [5.6]
Voor een willekeurig persoon i luidt het klassieke testmodel:
[5.7] [5.8] [5.9] [5.10] [5.11] [5.12] [5.13] [5.14][5.15] [5.16]

De betrouwbaarheid [5.15] en de standaardmeetfout [5.16] spelen in de klassieke testtheorie
een centrale rol. Ze worden gebruikt om een schatting te krijgen van de nauwkeurigheid van
een meting met behulp van een specifieke test/ om een indruk te krijgen van de mate waarin
de testscores bij een onafhankelijke replicatie van de meting anders zouden kunnen uitvallen.
De splitsing van betrouwbaar en toevallig deel van de geobserveerde score kan ook gemaakt
worden in een bedoeld en onbedoeld deel. Het onbedoelde deel bevat ook de meetfouten.
Het is van groot belang in te zien dat een test met een hoge betrouwbaarheid niet noodzakelijk
in belangrijke mate datgene meet wat men bedoelt te meten.
5.3 Bepaling van de betrouwbaarheid
Het schatten van betrouwbaarheid kent twee benaderingen:
- 2 testafnemingen:
2 verschillende maar equivalente tests: paralleltests
2 dezelfde tests: test-hertest methode
- 1 testafneming:
splitsing in 2 halve tests: splitsingsmethode
covarianties tussen alle items: interne-consistentie-methode
De parallelmethode
We noemen 2 tests parallel als voor iedere persoon i uit een specifieke populatie geldt dat
[5.17] en [5.18]
Voor 2 paralleltests g en h geldt dat
[5.19]
In de praktijk kan de betrouwbaarheid van een testscore dus worden bepaald door van de test
een parallelversie te construeren en voor beide tests in een bepaalde groep de scores te
verzamelen. De correlatie tussen deze scores geeft een schatting van de betrouwbaarheid.
Empirisch controleerbare eigenschappen zijn de volgende
Gemiddelde Tg = Gemiddelde Th
[5.20] [5.21][5.22][5.23]
De eigenschap van parallelle tests dat ze met iedere willekeurige variabele Y dezelfde
correlatie hebben, verschaft de testconstructeur een belangrijk middel om te controleren of
zijn testversies al dan niet aan de eis van parallellie voldoen.
Indien 2 testversies parallel zijn, dan moeten de volgende 3 eigenschappen gelden voor de
ruwe scores Xg en Xh: [5.20] [5.18] [5.21] waarbij Y een willekeurige variabele is. Van
deze eigenschappen is de laatste veruit de belangrijkste. Aan de eerste 2 is eenvoudig te
voldoen door de testscores te standaardiseren.
De test-hertestmethode
De procedure volgens welke de test-hertest-methode wordt uitgevoerd komt er eenvoudig op
neer dat dezelfde test met een behoorlijke tussentijd tweemaal aan dezelfde groep van
personen wordt voorgelegd. De correlatie tussen beide verkregen ruwe scores is in de
populatie gelijk aan de betrouwbaarheid van de test, mits beide afnemingen als onafhankelijke
replicaties kunnen worden beschouwd. Indien we de ruwe scores, verkregen op tijdstippen 1
en 2, aanduiden met X1 en X2, dan geldt [5.24]
Bij zich weinig wijzigende eigenschappen geeft de test-hertestmethode een goede indruk van
de betrouwbaarheid volgens de parallelvorm-methode. Zodra er veranderingen optreden in de
gemeten eigenschap is dat echter niet meer het geval. Die veranderingen zijn het gevolg van
het feit dat men voor de tweede maal dezelfde test maakt. Wanneer deze veranderingen voor
alle mensen even sterk zou zijn dan zou men in termen van testscores bij iedereen dezelfde
verandering kunnen verwachten, maar het probleem is dat mensen verschillen in de mate
waarin zij leren. Ook kun je te maken hebben met het afnemen van de beschikbare groep van
respondenten naarmate het tijdsinterval tussen de 2 testen groter wordt. Hieruit volgt dat X1
en X2 vaak niet als onafhankelijke replicaties kunnen worden beschouwd. Derhalve zal
r(X1,X2) in veel gevallen in de populatie te laag of te hoog uitvallen.
De splitsingsmethode
Een test wordt opgedeeld in 2 even lange helften die in het ideale geval parallel zijn. Achteraf
wordt per testhelft een ruwe score bepaald. Indien beide scores werkelijk parallel zijn, dan is
hun correlatie in de populatie gelijk aan de betrouwbaarheid van de scores op een halve test.
Ten slotte wordt een correctie uitgevoerd op de verkregen betrouwbaarheid teneinde de
betrouwbaarheid van de gehele test te kunnen bepalen.
[5.25] en [5.26]
waarbij rxx = de betrouwbaarheid van de score op de oorspronkelijke test
en rkk = de betrouwbaarheid van de score op de test na verlenging of verkorting
K = verlengings- verkortingsfactor.
Een evenwichtige spreiding van gemakkelijke en moeilijke items over beide testhelften is het
beste. Een selectie van items volgens even en oneven rangnummers lijkt dit probleem
nagenoeg op te lossen. Ook is het aan te raden om in verschillende versies items te kiezen die
inhoudelijk veel op elkaar lijken.
De interne-consistentie-methode
Deze methode is gebaseerd op de inwisselbaarheid van individuele items in een test. Alle
covarianties tussen de items worden berekend, alsmede de variantie van de ruwe score X.
Tezamen met het aantal items, k, worden deze resultaten ingevuld in een van de vele
cofficinten van interne consistentie. Deze cofficinten worden dan gebruikt als schattingen
van de betrouwbaarheid.
Aantonen dat alfa ondergrens is voor betrouwbaarheid :[5.27] , [5.28] [5.29] [5.30] [5.31]
[5.32] [5.33] [5.34] [5.35] hieruit volgt: [5.36]
Hieruit volgt dat alfa praktisch gezien altijd een systematische onderschatting levert van de
betrouwbaarheid. De formules voor alfa zijn [5.37] en [5.38].
Een alfa waarde van 0.90 kan karakteristiek zijn voor een lange test met lage inter-itemcorrelaties, maar ook voor een korte test met hoge inter-item-correlaties. Een toenemende
waarde van alfa brengt daarentegen wel tot uitdrukking dat de systematiek van de meting
steeds meer de overhand krijgt ten opzichte van toevallige scorecomponenten in de
testprestatie. Ook kan alfa een hoge waarde hebben terwijl de test in sterke mate heterogeen
is. Binnen een specifieke deelgroep correleren de items hoog, maar items uit verschillende
deelgroepen correleren laag. We prefereren alfa dus als ondergrens van de betrouwbaarheid.
Alternatief voor alfa is lambda-2 [5.39] met [5.40].
5.4 speciale onderwerpen

De standaardmeetfout [5.16] wordt gebruikt om de nauwkeurigheid van de schatting van
iemands betrouwbare score T te bepalen. Deze schatting beschouwen we als een lineair
regressieprobleem. We gebruiken hierbij de formules:
[5.41] [5.42] [5.43] [5.44] [5.45][5.46]
De tweede schatting gebruikt dus meer relevante informatie dan de eerste en is derhalve
nauwkeuriger.
Bij testlengte geldt dat de betrouwbaarheidswinst kleiner wordt naarmate meer items aan de
test worden toegevoegd en dat het om praktische redenen vaak weinig zin heeft om een test
met een geringe betrouwbaarheid te verlengen teneinde de betrouwbaarheid te vergroten.
[5.47]. Testverlenging heeft vooral zin als de aanvangsbetrouwbaarheid niet al te laag is (0.60
a 0.80) en het aantal items in de test niet al te groot is (hooguit 10 a 20).
De betrouwbaarheidsindex [5.48] heeft als belang dat het de bovengrens aangeeft voor de
correlatie van testscore X met een willekeurige variabele Y. Voor deze Y geldt dat [5.49].
Een test met een hoge betrouwbaarheid kan een hoge validiteit hebben, terwijl een test met
een lage betrouwbaarheid ook een geringe validiteit zal hebben.
De validiteitswinst is geringer dan de betrouwbaarheidswinst bij [5.50].
Voor zover de validiteitcofficint toch toeneemt is dat te danken aan het terugdringen van
meetfouten die de samenhang van X en Y enigszins vertroebelen.
Formules [5.51] [5.52] [5.53] volgen uit [5.50]
Uit [5.54] volgt dat een geringe betrouwbaarheid een grote meetfout impliceert en ook
verschilscores zullen dus vooral uit meetfouten bestaan. De betrouwbaarheid van
verschilscores is eveneens gering als de samenhang van X1 en X2 sterk is. Een hoge
covariantie tussen X1 en X2 impliceert dat hun betrouwbare scores veel op elkaar lijken, met
als gevolg dat het verschil X1-X2 wederom vooruit uit meetfouten bestaat. Men moet streven
naar zo onafhankelijk mogelijke tests. Hoe lager hun testscores correleren, hoe beter. Ook
moeten de testscores beide zo betrouwbaar mogelijk zijn.
Er bestaat een sterk positief verband tussen de variantie van de betrouwbare score T en de
betrouwbaarheid. [5.55]
Indien bij vaste meetfoutenvariantie de variantie van T afneemt, geldt dit eveneens voor de
betrouwbaarheid. Men dient een test dus alleen toe te passen in de populatie waarvoor hij is
ontwikkeld.
In geval van een totaalscore die is gebaseerd op heterogene testdelen kan de betrouwbaarheid
het beste worden bepaald door middel van de gestratificeerde alfacofficint. [5.56]
De test-hertest-methode geeft een indruk van de generaliseerbaarheid van de meting in de tijd,
terwijl de paralleltest-methode aangeeft in hoeverre metingen verkregen met de ene testversie
generaliseerbaar zijn naar op hetzelfde moment verkregen meetwaarden van de andere
parallelle testversie.
In zijn generaliseerbaarheidtheorie gaat Cronbach er vanuit dat de testgebruiker altijd
generalisering van de testresultaten beoogt. Het totaal aantal condities waarnaar men wenst te
generaliseren wordt het universum genoemd. In plaats van over de betrouwbare score spreken
we nu over de universumscore, de gemiddelde testprestatie berekend over het universum van

condities.
Afhankelijk van de definitie van het universum varieert de universumscore, maar ook de
betrouwbaarheid van de meting. Deze betrouwbaarheid wordt nu generaliseerbaarheid
genoemd.
De foutenterm E, bestaat niet alleen uit toevallige invloeden op de testprestatie. De
samenstelling van deze foutenterm varieert met de definitie van het universum en daarmee
varieert tevens de generaliseerbaarheidcofficint.
Samenvatting H6 : Nieuwe ontwikkelingen in testtheorie en testconstructie.

-De verzamelnaam item-response-theorie verenigt een klasse van verwante testmodellen
waaronder de modellen van Lord,Rasch en Birnbaum.
6.1 Principes en begrippen van de item-response-theorie:
Het gaat in dit hoofdstuk vooral om item-response-modellen voor dichotoom gescoorde items.
Dichotome itemscores geven bijvoorbeeld aan of het antwoord goed of fout is en ook
bijvoorbeeld of iemand het met een uitspraak eens of oneens is.
Aangezien de kansen op een positief en een negatief antwoord complementair zijn richten we
ons voornamelijk op de eerste kans, die we ook wel succeskans noemen. Binnen de itemresponse-theorie wordt de succeskans opgevat als een functie van de te meten psychologische
eigenschap.Wiskundig gezien is de succeskans een functie van de schaal waarop de
meetwaarden Q liggen en deze schaal kan worden opgevat als een meetlat voor de
psychologische eigenschap die men wil meten. De vorm en de locatie van de functie wordt
bepaald door de kenmerken van het item. Zon soort functie wordt dan ook wel itemkarakteristieke-functie of item-karakteristieke-curve genoemd. ( zie figuur 6.1, blz 134).
Figuur 6.1 is een item-karakteristieke-functie van item g .
Over de vorm van de itemkarakteristieke functie valt een aantal dingen te zeggen.
De succeskans is een monotoon niet-dalende functie. Monotoon niet-dalend betekend dat de
functie stijgt of op sommige plaatsen constant is.
Ook valt het op dat de helling van de functie niet overal even sterk is. Ook bevat de functie
een kritisch gebied wat betekend dat personen met verschillende meetwaarden in dit gebied
wat betreft hun succeskans op het item goed te onderscheiden zijn.
6.2 Enkele modellen uit de item-response-theorie:
De modellen die nu zullen worden besproken gaan allemaal uit van een monotoon niet-dalend
verband tussen de succeskans op een item en de schaal waarop de psychologische eigenschap
gemeten wordt. De modellen verschillen in de keuze van de specifieke wiskundige functie
voor de item-karakteristieke-curve.
6.2.1 Het Model volgens Rasch:
Het Rasch-model is het strengste van alle item-response- modellen die behandeld zullen
worden.De functie van het Rasch-model wordt weer gegeven in figuur 6.2 blz 138. De meting
volgens het Rasch-model vindt plaats op een schaal waarop verschuivingen ( translaties) van
de verschillende waarden met eenzelfde constante hoeveelheid zijn toegestaan.
Een zeer belangrijke eigenschap volgens het Rasch-model is dat de meetwaarden
populatieonafhankelijk zijn.Wanneer het Rasch-model geldt mag je personen met elkaar
vergelijken ook al hebben deze personen verschillende tests gemaakt van een verschillend
moeilijkheidsniveau. ( voor verdere formules zie boek)
6.2.2 De modellen volgens BirnBaum:
De twee modellen van Birnbaum zijn minder streng dan het model volgens Rasch. Allebei de
modellen kan men opvatten als een veralgemenisering van het model van Rasch of anders
gezegd , het Rasch-model is een speciaal geval van de twee birnbaum-modellen . Wanneer het
Rasch-model een adequate verklaring geeft van het testgedrag , ook de minder strenge
modellen van Birnbaum bruikbaar zijn voor de gegevens. Het is niet altijd zo dat als de
modellen van birnbaum een adequate verklaring geven voor testgedrag dat men dan ook het
rasch-model mag gebruiken.
Het strengste model van de twee Birnbaum-modellen is het model met twee itemparameters.
De functie van het model met de twee item-paramters wordt weergegeven in figuur 6.3
De items in een test die aan de eisen van dit Birnbaum-model voldoen hebben in de regel een
verschillend discriminerend vermogen. De items hoeven niet allemaal van dezelfde kwaliteit
te zijn, wat wel het geval is in het Rasch-model. Een overeenkomst van dit model met het
Rasch-model is dat voor lage Q-waarden de succeskans tot nul nadert.
Populatieonafhankelijk meten van personen is bij het Birnbaum-model problematisch.
Meting van de persoon is wel onafhankelijk van de item-moeilijkheid maar niet van het
discriminerend vermogen. Om de Q-waarden te bepalen is het nodig dat eerst de
discriminatie-parameters bepaald worden. Deze discriminatieparameters spelen bij het Raschmodel geen rol aangezien ze identiek zijn voor alle items.
Wanneer men een minder streng testmodel kiest gaat dit gepaard met verlies aan
meeteigenschappen.Door middel van het Birnbaum-model kunnen alleen de personen
populatie-onafhankelijk worden gemeten maar niet de items.In het Rash-model kan dit laatste
wel.
Het tweede en minder strenge model van Birnbaum is het model met drie parameters. Deze
functie wordt weergegeven in figuur 6.4. Meetwaarden bij dit model zijn
populatieonafhankelijk te bepalen wanneer de populatieafhankelijke itemkenmerken bekend
zijn.
Verder wordt er in het boek niet echt diep ingegaan op het model van Birnbaum met drie
parameters .
6.2.3 De modellen volgens Mokken:
Mokken heeft twee item-response-modellen gepresenteerd die belangrijke verschillen
vertonen met de modellen volgens Rasch en Birnbaum.
Het minst restrictieve model volgens Mokken(= het model van monotone homogeniteit)
Mokken gaat ervan uit dat over veel psychologische begrippen zo weinig kennis dat het
gebruik van de relatief restrictieve Rasch en Birnbaum-modellen niet door dergelijke kennis
gerechtvaardigd kan worden. Dit is de rede dat Mokken in eerste instantie uit gaat van een
model waarin het antwoordgedrag van respondenten niet wordt beperkt door de keuze van een
specifieke response-formule. De enige restrictie die aan de item-karakteristieke-functies wordt
opgelegd, is dat zij monotoon niet-dalend zijn. Verder moet het antwoordgedrag op alle items
een afspiegeling zijn van dezelfde psychologische eigenschap. De enige restrictie op het
antwoordgedrag is dat een toenemende meetwaarde gepaard gaat met een toenemende of
constante succeskans. De modellen volgens Rasch en Birnbaum zijn speciale gevallen van het
eerste model van Mokken. In de Rasch-en Birnbaum-modellen wordt de item-karakteristieke
curve door een specifieke functie vastgelegd en dit gebeurt in het eerste Mokken-model niet.
Bij het eerste model stellen we zonder verder bewijs ervoor vast dat de ordening van personen
populatie-onafhankelijk is.
Het tweede model volgens Mokken is het model van dubbele monotonie. Dit model leid wel
tot populatie-onafhankelijke ordeningen van zowel personenals van items. Het model van
dubbele monotonie is een speciaal geval van het eerste model volgens Mokken(= model van
monotone homogeniteit).Bij dit model wordt er eveneens vanuit gegaan dat de itemkarakteristieke-functies monotoon niet-dalend zijn. Bovendien mogen de functies elkaar niet
snijden! De discriminatieparameter en de pseudokansniveauparamter spelen in het tweede
model geen rol , de moelijkheidsparamter daarentegen wel.
6.3 Meten met item-response-modellen:

De toepassing van de testtheorie op de testgegevens leid uiteindelijk tot het afbeelden van
personen en eventueel, items op een schaal. De item-response-theorie heeft hierbij de
volgende eigenschappen:
Ten eerste volgt de item-response-theorie de schaaleigenschappen uit het specifieke itemresponse-model.
Ten tweede vindt meting volgens de modellen van Rasch en Birnbaum plaats op een
metrische schaal ( = interval-, verschil- en rationivau) , terwijl de modellen volgens Mokken
ordeningen van meetwaarden toelaten.
Ten derde kunnen met behulp van de modellen van Rasch en Birnbaum personen en items op
dezelfde schaal worden afgebeeld . De modellen volgens Mokken laten, vanwege het ordinale
karakter van de meting , geen gezamenlijke ordening van personen en items toe , maar wel
van personen en items apart.
Tenslotte is de meting volgens item-response-modellen in specifieke gevallen populatieonafhankelijk. In het Rasch-model is de meting van zowel personen als items populatieonafhankelijk. In de Birnbaum-modellen is alleen de meting van personen populatieonafhankelijk. In het model van monotone homogeniteit is de ordening van personen
populatie-onafhankelijk, terwijl het model van dubbele monotonie populatie-onafhankelijke
ordening van zowel personen als items toelaat.
6.3.1 Betekenis en gebruik van metrische schalen:
In deze paragraaf gaat het om het vraagstuk of meting van psychologische eigenschappen op
metrisch niveau voor de praktijk van het testen handig of nuttig is. Misschien is het handig
om dit aan de hand van een voorbeeldje duidelijk te maken.
We willen de intelligentie van proefpersonen meten,als een persoon i een meetwaarde heeft
van 1 en een persoon j heeft een meetwaarde van 2 mogen we dan concluderen dat j tweemaal
zoveel van de eigenschap bezit als i ???
Antwoord : nee, zulke interpretaties over psychologische eigenschappen zijn onverantwoord;
Als men over intelligentie wil spreken in termen van hoeveelheden moet men zeer
nauwkeurig weten waar intelligentie voor staat / wat het precies inhoud.
Eggen en Kelderman bespreken diverse bewerkingen van meetwaarden die ertoe dienen om
de schaal van een handige interpretatie te voorzien.
De eerste bewering is bedoeld om de schaal te relateren aan een specifieke normgroep.Bij
deze bewerking krijgt de schaal een gemiddelde en een spreiding die karakteristiek zijn voor
de normgroep, zodat een specifieke score direct te interpreteren valt.
De tweede bewerking is bedoeld om meetwaarden te relateren aan een of meer
referentiepunten die onafhankelijk zijn van een groep of populatie en die een zinvolle
inhoudelijke interpretatie mogelijk maken.Een voorbeeld hiervan is een drempelwaarde die
het minimale niveau aangeeft voor deelname aan een bepaalde cursus.
Naast deze twee bewerkingen kan men de meetwaarden ook omzetten in percentielscores of
in succeskansen ( odds) of men kan de schaal van de item-response-theorie omzetten in een
schaal van de klassieke testtheorie. Voordelen van de laatste bewerking zijn dat de ordening
volgens T nu volgt uit de theorie en niet hoeft te worden aangenomen. Een ander voordeel is
dat testgebruikers over het algemeen gezien beter bekend zijn met de betrouwbare scoreschaal.
6.3.2 Nauwkeurigheid van de meting:
Of men nu volgens de klassieke testtheorie of volgens de item-response-theorie meet , het
belangrijkste is steeds dat scores van personen van elkaar of van een normscore kunnen
worden onderscheiden. Wat betreft de betrouwbaarheid van de meting is de benadering van
de item-response-theorie op te vatten als een verfijning van de klassieke benadering. In de
klassieke testtheorie wordt de nauwkeurigheid van de meting ( = de ruwe score X als

schatting voor de betrouwbare score T ) meestal uitgedrukt in de standaardmeetfout( zie H5 ).
Daarbij wordt ervan uitgegaan dat deze , voor een bepaalde test, constante standaardmeetfout
op ieder scoreniveau gebruikt kan worden.
6.4.1 De itembank en de equivalering van scores en itemkenmerken:
In de context van de onderwijsevaluatie voert Van der Linden een aantal bezwaren tegen het
gebruik van standaardtestmethoden en-toetsingsmethoden.
Ten eerste noemt hij de mogelijk geringe representativiteit van een standaardtest voor een
inhoudelijke kennis- of vaardigheidsdomein, ookwel het probleem van inhoudvaliditeit (H 7).
Ten tweede is er het probleem dat standaardtests standaardpopulaties veronderstellen.
Ten derde noemt Van der Linden de individualisering van het leerproces, die vaak zal
uitlopen in uiteenlopende beheersingsniveaus van de studiestof.
Door de vele bezwaren is het duidelijk dat de standaardtest in de genoemde gevallen
vervangen moet worden door een groot domein van items waaruit naar behoefte tests kunnen
worden samengesteld. Zon domein wordt ook wel een itembank genoemd.
De itembank en de item-response-theorie hebben beiden de populatie-onafhankelijkheid van
metingen gemeen. Doordat de itembank deze eigenschap ook bezit is het onder andere
mogelijk om alle items uit een bank op dezelfde schaal af te beelden mits natuurlijk wordt
voldaan aan de eisen van het gekozen item-response-model. Het afbeelden van items op een
schaal en het daarbij toekennen van meetwaarden noemt men kalibreren.
Voor de constructie van tests is het van groot belang hoe de items in de itembank worden
opgeslagen.Millmann en Arter onderscheiden twee classificatiemethoden.
Ten eerste kunnen items worden opgeslagen naar onderwerp of plaats in het curriculum.
Ten tweede is er de mogelijkheid om ieder item vergezeld door 1 of meer sleutelwoorden in
de bank onder te brengen.
Het tweede systeem heeft ten opzichte van het eerste systeem een grotere flexibiliteit.
6.4.2 Testconstructie op basis van een itembank:

Vooral selectie van de juiste items uit de itembank voor een specifieke toepassing is lastig.
Er van uitgaande dat de test nauwkeurig moet meten , kunnen aan de te selecteren items en
ook aan de uiteindelijke test een aantal eisen gesteld worden.
Men kan in verband met de testtijd voor het aantal te selecteren items een bovengrens
vaststellen ( zodat de test niet te lang wordt ). Ook kunnen er eisen worden gesteld aan de
samenstelling van de test qua onderwerp. Als je bijvoorbeeld een rekentest hebt moet je
beslissen hoeveel optelsommen en aftreksommen je er in stopt, hoeveel
vermenigvuldigingssommen, hoeveel breuken etc.
Het is niet gemakkelijk om in de itembank items bij elkaar te zoeken die aan alle criteria van
je test voldoen.
Gegeven de eisen die men aan de test stelt , moet men de kleinst mogelijke deelverzameling
van items uit de itembank selecteren waarvan de testinformatiecurve voor alle waarden van Q
gelijk is aan of groter is dan de doelinformatiecurve ( zie figuur 6.8)
6.4.3 Adaptieve tests:

Een adaptieve test is een test die zo goed mogelijk aan het niveau van een specifieke
respondent is aangepast.
In de itembank moeten naast andere informatie over de items, in elk geval ook de
itemparameters zijn opgeslagen. Samen met de tussentijdse schattingen van
persoonsparameter Q van een specifieke respondent., zijn de itemparameters nodig om op
basis van iemands response het volgende item te selecteren.Om zinvolle schattingen van de
persoonsparameter te kunnen verkrijgen, is het nodig dat het antwoord gedrag van de
respondenten waaruit de adaptieve test wordt samengesteld voldoet aan de eisen van het itemresponse-model.Is de discrepantie tussen het model en het empirisch waargenomen gedrag te
groot dan kan men de itembank niet gebruiken voor het construeren van adaptieve testen.Het
is dan handig om de itembank in te delen in verschillende deelbanken die ieder op zichzelf
weer gericht zijn op testgedrag dat met behulp van een item-response-model kan worden
beschreven.Per deelbank kunnen dan adaptieve tests worden geconstrueerd.
Adaptief testen heeft een aantal voordelen t.o.v testen met behulp van een standaardtest. Ten
eerste wordt er bij adaptief testen per respondent een zeer nauwkeurige meting verricht. Ten
tweede krijgen respondenten een test voorgeschoteld die is aangepast aan hun eigen nivea.
Ten derde is de testprocedure geautomatiseerd en daardoor objectief. Ten vierde is de testtijd
relatief kort en kunnen de resultaten sneller teruggekoppeld worden. Ten vijfde kunnen
testpresentaties die verkregen zijn met behulp van verschillende testen met elkaar vergeleken
worden.
Helaas kleeft er ook een groot nadeel aan testconstructie op basis van een itembank. Het is
namelijk niet makkelijk om een grote itembank te construeren waarvan alle items testgedrag
oproepen dat met behulp van een van de item-response-modellen beschreven kan worden.
6.4.4 Vraagonzuiverheid:
Zolang met behulp van een test personen uit dezelfde populatie vergeleken worden en de
psychometrische eigenschappen van de meting bekend zijn , kan de toepassing van een test op
een verantwoorde manier gebeuren. Problemen kunnen zich voordoen wanneer met behulp
van een test personen uit verschillende populaties met elkaar moeten worden vergeleken.Het
is dan de vraag of personen uit een specifieke populatie systematisch worden bevooroordeeld
of benadeeld worden doordat de test in diverse populaties op verschillende manieren
fuctioneert.
Vraagonzuiverheid wordt in de item-response-theorie al volgt gedefinieerd:
Er zijn 2 populaties van respondenten. Meestal vertegenwoordigt een van deze populaties een
meerderheidsgroep en de andere een minderheidsgroep. Er is sprake van een goed
functionerend of zuiver item als de item-karakteristieke-functie van een specifiek item in
beide groepen identiek is. De achterliggende gedachten bij deze definitie is dat twee personen
met dezelfde Q waarde maar uit verschillende populaties afkomstig, dezelfde succes kans op
een specifiek item moeten hebben. Hebben personen met dezelfde Q waarde toch
verschillende succeskans, dan betekend dat, dat er minstens twee eigenschappen in het spel
zijn die de testprestatie bepalen.
Kok bespreekt drie strategien voor het onderzoek naar de verklaring van vraagonzuiverheid.
De eerste strategie:
Nadat er statistisch is gebleken dat er sprake is van partijdigheid , wordt er geprobeerd om
eigenaardigeheden in de onzuivere items te vinden waardoor deze zich onderscheiden van de
overige items ( = ad hoc strategie ).
De tweede strategie:
Bij de tweede strategie wordt er een verband gelegd tussen eigenschappen van personen
enerzijds en kritische kenmerken van items in vergelijking met onpartijdige items anderzijds.
De derde strategie:
De derde strategie is het experimentele onderzoek naar oorzaken van vraagonzuiverheid. Kok
beschrijft hierbij een toets waarin items uit een rekentoets werden gemanipuleerd door
moeilijke woorden te vervangen door makkelijkere woorden. Bij de gewijzigde versie ging
men er van uit dat deze minder partijdig zou zijn t.o.v Turkse en Marokkaanse kinderen.
6.4.5 Afwijkende scorepatronen:
Wanneer bekend is dat het gedrag van leden van een specifieke populatie beschreven kan
worden met behulp van een item-response-model , dan bevat de Q waarde alle informatie over
deze personen die met deze test te verkrijgen is. Toch kan het gebeuren dat sommige
individuen uit de populatie in hun testgedrag afwijken van de meerderheid. Dit afwijkende
gedrag kan er voor zorgen dat er een patroon van item-scores onstaat dat niet waarschijnlijk is
voor iemands Q waarde en voor de itemkenmerken.In een dergelijke situatie moet je
concluderen dat de Q waarde niet alle informatie over het individu bevat en de additionele
informatie te verkrijgen is op basis van de afwijkendheid van het scorepatroon. ( zie blz 168
voor een drietal voorbeelden van situaties waarin afwijkende patronen te verwachten zijn ).
HOOFDSTUK 7
VALIDITEIT EN BETEKENIS
Validiteit juistheid, nuttigheid accuraatheid in gebruik

Mate waarin de test zijn doel beantwoordt
Bedoeling v/d test dient in ogenschouw te worden genomen
Begrip validiteit heeft betrekking op de vraag of die sprong van testgedrag naar iets anders
verantwoord is. Proces van verzamelen van evidentie van deze rechtvaardiging heet
validerings- of validatie proces. De mate waarin die rechtvaardiging kan worden gevonden
wordt aangegeven door de term validiteit.
1. Predictieve validiteit (voorspellend), selectie, beroepsadvisering, enz.
2. Begripsvaliditeit (van belang in het kader meten, eigenschap)
Onderzochte in psychologische termen begrijpen en beschrijven
Validiteit van test geeft aan in hoeverre deze aan zijn doel beantwoordt, waarom vaststelling
van deze validiteit moet worden gebaseerd op de relatie tussen de test en andere variabelen of
tests die alle zijn op te vaten als operationaliseringen van hypothetische begrippen.
Vier Soorten Validiteit:
1. predictive validity (verschil deze en eerder genoemde, deze alleen toekomst, komt veel
voor in de praktijk)
Heeft betrekking op relatie tussen testprestaties en op een later tijdstip verkregen
criterium prestaties.
Schatting die wordt verkregen door na te gaan in welke maten de voorspellingen, gedaan
op basis van testprestatie, worden bevestigd door gegevens of observaties verzameld op
een later tijdstip.
2. concurrent validity
Deze vorm van validiteit wordt beoordeeld door na te gaan hoezeer test resultaten
corresponderen met gelijktijdig beschikbare criteriumgegevens. Deze vorm komt ook vrij
veel voor.
V.b. valideren van test door testresultaten van leerlingen te vergelijken met gelijktijdige,
b.v. door leraar uitgevoerde prestatiebeoordelingen
3. content validity (inhoudsvaliditeit)

Nadruk op subjectief oordelen
Goede betrouwbaarheid impliceert nog geen goede inhoudsvaliditeit
Definitie: sterkte van samenhang tussen testscore en de totaalscore op het gehele
itemdomein.
Bepalen van samenhang tussenscores op twee equivalente tests. Hiervan wordt schatting
verkregen door te beoordelen hoezeer de inhoud van de test
4. construct
7.4 Betekenis en begripsvaliditeit

Betekenisanalyse tracht een antwoord te vinden op de vraag wat de test meet, welk
psychologisch begrip het testgedrag zinvol zou kunnen verklaren.
7.4.1 Het proces van betekenisanalyse en begripsvalidering

1e fase begripsvalidering: voorlopige hypothetische verklaring
Hierbij van belang:

fase creatief van aard (idee krijgen)
voorspelling ondubbelzinnig verklaren
je kunt nooit definitief bewijzen een theoretische betekenis
alternatieve hypothese mogelijk verwerpen evenzeer belangrijk
Het gaat er in betekenisanalyse dus om het vinden en bevestigen van een theorie of een
theoretisch begrip als verklaring voor het testgedrag.
Dit gebeurt aan de hand van trekvaliditeit (verklaring aan een persoonlijkheidstrek), of
Nomologische validiteit waarbij een hele theorie ter sprake komt. Trekvaliditeit wordt in
psychologie voornamelijk gebruikt, omdat eisen die door de nomologische gesteld zijn nog
niet zijn voldaan.
Eenmaal trek- of nomologische netwerk als verklaring gekozen start de begripsvalidering.
Er kunnen nu twee soorten voorspellingen worden gedaan:
1. confirmerende voorspelling
2. discriminerende voorspelling
7.4.2. Op zoek naar de betekenis
Vaak zijn de betekenis en de theorie vaag, onhelder, of geheel afwezig.
Daarom>>> betekenisanalyse langs 2 wegen:
1. Structuuronderzoek
2 suggesties: > psychologische analyse van de inhoud van de vragen en opdrachten
> Analyse van de meer formele kenmerken van de test
2. Relatieonderzoek
Hier gaat het om het reflatieonderzoek als bron voor ideen, niet ter toetsing van de `
hypothesen.
4 vormen waarin de gegevens zich kunnen voordoen:
spreiding en norm
experimenten
factoranalytisch onderzoek
predicties (wat de test kan voorspellen)
7.4.3. Alternatieve verklaringen

De waarde van het verwerpen der alternatieven is niet altijd even groot.
Het hangt af van de stringentie van de experimentele opzet, en van de plausibiliteit van de
alternatieve verklaringen.
3-tal alternatieven waarvan het altijd verstandig is ze te controleren:
7.5
test voor prestatieniveau of gedragswijze > correlatie met intelligentie?

Sociale wenselijkheid: individuele of algemene
Het nagaan of het test gedrag gemakkelijk toegankelijk is voor een of meer antwoord
tendenties
Nogmaals betrouwbaarheid en validiteit
Betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor de betrouwbare

score op de test.
Dit is een indicatie van de nauwkeurigheid van de meting. Los van de nauwkeurigheid staat
de vraag wat de test meet. Dit is validiteit.
Hst 8 De bijdrage van de test in het beslissingsproces

8.1 taxonomie van beslissingen
Een beslissing over mensen bevat 3 elementen:
-Een individu waarvoor de beslissing geldt
-twee of meer behandelingen (treatments) waartussen met m.b.t de beslissing moet kiezen
-de informatie die dient als basis voor de beslissing
Beslissingsstrategie: (kan diverse malen worden herhaald voordat er een beslissing wordt
genomen.
Informatieinformatieverwerking volgens regelsnader onderzoektest interview med.
ond. uitwerkingInformatieetc
Definitieve beslissing
behandeling A
behandeling B
behandeling C
afwijzing
Enkele indelingsprincipes m.b.t beslissingen over mensen.
Onderscheiding tussen individuele en institutionele beslissingen. Een individuele beslissing
wordt voor nmaal genomen en het rendement verschilt per individu (want de waarde
verschilt per individu). Vb: schoolkeuze, beroepskeuze.
Bij institutionele beslissingen staat men tegenover een groot aantal gelijksoortige
beslissingen. Er is een vaste serie van beslissingsregels voor een verscheidenheid van gevallen
(institutionele beslissingsstrategie). Vb: toelatingsprocedure voor een school.
Een tweede onderscheiding heeft betrekking op de onderlinge relatie van de te kiezen
alternatieven. De alternatieven kunnen kwantitatief van elkaar verschillen, maar wel in n
dimensie of in elkaars verlengde liggen. Vb verschillende schooltypen die uitsluitend wat
betreft het niveau en niet qua aard van elkaar verschillen. Wanneer info op deze manier in
n dimensie ligt noem je haar univariaat.
Beslissingen genomen op basis van multivariate informatie: alternatieven die qua aard, en niet
uitsluitend qua niveau, verschillend zijn. Vb keuze tussen studie psychologie of economie.
Binnen de beslissing op basis van univariate informatie kan je nog beslissingen onderscheiden
waarbij het gaat om positieve (dichotomie: wel/niet) of negatieve (indelen in twee of meer
klassen)keuze.
----------------------------------------------------------------------------------------------------------------institutionele
individuele
beslissingen
beslissingen
univariate dichotomie
-selectie
-ja/nee keuze
informatie niet/wel
-plaatsing
-niveaukeuze
klassen
(niveauverschillen)
multivariate informatie
-plaatsing
-soortkeuze
(kwalitatieve verschillen)
Bij plaatsingsbeslissingen is er een onderscheid tussen variabele(adaptive) en vaste (fixed)
treatments. Bij een vaste treatment gaat men uit van n of meer van tevoren vastgelegde
behandelingen, waartussen men een keuze kan doen. Bij variabele treatments bestaat er een
mogelijkheid om, bijvoorbeeld, de opleiding of behandeling zelf weer te modificeren en
zodanig vorm te geven, dat ze optimaal worden aangepast aan het individu.
Er kan ook een onderscheid worden gemaakt op de vraag of de beslissingen in een enkele fase
worden genomen (single-stage of non-sequential decisions), of dat het hele
beslissingsproces in verschillende fasen verloopt (sequential decisions) vb: voorselectie.
8.2 Enkelvoudige selectie-c.q. afwijzingsmodel
Van enkelvoudige selectie is sprake indien individuen worden onderzocht ten aanzien van een
enkel criterium, waarbij er slechts twee mogelijkheden zijn: onderzochte voldoet niet of
onderzochte voldoet wel aan de eisen. Het gaat hierbij om institutionele beslissingen, waarbij
wordt uitgegaan van univariate informatie.
8.2.1 Het gebruik van een enkele test
De effectiviteit van de selectie hangt van meer factoren af dan van alleen de validiteit van de
test. Bij een afwijzingsmodel is het belangrijk de correlatie te weten met het criterium.
Zie voor onderstaande; figuur 8.3 in boek (pag.226)
-Taylor en Russell (1939): selectieratio (percentage kandidaten dat wordt aangenomen)
(B+D)/(A+B+C+D)= 0.84
-Wiegersma (1963): toevalskans/base rate (percentage geschikten wanneer men niet zou
selecteren maar volgens toeval zou aannemen)
(A+B)/(A+B+C+D)= 0.76
-Succesratio (indicatie van effectiviteit van de selectie)
Is afhankelijk van de validiteit van de test. (Hoe hoger de correlatie tussen test en criterium,
hoe voller de kwadranten van B en C zullen worden en hoe leger A en D)
Ook wordt de succesratio benvloed door de toevalskans. (Als de som A+B in verhouding
groter zou worden, zou dit ook het geval zijn met de verhouding van B en (B+D))
De derde factor die de succesratio benvloedt is de selectieratio. (Hoe meer personen we
afwijzen, hoe groter de breuk B/(B+D) zou worden. (zie fig. 8.4.4)
In de praktijk van het beslissen en voor de evaluatie van de uiteindelijke waarde van de
beslissing zijn er nog een aantal kanttekeningen:
-Er speelt een rol in het beslissingsproces hoeveel kandidaten moeten worden aangenomen.
Eveneens speelt mee naar welke succesratio men streeft, of hoeveel risico men wilt lopen om
een ongeschikte persoon aan te nemen.
-Het optimaliseringsprobleem. Verder dient men bij iedere beslissing het belang van de
verhouding van twee categorin tegen elkaar af te wegen. Door de selectieratio te variren,
varieert men tevens de verhouding tussen de groep en van positieve en negatieve missers; hoe
minder positieve, hoe meer negatieve missers en omgekeerd. Een negatieve misser kan
ernstige problemen geven, bijv. bij het aannemen van een ongeschikte kandidaat voor een
zeer dure opleiding, bijvoorbeeld tot piloot. Hier zal men liever meer positieve missers op de
koop toe nemen. De situatie andersom is ook denkbaar. Ook kan er een situatie zijn waarin
zowel de groep van positieve als de groep van negatieve missers zo klein mogelijk gehouden
moet worden. Het verschuiven van de aftestgrens op de predictorvariabele zorgt dus voor een
vermindering van het aantal missers van het ene type, maar vergroot tegelijk het aantal
missers van het andere type. Het vaststellen van een optimale kritische testscore of aftestgrens
is dus niet eenvoudig. Men kan zeggen dat de aftestgrens optimaal is als de daarbijhorende
opbrengst of utiliteit van de selectieprocedure optimaal is of, omgekeerd, als het verlies van
de procedure minimaal is.
-Ook heeft eenzelfde validiteit niet steeds dezelfde waarde voor de beslissing. Als de
toevalskans dicht bij 1 komt te liggen heeft het vrijwel geen zin meer om te testen, omdat de
succesratio toch weinig kan worden opgevoerd en selectie met de test bovendien zal leiden tot
het afwijzen van een relatief groot aantal geschikten. Omgekeerd geldt dit ook.
-Hetzelfde geldt ook voor de invloed van de selectieratio op de selectie-uitkomst.

Selectie bij een zeer lage toevalskans. Voorbeeld: Mogen studenten worden afgewezen voor
het doctoraal examen op basis van magere stageresultaten? Het aantal brokkenmakende
afgestudeerde psychologen, ingenieurs,artsen is zeer gering dus de toevalskans is zo laag, dat
er zelfs bij een veel meer valide voorspeller dan stageresultaten er toch altijd te veel ten
onrechte afgewezen kandidaten zouden blijven.
De absolute waarde van de validiteit van een test heeft op zich weinig betekenis. Ook andere
factoren, zoals de toevalskans en selectieratio moeten in rekening worden gebracht.
Van welke factoren is de utiliteit van een testprocedure bij een gegeven toevalskans
afhankelijk?
Cronbach en Gleser (1965) netto-utiliteit per onderzochte:
U= Su r xu (X) C
U= netto utiliteitswinst per onderzochte
Su = Standaarddeviatie van de utiliteit in de ongeselecteerde populatie
Rxu = correlatie tussen predictor en utiliteit in de ongeselecteerde populatie
(X)= ordinaat van de normaalverdeling van X bij aftestgrens X(bij gegeven selectieratio)
C= gemiddelde kosten van de procedure per onderzochte
De factoren in de formule:
Ten eerste de spreiding in utiliteitsscores of, vanwege de positieve monotome relatie, in
criteriumscores. Ten tweede de correlatie tussen test en criterium of tussen test en utiliteit. In
de derde plaats is de selectieratio van invloed op de utiliteit. Uiteindelijk de factor kosten
testonderzoek, men kan uit de formule berekenen of de kosten van het testprogramma
opwegen tegen het uiteindelijk rendement van de selectieprocedure.
8.2.2 Het gebruik van meer dan een test
Meestal een hoge validiteit bij gebruik van meerdere tests. Het best is een serie tests die allen
zo hoog mogelijk correleren met de criteriumprestatie, maar onderling een zo laag mogelijke
correlatie vertonen.
Gewenste beslissingen kunnen op twee manieren worden bereikt:
Ten eerste via een statistisch proces van wegen van testscores en eventueel berekenen van
succeskansen. Ten tweede via een intutief, niet statistische proces van weging en
voorspelling.
De statistische methode is superieur aan de intutieve methode. In een intutieve combinatie
van gegevens spelen allerlei vooroordelen, stereotypen en ongeverifieerde veronderstellingen
een rol naast ervaring en kennis van de vakliteratuur.
Sommige omstandigheden vereisen de procedure van de veelvoudige minimumscore.
(multiple cut-off procedure). Hierbij wordt voor iedere test afzonderlijk een kritische score
vastgesteld, beneden welke geen kandidaten mogen worden aangenomen. Iedere kandidaat
die testscores heeft hoger dan of gelijk aan de minimumtestscores wordt aangenomen. Dit is
een eenvoudige methode. Een testcombinatie volgens de veelvoudige
minimumscoreprocedure heet conjunctief , en die volgens de gewogen samenstelling
compensatorisch.
Er is een combinatie van beide methoden mogelijk; binnen bepaalde minimumgrenzen is de
relatie compensatorisch (fig. 8.5)
De gewogen samenstelling heeft als voordeel dat ze extra informatie geeft buiten de vraag van
aannemen of afwijzen. Soms is de veelvoudige minimumscore echter adequater, waarin het
gaat om alles of niets- eisen.
8.2.3 Selectie in een of meer fasen

Deze trapsgewijze selectie is in de meeste gevallen superieur aan de eenmalige selectie,
aangezien meestal veel tijd en geld bespaard kunnen worden zonder dat er meer foutieve
beslissingen vallen. Het is vooral handig een onderzoek met veel personen. Het voordeel van
de procedure is een grote besparing aan onderzoekstijd. Deze procedure is ook zeer geschikt
voor programmering en voor besturing door de computer.
8.3 Plaatsbeslissingen
8.3.1 Plaatsing met betrekking tot niveauverschillen
De besliskunde is zeer relevant voor institutionele beslissingen maar ook voor de straks
besproken individuele beslissingen. Het enige verschil is dat bij institutionele beslissingen de
waarde van uitkomsten van beslissingen door de organisatie wordt bepaald en constant is voor
vele beslissingen, en dat bij individuele beslissingen de waarde voor het individu wordt
bepaald en dus per individu kan verschillen.
Een individu wordt zodanig geplaatst dat hij of zij het meesterendementoplevert. Soms is
het goed mogelijk volgens een exacte en rationele procedure te werk te gaan. Maar vaak is dit
niet mogelijk. Er zijn vaak een beperkt aantal plaatsen per functie bijvoorbeeld. Vaak worden
er dus beslissingen op gevoelgenomen, men volgt eigenlijk niet een exacte procedure maar
een ad-hoc strategie.
8.3.2 Plaatsing met betrekking tot kwalitatieve verschillen
Een belangrijk verschil met plaatsing waarbij het om kwantitatieve verschillen gaat, betreft de
aard van de informatie die men voor de bepaling van kansen moet gebruiken. Er is een andere
test nodig. Centraal staat nu de mogelijkheid tot differentile predictie. Op basis van de
testprestaties moet niet alleen een schatting kunnen worden gemaakt van de kansen voor beide
richtingen, maar men moet ook de testprestaties tussen beide richtingen kunnen differentiren.
Dat betekent dat een hoge correlatie tussen beide criteria niet voldoende is, de test moet zich
nu niet richten op wat criteria verenigt, maar meer op wat men scheidt.
Op basis hiervan zijn differentile geschiktheidstesten ontstaan. Bij deze differentile
predictie is voor een test niet alleen de correlatie met de afzonderlijke criteria, maar ook de
differentile validiteit van belang. Deze differentile validiteit is de correlatie tussen de
predictscore X, en het verschil van twee criteriumscores, (Y1-Y2).
r (X, Y1-Y2)= S(Y1) r (X,Y1) S(Y2) r (X,Y2)/ S(Y1-Y2)
8.4 Individuele beslissingen
Het gaat hier om beslissingen die worden genomen voor of door individuen, die er een eigen
waardensysteem op na houden, waardoor dit soort beslissingen veelal een uniek en
persoonlijk karakter heeft. Bij individuele beslissingen hebben we ook met beide elementen
kans en waarde te maken. Het verschil met institutionele beslissingen is dat de evaluatie
van de resultaten van beslissingen een individuele en ook per individu varirende zaak is. Ook
hebben we bij individuele beslissingen kwantitatief en kwalitatief verschillende alternatieven.
Decisiesituatie:
Een individu heeft de keuze voor beslissing van het accepteren van functie K. Zijn kans om in
deze functie te slagen is 0.60; de kans op falen 0.40. Stel dat men na overwegen tot een
waardetoekenning komt, waarbij het falen in de functie driemaal zo ernstig is als het succes
hebben in de functie. Beslissingsproces geformaliseerd:
Rk= 0.60 x 1 + 0.40 x (-3) = -0.60
Verwachte rendement is negatief dus hij kan beter beslissen de functie K niet te accepteren.
Een ander, die de functie K zoveel sterker ambieert dat de waarde van succes in K tweemaal
zo groot wordt geschat als het psychologische en economische verlies bij het falen in K, kan
zelfs bij een nog kleinere kans op succes in K, bijvoorbeeld 0.45, toch terecht beslissen de
functie te aanvaarden. In zaak geval wordt de berekening namelijk:
Rk= o.45 x 2 + 0.55 x (-1) = 0.35
Het psychologische advieswerk dient niet beperkt te worden tot het berekenen van kansen en
het vinden van waarderingscijfers. In de eerste plaats is de exacte kansbepaling meestal niet
zo eenvoudig als hier wordt gesuggereerd. In de tweede plaats is het evaluatieproces van de
diverse alternatieven uitkomsten een allesbehalve eenvoudig proces. In de derde plaats
moeten binnen een keuze veelal meer mogelijkheden, variaties en schadeposten zijn.
8.5 Open vraag
Voor een beantwoording van een open vraag is de beste weg die van het testen in fasen. In
een eerste fasen kan het grote aantal mogelijkheden worden gereduceerd tot een meer
beperkte keuze of een bepaalde veronderstelling. In een tweede fase kan deze hypothese
worden getoetst of kan met betrekking tot dit beperkte aantal mogelijkheden worden beslist.
Een polaire relatie tussen bandwijdte en zuiverheid: hoe meer informatie tegelijk, hoe minder
zuiver, en omgekeerd. Bij het testen wordt steeds getracht een compromis te vinden tussen de
veelheid van informatie (bandwijdte) en de accuratesse van de informatie (zuiverheid). Bij
een hypothesevorming of een inperking van de keuzemogelijkheden (eerste fase) dient juist
de breedte, het bereik van de test op de voorgrond te staan. Voldoende zuiverheid is niet meer
te handhaven indien de reikwijdte van de test veel groter moet worden. Ideaal geacht worden
tests met een geringe bandwijdte en grote zuiverheid (intelligentietests). In de sfeer van een
grote bandwijdte en een lage zuiverheid liggen in de eerst plaats diagnostische methoden als
het interview en het autobiografische opstel, en daarnaast typische open-vraaginstrumenten
als observatietests en projectietests en ten slotte de kwalitatieve analyse van op zichzelf
objectieve tests.
Er moet veel onderzoek verricht worden voordat deze brede-band techniek echt als een
zuivere nauwe-bandtest bruikbaar zou worden. Een eerste vereiste is betrouwbaarheid van de
testgegevens, door standaardiseren van de procedure afnemen, een voldoende objectief
verwerkingssysteem en voldoende spreiding. Er moet meer exacte differentiatie van normen
voor specifieke populaties beschikbaar zijn. Ook moeten beoordeelde kenmerken een
omschreven plaats krijgen in een trektheorie of een theorie rondom een psychologisch
construct, opdat men te weten komt welke psychologische betekenis aan die kenmerken mag
worden toegekend.
Bij een open vraag is de brede-bandtechniek aangewezen en zelf onmisbaar. Er is dan wel een
tweede, gericht toetsingsonderzoek te volgen om een definitieve uitspraak te kunnen doen.
Bij gebruik van specifieke brede-bandtest zijn veel minder strakke regels te geven dan voor
een selectie-of plaatsingsbeslissing. Wel dienen de volgende richtlijnen in het oog te worden
gehouden:
Bij het ontwikkelen van hypothesen dient zoveel mogelijk aangesloten te worden bij
resultaten die in de literatuur of volgens eigen ervaring in vergelijkbare situaties zijn
gevonden.
In de hypothesevorming wordt altijd gebruik gemaakt van impliciete en expliciete theorien.
Wil men succes hebben, moet men zich onthouden van allerlei duistere, neologistische en
metafysische theorien.
Ook doet men er goed aan af te zien van het gebruik van projectietests.
Brede-bandprocedures kunnen enerzijds niet voor definitieve beslissingen gebruikt worden,
maar anderzijds in een eerste stadium van een onderzoek ter beantwoording van open vragen
een belangrijke en onmisbare bijdrage kunnen leveren.
Hoofdstuk 9: Ethiek van het testen.

Er is al sinds de ontwikkeling van tests veel kritiek op het gebruik ervan, vaak wordt er in de
kritieken ten onrechte geen onderscheid gemaakt tussen testgebruik in de praktijk en
principile mogelijkheden van tests. Er is een voorstel gedaan om sollicitanten via trainingen
in het beantwoorden van testopgaven, meer kans te geven te worden aangenomen. Dit idee
heeft twee nadelen:
1. De kans is groot dat men aangenomen wordt in een functie waarvoor men niet is
gekwalificeerd en waarin men vroeg of laat vastloopt.
2. De opdrachtgever wordt misleidt, de testscore verbetert maar de geschiktheid van
de sollicitant niet.
De kritiek tegen testen moet met wel serieus nemen omdat:
1. In kritiek zit veel waars.
2. De weerstand tegen testen is een realiteit, waarmee rekening gehouden moet
worden.
3. psychologen hebben het er voor een deel zelf naar gemaakt door veel te
pretenderen met de tests en vervolgens veel misconcepties doen ontstaan, en
misbruik van de testgegevens toegelaten, etc.
Oorzaak van de negatieve houding t.o.v. tests:
Een testonderzoek heeft de weg tot een opleiding, een baan of promotie
afgesneden.
Een dieper liggende oorzaak kan zijn dat er een algemeen onbehagen
ontstaat met een toenemende bureaucratisering en vertechnisering van de
maatschappij, die de mens zelf nog weinig controle overlaat.
9.1. Levensbeschouwelijke en menselijke bezwaren.
Men stelt zich op het standpunt dat de mens in feite niet te meten is met instrumenten als
tests, dat het wezen van de mens op deze wijze nooit te vatten is, en dat een test aan het
unieke en meest essentile van de mens voorbijgaat. De vraag wordt gesteld of het testen
mensen niet tot onpersoonlijke objecten reduceert en of de menselijke waardigheid bij de
superieure machtsrol van de testpsycholoog, of bij de soms frustrerende, soms misleidende,
soms infantiel aandoende testopdrachten wel voldoende worden gehonoreerd. Voor een deel
gaat het bezwaar om de relatie en rollen tussen onderzoeker en onderzochte, en voor een deel
over het probleem van getest worden als zodanig.
Er is een groot dilemma waarin een keuze moet worden gemaakt of de psycholoog bij
institutionele selectie gericht moet zijn op zorg voor de clint of voor het instituut. De keuze
is moeilijk te maken, maar een principile verwerping zou in principe gebaseerd moeten zijn
op een of meer van de volgende premissen:
Er zijn geen verschillen in vakbekwaamheid, respectievelijk geschiktheid
om zich deze vakbekwaamheid eigen te maken;
Het is onjuist een keuze te doen tussen sollicitanten op basis van
vakbekwaamheid en aanleg tot goede prestaties;
Het bestaan van een geformaliseerd, vastliggend normensysteem voor de
beoordeling van een arbeidsprestatie is niet acceptabel.
IN de herziene NIP-ethiek probeert men een en/ en situatie te creren door zowel voor de
belangen van de clint als de belangen van het instituut te zorgen. De psycholoog is in dienst
van beide partijen.
9.2 Technische en methodologische bezwaren.
Er moet onderscheid gemaakt worden tussen de praktische functie van een test en het principe
van de test als zodanig. Voor vele tests is aangetoond dat de betrouwbaarheid en validiteit
ontoereikend zijn, toch zijn er ook veel test waarvan dan niet bewezen is dat ze niet
betrouwbaar en valide zijn, er ook nog niet aangetoond is dat ze dat wel zijn. Een veilig
standpunt is dan ook: een test is onbruikbaar tot het tegendeel blijkt.
Een laatste methodologisch bezwaar is dat tests door hun beperkte karakter, de
ondernemende, creatieve en exceptionele kandidaat weren, en de fantasie- en initiatiefloze
conformist belonen.
9.3 Misbruik
Volgende problemen hebben een specifiek ethisch karakter, en hebben te maken met misbruik
of onaanvaardbare condities of consequenties.
9.3.1 Vertrouwen.
Een schending van het vertrouwen wordt gezien als een van de belangrijkste bronnen van
ongenoegen en terughoudendheid tegenover tests, de vraag is dus of testresultaten wel genoeg
binnenskamers blijven. Hier moet onderscheid gemaakt worden tussen de research situatie en
de praktijksituatie. In de research situatie hoeft er geen probleem op te treden indien de
anonimiteit gewaarborgd blijft. Bij de praktijksituatie zijn er twee gevaren te onderscheiden:
1. niet-psychologen krijgen inzage in de testgegevens
2. een uit handen gegeven rapport loopt met recht uit de hand
Een andere zaak is de geheimhouding voor de onderzochte zelf, er bestaat een gevaar voor
misinterpretatie en verkeerde effecten. De clint heeft volgens de NIP-ethiek recht op
nabespreking van de resultaten, hetgeen meer moet zijn dan alleen inzage in de gegevens.
9.3.2 Misleiding.
Hierbij gaat het erom dat de onderzochte niet weet wat de test meet, en zich dus niet kan
wapenen. De onderzochte heeft het recht precies te weten wat er in het onderzoek/ de test
gemeten gaat worden. Ook heeft hij/ zij het recht om op elk moment te stoppen indien
gewenst.
9.3.3 Binnendringen in het priv-leven.
Het recht op privacy is heilig. In principe is het met een test binnendringen van het privleven wel mogelijk, alleen geldt dit niet alleen voor tests maar ook voor bijvoorbeeld het
belastingformulier, curriculum vitae en een interview. In plaats van pleiten voor absolute
privacy is een redelijke mate van privacy reler. Enkele redenen om een afweging te maken
tussen privacy en onderzoek zijn:
Het is van belang wetenschappelijk inzicht te krijgen in het menselijk
gedrag en de menselijke motieven, onze gezamenlijke
verantwoordelijkheid om onszelf en onze wereld te leren kennen moet even
serieus genomen worden als het recht op privacy.
De wenselijkheid of soms noodzaak uit (bepaalde sectoren van) de
maatschappij sommige personen te weren.
De wenselijkheid om in een maatschappij een optimale benutting van
kwaliteiten, capaciteiten en kennis te bereiken.
Privacy dus niet tot elke prijs, er moet een goed evenwicht gevonden worden tussen privacy
en andere uiteenlopende belangen.
9.3.4 Discriminatie.
Er is een discussie over de vraag of psychologische tests tot discriminatie van (allochtone)
minderheidsgroepen bijdraagt. Er zijn een aantal klachten als het hierom gaat:
1. De tests zouden niet goed zijn gestandaardiseerd voor minoriteitsgroepen: de

instructie wordt bijvoorbeeld niet begrepen, de kandidaten zijn niet gewend aan het
testproces of ze zijn niet vertrouwd met het werken onder tijdscondities.
2. Tests meten capaciteiten, prestaties en vooral kennis die bevoorrechte groepen
beter hebben kunnen ontwikkelen of verwerven.
3. Er worden tests en testcombinaties gebruikt die gebaseerd zijn op validatieonderzoek op beperkte (meestal blanke midden-) groepen, waarvan de resultaten
dan gegeneraliseerd worden naar andere populaties.
De reactie van de verdedigers van testonderzoek is dat de test juist objectief registrerend is, de
test stelt objectief wetenschappelijk vast wat iemand kan en kent. Met behulp van de tests zal
discriminatie op basis van uiterlijk of ras juist worden tegen gegaan, omdat beoordeling nu
daadwerkelijk op iemands capaciteiten wordt gebaseerd.
Belangrijk om te onthouden is dat tests als zodanig nooit discriminerend zijn, twee dingen
kunnen echter wel discriminerend zijn:
1. de interpretatie van de testscores
2. het gebruik van de test
Op het gebied van selectie van mensen kan discriminatie wel een rol spelen, en zijn twee
strategien voor selectie:
1. de strategie die gericht is op maximalisering van de doelmatigheid:
Deze strategie is gericht op het selecteren van de personen met de grootste kansen
op succes in de functie en dus op maximalisering van de validiteit.
Wanneer doet zich binnen deze gedachtegang discriminatie voor?
NIET: wanneer een zelfde score op de selectietest voor alle onderzochten ( om
het even of ze nu uit meerderheids- dan wel uit minderheidsgroepen afkomstig
zijn) samengaat met een zelfde score op de prestatie uit de functie.
WEL: indien de ene groep met een zelfde testscore een systematisch hogere
criteriumscore correspondeert dan in de andere groep en hiermee bij selectie
geen rekening wordt gehouden.
Van belang is dat het begrip discriminatie hier wordt gebruikt om aan te geven dat
een zelfde caesuurscore op de selectietest voor de ene (gediscrimineerde) groep
overeenkomt met een hogere criteriumscore dan voor de andere (bevoorrechte)
groep.
Er zitten nog twee addertjes onder het gras als we denken dat discriminatie nu
psychometrisch is gedefinieerd:
Een deel van het probleem is gewoon verschoven naar het criterium, dus
dan zal er alsnog discriminatie optreden.
Maximalisering van de validiteit stelt ons ook voor directe vragen, zoals of
de toegevoegde variabelen de validiteit kunnen verbeteren.
Binnen het model van de maximalisering van de doelmatigheid zijn in dit verband
nog twee benaderingen te onderscheiden:
Het ongekwalificeerde individualisme: binnen deze benadering is alles wat
de validiteit verhoogt acceptabel.
Het gekwalificeerde individualisme: de directe discriminatie van vrouwen,
minderheden of sociaal-economisch zwakkeren dan resultaat van
ongekwalificeerde individualisme wordt niet acceptabel geacht. Directe
discriminatie wordt vermeden, maar indirecte discriminatie komt nog
steeds voor.
2. de strategie die gericht is op maximalisatie of verhoging van gelijke kansen om te

worden aangenomen:
De meest extreme strategie is hier de indienstneming op grond van loting. Helaas
gaat de doelmatigheid hier verloren. Er zijn nog wel een aantal strategien met een
zekere mate van doelmatigheid, die toch gelijke kansen nastreven:
het principe van gewogen loting
Het gecorrigeerd individualisme: hierbij worden alle predictoren
gecorrigeerd voor hun samenhang met de mogelijke discriminerende
variabelen
van iedere categorie waarvan is bepaald dat discriminatie moet worden
tegengegaan een bepaald percentage aan te nemen
Men is het erover eens dat de doeleinden van maximale doelmatigheid en maximaal gelijke
kansen met elkaar conflicteren. Er is dus geen perfecte objectieve oplossing voor het
probleem van discriminatie

Samenvatting Testtheorie en Diagnostiek

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Samenvatting Testtheorie en Diagnostiek

Uploaded by

Copyright:

Available Formats

Een samenvatting van het boek van Testtheorie

Rijksuniversiteit Groningen | Testtheorie en testgebruik

1 HISTORISCHE ONTWIKKELING VAN HET TESTEN

Samenvatting hoofdstuk 2: Aard en toepassingen

Een ander kenmerk is standaardisatie. De testprestatie dient vergelijkbaar te zijn met de

schaal. Aangezien getallen hier alleen dienen om categorien of objecten te onderscheiden,

H. 3 Indelingen, onderscheidingen en begrippen.

3. Zelfbeoordelingen (vroeger nogal wantrouwend; nu als er een bepaald patroon

2. Indeling naar instructie en afneming.

Individuele test individuele relatie tussen de testleider en de onderzochte

Groepstest activiteiten van de groepsleider: geven van de instructies, het

Snelheidstest hoe snel de onderzochte kan werken

Niveautest hier varieert men de opgaven in moeilijkheidsgraad, van makkelijk tot

3. Onderscheidingen op basis van de testvragen.

Er zijn vrije-antwoordentests en keuze-antwoordentests.

Hoofdstuk 4; afnemen en verwerken

Het is veel moeilijker om standaardisatie te verwezenlijken als men naast de

idee hebben van de bedoeling waarmee bepaalde vragen gesteld worden, of

4.3 Testen per computer

Verder is er onderzoek gedaan naar uiteenlopende invloeden van conventionele tests

4.4.3 Vergelijking en normen gebaseerd op een rangorde

waarin z = standaardscore, X = ruwe score, Xgem. = gemiddelde,

[5.7] [5.8] [5.9] [5.10] [5.11] [5.12] [5.13] [5.14][5.15] [5.16]

5.4 speciale onderwerpen

we nu over de universumscore, de gemiddelde testprestatie berekend over het universum van

Samenvatting H6 : Nieuwe ontwikkelingen in testtheorie en testconstructie.

6.3 Meten met item-response-modellen:

klassieke testtheorie wordt de nauwkeurigheid van de meting ( = de ruwe score X als

6.4.2 Testconstructie op basis van een itembank:

6.4.3 Adaptieve tests:

Validiteit juistheid, nuttigheid accuraatheid in gebruik

3. content validity (inhoudsvaliditeit)

7.4 Betekenis en begripsvaliditeit

7.4.1 Het proces van betekenisanalyse en begripsvalidering

Hierbij van belang:

4 vormen waarin de gegevens zich kunnen voordoen:

7.4.3. Alternatieve verklaringen

test voor prestatieniveau of gedragswijze > correlatie met intelligentie?

Betrouwbaarheidsschatting resulteert in een betrouwbaarheidsinterval voor de betrouwbare

Hst 8 De bijdrage van de test in het beslissingsproces

-Hetzelfde geldt ook voor de invloed van de selectieratio op de selectie-uitkomst.

8.2.3 Selectie in een of meer fasen

Hoofdstuk 9: Ethiek van het testen.

1. De tests zouden niet goed zijn gestandaardiseerd voor minoriteitsgroepen: de

2. de strategie die gericht is op maximalisatie of verhoging van gelijke kansen om te

You might also like