Isoldegroefsema Stuvia Testen en Meten Samenvatting Psychometrics An Introduction Furr 3de Editie

Testen en meten [samenvatting -
Psychometrics An Introduction - Furr - 3de

editie]
geschreven door
nsangers
www.stuvia.com
Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Dit document is auteursrechtelijk beschermd, het verspreiden van dit document is strafbaar. extra verdienen?
Stuvia - Koop en Verkoop de Beste Samenvattingen
Testen en meten
Hoofdstuk 1: Psychometrics and the importance of psychological measurement
Observeerbare en niet observeerbare variabele

Niet Kunnen niet op het Hypothetische constructen Als: intelligentie, depressie,
observeerbare eerste oog gezien Psychologische attributies kennis, extraversie e.d.
variabele worden
Observeerbare Kunnen gezien Cijferreeksen (digit-span),
variabele worden woordreeksen (reading
spam), rekkensommen e.c.
Latente variabele: Om niet observeerbare variabelen te meten wordt gebruik gemaakt van processen
die gebaseerd zijn op observeerbare variabelen (dus: indirect meten).
Voorbeeld: Werkgeheugen (psychologische attributie) meten door
cijferreeksen te onthouden (digit spam).
Er gelden voor dit proces de volgende regels:

1. Het geobserveerde object moet iets zeggen over het niet observeerbare construct.
Validiteit: Meet je wel degelijk wat je beoogde te meten.
2. De opdracht is theoretisch gelinkt aan het niet observeerbare construct.
3. Het niet observeerbare construct moet wel bestaan.
Operationele definitie: Een procedure waarmee vaardigheden worden gemeten.
Psychologisch testen: Definities en types

Psychologische test: Een systematische procedure om het gedrag van twee of meer mensen met elkaar te
vergelijken.
1. Test gedrag op een bepaalde manier.
2. De gedragssamples worden op systematische wijze gevonden.
3. Het doel van een test is mensen te vergelijken.
Er bestaan twee vormen:

1. De test draait om het genereren van hoeveelheid van een bepaalde psychologische attributie
(bijvoorbeeld: wat is iemands IQ)
2. De test draait om het verzamelen van categoriale data (bijvoorbeeld: indeling door hoe mensen een huis
tekenen).
Let op: Testen vergelijken niet alleen tussen mensen! De volgende twee vormen worden onderscheden:
1. Interindividuele verschillen: De test meet de verschillen tussen mensen.
2. Intra-individuele verschillen: De test meet of het gedrag van dezelfde individu op verschillende punten in
de tijd of onder verschillende condities valt te vergelijken.
Typen van testen

Testen kunnen op verschillende gebieden van elkaar gaan verschillen, zoals:
• Inhoud: Het gaat dan om het onderwerp van de test (bijvoorbeeld: prestatietest, of
intelligentietest of persoonlijkheidstest etc.)
• Vraagtype: Het soort vragen (Open of gesloten vraag).
• Administratie: Ene test door individueel geadministreerd en sommige in groepen.
• Bedoeling:
- Criterion referenced: Veelal bij beslissingen over iemands vaardigheidsniveau.
Test deelt in op twee groepen:
1. Zij waarbij de vaardigheden verdergaan dan de prestatiecriteria.
2. Zij waarbij de vaardigheden niet verdergaan de prestatiecriteria.

Let op: Criterium scores zijn ook vaak genormeerd, omdat “cutoff” scores
ook niet volledig random bepaald worden, waardoor deze ook
gebaseerd is op een standaard of een verwacht niveau.
- Norm referenced: Vergelijken een persoon zijn testscore met een referentiekader of een norm
om te begrijpen hoe je de persoon kunt vergelijken met andere mensen (de
sample waarmee wordt vergeleken moet wel een representatieve sample
zijn).
• Meting:
- Speeded tests (snelheidstest): Testen met een tijdslimiet. Meestal kun je niet de hele test
afleggen.
- Power tests (krachttest): Geen tijdslimiet, alle vragen kunnen worden beantwoord.
Wat is psychometrie?
Psychometrie: Is de studie van metingen en procedures die gebruikt worden om variabiliteit in gedrag te
bestuderen en om deze metingen te verbinden met een psychologisch fenomeen.
▪ Galton is de stichter van de psychometrie en bedacht de normaalverdeling, correlatie,
coëfficiënt en sampling.
▪ Er wordt bijvoorbeeld gekeken naar: de type scores, de reabiliteit van scores of validiteit.
Uitdagingen aan metingen in de psychologie

Gedragswetenschappers hebben specifieke uitdagingen die niet bestaan in de fysieke wetenschappen.
→ Hebben effect op hoe betrouwbaar we de gedragsobservaties kunnen interpreteren en begrijpen.
1. Belangrijke aspecten van bepaalde menselijke psychologische uitdagingen moeten als enkel worden
aangepakt (bv. zelfvertrouwen of intelligentie of angst e.d.).
2. Participant reactivity:
Mensen hebben kennis over dat ze geobserveerd worden en dit kan zorgen dat ze anders reageren dan
wanneer ze onbewust worden geobserveerd.
- Demand characteristics: Gedrag aanpassen om de onderzoeker te helpen.
- Social disrability: Proberen positieve indruk te maken op de testafnemer.
- Maligering: Slechte indruk willen achterlaten op de persoon die de test afneemt.
3. Obsevator biasen:
Mensen die gedragsdata meten brengen vertekeningen en verwachtingen mee bij hun taak die de
resultaten beïnvloeden.
4. Composite scores (samengevoegde scores):
Testen bevatten vragen die allen een aspect van een bepaald psychologisch attribuut meten. Uit deze
vragen komt dan een samengevoegde score naar voren die onder invloed staat van de kwaliteit van items.
5. Score sensitiviteit:
Vaardigheid van een meting om te discrimineren tussen betekenisvolle hoeveelheden van de dimensie die
gemeten worden (bv. meten dikte van een haar gaat niet met een liniaal).
→ Vaak is een onderzoeker zich bewust van welke sensitiviteitschaal gebruikt moet worden.
6. Gebrek aan bewustzijn van belangrijke psychometrische informatie. Er wordt vaak niet gekeken naar de
psychometrische kwaliteit van een test.
Belang van individuele verschillen

Doel metingen: De psychologische verschillen tussen mensen te identificeren en te kwalificeren over de
tijd heen of langs verschillende condities.
Hiervoor moet gebruik worden gemaakt van gedragsamples, waarin het gedrag dat wordt bestudeerd ook in
deze sample tussen mensen verschillen.
→ Als we denken dat een bepaalde gedragsamplingprocedure een meting is van een onobserveerbaar
psychologisch attribuut moeten we kunnen beargumenteren dat individuele verschillen op de
gedragsample gerelateerd zijn aan verschillen op relevante onderliggende psychologische attribuut.

Hoofdstuk 2: Scaling
Psychologische meting
Psychologische meting: Kunnen gezien worden als een proces waarbij nummers toegeschreven worden die
de kwaliteiten beschrijven van psychische attributies.
Meting Het toeschrijven van aantallen aan objecten of gebeurtenissen volgens regels.
Scaling De manier waarop numerieke waarden worden toegeschreven aan psychologische attributen
(welke schaal komt er uit een meetinstrument voor – scales of measurement)
Fundamentele problemen met nummers

Er bestaan twee punten waarop gelet moet worden bij numerieke kenmerken:
• Kenmerken
1. Kenmerk van identiteit.
Geeft categorieën enkel een naam (bijvoorbeeld: rugnummers in een voetbalelftal)
Mensen moeten op zijn minst in twee categorieën ingedeeld worden.

→ Het idee is dat objecten of gebeurtenissen gesorteerd kunnen worden in categorieën die
gebaseerd zijn op gelijkheid van kenmerken.
→ Deze kenmerken zijn vaak gedragskarakteristieke psychologische attributen die reflecteren
(als: blij, verdrietig, introvert, extravert).
Regels die gevolgd moeten worden bij het categoriseren van mensen:
o Alle mensen in een bepaalde categorie moeten identiek zijn; rekening houdend met het kenmerk
dat gereflecteerd wordt in deze categorie.
o Categorieën moeten mutually exclusive zijn: je kan maar in 1 van de twee categorieën komen.
o Categorieën moeten exhaustive zijn: Alle mensen moeten in een van de twee categorieën kunnen
vallen.
2. Kenmerk van orde

Geeft labels aan hoe een bepaalde ordening verloopt (bijvoorbeeld: plek 1, 2 en 3 in een
hardloopwedstrijd of een volgorde op een Likertschaal).
3. Kernmerk van kwantiteit:

Geeft de daadwerkelijke hoeveelheid weer (bijv. de lengte van een persoon). Het nummer refereert
naar een aantal
o Er wordt dan gebruik gemaakt van units of measurement – eenheden – (zoals 170 cm)
o Eenheden komen tot stand door conversie (bijvoorbeeld: 100 graden Celsius is de tempratuur
waarop water kookt en 0 graden Celsius de tempratuur waarop water bevriest).
o Nummers zijn continu: Op te delen in verschillende kleinere delen.
• De waarde 0:
1. Een absolute 0: 0 reflecteert een staat waarin een attribuut of object niet bestaat
(zoals 0 graden Kelvin; er bewegen geen deeltjes meer).
2. Een relatieve/willekeurige 0: Als willekeurige kwantiteit van een attribuut (zoals 0 graden Celsius,
want 0 is willekeurig, waarbij er meer of minder is dan 0).
Units of measurements
Bij psychologische metingen zijn de “units of measurements” (de eenheden) minder vanzelfsprekend.
Bijvoorbeeld: Zelfvertrouwen heeft geen specifieke eenheid, maar wordt bepaald door de schaal die een
onderzoeker heeft gekozen.


Willekeurigheid (de mate waarin de eenheid arbitrair is) is een belangrijk concept in het begrijpen van units of
measurement (eenheden), omdat het verschillende soorten eenheden onderscheid.
1. De eenheid grote is willekeurig gekozen.
→ In de psychologie zijn units vaak vooral op deze manier willekeurig.
→ Ze zijn willekeurig in grote, maar gebonden aan specifieke objecten of dimensies. (bv.
intelligentie is altijd vast aan IQ en meet je altijd op een mens).
→ Uitzonderingen is de reactietijd.
2. De eenheid is niet gekoppeld aan 1 object

Bijvoorbeeld: meter kun je gebruikt voor de lengte van een mens of de lengte van een gebouw.
3. De eenheid kan meerdere dimensies meten

Bijvoorbeeld: meter kun je gebruiken om de omtrek te meten van de schedel of de lengte van een
mens.
Additiviteit en tellen
Additiviteit: Wanneer iets wordt gemeten moet de meetschaal constant zijn (elke keer dat je met een
centimeterlat lengte meet, komt hetzelfde resultaat). Als dit niet het geval is klopt je
meetschaal niet.
Oftewel: De unitgrootte die je kiest mag niet veranderen, ook niet als de condities
van de meting veranderen.
Let op voor:
• Paradox: Er kan niet zomaar een numerieke hoeveelheid aan een psychologisch attribuut worden
gehangen (vaak is deze enkel afhankelijk van de gehanteerde meetschaal). We weten de
werkelijke waardes die bestaan vaak niet.
• Counts: Niet alle vormen van tellen kwalificeren bijvoorbeeld als vormen van meting.
Voorbeeld: Het tellen van hoeveelheden van een bepaald kenmerk of attribuut van een
object is meten (bijv. een testafname), maar puur tellen van een aantal van
een object is niet meten, maar enkel tellen (bijv. vorken op tafel).
Meetschalen
Grofweg bestaat het volgende onderscheid wanneer men het heeft over meetschalen:
Nominaal Ordinaal Interval Ratio
Kenmerk identiteit X X X X
Kenmerk order X X X
Kenmerk kwantiteit X X
Absolute 0 X
1. Nominaal:
- Geeft labels voor een categorische indeling (bijvoorbeeld: man – vrouw).
- Labels worden gebruikt groepen te identificeren.
- Let op het doel: Tonen ze groepsverschillen aan of zijn ze enkel labels?
2. Ordinaal:
- Geeft een numerieke ordening door het produceren van ranks (zoals: Likertschaal).
- Labels geven de relatieve positie van mensen over de niveaus die worden gemeten.
3. Interval:
- Scores geven numerieke hoeveelheden.
- Geen absoluut 0 punt.
- De score is constant en optellend, maar kan niet door alle dimensies worden gebruikt (uitzondering:
gemiddelde, standaarddeviaties en omrekenen naar andere eenheden).
4. Ratio schalen:
- Scores geven nummerke hoeveelheden.
- Wel absolute 0 punt.
- De score kan vertaald worden naar meerdere dimensies.

Hoofdstuk 3: Individuele verschillen en correlaties
Belangrijke statistische termen:

Maat Formule indien Formule indien
polytoom: dichotoom
(Binominaal):
Centrale tendens ∑𝑛𝑖=1 𝑥1 𝑥̅ = 𝑝
𝑥̅ =
• Gemiddelde: 𝑛
- Een centrummaat.
- Een verwachte waarde.
Variabiliteit 𝑆𝑋 = √𝑝 (1 − 𝑃)
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
• Standaarddeviatie: 𝑆𝑥 = √
- Spreidingsmaat. 𝑛
- Verwachte afstand tot een gemiddelde.
- Let op: niet n delen door n-1
• Variantie: ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑆𝑥2 = 𝑝 (1 − 𝑃)

𝑆𝑥2 =
- Spreidingsmaat. 𝑛
- Vaal gebruikt om mee door te rekenen (kan niet goed
worden geïnterpreteerd).
- Wordt beïnvloed door: spreiding en meeteenheid.
Afwijkscore
• Deviatie 𝑥𝑖 = 𝑥 − 𝑥̅
- Geeft de afwijking van groepsgemiddelden op de
originele schaal.
- Of iemand boven of onder gemiddeld scoort.
- Gemiddelde deviantscore is altijd 0.
Standaardscores
• Z-scores: 𝑥 − 𝑥̅
𝑍𝑖 =
- Geeft de afwijking van het groepsgemiddelde in aantal 𝑆
standaarddeviaties.
- Veel gebruikte en innovatieve maat.
- Gemiddelde is altijd 0 en de standaarddeviatie 1
Voor dichotome variabelen geld voor de p-waarde dat:

P-waarde: de proportie respondenten met itemscore 1
q-waarde: de proportie respondenten met 1 - P.
Voorbeeld
Rekenen met de statistische kernbegrippen wordt vaak gedaan vanuit een weergave in tabelvorm:
Voor het toepassen gelden nog een aantal regels:

• Standaarddeviatiescore (of: deviatiescores of standaarddeviatie) als term bestaat niet.
• Gemiddelde (M) op deviatiescores is altijd gelijk aan 0.
• Testscores en deviatiescores hebben dezelfde standaardafwijkingen.
• De z-score heeft een gemiddelde van 0 en een standaardafwijking van 1.

De aard van variabiliteit: Het berekenen van verschillen in mensen hun psychologische attributen (door
standaarddeviatie en variantie). De aanname is dat mensen niveauverschillen
hebben op een hypothetisch construct en daarmee dus verschillen op testscores
Er zijn twee verschillen die gemeten kunnen worden:
1. Interindividuele verschillen: Verschillen tussen mensen.
2. Intra-individuele verschillen: Verschillen die in één persoon opreden over de lange tijd of verschillende
condities.
Distributievormen en normale verdeling

Normale distributie: Een symmetrische vorm, waarbij beide kanten zijn gespiegeld aan het
gemiddelde. Veel procedures in testen gaan hier van uit (rekent
makkelijker).
Skewed (niet normaal verdeeld): Echte data zijn nooit echt normaal verdeeld. Daardoor wordt de
normaalverdeling vooral gebuikt om scores te kunnen interpreteren.
Het belang van individuele verschillen

Testen zijn gebaseerd op de assumptie dat psychologische verschillen bestaan en deze gedetecteerd kunnen
worden door goed ontworpen meetprocessen. Hierbij geldt dat:
• Betrouwbaarheid en validiteit geheeld afhankelijk zijn van de vaardigheden om de verschillen tussen
mensen te kwalificeren.
• Het proces van kwantificatie van psychologische verschillen begint bij de erkenning dat scores op
psychologische testen variëren tussen personen en tijd.
• Er spraken is van distributie/verdeling van testscores.
De samenhang tussen twee verschillende variabelen

1. Covariantie
Covariantie is een maat waarbij de deviantscores van twee variabelen bij elkaar op worden geteld en wordt
gedeeld door het aantal respondenten (daarmee wordt het gemiddelde berekend; covariantie).
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅ )
Covariantie: 𝐶𝑥𝑦 = Er geldt:
𝑛
𝐶𝑥𝑦 > 0 Positieve relatie
𝐶𝑥𝑦 < 0 Negatieve relatie
𝐶𝑥𝑦 = 0 Geen relatie
Let op: Covariantie geeft geen informatie over de grootte van de associatie tussen twee
factoren. 2 factoren beïnvloeden dit nog:
1. Sterkte van de associatie: Hoge waarde van covariatie reflecteren in sterke
associaties.
2. Metriek van de twee variabelen: Covariantie tussen twee grote variabele is groter dan
tussen kleine variabelen.
2. Correlatie
𝐶𝑥𝑦
Correlatie: 𝑟𝑥𝑦 = Er geldt:
𝑆𝑥 𝑆𝑦
0 < 𝑟𝑥𝑦 ≤ 1 Positieve relatie
Waarbij: −1 ≤ 𝑟𝑥𝑦 < 0 Negatieve relatie
𝐶𝑥𝑦 De covariantie 𝑟𝑥𝑦 = 0 Geen relatie
𝑆𝑥 De standaarddeviatie van x
𝑆𝑦 De standaarddeviatie van y
De correlatie is belangrijk bij de betrouwbaarheidstheorie omdat het de mogelijkheid geeft de

interbetrouwbaarheidcoëfficiënt te gebruiken.
Er geldt:
• Correlatie is een maat die in testen wordt geïnterpreteerd.
• Covariantie wordt enkel gebruikt om mee te rekenen.

Voorbeeld
Hierbij geldt dat:

∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅ ) 44
Covariantie: 𝐶𝑥𝑦 = = = 4,4 𝑑𝑢𝑠: 𝐶𝑥𝑦 > 0 (𝑝𝑜𝑠𝑖𝑡𝑖𝑒𝑣𝑒 𝑟𝑒𝑙𝑎𝑡𝑖𝑒)
𝑛 10
𝐶𝑥𝑦 4,4
Correlatie: 𝑟𝑥𝑦 = = = .68 𝑑𝑢𝑠: 0 < 𝑟𝑥𝑦 ≤ 1 (positieve relatie)
𝑆𝑥 𝑆𝑦 3 × 2,6
3. Variantie-covariantiematrix
Wordt georganiseerd op een specifieke manier:
• Diagonale elementen (rood) lopen altijd van linksboven naar rechtsonder en hebben betrekking op
dezelfde variabele.
→ Varianties (spreidingsmaat)
→ De wortel (√) van de variantie geeft de standaarddeviatie.
• Buiten diagonale elementen (blauw). Die diagonaal is opgeteld altijd 1.
→ Covarianties (wat mensen gemiddelde bijdragen aan de lineaire samenhang)
Voorbeeld
4. Samenhang afleiden uit een spreidingsdiagram:

1. Trek een lijn op het gemiddelde van y en x
2. Er geldt de volgende regel:
- Positieve relatie: De meeste punten liggen in het vak linksonder en rechtsboven.
- Negatieve relatie: De meeste punten liggen in het vak rechtsonder en linksboven.
3. De punten die buiten de vakken van de gevonden relatie liggen beïnvloeden de correlatie negatief.
4. De invloed van een score op de correlatie kan worden gevonden door deviantscores van x en y op te tellen
en deze met elkaar te vermenigvuldigen.

Composite scores (samengestelde scores)

Composite scores: De scores op psychologische testen worden vastgesteld door een serie aan vragen te
stellen en deze reacties op te tellen of een gemiddelde te berekenen.
𝑋𝑡𝑜𝑡𝑎𝑎𝑙 = 𝑥1 + 𝑥2 + 𝑥3 … 𝑒𝑡𝑐.
1. De variantie tussen twee composite scores (samengestelde scores)

De variantie over bepaalde items = De varianties zijn alle elementen van de testscores + 2 x de covariantie
Dus: 𝑠 2 = 𝑠𝑖2 + 𝑠𝑗2 + 2 𝑟𝑖𝑗 𝑆𝑖 𝑆𝑗 , maar gebruik als: 𝑠 2 = 𝑠𝑖2 + 𝑠𝑗2 + 2𝐶
𝐶𝑥𝑦
, want 𝑟𝑥𝑦 = dus C = 𝑟𝑥𝑦 𝑆𝑥 𝑆𝑦
𝑆𝑥 𝑆𝑦
Voorbeeld:
Bepaald de variantie op de samengestelde score voor variantie op item 1 en item 2
Item 1 Item 2 Item 3 Item 4
Item 1 0,25 0,20 0,15 0,10
Item 2 0,20 0,24 0,10 0,12
Item 3 0,15 0,10 0,21 0,05
Item 4 0,10 0,12 0,05 0,09
Samengestelde score voor variantie op item 1 en item 2

𝑠 2 = 𝑠𝑖2 + 𝑠𝑗2 + 2 𝐶
𝑠 2 = 0,25 + 0,24 + 2 × 0,20 = 0,89
2. De covariantie tussen twee composite scores (samengestelde scores)

Er kan ook gekeken worden naar de associatie tussen twee composite scores:
𝐶𝑜𝑣𝑎𝑟𝑖𝑎𝑡𝑖𝑒 𝑡𝑢𝑠𝑠𝑒𝑛 𝑡𝑤𝑒𝑒 𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 𝑠𝑐𝑜𝑟𝑒𝑠 = 𝑑𝑒 𝑠𝑜𝑚 𝑣𝑎𝑛 𝑐𝑟𝑜𝑠𝑠 − 𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 𝑐𝑜𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒𝑠
Stel je hebt twee composite scores met overeenstemmende comprimerende items i en j en ook twee
overeenstemmende comprimerende items k en l.
Covariantie Composite 1 item i item j
Composite 2
item k 𝐶𝑖𝑘 𝐶𝑗𝑘
item l 𝐶𝑖𝑙 𝐶𝑗𝑙
𝐶𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 1, 𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 2 = 𝐶𝑖𝑘 + 𝐶𝑖𝑙 + 𝐶𝑗𝑘 + 𝐶𝑗𝑙
Voorbeeld
Bepaald de variantie op de samengestelde score voor variantie op compositie 1 (item 1 en item 2) en
compositie 2 (item 3 en 4)
Item 1 Item 2 Item 3 Item 4

Item 1 0,25 0,20 0,15 0,10
Item 2 0,20 0,24 0,10 0,12
Item 3 0,15 0,10 0,21 0,05
Item 4 0,10 0,12 0,05 0,09
𝐶𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 1, 𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 2 = 𝐶1,3 + 𝐶1,4 + 𝐶2,3 + 𝐶2,4

𝐶𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 1, 𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 2 = 0,15 + 0,10 + 0,10 + 0,12 = 0,47

Interpreteren van scores

Op de meeste testen is een ruwe score (direct verkregen door antwoorden) niet meteen betekenisvol en niet
gemakkelijk te interpreteren.
Er bestaan twee facetten aan de betekenis van testscores in psychotische metingen:

1. De basisbetekenis van een ruwe testscore als het zijn van relatief hoog of laag ontbreekt (er is een frame
nodig).
2. Meet abstract en psychologisch (Wat betekent een hoge score op een test bijvoorbeeld psychologisch
gezien?)
Om een individu zijn ruwe score te mogen interpreteren moet er:

1. Worden gerefereerd naar de gehele distributie van scores op de test.
2. Geïdentificeerd worden waar het individu valt in deze distributie.
Het interpretatieve frame van referentie is gebaseerd op twee belangrijke punten van informatie over
testscores in relatie tot een verdeling van testscores:
1. Of de ruwe score boven of onder de gemiddelde van de gehele bevolking valt.
2. Interpreteren van testscores door de variabiliteit binnen een distributie van een testscore te bekijken (hoe
ver boven of hoe ver onder het gemiddelde ligt iets).
Correlatie berekenen tussen paren van z-scores

Voor z-scores geld:
• Z-scores (standaardscore): 𝑥 − 𝑥̅
𝑍𝑖 =
- Geeft de afwijking van het groepsgemiddelde in aantal 𝑆
standaarddeviaties.
- Veel gebruikte en innovatieve maat.
- Gemiddelde is altijd 0 met een standaarddeviatie van 1
Nadelen van z-scores: Voor respondenten vallen de testscores in z-waarden moeilijk te begrijpen (bijv.
doordat het IQ wordt uitgedrukt in 1.24 of dat het zelfvertrouwen een negatieve z-
score heeft).
Voordeel van z-scores: Kan langs verschillende units (verschillende vragen) gebruikt worden, aangezien alle
antwoorden worden getransformeerd in een z-score (aantal standaarddeviaties van
het gemiddelde).
Door dit voordeel kunnen correlatie worden geuit in de consistentie van individuele scores.
→ Doorgaans is het moeilijk om twee zaken te vergelijken, omdat ze in een andere metrieke unit staan.
→ Schrijf je alles naar Z-scores dan kun je beter vergelijken.
De formule voor de z-score unit is:

∑ 𝑍𝑥 𝑍𝑦
Correlatie bij z-scores: 𝑟= De som van cross-producten van elke individuele z-score
𝑛
Converted standard scores (gestandaardiseerde scores)

Scores die zijn herschreven van z-scores naar waarden die makkelijker te begrijpen zijn.
De score wordt herhaald zodat deze een verschillend gemiddelde en standaarddeviatie hebben door twee
stappen:
1. Er geldt bij T-scores altijd dat het gemiddelde 50 en een standaarddeviatie van 10 wordt gebruikt.
2. Een individu zijn z-score wordt “converded” door de volgende formule:
𝑇𝑖 = 𝑧𝑖 (𝑠𝑛𝑖𝑒𝑢𝑤 ) + ̅̅̅̅̅̅̅̅̅
𝑋𝑛𝑖𝑒𝑢𝑤
Converted scores zijn dus voornamelijk informatief.

Bijvoorbeeld:
De MMPI-2 Schaal gebruikt gestandaardiseerde scores, zodat elke schaal een gemiddelde heeft van 50 en een
SD van 10. De test geeft een z-score van 1,5. Om te zorgen dat deze beter herleid kunnen worden moeten hier
converted scores worden opgesteld.
De gestandaardiseerde score (𝑇𝑖 ) is dan:

𝑇𝑖 = 𝑧𝑖 (𝑠𝑛𝑖𝑒𝑢𝑤 ) + ̅̅̅̅̅̅̅̅̅
𝑋𝑛𝑖𝑒𝑢𝑤
𝑇𝑖 = 1,5 (10) + 50 = 65
Dus: De T-score 65 correspondeert bij de SD van 1,5 die de test oorspronkelijk zou weergeven.
Percentiele ranks
Percentiele ranks: Geven het percentage van een score aan dat onder een specifiek testscore ligt.
Er bestaan twee manieren om een percentiele rank op een individuele score te bepalen:
1. Identificeren van het exacte nummer van de ruwe scores in de verdeling die lager zijn dan de ruwe scores
van het individu en dit delen door het totale aantal scores in de distributie
𝑎𝑎𝑛𝑡𝑎𝑙 𝑑𝑎𝑡 𝑙𝑎𝑔𝑒 𝑠𝑐𝑜𝑜𝑟𝑑𝑒 𝑑𝑎𝑛 ℎ𝑒𝑡 𝑟𝑢𝑤𝑒 𝑠𝑐𝑜𝑟𝑒𝑠

𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑒𝑙 (𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒) = × 100
𝑡𝑜𝑡𝑎𝑎𝑙 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑐𝑜𝑟𝑒𝑠 𝑜𝑝 𝑑𝑒𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑡𝑖𝑒
Voorbeeld
Iemand haalt een ruwe score van 194 op een test waaraan 75 mensen meededen en 52 mensen lager
scoorde dan 194. Wat is het percentiele rank?
52
𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑒𝑙 (𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒) = × 100 = 69% 69ste percentiel.
75
Voorbeeld t.a.v. een histogram
2. Berekenen van de z-score voor het individu en link deze aan een percentiel. Als we kunnen aannemen dat
individuele verschillen op het psychologische attribuut normaal verdeeld zijn, kunnen we een
standaardnormaalverdeling opstellen. Specifieke scores kunnen dan gelinkt worden aan de score.
𝑥− 𝑥̅
1. Bepaald de z-score 𝑍𝑖 = 𝑆
2. Lijdt de proportie af de tabellen (blz. 44 en 45).
Genormaliseerde score
Genormaliseerde scores worden gebruikt om niet-normaal verdeelde scores om te zetten in wel normaal
verdeelde scores door een truc die is toegepast op de z-waardes.
Dus: Genormaliseerde scores lijken normaal verdeeld, maar zijn dit in werkelijkheid dus niet. Het wordt
puur gedaan om makkelijker met de scores te kunnen rekenen.
10

Hoofdstuk 4: Test dimensionality and factor analyses
Testdimensionaliteit
Wanneer een psychologische test een soort “nummer” weergeeft willen we denken dat dat nummer een
waarde is die enkel dat psychologische kenmerk representeert.
→ We meten vaak 1 enkel attribuut van een object of een persoon wanneer we naar fysieke of
psychologische attributies kijken.
Composite scores: Scores op psychologische testen zijn gebaseerd op meerdere vragen of test-items. Ze
worden vaak gescoord door een combinatie van deze items.
Echter: Een test kan één item bevatten die op meer dan 1 dimensie reflecteert.
Drie vragen over dimensionaliteit:

1. Hoeveel dimensies worden gereflecteerd in de test?
2. Als de test meer dan 1 dimensie bevat, zijn deze dimensies dan gerelateerd aan elkaar?
3. Als de test meer dan 1 dimensie heeft, wat zijn dan de verschillende dimensies die het meet?
Deze 3 fundamentele psychometrische vragen over de dimensionaliteit van een test en de antwoorden op deze
vragen zijn belangrijk voor het evalueren van de psychometrische test.
1. Voor het bepalen van de kenmerken van de gedragstest.
2. Voor het accuraat scoren van een test.
3. Voor een goede interpretatie van een test.
De antwoorden op deze kernvragen leiden tot drie typen resultaten:

1. Undimensionele testen.
2. Multidimensionale testen.
3. Multidimensionale testen met ongecorreleerde dimensies.
1. Undimensionale testen
Undimensionaliteit: De psychologische testitems reflecteren enkel op 1 attribuut van een persoon.
Erg geldt:
• Testitems of -vragen hebben een conceptuele homogeniteit:
Reacties op elk item zijn een functie van hetzelfde psychologische attribuut.
• Voor de implicaties voor scoring, evaluatie en gebruik geldt:

Er wordt maar 1 score berekent die het psychologische attribuut representeert die gemeten wordt door de
test. Alle scores worden dus gecombineerd tot 1 totaalscore.
• De betrouwbaarheid en validiteit moeten geschat en geëvalueerd worden voor de totale score van de test.
11

2. Multidimensionele test met gecorreleerde dimensies (testen met hogere-orde factoren)
Multidimensionaliteit: De psychologische test bevat items die naar meer dan 1 attribuut reflecteren.
Gecorreleerde items: De psychologische test bevat meerdere items die met elkaar geassocieerd zijn
(voorbeeld: WISC-4: Alle subschalen meten een ander facet van intelligentie).
• Voor de implicaties voor scoring, evaluatie en gebruik geldt:

- Elke subset genereerd eigen scores (subsets op zichzelf zijn daarmee undimensioneel en conceptueel
homogeen).
- De totaalscore komt tot stand door de gecombineerde scores uit de verschillende testen.
- Er zijn twee niveaus van psychologische attributen, waarbij de reacties elke testvraag bepaald worden
door een specifieke attribuut of factor.
• Voor de kwaliteit geldt dat elke subtest op zich psychometrisch getest zou moeten worden op kwaliteit.
Ook de totale score van de correlerende dimensies moet worden berekend.
3. Multidimensionele test met ongecorreleerde dimensies
Ongecorreleerde items: De testdimensies zijn niet geassocieerd aan elkaar

(voorbeeld: Persoonlijkheidstesten: Meten soms wel 5 onafhankelijke
persoonlijkheidsattributen, waaruit 5 verschillende scores komen).
• Er wordt geen totaalscore berekend.

• Elke subtest moet op zichzelf worden beoordeeld als kwalitatief goed of slecht.
• De twee of meer psychologische attributen zijn niet aan elkaar gelinkt door 1 algemeen attribuut.
Factoranalyse
Om testdimensies te gebruiken en interpreteren, moeten testontwikkelaars en evaluatoren onderzoek
uitvoeren dat het psychologische attribuut toont die gerepresenteerd wordt door elke testdimensie.
→ Een factoranalyse is hierbij helpend.
Factoranalyse: Beschrijven de dimensionaliteit van een test.
Er bestaan twee typen factoranalyses:

1. Exploratory factor analyses (EFA): Komt het meest voor en te berekenen met SPSS.
2. Confirmatory factor analyses (CFA).
Voor de EFA geldt het volgende:

1. Logica en doel
Een factoranalyse is nodig om niet van interpretatie uit te gaan over individuele mensen of over uit hoeveel
dimensies een test bestaat, maar dat de argumenten zijn gebaseerd op logische data.
Door: Alle correlaties in te voeren in statistische software (SPSS). Zodoende kan de correlatie van
verschillende items op een test worden bepaald.
Hiermee: Kunnen dimensies worden geïdentificeerd.
Dan: Sets van items identificeren die samengaan (relatief sterk correleren en
zwak correleren met andere items).
Dan: Vormt zo’n set 1 dimensie of factor.
12

Voor het beantwoorden van de 3 vragen geldt:

• Vraag 1: Hoeveel dimensies heeft een test?
1. Tel het aantal sets die je identificeert.
2. Als alle items hoog gecorreleerd zijn met elkaar is er 1 factor.
• Vraag 2: Correleren de dimensies?

1. Beschrijf het patroon van correlaties tussen de sets.
2. De potentiële correlatie tussen factors is gebaseerd op de correlaties tussen items in verschillende
sets.
• Vraag 3: Wat is de psychologische betekenis van de dimensies?

1. Beschrijf de inhoud van de items die bijdragen aan 1 factor.
2. Vervolgens ontstaat de potentiële betekenis van de factor.
o Deze aanpak werkt in werkelijkheid bijna nooit, omdat dat de test vaak meerdere items bevat.
Een groot aantal items produceert veel correlaties die moeten worden beschreven.
o Patronen van correlaties in werkelijke data zijn nooit zo duidelijk, ze zijn niet altijd heel hoog of
heel laag.
o EFA impliceert dit proces i.p.v. het visueel interpreteren van matrixcorrelaties.
2. Uitvoeren en interpreteren van EFA

1. Stap 1: Kiezen van een extractie methode
Extractie methode: Is een statistische techniek die gebuikt wordt om de factoren uit de empirische data
te halen.
Hiervoor zijn drie manieren:

Manier Doel
Principal component analysis Gebaseerd op de variantie Data reductie (niet om
(Principale componenten analyse) factoren vaststellen)
Principle axis factoring Gebaseerd op correlatie Factoren vaststellen

(Principale as factoreren)
Maximum likelihood factor analysis Gebaseerd op correlatie Factoren vaststellen.
(Maximale kansfactor analyse)
2. Stap 2: Identificeren van het nummer van factoren en de extractie

- Minimaal: 1 (undimensioneel)
- Maximum: Hetzelfde als het aantal items dat er is (elk item reflecteert naar een eigen dimensie)
Eigenwaarde: Reflecteren de hoeveelheid of variatie in de empirische data bij elke factor.

Hoe hoger de eigenwaarde, hoe belangrijke de factor is.
13

Hieruit komen een aantal subjectieve richtlijnen die gebruikt kunnen worden:
1. Vind het hoogste verschil in eigenwaarde (“eigenvalue”)
▪ De waardes moeten weergegeven worden in een oplopende factor in een tabel.
▪ Begin bij de hoogste eigenwaarde en scan alle andere eigenwaardes op de verschillen.

▪ Vind het punt waar het verschil tussen eigenwaardes tussen waardes het groot is.
▪ Het nummer van factors die kunnen worden geïdentificeerd staat gelijk aan de rijen met de
hogere eigenwaardes dan de twee rijen met de grootste verschillen.
Dus: In dit geval zijn er twee factoren (dimensies)
(want, je hebt het verschil (1) + 1 factor hoger dan de twee rijen met het grootste verschil).
2. Kijk naar eigenwaardes die groter zijn dan 1 (minst accuraat).

Alle factoren groter dan 1 worden gekwalificeerd als een factor.
Dus: In dit geval zijn er 2 factoren.

(want, twee waardes zijn groter dan 1).
3. Vind een leveling-off-point (drop - relatief groot verschil) in een spreidingsdiagram van de
eigenwaardes (meest accuraat).
▪ Scan de eigenwaardes van hoog naar laag.

▪ Vind een drop: Daar waar de lijn plat wordt (of te wel het verschil tussen punten wordt niet
veel groter meer dan 1).
Dus: In dit geval zijn er 2 factoren

(want, twee factoren voor het level-off-point).
14

3. Stap 3: factorrotatie
Het wel of niet moeten toepassen van deze stap hangt af van wat er gebeurd is bij stap 2:
• Er zijn twee of meer factoren geïdentificeerd Doe stap 3
• Er is één factor geïdentificeerd. Sla stap 3 over
Tijdens een factorrotatie worden de assen van factoren omgedraaid.
Voorbeeld
De standaard weergave: Een grafische weergave van de mogelijke correlaties (hier tussen de items factor 1
en 2):
- De punten geven de items en waartoe ze mogelijk correleren (de 3 punten rechtsboven correleren het
best met factor 2, maar lijken ook enigszins met factor 1 te correleren).
- Hieruit komen de correlaties nog niet duidelijk naar voren.
Een geroteerde as: Geeft een beter overzicht om te kunnen interpreteren:

- Voor de drie items bovenin geldt nu dat ze waarschijnlijk hoog correleren met factor 2 en eigenlijk niet
met factor 1.
- De items zouden dus waarschijnlijk onderling correleren, maar niet op de andere dimensie.
Er bestaan twee mogelijke factor rotaties:

Type Beschrijving Voorbeeld
Orthogonal • X-as en y-as staan Varimax
(Orthogonaal) precies op 90 graden
• Hieruit valt de
correlatie niet op te
maken (ook al geeft
de theorie correlaties
dan geeft
orthogonale rotatie
dit niet).
Oblique • X-as en y-as lopen Promax

(obliek, door de groepen
schuin) correlerende punten Direct
(de assen staan niet Oblimin
per se op 90 graden).
• Geeft correlatie voor
factoren weer.
• Beter dan
orthogonaal.
15

Er geldt ver dat:

- Oblique roteren kan dimensies produceren die meer hoog gecorreleerd zijn aan elkaar.
- Oblique en orthogenale rotaties produceren hetzelfde resultaat wanneer de factoren natuurlijk
gecorreleerd zijn aan elkaar.
- Orthogonal rotatie produceert factorladingen die minder duidelijk zijn; ze hebben een simpelere
structuur.
4. Stap 4: Analyseren van de item-factor verbanden.

Factorlading: Representeert het effect (respons) van de factor op de geobserveerde items.
Er zijn twee elementen die geanalyseerd kunnen worden met factorlading:

- Grote: Vormt de mate waarin een item is geassocieerd met een factor.
Hierbij gelden de volgende marges in mate van sterkte:
- Richting:
o Positief: Een hoge geobserveerde score op een item is geassocieerd met een hoog
level op de factor.
o Negatief: Een hoge geobserveerde score op een item is geassocieerd met een laag
level op de factor.
Simpele structuur: Elk item heeft alleen een waarde op één factor en niet op de andere (op de
andere factor is de lading 0 of hier bijna gelijk aan).
Complexe structuur: Er zijn ladingen op zowel de eerste als de tweede factor.

Weinig lading op beide factoren Sterke lading op beide factoren
Er bestaan twee opties om dit tegen te gaan:

▪ De initiële beslissing herzien over het aantal factoren dat herleid moet
worden (stap 2).
▪ De items laten vallen die een slechte structuur hebben (want wanneer
een item niet gerelateerd is aan een factor dan toont deze toch niks aan
op de test).
16

Er zijn drie type factorladingen:

1. Factorlading voor de Factor matrix
rotatie:
Enkel bij oblique draaien:
2. Pattern coeffiecients Reflecteren de associaties tussen de Pattern matrix
factor en het item na de rotatie met
controle van de andere factoren
Regressiecoëfficiënt: Geeft de unieke

bijdrage van het item t.a.v. de factor
3. Structure coefficients Reflecteren de associaties tussen Structure matrix
factoren na een rotatie zonder het
controleren van de andere factoren.
Correlatie: Geeft de totaalwaarde t.a.v.

de factor.
5. Stap 5: Analyseren de associatie tussen de factoren

• Hangt af van stap 2:
- Er is één factor geïdentificeerd Sla stap 5 over.
- Twee of meer factor geïdentificeerd Gebruik stap 5.
• Hangt af van stap 3:
- Orthogonaal geroteerd: Sla stap 5 over (er kunnen geen associatie worden
geïdentificeerde).
- Schuin (oblique) geroteerd: Gebruik stap 5.
Voor de correlaties tussen factoren kunnen wederom twee dingen worden bekeken:
- Grootte: Geeft de mate waarin twee factoren met elkaar zijn geassocieerd.
- Directie:
o Positief: Een hoge geobserveerde score op het ene factor is geassocieerd met een
hoog level op de factor.
o Negatief: Een hoge geobserveerde score op een ene factor is geassocieerd met een
laag level op de factor.
Een redelijke sterke associatie tussen de twee Bijna geen associatie tussen de twee factoren
factoren
17

Hoofdstuk 5: Reability
Betrouwbaarheid
Een psychologische test is pas echt bruikbaar wanneer het echte psychologische verschillen toont.
Betrouwbaarheid: Psychologische testen reflecteren altijd de vaardigheid om echte psychologische
verschillen op een accurate manier te tonen.
De betrouwbaarheid hangt van twee factoren af:

1. De mate waarin verschillen in testscores toe te wijzen zijn aan echte inter- of
intra-individuele factoren.
2. De mate waarin verschillen in testscores een functie zijn van een measurement
error (meetfout).
Classic test theory (CTT): Een test zijn betrouwbaarheid reflecteert de mate waarin de verschillen in de scores
van de respondenten een functie zijn van hun echte psychologische verschillen.
Het volgende onderscheid wordt gemaakt in scoretoerekening:

Observed scores Waarden die verkregen worden door meting van de
(waargenomen score) karakteristieken van een bepaald persoon.
True scores Zouden verkregen worden als de test geen “measurement error” (meetfouten)
(echte waarde) zou hebben.
Reliability De mate waarin verschillen in respondenten in hun observed scores consistent zijn
(betrouwbaarheid) met de verschillen in hun true scores
Measurement error De mate waarin andere karakteristieken bijdragen aan verschillen in
(meetfout) geobserveerde scores (door bijvoorbeeld test karakteristieken).
→ Creëren inconsistentie tussen geobserveerde scores een true scores
Voorbeeld
Ashley en Bob doen een test voor zelfvertrouwen.
• Ashley heeft net voor de test een onvoldoende gehaald voor haar tentamen.
• Bob heeft net voor de test een voldoende gehaald voor zijn tentamen.
Er geld dan:
Ashley Haar waargenomen score (observed score) op de test is waarschijnlijk lager dan haar
werkelijke score (true score) zou zijn, omdat zij negatief is beïnvloed door haar onvoldoende.
De onvoldoende vormt dan een fout (error), waardoor haar score lager uitvalt.
Bob Zijn waargenome score (observed score) op de test is waarschijnlijk hoger dan zijn werkelijke
score (true score) zou zijn, omdat hij positief is beïnvloed door zijn voldoende op de test. De
voldoende is daarmee dan de fout (error), waardoor zijn score hoger uitvalt.
De regel die gehanteerd kan worden om een werkelijke score te bepalen is dus:
𝑋0 = 𝑋𝑡 + 𝑋𝑒
Waarbij:
𝑋0 De geobserveerde score
𝑋𝑡 De werkelijke score
𝑋𝑒 De error
18

Meetfouten in vergelijk met waargenomen en geobserveerde scores

De betrouwbaarheid wordt verhoogd als de error klein is. Er geldt dan dat de error random voorkomt
(bijvoorbeeld doordat net voor de test iemands hond is overleden, waardoor de scores lager zijn). Er geldt dan:
• De error “cancelt” zichzelf als het ware langs de respondenten.
- Voor elke persoon met een hoge score is er een verlaagde score voor een ander persoon.
- Het gemiddelde verschil tussen respondenten bij de error is 0.
• De errorscore is ongerelateerd aan de werkelijke score.
- De correlatie tussen een error en een werkelijke score is 0.
Varianties berekenen voor error, geobserveerde en waargenomen scores

De variantie is een spreidingsmaat (voornamelijk gebruikt in tussenberekeningen) die als volgt wordt berekend:
∑𝑛
𝑖=1(𝑥𝑖− 𝑥̅ )
2
𝑆𝑥2 = 𝑛
• De variantie is instaat aan te tonen in welke mate een error verschillende mensen beïnvloed op
verschillende manieren.
• Een hogere mate van errorvariantie indiceert een slechtere meting.
→ De variantie in error moet voor iedereen ongeveer gelijk zijn.
De totale variantie van de geobserveerde scores van een groep individuen is gelijk aan de som van de
werkelijke scores variantie en error score variantie:
𝑆02 = 𝑆𝑡2 + 𝑆𝑒2
Let op: Je telt hier niet de correlatie tussen de error scores en werkelijke scores bij elkaar op (zoals bij de
variantie van composite scores), omdat de correlatie hiertussen altijd 0 is, want de error is
onafhankelijk van werkelijke score.
The 4 ways of thinking

Er bestaan in totaal vier manieren om over betrouwbaarheid te denken. Bij deze manieren geldt:
• Dat de aanpakken alleen verschillen over de methoden die gebruikt wordt om termen te manipuleren die
geassocieerd zijn met deze varianties.
• Ook representeren zij verschillende manieren waarop het concept betrouwbaarheid valt te
conceptualiseren en karakteriseren.
Het is belangrijk te weten dat deze vier methoden bestaan, omdat:

• De ene manier van conceptualiseren van betrouwbaarheid duidelijker zou zijn dan de ander.
• Hierdoor een beter begrip gegeven kan worden van de algemene betekenis van betrouwbaarheid.
• Te weten dat er verschillende manieren zijn om de betrouwbaarheid te beschrijven.
De vier manieren van denken over betrouwbaarheid onderscheiden zich langs twee wegen:
1. Statistische basis: Of de betrouwbaarheid valt conceptualiseren als proportie van variantie of als
correlatie.
2. Conceptuele basis: Of de aanpak van betrouwbaarheid wordt bekeken vanuit geobserveerde scores of
vanuit measurement error.
19

Conceptuele basis:
Betrouwbaarheid in relatie tot…
Werkelijke (true) scores Meassurement error
Statistische basis: Proportie van De betrouwbaarheid als een ratio Ontbreken van error variantie
variantie van werkelijke scores tot
geobserveerde scores.
𝑆𝑡2 𝑆𝑒2
𝑅𝑋𝑋 = 𝑅𝑋𝑋 = 1 −
𝑆𝑜2 𝑆𝑜2
Correlaties De (squared) correlatie tussen Het ontbreken van een

geobserveerde scores en correlatie van de
werkelijke scores. geobserveerde score met de
error.
2 2
𝑅𝑋𝑋 = 𝑟𝑜𝑡 𝑅𝑋𝑋 = 1 − 𝑟𝑜𝑒
1. De betrouwbaarheid als een ratio van werkelijke scores tot geobserveerde scores.
Wordt als meest gebruikt om de betrouwbaarheid in uit te drukken.
𝑆𝑡2
𝑅𝑋𝑋 = 𝑆𝑜2
𝑅𝑋𝑋 : Betrouwbaarheidscoëfficiënt.
𝑆𝑡2 : Variantie van de werkelijke (true) score.
𝑆𝑜2 : Variantie van de geobserveerde (observed) score.
Er geldt hierbij dat:

De betrouwbaarheidscoëfficiënt ligt altijd tussen 0 -1.
→ Hoe dichter bij de 0 hoe minder hoog de betrouwbaarheid.
→ Bij 0 heeft iedereen dezelfde score.
Voorbeeld
2. Het ontbreken van errorvariantie

Errorvariantie: Representeert de mate waarin de error verschillende mensen op verschillende
manieren beïnvloed.
Betrouwbaarheid is de mate waarin de error variantie minimaal is in vergelijking met de geobserveerde

waarden.
𝑆𝑒2
𝑅𝑋𝑋 = 1 − 𝑆02
De betrouwbaarheid is groter wanneer de proportie van de error klein is, want errors beïnvloeden
personen dan op dezelfde manier.
20

3. De (squared) correlatie tussen geobserveerde scores en werkelijke scores.

Correlatie: Verteld de mate van de verschillen in een variabele consistent zijn met de verschillen in een
andere variabele.
Omdat betrouwbaarheid verteld hoe de verschillen van geobserveerde scores consistent zijn met
verschillen in werkelijke scores, kun je de correlaties zien als een squared correlatie tussen geobserveerde
scores en werkelijke scores.
→ De correlatie wordt dan vaak de index van betrouwbaarheid genoemd.
2
𝑅𝑋𝑋 = 𝑟𝑜𝑡
2
𝑟𝑜𝑡 : De gekwadrateerde correlatie tussen de geobserveerde score en de werkelijke score.
𝐶𝑜𝑡 ∑(𝑥𝑜 − ̅̅
𝑋̅̅
0 )(𝑋𝑡 − 𝑥̅ 𝑡 )
𝑟𝑥𝑦 = waarbij 𝐶𝑜𝑡 =
𝑆𝑜 𝑆𝑡 𝑛
Hierbij geldt dat:

Een betrouwbaarheid van 1 zou zeggen dat de verschillen tussen waargenomen score en de werkelijke
score van participanten precies gelijk zijn.
Voorbeeld
4. Het ontbreken van een correlatie van de geobserveerde score met de error.
Een test is onbetrouwbaar als de mate van verschillende geobserveerde scores verschillen in de effecten
van de error.
2 ∑(𝑥𝑜 − ̅̅
𝑋̅̅
0 )(𝑋𝑒 − 𝑥̅ 𝑒 )
𝑅𝑋𝑋 = 1 − 𝑟𝑜𝑒 waarbij 𝐶𝑜𝑡 =
𝑛
Wanneer de correlatie tussen de geobserveerde score en error wordt, neemt de waarde voor 𝑅𝑋𝑋 af en
wordt de betrouwbaarheid dus minder.
Betrouwbaarheid en een meetfout

De betrouwbaarheidscoëfficiënt reflecteert niet in de grootte van de meassurement error die geassocieerd is
met de test.
Dus: Het geeft niet de gemiddelde grootte van errorscores weer die we kunnen verwachten te vinden
wanneer een test wordt gegeven aan mensen.
Echter: Dit is wel belangrijk voor het interpreten van de accuraatheid van testscores en het
berekenen van kansen van behalen van bepaalde score.
Hiervoor: Geeft de standaarddeviatie van de error de hoeveelheid error weer die een
antwoord voor een test beïnvloed.
Standard error of measurement: De standaarddeviatie op errorscores. Deze representeert de gemiddelde

errorscores.
𝑆𝐸𝑚 = 𝑆0 √1 − 𝑅𝑋𝑋
𝑆𝐸𝑚 : Standard error of measurement
𝑆0 : Standaarddeviatie van de geobserveerde variabele.
𝑅𝑋𝑋 : Betrouwbaarheidscoëfficiënt.
Hoe groter, hoe groter de verschillen tussen de geobserveerde score en de
werkelijke score dus hoe minder betrouwbaar de test.
21

Parralel testen
Meestal weten we niet wat de werkelijke score is en de error die hieraan is gerelateerd.
Oplossing: Klassiek testtheoristen stellen dat dan twee psychologische testen gereconstrueerd kunnen
worden op een manier dat ze parallel zijn aan elkaar.
Testen zijn parallel als ze aan de volgende assumpties voldoen:

1. De voorwaarde van de CTT gelden.
- De geobserveerde score is de som van de werkelijke score plus de error.
- De error is random (dus de gemiddelde error is 0 en de error correleert met 0 met de werkelijke
score).
2. De werkelijke waarde is in beide testen even groot.
3. De testen hebben dezelfde error variantie.
Wanneer aan deze voorwaardes wordt voldaan geldt:

Correlatie test 1 = correlatie test 2
De gemeenschappelijke correlatie geeft uiteindelijk een maat voor de betrouwbaarheid.
Domain sampling
Domain sampling: Items op een bepaalde test representeren een sample van een groot oneindig
nummer van potentiële testitems.
Hoofdstuk 6: Emperical estimates of realiability
Schatten van de betrouwbaarheid

Er bestaan verschillende manieren om de betrouwbaarheid van een test aan te duiden (zonder hiervoor
werkelijke en errorscores nodig te hebben):
1. Alternate forms reliability (parallel testen)

De methode van parallel testen: Als twee verschillende testen gelijke gemiddelde en standaarddeviaties
hebben, plus ze beogen hetzelfde te meten, kunnen ze als parallel (min of
meer hetzelfde) worden beschouwd.
Dan: Bereken je de correlatie tussen de testvormen en gebruikt deze als
schatter voor de betrouwbaarheid.
𝑅𝑥𝑥 = 𝑟𝑜1𝑜
2
Er geldt de volgende voorwaarde:

De vaardigheid om de correlatie tussen twee verschillende testvormen te berekenen kan enkel wanneer deze
twee testvormen parallel zijn aan elkaar:
1. Ze meten dezelfde set aan werkelijke scores.
2. Ze hebben dezelfde errorvariantie.
Er geldt: Correlatie tussen twee parallel testen is precies gelijk aan de betrouwbaarheid van testscores.
Echter: We kunnen er nooit geheel zeker van zijn of de scores op verschillende testvormen
precies over hetzelfde psychologische attribuut gaan.
Of te wel: We weten niet of de werkelijke scores tussen twee testen exact
hetzelfde zijn.
Carryover of contanimation effecten: Het maken van test 1 heeft effecten over hoe goed iemand
presteert op test 2.
Hierbij geldt: Errorscores tussen twee testen zijn random, dus

zouden ongecorreleerd moeten zijn.
Wanneer ze wel gecorreleerd zijn:

Duidt dit op een carryover effect.
22

2. Test-retest reliability (testen her-test betrouwbaarheidsprincipe)

De methode voor testen her-testen:
• Deze methode wordt vooral gebruik bij stabiele psychologische constructen, zoals intelligentie.
• Dezelfde test wordt dan meer dan 1x bij dezelfde persoon afgenomen en de correlatie tussen de test en
her-test wordt berekend als mate van betrouwbaarheid van de test.
𝑅𝑥𝑥 = 𝑟𝑜 𝐼 𝐼𝐼
Er gelden hiervoor de volgende voorwaardes:

1. De werkelijke (true) scores moeten gelijk langs de twee keer dat de test afgenomen wordt.
Drie factoren beïnvloeden dit:
1. Sommige psychologische attributen zijn minder stabiel dan andere.
2. Lengte van de re-test interval.
o Lange periode: Kans op veranderingen in het psychologische attribuut.
o Korte periode: Carryover effecten.
3. Periode waarin interval verschijnt (sommige veranderingen treden in bepaalde periodes sneller op,
zoals bijvoorbeeld intelligentie in de schoolperiode).
2. Errorvariantie van de eerste test moet gelijke zijn aan die van de tweede test.
Dus: Er moeten twee testsituaties worden gecreëerd die ongeveer gelijk zijn.
Wanneer de werkelijke scores gelijk blijft, reflecteert de correlatie tussen de test en de her-test de mate waarin
errorscores de geobserveerde scores beïnvloeden (hoe lager de correlatie, hoe meer effect van de error).
Probleem hierbij: We weten nooit de mate waarin werkelijke scores wel of niet veranderen.
Bij verschil in werkelijke score: De correlatie toont twee onafhankelijke factoren.
1. Mate waarin de error de test beïnvloed.
2. Hoeveelheid verandering in werkelijke score.
Deze kun je dan niet van elkaar scheiden.
3. Internal consistency reliability (interne consistentie)

• Er wordt één test gemaakt op één tijdstip.
• De verschillende delen van de test worden beschouwd als een eigen onderdeel van een test (de
compositie score wordt als het ware door de helft gedeeld, waardoor twee delen overblijven).
Er zijn twee factoren die de betrouwbaarheid van testscores dan beïnvloeden:

1. Consistentie tussen de delen van een test: Hoge correlatie, hoge betrouwbaarheid.
2. Lengte van de test: Langere testen zijn meer betrouwbaar door de aard
van de error en link met betrouwbaarheid.
a. Split half estimates of reliability

Items worden hierbij gesorteerd in twee parelelle subschalen en vervolgens correleer je deze twee
scores samen. Zo kan de betrouwbaarheid worden berekend via drie stappen:
1. Creëer twee subsetscores (bijvoorbeeld: even en oneven vragen).
2. Bereken de correlatie tussen de twee subsets (de split-half-coëfficiënt reflecteert de mate waarin
de twee delen van de test consistent zijn met elkaar).
3. Stop de split-half correlatie in een gespecialiseerde formule om de betrouwbaarheidscoëfficiënt
te bepalen.
De Spearman-Brown formule:
2𝑟
𝑅𝑋𝑋 = 1+ 𝑟ℎℎ
ℎℎ
𝑅𝑥𝑥 : De betrouwbaarheidscoëfficiënt.
𝑟ℎℎ : De split-half coëfficiënt
` Te berekenen door: Uitrekenen van de correlatie tussen de ene kolom
subsetscores en de andere kolomsubsetscores
23

Voorbeeld
1. Creëer twee subsetscores (bijvoorbeeld: even en oneven vragen).
2. Bereken de correlatie tussen de twee subsets

𝐶𝑥𝑦 ∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅ )
Vul in: 𝑟𝑥𝑦 = door gebruik te maken van: 𝐶𝑥𝑦 =
𝑆𝑥 𝑆𝑦 𝑛
Er geld dan 𝑟ℎℎ = .276
3. Stop de split-half correlatie in een gespecialiseerde formule om de betrouwbaarheidscoëfficiënt

te bepalen.
2𝑟ℎℎ
𝑅𝑋𝑋 =
1+ 𝑟ℎℎ
2(0.276)
𝑅𝑋𝑋 = 1+ 0.276
= .4333
Let op: De split-half coëfficiënt wordt maar weinig gebruikt omdat er niet één manier is om een test
handig in te delen.
• Bij “power tests” verschillen de vragen daarbij ook nog eens in moeilijkheid
• Bij “speeded tests” zou de helftdeling bijna zorgen voor een perfecte betrouwbaarheid
van 1.
Voor SPSS geldt: Er kan een “Reliability Analysis” gemaakt kan worden via een drop-down-
menu. De split half coëfficiënten worden bepaald door:
▪ De “Correlation Between Forms”
▪ De “Spearman-Brown Coefficient”
b. “raw” coefficient alpha

Elk item wordt als een subset gezien. De associatie tussen alle items kan gebruikt worden om de
betrouwbaarheid van de hele test te schatten, wat gaat via twee stappen:
1. Het item-niveau en/of test-niveau statistieken worden berekend.
• Variantiescores berekenen (de som van alle elementen uit het covariantie-variantiematrix).
• Covarianties tussen de verschillende items uitrekenen
∑(𝑥𝑖 − 𝑥̅ )(𝑦𝑖 − 𝑦̅ )
𝐶𝑥𝑦 =
𝑛
2. De informatie over het item-niveau en/of het testniveau wordt in een speciale vergelijking
ingevuld om de betrouwbaarheid te schatten.
24

De formule van de Cronbachs Alpha:

𝑘 ∑ 𝐶𝑖𝑖′
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (𝑘−1) ( )
𝑆𝑥2
𝑎: Cronbachs Alpha (correspondeert met de betrouwbaarheidscoëfficiënt)

𝑘: Aantal items op een test
𝑆𝑥2 : De totale variantie (de som van alle elementen uit het covariantie-variantiematrix).
∑ 𝐶𝑖𝑖′ : De som van alle covariantie tussen alle items die weerspiegelt in hoeverre items
consistent zijn met elkaar.
Dus: De covariantie tussen bepaalde items (𝑖) met een andere set items (𝑖′)
Er geldt: Hoe hoger, hoe meer consistent de items met elkaar zijn.
Voorbeeld
We gebruiken de dataset die al bekend is:
1. Het item-niveau en/of test-niveau statistieken worden berekend.

• Variantiescores berken (deze zijn gelijk aan de split half coëfficiënt)
𝑆𝑥2 = 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑛𝑡𝑖𝑒 𝑜𝑣𝑒𝑟 𝑑𝑒 𝑡𝑜𝑡𝑎𝑙𝑒 𝑠𝑐𝑜𝑟𝑒 = 10.1875
• Covarianties tussen de verschillende items uitrekenen

Zet de gegevens hiervoor in een covariantie-variantie matrix:
Probleem: De covariantie tussen verschillende items is 0 dan meten ze niet

hetzelfde construct.
2. De informatie over het item-niveau en/of het testniveau wordt in een speciale vergelijking
ingevuld om de betrouwbaarheid te schatten.
• Voor ∑ 𝐶𝑖𝑖′ geldt dat dit de sommatie is van alle covarianties dus 4,76
• Voor 𝑘 geldt het aantal testscores is 4
𝑘 ∑ 𝐶𝑖𝑖′
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (𝑘−1) ( )
𝑆𝑥2
4 4,76
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (4−1) (10,1875) = (1,3333)(4,663) = .62
Let op: Een vergelijkbare manier om tot de Cronbachs Alpha te komen wordt gevonden met de
volgende formule:
𝑘 ∑ 𝑆𝑖2
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (𝑘−1) (1 − )
𝑆𝑥2
Waarbij: 𝑆𝑖2 = 𝑆12 + 𝑆22 + 𝑆32 + 𝑆42

𝑆𝑖2 = 1,50 + .6875 + 2.5 + .75 = 5.4375
4 5,4375
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = ( ) (1 − ) = (1,3333)(1 − 5,337) = .62
4−1 10,1875
25

Als een formule binominaal (dichotoom) is dan wordt voor de ruwe alpha de volgende formule
gebruikt:
𝑘 ∑ 𝑝𝑞
𝐾𝑅 − 20 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (𝑘−1) (1 − )
𝑆𝑥2
∑ 𝑝𝑞: De som van de itemvarianties
∑ 𝑝𝑞 = 0,1875 + 0,1875 + 0,25 0,1875 = 0,8125
c. Standarized coefficient alpha

Is gerelateerd aan de ruwe alpha, maar meer geschikt als er gestandaardiseerde reacties bestaan op
testitems (dus: wanneer testen een z-score leveren op elk item).
Wordt gebruikt wanneer:

o Varianties erg van elkaar verschillen.
o Wanneer er verschillende “response scales” zijn.
Bestaat uit de volgende items:

1. Verkrijg een set van item-niveau statistieken
• Bereken de correlaties tussen elk paar items.
• Bereken de gemiddelde van die correlaties (mate waarin reacties op ieder item consistent zijn
met elkaar).
2. Bereken de betrouwbaarheid door de gemiddelde correlatie in te vullen in de formule:
𝑘 ̅̅̅̅̅
𝑟𝑖𝑖′
𝑅𝑋𝑋 = 1+(𝑘−1)𝑟 ̅̅̅̅̅
𝑖𝑖′
𝑟̅̅̅:
𝑖𝑖′ De gemiddelde correlatie tussen twee items
𝑘: Het aantal items op een test
Voorbeeld
We gebruiken de dataset die al bekend is:
26

1. Verkrijg een set van item-niveau statistieken

• Bereken de correlaties tussen elk paar items.
• Bereken de gemiddelde van die correlaties (mate waarin reacties op ieder item consistent zijn
met elkaar).
0+ .52+0+0+ .52+.73
𝑟𝑖𝑖′ =
̅̅̅ = .295
6
2. Bereken de betrouwbaarheid door de gemiddelde correlatie in te vullen in de formule:

𝑘 ̅̅̅̅̅
𝑟𝑖𝑖′
𝑅𝑋𝑋 =
1+(𝑘−1)𝑟
̅̅̅̅̅
𝑖𝑖′
4 (.295)
𝑅𝑋𝑋 = = .63
1+(4−1).295
Accuraatheid en het gebruik van schatters

Schattingen van de betrouwbaarheid zijn enkel accuraat wanneer aan bepaalde assumpties wordt voldaan.
De Cronbachs Alpha wordt veelvoudig gebruikt, omdat:

• De meeste statistische pakketten geven alpha coëfficiënten als een default deel van de
betrouwbaarheidsanalyse.
• Kost minder moeite om te berekenen in vergelijk met andere schatters.
Assumptie van gelijke errorvariantie hoeft niet per se te worden voldaan. Daarom is de Cronbachs Alpha
accuraatst van alle schatters.
→ Als testitems niet essentially tau equivalent (parallel) zijn geeft alpha nog steeds een goed resultaat.
Er kunnen steekproeffluctuaties zijn, waardoor de alpha groter is dan de betrouwbaarheid.

Normaal: Is alpha altijd kleiner dan de betrouwbaarheid.
De interne consistentie versus dimensionaliteit

Metingen van interne consistentie moeten voorzichtiger worden gebruikt dan metingen van conceptuele
homogeniteit.
Omdat: De interne consistentie van een test namelijk hoog kan zijn zelf wanneer de test
een multidimensionale of een heterogene test is.
Factoren die van invloed zijn op de betrouwbaarheid van testscores

1. Factor 1: Testen met een grotere interne consistentie hebben een grotere geschatte betrouwbaarheid.
Verbeteringen: Herschrijven of verduidelijken van items zodat ze consistenter zijn.
2. Factor 2: Een langere test is meer betrouwbaar dan een korte test.
Er geldt: Bij een langere test verhogen de variantie van werkelijke scores sneller dan
error scores, waardoor betrouwbaarheid toeneemt.
De formule die gebruikt kan worden om verschillende lengtes en betrouwbaarheden te
schatten is de volgende:
𝑛 𝑅𝑥𝑥, 𝑜𝑟𝑖𝑔𝑖𝑛𝑒𝑒𝑙
𝑅𝑋𝑋, ℎ𝑒𝑟𝑧𝑖𝑒𝑛 = 1+(𝑛−1)𝑅𝑥𝑥, 𝑜𝑟𝑔𝑖𝑛𝑒𝑒𝑙
27

Waarbij:
𝑛: De factor is waarmee de test wordt verlengd of verkleind.
𝑅𝑋𝑋, ℎ𝑒𝑟𝑧𝑖𝑒𝑛 De nieuwe betrouwbaarheidscoëfficiënt als de test wordt vergroot of
verkleind.
Voorbeeld
Ook de gestandaardiseerde alpha kan worden herzien, waarbij het aantal

toegevoegde/verwijderde items wordt meegenomen:
𝑘 ̅̅̅̅̅
𝑟𝑖𝑖′
𝑅𝑋𝑋 = 1+(𝑘−1)𝑟 ̅̅̅̅̅
𝑖𝑖′
• Langere testen hoeven niet betrouwbaarder te worden met slechtere items.

• Er zitten limieten aan het aantal items (vanwege tijd, vermoeidheid respondent e.d.).
3. Factor 3: De heterogeniteit van de mensen die de test maakt in werkelijke scores.

Hoe groter de variabiliteit langs mensen is, hoe groter de betrouwbaarheidscoëfficiënt wordt.
𝑠𝑡2 𝑠𝑡2
𝑅𝑋𝑋 = 𝑅𝑋𝑋 =
𝑠𝑡2 + 𝑠𝑒2 𝑠𝑜2
Alles wat zorgt voor betere werkelijke score meer stijgt dan de errorscore doet de
betrouwbaarheid ook stijgen.
De betrouwbaarheid voor difference scores

Intra-individuele veranderscores kunnen worden bepaald door de volgende formule:
𝐷 =𝑋−𝑌
Y= De initiële score
X= De uiteindelijke score.
Er gelden hierbij de volgende regels:

● D > 0: Toename De uiteindelijke score (X) is groter dan de initiële score (Y)
● D < 0: Afname De uiteindelijke score (X) is kleiner dan de initiële score (Y)
● D=0 Geen verandering
Om twee scores goed met elkaar te kunnen vergelijken is er verschillende informatie nodig:
1. De verwachte betrouwbaarheidsscore van de initiële test (Y) en de uiteindelijke score (X).
𝑅𝑋𝑋 en 𝑅𝑦𝑦
2. De variabiliteit van de initiële test (Y) en de uiteindelijke score (X)

𝑆𝑥2 , 𝑆𝑦2 , 𝑆𝑥 en 𝑆𝑦
28

3. De correlatie tussen de initiële test (Y) en de uiteindelijke score (X)

𝑟𝑥𝑦
Met deze gegevens kan de betrouwbaarheid tussen verschillende (differend) scores weergegeven worden door
de volgende formule:
𝑆𝑥2 𝑅𝑋𝑋 + 𝑆𝑦2 𝑅𝑦𝑦 −2𝑟𝑥𝑦 𝑆𝑥 𝑆𝑦
𝑅𝑑 = 𝑆 2 + 𝑆 2 − 2𝑟 𝑆 𝑆
𝑥 𝑦 𝑥𝑦 𝑥 𝑦
Voorbeeld
1. De verwachte betrouwbaarheidsscore van de initiële test (Y) en de uiteindelijke score (X).

𝑅𝑋𝑋 = 0,85 en 𝑅𝑦𝑦 = 0,91
2. De variabiliteit van de initiële test (Y) en de uiteindelijke score (X):
𝑆𝑥2 = 1.25
𝑆𝑦2 = 6.25
𝑆𝑥 = √1.25
𝑆𝑦 = √6.25
3. De correlatie tussen de initiële test (Y) en de uiteindelijke score (X)
Invullen geeft:
● Factoren die effect hebben op difference scores

1. Correlatie tussen de testen hun geobserveerde scores:
Twee testen die hoog met elkaar correleren, produceren lagere betrouwbaarheid.
2. De betrouwbaarheid van de twee testen die gebruikt wordt om de difference scores mee te
berekenen:
Testen die een hoge betrouwbaarheid hebben produceren verschilscores die ook een hoge
betrouwbaarheid hebben.
● Het probleem van unieke variabiliteit
Als twee scores een verschillende variantie hebben dan neigen difference scores altijd na de test met de
hoogste variantie.
Oplossing: Gebruiken van gestandaardiseerde scores (z-scores).
29

Hoofdstuk 7: The importance of reliability
De evaluatie van iemands individuele score

De betrouwbaarheid van een test heeft cruciale implicaties voor de kwaliteit van beslissingen die gemaakt
worden op basis van testscores.
Doordat je nooit iemands ware score kan krijgen, is het belangrijk om te weten wat de precisie is van de
betrouwbaarheid van testscores die wordt gebruikt.
Twee punten helpen een test te evalueren:

1. Puntschatting (point estimate): Een specifieke waarde die geïnterpreteerd wordt als mogelijke “beste
schatter” van een individu zijn psychologische attributie.
2. Betrouwbaarheidsinterval (confidence interval): Reflecteert een range van waarde waarin de werkelijke
score van een individu naar alle waarschijnlijkheid binnen zou vallen.
1. Eerste punt schatter: Is in ware de puntschatter. De beste schatting die de test levert (staat gelijk
aan de geobserveerde score).
2. 2de punt schatter: Kijkt ook naar de error.
Iemands eerste testscore kan gebruikt worden om de testscore op de
tweede test te schatten → produceert een adjust true score estimate →
reflecteert de regression to mean.
● Regression to mean (regressie naar het gemiddelde):

Verwijst naar de waarschijnlijkheid dat een individu zijn tweede score op een tweede test dichter zit bij het
groepsgemiddelde dan de score op de eerste test.
Voorbeeld: Zit een individu zijn score eerst boven het gemiddelde.
Dan: Ligt zijn score de tweede keer waarschijnlijk dichter bij de gemiddelde.
Doordat: Scores afhankelijk zijn van random fouten.
● The adjusted true score estimate:

Reflecteert de discrepantie in een individu zijn geobserveerde score die waarschijnlijk zal ontstaan tussen twee
testgelegenheden. De grote en richting van deze discrepantie is afhankelijk van:
1. De betrouwbaarheid van testscores.
2. De grote van de verschillen tussen de individu zijn originele geobserveerde scores en de gemiddelde
testscores.
3. De richting en het verschil tussen de originele score en het gemiddelde van testscores.
𝑋𝑒𝑠𝑡 = 𝑋̅ + 𝑅𝑥𝑥 (𝑋0 − 𝑋̅)

De adjucted true score = gemiddelde van testscores + betrouwbaarheidscoëfficiënt (geobserveerde score –
gemiddelde testscore).
Twee belangrijke punten over de true score estimate:

1. De betrouwbaarheid beïnvloedt het verschil tussen de estimated true score en de geobserveerde score.
- Als de betrouwbaarheid afneemt, neemt het verschil tussen de adjusted true score estimate en de
geobserveerde score toe.
- Regressie naar het gemiddelde verschijnt wanneer testscores veel worden beïnvloed door errors.
2. De extremiteit van geobserveerde scores beïnvloedt het verschil tussen de estimated true score en de
geobserveerde score.
Verschil is groter voor relatief extreme geobserveerde scores dan voor gemiddelde scores.
Nadelen van de adjusted true score estimate:

1. Een geobserveerde score op een test is de beste schatter van een psychologisch attribuut dat gemeten
wordt, behalve wanneer een score op een subset moet worden voorspeld, dan is er weinig reden om
geobserveerde scores aan te passen met regressie naar het gemiddelde.
2. Veel denken dat de regressie naar het gemiddelde een wiskundige zekerheid is, maar er zijn
omstandigheden waar deze niet verschijnt.
30

Werkelijke score betrouwbaarheidsintervallen

De breedte van een betrouwbaarheidsinterval reflecteert de precisie van een puntschatter.
Er geldt: Hogere betrouwbaarheid, geeft een preciezere puntschatters en dus kleinere intervallen.
De link tussen betrouwbaarheid en de precisie van betrouwbaarheidsintervallen wordt gemaakt door de

standaard error of measurement: 𝑆𝐸𝑚 = 𝑆0 √1 − 𝑅𝑋𝑋
Er geldt: Hoe hoger de standaard error of measurement, hoe groter het verschil tussen de werkelijke
score en de geobserveerde score.
Met de standaardfout kan het betrouwbaarheidsinterval worden berekend rondom de geobserveerde score:
𝑋𝑜 ± 𝑍 × 𝑆𝐸𝑚
Vergelijken binnen de gedragswetenschappen
Om de associaties tussen twee metingen te meten worden volgende manieren gebruikt binnen de
gedragswetenschappen:
1. Betrouwbaarheid met werkelijke associatie en geobserveerde associatie

De meest gebruikte manier om associaties te leggen is door de correlatiecoëfficiënt.
De correlatie tussen twee metingen wordt bepaald door twee factoren:

1. Correlatie tussen de werkelijke scores van de twee psychologische constructen.
2. De betrouwbaarheid van de twee metingen.
𝑟𝑥𝑜𝑦𝑜 = 𝑟𝑥𝑡𝑦𝑡 √𝑅𝑋𝑋 𝑅𝑦𝑦
Wanneer hieruit komt dat de correlatie tussen de metingen kleiner is dan de correlatie tussen de twee
constructen, toont dit een measurement error.
2. Een error (lage betrouwbaarheid) schat de werkelijke en geobserveerde waarde tussen metingen
De discrepantie tussen geobserveerde associaties en werkelijke associatie reflecteert vier belangrijke
implicaties:
1. Geobserveerde associaties zullen zwakker zijn dan werkelijke associaties (er is altijd een meetfout).
2. De mate van verzwakking wordt bepaald door de betrouwbaarheid van de meting.
Hoe slechter de meting, hoe groter de verzwakking.
3. Error legt een grens van een maximum associatie die behaald zou worden tussen twee metingen.
4. Het is moeilijk de werkelijke associatie tussen constructen te schatten.
Correction for attenuation: Een formule die gebruikt wordt om een correlatie te schatten die bereikt
zou worden als deze niet wordt beïnvloed door een verzwakking:
𝑟
𝑟𝑥𝑡𝑦𝑡 = 𝑅 𝑥𝑜𝑦𝑜𝑅
√ 𝑋𝑋 𝑦𝑦
3. Betrouwbaarheid; effectgrootte en statistische significantie

● Effectgroottes
Representeren de resultaten van een studie in een bepaalde mate.
- Sommige reflecteren de mate van een associatie tussen variabelen.
- Sommige reflecteren de mate van de verschillen tussen groepen of condities.
Er zijn drie effectgroottes die worden gebruikt:

1. Correlaties: Beschrijft associaties tussen twee continue variabelen.
Bijvoorbeeld: Intelligentie en academische prestatie.
2. Cohens d Beschrijft associatie tussen dichotome en continue variabelen.
Bijvoorbeeld: Sekse en academische prestatie.
3. q’ Beschrijft de relatie van categorische variabelen met meer dan 1 niveau.
Bijvoorbeeld: Dosering medicatie en depressie.
31

De Cohens d is als volgt te berekenen:

̅̅̅̅̅− ̅̅̅̅̅
|𝑋 𝑋 |
𝑑𝑥0 = 𝑜12 𝑜2 2
√𝑆𝑜1 +𝑆𝑜2
2
Met de Cohens d kunnen de verschillen tussen groepen worden aangetoond in hoeveel standaarddeviaties
voor de afhankelijke variabele in gemiddelde van elkaar af liggen.
̅̅̅̅̅
𝑋𝑜1 : Gemiddelde voor 1
̅̅̅̅̅
𝑋𝑜2 : Gemiddelde voor 2
2
𝑆𝑜1 : Variantie 1
2
𝑆𝑜2 : Variantie 2
De laagste score is 0 (geen verschil in gemiddelden tussen groepen) tot oneindig, waarbij hogere waarden
reflecteren naar meer verschillen.
De geobserveerde Cohens d hangt af van:

1. De werkelijke waarde voor Cohens d
2. De betrouwbaarheid van de meting.
Betrouwbaarheid heeft invloed op effectgrootte. Hogere betrouwbaarheid produceert betere schattingen van
werkelijke effectgrootte.
𝐷𝑥0 = 𝐷𝑥𝑡 √𝑅𝑋𝑋
● Statistische significantie
- Wanneer een resultaat statistisch significant is, kun je de echte bevinding zien.
- Statistische significantie wordt beïnvloed door de grootte van de geobserveerde effecten in de studie
(correlatie of Cohens d).
- Grotere geobserveerde omvang maakt het waarschijnlijker dat het ook statistisch significant is.
Implicaties voor uitvoeren en interpreteren van gedragswetenschappen

Er zijn drie implicaties van betrouwbaarheid wanneer psychologische conclusies worden getrokken uit
onderzoek:
1. Onderzoekers moeten altijd de effecten van betrouwbaarheid op hun resultaten bekijken wanneer ze de
effectgrootte of statistische significantie beschrijven.
2. Onderzoekers zouden hoog betrouwbare metingen moeten gebruiken in hun werk (toch kan verzwakking
niet helemaal voorkomen worden).
Er bestaan twee redenen waarom onderzoek niet betrouwbaar is:
- Er kunnen geen betrouwbare metingen worden gegeven over het construct.
- Ze kunnen te weinig moeite hebben gedaan om betrouwbare metingen te vinden.
3. Onderzoekers zouden betrouwbaarheidsschattingen van hun metingen moeten weergeven.
Testconstructie en verbeteringen
Betrouwbaarheid is een belangrijk facet voor de testconstructie en verfijning. Itemformatie speelt hierin een
belangrijke rol d.m.v. interne consistentie door: test lengte en consistentie op de test.
Voor een goede testconstructie zijn de volgende punten van belang:

● Item discriminatie
Voor een hoge betrouwbaarheid moeten er items zijn die die een hoog discriminatie niveau hebben (het
onderscheid dat gemaakt wordt tussen hoge en lage scores op een test).
Item-total correlation: Een manier om de discriminatie van items te bereken.

Bereken de totaalscore van de test en vervolgens de correlaties tussen
items en deze totale score.
Er geldt:
Hoge correlatie: Items zijn consistent met de test als geheel.
32

Bij dichotome items gebruikt men de discriminatie index (D):

Deze vergelijkt de proportie hoge testscores die het item correct beantwoorde met de proportie van lage
testscores die het item correct beantwoorde.
1. Identificeer de percentage mensen met hoge en lage scores.
2. Bereken over elk van deze groepen het totaal mensen die een item correct heeft beantwoord.
𝐷 = 𝑃ℎ𝑜𝑜𝑔 − 𝑃𝑙𝑎𝑎𝑔
● Squared multiple correlation:

Een ander index van de mate waarin een item gelinkt is aan de andere items. Deze waarde zijn de
gekwadrateerde correlaties die verkregen zijn wanneer je scores op elk item voorspelt van scores op alle
items.
● Itemgemiddelde en variantie
- Zijn belangrijke factoren die bijdragen van het item aan de kwaliteit van de test omschrijven.
- Kunnen gerelateerd zijn aan de mate waarin een item consistent is met andere items op een test.
- Als een waarde geen variabiliteit heeft zou deze niet gecorreleerd zijn aan andere variabele.
- Items die minder variabiliteit hebben zijn minder waarschijnlijk correlatie te hebben.
- Weinig variabiliteit (dus elke respondent antwoord hetzelfde) geeft lage betrouwbaarheid.
- Het gemiddelde van een item wordt soms gezien als de moeilijkheid van dat item.
33

Powered by TCPDF (www.tcpdf.org)

Isoldegroefsema Stuvia Testen en Meten Samenvatting Psychometrics An Introduction Furr 3de Editie

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Isoldegroefsema Stuvia Testen en Meten Samenvatting Psychometrics An Introduction Furr 3de Editie

Uploaded by

Copyright:

Available Formats

Testen en meten [samenvatting -

Psychometrics An Introduction - Furr - 3de

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Hoofdstuk 1: Psychometrics and the importance of psychological measurement

Observeerbare en niet observeerbare variabele

Er gelden voor dit proces de volgende regels:

Operationele definitie: Een procedure waarmee vaardigheden worden gemeten.

Psychologisch testen: Definities en types

Er bestaan twee vormen:

Typen van testen

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Uitdagingen aan metingen in de psychologie

Belang van individuele verschillen

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Fundamentele problemen met nummers

Mensen moeten op zijn minst in twee categorieën ingedeeld worden.

2. Kenmerk van orde

3. Kernmerk van kwantiteit:

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

2. De eenheid is niet gekoppeld aan 1 object

3. De eenheid kan meerdere dimensies meten

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Hoofdstuk 3: Individuele verschillen en correlaties

Belangrijke statistische termen:

• Variantie: ∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2 𝑆𝑥2 = 𝑝 (1 − 𝑃)

Voor dichotome variabelen geld voor de p-waarde dat:

Voor het toepassen gelden nog een aantal regels:

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Distributievormen en normale verdeling

Het belang van individuele verschillen

De samenhang tussen twee verschillende variabelen

De correlatie is belangrijk bij de betrouwbaarheidstheorie omdat het de mogelijkheid geeft de

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Hierbij geldt dat:

4. Samenhang afleiden uit een spreidingsdiagram:

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Composite scores (samengestelde scores)

1. De variantie tussen twee composite scores (samengestelde scores)

Samengestelde score voor variantie op item 1 en item 2

2. De covariantie tussen twee composite scores (samengestelde scores)

𝐶𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 1, 𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 2 = 𝐶𝑖𝑘 + 𝐶𝑖𝑙 + 𝐶𝑗𝑘 + 𝐶𝑗𝑙

Item 1 Item 2 Item 3 Item 4

𝐶𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 1, 𝑐𝑜𝑚𝑝𝑜𝑠𝑖𝑡𝑒 2 = 𝐶1,3 + 𝐶1,4 + 𝐶2,3 + 𝐶2,4

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Interpreteren van scores

Er bestaan twee facetten aan de betekenis van testscores in psychotische metingen:

Om een individu zijn ruwe score te mogen interpreteren moet er:

Correlatie berekenen tussen paren van z-scores

De formule voor de z-score unit is:

Converted standard scores (gestandaardiseerde scores)

Converted scores zijn dus voornamelijk informatief.

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

De gestandaardiseerde score (𝑇𝑖 ) is dan:

𝑎𝑎𝑛𝑡𝑎𝑙 𝑑𝑎𝑡 𝑙𝑎𝑔𝑒 𝑠𝑐𝑜𝑜𝑟𝑑𝑒 𝑑𝑎𝑛 ℎ𝑒𝑡 𝑟𝑢𝑤𝑒 𝑠𝑐𝑜𝑟𝑒𝑠

Voorbeeld t.a.v. een histogram

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

Hoofdstuk 4: Test dimensionality and factor analyses

Drie vragen over dimensionaliteit:

De antwoorden op deze kernvragen leiden tot drie typen resultaten:

• Voor de implicaties voor scoring, evaluatie en gebruik geldt:

Gedownload door: isoldegroefsema | isoldegroefsema@gmail.com € 912 per jaar

2. Multidimensionele test met gecorreleerde dimensies (testen met hogere-orde factoren)