Professional Documents
Culture Documents
Isoldegroefsema Stuvia Testen en Meten Samenvatting Psychometrics An Introduction Furr 3de Editie
Isoldegroefsema Stuvia Testen en Meten Samenvatting Psychometrics An Introduction Furr 3de Editie
geschreven door
nsangers
www.stuvia.com
Testen en meten
Latente variabele: Om niet observeerbare variabelen te meten wordt gebruik gemaakt van processen
die gebaseerd zijn op observeerbare variabelen (dus: indirect meten).
Voorbeeld: Werkgeheugen (psychologische attributie) meten door
cijferreeksen te onthouden (digit spam).
Let op: Testen vergelijken niet alleen tussen mensen! De volgende twee vormen worden onderscheden:
1. Interindividuele verschillen: De test meet de verschillen tussen mensen.
2. Intra-individuele verschillen: De test meet of het gedrag van dezelfde individu op verschillende punten in
de tijd of onder verschillende condities valt te vergelijken.
Let op: Criterium scores zijn ook vaak genormeerd, omdat “cutoff” scores
ook niet volledig random bepaald worden, waardoor deze ook
gebaseerd is op een standaard of een verwacht niveau.
- Norm referenced: Vergelijken een persoon zijn testscore met een referentiekader of een norm
om te begrijpen hoe je de persoon kunt vergelijken met andere mensen (de
sample waarmee wordt vergeleken moet wel een representatieve sample
zijn).
• Meting:
- Speeded tests (snelheidstest): Testen met een tijdslimiet. Meestal kun je niet de hele test
afleggen.
- Power tests (krachttest): Geen tijdslimiet, alle vragen kunnen worden beantwoord.
Wat is psychometrie?
Psychometrie: Is de studie van metingen en procedures die gebruikt worden om variabiliteit in gedrag te
bestuderen en om deze metingen te verbinden met een psychologisch fenomeen.
▪ Galton is de stichter van de psychometrie en bedacht de normaalverdeling, correlatie,
coëfficiënt en sampling.
▪ Er wordt bijvoorbeeld gekeken naar: de type scores, de reabiliteit van scores of validiteit.
1. Belangrijke aspecten van bepaalde menselijke psychologische uitdagingen moeten als enkel worden
aangepakt (bv. zelfvertrouwen of intelligentie of angst e.d.).
2. Participant reactivity:
Mensen hebben kennis over dat ze geobserveerd worden en dit kan zorgen dat ze anders reageren dan
wanneer ze onbewust worden geobserveerd.
- Demand characteristics: Gedrag aanpassen om de onderzoeker te helpen.
- Social disrability: Proberen positieve indruk te maken op de testafnemer.
- Maligering: Slechte indruk willen achterlaten op de persoon die de test afneemt.
3. Obsevator biasen:
Mensen die gedragsdata meten brengen vertekeningen en verwachtingen mee bij hun taak die de
resultaten beïnvloeden.
4. Composite scores (samengevoegde scores):
Testen bevatten vragen die allen een aspect van een bepaald psychologisch attribuut meten. Uit deze
vragen komt dan een samengevoegde score naar voren die onder invloed staat van de kwaliteit van items.
5. Score sensitiviteit:
Vaardigheid van een meting om te discrimineren tussen betekenisvolle hoeveelheden van de dimensie die
gemeten worden (bv. meten dikte van een haar gaat niet met een liniaal).
→ Vaak is een onderzoeker zich bewust van welke sensitiviteitschaal gebruikt moet worden.
6. Gebrek aan bewustzijn van belangrijke psychometrische informatie. Er wordt vaak niet gekeken naar de
psychometrische kwaliteit van een test.
Hiervoor moet gebruik worden gemaakt van gedragsamples, waarin het gedrag dat wordt bestudeerd ook in
deze sample tussen mensen verschillen.
→ Als we denken dat een bepaalde gedragsamplingprocedure een meting is van een onobserveerbaar
psychologisch attribuut moeten we kunnen beargumenteren dat individuele verschillen op de
gedragsample gerelateerd zijn aan verschillen op relevante onderliggende psychologische attribuut.
Hoofdstuk 2: Scaling
Psychologische meting
Psychologische meting: Kunnen gezien worden als een proces waarbij nummers toegeschreven worden die
de kwaliteiten beschrijven van psychische attributies.
Meting Het toeschrijven van aantallen aan objecten of gebeurtenissen volgens regels.
Scaling De manier waarop numerieke waarden worden toegeschreven aan psychologische attributen
(welke schaal komt er uit een meetinstrument voor – scales of measurement)
Regels die gevolgd moeten worden bij het categoriseren van mensen:
o Alle mensen in een bepaalde categorie moeten identiek zijn; rekening houdend met het kenmerk
dat gereflecteerd wordt in deze categorie.
o Categorieën moeten mutually exclusive zijn: je kan maar in 1 van de twee categorieën komen.
o Categorieën moeten exhaustive zijn: Alle mensen moeten in een van de twee categorieën kunnen
vallen.
o Er wordt dan gebruik gemaakt van units of measurement – eenheden – (zoals 170 cm)
o Eenheden komen tot stand door conversie (bijvoorbeeld: 100 graden Celsius is de tempratuur
waarop water kookt en 0 graden Celsius de tempratuur waarop water bevriest).
o Nummers zijn continu: Op te delen in verschillende kleinere delen.
• De waarde 0:
1. Een absolute 0: 0 reflecteert een staat waarin een attribuut of object niet bestaat
(zoals 0 graden Kelvin; er bewegen geen deeltjes meer).
2. Een relatieve/willekeurige 0: Als willekeurige kwantiteit van een attribuut (zoals 0 graden Celsius,
want 0 is willekeurig, waarbij er meer of minder is dan 0).
Units of measurements
Bij psychologische metingen zijn de “units of measurements” (de eenheden) minder vanzelfsprekend.
Bijvoorbeeld: Zelfvertrouwen heeft geen specifieke eenheid, maar wordt bepaald door de schaal die een
onderzoeker heeft gekozen.
Willekeurigheid (de mate waarin de eenheid arbitrair is) is een belangrijk concept in het begrijpen van units of
measurement (eenheden), omdat het verschillende soorten eenheden onderscheid.
1. De eenheid grote is willekeurig gekozen.
→ In de psychologie zijn units vaak vooral op deze manier willekeurig.
→ Ze zijn willekeurig in grote, maar gebonden aan specifieke objecten of dimensies. (bv.
intelligentie is altijd vast aan IQ en meet je altijd op een mens).
→ Uitzonderingen is de reactietijd.
Additiviteit en tellen
Additiviteit: Wanneer iets wordt gemeten moet de meetschaal constant zijn (elke keer dat je met een
centimeterlat lengte meet, komt hetzelfde resultaat). Als dit niet het geval is klopt je
meetschaal niet.
Oftewel: De unitgrootte die je kiest mag niet veranderen, ook niet als de condities
van de meting veranderen.
Let op voor:
• Paradox: Er kan niet zomaar een numerieke hoeveelheid aan een psychologisch attribuut worden
gehangen (vaak is deze enkel afhankelijk van de gehanteerde meetschaal). We weten de
werkelijke waardes die bestaan vaak niet.
• Counts: Niet alle vormen van tellen kwalificeren bijvoorbeeld als vormen van meting.
Voorbeeld: Het tellen van hoeveelheden van een bepaald kenmerk of attribuut van een
object is meten (bijv. een testafname), maar puur tellen van een aantal van
een object is niet meten, maar enkel tellen (bijv. vorken op tafel).
Meetschalen
Grofweg bestaat het volgende onderscheid wanneer men het heeft over meetschalen:
Nominaal Ordinaal Interval Ratio
Kenmerk identiteit X X X X
Kenmerk order X X X
Kenmerk kwantiteit X X
Absolute 0 X
1. Nominaal:
- Geeft labels voor een categorische indeling (bijvoorbeeld: man – vrouw).
- Labels worden gebruikt groepen te identificeren.
- Let op het doel: Tonen ze groepsverschillen aan of zijn ze enkel labels?
2. Ordinaal:
- Geeft een numerieke ordening door het produceren van ranks (zoals: Likertschaal).
- Labels geven de relatieve positie van mensen over de niveaus die worden gemeten.
3. Interval:
- Scores geven numerieke hoeveelheden.
- Geen absoluut 0 punt.
- De score is constant en optellend, maar kan niet door alle dimensies worden gebruikt (uitzondering:
gemiddelde, standaarddeviaties en omrekenen naar andere eenheden).
4. Ratio schalen:
- Scores geven nummerke hoeveelheden.
- Wel absolute 0 punt.
- De score kan vertaald worden naar meerdere dimensies.
Variabiliteit 𝑆𝑋 = √𝑝 (1 − 𝑃)
∑𝑛𝑖=1(𝑥𝑖 − 𝑥̅ )2
• Standaarddeviatie: 𝑆𝑥 = √
- Spreidingsmaat. 𝑛
- Verwachte afstand tot een gemiddelde.
- Let op: niet n delen door n-1
Afwijkscore
• Deviatie 𝑥𝑖 = 𝑥 − 𝑥̅
- Geeft de afwijking van groepsgemiddelden op de
originele schaal.
- Of iemand boven of onder gemiddeld scoort.
- Gemiddelde deviantscore is altijd 0.
Standaardscores
• Z-scores: 𝑥 − 𝑥̅
𝑍𝑖 =
- Geeft de afwijking van het groepsgemiddelde in aantal 𝑆
standaarddeviaties.
- Veel gebruikte en innovatieve maat.
- Gemiddelde is altijd 0 en de standaarddeviatie 1
Voorbeeld
Rekenen met de statistische kernbegrippen wordt vaak gedaan vanuit een weergave in tabelvorm:
De aard van variabiliteit: Het berekenen van verschillen in mensen hun psychologische attributen (door
standaarddeviatie en variantie). De aanname is dat mensen niveauverschillen
hebben op een hypothetisch construct en daarmee dus verschillen op testscores
Er zijn twee verschillen die gemeten kunnen worden:
1. Interindividuele verschillen: Verschillen tussen mensen.
2. Intra-individuele verschillen: Verschillen die in één persoon opreden over de lange tijd of verschillende
condities.
Skewed (niet normaal verdeeld): Echte data zijn nooit echt normaal verdeeld. Daardoor wordt de
normaalverdeling vooral gebuikt om scores te kunnen interpreteren.
Let op: Covariantie geeft geen informatie over de grootte van de associatie tussen twee
factoren. 2 factoren beïnvloeden dit nog:
1. Sterkte van de associatie: Hoge waarde van covariatie reflecteren in sterke
associaties.
2. Metriek van de twee variabelen: Covariantie tussen twee grote variabele is groter dan
tussen kleine variabelen.
2. Correlatie
𝐶𝑥𝑦
Correlatie: 𝑟𝑥𝑦 = Er geldt:
𝑆𝑥 𝑆𝑦
0 < 𝑟𝑥𝑦 ≤ 1 Positieve relatie
Waarbij: −1 ≤ 𝑟𝑥𝑦 < 0 Negatieve relatie
𝐶𝑥𝑦 De covariantie 𝑟𝑥𝑦 = 0 Geen relatie
𝑆𝑥 De standaarddeviatie van x
𝑆𝑦 De standaarddeviatie van y
Er geldt:
• Correlatie is een maat die in testen wordt geïnterpreteerd.
• Covariantie wordt enkel gebruikt om mee te rekenen.
Voorbeeld
𝐶𝑥𝑦 4,4
Correlatie: 𝑟𝑥𝑦 = = = .68 𝑑𝑢𝑠: 0 < 𝑟𝑥𝑦 ≤ 1 (positieve relatie)
𝑆𝑥 𝑆𝑦 3 × 2,6
3. Variantie-covariantiematrix
Wordt georganiseerd op een specifieke manier:
• Diagonale elementen (rood) lopen altijd van linksboven naar rechtsonder en hebben betrekking op
dezelfde variabele.
→ Varianties (spreidingsmaat)
→ De wortel (√) van de variantie geeft de standaarddeviatie.
• Buiten diagonale elementen (blauw). Die diagonaal is opgeteld altijd 1.
→ Covarianties (wat mensen gemiddelde bijdragen aan de lineaire samenhang)
Voorbeeld
Voorbeeld:
Bepaald de variantie op de samengestelde score voor variantie op item 1 en item 2
Item 1 Item 2 Item 3 Item 4
Item 1 0,25 0,20 0,15 0,10
Item 2 0,20 0,24 0,10 0,12
Item 3 0,15 0,10 0,21 0,05
Item 4 0,10 0,12 0,05 0,09
Stel je hebt twee composite scores met overeenstemmende comprimerende items i en j en ook twee
overeenstemmende comprimerende items k en l.
Covariantie Composite 1 item i item j
Composite 2
item k 𝐶𝑖𝑘 𝐶𝑗𝑘
item l 𝐶𝑖𝑙 𝐶𝑗𝑙
Voorbeeld
Bepaald de variantie op de samengestelde score voor variantie op compositie 1 (item 1 en item 2) en
compositie 2 (item 3 en 4)
Het interpretatieve frame van referentie is gebaseerd op twee belangrijke punten van informatie over
testscores in relatie tot een verdeling van testscores:
1. Of de ruwe score boven of onder de gemiddelde van de gehele bevolking valt.
2. Interpreteren van testscores door de variabiliteit binnen een distributie van een testscore te bekijken (hoe
ver boven of hoe ver onder het gemiddelde ligt iets).
Nadelen van z-scores: Voor respondenten vallen de testscores in z-waarden moeilijk te begrijpen (bijv.
doordat het IQ wordt uitgedrukt in 1.24 of dat het zelfvertrouwen een negatieve z-
score heeft).
Voordeel van z-scores: Kan langs verschillende units (verschillende vragen) gebruikt worden, aangezien alle
antwoorden worden getransformeerd in een z-score (aantal standaarddeviaties van
het gemiddelde).
Door dit voordeel kunnen correlatie worden geuit in de consistentie van individuele scores.
→ Doorgaans is het moeilijk om twee zaken te vergelijken, omdat ze in een andere metrieke unit staan.
→ Schrijf je alles naar Z-scores dan kun je beter vergelijken.
Bijvoorbeeld:
De MMPI-2 Schaal gebruikt gestandaardiseerde scores, zodat elke schaal een gemiddelde heeft van 50 en een
SD van 10. De test geeft een z-score van 1,5. Om te zorgen dat deze beter herleid kunnen worden moeten hier
converted scores worden opgesteld.
𝑇𝑖 = 1,5 (10) + 50 = 65
Dus: De T-score 65 correspondeert bij de SD van 1,5 die de test oorspronkelijk zou weergeven.
Percentiele ranks
Percentiele ranks: Geven het percentage van een score aan dat onder een specifiek testscore ligt.
Er bestaan twee manieren om een percentiele rank op een individuele score te bepalen:
1. Identificeren van het exacte nummer van de ruwe scores in de verdeling die lager zijn dan de ruwe scores
van het individu en dit delen door het totale aantal scores in de distributie
Voorbeeld
Iemand haalt een ruwe score van 194 op een test waaraan 75 mensen meededen en 52 mensen lager
scoorde dan 194. Wat is het percentiele rank?
52
𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑒𝑙 (𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑎𝑔𝑒) = × 100 = 69% 69ste percentiel.
75
2. Berekenen van de z-score voor het individu en link deze aan een percentiel. Als we kunnen aannemen dat
individuele verschillen op het psychologische attribuut normaal verdeeld zijn, kunnen we een
standaardnormaalverdeling opstellen. Specifieke scores kunnen dan gelinkt worden aan de score.
𝑥− 𝑥̅
1. Bepaald de z-score 𝑍𝑖 = 𝑆
2. Lijdt de proportie af de tabellen (blz. 44 en 45).
Genormaliseerde score
Genormaliseerde scores worden gebruikt om niet-normaal verdeelde scores om te zetten in wel normaal
verdeelde scores door een truc die is toegepast op de z-waardes.
Dus: Genormaliseerde scores lijken normaal verdeeld, maar zijn dit in werkelijkheid dus niet. Het wordt
puur gedaan om makkelijker met de scores te kunnen rekenen.
10
Testdimensionaliteit
Wanneer een psychologische test een soort “nummer” weergeeft willen we denken dat dat nummer een
waarde is die enkel dat psychologische kenmerk representeert.
→ We meten vaak 1 enkel attribuut van een object of een persoon wanneer we naar fysieke of
psychologische attributies kijken.
Composite scores: Scores op psychologische testen zijn gebaseerd op meerdere vragen of test-items. Ze
worden vaak gescoord door een combinatie van deze items.
Echter: Een test kan één item bevatten die op meer dan 1 dimensie reflecteert.
Deze 3 fundamentele psychometrische vragen over de dimensionaliteit van een test en de antwoorden op deze
vragen zijn belangrijk voor het evalueren van de psychometrische test.
1. Voor het bepalen van de kenmerken van de gedragstest.
2. Voor het accuraat scoren van een test.
3. Voor een goede interpretatie van een test.
1. Undimensionale testen
Undimensionaliteit: De psychologische testitems reflecteren enkel op 1 attribuut van een persoon.
Erg geldt:
• Testitems of -vragen hebben een conceptuele homogeniteit:
Reacties op elk item zijn een functie van hetzelfde psychologische attribuut.
• De betrouwbaarheid en validiteit moeten geschat en geëvalueerd worden voor de totale score van de test.
11
Multidimensionaliteit: De psychologische test bevat items die naar meer dan 1 attribuut reflecteren.
Gecorreleerde items: De psychologische test bevat meerdere items die met elkaar geassocieerd zijn
(voorbeeld: WISC-4: Alle subschalen meten een ander facet van intelligentie).
• Voor de kwaliteit geldt dat elke subtest op zich psychometrisch getest zou moeten worden op kwaliteit.
Ook de totale score van de correlerende dimensies moet worden berekend.
Factoranalyse
Om testdimensies te gebruiken en interpreteren, moeten testontwikkelaars en evaluatoren onderzoek
uitvoeren dat het psychologische attribuut toont die gerepresenteerd wordt door elke testdimensie.
→ Een factoranalyse is hierbij helpend.
12
- Maximum: Hetzelfde als het aantal items dat er is (elk item reflecteert naar een eigen dimensie)
13
Hieruit komen een aantal subjectieve richtlijnen die gebruikt kunnen worden:
1. Vind het hoogste verschil in eigenwaarde (“eigenvalue”)
▪ De waardes moeten weergegeven worden in een oplopende factor in een tabel.
▪ Het nummer van factors die kunnen worden geïdentificeerd staat gelijk aan de rijen met de
hogere eigenwaardes dan de twee rijen met de grootste verschillen.
Dus: In dit geval zijn er twee factoren (dimensies)
(want, je hebt het verschil (1) + 1 factor hoger dan de twee rijen met het grootste verschil).
3. Vind een leveling-off-point (drop - relatief groot verschil) in een spreidingsdiagram van de
eigenwaardes (meest accuraat).
14
3. Stap 3: factorrotatie
Het wel of niet moeten toepassen van deze stap hangt af van wat er gebeurd is bij stap 2:
• Er zijn twee of meer factoren geïdentificeerd Doe stap 3
• Er is één factor geïdentificeerd. Sla stap 3 over
Voorbeeld
De standaard weergave: Een grafische weergave van de mogelijke correlaties (hier tussen de items factor 1
en 2):
- De punten geven de items en waartoe ze mogelijk correleren (de 3 punten rechtsboven correleren het
best met factor 2, maar lijken ook enigszins met factor 1 te correleren).
- Hieruit komen de correlaties nog niet duidelijk naar voren.
15
- Richting:
o Positief: Een hoge geobserveerde score op een item is geassocieerd met een hoog
level op de factor.
o Negatief: Een hoge geobserveerde score op een item is geassocieerd met een laag
level op de factor.
Simpele structuur: Elk item heeft alleen een waarde op één factor en niet op de andere (op de
andere factor is de lading 0 of hier bijna gelijk aan).
16
Voor de correlaties tussen factoren kunnen wederom twee dingen worden bekeken:
- Grootte: Geeft de mate waarin twee factoren met elkaar zijn geassocieerd.
- Directie:
o Positief: Een hoge geobserveerde score op het ene factor is geassocieerd met een
hoog level op de factor.
o Negatief: Een hoge geobserveerde score op een ene factor is geassocieerd met een
laag level op de factor.
Een redelijke sterke associatie tussen de twee Bijna geen associatie tussen de twee factoren
factoren
17
Hoofdstuk 5: Reability
Betrouwbaarheid
Een psychologische test is pas echt bruikbaar wanneer het echte psychologische verschillen toont.
Betrouwbaarheid: Psychologische testen reflecteren altijd de vaardigheid om echte psychologische
verschillen op een accurate manier te tonen.
Classic test theory (CTT): Een test zijn betrouwbaarheid reflecteert de mate waarin de verschillen in de scores
van de respondenten een functie zijn van hun echte psychologische verschillen.
Voorbeeld
Ashley en Bob doen een test voor zelfvertrouwen.
• Ashley heeft net voor de test een onvoldoende gehaald voor haar tentamen.
• Bob heeft net voor de test een voldoende gehaald voor zijn tentamen.
Er geld dan:
Ashley Haar waargenomen score (observed score) op de test is waarschijnlijk lager dan haar
werkelijke score (true score) zou zijn, omdat zij negatief is beïnvloed door haar onvoldoende.
De onvoldoende vormt dan een fout (error), waardoor haar score lager uitvalt.
Bob Zijn waargenome score (observed score) op de test is waarschijnlijk hoger dan zijn werkelijke
score (true score) zou zijn, omdat hij positief is beïnvloed door zijn voldoende op de test. De
voldoende is daarmee dan de fout (error), waardoor zijn score hoger uitvalt.
De regel die gehanteerd kan worden om een werkelijke score te bepalen is dus:
𝑋0 = 𝑋𝑡 + 𝑋𝑒
Waarbij:
𝑋0 De geobserveerde score
𝑋𝑡 De werkelijke score
𝑋𝑒 De error
18
• De variantie is instaat aan te tonen in welke mate een error verschillende mensen beïnvloed op
verschillende manieren.
• Een hogere mate van errorvariantie indiceert een slechtere meting.
→ De variantie in error moet voor iedereen ongeveer gelijk zijn.
De totale variantie van de geobserveerde scores van een groep individuen is gelijk aan de som van de
werkelijke scores variantie en error score variantie:
𝑆02 = 𝑆𝑡2 + 𝑆𝑒2
Let op: Je telt hier niet de correlatie tussen de error scores en werkelijke scores bij elkaar op (zoals bij de
variantie van composite scores), omdat de correlatie hiertussen altijd 0 is, want de error is
onafhankelijk van werkelijke score.
De vier manieren van denken over betrouwbaarheid onderscheiden zich langs twee wegen:
1. Statistische basis: Of de betrouwbaarheid valt conceptualiseren als proportie van variantie of als
correlatie.
2. Conceptuele basis: Of de aanpak van betrouwbaarheid wordt bekeken vanuit geobserveerde scores of
vanuit measurement error.
19
Conceptuele basis:
Betrouwbaarheid in relatie tot…
Werkelijke (true) scores Meassurement error
Statistische basis: Proportie van De betrouwbaarheid als een ratio Ontbreken van error variantie
variantie van werkelijke scores tot
geobserveerde scores.
𝑆𝑡2 𝑆𝑒2
𝑅𝑋𝑋 = 𝑅𝑋𝑋 = 1 −
𝑆𝑜2 𝑆𝑜2
2 2
𝑅𝑋𝑋 = 𝑟𝑜𝑡 𝑅𝑋𝑋 = 1 − 𝑟𝑜𝑒
1. De betrouwbaarheid als een ratio van werkelijke scores tot geobserveerde scores.
Wordt als meest gebruikt om de betrouwbaarheid in uit te drukken.
𝑆𝑡2
𝑅𝑋𝑋 = 𝑆𝑜2
𝑅𝑋𝑋 : Betrouwbaarheidscoëfficiënt.
𝑆𝑡2 : Variantie van de werkelijke (true) score.
𝑆𝑜2 : Variantie van de geobserveerde (observed) score.
Voorbeeld
𝑆𝑒2
𝑅𝑋𝑋 = 1 − 𝑆02
De betrouwbaarheid is groter wanneer de proportie van de error klein is, want errors beïnvloeden
personen dan op dezelfde manier.
20
Omdat betrouwbaarheid verteld hoe de verschillen van geobserveerde scores consistent zijn met
verschillen in werkelijke scores, kun je de correlaties zien als een squared correlatie tussen geobserveerde
scores en werkelijke scores.
→ De correlatie wordt dan vaak de index van betrouwbaarheid genoemd.
2
𝑅𝑋𝑋 = 𝑟𝑜𝑡
2
𝑟𝑜𝑡 : De gekwadrateerde correlatie tussen de geobserveerde score en de werkelijke score.
𝐶𝑜𝑡 ∑(𝑥𝑜 − ̅̅
𝑋̅̅
0 )(𝑋𝑡 − 𝑥̅ 𝑡 )
𝑟𝑥𝑦 = waarbij 𝐶𝑜𝑡 =
𝑆𝑜 𝑆𝑡 𝑛
Voorbeeld
4. Het ontbreken van een correlatie van de geobserveerde score met de error.
Een test is onbetrouwbaar als de mate van verschillende geobserveerde scores verschillen in de effecten
van de error.
2 ∑(𝑥𝑜 − ̅̅
𝑋̅̅
0 )(𝑋𝑒 − 𝑥̅ 𝑒 )
𝑅𝑋𝑋 = 1 − 𝑟𝑜𝑒 waarbij 𝐶𝑜𝑡 =
𝑛
Wanneer de correlatie tussen de geobserveerde score en error wordt, neemt de waarde voor 𝑅𝑋𝑋 af en
wordt de betrouwbaarheid dus minder.
𝑆𝐸𝑚 = 𝑆0 √1 − 𝑅𝑋𝑋
𝑆𝐸𝑚 : Standard error of measurement
𝑆0 : Standaarddeviatie van de geobserveerde variabele.
𝑅𝑋𝑋 : Betrouwbaarheidscoëfficiënt.
Hoe groter, hoe groter de verschillen tussen de geobserveerde score en de
werkelijke score dus hoe minder betrouwbaar de test.
21
Parralel testen
Meestal weten we niet wat de werkelijke score is en de error die hieraan is gerelateerd.
Oplossing: Klassiek testtheoristen stellen dat dan twee psychologische testen gereconstrueerd kunnen
worden op een manier dat ze parallel zijn aan elkaar.
Domain sampling
Domain sampling: Items op een bepaalde test representeren een sample van een groot oneindig
nummer van potentiële testitems.
Er geldt: Correlatie tussen twee parallel testen is precies gelijk aan de betrouwbaarheid van testscores.
Echter: We kunnen er nooit geheel zeker van zijn of de scores op verschillende testvormen
precies over hetzelfde psychologische attribuut gaan.
Of te wel: We weten niet of de werkelijke scores tussen twee testen exact
hetzelfde zijn.
Carryover of contanimation effecten: Het maken van test 1 heeft effecten over hoe goed iemand
presteert op test 2.
22
2. Errorvariantie van de eerste test moet gelijke zijn aan die van de tweede test.
Dus: Er moeten twee testsituaties worden gecreëerd die ongeveer gelijk zijn.
Wanneer de werkelijke scores gelijk blijft, reflecteert de correlatie tussen de test en de her-test de mate waarin
errorscores de geobserveerde scores beïnvloeden (hoe lager de correlatie, hoe meer effect van de error).
Probleem hierbij: We weten nooit de mate waarin werkelijke scores wel of niet veranderen.
Bij verschil in werkelijke score: De correlatie toont twee onafhankelijke factoren.
1. Mate waarin de error de test beïnvloed.
2. Hoeveelheid verandering in werkelijke score.
Deze kun je dan niet van elkaar scheiden.
De Spearman-Brown formule:
2𝑟
𝑅𝑋𝑋 = 1+ 𝑟ℎℎ
ℎℎ
𝑅𝑥𝑥 : De betrouwbaarheidscoëfficiënt.
𝑟ℎℎ : De split-half coëfficiënt
` Te berekenen door: Uitrekenen van de correlatie tussen de ene kolom
subsetscores en de andere kolomsubsetscores
23
Voorbeeld
1. Creëer twee subsetscores (bijvoorbeeld: even en oneven vragen).
2(0.276)
𝑅𝑋𝑋 = 1+ 0.276
= .4333
Let op: De split-half coëfficiënt wordt maar weinig gebruikt omdat er niet één manier is om een test
handig in te delen.
• Bij “power tests” verschillen de vragen daarbij ook nog eens in moeilijkheid
• Bij “speeded tests” zou de helftdeling bijna zorgen voor een perfecte betrouwbaarheid
van 1.
Voor SPSS geldt: Er kan een “Reliability Analysis” gemaakt kan worden via een drop-down-
menu. De split half coëfficiënten worden bepaald door:
▪ De “Correlation Between Forms”
▪ De “Spearman-Brown Coefficient”
2. De informatie over het item-niveau en/of het testniveau wordt in een speciale vergelijking
ingevuld om de betrouwbaarheid te schatten.
24
Voorbeeld
We gebruiken de dataset die al bekend is:
2. De informatie over het item-niveau en/of het testniveau wordt in een speciale vergelijking
ingevuld om de betrouwbaarheid te schatten.
• Voor ∑ 𝐶𝑖𝑖′ geldt dat dit de sommatie is van alle covarianties dus 4,76
• Voor 𝑘 geldt het aantal testscores is 4
𝑘 ∑ 𝐶𝑖𝑖′
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (𝑘−1) ( )
𝑆𝑥2
4 4,76
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (4−1) (10,1875) = (1,3333)(4,663) = .62
Let op: Een vergelijkbare manier om tot de Cronbachs Alpha te komen wordt gevonden met de
volgende formule:
𝑘 ∑ 𝑆𝑖2
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (𝑘−1) (1 − )
𝑆𝑥2
4 5,4375
𝛼 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = ( ) (1 − ) = (1,3333)(1 − 5,337) = .62
4−1 10,1875
25
Als een formule binominaal (dichotoom) is dan wordt voor de ruwe alpha de volgende formule
gebruikt:
𝑘 ∑ 𝑝𝑞
𝐾𝑅 − 20 = 𝑣𝑒𝑟𝑤𝑎𝑐ℎ𝑡𝑒 𝑅𝑋𝑋 = (𝑘−1) (1 − )
𝑆𝑥2
𝑟̅̅̅:
𝑖𝑖′ De gemiddelde correlatie tussen twee items
𝑘: Het aantal items op een test
Voorbeeld
We gebruiken de dataset die al bekend is:
26
• Bereken de gemiddelde van die correlaties (mate waarin reacties op ieder item consistent zijn
met elkaar).
0+ .52+0+0+ .52+.73
𝑟𝑖𝑖′ =
̅̅̅ = .295
6
4 (.295)
𝑅𝑋𝑋 = = .63
1+(4−1).295
Assumptie van gelijke errorvariantie hoeft niet per se te worden voldaan. Daarom is de Cronbachs Alpha
accuraatst van alle schatters.
→ Als testitems niet essentially tau equivalent (parallel) zijn geeft alpha nog steeds een goed resultaat.
2. Factor 2: Een langere test is meer betrouwbaar dan een korte test.
Er geldt: Bij een langere test verhogen de variantie van werkelijke scores sneller dan
error scores, waardoor betrouwbaarheid toeneemt.
De formule die gebruikt kan worden om verschillende lengtes en betrouwbaarheden te
schatten is de volgende:
𝑛 𝑅𝑥𝑥, 𝑜𝑟𝑖𝑔𝑖𝑛𝑒𝑒𝑙
𝑅𝑋𝑋, ℎ𝑒𝑟𝑧𝑖𝑒𝑛 = 1+(𝑛−1)𝑅𝑥𝑥, 𝑜𝑟𝑔𝑖𝑛𝑒𝑒𝑙
27
Waarbij:
𝑛: De factor is waarmee de test wordt verlengd of verkleind.
𝑅𝑋𝑋, ℎ𝑒𝑟𝑧𝑖𝑒𝑛 De nieuwe betrouwbaarheidscoëfficiënt als de test wordt vergroot of
verkleind.
Voorbeeld
Alles wat zorgt voor betere werkelijke score meer stijgt dan de errorscore doet de
betrouwbaarheid ook stijgen.
Y= De initiële score
X= De uiteindelijke score.
Om twee scores goed met elkaar te kunnen vergelijken is er verschillende informatie nodig:
1. De verwachte betrouwbaarheidsscore van de initiële test (Y) en de uiteindelijke score (X).
𝑅𝑋𝑋 en 𝑅𝑦𝑦
28
Met deze gegevens kan de betrouwbaarheid tussen verschillende (differend) scores weergegeven worden door
de volgende formule:
𝑆𝑥2 𝑅𝑋𝑋 + 𝑆𝑦2 𝑅𝑦𝑦 −2𝑟𝑥𝑦 𝑆𝑥 𝑆𝑦
𝑅𝑑 = 𝑆 2 + 𝑆 2 − 2𝑟 𝑆 𝑆
𝑥 𝑦 𝑥𝑦 𝑥 𝑦
Voorbeeld
𝑆𝑥2 = 1.25
𝑆𝑦2 = 6.25
𝑆𝑥 = √1.25
𝑆𝑦 = √6.25
Invullen geeft:
29
30
Met de standaardfout kan het betrouwbaarheidsinterval worden berekend rondom de geobserveerde score:
𝑋𝑜 ± 𝑍 × 𝑆𝐸𝑚
Vergelijken binnen de gedragswetenschappen
Om de associaties tussen twee metingen te meten worden volgende manieren gebruikt binnen de
gedragswetenschappen:
Wanneer hieruit komt dat de correlatie tussen de metingen kleiner is dan de correlatie tussen de twee
constructen, toont dit een measurement error.
2. Een error (lage betrouwbaarheid) schat de werkelijke en geobserveerde waarde tussen metingen
De discrepantie tussen geobserveerde associaties en werkelijke associatie reflecteert vier belangrijke
implicaties:
1. Geobserveerde associaties zullen zwakker zijn dan werkelijke associaties (er is altijd een meetfout).
2. De mate van verzwakking wordt bepaald door de betrouwbaarheid van de meting.
Hoe slechter de meting, hoe groter de verzwakking.
3. Error legt een grens van een maximum associatie die behaald zou worden tussen twee metingen.
4. Het is moeilijk de werkelijke associatie tussen constructen te schatten.
Correction for attenuation: Een formule die gebruikt wordt om een correlatie te schatten die bereikt
zou worden als deze niet wordt beïnvloed door een verzwakking:
𝑟
𝑟𝑥𝑡𝑦𝑡 = 𝑅 𝑥𝑜𝑦𝑜𝑅
√ 𝑋𝑋 𝑦𝑦
31
Met de Cohens d kunnen de verschillen tussen groepen worden aangetoond in hoeveel standaarddeviaties
voor de afhankelijke variabele in gemiddelde van elkaar af liggen.
̅̅̅̅̅
𝑋𝑜1 : Gemiddelde voor 1
̅̅̅̅̅
𝑋𝑜2 : Gemiddelde voor 2
2
𝑆𝑜1 : Variantie 1
2
𝑆𝑜2 : Variantie 2
De laagste score is 0 (geen verschil in gemiddelden tussen groepen) tot oneindig, waarbij hogere waarden
reflecteren naar meer verschillen.
Betrouwbaarheid heeft invloed op effectgrootte. Hogere betrouwbaarheid produceert betere schattingen van
werkelijke effectgrootte.
𝐷𝑥0 = 𝐷𝑥𝑡 √𝑅𝑋𝑋
● Statistische significantie
- Wanneer een resultaat statistisch significant is, kun je de echte bevinding zien.
- Statistische significantie wordt beïnvloed door de grootte van de geobserveerde effecten in de studie
(correlatie of Cohens d).
- Grotere geobserveerde omvang maakt het waarschijnlijker dat het ook statistisch significant is.
Testconstructie en verbeteringen
Betrouwbaarheid is een belangrijk facet voor de testconstructie en verfijning. Itemformatie speelt hierin een
belangrijke rol d.m.v. interne consistentie door: test lengte en consistentie op de test.
Er geldt:
Hoge correlatie: Items zijn consistent met de test als geheel.
32
𝐷 = 𝑃ℎ𝑜𝑜𝑔 − 𝑃𝑙𝑎𝑎𝑔
● Itemgemiddelde en variantie
- Zijn belangrijke factoren die bijdragen van het item aan de kwaliteit van de test omschrijven.
- Kunnen gerelateerd zijn aan de mate waarin een item consistent is met andere items op een test.
- Als een waarde geen variabiliteit heeft zou deze niet gecorreleerd zijn aan andere variabele.
- Items die minder variabiliteit hebben zijn minder waarschijnlijk correlatie te hebben.
- Weinig variabiliteit (dus elke respondent antwoord hetzelfde) geeft lage betrouwbaarheid.
- Het gemiddelde van een item wordt soms gezien als de moeilijkheid van dat item.
33