Hoofdstuk 1

STATISTIEK 2
Introductie
Tim Vanhoomissen
WAAROM STATISTIEK?
Stel:
Het nuttigen van een sportdrank zorgt voor 4% meer tevredenheid in

bed dan het nuttigen van een pepdrank.
Welk drankje kies je bij de volgende gelegenheid?
Er is een interactie-effect: bij dames leidt de sportdrank tot 30%

meer tevredenheid, terwijl bij heren net de pepdrank zorgt voor
meer tevredenheid. Omdat het effect bij dames groter is, is er
een overall effect van sportdrank.*
Statistische kennis vermijdt té snelle en té simpele conclusies!
*De voorbeelden in deze cursus berusten niet altijd op vaststaande feiten
Introductie & hoofdstuk 1

2
STATISTIEK 1 IN VOGELVLUCHT
(zie Inleiding in de statistiek voor de
gedragswetenschappen, Valkeneers &
Vanhoomissen)
ZIE VALKENEERS & VANHOOMISSEN (2012)
Variabelen operationaliseren en meten

• operationaliseren = variabelen meetbaar maken
• variabelen:
− continu of discreet
− meetniveau: nominaal, ordinaal, interval, ratio
− onafhankelijk / afhankelijk
• 2 voorwaarden voor meten:

− validiteit (meet de test wat we willen meten?)
− betrouwbaarheid (hoe goed meet de test wat we willen meten?)
•Introductie & hoofdstuk 1

4
Steekproeven
= het deel van de populatie dat wordt onderzocht, wanneer de
populatie te groot is om helemaal te onderzoeken
-> doel van de inductieve statistiek: verantwoorde uitspraken doen over

de populatie aan de hand van een steekproef
We willen wél uitspraken doen over de gehele populatie, dus de

steekproef moet een goede afspiegeling zijn van de populatie.
Onderzoek doen bij depressieve patiënten uit het UZA om

uitspraken te doen over depressieven in het algemeen. Goede
steekproef?

5
Soorten steekproeven
Aselecte steekproeven
1. Aselecte steekproef
2. Gestratificeerde steekproef
3. Clustersteekproef
Niet-aselecte steekproeven
1. Sneeuwbalsteekproef
2. Gelegenheidssteekproef
3. Quotasteekproef

6
1. Aselecte steekproef
= elk element van de populatie een gelijke kans geven om in de

steekproef te worden opgenomen
Uit de lijst van alle Vlaamse leerlingen SO randomgewijs 2000

leerlingen selecteren om het gemiddelde IQ van Vlaamse
leerlingen SO na te gaan.
Nadeel: niet altijd representatief!

7
= alle deelpopulaties evenredig aan bod laten komen in de steekproeftrekking.
Eerst percentages nagaan van ASO, TSO en BSO leerlingen, en daarna uit
elke deelpopulatie een aselecte steekproef trekken zodat de
percentages in de steekproef dezelfde zijn als in de populatie.
populatie steekproef
ASO 60% 1200 (60%)
TSO 30% 600 (30%)
BSO 10% 200 (10%)
N = 100% n = 2000 (100%)

8
Voordeel: wel mogelijk om representativiteit te bereiken (als de steekproef

goed wordt samengesteld)
Kijkcijfers: panel van 1500 gezinnen, samengesteld zodat ze de totale

Belgische bevolking representeren.

9
3. Clustersteekproef
= populatie verdelen in gelijkaardige clusters en daarna aselecte

steekproef trekken uit deze clusters. Vervolgens binnen elke
geselecteerde cluster een aselecte steekproef trekken.
De populatie leerlingen verdelen in clusters volgens provincie.

Aselect 3 provincies trekken. Elke provincie verdelen in clusters
volgens school en 4 scholen aselect trekken. Ten slotte binnen
elke geselecteerde school een aselecte steekproef van 40
leerlingen trekken.
Voordeel: spaart kosten en tijd

Nadeel: minder nauwkeurig, minder representatief

10
Andere soorten steekproeven (niet-aselecte steekproeven)
1. Sneeuwbalsteekproef
Onderzoeker vertrekt van één respondent aan wie vervolgens gevraagd
wordt andere respondenten te contacteren
Voordeel: mensen die moeilijk bereikbaar zijn worden makkelijker
bereikt
Nadeel: kans is groot dat mensen sterk op elkaar lijken
2. Gelegenheidssteekproef
Keuze van respondenten wordt overgelaten aan ondervrager (nl.
mensen die men makkelijk kan vinden) Vb. 1e jaars psychologie, op
straat
Voordeel: goedkoop, snel
Nadeel: niet geschikt voor populatieschattingen

11
Andere soorten steekproeven (niet-aselecte steekproeven)
3. Quotasteekproef
Onderzoeker bepaalt kenmerken van de populatie die men ook wil zien
in steekproef (bv. verdeling jongens/meisjes).
Onderzoeker zorgt ervoor dat hij aan dat aantal komt (= quotum). Hoe
hij aan dat aantal komt is niet belangrijk (bv. via
gelegenheidssteekproef).
Niet-aselecte steekproeven: niet altijd geschikt voor inductieve

statistiek!

12
Frequentieverdelingen
= eerste verkenning van de data
verschillende frequenties:
− absolute frequenties
− relatieve frequenties
− absolute cumulatieve frequenties
− cumulatieve percentages
verschillende visuele vormen:

− taartdiagram (nominaal)
− staafdiagram (nominaal, ordinaal)
− histogram (interval)
percentielscores: plaats van een score in het geheel

13
Centrummaten
• modus – waarde die het meest voorkomt
• mediaan – middelste waarde bij gerangschikte waarnemingen
• gemiddelde – som van waarden gedeeld door aantal waarnemingen
• bij symmetrische verdeling:

modus = mediaan = gemiddelde
• mediaan minder gevoelig voor extreme waarden

• gemiddelde consistenter over verschillende steekproeven

14
Spreidingsmaten
• hoe ver liggen de scores uit elkaar?
• variatiebreedte (verschil tss grootste en kleinste)

• interkwartielafstand (P75 – P25)
• variantie
• standaarddeviatie
• standaardscores (Z-scores): X-X

Zx =
SX

15
De normale verdeling
• geobserveerde gegevens die passen in theoretische verdeling
(model) bieden meer mogelijkheden voor verwerking.
• veelgebruikt model: normale verdeling
• geeft de kans op het voorkomen van een bepaalde waarde
0,5
0,4
Probability Density
0,3
0,2
0,1
0
-4 -3 -2 -1 0 1 2 3 4

16
De normale verdeling
• normale verdelingen verschillen enkel in gemiddelde en
standaarddeviatie. De curve is altijd klokvormig en symmetrisch.
• dankzij dit specifieke model kunnen gemakkelijk observaties
afgeleid worden:
0,3
0,25
Probability Density
0,2
0,15
0,1
0,05 6,43%
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

17
Transformaties van verdelingen

• waarom? niet alle data zijn normaal verdeeld, en om makkelijk
berekeningen te maken is het nuttig om een verdeling te
transformeren zodat ze de normale verdeling benadert.
Histogram
45
40
Absolute Frequenties
35
30
25
20
15
10
5
0
0 20 40 60 80
Metingen X

18

Vormkenmerken van een verdeling:
• centrummaat (gemiddelde, mediaan, modus)
• spreidingsmaat (standaarddeviatie)
• kurtosis: gepiektheid Histogram
• skewness: scheefheid 45
40
Absolute Frequenties
35
30
25
20
15
10
5
0
0 20 40 60 80
Metingen X

19
• Lineaire transformaties (bv. standaardiseren): enkel gemiddelde en

standaarddeviatie veranderen
• Normaliserende transformaties: ook kurtosis en skewness

veranderen zodat de normale verdeling benaderd wordt

20
Kruistabellen
• Wat als we de samenhang tussen variabelen willen bestuderen?
• Afhankelijk van meetniveau:
− nominaal en nominaal: kruistabel
− nominaal en ordinaal: kruistabel
− interval en interval: correlatie
• 3 maten van samenhang bij kruistabellen:
− Chi-kwadraat (niet geschikt voor kleine steekproeven)
− Contingentiecoëfficiënt (variabelen met 2 niveaus)
− Cramér’s V (variabelen met meer dan 2 niveaus)

21
Correlatie
• zelfde doel als kruistabellen: samenhang van variabelen nagaan
• verschil: variabelen op interval- of rationiveau
• hoge correlatie is bv .75 maar ook -.85
• covariantie: zelfde als correlatie, maar niet gestandaardiseerd (niet
delen door stdev in formule)
• hoe de correlatie gebruiken om voorspelling te maken? -> regressie:

22
Lineaire regressie
• hoe de correlatie gebruiken om voorspelling te maken? -> regressie:
Y ' = a + b YX  X
Y = rX,Y   ( X − X ) + Y
' sY
sX
X = gekende variabele
Y = voorspelling

23
STATISTIEK 2
the saga continues…
Vanhoomissen & Valkeneers – Hoofdstuk 1

SITUERING STATISTIEK 1 EN 2
Empirische cyclus
blondines zijn
even theorie hypothese brunettes zijn
intelligent als intelligenter
brunettes dan blondines
inductieve data-
is 102 analyse verzameling
significant neem IQ-test af
groter dan van groep
99? brunettes en
groep blondines
beschrijvende
analyse
brunettes=102
25 blondines=99
TOETSENDE STATISTIEK
Nut van toetsende statistiek?

• Kunnen mannen beter kaartlezen dan vrouwen?
• Score op test kaartlezen (40 deelnemers):
Mannen 45/60 51/60 42/60

Vrouwen 44/60 39/60 47/60
• Conclusie?
>> statistiek biedt regels om te beslissen

26
TOETSENDE STATISTIEK
Dus zekerheid en houvast!?

• niet helemaal: statistiek berust op kansberekening
− onderzoek meestal in steekproeven
− steekproef geen perfecte afspiegeling van populatie
− foutieve variatie mogelijk
− inschatten hoe zeker we zijn van onze conclusies
− kansberekening nodig
• nooit 100% zeker van conclusie
− bv: “We concluderen met 95% zekerheid dat vrouwen meer
levenstevredenheid ervaren dan mannen”
• wanneer zijn zulke uitspraken geoorloofd?
>> significantie

27
STATISTISCHE SIGNIFICANTIE
Wat is significantie?
• op basis van steekproeven geen zekerheden
• wanneer dan verschillen/verbanden?
>> als we besluiten dat iets “statistisch significant” is
• bv. verschil tussen scores kaartlezen 51/60 en 39/60 is

significant, tussen 42/60 en 47/60 is niet significant.
• bv. verband tussen lengte en gewicht is significant,
verband tussen lengte en hoeveelheid hersenen is niet
significant.

28
HYPOTHESETOETSING
Nodig om tot die significantie te komen:

hypothesetoetsing
• stel: onderzoek naar effect van muziek op depressie
• deelnemers luisteren 1u naar emo-rock of hip-hop
• emo-rock luisteraars zijn meer depressief dan hip-hop
luisteraars
• maar kan dat toevallig zijn? Is het niet waarschijnlijk om
zo’n verschil te observeren ook al is er geen invloed van
muziek?

29
HYPOTHESETOETSING
dus:
• we veronderstellen even dat muziek geen invloed heeft
• we berekenen hoe waarschijnlijk het is om onze scores te
observeren
− als dit heel waarschijnlijk is, besluiten we dat er geen
verschil is
− als dit heel onwaarschijnlijk is, besluiten we dat er
wel een verschil is

30
HYPOTHESETOETSING
Statistische significantie nagaan dmv kansberekening:
Is het geobserveerde verschil groot genoeg om significant te zijn
ervan uitgaan dat er in

werkelijkheid geen verschil is
kans berekenen dat we in dat

geval die observaties doen
grote kans: wellicht kleine kans: mogelijk

geen “echt” verschil een “echt” verschil

31
HYPOTHESETOETSING
of toegepast: muziek heeft geen

invloed op depressie
wat is de kans op gem.

groep 1 = 24 en gem.
groep 2 = 26 ?
grote kans: wellicht geen kleine kans: wellicht

“echt” verschil, dus geen een “echt” verschil: wél
invloed van muziek op inloed van muziek op
depressie depressie

32
HYPOTHESETOETSING
>> Nieuwe vragen:
− Hoe moeten we die kans berekenen?

• op basis van kansverdelingen (bv. standaardnormale verdeling)
• met behulp van verschillende toetsen
− Wat is dan een “grote” en een “kleine” kans?

• 5% of 0.05 meest courant (zie later)

33
TOETSEN
Dus 1 formule, 1 berekening en Statistiek 2 over

and out?
• jammer: toetsingssituaties zijn heel uiteenlopend:
− verschil in depressie bij verschillende muziek?
− verschil in depressie vóór en na beluisteren van muziek?
− verschil in depressie bij verschillende muziek en 2 methoden
gedragstherapie?
− 500 deelnemers of slechts 20?
− …
• bijgevolg ook uiteenlopende toetsen

34
MISBRUIK VAN STATISTIEK
Complexe formules, software en exacte

getallen doen niet alles!
• statistiek is slechts een hulpmiddel bij onderzoek
• randvoorwaarden zijn net zo belangrijk:
− juiste methodologie
− correct onderzoeksopzet
− correcte formulering in rapport
− correcte vermelding variabelen
− …
>> statistiek wordt vaak misbruikt!

35
MISBRUIK VAN STATISTIEK
Onduidelijke steekproef
“95% van de Belgen is tevreden over Activia”
Gebrek aan context
“Duracell-batterijen gaan tot 5 maal langer mee”
Interne validiteit
Laat het onderzoeksopzet toe om causale conclusies te trekken?

36
INTERNE VALIDITEIT
Ongeoorloofde causale conclusie
>> interne validiteit : Mate waarin we met een

onderzoeksontwerp causale conclusies kunnen
trekken over effect van OV op AV
3 voorwaarden:
1. Effect van OV op AV in voorspelde richting
2. Oorzaak moet in tijd voorafgaan aan gevolg
3. Geen andere verklaringen voor gevonden verband

37
INTERNE VALIDITEIT
bv: Kunnen kinderen beter lezen als ze door hun ouders

vaak worden voorgelezen?
− test bij 20 kinderen die vaak worden voorgelezen en 20 kinderen die
nooit worden voorgelezen
− eerste groep scoort 7, tweede groep scoort 6
− significant verschil, maar ook intern valide?
• voorwaarde 1: scoren de kinderen die worden

voorgelezen hoger dan de andere kinderen?
>> ok (na statistische test)

38
INTERNE VALIDITEIT
• voorwaarde 2: gaat de oorzaak vooraf aan het gevolg?

Komt het voorlezen vóór de betere lees-score of kan het
ook omgekeerd?
meer voorlezen beter lezen
beter lezen meer voorlezen

39
INTERNE VALIDITEIT
• voorwaarde 3: is er geen andere verklaring voor het

verband?

40
INTERNE VALIDITEIT
Om alternatieve verklaringen uit te sluiten: experimenteel

onderzoek
− randomiseren
− voormeting
− nameting
− controleren voor storende variabelen
− …
= methodologie: noodzakelijk om juiste conclusies te

trekken, statistiek alleen is onvoldoende!

41
INTERNE VALIDITEIT

42
EXTERNE VALIDITEIT
Ongeoorloofde generalisatie
>> externe validiteit : mate waarin resultaten van het

onderzoek kunnen gegeneraliseerd worden over:
1. situaties (lijkt de onderzoekssituatie genoeg op de “dagelijkse”

situatie?)
2. methoden (wordt hetzelfde resultaat gevonden met een andere
methode?)
3. tijd (zelfde resultaten in een andere periode?)
4. populaties (zelfde resultaten in andere populatie?)

43
EXTERNE VALIDITEIT
Statistische generalisatie is nog iets anders!
>> kunnen we generaliseren vanuit de steekproef naar

de populatie waaruit de steekproef werd getrokken?

44
SAMENVATTING
Toetsende statistiek volgt op beschrijvende statistiek in de
empirische cyclus.
Bedoeling is om op basis van verzamelde data een
onderbouwde beslissing te nemen over verband/verschil.
Dat we over deze beslissing nooit 100% zeker zijn is niet
erg, zo lang we maar de mate van onzekerheid kennen.
Om die mate van onzekerheid te bepalen, hebben we
kansberekeningen nodig.
Op basis daarvan kunnen we significantie berekenen.
Statistiek is geen wetenschap op zich. Statistische
conclusies zijn pas waardevol als ook aan de
randvoorwaarden voldaan is en statistiek niet misbruikt
wordt.

45

Hoofdstuk 1

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Hoofdstuk 1

Uploaded by

Copyright:

Available Formats

STATISTIEK 2

Het nuttigen van een sportdrank zorgt voor 4% meer tevredenheid in

Welk drankje kies je bij de volgende gelegenheid?

Er is een interactie-effect: bij dames leidt de sportdrank tot 30%

Statistische kennis vermijdt té snelle en té simpele conclusies!

*De voorbeelden in deze cursus berusten niet altijd op vaststaande feiten

Introductie & hoofdstuk 1

Variabelen operationaliseren en meten

• 2 voorwaarden voor meten:

•Introductie & hoofdstuk 1

-> doel van de inductieve statistiek: verantwoorde uitspraken doen over

We willen wél uitspraken doen over de gehele populatie, dus de

Onderzoek doen bij depressieve patiënten uit het UZA om

Introductie & hoofdstuk 1

Introductie & hoofdstuk 1

= elk element van de populatie een gelijke kans geven om in de

Uit de lijst van alle Vlaamse leerlingen SO randomgewijs 2000

Nadeel: niet altijd representatief!

Introductie & hoofdstuk 1

= alle deelpopulaties evenredig aan bod laten komen in de steekproeftrekking.

Introductie & hoofdstuk 1

Voordeel: wel mogelijk om representativiteit te bereiken (als de steekproef

Kijkcijfers: panel van 1500 gezinnen, samengesteld zodat ze de totale

Introductie & hoofdstuk 1

= populatie verdelen in gelijkaardige clusters en daarna aselecte

De populatie leerlingen verdelen in clusters volgens provincie.

Voordeel: spaart kosten en tijd

Introductie & hoofdstuk 1

Introductie & hoofdstuk 1

Andere soorten steekproeven (niet-aselecte steekproeven)

Niet-aselecte steekproeven: niet altijd geschikt voor inductieve

Introductie & hoofdstuk 1

verschillende visuele vormen:

percentielscores: plaats van een score in het geheel

Introductie & hoofdstuk 1

• bij symmetrische verdeling:

• mediaan minder gevoelig voor extreme waarden

Introductie & hoofdstuk 1

• variatiebreedte (verschil tss grootste en kleinste)

• standaardscores (Z-scores): X-X

Introductie & hoofdstuk 1

Introductie & hoofdstuk 1

Introductie & hoofdstuk 1

Transformaties van verdelingen

Introductie & hoofdstuk 1

Transformaties van verdelingen

Introductie & hoofdstuk 1

Transformaties van verdelingen

• Lineaire transformaties (bv. standaardiseren): enkel gemiddelde en

• Normaliserende transformaties: ook kurtosis en skewness

Introductie & hoofdstuk 1

Introductie & hoofdstuk 1

Introductie & hoofdstuk 1

• hoe de correlatie gebruiken om voorspelling te maken? -> regressie:

Introductie & hoofdstuk 1

the saga continues…

Vanhoomissen & Valkeneers – Hoofdstuk 1

Nut van toetsende statistiek?

Mannen 45/60 51/60 42/60

>> statistiek biedt regels om te beslissen

Introductie & hoofdstuk 1

Dus zekerheid en houvast!?

Introductie & hoofdstuk 1