Professional Documents
Culture Documents
Hoofdstuk 1
Hoofdstuk 1
Introductie
Tim Vanhoomissen
WAAROM STATISTIEK?
Stel:
• variabelen:
− continu of discreet
− meetniveau: nominaal, ordinaal, interval, ratio
− onafhankelijk / afhankelijk
Steekproeven
= het deel van de populatie dat wordt onderzocht, wanneer de
populatie te groot is om helemaal te onderzoeken
Soorten steekproeven
Aselecte steekproeven
1. Aselecte steekproef
2. Gestratificeerde steekproef
3. Clustersteekproef
Niet-aselecte steekproeven
1. Sneeuwbalsteekproef
2. Gelegenheidssteekproef
3. Quotasteekproef
1. Aselecte steekproef
Eerst percentages nagaan van ASO, TSO en BSO leerlingen, en daarna uit
elke deelpopulatie een aselecte steekproef trekken zodat de
percentages in de steekproef dezelfde zijn als in de populatie.
populatie steekproef
ASO 60% 1200 (60%)
TSO 30% 600 (30%)
BSO 10% 200 (10%)
N = 100% n = 2000 (100%)
1. Sneeuwbalsteekproef
Onderzoeker vertrekt van één respondent aan wie vervolgens gevraagd
wordt andere respondenten te contacteren
Voordeel: mensen die moeilijk bereikbaar zijn worden makkelijker
bereikt
Nadeel: kans is groot dat mensen sterk op elkaar lijken
2. Gelegenheidssteekproef
Keuze van respondenten wordt overgelaten aan ondervrager (nl.
mensen die men makkelijk kan vinden) Vb. 1e jaars psychologie, op
straat
Voordeel: goedkoop, snel
Nadeel: niet geschikt voor populatieschattingen
3. Quotasteekproef
Onderzoeker bepaalt kenmerken van de populatie die men ook wil zien
in steekproef (bv. verdeling jongens/meisjes).
Onderzoeker zorgt ervoor dat hij aan dat aantal komt (= quotum). Hoe
hij aan dat aantal komt is niet belangrijk (bv. via
gelegenheidssteekproef).
verschillende frequenties:
− absolute frequenties
− relatieve frequenties
− absolute cumulatieve frequenties
− cumulatieve percentages
Centrummaten
• modus – waarde die het meest voorkomt
• mediaan – middelste waarde bij gerangschikte waarnemingen
• gemiddelde – som van waarden gedeeld door aantal waarnemingen
Spreidingsmaten
• hoe ver liggen de scores uit elkaar?
De normale verdeling
• geobserveerde gegevens die passen in theoretische verdeling
(model) bieden meer mogelijkheden voor verwerking.
• veelgebruikt model: normale verdeling
• geeft de kans op het voorkomen van een bepaalde waarde
0,5
0,4
Probability Density
0,3
0,2
0,1
0
-4 -3 -2 -1 0 1 2 3 4
De normale verdeling
• normale verdelingen verschillen enkel in gemiddelde en
standaarddeviatie. De curve is altijd klokvormig en symmetrisch.
• dankzij dit specifieke model kunnen gemakkelijk observaties
afgeleid worden:
0,3
0,25
Probability Density
0,2
0,15
0,1
0,05 6,43%
0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Histogram
45
40
Absolute Frequenties
35
30
25
20
15
10
5
0
0 20 40 60 80
Metingen X
Absolute Frequenties
35
30
25
20
15
10
5
0
0 20 40 60 80
Metingen X
Kruistabellen
• Wat als we de samenhang tussen variabelen willen bestuderen?
• Afhankelijk van meetniveau:
− nominaal en nominaal: kruistabel
− nominaal en ordinaal: kruistabel
− interval en interval: correlatie
• 3 maten van samenhang bij kruistabellen:
− Chi-kwadraat (niet geschikt voor kleine steekproeven)
− Contingentiecoëfficiënt (variabelen met 2 niveaus)
− Cramér’s V (variabelen met meer dan 2 niveaus)
Correlatie
• zelfde doel als kruistabellen: samenhang van variabelen nagaan
• verschil: variabelen op interval- of rationiveau
• hoge correlatie is bv .75 maar ook -.85
• covariantie: zelfde als correlatie, maar niet gestandaardiseerd (niet
delen door stdev in formule)
• hoe de correlatie gebruiken om voorspelling te maken? -> regressie:
Lineaire regressie
Y ' = a + b YX X
Y = rX,Y ( X − X ) + Y
' sY
sX
X = gekende variabele
Y = voorspelling
inductieve data-
is 102 analyse verzameling
significant neem IQ-test af
groter dan van groep
99? brunettes en
groep blondines
beschrijvende
analyse
brunettes=102
Introductie & hoofdstuk 1
25 blondines=99
TOETSENDE STATISTIEK
• Conclusie?
Wat is significantie?
• op basis van steekproeven geen zekerheden
• wanneer dan verschillen/verbanden?
>> als we besluiten dat iets “statistisch significant” is
dus:
• we veronderstellen even dat muziek geen invloed heeft
• we berekenen hoe waarschijnlijk het is om onze scores te
observeren
− als dit heel waarschijnlijk is, besluiten we dat er geen
verschil is
− als dit heel onwaarschijnlijk is, besluiten we dat er
wel een verschil is
Onduidelijke steekproef
Interne validiteit
3 voorwaarden:
1. Effect van OV op AV in voorspelde richting
2. Oorzaak moet in tijd voorafgaan aan gevolg
3. Geen andere verklaringen voor gevonden verband
− randomiseren
− voormeting
− nameting
− controleren voor storende variabelen
− …
Ongeoorloofde generalisatie