Download as pdf or txt
Download as pdf or txt
You are on page 1of 33

Hoofdstuk 1

1.1
Informatie die we verzamelen met experimenten en d.m.v. enqutes noemen we data.

Statistiek is de kunst en wetenschap van het ontwerpen van studies en het analyseren van data die
de studies voortbrengen. Het ultieme doel is het vertalen van data in kennis en begrip over de wereld
om ons heen. Kort gezegd: statistiek is de kunst en wetenschap van het leren van data.

Statistiek helpt ons om vragen op een objectieve manier (feiten) te onderzoeken.

Exit polling = (voorspellen verkiezingen): stemmers interviewen nadat ze hebben gestemd.

Bij bepaald onderzoek (bv. Gsm kans op hersenkanker) hoef je geen 50 jaar onderzoek te doen, dat
zou te lang duren. Je kunt ook gegevens gebruiken die al aanwezig zijn.


Fasen in een onderzoek:
1. Probleemstelling
2. Ontwerp van onderzoek
- Design = hoe de data te verzamelen zodat de antwoorden betrouwbaar en valide zijn
3. Dataverzameling (steekproef uit populatie nemen)
4. Data-analyse
- Beschrijvende statistiek (description) = samenvatten van verzamelde data d.m.v.
patronen (grafieken, percentage)
- Inferentile statistiek (inference) = besluiten en voorspellingen aan de hand van de data.
Uitspraken doen over een grotere groep.
5. Rapportage

Variabele = meetbaar (aantal uren tv op een dag)

General Social Survey (GSS) > voor het verzamelen van data.


1.2
Steekproef/sample: de groep elementen die getrokken worden uit de populatie.
Subjecten: de entiteiten die worden gemeten (meestal mensen, maar hoeft niet, kunnen ook
scholen, landen of dagen zijn). Groep van subjecten = populatie.
Populatie: de verzameling van alle potentieel waarneembare waarden waarop een onderzoeks-
Probleemstelling (of hypothese) betrekking heeft.

Statistic: getal dat een eigenschap van een steekproef weergeeft.
Parameter: getal dat een eigenschap van een populatie weergeeft.

Om een goede representatie van de populatie weer te geven, is er een random steekproef nodig.

Descriptive Statistics worden meestal weergegeven aan de hand van grafieken en
percentages (Description).
Inferential Statistics wordt gebruikt als er besluiten of voorspellingen over een populatie gedaan
dienen te worden (Inference), gebaseerd op data uit een steekproef/sample van die
populatie.
1.3
MINITAB en SPSS zijn twee populaire statistieke software (data file/data bestand).
De TI-83+ en de TI-84 zijn geschikte rekenmachines.

2 basisregels voor het construeren van een data bestand:
1. Elke rij bevat metingen voor een specifiek subject (bv. een persoon)
2. Elke kolom bevat metingen voor een specifiek kenmerk

De meeste studies ontwerpen experimenten of enqutes om data te verzamelen en zo de
genteresseerde vraag te beantwoorden.
Toch is het vaak adequater werken door gebruik te maken van bestaande collecties data
verzamelingen, genoemd: database (bv. GSS, Google). Deze databases moeten wel altijd gecheckt
worden op betrouwbaarheid.

Applet = application is een programma voor het uitvoeren van een specifieke taak.
Door het gebruik van een applet kunnen steekproeven van kunstmatige populaties genomen
worden, waarna deze geanalyseerd kunnen worden om de eigenschappen van de statistieke
methoden te bekijken. Dit is een soort van simulatie waarbij je kan nabootsen wat werkelijk zou
gebeuren als je een steekproef zou nemen.

Bij een simulatie lijken steekproefverhoudingen dichter bij populatieverhoudingen te liggen als het
aantal subjecten bij een steekproef groter is.



Hoofdstuk 2

2.1
Statistieke methodieken bieden manieren om variabiliteit (veranderlijkheid) te meten en te
begrijpen.

De eigenschappen die geobserveerd worden om antwoord te geven op een vraag worden variabelen
genoemd.

Variabelen kunnen:
- Kwantitatief (numerical) zijn; met betrekking op hoeveelheid (mm neerslag op dag).
Cijfers moeten wel grootte aangeven (dus geen postcode, ene is niet groter dan andere).
Discreet: hele waarden (vb. aantal kinderen per gezin; geen halve kinderen)
Continu: wel halve en tientallen (vb. lengte)
- Kwalitatief (categorical) zijn; variabelen nemen kenmerken/categorien aan ipv cijfers
(wel/geen neerslag op een dag).

De gegevenswaarden die we observeren voor een variabele worden observaties genoemd.
Elke observatie kan numerical of categorical zijn.

Diagrammen en percentages beschrijven de belangrijkste kenmerken van een variabele:
- Kwantitatief: gemiddelde, modus, spreiding (variabiliteit)
- Kwalitatief: relatieve aantal waarnemingen (vb. in percentages) in verschillende
categorien.


Frequentie Tabel (lijst van mogelijke waarden voor een variabele, samen met het aantal observaties per waarde
Gebruiken bij kwantitatieve variabelen:

Variabelen/waarden Frequentie Proportie Percentage
Florida 365 365/559= 0,653 0,653x100= 65,3
Hawaii 60 60/559= 0,107 0,107x100= 10,7
California 40 40/559= 0,072 0,072x100=7,2
Australia 94 94/559= 0,168 0,168x100=16,8
Totaal 559 0,653+0,107+0,072+0,168= 1,00 65,3+10,7+7,2+16,8=100


Relatieve frequenties
2.2
Kwalitatief onderzoek (geen cijfers maar categorien) grafieken:
- Taartdiagram
- Staafdiagram(stipter, flexibeler, beter zichtbaar welke hoger is)
(pereto = staafdiagram geordend naar frequentie van hoog naar laag).
Pareto principe = een aantal deelverzamelingen van categorien bevatten samen vaak de
meeste observaties.
Kwantitatief onderzoek (wel cijfers) grafieken:
- Dot plot
- Stem-and-leaf plot
geven individuele observaties weer zodat je data kunt reconstrueren

- Histogram (handig voor grote datasets, groter dan 50 observaties; ongeveer 5-10
balken gebruiken, flexibeler in grootte van intervallen te bepalen).

Unimodaal = 1 heuvel
Bimodaal = 2 heuvels

Modus: meest voorkomend (kan gebruikt worden bij kwantitatief en kwalitatief onderzoek)



Scheef naar links Symmetrisch Scheef naar rechts



- Time plot: weergeven van data over een bepaalde tijd.
Data set verzameld gedurende periode = time series.

2.3
Gemiddelde: som van de observaties / aantal observaties. Centrummaat!
Mediaan: middelpunt van de observaties als ze geordend zijn van klein naar groot.




Potentile Uitbijter:
- als 1,5 x IQR (3
e
- 1
e
kwartiel) onder 1
e
kwartiel / als 1,5 x IQR boven 3
e
kwartiel.
- Bij bell-shaped vergelijking: als het 3 x de standaarddeviatie van het gemiddelde ligt.
= z-score: zie verdere uitleg verderop.

2.4
Centrummaat (gemiddelde &mediaan) zegt niks over de spreiding.

Range: verschil tussen grootste en kleinste waarden.
Hoe groter de range, hoe meer verspreidt de data is.

Overeenkomst Range met:
- Gemiddelde: niet resistent zijn.
- Mediaan: negeren van bijna alle data (behalve grootste/kleinste waarden)


Standaard afwijking/standaardeviatie: meten van spreiding door gebruik van alle data!
Kleine standaardafwijking: waarden liggen over het algemeen dicht bij het gemiddelde.

Standaarddeviatie = variantie


=


Hoe groter de standaarddeviatie, hoe groter de spreiding.


De Empirische regel:
Als een verdeling van gegevens in bel vorm is (unimodaal en symmetrisch) = normale
verdeling! ongeveer:
- 68% van de observaties valt binnen 1 standaarddeviatie vanaf het gemiddelde. Dat is
tussen en =
- 95% van de observaties valt binnen 2 standaarddeviaties vanaf het gemiddelde ( )
- Alle/bijna alle observaties vallen binnen 3 standaarddeviaties vanaf het gemiddelde
( ).
















= gemiddelde van de populatie
= standaardeviatie van de populatie



2.5
Het gemiddelde en de mediaan (centrummaat) beschrijven het centrum van een verdeling.
De range en de standaarddeviatie beschrijven de spreiding van een verdeling.

Percentiel: dataset wordt in 100 gelijke delen verdeeld: percentielen.
Het 50
e
percentiel wordt ook de mediaan genoemd.
Het 25
e
, 50
e
en 75
e
percentiel worden ook respectievelijk het 1
e
, 2
e
en 3
e
kwartiel genoemd.















Range: het bereik van de verdeling = hoogste laagste

Interkwartielafstand (interquartile range) IQR: 3
e
kwartiel - 1
e
kwartiel.
= Middelste 50% van de verdeling. Hoe hoger de IQR, hoe meer spreiding.


Basis voor Box plot = 5 cijferige posities:
1. Minimum
2. Eerste kwartiel (Q1)
3. Tweede kwartiel (Q2) / Mediaan
4. Derde kwartiel (Q3)
5. Maximum


De box van een box plot bevat de interkwartielafstand (middelste 50%, Q3-Q1).
Een verticale lijn in de box representeert de mediaan.
De horizontale lijnen aan de zijkant worden bakkebaarden/whiskers genoemd. De bevatten de rest
van de data, behalve potentile uitbijters, die worden apart weergegeven, vaak door n symbool (*).







Hoe weten we het aantal standaard deviaties dat een observatie van het gemiddelde afligt?
Oftewel: hoe berekenen we de z-score?

Gemiddelde: 84, Standaard deviatie: 16. Bereken z-score van 93:
93-84 = 9 9:16= 0.5625


X observed value mean (x - )
z- score = of: Zx = standard deviation = Sx



Hoofdstuk 3

3.1
Als we data met 2 variabelen analyseren, moet er onderscheid worden gemaakt tussen:
- Verklarende variabele (explanatory variable) onafhankelijke variabele x > vb. smoking
status
- Responsvariabele (response variable) afhankelijke variabele y (wat je wilt
meten/waarover je een voorspelling doet) > vb. survival status


Sommige studies beschouwen n of beide variabelen als verklarende (onafhankelijke) variabelen.
Bijvoorbeeld roken <> alcoholgebruik. Er is geen directe aanwijzing welke variabele verklarend is voor
de ander. Het belangrijkste doel van zon onderzoek is nagaan of er association (samenhang) te
ontdekken is.

Samenhang tussen twee variabelen bestaat wanneer de waarde van een bepaalde variabele in alle
waarschijnlijkheid meer voorkomt door bepaalde waarden van een andere variabele.


Outcome of interest/wat wil je weten? = afhankelijke variabele (response variable)

Een kruistabel (crosstabulation/contingency table) is een tabel waarin twee categorische variabelen
worden weergegeven. De rijen omvatten de categorien van een variabele, de kolommen omvatten
de categorien van de andere variabele.

2 manieren van weergave:
- Cel frequenties (aantallen)
- Voorwaardelijke proporties (aandelen)

Conditional proportions = proporties inhoud kruistabel.
Marginal proportions = properties totaalrij kruistabel (= om samenhang te berekenen).


Afhankelijk (wel samenhang) als: waarden ongelijk in proportie zijn.
Onafhankelijk (geen samenhang) als: waarden gelijk in proportie zijn.




3.2
Als we samenhang onderzoeken tussen twee variabelen kunnen er 3 soorten gevallen voorkomen:
1. De variabelen zijn allebei categorisch (kwalitatief) (vb. aantal parasieten en type fruit).
- kruistabel geplaatst worden.
2. Een variabele is numerical (kwanitatief) en de ander is categorisch (kwalitatief) (vb. geslacht
en inkomsten of lengte).
- gemiddelde
- spreiding (standaarddeviatie van het inkomen)
- grafieken (zoals side-by-side boxplots) gebruikt worden.
3. De variabelen zijn allebei numerical (kwantitatief) (vb. %internetgebruik en %gsmgebruikers).
- Analyseren hoe uitkomst van afhankelijke variabele (respons = wat je wilt meten)
veranderd als de onafhankelijke variabele (explanatory) veranderd.
- Spreidingsdiagram (scatterplot):
Afhankelijke variabele = y. verticale as.
Onafhankelijke variabele = x. horizontale as.
n points = observaties voor de n subjecten.
- Zo is ook een trend te ontdekken.
- Positieve samenhang of
- Negatieve samenhang of

Lineaire relatie: wanneer de datapunten ongeveer een rechte lijn vormen.
Correlatie: vat de richting van de samenhang tussen twee numericale variabelen samen en de sterkte
van de rechte lijn trend. Deze wordt aangeduid met r en neemt waarden aan tussen -1 en +1.
- Een positieve correlatie geeft een positieve samenhang weer.
- Een negatieve correlatie geeft een negatieve samenhang weer.
Hoe dichter bij +1 of -1, hoe dichter de datapunten recht op de lijn vallen, des te sterker de lineaire
associatie. Hoe dichter bij 0, hoe zwakker de lineaire associatie.



Correlatie r =



r = [ 1 / (n - 1) ] * { [ (x
i
- x) / s
x
] * [ (y
i
- y) / s
y
] }


Dus:
- Om de correlatie te berekenen heb je de z-score nodig.
- Om de z-score te berekenen heb je de standaarddeviatie nodig.
- Om de standaarddeviatie te berekenen heb je het gemiddelde nodig.



Correlatie berekenen is alleen voor rechte lijnen. Bij een U-vorm is het niet gepast.
Tip: geef de data van twee numericale (kwantitatieve) variabelen altijd weer. Hierdoor kun je zien of
het gaat om een rechte lijn en vanuit daar kun je de correlatie berekenen.




3.3
De correlatie beschrijft de richting van de variabelen (recht lijn).
We kunnen de data nog verder analyseren door een vergelijking die het patroon van de rechte lijn
weergeeft, dmv: lineaire regressie.

Lineaire Regressie:
Deze vergelijking voorspelt de waarden van de response (afhankelijke) variabele (y), door de
waarden van de explanatory (onafhankelijke) variabelen (x).

Formule Lineaire Regressie: = a +bx
= voorspelde waarde van y,
a = y-intercept: waarde van y als x 0 is. Lijn kruist y-as .
b = helling (slope) = correlatie??
(>0 bij positieve samenhang, <0 bij negatieve samenhang, =0 bij geen samenhang)
Lineaire regressie resulteert uit de minimale kwadratische methode (least squares method) waarbij
de minimale verschilwaarde wordt gehanteerd (zie pag. 121). (makings errors as small as posible). &
- Lijn heeft positieve en negatieve verschilwaarden (residuals) maar de som, en het
gemiddelde van de verschilwaarden is gelijk aan 0.
- Gaat door het gemiddelde van x en het gemiddelde van y.
- Dus: te lage verwachtingen worden gecompenseerd door de te hoge verwachtingen.

Zon voorspellende regressie wordt vaak een prediction equation (voorspellende vergelijking)
genoemd.
Meer ingeburgerde term regressiecofficint (of: regressiegewicht);
geeft aan: de hoeveelheid verandering in Y als X n eenheid toeneemt
b.v. x=400, dan =4800; x=401, dan =4812; toename is 12.

Hoe vind je de helling en y-intercept van een Lineaire Regressie?
- Maak eerst een spreidingsdiagram om er zeker van te zijn dat er een soort rechte lijn is.
- Vanuit tabel:
o Mode, 2: STAT
o 2: A+Bx
o Voeg gegevens in
o Druk op AC
o Druk op shift-1 (stat)
o 7: Reg
- Met onderstaande formulie (nodig: correlatie, standaarddeviatie, en gemiddelde).

De voorspellingsfout; wat het verschil is tussen y = Residual (= verschilwaarde)
Elke observatie heeft een residual; sommige positief, anderen negatief.
- Positief wanneer de echte y groter is dan de verwachtte .
- Negatief wanneer de echte y kleiner is dan de verwachtte .
Hoe kleiner het getal, hoe meer de verwachtte waarde bij de echte waarde in de buurt ligt, en hoe
kleiner de som van de kwadraten lijkt te zijn.


De samenvattende maat om de voorspellingen te meten:
Residual sum of squares
Som van de kwadraten van de verschilwaarden = (residual/verschilwaarde) = (y - )
Deze formule kwadrateert elke verticale afstand tussen een punt (echte waarde) en de lijn
(verwachte waarde) en telt deze allemaal bij elkaar op.
Regressie formules voor a (y-intercept) en b (slope):
= a +bx
= voorspelde waarde van y,
a = y-intercept: waarde van y als x 0 is. Lijn kruist y-as .
b = helling (slope) = correlatie??


Slope (b) =

Y-intercept (a) = - b()

JE KAN A. EN B. DUS UITREKENEN ALS JE DE CORRELATIE + STANDAARDDEVIATIE HEBT!
EN DE GEMIDDELDEN!

Correlatie: sterkte van samenhang + rechte lijn.
Waarom kan de Slope hier niet voor gebruikt worden??
Grotere slopegetallen geven immers een sterkere samenhang weer.
Antwoord: de waarde van de slopegetallen verschillen per unit:
Voorbeeld: =-3,6 + 1,5x. GDP was gemeten in duizenden dollars (per capita). Stel het was gemeten
in normale dollars, zoals x=19,200 in plaats van x=19,2 dan was een een-unit stijging in GDP 1 dollar
(per capita).Dit is 1/1000 zoveel. Dus de verandering in de verwachtte waarde van y zou 1/1000
zoveel zijn, of (1/1000)1.5=0.0015. Dus, als x = GDP in dollars, dan is de slope 0.0015 ipv 1,5.

Slope verandert dus mee, correlatie niet!
Correlatie valt tussen -1 en +1. Slope kan elk getal aannemen.

r-Squared (r): proportie waarmee wordt aangegeven hoeveel de geschatte lijn overeenkomt met de
echte lijn. r=0.79 betekend dat 79% van de geschatte waarden overeenkomt met de echte waarden.

3.4
Manieren om samenhang tussen variabelen te ontdekken.
Voorzichtig voor potentile valkuilen:
- Extrapolation: gevaar van ver buiten het diagram voorspellen (vb. weer voor 3000).
Trend kan veranderen. Hoe verder van de range, hoe riskanter. Als een trend veranderd
geeft extrapoltation slechte voorspellingen. Forecast: voorspellingen over de toekomst
door gebruik van time series data.
- Regression outliers: observaties ver buiten de rest van de trend (lijn). Kunnen grote
invloed hebben op (vooral kleine) datasets. Daarom altijd eerst scheidingsdiagram
maken. Als een observatie een groot effect heeft op de resultaten wordt deze invloedrijk
(influential) genoemd.
- Correlatie en lineaire regressie lijn zijn nonresistant/gevoelig voor verstoring door
uitbijters.
- Als twee variabelen samenhangen, kunnen andere variabelen ook invloed hebben gehad
op die samenhang. Correlatie is geen oorzaak! Als iets samenhangt wil het niet zeggen
dat het de oorzaak is. Een derde variabele die invloed kan hebben gehad op de uitkomst ,
maar die niet gemeten is, of waar geen weet van is, wordt een lurking variable (op de
loer) genoemd.
- Als de directie van een samenhang tussen twee variabelen kan veranderen na analyse
van een derde wordt Simpsons paradox genoemd.
- Confounding: als 2 explanatory variabelen beiden samenhangen met de response
variabele, maar ook met elkaar. Verschil met lurking variable: pag. 141.
regressiecoefficient is hetzelfde als richtingscoefficient y=a + bx. Hierbij is b de helling "slope" oftewel de
richtingscoefficient. b geeft aan hoeveel stapjes y omhoog gaat als x een stap opzij gaat. Behalve met de formule
b= r keer (sy ; sx) kun je b ook uitrekenen door twee punten (coordinaten) op de lijn van elkaar af te trekken vb
(4,3) en (7,8) x van x 7-4 = 3 en y van y 8-3 = 5. Daarna deel je y door x 5:3 = 3/5 en dit is je richtingscoefficient
b. Dat wil zeggen als x een stap naar rechts gaat, gaat y 3/5 omhoog. Je kunt dit op een duidelijke lijn ook
aflezen. Je hebt dus drie manieren om erachter te komen afhankelijk van de gegevens die je hebt.sy is de
standaard deviatie van y en sx de standaarddeviatie van x. die kun je uitrekenen of hij staat gegeven. x is de
onafhankelijke (explan.) en y de afhankelijke (respons).


Hoofdstuk 4

4.1
We gebruiken statistiek om meer te weten te komen over een populatie. Omdat het te veel werk is
om de gehele populatie te onderzoeken, wordt er gebruik gemaakt van een steekproef. Deze bestaat
uit twee variabelen van primair belang: een onafhankelijke (verklarende > cell Phone use) variabele
en een afhankelijke (response > cancer) variabele.

Experiment
Een onderzoeker voert een experiment door subjecten toe te wijzen aan een bepaalde
experimentele conditie = treatments (behandelingen, vb. wel of geen straling toedienen, dus invloed
uitoefenen op onafhankelijke variabele) waarna er gekeken kan worden naar de uitkomst op de
afhankelijke variabele.
- Geeft de onderzoeker meer controle over invloeden van buitenaf (op lurking variables)
door randomiseren. Deze controle zorgt voor meer nauwkeurigheid naar het
onderzoeken van eventuele samenhang.
- Vaak met dieren ipv mensen.

Observatie
Een onderzoeker observeert de waarden van de onafhankelijke en afhankelijke variabelen van de
subjecten van de steekproef, zonder dat er invloed wordt uitgeoefend op de variabelen. Een
observatie is dus nonexperimental.
- Lurking variables kunnen een effect hebben op de resultaten waardoor oorzaak/gevolg is
niet met zekerheid vast te leggen is.
- Gevolgtrekkingen over menselijke populaties zijn meer geloofwaardig bij het trekken van
een steekproef op mensen, dan op dieren.
- Veel vraagstellingen gaan niet over oorzakelijk verband waardoor observatie goed
mogelijk is (vb. publieke peilingen).
- Een sample survey (steekproef enqute) verzamelt een steekproef van subjecten van
een populatie en verzamelt data van hun (vb. GSS).

Het effect van een onafhankelijke variabele op een afhankelijke variabele is met meer zekerheid vast
te leggen met een experiment, dat met een observatie. De beste methode om oorzakelijk verband te
bepalen, is dus door middel van een experiment.

Waarom dan niet altijd een experiment?
- Het kan ethisch niet verantwoord zijn (om vb. een groep subjecten bloot te stellen aan
straling, terwijl je weet dat het schadelijk kan zijn).
- In de praktijk is het vaak lastig om na te gaan of de subjecten doen wat je hebt gezegd.
- Je moet dan vaak observaties voor de lange termijn gebruiken (vb. 50 jaar!).

Daarnaast kan je data gebruiken die al beschikbaar is:
- Anecdotal evidence (anekdotisch bewijs): informele observaties; vb. iets wat vaak
voorkomt in jouw vriendenkring. Helaas niet geschikt om iets te zeggen over een hele
populatie.
- Data verzamelen van gerenommeerde (erkende) onderzoeken (zie pag. 160).

De meeste landen streven een regelmatige census (volkstelling) na.


4.2
Stappenplan bij het opstellen van een steekproef enqute:
1. Bepaal de populatie waarop je je wilt richten
2. Een lijst van subjecten samenstellen = sampling frame (steekproefkader) > adresboek?
Ideaal is als het steekproefkader de hele populatie bevat (lukt bijna nooit).
3. Specificeren van selecteermethode van subjecten. Die methode = sampling design
(steekproefopzet).

Je ontwikkelt een meer representatieve steekproef als kansen je subjecten bepalen ipv gemak =
random sampling (steekproefsgewijs).

Een simple random samling (enkelvoudige aselecte steekproef) van n subjecten van een populatie is
een steekproef waarin elk subject dezelfde kans heeft op selectie = steekproefsgewijs

Vb. 2 uit 5 (mensen). N = 2.

Een andere manier (dan briefjes in een hoed) om een enkelvoudige aselecte steekproef te genereren
is aan de hand van een random number table (tabel met willekeurige getallen).
- Eerst subjecten van steekproefkader nummeren.
- Een set van deze nummers willekeurig genereren.
- Vervolgens wordt de steekproef genomen van deze nummers.
Voor een goed voorbeeld, zie pag. 166!

Hoe contacteer je mensen om data te verzamelen?
- Persoonlijk interview
o Voordeel: subjecten zullen sneller toestemming geven aan medewerking.
o Nadeel: kosten, subjecten zullen niet altijd (eerlijk) antwoord willen geven op
gevoelige vragen.
- Telefonisch interview (dmv random digit dialing)
o Voordeel: hetzelfde als persoonlijk interview, met lagere kosten.
o Nadeel: interview zal kort gehouden moeten worden (subjecten ongeduldig).
- Zelf in te vullen enqute
o Voordeel: goedkoper dan persoonlijk interview.
o Nadeel: veel subjecten zullen het niet invullen/terugsturen.

Vaak lees je in een onderzoek: The margin of error is plus or minus 3 percentage points. Dit
betekend dat het zeer waarschijnlijk is dat het populatiepercentage niet meer is dan 3% hoger of
lager dan het weergegeven steekproefpercentage.


Approximate margin of error =

Vb. 609 mensen ondervraagd. Sample size is dus n = 609.
42 % geloofde wel, 56 % geloofde niet, 2% had geen mening.


Approximate margin of error =


De margin of error van 4% suggereert het zeer waarschijnlijk is dat tussen de 52% en de 60% van de
populatie niet gelooft.


Er is sprake van bias als een bepaalde uitkomst vaker voorkomt in een steekproef dan bij de
populatie. Dit komt door de opzet van je onderzoek (vb. als je vooral zakenmensen om hun politieke
mening vraagt, krijg je waarschijnlijk veel conservatieven).
- Sampling bias: bias resulterende uit de steekproef methode
o Niet random steekproef
o Undercoverage (vb. bij een telefonisch onderzoek met random nrs kiezen uit
telefoonboek bereik je niet iedereen; gevangenen, daklozen, geheim nr, etc.).
o Door middel van volunteer sample ( = convenience sample) door vb. op internet
een enqute in te vullen. Bereik je maar bepaalde groep mee.
- Nonresponse bias: als bepaalde steekproef subjecten niet bereikt kunnen worden of
weigeren om mee te werken (mensen die wel mee willen werken kunnen juist een
andere mening hebben).
o Zelfs mensen die wel meewerken, maar die bepaalde vragen niet invullen
resulteren in nonresponse bias door de missing data.
- Response bias:
o de interviewer kan de vragen op een misleidende/verwarrende manier stellen
zodat de subjecten eerder een bepaald antwoord zullen geven.
o de subjecten kunnen liegen omdat ze denken dat hun antwoord sociaal
onacceptabel is.
o de subjecten geven het antwoord waarvan ze denken dat de interviewer wil
horen.


4.3
Net behandeld, goede en slechte manieren om informatie te verzamelen (steekproef) in een
observatie. Nu: goede en slechte manieren om een experiment uit te voeren.

Experiment:
- onderwerpen elk subject aan een experimentele conditie (=treatment)
- dan wordt de uitkomst van de respons (onafhankelijke: wat je wilt weten) variabele
bekeken
- doel: samenhang onderzoeken
- voordeel: sterker bewijs van samenhang ivm meer grip op lurking variables.
- De subjecten die deelnemen aan een experiment worden ook wel experimental units
(eenheden) genoemd (hoeven dus geen mensen te zijn; scholen, muizen, pc chips).

In een experiment is het samenstellen van subjecten vaak niet random. Hierbij is het nodig om een
convenience sample te gebruiken. Je kan vb. adverteren om alle rokers die willen stoppen aan te
trekken.

Een experiment heeft normaal gesproken een primary treatment of interest vb. het ontvangen van
antidepressiva bij stoppen met roken. Daarnaast moet er ook een second treatment for comparison
zijn.

Je kan de vrijwilligers in 2 groepen verdelen:
1 groep krijgt antidepressiva, 1 groep krijgt placebo (= control Group).
Placebo wordt toegediend om het placebo effect te reduceren: mensen lijken beter te reageren als
ze een placebo ontvangen, dan als ze niks ontvangen: waarschijnlijk iets psychologisch.

In sommige gevallen krijgt de controle groep ook een behandeling, vb. als er wordt onderzocht of
antidepressiva beter werkt dan nicotinepleisters in het stoppen met roken. Het is niet altijd nodig
een placebogroep toe te voegen als in vorige studies al is bewezen dat nicotinepleisters meer
effectief zijn dan placebos. Of het experiment kan alle 3 de behandelingen vergelijken.


Hoe deel je de vrijwilligers in? Dmv randomization (anders kans op bias en onevenwichtige groep).
Dus ook niet indelen op leeftijd, want er zijn andere lurking variables waar je niks vanaf weet en dan
is de groep nog steeds uit balans.

De 2 experimentele groepen zo identiek mogelijk behandelen zodat ze niet weten tot welke groep ze
behoren (blind to the treatment).
Iedereen die contact heeft met de groepen (data collectors) moeten eigenlijk ook niet weten tot
welke groep de subjecten behoren, dan kunnen ze ze ook niet (on)bewust anders behandelen
(double-blind study).


Een randomized experiment die medische behandelingen vergelijkt, wordt vaak een clinical trial
genoemd.


Als er duidelijke verschillen zijn na een experiment (zelfs na een jaar), terwijl je gerandomizeerd hebt,
kan je nog niet met zekerheid stellen dat het experiment effectief was. Je moet jezelf overtuigen dat
het verschil niet verklaard kan worden door kansen.
In een randomized experiment kan de verwachte variantie (verschillen) die verklaard kan worden
door kans is ongeveer net zo groot als de margin of error (zie pag. 179).
Hoe groter de steekproef, hoe lager het percentage kansen.


Replication: toewijzen van verschillende eenheden (units) aan elke behandeling.


Wanneer het verschil tussen de resultaten voor de twee behandelingen zo groot is dat er zelden een
dergelijk verschil te zien zou zijn bij gewone random variatie, we zeggen dat de resultaten statistisch
significant zijn.

Significante verschillen:
Als de kans, dat een verschil door toeval ontstaan is, kleiner is dan 5% (p = 0.05), dan noemt men het
verschil significant (betekenisvol). Als de kans, dat het verschil door toeval ontstaan is, kleiner is dan
1% (p = 0.01 ) dan noemt men het verschil zeer significant (zeer betekenis vol). De kans op toeval is
dan wel erg klein.


Een andere oplossing om na te gaan of de uitwerking daadwerkelijk aan de behandelingen ligt, is als
andere onderzoekers soortgelijke experimenten uitvoeren, en met soortgelijke uitkomsten komen.

DUS: een goed experiment heeft: een controlegroep, units zijn gerandomizeerd in toegewezen
behandelingen, en er is sprake van blinding en replication.


4.4
Andere random sampling desings (observatie):
- (Simple) random sampling: geeft iedere mogelijke steekproef dezelfde kans op selectie
(sampling frame nodig).
- Cluster random sampling: soms is een sampling frame niet aanwezig. Het is dan
handiger om clusters (vb. huizenblokken, zie pag. 182) van subjecten te maken.
- Stratified random sampling: verdeeld de populatie in verschillende groepen (als er wel
een sampling frame aanwezig is) (vb. 1
e
, 2
e
, 3
e
en 4
e
jaars = strata) waarna er uit elke
groep een bepaald aantal subjecten random wordt geselecteerd. Als je dit niet zou doen
krijg je misschien heel veel 1
e
jaars aan het woord, en weinig 2
e
jaars.
Verschil tussen Cluster en Stratified sampling: Stratified sample gebruikt alle strata, terwijl een cluster
sample gebruikt 1 cluster van de vele die er zijn.
dregres


Simple random Sampling Cluster Sampling Stratified Sampling












In plaats van het nemen van een doornede van de populatie, kijken sommige (observatie) studies:
- terug (retrospective) > vaak medische observaties (vb. smoking behavior in past year)
o Case-control studie: subjecten met respons uitkomst (verwachte uitkomst >
survival status) en subjecten met de andere uitkomst (controlegroep) worden
met elkaar vergeleken op de verklarende variabele (vb. smoking status).
- vooruit (prospective) > uitzoeken wat uitkomst gaat zijn.
Cross-sectional studies = sample survey (probeert in huidig tijdsbestek onderzoek te doen, dus
verschilt daarmee van retro- en prospective).

Een factor is een categorisch verklarende variabele (vb. of het subject wel of geen antidepressiva
neemt) die als categorien de experimentele condities heeft (de treatments zoals Zyban of geen
Zyban).

Vb. experiment naar stoppen met roken met antidepressiva en nicotinepleisters als factoren. Er zijn
dan 4 behandelgroepen (antidepressiva, nicotinepleisters, antidepressiva & nicotinepleisters, niks) en
twee factoren. Waarom? We can learn more from a two-factor experiment.

Er bestaat ook nog een alternatief experimenteel design waarin elke behandeling wordt
geobserveerd bij elk subject = geen lurking variables. De 2 observaties bij 1 subject wordt matched
pair genoemd. Elk subject = Block.
Hoofdstuk 5.

5.1
Dit hoofdstuk introduceert probability (kansen).

Statistici vertrouwen op randomness om bias te voorkomen.
Het is belangrijk om zoveel mogelijk observaties te houden om zo de kansen zo laag mogelijk te
houden, en de effecten daadwerkelijk toe te schrijven aan de variabelen ipv aan kans.

Er bestaan programmas om het gooien met een dobbelsteen na te bootsen. Elke gesimuleerde gooi
met de dobbelsteen wordt een trial genoemd. Bij elke trial wordt ook de proportie van een bepaald
getal weergegeven. Dit wordt cumulative proportion genoemd.

Met willekeurige verschijnselen (random phenomena) is het zo dat de proportie van iets op de korte
termijn zeer willekeurig en variabel is, maar op de lange termijn zeer voorspelbaar (vb. dobbelsteen).
De kans van 1/6 met een dubbelsteen is de kans op de lange termijn.

Propability represents long-run results (proportions).
De kans op een uitkomst is de proportie (breuk, soms percentage) van het aantal keren dat de
uitkomst voorkomt op de lange termijn.

De proeven/gebeurtenissen zijn onafhankelijk van elkaar. Dit omdat wat voorheen in dezelfde proef
gebeurde, heeft geen effect op wat er in deze proef gebeurd (vb. als een gezin al 4 meisjes heeft
gehad blijft de kans op een jongen 50%, en wordt het niet meer. Of als er met een dobbelsteen al
heel lang geen 5 is gegooid, blijft de kans op het 5 gooien 1/6) = Independent trials.

Net zoals bij proporties, is de totale som van de kansen 1.


Type kansen:
1. Relatieve frequentie
Kans op een uitkomst adhv lange termijn proportions. Maar soms zijn er geen lange termijn
effecten bekend (eerste space shuttle de lucht in, leven na de dood, mijn bruiloft een succes)
2. Subjectieve definitie van waarschijnlijkheid/kans
ipv objectieve informatie zoals data. Schat de kans op een uitkomst dmv het meerekenen
van alles informatie waar je over beschikt. Is persoonlijke mate van geloof in een uitkomst
door alle beschikbare informatie.
Een tak van de statistiek die subjectieve waarschijnlijkheid als fundament gebruikt: Bayesian
statistics.


5.2
De set van alle mogelijke uitkomsten voor een random fenomeen = sample space.
vb. als je 1 keer dobbelt met een eerlijke dobbelsteen is de sample space {1, 2, 3, 4, 5, 6}
als je twee keer met een munt gooit is de sample space {KK, KM, MK, MM}.

Om het aantal mogelijke uitkomsten te vinden vermenigvuldig je het aantal mogelijke uitkomsten
(ja/nee/soms) met elke proef (vb. 2 vragen) = 3x3 = 9 mogelijke uitkomsten.

Een event is een subset/groep van een sample space waarin je vb. eisen kan stellen als: alle
studenten die geslaagd zijn, waarbij minstens twee van de drie vragen goed moeten zijn beantwoord.

Elke uitkomst in de sample space, en elk event heeft een kanspercentage.

De kansen van elke uitkomst van de sample space moet voldoen aan de volgende voorwaarden:
- De kans van elke individuele uitkomst moet tussen de 0 en de 1 liggen.
- Alle kansen bij elkaar opgeteld is gelijk aan 1.
Vb. sample: Jamal, Ken, Linda en Mary. {JK, JL, JM, KL, KM, LM} Voor elke mogelijke sample is de kans
dat hij wordt gekozen 1/6 en de totale kansen bij elkaar 6(1/6)=1.
Wat is de kans dat de sample bestaat uit een man en een vrouw? 4(1/6)= 4/6 = 2/3.

Als elke uitkomt even waarschijnlijk is, is de kans op een individuele uitkomst 1/aantal mogelijke
uitkomsten. Zoals hierboven 1/6.


De kans van een event (een groepje) is: zoals hierboven aantal mogelijke manieren man/vrouw
delen door het totaal aantal mogelijke manieren = 2/3.


Kan alleen gebruikt worden als kansen gelijk zijn!
Vb. bij random sampling, dobbelen, kop-munt.



Basisregels bij het vinden van de kansen van een paar events:
a. De uitkomst van een event die niet in het andere event plaatsvindt (complement of an event)
b. De uitkomsten zijn in het ene en in het andere event (intersection of events)
c. De uitkomsten zijn in het ene of het andere event (disjoint/ mutually exclusive events)

a. A
c
= A-complement = niet A. De kansen van A en A
c
zijn 1. P(A
c
)

= 1 P(A)
vb. wanneer je de kans van het voorkomen van minstens 1 van de events moet berekenen, is
het makkelijker om de kans van het complement te vinden: geen keer voorkomt (p.227).
Deze zijn ook disjoint van elkaar (zie c.).
b. Intersection = P(A en B) (overlap).
Kans berekenen dmv celproportie in kruistabel waarin beide voorkomen / totaal.
OF: P(A) x P(B), alleen geldig bij onafhankelijke variabelen!!
Union = P(A of B) (of allebei) .
P(A) + P(B), maar daar zit een deel overlap bij (behalve bij disjoint niet)
Dus: P(A of B) = P(A) + P(B) P(A en B) bij niet disjoint
P(A of B) = P(A) + P(B) bij disjoint.
c. Twee events zijn disjoint wanneer ze geen enkele overeenkomsten hebben (afhankelijk).
Het door een student beantwoorden van precies 1 vraag goed, is een disjoint van het
beantwoorden van precies 2 vragen goed want dit kan niet tegelijk plaatsvinden.




Manieren om een sample space weer te geven:
- Boomdiagram (pag. 222) (ideaal voor het visualiseren van kleine aantallen)
- Kruistabel? (pag. 225)




5.3
Voorwaardelijke/conditionele kans = kans op A, gegeven B: P(A|B)

P(A|B) = P(A en B) > cel
P (B)


Medische tests:
Test is positief als hij zegt dat conditie aanwezig is.
Test is negatief als hij zegt dat conditie niet aanwezig is.

Sensitiviteit = conditie aanwezig + test positief
Specificiteit = conditie afwezig + test negatief
False positive: conditie aanwezig + test negatief
False negative: conditie afwezig + test positief


De kans dat A en B allebei voorkomen bij afhankelijke (iig ongelijke) events (pag. 239):
P(A en B) = P(B) x P(A|B) = P(B) x [P(A en B)/P(B)]
P (B en A) = P(A) x P(B|A) = P(A) x [P(B en A)/P(A)]


Bij zonder terugleggen is antwoord afhankelijk van het vorige antwoord.
Onafhankelijkheid = de kans dat de ene voorkomt, niet afhankelijk is van de kans dat de ander
voorkomt.

Checken van onafhankelijkheid:
- Is P(A|B) = P(A)?
- Is P(B|A) = P(B)?
- Is P(A en B) = P(A) x P(B)?
Al s het antwoord op een van deze vragen ja is, dan is het antwoord op alle vragen ja
en dan zijn A en B onafhankelijk.



5.4 Toepassen van de kansregels!

Een kansmodel verzamelt het aantal mogelijke uitkomsten uit een sample space en rekent daarmee
in het kwadraat (kan als waarden onafhankelijk zijn) (pag. 249 voorbeeld).


Wat zijn voorwaardelijke kansen???? P(A|B) gegeven dat ?


Prevalentie van drugsgebruik = de waarschijnlijkheid van het drugsgebruik op een gegeven moment.
Goed voorbeeld, zie pag. 251.






Hoofdstuk 6 Kansverdelingen

6.1
Kansverdelingen (probability distributions)
- Normale verdeling (bell-shaped, speel sleutelrol bij inferentile statistiek)
- Binomiale verdeling (voor kansen met binaire data = tweedelig; 2 uitkomsten mogelijk)


Een random variabele is een numerieke (numerical) meting van het resultaat van een willekeurig
fenomeen.

x = variabele, mogelijke waarde van een random variabele (vb. x = 2).
X = verwijzen naar de variabele zelf, in plaats van naar de waarde
(vb. X = aantal kop in 3x gooien met een munt).


Omdat een rondom variabele verwijst naar de uitkomst van een willekeurig verschijnsel, heeft elke
mogelijke uitkomst een specifieke kans van optreden. De kansverdeling van een random variabele
geeft de mogelijke waarden en hun kansen.

Variabelen kunnen:
- Kwantitatief (numerical) zijn; met betrekking op hoeveelheid (mm neerslag op dag).
Cijfers moeten wel grootte aangeven (dus geen postcode, ene is niet groter dan andere).
Discreet: hele waarden (vb. aantal kinderen per gezin; geen halve kinderen)
Continu: wel halve en tientallen (vb. lengte)
- Kwalitatief (categorical) zijn; variabelen nemen kenmerken/categorien aan ipv cijfers
(wel/geen neerslag op een dag).


Kansverdeling voor discrete random variabelen (alleen hele getallen):
- Kans aan elke mogelijke waarde
- Elke kans valt tussen 0 en 1, en de som van de kansen van alle waarden is 1.

Om de eigenschappen van een kansverdeling weer te geven, kunnen we het gemiddelde (centrum),
de mediaan, kwartielen en de staandaarddeviatie (spreiding) gebruiken.


Parameters: getal dat een eigenschap van een populatie weergeeft.
= mu = gemiddelde van de populatie > alle waarden x kansen optellen , zie pag. 271, red sox.
= sigma = standaardeviatie van de populatie > meet spreiding, hoe hoger getal, hoe groter
spreiding. Beschrijft hoe ver de variabele van het gemiddelde afligt.

= van een kansverdeling is de som van alle waarden x kansen.
Hierbij niet optellen en delen door totaal aantal omdat sommige uitkomsten vaker
voorkomen dan anderen!! Wordt ook wel verwachtte waarde van X genoemd.


Statistic: getal dat een eigenschap van een steekproef weergeeft.
= gemiddelde van de steekproef
s = standaarddeviatie van de steekproef


Kansverdeling voor kwalitatief (categorical) variabelen:
- Bij twee categorien is het makkelijk om de twee mogelijke uitkomsten te noteren met
numericale waarden (0 en 1).
- De kans bij van de categorien bij elkaar opgeteld blijft 1.


Kansverdeling voor continue random variabelen (ook halve getallen):
- De kans dat een variabele in een bepaalde interval valt is tussen 0 en 1.
- De kans van alle mogelijke waarden in de totale interval is 1.
- De kans dat een variabele boven een bepaalde waarde komt is 0? Maar de kans dat een
variabele tussen x en x zit is ? pag. 276.

6.2
De normale verdeling wordt gebruikt voor continue variabelen en wordt gekarakteriseerd door een
symmetrisch, nauwkeurige, bell-shaped kromming met twee parameters:
= mu = gemiddelde van de populatie > reel getal normale
= sigma = standaardeviatie van de populatie > positief getal verdeling













Z = 1 = 68% (valt tussen - en + )
Z = 2 = 95 % (valt tussen -2 en + 2 )
Z = 3 = bijna 1 (valt tussen - 3 en + 3 )

De Empirische regel:
Als een verdeling van gegevens in bel vorm is (unimodaal en symmetrisch) = normale
verdeling! ongeveer:
- 68% van de observaties valt binnen 1 standaarddeviatie vanaf het gemiddelde. Dat is
tussen en =
- 95% van de observaties valt binnen 2 standaarddeviaties vanaf het gemiddelde ( )
- Alle/bijna alle observaties vallen binnen 3 standaarddeviaties vanaf het gemiddelde
( ).










Wat als je de kans binnen vb. 1.43 standaarddeviaties wil vinden? Je kan dan een tabel (pag. 282)
gebruiken die de normale cumulatieve kansen classificeert beneden het punt + z .

Vb. cumulatieve kans 0.9236 = kans onder + 1.43 (zie pag. 282).
Complementaire kans boven 1.43 standaarddeviaties is dan 0.0764. (1 0.9236).
Door de symmetrie van de kromming, refereert deze kans ook naar de linkerkant onder - 1.43

DUS: omdat de getallen in de tabel de kansen onder + z zijn, is 1 die kans, de kans boven + z .
De getallen uit de tabel zijn de linkerkant, de andere getallen zijn de rechterkant.
De negatieve z-scores in de tabel refereren naar cumulatieve kansen onder het gemiddelde!

Als een waarde bijvoorbeeld twee standaarddeviaties onder het gemiddelde ligt dan:
z-score = -2.00
cumulatieve kans = 2 = in tabel A = 0.0228.
Door symmetrie is rechterzijde kans van twee standaarddeviaties boven het gemiddelde ook 0.0228


Z-score = aantal standaarddeviaties een variabele van het gemiddelde ligt.

Z = x


X = +z

Gebruiken bij:
- Als een waarde x gegeven is, en een kans gevonden moet worden, dan kan x
omgerekend worden naar een z-score, dan tabel A gebruiken om een cumulatieve kans
te vinden (Vb. Als een van jou toetsscores was x = 650, hoeveel standaarddeviaties was
dat van het gemiddelde en hoeveel procent had hoger dan jou?).
- Als een kans gegeven is, en je de variabele x moet vinden, reken de kans om naar een
cumulatieve kans en vind de z-score door tabel A te gebruiken (Vb. zie pag. 286).
- Vergelijken van observaties met verschillende vergelijkingen.

De standaard normale verdeling is de normale verdeling met een gemiddelde van 0 en een
standaarddeviatie van 1. En een verdeling van normale z-scores.
Als x = -2, z-score =-2, Als x = 2, z-score = 2.


Z = x = x 0 = x
1



6.3
De binomiale verdeling (voor kansen met binaire data = tweedelig; 2 uitkomsten mogelijk)Vb:
- Een persoon kan een aanbod aanvaarden of weigeren
- Heeft wel of geen zorgverzekering
- Stemt ja of nee in een referendum

De binomiale geeft weer hoe vaak een bepaalde uitkomt voorkomt. Vb. n = 5 (=trials), laat de
variabele x het aantal mensen weergeven wie ja gestemd heeft. De mogelijke waarden voor X = 0,
1, 2, 3, 4, 5.
De binomiale verdeling geeft kansen weer voor mogelijke uitkomsten van x als:
- Elke n (proeven) 2 mogelijke uitkomsten heeft. De uitkomst van belang wordt succes
genoemd en de andere wordt failure genoemd.
- Elke n (proef) heft dezelfde kans op succes. Dit wordt aangegeven met p dus de kans op
faillure is 1-p.
- Elke n is onafhankelijk; de uitkomst van de ene proef heeft geen effect op de uitkomst
van de andere proef.
De binomiale random variabele X is het aantal successen in n aantal proeven.
Stel er wordt n=3 keer met een munt gegooid en kop = succes, dan is de binomiale random variabele
X het aantal keren kop. X = 0, 1, 2, 3. Voor een goed voorbeeld (Extrasensory perception) zie pag. 293

Kans op succes = P
Elke onafhankelijke proef = n

Kans op x successen:









Het symbool n! wordt n faculteit genoemd.
0! = 1?
1! = 1
2! = 1x2=2
3! = 1x2x3=6
4! = 1x2x3x4=24










De binomiale verdeling is ongeveer normaal als de verwachte cijfers van succes en mislukking, np en
n( 1 p), zijn allebei minstens 15.








Hoofdstuk 7: Steekproef verdeling

7.1
Uitkomsten van stemmers worden voorspeld door middel van exit polling: een poll waarin
stemmers meteen na het stemmen gevraagd wordt wat ze gestemd hebben. Een organisatie
voorspelt dan de uitkomsten op basis van een kleine groep mensen (steekproef). Wat mensen
verbaasd is dat deze voorspellingen bijna altijd kloppen.

Statistic: getal dat een eigenschap van een steekproef weergeeft.
Parameter: getal dat een eigenschap van een populatie weergeeft.

In werkelijkheid, zijn de waarden van parameters bijna altijd onbekend. Parameters worden geschat
met behulp van steekproef gegevens. Met ander woorden: statistics worden gebruikt om
parameters te schatten.

Descriptive Statistics worden meestal weergegeven aan de hand van grafieken en
percentages (Description).
Inferential Statistics wordt gebruikt als er besluiten of voorspellingen over een populatie gedaan
dienen te worden (Inference), gebaseerd op data uit een steekproef/sample van die
populatie.

Dit hoofdstuk gaat over een type kansenverdeling dat helpt om vast te stellen hoe dicht een
voorspelling uit een steekproef waarschijnlijk zal vallen bij de parameter (terwijl je grootte van totale
populatie die je wilt meten niet weet?).

Zeg dat bij een verkiezing voor presidentschap 0.56 van alle stemmers heeft gekozen voor
Schwarzenegger, dan is 0.56 de populatie proportie. Zien we dan bij de steekproef proportie dan
eenzelfde soort proportie? Of zijn ze totaal anders? Om daar achter te komen moet er iets geleerd
worden over de kansenverdeling die kansen voorziet van mogelijke waarden van de steekproef
proportie.

Een steekproefverdeling (sampling distribution) geeft alle mogelijke waarden van een
steekproefproportie en de kansen van die waarden, omdat verschillende steekproeven verschillende
uitkomsten zouden geven (omdat alle mensen en alle uitkomsten anders zouden zijn). Is vorm van
kansenverdeling en laat zien hoe een statistic keer op keer varieert bij verschillende steekproeven.
Helpt ons voorspellen hoe dicht een statistic bij de parameter valt die hij begroot heeft.


P(Arnold Schwarzenegger president) = 0.50
Om een populatie te simuleren waarin precies 50% van alle stemmers op Schwarzenegger heeft
gestemd worden er 50 getallen gebruikt tussen 00 en 49 voor het stemmen op Schwarzenegger. De
overige getallen, van 50 tot 99 zijn stemmers voor de andere kandidaat (als je de kans wilde
berekenen op precies 60% Schwarzenegger stemmers, zouden de getallen 00 tot 59 gebruikt worden
voor hem, en 60 tot 99 voor de andere kandidaat).
n = 6
Met random getrokken nummers 10,22,24,42,37,77 zou de steekproefverdeling (sample proportion)
5/6 zijn. Met de random getrokken nummers 80,68,30,67,70,21 zou de steekproefverdeling 2/6 zijn.
Dit varieert per steekproef. Daarom is het beter om een grotere steekproef te houden met n=1000.
Deze steekproef van n=1000 kan je 10000 keer herhalen. Figuur 7.2 laat de steekproefverdeling
hiervan zien. Hoe groter de steekproef, hoe preciezer.


Voor een random genomen steekpreef met n personen van de populatie, met een proportie p als
uitkomst in een specifieke categorie, de steekproefverdeling van de proportie van die steekproef in
de specifieke categorie heeft:

Gemiddelde = p

Standaarddeviatie =

Stel: steekproef onder 2705 stemmers, en ga ervan uit dat precies 50% van de populatie op
Schwarzenegger heeft gestemd. Wat was het gemiddelde en de standaarddeviatie van de
steekproefverdeling van de proportie die in de steekproef op hem heeft gestemd?
Gemiddelde = p = 0.50

Standaarddeviatie =

Afgerond is dit 0.01. Dit wil zeggen dat we met de steekproef waarschijnlijk een steekproef proportie
van 0.49 of 0.51 zullen meten. In elke steekproef met 2705 personen zal de steekproefproportie die
voor Schwarzenegger gestemd heeft variren en zal de standaarddeviatie rond de 0.01 zitten. Dit
kleine getal zegt dat met een n = 2705 de steekproefproportie waarschijnlijk dichtbij de
populatieproportie zal vallen.


Waarom willen we de steekproefverdeling weten??
Omdat het weergeeft hoe dicht een steekproefproportie bij een populatieproportie zit (waar we
daadwerkelijk in genteresseerd zijn).

In 6.3 gelezen dat de binomiale verdeling is ongeveer normaal als de verwachte cijfers van succes en
mislukking, np en n( 1 p), allebei minstens 15 zijn. Hier is np = n( 1 p) = 2705(0.50) = 1352.5, dus
beiden veel groter dan 15.



Om onderscheid te kunnen maken tussen de standaarddeviatie van een steekproefverdeling en de
standaarddeviatie van een normale kansenverdeling, zal de standaarddeviatie van de
steekproefverdeling de standaard error (standaardfout) genoemd worden.


Populatieverdeling (population distribution): Dit is de kansverdeling van waaruit we een steekproef
trekken. De waarden van de parameters zijn normaal gesproken onbekend. Het vaststellen van deze
parameters is het doel van het onderzoek.

Verdeling van de data (data distribution): Dit is de verdeling van de steekproefdata. In werkelijk
wordt slechts deze verdeling waargenomen. Kenmerken van de steekproef worden weergegeven
door statistics. Bij een aselecte steekproeftrekking geldt dat, hoe groter de steekproefomvang (n) is,
des te beter weerspiegelt de verdeling van de data de verdeling in de populatie.

Steekproevenverdeling (sampling distribution): Dit is de kansverdeling van een statistic. Door het
trekken van een aselecte steekproef kan steekproevenverdeling opgesteld worden (kansen voor alle
mogelijke waarden van de statistic). Kennis over de steekproevenverdeling maakt het mogelijk
uitspraken te doen over hoe dicht een steekproef statistic zal liggen bij de betreffende onbekende
parameter. De standaarddeviatie wordt de standaardfout genoemd.

Voorbeeld:

Tijdens Senaatsverkiezingen in de VS wordt het volgende geobserveerd.

Een exit poll (steekproef) van 1336 kiezers gaf aan:
67% (895) voor Clinton Dataverdeling, 1336 waarden van x, waarbij 67% is 1 en 33% is 0.
33% (441) voor Spencer

Na telling van 4,1 miljoen stemmen bleek:
68% voor Clinton Populatieverdeling, 4,1 milj. waarden van x, waarbij 68% is 1 en 32% is 0.
32% voor Spencer

Stel X= stemgedrag, met x=1 voor stemmen op Clinton en x=0 voor stemmen op Spencer.

De steekproevenverdeling van de steekproef proportie is bij benadering een normale verdeling met
p= 0,68 (gemiddelde) en Standaard error = (wortel over hele som) 0,68(1-0,68)/1336=0,013
Alleen de steekproevenverdeling is klokvormig; de dataverdeling en populatieverdeling zijn discreet
omdat ze alleen voor 0 of 1 kunnen kiezen.

Standaard error =

7.2
Dus: de steekproefverdeling is een kansenverdeling voor de eventuele waarden van een Statistic (=
getal dat eigenschap van steekproef weergeeft).

= gemiddelde van de steekproef
= gemiddelde van de populatie

Het gemiddelde van de steekproef varieert van steekproef tot steekproef en schommelt om het
gemiddelde van de populatie (is een vast aantal).

De standaarddeviatie van een steekproefverdeling van het steekproefgemiddelde wordt standaard
error of genoemd, zodat deze niet door elkaar gehaald wordt met de standaarddeviatie van
andere verdelingen (normale verdeling).


Standaard error = Standaard deviatie populatie =
(Wortel) steekproefgrootte


Het middelpunt van de steekproefverdeling van het steekproefgemiddelde is het gemiddelde
van de populatie .

Hoe groter de steekproef, hoe dichter het steekproefgemiddelde bij het populatiegemiddelde zal
vallen, hoe kleiner de standaard error!
Dus: hoe groter n, hoe kleiner de standaard error.

Central limit theorem: de steekproefverdeling van het steekproefgemiddelde heeft een zowat
normale verdeling bij random steekproeven met een hoge n (vanaf ongeveer n=30).



7.3
De central limit theorem en de formule voor de standaard error van het steekproefgemiddelde
Impliceren het volgende:
- Als de steekproefverdeling van het steekproefgemiddelde zo goed als normaal is, dan
valt (steekproefgemiddelde) met een kans van 95% binnen 2 standaard errors van
(populatiegemiddelde) en valt bijna zeker binnen 3 standaard errors van .
- Bij een grote steekproef (n), is de steekproefverdeling zo goed als normaal, ook al is de
populatieverdeling dat niet (scheef).


Niet alle bell-shaped curves representeren de normale verdeling!
De normale verdeling refereert aan een bepaalde bell-shaped curve: de curve die ontstaat adhv het
genereren van steekproefverdelingen voor vele statistics met hoge random steekproeven.

Je hebt twee soorten betrouwbaarheidsintervallen:
1. voor categorische variabelen geldt de populatie proportie
2. voor de kwantitatieve variabelen geldt het populatie gemiddelde
Om deze intervallen te berekenen, heb je verschillende formules nodig.

1. De formule voor het betrouwbaarheidsinterval voor de populatie proportie is:
- steekproef proportie margin of error = p z(se)
o met als z de z-score behorende bij het percentage betrouwbaarheid.
- De standaard fout hierin is: se = ( 1- )/n
o is de steekproef proportie gebaseerd op n observaties. (Agresti p. 362,363)

2. De formule voor het betrouwbaarheidsinterval voor het populatie gemiddelde is:
- steekproef gemiddelde margin of error = x (t0.25(se))
o Met t als vervanging voor de z score. T hangt af van df, degree of freedom: n-1.
Het getal waar in deze formule 0.25 staat hangt af van het
betrouwbaarheidsniveau. Als je een 95% betrouwbaarheidsinterval wil, moet je
t0.25 uitrekenen, als je een 80% betrouwbaarheidsinterval wil, moet je t0.100
uitrekenen. Gebruik hierbij tabel b op A-3 in Appendix A in Agresti & Franklin.
- De standaardfout hierin is: se=s/n
o s staat hier voor de standaarddeviatie van je steekproef.

De binomiale verdeling (voor kansen met binaire data = tweedelig; 2 uitkomsten mogelijk)Vb:
- Een persoon kan een aanbod aanvaarden of weigeren
- Heeft wel of geen zorgverzekering
- Stemt ja of nee in een referendum

De binomiale geeft weer hoe vaak een bepaalde uitkomt voorkomt. Vb. n = 5 (=trials), laat de
variabele x het aantal mensen weergeven wie ja gestemd heeft. De mogelijke waarden voor X = 0,
1, 2, 3, 4, 5.
De binomiale kansen verdeling is een voorbeeld van een steekproefverdeling. Het is de steekproef-
verdeling voor het aantal successen in n onafhankelijke proeven, uit al de mogelijke steekproeven
die we konden observeren in n proeven.

Steekproefproportie = de binomiale variabele/steekproefgrootte
Met proportie is makkelijker te rekenen omdat het altijd tussen de 0 en de 1 valt.
De formules voor het gemiddelde en de standaarddeviatie (standaard error) van de
steekproefverdeling van de proportie van het aantal successen heeft:
Gemiddelde = p
Standaard error = p( 1-p)/n.


Paragraaf 6.3 gaf: voor binomiale random verdeling X = aantal successen in n proeven, met de
bijbehorende formules:
Gemiddelde = np
Standaarddeviatie = np( 1-p).


DUS!
Bij het aantal successen:
- Gemiddelde = np
- Standaard deviatie = np( 1-p).
Bij de proportie van successen:
- Gemiddelde = p
- Standaard error = p( 1-p)/n.

p = populatie proportie































Hoofdstuk 8

8.1
Populatie parameters hebben twee type schattingen:
1. Puntschatting (point estimate/estimate): is n getal, de beste schatting voor de parameter.
2. Interval schatting (interval estimate): is een interval van cijfers waarin de parameterwaarde
waarschijnlijk zal vallen.

1. Hoe vindt je de punt van de puntschatting (point estimate/estimate)?
- Voor het populatiegemiddelde is de puntenschatting het steekproefgemiddelde .
- Voor de populatieproportie is de puntenschatting de steekproefproportie.

Wenselijke eigenschappen voor de puntschatting:
- Zuiver (unbiased): schatting komt gemiddeld uit op de waarde van de populatie
parameter. (vb. komt gemiddeld uit op ).
- Kleine (schattings)fout: schattingen liggen dicht bij elkaar (vb. gemiddelde heeft kleinere
schattingsfout dan de mediaan).

2. Hoe vind je de interval van de intervalschatting (interval estimate)?
Omdat de intervalschatting de parameter met een bepaalde zekerheid van betrouwbaarheid schat,
worden deze ook wel de confidence interval (betrouwbaarheidsinterval) genoemd.
Een betrouwbaarheidsinterval is een interval die de meest geloofwaardige waarden van een
parameter bevat. De kans die deze methode een interval die de parameter weergeeft wordt het
betrouwbaarheidslevel genoemd: dit is een cijfer vlakbij 1, vaak 0.95 (95% kans dat de interval de
parameter bevat).
- Gebruik de steekproevenverdeling van de puntschatting.

Voorbeeld van een 95% betrouwbaarheidsinterval voor een populatieproportie:










- De steekproevenverdeling is bij benadering normaal als n groot is (door central limit
theorem).
- Ongeveer 95% valt bij een normale verdeling binnen twee standaard deviaties van het
gemiddelde (precies: gemiddelde 1.96 sd is precies 95% van een normale verdeling)
- De steekproevenverdeling bevat een proportie van 0.95 als je 1.96 keer de
standaardfout van het gemiddelde (populatie proportie) gaat.
95% betrouwbaarheidsinterval: interval dat met 95% zekerheid de populatie parameter omvat.
95% betrouwbaarheidsinterval heeft een foutenmarge (marge of error) van 1,96*standaardfout.
Ondergrens: schatter (=steekproefproportie?) 1,96*standaardfout
Bovengrens: schatter (=steekproefproportie?) + 1,96*standaardfout

Als de steekproef proportie binnen 1,96 standaard errors van de populatie proportie valt, dan bevat
de interval van ondergrens-bovengrens de populatie proportie.



8.2
De data zijn categorical en binary (2 categorien), wat inhoudt dat een observatie wel of niet in de
categorie van interesse valt. De twee mogelijke uitkomsten worden success en failure genoemd.
We verzamelen de data adhv de steekproefproportie van success en construeren een
betrouwbaarheidsinterval (confidence interval) voor de populatie proportie.

Populatie proportie = p
Steekproefproportie = p-hat = = puntschatting (point estimate) van de populatie proportie.

Standard error (standaard fout) van een steekproefproportie = standaard deviatie van de steekproef
verdeling van de steekproefproportie.


Voorbeeld:
In 2000 deed GSS een onderzoek: bent u bereid om een hogere prijs te
betalen voor een veiligere omgeving?
n = 1154
Success = 518
= steekproefproportie = 518/1154 = 0.45

Hoe construeer je een betrouwbaarheidsinterval voor de populatieproportie?
Central limit theorem: steekproefverdeling van is zo goed als normaal (door grote n).
z-score voor 95% met normale verdeling = 1,96*se

Een 95% betrouwbaarheidsinterval voor een populatieproportie (p) is:
- Als er genoeg observaties zijn, kan je gebruiken: 1,96(se)


- Omdat de binomiale variantie gelijk is aan p(1-p), wordt dit: 1,96


- Echter, p is in de praktijk onbekend, dus gebruik: 1,96


Als de steekproef groot genoeg is, is de steekproefverdeling van bij benadering normaal verdeeld
en geldt:

1,96

Maar wat is groot genoeg?? Dit is het geval als: np en n(1-p) zijn <15. (paragraaf 6.3).
Omdat we p niet hebben, gebruiken we .
Groot betekent (minstens 15 successen en minstens 15 failures).
Dit wordt weergegeven als n 15 en n(1- ) 15.

Voor goede oefenvoorbeelden, zie pag. 364 en 366.


8.3
Bij sommige zaken is er een grotere betrouwbaarheidsinterval nodig. Bij 95% is er immers een kans
van 5% dat de populatieproportie buiten de interval valt. Bij medische zaken is vaak meer
betrouwbaarheid nodig.

Met een kans van 99% dat de populatieproportie p binnen de steekproefproportie valt, is de
betrouwbaarheidsinterval: 2,58(se).

Dus: als je de betrouwbaarheidsinterval voor de populatieproportie moet berekenen:
1. Bereken je de = steekproefproportie (x/n)
2. Bereken je de se met de formule (1- ) / n
3. Z-score nodig (in tabel opzoeken) en dan gebruik je de formule z(se).
= point estimate ( ) margin of error (z(se))

Hoe vind je de z-score voor een 90% betrouwbaarheidsinterval in tabel A?
- Als 0.90 binnen de z standaard error van het gemiddelde valt, dan valt 0.10 erbuiten.
- 0.10/2 = 0.05 in elke staart.
- Als je 0.05 opzoekt in het midden van tabel A, vindt je een z = -1,64
Als je 1-0,05 = 0.95 opzoekt in het midden van tabel A, vindt je een z = 1,64
- De 90% betrouwbaarheidsinterval is dan 1,64(se).


Hoe groter de steekproef, hoe meer precies de schatting, dus hoe kleiner de
margin of error = z(se) = z (1- ) / n.
Met vier keer zoveel observaties, halveert het betrouwbaarheidsinterval.

Om de populatieproportie te berekenen moeten er minstens 15 successen en 15 failures zijn!
Als deze er niet zijn, zoals bij het onderzoek van de vegetarirs (0 successen, 30 failures) mag je wel
bij elk 3 optellen (2 successen, 32 failures). n = dan 34 (ipv 30).


Maar, wat als je de betrouwbaarheidsinterval voor het populatiegemiddelde moet berekenen?
1. Het steekproefgemiddelde is de puntschatting voor het populatiegemiddelde .
2. Bereken de se met de formule s/n
3. Z-score nodig (in tabel opzoeken) en dan gebruik je de formule z(se)
= point estimate ( ) margin of error (z(se))



Maar, wat is n te klein is?
De z-score wordt vervangen door een grotere score: de t-score. De verdeling heet de t-verdeling en
representeert de standaard normaal verdeling.
Om te kijken welke t-score je nodig hebt, heb je the degrees of freedom (df) nodig: df = n -1.

Z-score = t-score met df=infinity (oneindig).







8.4
Hoe weet je hoe groot je steekproef moet zijn? Uit hoeveel n moet bestaan om een goede
betrouwbaarheidsinterval te krijgen met een kleine margin of error?

Hoe groot moet n zijn om een populatieproportie te schatten?
- Eerst moeten we besluiten hoe groot de gewenste margin of error moet zijn. Hoe dicht
de populatieproportie bij de steekproefproportie moet liggen.
- Daarna moeten we het betrouwbaarheidslevel van die margin of error vinden.
- Je kan daarbij raden als je al gegevens van vorige selectie hebt. Soms kan dat niet, ja
kan dan raden op 0.50 want dat is de maximale waarde die hij aan kan nemen. Dit is
ook niet altijd handig omdat n dan veel groter uit kan vallen dan nodig.
Een formule om n te schatten voor de populatieproportie:




Voor het berekenen de steekproefgrootte van een betrouwbaarheidsinterval voor een
populatieproportie waarbij:
n = de steekproefgrootte is die je wilt weten
= steekproefgrootte die je kan raden uit vorige steekproeven, of je neemt veilig 0,50.
z = z-score, gebaseerd op betrouwbaarheidslevel (zoals 95%)
m = marge of error



Hoofdstuk 4 introduceerde Approximate margin of error om de populatieproportie te schatten =


Vb. 609 mensen ondervraagd. Sample size is dus n = 609.
42 % geloofde wel, 56 % geloofde niet, 2% had geen mening.





Wat is de connectie met deze schatting en de meer exacte margin of error formule?

Vb. 1.96 (1- ) / n voor een 95% betrouwbaarheidsinterval
Als je de z-score naar 2 afrond, en de 0.50 neemt, dan heb je de maximale standaard error =
2 0,50 (0,50) /n = 2(0,50) 1/n = 1/n.

Je berekent met de eenvoudige formule dus een geschatte margin of error, maar omdat je de
maximale getallen pakt, kan hij nooit hoger zijn dan dat.



Hoe groot moet n zijn om het populatiegemiddelde te schatten?
- Eerst moeten we besluiten hoe groot de gewenste margin of error moet zijn. Hoe dicht
de populatieproportie bij de steekproefproportie moet liggen.
- Daarna moeten we het betrouwbaarheidslevel van die margin of error vinden, maar als
je n niet weet, weet je df ook niet en dan weet je de t-score dus ook niet. MAAR: we
zagen dat als df > 30, de t-score vrijwel gelijk aan de z-score is, zoals 1,96 voor 95%.
- Daarnaast weet je ook de standaardeviatie van de steekproef niet, waardoor je de
standaard error niet uit kan rekenen.

Een formule om n te schatten voor het populatiegemiddelde:
= sd vd populatie (onbekend; schatten, van de range)
m = margin of error
z = z-score

In Hoofdstuk 2.4 werd genoemd: voor een bijna bell-shaped verdeling, we kunnen de
standaarddeviatie schatten omdat die ongeveer van de range is! (voorbeeld: pagina 390).


- Margin of error = de grootte van de foutmarge resulterend uit het nemen van een
random steekproef in plaats van de populatie = sampling error?



8.5
De bootstrap is een simulatief progrogramma die bovenstaande voor je uitrekent.














Hoofdstuk 9
9.1

Inferential Statistics wordt gebruikt als er besluiten of voorspellingen over een populatie gedaan
dienen te worden (Inference), gebaseerd op data uit een steekproef/sample van die
populatie.

Een inferentile methode = significante test = hypothesetoetsing analyseert het bewijs van de data?


De twee grootste methodes om voorspellingen over een populatie te doen:
1. Betrouwbaarheidsinterval (vorige hoofdstuk)
2. Hypothesetoetsing

Voordat de hypothesetoetsing wordt gedaan, identificeren we de variabele die gemeten moet
worden en de (populatie) parameter waarin we genteresseerd zijn.
- Bij categorische variabelen is de parameter een proportie.
- Bij kwantitatieve variabelen is de parameter het gemiddelde.

Een hypothesetoetsing (significance test) bestaat uit 5 stappen:
1. Assumpties (veronderstellingen) waaraan het moet voldoen:
- Data bemachtigt adhv random sampling of random toewijzing
- Steekproefgrootte en/of de vorm van populatieverdeling
2. Hypothesen opstellen:dit doe je voordat je de data bekijkt/analyseert.
Elke hypothesetoetsing heeft twee hypothesen over de parameter:
- De nulhypothese (= H0):
o Geeft een specifieke waarde voor de parameter aan
o Representeert meestal de situatie waarbij geen effect is
- De alternatieve hypothese (= Ha of H1)
o Geeft een bereik van alternatieve waarden aan
o Representeert meestal de verwachte waarden als er wel een effect is
- De nulhypothese wordt voor waar aangezien, totdat het tegendeel bewezen is.
3. Toetsingsgrootheid (test statistic)
- Beschrijft hoe ver de geobserveerde waarde (steekproefproportie ) van de
veronderstelde waarde (de nulhypothese P0) valt, relatief naar wat we verwachten als H0
waar zou zijn. Deze afstand wordt meestal weergegeven in het aantal standaard errors
tussen de twee. Hiervoor wordt vaak een z-score gebruikt:




4. P-waarde:
- We toetsen altijd in de veronderstelling dat H0 waar is. Als de kans op een in de
steekproef geobserveerde toetsingsgrootheid of een meer extreme waarde klein is, dan
verwerpen we de H0-beslissingsregel: als geobserveerde toetsingsgrootheid grens,
verwerp dan de H0.
- P-waarde = de kans op gevonden toetsingsgrootheid k als H0 klopt.
o Als deze p-waarde kleiner is dan de overschrijdingskans van de vooraf gestelde
grenswaarde, wordt de H0 verworpen.
o De kans voorbij de grens wordt het significantieniveau genoemd. Deze ligt
meestal op 0.05 (maar soms ook op 0.90, 0.99, of andere waarden).
o Als de overschreidingskans van k (dit is de p-waarde!!) kleiner is dan het
significantieniveau, wordt de H0 verworpen.
- Vb. Bij een kleine P-waarde, bijvoorbeeld van 0.01, is er een kans van 1% dat (als H0 waar
is) dat we een steekproef waarde zouden verkrijgen als zojuist geobserveerd.
- P-waarde kan je vinden door: de z-score die je zojuist bij de toetsingsgrootheid hebt
uitgerekend, op te zoeken in de zijkanten van tabel A. Goed kijken of het 1-het getal is of
gewoon het getal (ligt eraan of je < = > moet weten.. ).
5. Conclusie:
- Geeft de P-waarde weer en interpreteert deze in de context van het onderzoek.
- Hierin kan je ook aangeven of je je hypothese verwerpt of niet.










9.2 Hypothesetoets voor proportie
Voor categorische variabelen, is de parameter van onze interesse: de populatie proporties in de
categorin.

H0: p = p0
Ha: p >p0 = eenzijdig
OF Ha: p >p0 = eenzijdig
OF Ha: p p0 = tweezijdig

Waarin p0 een proportie tussen 0 en 1 aanneemt en de geschatte waarde van de H0 aanneemt.


Hoe moet de P-waarde genterpreteerd worden?
Een hypothesetoets analyseert de sterkte van het bewijsmateriaal tegen de H0.
- We gaan ervan uit dat H0 klopt, tenzij het tegendeel bewezen wordt.
- Om onszelf ervan te overtuigen dat Ha klopt, moeten we data vinden die H0 tegenspreekt
om aan te tonen dat deze data ongebruikelijk is als H0 waar zou zijn.
- We analyseren of de data ongebruikelijk is (als H0 waar is) door de P-waarde te vinden.
- Hoe kleiner de P-waarde, hoe meer de data H0 tegenspreekt, hoe meer voorkeur voor de
Ha.

You might also like