Professional Documents
Culture Documents
Hfst1 Curs Inleiding
Hfst1 Curs Inleiding
You all have probably heard the story about Malcolm Forbes, who once got lost floating in
one of his famous balloons across miles and finally landed in the middle of a cornfield. He
spotted a man coming toward him and asked: “Sir, can you tell me where I am ?” The man
said: “Certainly, you are in a basket in a field of corn.” Forbes said: “You must be a
statistician.” The man said: “That’s amazing, how did you know that ?” “Easy”, said
Forbes, “your information is concise, precise and absolutely useless!”. (uit: “Looking ahead:
Cross-disciplinary opportunities for statistics” door R. Gnanadesiken)
Statistiek is een wetenschap, die met een eigen methodologie complexe verschijnselen helpt
verklaren. Hierbij hoort het verzamelen, ordenen, beschrijven, voorstellen en interpreteren
van gegevens om, op basis van die informatie, beslissingen te nemen en voorspellingen te
maken.
De statistiek richt zich op waarnemingen uit alle denkbare gebieden. Als voorbeeld geven we
enkele namen van grote afdelingen in de vereniging voor statistiek van de Verenigde Staten:
- biometrics
- statistical education
- business and economic statistics
- social statistics
- physical and engineering sciences
- statistical computing
- survey research methods
- biopharmaceutical statistics
- statistical graphics
- government statistics
- statistics and the environment
- biostatistics
- chemometrics
1.1
1.2. Soorten statistiek
1.2.1. Verzamelende statistiek.
Het verzamelen van gegevens voor het onderzoek wordt gedaan via waarnemingen, metingen,
tellingen of enquêtes bij de elementen van de steekproef. Het is belangrijk dat het vergaren
van gegevens op een correcte manier gebeurt, zodanig dat er een antwoord kan gegeven
worden op de vraagstelling. (Design van een experiment: de proefopzet)
Bij de beschrijvende statistiek gaan we dus van veel informatie naar een samenvattend
overzicht, terwijl we bij de verklarende statistiek van “weinig” informatie naar algemene
beweringen gaan.
Een statistische studie kan een waarnemingsstudie zijn, waarbij we waarnemen wat er
(gebeurd) is en hieruit conclusies trekken. Het kan ook een experimentele studie zijn, waarbij
we een variabele (de factor of onafhankelijke variabele) manipuleren en kijken hoe dit een
andere variabele (afhankelijke variabele, uitkomst) beïnvloedt.
Met een variabele (veranderlijke) bedoelen we het kenmerk dat het onderwerp uitmaakt van
een statistisch onderzoek. Deze eigenschap of kenmerk kan verschillende waarden (meestal
binnen bepaalde grenzen) aannemen voor de verschillende individuen in de steekproef. Als
het gaat over het gewicht van de studenten is “gewicht” een statistische variabele. We noteren
statistische variabelen meestal met hoofdletters X,Y,Z.
1.2
1.4 Soorten data
De gegevens kunnen onderverdeeld worden volgens verschillende criteria. Het is belangrijk te
weten tot welke klasse ze behoren, omdat de te gebruiken statistische technieken dikwijls
bepaald worden door de aard van de data.
1.4.1 De schalen
De gegevens kunnen gemeten worden op verschillende types schalen:
- nominale schaal: beschrijving in woorden (vb: zwart, wit). We spreken dan van kwalitatieve
of nominale variabelen of attributen. De individuen mogen slechts één van de mogelijke
waarden van de variabele krijgen (niet overlappen).
- ordinale schaal: gerangschikte waarden (vb: zeer goed, goed, gemiddeld, slecht). Er is geen
precieze afstand tussen de categorieën.
- intervalschaal: gegevens hebben alle eigenschappen van de ordinale schaal, maar ook de
afstand tussen de verschillende niveaus is betekenisvol. De gegevens zijn numeriek. De
verschillen weerspiegelen een “realiteitsverschil” op een multiplicatieve constante na, die
afhangt van de gekozen eenheid. Het verband tussen verschillende eenheden is lineair maar
het nulpunt is niet absoluut. Een voorbeeld zijn temperatuursgegevens met als mogelijke
eenheden °C en °F (°C = 5/9 °F – 160/9). We kunnen op deze intervalschaal naar verschillen
kijken, die op een multiplicatieve factor gelijk zijn voor de beide schalen. We kunnen echter
geen uitspraken doen over de eigenlijke gegevens, want 2 keer zo warm in °C heeft een totaal
andere betekenis dan in °F.
- verhoudingsschaal (ratioschaal): De meetwaarden hebben alle karakteristieken van de
intervalschaal, maar bovendien kan de verhouding der opmetingen rechtstreeks
geïnterpreteerd worden als een verhouding tussen de werkelijke waarden. Om van de ene
meeteenheid naar de andere over te stappen is enkel vermenigvuldigen met een constante
toegelaten en bovendien is er een intrinsiek nulpunt op deze schaal. Als voorbeeld kun je het
gewicht in kg of in g nemen.
N.B.: In verschillende teksten zal je merken dat men zich soms beperkt tot 3 schalen:
nominaal, ordinaal en interval. De intervalschaal dekt voor deze auteurs zowel de interval- als
de verhoudingsschaal.
1.3
afronden) spreekt men over continue gegevens als deze afkomstig zijn van een fenomeen dat
in theorie een continuum van waarden kan aannemen.
In deze cursus zullen we vrijwel uitsluitend met univariate data van een verhoudingsschaal
werken.
Hieronder zie je een typische dataset voor een groep 2de kandidatuur studenten.
We noteren naam (X0), geboortejaar (X1), een aantal fysieke kenmerken zoals geslacht (X2),
kleur haar (X3), kleur ogen (X4), gewicht (X5), lengte (X6), een aantal studiekenmerken zoals
studierichting (X7), gemiddeld examencijfer in de eerste kandidatuur 1K (X8), gemiddeld
examencijfer bij het eindexamen HSO (X9), en nog veel meer.
Deze gegevens kunnen we ordenen in een tabel van de vorm:
X0 X1 X2 X3 X4 X5 X6 X7 X8 X9
Naam Geboorte- Geslacht Haarkleur Kleur Gewicht Lengte Studie Gem. Gem.
Jaar V=0 bruin = 0 ogen kg cm info=0 1K HSO
M=1 zwart = 1 bruin=0 nat=1 op 20 op
blond = 2 blauw = 1 sch=2 100
rood = 3 grijs = 2 bio=3
groen = 3
Jan Jansen 1986 1 0 0 83.7 187 0 18 75
Irma 1985 0 2 3 62.1 162 3 12 62
Douce
Aan een universiteit waren vorig jaar bij de eerstejaarsstudenten 35.5% van de
meisjesstudenten en 41% van de jongensstudenten geslaagd. Mogen we nu besluiten dat
jongens slimmer zijn dan meisjes ?
Laat ons eerst de resultaten aan deze universiteit eens iets meer in detail bekijken en op zoek
gaan naar de studierichtingen, die het meest verantwoordelijk zijn voor het feit dat er zoveel
meisjes falen.
1.4
Faculteit Ingeschreven Geslaagd
Meisje Jongen Meisje Jongen
aantal aantal aantal percent aantal percent
Economie 300 300 120 40% 120 40%
Geneeskunde 150 100 60 40% 40 40%
Pedagogie 300 50 90 30% 15 30%
Rechten 200 200 60 30% 60 30%
Wetenschappen 50 350 25 50% 175 50%
Totaal 1000 1000 355 35.5 410 41%
Het is duidelijk dat in elke faculteit het slaagpercentage van jongens en meisjes exact
hetzelfde is. Hoe komt het nu dat we eerst een verkeerde conclusie zouden trekken ? In deze
studie speelt namelijk een verdoken factor (studiekeuze) een belangrijke rol en het effect van
deze factor is verstrengeld met het effect van geslacht op het studieresultaat. (Je kan zelfs
voorbeelden construeren waarbij het effect omslaat in de andere richting).
Statistiek is dus veel meer dan alleen getallen. Wanneer statistiek vragen uit velerlei
domeinen helpt oplossen, dan is het essentiëel dat de hele context van de vraagstelling wordt
bekeken. Informatie over de proefopzet is cruciaal bij de verdere verwerking van de
waarnemingen en beïnvloedt heel sterk het type beoordeling of beslissing die statistisch nog te
verantwoorden is. De keuze van een geschikte proefopzet (experimental design) om aan je
vraagstelling te kunnen beantwoorden is dus van zeer groot belang. We zullen in deze cursus
echter niet expliciet ingaan op dit belangrijk element bij een statistische studie.
1.5