Professional Documents
Culture Documents
SV Statistiek
SV Statistiek
SV Statistiek
Wat is statistiek?
• Alle vaardigheden die nodig zijn om beter te kunnen analyseren, interpreteren en
presenteren
• Maakt het mogelijk om onderzoek bij een kleine groep mensen (= steekproef) uit te voeren
en toch iets te concluderen over alle mensen waarover we iets willen weten (=populatie)
2 soorten
• BESCHRIJVENDE STATISTIEK
= Analyseren en beschrijven van de steekproef
• INDUCTIEVE STATISTIEK
= Veralgemenen naar de populatie (dmv schattingen) en vergelijken met ander of eerder
onderzoek
Vakjargon
• Onderzoekseenheid: elk subject of object waarover je iets wil weten
(=onderzoekselement/onderzoeksobject)
– Populatie: alle
– Steekproef: selectie
– Respondent: persoon
– Case/record: 1
Vakjargon (2)
• Onderzoekseigenschappen: eigenschappen van onderzoekseenheden
= variabelen
» Onafhankelijke variabele
» Afhankelijke variabele
Representativiteit
Om veralgemening naar de populatie mogelijk te maken, moet de steekproef
1. Voldoende groot zijn
2. Toevallig getrokken zijn
Iedereen moet evenveel kans hebben te worden geënquêteerd
3. Qua eigenschappen van de onderzoekseenheden dezelfde samenstelling hebben als de
populatie
Zeer veel aandacht aan geven!
Veralgemening naar populatie mogelijk maken
1 Aan de slag met steekproefgegevens = beschrijvende statistiek
1.1 Tabellen en grafieken
Tabellen
• Zeer belangrijk in rapportage
• Frequentietabel en kruistabel
• Frequentietabel:
Frequentietabel in rapport:
Kruistabel
• Frequentietabel voor delen van de steekproef
• Nagaan of er een verband is tussen de onafhankelijke en de afhankelijke variabele
– bv: geven vrouwen meer geld uit dan mannen
• Interpretatie minder eenvoudig dan het lijkt
Basisgrafieken kruistabel
Grafieken
• Verhoogt de leesbaarheid van het rapport
• Geeft belangrijke indruk over het hele rapport
• In SPSS of Excel
• 2 meest voorkomende:
– Taartpunt
– Staafdiagrammen
Taartpunt
• Samen 100%
• 1 variabele
• Info uit frequentietabel
Staafdiagram
• Kan informatie uit frequentietabel of kruistabel bevatten
• Percentage toevoegen aan staven!
1.2 Meetniveaus
Nominaal en ordinaal: categorisch
o Speciaal soort categorisch = dichotoom
Metrisch : continu
Nominaal
geen rangorde, geen gemiddelde kunnen berekenen
bv: ja-nee vragen
1.3 Tendensmaten
Centrummaten: wat treffen we het meest aan?
o Gemiddelde
o Mediaan
o Modus
Spreidingsmaten: in hoeverre lopen de waarnemingen uiteen?
o Range
o Variantie
o Standaarddeviatie
o Percentielscores: individuele score tov groep
Rekenkundig gemiddelde
• steekproef:
• populatie:
Mediaan
• Middelste waarneming, 50% hoger en 50% lager
• Indien even (en dus 2 middelste): gemiddelde van deze 2
• Vb: scores op tevredenheidsschaal: 1,3,3,6,7
Mediaan?
• Vb: scores op tevredenheidsschaal: 1,2,3,5,6,7
Mediaan?
Modus
• Waarneming die het meest voorkomt
• Vb: scores op tevredenheidsschaal: 1,3,3,6,7
Modus?
• Vb:
Modus?
Output SPSS
Spreidingsmaten: range
• Hoogste – laagste waarneming
• Vaak niet zo betrouwbaar: uitschieters (outliers): ‘wegknippen’ grootste uitschieters
• Range bij homogene en heterogene scores
Variantie en standaarddeviatie
• Vaak gebruikt
• Geeft aan of waarnemingen op elkaar lijken (homogeniteit) of van elkaar verschillen
(heterogeniteit)
• Variantie = gekwadrateerde gemiddelde afstand tov gemiddelde:
– Groot: veel scores ver van gemiddelde
– Klein: veel scores dichtbij gemiddelde
• Standaarddeviatie = wortel uit variantie
Waarom kwadrateren?
Formules
Praktisch
1) bereken het gemiddelde van de scores
2) trek van alle waarden dit gemiddelde af3) kwadrateer de uitkomsten
4) bereken het gemiddelde van deze kwadraten
==> variantie
5) neem hiervan de wortel
==> standaarddeviatie
Voorbeeld
Scores op test: 1,4,7,5,10,3,12 (n=7; N=20)
In het voorbeeld: 7 personen doen tentamen
! Niet realistisch, in de meeste gevallen gaat het niet om de populatie die men onderzoekt,
mar om een steekproef. We gaan dus op zoek naar s, niet naar sigma. Verder zien we hoe we
sigma kunnen schatten.
Percentielscores
• Vergelijken van de score van een individu met de overige scores
• Hoeveel procent van de scores ligt lager dan de score vh individu? = percentielscore van zijn
score
Kwartielen en decielen
• Kwartiel = verdeling van alle scores in 4 delen
– 1ste deel = 25% laagste scores
– 4de deel = 25% hoogste scores
• Decielen = verdeling van alle scores in 10 delen
– 1ste deel = 10% laagste scores
– 10de deel = 10% hoogste scores
2 Inductieve statistiek
Kansbegrip
• We kunnen enkel schattingen maken over populatiewaarden
• Hooguit aangeven met welke waarschijnlijkheid, met welke kans, steekproefresultaten zullen
overeenstemmen met die van de populatie
Frequentie- en waarschijnlijkheidsverdeling
• Frequentieverdeling: concrete verdeling van gegevens uit feitelijk waargenomen
onderzoeksmateriaal
• Waarschijnlijkheidsverdeling: verdeling van gegevens binnen populatie, geschat vanuit de
frequentieverdeling van de steekproef
Frequentieverdeling
Waarschijnlijkheidsverdeling
Normaalverdeling
Gemiddelde modus en mediaan hebben ongeveer zelfde waarde
1 modus
Klokmodel
Verschillende vormen
Standaardnormaalverdeling
= Z-verdeling
Puntschatting
• 1 cijfer
• In voorgaande stelling:
– x = 1500 Euro
– µ = 1500 Euro
• Wat indien andere steekproef?
• Niet zo nauwkeurig
Opmerkingen
• Minstens even belangrijk:
– Representativiteit steekproef (samenstelling, toeval)
– Goede vragenlijst
– Correcte afname vragenlijst
• Omvang populatie niet belangrijk (tenzij kleine populatie)
Eenmaal boven de 400 à 500 respondenten blijft antwoordpatroon stabiel
Intervalschatting
• Tussen welke waarden ligt mijn parameter met een grote waarschijnlijkheid?
• In voorgaande stelling:
– x = 1500 Euro
– 95%(1420< π <1580)
= het gemiddelde inkomen in de populatie ligt tussen 1420 Euro en 1580 Euro, uitgaande van 95%
kans dat deze uitspraak waar is
= betrouwbaarheidsinterval
Betrouwbaarheidsinterval
• Formule 95%-betrouwbaarheidsinterval van het gemiddelde in de populatie:
• Bij 90% wordt dit 1,65; bij 99% wordt dit 2,58
Grootte steekproef
• Hoe groter, hoe nauwkeuriger schatting
• Kostprijs per onderzoekseenheid: duur!
• Hoe bepalen hoe groot steekproef moet zijn?
Steekproefgrootte
• Vertrekken vanuit zelfde formule
• Andersom te werk gaan
• Bij metrische data: