Professional Documents
Culture Documents
Statistiek I I6e2
Statistiek I I6e2
Statistiek I I6e2
Changerecord: versie datum publicatie 5.3 26 april 2010 6 28 mei 2010 6.1 6.2 29 mei 2010 12 april 2011
Veranderingen t.o.v. vorige versie GR instructies toegevoegd H5 Normaalverdeling herschreven en H6 Binomiaalverdeling uitgebreid eea in overeenstemming met de behandelde stof op het hoorcollege 7.4 toegevoegd H1 enkele voorbeelden aangepast, o.a bepaling mediaan
Inhoudsopgave
1
INLEIDING
IN
DE
STATISTIEK
........................................................................................................................
3
1.1
1.2
1.3
1.4
1.5
1.6
2
2.1
2.2
2.3
2.4
3
3.1
3.2
3.3
3.4
4
4.1
4.2
4.3
4.4
5
5.1
5.2
5.3
5.4
5.5
5.6
5.7
6
DE
FREQUENTIETABEL
EN
HET
HISTOGRAM
.................................................................................................................
3
HET
GEMIDDELDE
..................................................................................................................................................
4
DE
MODUS
..........................................................................................................................................................
6
DE
MEDIAAN
........................................................................................................................................................
7
SPREIDING
...........................................................................................................................................................
8
GEBRUIK
GR
......................................................................................................................................................
10
PERMUTATIES
....................................................................................................................................................
11
VARIATIES
.........................................................................................................................................................
11
COMBINATIES
.....................................................................................................................................................
12
GEBRUIK
GR
......................................................................................................................................................
12
HET
BEGRIP
KANS
................................................................................................................................................
13
SOM-
EN
PRODUCTREGELS
....................................................................................................................................
13
VOORWAARDELIJKE
KANS
.....................................................................................................................................
14
KANSEN
BIJ
TREKKINGEN
MET
EN
ZONDER
TERUGLEGGING
...........................................................................................
15
KANSVARIABELEN
................................................................................................................................................
18
KANSFUNCTIE
EN
VERDELINGSFUNCTIE
....................................................................................................................
18
VERWACHTINGSWAARDE
EN
VARIANTIE
...................................................................................................................
20
REKENREGELS
.....................................................................................................................................................
21
INTRODUCTIE
NORMALE
VERDELING
.......................................................................................................................
23
DE
STANDAARDNORMAAL
VERDELING
.....................................................................................................................
23
WISKUNDE
VAN
DE
NORMAALVERDELING
.................................................................................................................
24
KANSREKENING
MET
EEN
NORMAALVERDELING
.........................................................................................................
25
BETROUWBAARHEIDSINTERVALLEN
.........................................................................................................................
26
COMBINATIES
VAN
NORMALE
VERDELINGEN
..............................................................................................................
27
DE
VERDELING
VAN
HET
GEMIDDELDE
VAN
EEN
STEEKPROEF
.........................................................................................
28
KANSFUNCTIES .......................................................................................................................................... 18
DE BINOMIALE VERDELING ........................................................................................................................ 30 6.1 BINOMIALE KANSFORMULE ................................................................................................................................... 30 6.2 KANSREKENING MET DE BINOMIALE VERDELING ........................................................................................................ 31 6.3 DE NORMALE BENADERING VAN DE BINOMIALE VERDELING ......................................................................................... 32
DE POISSONVERDELING ............................................................................................................................. 35 7.1 7.2 7.3 7.4 FORMULE VAN DE POISSONVERDELING .................................................................................................................... 35 KANSREKENING MET DE POISSONVERDELING ............................................................................................................ 36 DE NORMALE BENADERING VAN DE POISSONVERDELING ............................................................................................. 37 BINOM NORMAAL; BINOM POISSON; POISSON NORMAAL ............................................................................. 37
8 9 10 11
FORMULEBLAD .......................................................................................................................................... 38 APPENDIX A: TABEL VAN DE STANDAARD NORMAAL VERDELING .............................................................. 41 APPENDIX B: TABEL VAN DE POISSON VERDELING ..................................................................................... 42 APPENDIX C: TABEL VAN DE BINOMIALE VERDELING ................................................................................. 43
1 INLEIDING
IN
DE
STATISTIEK
Statistiek is een wetenschap, die zich bezig houdt met het verzamelen, ordenen, presenteren en analyseren van gegevens; hierbij gaat het dan om resultaten van experimenten of waarnemingen die niet eenduidig zijn; denk hierbij aan het meten van weerstand, treksterkte, maar ook het gewicht van mensen, etc. Net als op vele andere terreinen ook in de techniek van onschatbare waarde. We zullen ons in dit hoofdstuk hoofdzakelijk het ordenen, presenteren en analyseren beschrijven. Op de manier hoe gegevens verzameld worden gaan we hier niet in.
In dit geval krijgen we een redelijk overzichtelijke tabel, waarin we een aardig idee krijgen over het aantal kinderen in een willekeurig gezin. Merk op dat de meetwaarden in dit voorbeeld discreet van aard zijn en niet continu: je hebt 1 kind of 2 kinderen, maar nooit 1,5
Als veel van de gegevens slechts n keer voorkomen, heeft deze methode niet zoveel zin. De tabel wordt dan veel te lang. In een dergelijk geval voegen we een aantal gegevens, dat min of meer dichtbij elkaar liggen samen tot 1 groep (meestal klasse genoemd) en tellen hoeveel van die elementen er dan in dezelfde klasse liggen. Een dergelijke verdeling noemen we dan een klassenindeling.
Als volgend voorbeeld geven we de uitkomst van een lichaamsgewichtbepaling onder in totaal 112 eerstejaars aviation studenten. Je ziet hieronder een absolute frequentietabel , gebaseerd op een klassenindeling. Merk op dat je het hier hebt over een continue variabele, nl. het gewicht: iemand kan 57,3852194 kg wegen en valt dan dus in klasse 2: de klasse van 55-60 kg.
gewicht 50-55 55-60 60-65 65-70 70-75 75-80 80-85 85-90 90-95
Frequentie 7 7 20 22 23 15 11 5 2
Grafische weergave We kunnen de gegevens ook grafisch weergeven. Met Excel kun je vele grafiekjes en staafdiagrammen maken. Een Staafdiagram is de grafische weergave van de frequentieverdeling van data, afkomstig uit een discontinue verdeling, zoals bijvoorbeeld in geval het voorkomen van typen/stijlen/soorten. Maken we een diagram van een continue verdeling, zoals in het voorbeeld hierboven, dan spreken we van een Histogram of kolommendiagram. Een histogram is de tegenhanger van een staafdiagram bij discontinue verdelingen. Overigens zien beide typen diagrammen er hetzelfde uit, alleen de x-as indeling verschilt. Hieronder staat een histogram van de cijferverdeling in het laatste voorbeeld hierboven:
Dit diagram toont kolommen met oppervlakte ter grootte van de (relatieve) frequenties opgericht boven de klassen.
x=
x
i =1
Hierin staat x voor het rekenkundig gemiddelde xi is een willekeurig getal uit de verzameling.
x=
x
i =1 n i =1
fi
i
Hierin staat x weer voor het rekenkundig gemiddelde. f i staat voor de frequentie waarmee xi voorkomt
f
i =1
=N
Het bovenstaande geldt zolang we van elk element precies de waarde weten. Op het moment dat we te maken hebben met een klassenindeling, weten we niet precies meer wat de waarde van elk element afzonderlijk is. In dit geval gaan we ervan uit dat de element homogeen over de klasse verdeeld zijn. We nemen dan het klassemidden (Dit is de gemiddelde waarde van de ondergrens van de klasse en de bovengrens van de klasse) als representant van de klasse en vermenigvuldigen dat met de frequentie. De formule voor het berekenen van het rekenkundig gemiddelde verandert dus niet, alleen staat xi nu voor het klassenmidden.
x = N xi
i =1
x
i =1
3 5 2 Samen doen ze dus op 1 dag + = 12 deel van het karwei. In totaal zijn ze dus + 12 = 12 Het totaal aantal werkdagen komt dan op 4,8. Dit gemiddelde noemen we het harmonisch gemiddelde. 1 6
dag bezig.
In formule: x =
f
i =1
1 xi
1.3
De
modus
Als we te maken hebben met een frequentietabel, kunnen we het element opzoeken,dat de hoogste frequentie heeft. In het geval dat er maar n element de grootste frequentie heeft, spreken we van de
modus. Dit is een snelle manier van het bepalen van een doorsnee waarde van de verzameling, maar doorgaans ook niet zo heel erg betrouwbaar. Als de frequenties van een aantal elementen elkaar niet zo heel erg veel ontloopt is het gebruik van de modus niet erg betrouwbaar. Ook bij een klassenverdeling komen we een dergelijk begrip tegen. Nu spreken we echter van een modale klasse. Hierbij treden echter een paar probleempjes op. In eerste instantie moeten we er op letten of de klassen elk dezelfde breedte hebben. Indien dit het geval is, is de klasse met de hoogste frequentie inderdaad de modale klasse. In het geval dat de klassenbreedte varieert, hoeft de klasse met de hoogste frequentie niet noodzakelijk de modale klasse te zijn. We moeten dan de frequentiedichtheid berekenen. Deze frequentie dichtheid kunnen we berekenen, door de frequentie te delen door de lengte van het interval. De modale klasse wordt dan de klasse met de hoogste frequentiedichtheid. Als bij een bepaalde klassenverdeling het zo uitkomt dat er een aantal klassen zijn met ongeveer gelijke frequentie, dan kan het zijn dat we de omvang van de klassen verkeerd gekozen hebben. (De klassen zijn misschien te groot of te klein) Een verandering van de klassenbreedte kan dan leiden tot een beter resultaat.
1.4
De
mediaan
Een andere manier om een doorsnee waarde te geven van een verzameling, is het bekijken van de middelste waarde. Hiertoe moeten we de gegevens uit de verzameling eerst ordenen in aflopende of oplopende volgorde. We kunnen dus alleen met een mediaan werken, als de gegevens te ordenen zijn in oplopende of aflopende volgorde. Alleen bij een oneven aantal elementen hebben we een middelste element. Bij een even aantal elementen nemen we voor de mediaan het gemiddelde van de twee elementen, die het dichtst bij het midden liggen. Het bepalen van de mediaan wordt iets lastiger op het moment, dat we met een klassenindeling te maken hebben. Het is dan immers niet duidelijk welke waarde precies de middelste is, omdat we van elke klasse alleen maar weten hoeveel elementen er in zitten. Om toch een redelijke schatting van de mediaan te kunnen maken bepalen we eerst in welke klasse de mediaan ligt. Vervolgens gaan we er van uit, dat de elementen gelijkelijk over de hele klasse zijn verdeeld en onderling op gelijke afstand van elkaar liggen. Op deze manier kunnen we de mediaan uitrekenen. Deze berekening zal dus in veel gevallen een iets andere uitkomst opleveren, dan in het geval, dat we alle waarden exact kennen. Voor de berekening van de mediaan gebruiken we de volgende formule;
x = L+
dat die leeftijd heeft. Maar nu is de verwerking anders: nu is er sprake van een continue variabele, want als een kind 1 jaar is, dan is hij minimaal 1 en nog geen 2 jaar, bijv 1 jaar, 3 maanden, 5 dagen en 7 uur. Dus moeten we concluderen dat de eerste klasse alle kinderen bevat die ouder zijn dan 1 maar jonger dan 2 etc.
x-min x-max
Voeren we nu weer xi en fi in de GR in, dan lezen we af: x-gem=4,3 en med=4,5; we hebben de calculator immers gezegd dat er in de klasse van 4-5 jarigen vier waarden van 4,5 zijn. In deze situatie heeft de GR echter geen gelijk, omdat bij een continue variabele gaat de bepaling van de mediaan anders verloopt. Die vier waarden van de klasse van 4 tot 5 jaar smeren we gelijkmatig uit over de gehele klassebreedte, dwz de eerste waarde ligt op de 4 en de laatste waarden pinnen we op de vijf. Aldus zien we dat de tweede meetwaarde in deze klasse (die tevens de middelste meetwaarde van de gehele verzameling is) nu op 4,3 ligt, zoals we ook vinden als we de bovenstaande formule voor de mediaan gebruiken.
1 2 3 4 5 6
2 3 4 5 6 7
fi 1 2 3 4 3 2
We moeten de frequentietabel van zonet aanpassen tot de tweede frequentietabel hiernaast. En ook moeten we nu andere waarden voor xi nemen, want xi stelt nu het klassemidden voor: xi voor de klasse van 1 jarigen wordt dus nu niet 1 maar 1,5 etc.
1.5 Spreiding
Met alleen maar de waarde van het gemiddelde of de mediaan of de meest voorkomende meetwaarde hebben we een idee omtrent de centrale ligging van een verzameling, maar hebben we nog geen beeld omtrent de ligging van de verschillende elementen van de verzameling ten opzichte van elkaar. We verkrijgen andere belangrijke informatie over de verzameling indien we weten hoeveel de elementen uit de verzameling afwijken van het gemiddelde. Er is een aantal methodes om deze afwijking uit te rekenen. Elke methode levert een ander resultaat op en het ene resultaat is beter bruikbaar dan het andere. In deze paragraaf zullen we enkele methodes bespreken voor het bepalen van de spreiding van een verzameling.
GAA =
f
i =1
* x xi
n i
f
i =1
x het rekenkundig gemiddelde van de verzameling Deze formule kunnen we ook gebruiken in het geval van een klassenverdeling. In dat geval staat xi voor het klassenmidden.
8
In de praktijk wordt GAA niet zo heel vaak gebruikt. Het voordeel is dat het erg simpel uit te rekenen is, het nadeel is, dat we niet erg nauwkeurig een uitspraak kunnen doen over de elementen van de verzameling als we het rekenkundig gemiddelde weten en de GAA .
var iantie =
(
i =1 n i =1
f i * x xi
f * (x x )
i i i =1
f
i =1
xi een willekeurig element uit de verzameling, of het klassenmidden van een klasse.
x het rekenkundig gemiddelde. n het aantal verschillende elementen in de verzameling of het aantal klassen in de verzameling
Het is nu nog lastig om uit te leggen, wat de voordelen zijn van het gebruik van de standaardafwijking ten opzichte van het gebruik van de gemiddelde absolute afwijking. In het hoofdstuk van de normale verdeling bij de kansrekening ( Hoofdstuk 6) komen we hier op terug. Het blijkt dan dat we een uitspraak kunnen doen over het percentage van het aantal elementen dat ligt binnen het interval dat loopt van het gemiddelde minus de standaardafwijking tot het gemiddelde plus de standaardafwijking. ( Dit is ongeveer 67%) Ook zullen we bij de kansrekening te maken krijgen met de variantie. Dit is het kwadraat van de standaardafwijking. Een ander woord voor standaardafwijking is standaarddeviatie.
(Q3 Q1 )
De formules voor het berekenen van Q1 en Q3 lijken erg veel op de berekening van de mediaan.
Q1 = Q3 =
1 4
N f1 f Q1 N f1 f Q3
* sQ1 * sQ3
3 4
1.6 Gebruik
GR
Invoer van een frequentietabel TI-83 plus Kies: stat Kies: edit zet de waarden voor Xi in bijv. L1 zet de waarden voor fi in bijv. L2 Kies: stat Kies: calc Kies: 1-varstats Voer in: 1-varstats L1,L2 Casio Kies: stat scherm Zet de waarden van xi in list 1 en de waarden van fi in list 2 Kies: stat scherm Kies: calc (2e tabblad) Zorg dat onder SET(tabblad rechts) je 1varX op List 1 hebt staan en 1varF op List 2 Kies: 1Var
10
2.1 Permutaties
Veronderstel we hebben een verzameling van een van te voren bekend aantal allemaal van elkaar verschillende elementen. We kunnen ons dan afvragen op hoeveel manieren we deze elementen kunnen noteren. We beginnen met 1 element. Dit is eenvoudig. We kunnen dit slechts op 1 manier doen. Bekijken we 2 elementen, dan zien we dat er 2 mogelijkheden zijn. Veronderstel dat deze elementen a, b zijn, dan kunnen we schrijven: a b en ba Bij 3 elementen wordt het iets ingewikkelder. Kijken we naar het eerste rijtje, dan kunnen we het derde element er voor zetten, er tussenin en er achter. We krijgen dan dus c a b a c b a b c Ook voor de combinatie b a hebben we 3 mogelijkheden. Bij elkaar dus 2*3=6 mogelijkheden Bij 4 elementen a b c d kunnen we d dus op 4 verschillende plaatsen neerzetten in het rijtje a b c namelijk: abcd abdc adbc dabc Dit geldt voor al de 6 mogelijkheden van een rijtje van 3. In totaal dus 6*4=24 mogelijkheden Eigenlijk 1*2*3*4 mogelijkheden Alle mogelijke rijtjes die we uit een aantal elementen kunnen vormen noemen we de permutaties van die elementen. Het aantal permutaties van bijvoorbeeld 3 elementen is 6 (=1*2*3) We kunnen dit ook schrijven als 3! . Dit spreken we uit als 3 faculteit. Als resultaat krijgen we dus:
n!= i = 1 * 2 * 3 * ........ * n
i =1
Uit allerlei praktische overwegingen en om formules op het gebied van statistiek meer algemeen te maken is besloten om 0! te definiren als 1. Realiseer je wel dat n! zeer snel groeit. Dat betekent dat op een gewone rekenmachine het maximum meestal 69! is, omdat het grootste getal, dat de rekenmachine aankan 10 100 is. Grafische rekenmachines kunnen meestal iets grotere getallen aan, maar bij ongeveer 150! Houdt het meestal op.
2.2 Variaties
In de vorige paragraaf waren alle elementen verschillend. De vraag is nu wat er verandert als een aantal elementen dezelfde waarde hebben. Bekijk bijvoorbeeld de letters van het woord KAAL. Als de 4 letters verschillend geweest zouden zijn, dan hadden we 4!=24 mogelijkheden gehad. Schrijven we nu alle mogelijkheden op dan krijgen we: AAKL AKAL AKLA KAAL KALA KLAA AALK ALAK ALKA LAAK LAKA LKAA
11
Dit zijn slechts 12 mogelijkheden. We kunnen dit als volgt verklaren: In dit woord komt 2 keer de letter A voor. Tussen deze 2 As kunnen we geen verschil zien. Wanneer we de beide As zouden vervangen door A1 en A2 dan krijgen we wel 24 mogelijkheden Bijvoorbeeld: LA1 A2 K en LA2 A1 K . Zonder de indices staat hier twee keer dezelfde combinatie. Voor elke mogelijkheid verliezen we dus de helft. Elke voorkomende vorm noemen we een variatie. Het aantal variaties dat we kunnen maken van een verzameling met n elementen, waarvan er m hetzelfde zijn is dus:
n! . m!
Komen meerdere elementen in een hogere frequentie voor, deel je steeds door het aantal faculteit. Bekijk bijvoorbeeld het woordje ANANAS. Hierin zitten 3 As en 2 Ns Het aantal variaties wordt dan:
6! 720 = = 60 In dit geval is 6 het totale aantal letters in het woord. 3!*2! 6 * 2
2.3 Combinaties
In het speciale geval, waarin een verzameling bestaat uit 2 verschillende elementen, die elk een paar keer voorkomen, dan spreken we over combinaties. Bijvoorbeeld: We gooien een munt 10 keer op. De mogelijke uitkomsten zijn K(ruis) of M(unt) Een mogelijke uitkomst is 6*K en 4*M. In een volgend hoofdstuk zullen we een formule gaan bedenken over de kans dat deze situatie zich voordoet. Nu bepalen we eerst op hoeveel manieren we 6*K en 4*M kunnen krijgen. In dit geval zal dit zijn: (zie ook de vorige paragraaf):
Dit resultaat had je ook kunnen krijgen, door alle mogelijkheden op te schrijven en dan te tellen hoeveel er zijn. Het is niet aan te raden om dit te doen, omdat 210 erg veel is, en er een grote kans bestaat dat je n vergeet of dubbel telt. Het speciale geval van de combinatie komt zo vaak voor, dat we er een eigen notatie voor bedacht hebben. In boven beschreven situatie zullen we schrijven:
10 10! ; We spreken dit uit als 10 over 6. 6 = 6!*4! m m! In het algemeen schrijven we: = n n!*(m n )!
Het aantal is:
2.4 Gebruik
GR
berekening 7! TI-83 plus Toets in: 7 Kies: MATH Kies: PRB Kies 4: ! ENTER Toets in: 10 Kies: MATH Kies: PRB Kies 3: NCR Toets in: 6 ENTER Casio Toets in: 7 Kies: OPTN Kies: Prob Kies: x! Toets in 10 Kies: OPTN Kies: Prob Kies: nCr
10 6
12
3 ELEMENTAIRE
KANSREKENING
In dit hoofdstuk gaan we in op het begrip kansrekening. Allereerst geven we een definitie van het begrip kansrekening en daarna zullen we enkele regels uit de elementaire kansrekening beschouwen. In hoofdstuk 4 pakken we de kansrekening enigszins formeler aan. In de daarop volgende hoofdstukken komen een paar specifieke kansverdelingen aan de orde. In het laatste hoofdstuk komt het toetsen van uitspraken aan de orde.
3 1 = = 0,083 36 12
P(4 of 6) =
8 2 = = 0,2222 36 9
13
In feite is de kans op 4 ogen of 6 ogen gelijk aan de kans op 4 ogen plus de kans op 6 ogen. Het lijkt er dus op, dat we bij een of situatie de kansen gewoon kunnen optellen. Dit is echter niet helemaal juist. Bekijk het volgende voorbeeld: Gegeven is een spel kaarten met 52 kaarten (13 maal ruiten, 13 maal schoppen, 13 maal klaveren en 13 maal harten) Iemand trekt willekeurig een kaart uit dit spel. Wat is de kans, dat deze kaart een aas of een klaveren kaart is? Als we de goede mogelijkheden tellen, krijgen we klaver aas, klaver heer, klaver vrouw, klaver boer, klaver tien, klaver negen, klaver acht, klaver zeven, klaver zes, klaver vijf, klaver vier, klaver drie, klaver 2, ruiten aas, schoppen aas en harten aas. Als we dit goed tellen komen we uit op 16 mogelijkheden. Dit betekent, dat de kans op een klaver of een aas is gelijk aan: P(klaver of aas) = 16 52 Er zijn 13 klaverkaarten in het spel en 4 azen. Dit betekent P(klaver ) =
13 52
en P(aas) =
4 52
Als we deze twee kansen optellen krijgen we 17 52 . In dit geval kunnen we de kansen niet optellen. Dit wordt veroorzaakt, door het feit, dat klaver aas, zowel meetelt bij de klaveren, als bij de azen. Deze kaart tellen we dubbel, terwijl deze in werkelijkheid slechts een maal voorkomt. In dit geval is de doorsnede van de verzameling van de klaveren met de verzameling van de azen niet leeg. In het geval van de twee dobbelstenen met 4 ogen of 6 ogen is deze doorsnede wel leeg. We krijgen de volgende regel (optelregel); P( A B) = P( A) + P( B) mits A B = en anders :
P( A B) = P( A) + P( B) P( A B)
Veranderen we de eis enigszins, en vragen we nu de kans op klaver aas, dan vragen we eigenlijk naar de kans op klaver en aas. We weten al, dat er maar n kaart in het spel is, dat aan deze eis voldoet. We 1 1 4 1 krijgen dus: P(klaveraas ) = 52 . We weten ook: P(klaver ) = 13 en P(aas) = 52 . = 13 52 = 4 Vermenigvuldigen we deze twee laatste kansen met elkaar, dan krijgen we het resultaat van de eerste 1 1 immers 1 4 * 13 = 52 We krijgen de volgende regel (vermenigvuldigregel): P( A B) = P( A) * P( B) Deze regel geldt zolang de beide kansen onafhankelijk van elkaar zijn, dat wil zeggen, dat de kans op het trekken van een aas niet benvloed wordt door de kans op het trekken van een klaveren kaart.
14
( )
Stel nu dat we niet de kans op twee rode knikkers hadden willen uitrekenen, maar de kans op een witte knikker en een zwarte knikker.
15
De volgorde waarin we de knikkers trekken is kennelijk niet van belang, want er is geen eis gesteld aan de volgorde. Zowel eerst een witte knikker en dan zwarte knikker is goed, als eerst een zwarte knikker en dan een witte. In de situatie waarin we de getrokken knikker weer terug leggen, zijn beide kansen gelijk. 15 150 3 Immers, de kans op eerst een witte knikker en daarna een zwarte knikker is: P( wz ) = 10 50 * 50 = 2500 = 50
10 De kans op eerst een zwarte en daarna een witte knikker is: P( zw) = 15 50 * 50 = De kans op een witte en een zwarte knikker in willekeurige volgorde is: 150 2500
3 50
3 50
3 + 50 =
3 25
Veronderstel, dat we het probleem nog wat groter maken, door te vragen naar de kans op 3 witte en 5 zwarte knikkers. Zouden we de knikkers na trekking weer teruggegooid hebben in de bak, dan moet er ook vermenigvuldigd worden met het aantal mogelijkheden, waarop we 3 witte en 5 zwarte knikkers kunnen ordenen, alleen de kans per trekking van 8 knikkers veranderd. Deze kans wordt: P(wwwzzzzz) =
10 3 50
* 15 50 = 0,000019
8 3
Als de volgorde er niet toe doet, dan krijgen we P(3 * w + 5 * z ) = * P( wwwzzzzz ) = 0,00109 .
k nk Algemeen geldt voor een trekking met teruglegging: P(k ) = * p * (1 p) . Deze formule staat
ook wel bekend als de kansfunctie voor de Binomiaal verdeling en komt in H6 verder aan bod.
n k
Ook hier zien we weer, dat beide kansen gelijk zijn. In eerste instantie lijkt dit toeval, omdat de breuken, die met elkaar vermenigvuldigd worden van elkaar verschillen, maar bij nadere analyse blijkt, dat het product in de teller uit dezelfde factoren bestaat. De noemers zijn zelfs identiek. 3 6 Hier zal dan ook gelden: P(1wit en 1zwart ) = P( wz ) + P( zw) = 2 * 49 = 49 De factor 2 , waarmee in beide gevallen wordt vermenigvuldigd, staat voor het aantal mogelijkheden, dat bestaat om een witte knikker en een zwarte knikker te ordenen. Veronderstel, dat we het probleem nog wat groter maken, door te vragen naar de kans op 3 witte en 5 zwarte knikkers. Veronderstel, dat we dit doen zonder teruglegging. In zon geval kiezen we een correcte combinatie. Bijvoorbeeld wit,wit,wit,zwart,zwart,zwart,zwart,zwart. Vervolgens vermenigvuldigen we deze kans met het aantal mogelijkheden, die we kennen om 3 witte en 5 zwarte knikkers te ordenen. In het vorige hoofdstuk hebben we gezien, dat dit aantal te verkrijgen is door de formule n = =
8 3
16
Je kunt de kans bij trekking zonder teruglegging ook Top down berekenen. Als je wil berekenen wat de kans is op 3 witte en 5 zwarte, dan gebruik je de volgende definitie voor kans: P(3w5z)=(aantal verschillende manieren waarop ik 3 witte en 5 zwarte kan trekken) / (totaal aantal manieren waarop ik 8 knikkers kan trekken) . Bedenk: het aantal manieren waarop ik 3 witte uit die in totaal 10 witte kan
10 15 ; het aantal manieren waarop ik 5 zwarte uit die in totaal 15 zwarte kan trekken is 5 ; 3 50 en tenslotte het aantal manieren waarop ik 8 knikkers uit de bak van 50 kan trekken is 8 ; Dus geldt: 10 15 3 * 5 = 0,00067 : gelukkig, de kans dat ik 3 witte en 5 zwarte uit die 50 trek is dan: P(3w,5 z ) = 50 8
trekken is er komt hetzelfde uit
17
4 KANSFUNCTIES
In het vorige hoofdstuk hebben we op een intutieve manier aan kansrekening gedaan. Om er iets meer structuur in aan te brengen gaan we van af nu met zogenoemde kansvariabelen en kansfuncties werken. In dit hoofdstuk wordt uitgelegd wat er onder een kansvariabele en een kansfunctie wordt verstaan en wat voor soort kansvariabelen we tegen kunnen komen
4.1 Kansvariabelen
In het vorige hoofdstuk hebben we kennisgemaakt met het begrip kans. Om goed aan kansente kunnen rekenen, moeten we werken met variabelen, die goed te kwantificeren zijn. Dus bijvoorbeeld het aantal autos dat een kruising passeert, of het gemiddeld aantal autos dat het kruispunt per uur passeert. Als we bijvoorbeeld de merken registreren, die de kruising passeren, kunnen we wel spreken over het aantal merken, dat in 1 uur de kruising passeert, of het gemiddeld aantal autos per merk, maar niet het gemiddelde merk. We zullen nu een kansvariabele als volgt definiren. Een kansvariabele is een functie, die aan de uitkomst van een kansexperiment een reel getal toevoegt. Een kansvariabele noemen we officieel ook wel een stochastische variabele genoemd, of kortweg een stochast. We onderscheiden twee types kansvariabelen: discrete kansvariabelen continue kansvariabelen Bij discrete variabelen hebben we te maken met uitkomsten, die van elkaar te onderscheiden zijn. Als voorbeeld kunnen we denken aan het aantal kinderen in een gezin. (Dit zijn er altijd 0, 1, 2, 3 enz en nooit 1,5 of 1,3) of het aantal ogen dat met een dobbelsteen geworpen kan worden. Heel vaak geven we discrete kansvariabelen aan met k en de uitkomst van de kansvariabele met k Als we dus schrijven: P(k = k ) dan bedoelen we de kans, dat de uitkomst van kansvariabele k gelijk is aan k . Bij een dobbelsteen zouden we bijvoorbeeld kunnen uitrekenen: P(k = 3). Dit is dus de kans, dat bij een dobbelsteen met 1 worp 3 ogen worden geworpen. Bij continue kansvariabelen, is er geen ruimte tussen twee opeenvolgende gebeurtenissen. Als voorbeeld van een continue kansvariabele geldt bijvoorbeeld de tijd die verstrijkt tussen twee elkaar opvolgende gebeurtenissen. In feite kan dit elk willekeurig getal zijn. Bij continue kansvariabelen hebben we ook altijd te maken met oneindig veel variabelen, terwijl dat bij discrete kansvariabelen niet perse noodzakelijk is. Bij het aantal ogen, dat je met 1 dobbelsteen kan gooien, hebben we maar te maken met 6 kansvariabelen (maximaal). Veelal geven we continue kansvariabelen aan met x
18
uiteraard aan de kansregels. De beschrijving van deze kansen noemen we de kansfunctie f (k ) bij een discrete kansvariabele en de kansdichtheidsfunctie f (x ) bij een continue kansvariabele.
4.2.1 kansfunctie
met
discrete
kansvariabelen
Bij een discrete variabele k kan de kansfunctie f (k ) worden beschouwd als een rijtje kansen, die uit het
experiment verkregen zijn. Als voorbeeld nemen we de kansfunctie bij het tegelijk werpen van twee dobbelstenen: De mogelijke uitkomsten zijn 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12 We berekenen achtereenvolgens: 1 1 (Dit is de kans dat beide dobbelstenen een 1 opleveren. f (2) = P(k = 2) = 1 6 6 = 36
2 1 f (3) = P(k = 3) = 36 = 18 3 1 f (4) = P(k = 4) = 36 = 12 4 f (5) = P(k = 5) = 36 =1 9 5 f (6) = P(k = 6) = 36 6 f (7) = P(k = 7 ) = 36 =1 6 5 f (8) = P(k = 8) = 36 4 f (9) = P(k = 9) = 36 =1 9 3 1 f (10) = P(k = 10) = 36 = 12 2 1 f (11) = P(k = 11) = 36 = 18 1 f (12) = P(k = 12 ) = 36
Een kansfunctie moet aan twee eisen voldoen. - De functiewaarde is voor iedere k positief of 0. - De som van alle functiewaarden moet samen 1 zijn. Bij controle blijkt dat deze lijst met functiewaarden aan beide eisen voldoet.
19,81
f ( x)dx
f ( x)dx = 1
19
4.2.3 Kansverdelingsfunctie
Een begrip dat direct in verband te brengen is met de kansfunctie, is de verdelingsfunctie F ( k ) . Onder bepaalde omstandigheden kan het nuttig zijn om te rekenen met cumulatieve kansen. We bekijken dan niet de kansen f (k ) van diverse losse punten, maar we werken met F (k ) = P(k k ). De functie F ( k ) geeft de kans aan dat de variabele k een waarde aanneemt kleiner of gelijk aan een bepaalde grenswaarde k . Voor F ( k ) gelden de volgende eigenschappen: - F ( k ) is niet dalend - F (k ) = 0 voor k < min(k ) -
P(k = k )
F ( x) =
f ( x)dx
k * P(k = k )
alle k
P(k = k )
alle k
Omdat we in het begin van dit hoofdstuk al geconcludeerd hebben, dat ook schrijven als: E = =
alle k
k * P(k = k )
Voorbeeld: Bereken de verwachting van het gooien met een dobbelsteen. In feite wordt hier dus gevraagd naar de gemiddelde uitkomst bij het gooien van een dobbelsteen. We gaan ervan uit dat de kans op 1, 2, 3, 4, 5 of 6 even groot is. In dit geval betekent dit:
20
Bij een continue kansverdeling wordt het sommatieteken vervangen door een integraalteken. We krijgen
dan: =
xP(x )dx
P(x )dx
P(x )dx = 1
xP (x )dx
Bij het bepalen van het gemiddelde hebben we ook gekeken of we iets kunnen zeggen over een maat om te kunnen constateren hoeveel een willekeurige uitkomst afwijkt van het gemiddelde. Een standaardmaat was daar de standaardafwijking. Ook bij de kansrekening gebruiken we de standaardafwijking . Ook komt vaak het begrip variantie voor. Var(x ) = 2 . Voor de formule van de standaardafwijking gebruiken we een formule, die analoog is aan de formule in de statistiek. Voor een discrete verdeling krijgen we voor de variantie:
Var(k ) = 2 =
alle k
P(k = k )* (k )
alle k
en voor de standaardafwijking: =
P(k = k )* (k )
P(x )* (x ) dx
en =
P(x )dx
P(x )* (x ) dx
4.4
Rekenregels
In de praktijk komt het vaak voor, dat een bepaalde kansvariabele wordt omgebouwd naar een andere kansvariabele: stel dat bij een bepaald bedrijf gegeven is, dat het gemiddelde bruto maandsalaris gelijk is aan 2000,- Door een salarismaatregel krijgt iedere werknemer 5% meer salaris. Wat zal nu het gemiddelde bruto maandsalaris worden? Veronderstel, dat de diverse salarissen weergegeven worden door xi en de frequentie, waarin deze salarissen voorkomen gelijk is aan f i . In dit geval geldt dat het gemiddelde x =
alle i
fx
i alle i
De nieuwe salarissen worden allemaal 5% hoger. Dat wil zeggen 1.05 * xi . Voor het gemiddelde zal dan gelden: x nieuw =
alle i
1,05 * x
alle i
* fi = 1,05 *
alle i
* fi = 1,05 * x
i
alle i
In het algemeen zal gelden, dat als we elk element uit een verzameling met vermenigvuldigen, wordt ook het gemiddelde met wordt vermenigvuldigd.
21
alle i
(x x )
i alle i
* fi
.
f
2
Var( x ) =
alle i
( * x * x )
i alle i
* fi =
2 * x xi * f i
alle i alle i
fi
fi
= 2Var(x )
We krijgen dus als regel: Als we elk element uit een verzameling met vermenigvuldigen, wordt de variantie met 2 vermenigvuldigd. Voor de standaardafwijking geldt dat dit de wortel uit de variantie is. In dit geval betekent dit dat de standaardafwijking met vermenigvuldigd wordt. Het maakt dus niet uit of positief of negatief is. In beide gevallen neemt de standaardafwijking met een factor toe. Op dezelfde manier kunnen we aantonen, dat als we bij ieder element uit de verzameling een getal optellen, dan zal ook het gemiddelde met toenemen. Als we nu echter naar de variantie kijken, zullen we zien, dat het verschil tussen het nieuwe gemiddelde en de nieuwe elementen niet verandert, immers beide nemen met dezelfde waarde toe. Er zal dus gelden: Var(x + ) = Var(x) Voor de standaardafwijking geldt hetzelfde. Deze zal dus ook niet veranderen, als bij elk element uit de verzameling een zelfde getal wordt opgeteld. Op vrijwel identieke manier kunnen we afleiden, dat als we twee verschillende verzamelingen hebben, de ene met een verwachtingswaarde 1 en de andere met een verwachtingswaarde 2 , dat de totale verwachtingswaarde wordt
Overigens geldt ook: Var(x y ) = Var(x) + Var( y ) We geven tot slot nog een samenvatting van bovenstaande regels:
Var( k ) = 2Var(k )
k = k
Var(k + ) = Var(k )
E(k 1 + k 2 ) = E(k 1 ) + E(k 2 ) Var(k 1 + k 2 ) = Var(k 1 ) + Var(k 2 ) k1 +k 2 = k21 + k22 E(k 1 k 2 ) = E(k 1 ) E(k 2 ) Var(k 1 k 2 ) = Var(k 1 ) + Var(k 2 ) k1 k 2 = k21 + k22
NB: Tel NOOIT de sigmas bij elkaar op, de varianties mogen WEL bij elkaar worden opgeteld!!!
22
5 DE
NORMALE
VERDELING
In het vorige hoofdstuk is de kansdichtheidsfunctie en de kansfunctie besproken. In de hoofdstukken 5, 6 en 7 komen de drie belangrijkste kans(dichtheids)functies aan bos In dit hoofdstuk wordt een continue kansfunctie besproken, namelijk de normale verdeling. In de twee volgende hoofdstukken worden twee discrete kansfuncties besproken: de binomiale verdeling en de Poissonverdeling.
Maar het bijzondere is dat we een dergelijke klok-vorm ook tegenkomen als we de lengte van studenten, of de gewichten van appels uit een bepaalde boomgaard, of de lengte van voeten van een bepaalde leeftijdscategorie inventariseren en grafisch uitzetten. Overal om ons heen duikt een dergelijke frequentiegrafiek op en hieraan dankt deze verdeling dan ook zijn naam Normale Verdeling of Normaalverdeling. Blijkbaar zit achter iedere Normale verdeling eenzelfde kansdichtheidsverdeling verscholen, maar daarovcer meer in de volgende paragraaf. Eerst noemen we nog even de drie aspecten op waardoor elke Normaalverdeling wordt gekenmerkt: de symmetrische klokvorm, en dat is wat het een Normaalverdeling maakt, de ligging van het midden, de waarde ook die de hoogste kans heeft. We duiden die aan met verwachtingswaarde E of , de halve breedte op halve hoogte, die we aanduiden met standaarddeviatie . Een willekeurige Normaalverdeling wordt aangeduid als N(, var) of ook wel N(, 2).
23
blijken we een kansdichtheidsfunctie te krijgen die bij een waarde van 4 is uitgedoofd (0 is geworden). En als we dit proces bij alle andere normaalverdelingen herhalen, blijken alle normaalverdelingen na deze transformatie over elkaar heen te vallen, mits we ze ook nog even allemaal in verticale richting normeren. Alle willekeurige normaalverdelingen zijn dus via de transformatie z =
dezelfde kansdichtheidsfunctie: de Standaard Normaal verdeling, een Normaalverdeling met =0 en =1. Deze functie wordt beschreven door de formule: f ( z ) =
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
- -4 -3 -2 -1 0 1 2 3 4
1 2
1 z2 2
f ( x) =
x 1 2
achterwege laten. Om nu uit te rekenen wat de kans is dat x tussen x1 en x2 ligt, kunnen we de volgende integraal opschrijven:
x2 x2
f ( x)dx = 1. Dit is een stuk lastiger om te bewijzen. We zullen het bewijs hier
2
P( x1 < x < x 2) =
x1
f ( x)dx =
x1
1 2
x 1 2
dx
24
Vb2: P(x<?)=0.05
Kies: [second] VARS (=DISTR) Kies: 3: INVNORM Voer in: INVNORM( p, , ) INVNORM( 0.05,273,35)=215.43
z=
integraal. De uitkomsten van deze integraal kunnen we in een tabel weergeven, die slechts 1 bladzijde in beslag neemt. (Zie Appendix A, op blz. 25 ). Als we naar de grafiek van de normale verdeling kijken, zien we, dat deze symmetrisch is ten opzichte van de gemiddelde waarde. Dit betekent, dat we in een tabel alleen maar de waarde hoeven op te geven voor de waarden groter dan de gemiddelde waarde. Voor de variabele z hoeven we dus alleen maar een tabel te maken voorzover deze waarde groter is dan of gelijk aan 0. Verder blijkt uit de tabel, dat de overschrijdingswaarde van de kans bij z > 4,0 zeer dicht bij 0 ligt. We hebben een tabel nodig waarin z loopt van 0 tot 4,0. In Appendix A vindt je een tabel, waarin z loopt van 0 tot 3,99. In de eerste kolom vindt je de waarde van z in 1 decimaal. In de rest van de kolommen staat de kans, die gegeven wordt door P 0 < x < z , waarin z de waarde is, die in de eerste kolom staat, gevolgd door een tweede decimaal, die boven al de overige kolommen staat. Dus als z = 1,23 , dan kijken we in een rij, waarin in de eerste kolom staat 1,2 en kijken vervolgens naar de waarde in dezelfde rij, maar dan in de kolom waar helemaal bovenaan staat 3. De waarde, die we aflezen is de kans, dat de uitkomst van z ligt tussen 0 en 1,23. We geven een voorbeeld. In een koelhuis staan een groot aantal kisten gevuld met appels. Het gemiddelde gewicht van een kist met appels is 20 kg met een standaardafwijking van 0,2 kg. Gevraagd wordt om de kans te bepalen, dat een willekeurige kist, die we uit het koelhuis pakken een gewicht heeft van meer dan 20,3 kg.
, dan blijkt dat we alle problemen terug kunnen brengen naar een gestandaardiseerde
25
Eerst gaan we z berekenen. In dit voorbeeld is de grenswaarde x gelijk aan 20,3 kg. dit geval 20 kg en is de standaardafwijking, hier is gelijk aan 0,2 kg.
is het gemiddelde, in
z=
In de tabel van de normale verdeling zoeken we in de linker kolom de waarde 1,5. In de kolom ernaast, vinden we op dezelfde regel de waarde voor 0< z < 1,50. Deze waarde is: 0,4332. De kans, dat z > 1,50 is in dit geval: 0,5000 0,4332 = 0,0668 Veronderstel, dat we de kans willen bepalen om een kist appels te pakken, die een gewicht heeft tussen 19,9 en 20,2 kg, dan moeten we het volgende berekenen. Allereerst berekenen we de waarde van Voor
20,2 20 =1 0,2 We moeten dus bepalen, wat de kans is dat 0,5 < z < 1
Hiertoe verdelen we het interval in twee stukken, namelijk 0,5 < z < 0 en 0 < z < 1 Voor het tweede gedeelte kunnen we de kans rechtstreeks uit de tabel aflezen. We vinden: P 0 < z < 1 = 0,3413. De tabel voorziet echter niet in negatieve waarden van z . We hebben echter al eerder opgemerkt, dat de grafiek van de normale verdeling symmetrisch is. Dit betekent dat P 0,5 < z < 0 = P 0 < z < 0,5 . De kans in het rechterlid van de vergelijking
kunnen we weer rechtstreeks uit de tabel van de normale verdeling aflezen. Deze kans is Hieruit volgt, dat
0,5328
0,1915 P( 0,5 < z < 1) = P( 0,5 < z < 0) + P(0 < z < 1) = 0,3413 + 0,1915 =
5.5 Betrouwbaarheidsintervallen
Bij Normaalverdelingen is het handig gebruik te maken van zgn. betrouwbaarheidsintervallen, oftewel intervallen waarbinnen een bepaald percentage van de verzameling voorkomende waarden zich bevindt. Zo ligt 95% van alle waarden van een Normaalverdeling N(, 2) tussen -1,96* en +1,96*.
We spreken dan ook wel van een 95% betrouwbaarheidsinterval: -1,96* < x < +1,96*. Je kan het ook zo begrijpen: de uitspraak alle waarden liggen tussen -1,96* en +1,96* is slechts in 95% van alle gevallen waar en is dus voor 95% betrouwbaar. Dat getal 1,96 vinden we als volgt: als ik met mn GR ( mbv de inversenormaal functie) voor de Standaardnormaalfunctie wil berekenen beneden welke z-waarde ik nog maar 2,5% kans vind, dan krijg ik z= -1,96 als uitkomst. En als ik wil weten boven welke z waarde nog maar 2,5% kans ligt, dan vindt ik z= +1,96. Pakken we vervolgens de transformatie formule z = krijgen we 1,96 =
De meeste betrouwbaarheidsintervallen zijn: 90%: -1, 456* < x < +1,645* 95%: -1,960* < x < +1,960* 99%: -2,575* < x < +2,575*
1,96 = x
26
sigma ( x1 + x 2 + x3 + x 4) = 576 = 24
Nu kunnen we berekenen met de GR: P(x1+x2+c3+x4>250)=normalcdf(250, 10000, 300, 24)=.....
Pas op! Ook al kijken we hier naar het verschil van twee verzamelingen, voor de standaardafwijking geldt dat de twee kwadraten moeten worden opgeteld. We krijgen dus:
27
berekening P(0.0<v<0.1)
TI-83 plus Kies: [second] VARS (=DISTR) Kies: 2: NORMALCDF Voer in: NORMALCDF( og, bg, , ) NORMALCDF(0.0, 0.1, 0.1, 0,583)= =0,0681
Casio Kies: Stat scherm Kies: DIST (5e tabblad) Kies: NORM (1e tabblad) Kies: Ncd Voer in: lower: 0.0 upper: 0.1 : 0.583 : 0.1
x
i =1
Een gemiddelde is niets anders dan een combinatie van afzonderlijke variabelen x. Dus als voor de waarden van x geldt dat ze normaal verdeeld zijn, dan geldt dus ook dat de gemiddelden normaal verdeeld
2 moeten zijn. Maw: als x N ( ; x ) dan geldt: x N ( x ; x ) Maar de verwachtingswaarde van het gemiddelde is natuurlijk dezelfde als de verwachtingswaarde van alle waarden x apart. En voor de variantie van het gemiddelde geldt:
n xi x var(xi ) 1 n 1 ; en dus geldt: x = !!! var( x n ) = var i =1 = 2 var xi = 2 n var(xi ) = n n n n i =1 n Dit bepaalt het verschil in de verdeling van de individuele waarden en die van de gemiddelden:
x
De zwarte grafiek geeft de ligging van de individuele waarden x weer en de blauwe lijn die van de gemiddelden x n van een steekproef van n individuele waarden. 28
29
6 DE
BINOMIALE
VERDELING
In het vorige hoofdstuk hebben we kennis gemaakt met een continue verdeling. In dit hoofdstuk en het
volgende hoofdstuk bekijken we discrete verdelingen. In dit hoofdstuk bekijken we een eindige discrete verdeling. In het volgende een onbegrensde discrete verdeling.
aan:
5 5! 1 = 1!*4! = 5 5 1
4 5 32
Voorbeeld 2 Iemand moet voor een test 6 multiple choice vragen beantwoorden. Er zijn 4 keuzes per vraag. De testkandidaat heeft geen flauw idee welk antwoord correct is en kies dus blind. Wat is nu de kans, dat hij op deze manier 4 vragen goed beantwoord. Oplossing: In dit geval is de kans op succes per vraag 0,25 en de kans op fout 0,75. Het aantal mogelijke volgordes van 4 goede vragen in een reeks van 6 is gelijk aan:
135 4096
= 0,0330
Voorbeeld 3 Zelfde voorbeeld als bij voorbeeld 2, maar nu met de vraag: Wat is de kans, dat er ten minste 4 vragen goed beantwoord worden. Oplossing: P(goed antwoord 4) = P(4 goed ) + P(5 goed ) + P(6 goed ) =
30
6 1 4 3 2 6 1 5 3 6 1 6 2 * 4 * 4 + 1 * 4 * 4 + 0 * 4 = 0,0376
Voorbeeld 4 Zelfde voorbeeld als bij voorbeeld 2, maar nu met de vraag: Wat is de kans, dat er ten minste 2 vragen goed beantwoord worden. Oplossing: In feite kunnen we hetzelfde antwoord geven als in het vorige voorbeeld. We krijgen dan: Dit wordt wel erg veel werk. Slimmer is om te bedenken, dat ten minste 2 goede antwoorden het tegengestelde is van hoogstens 1 goed antwoord. Dit betekent:
P(goed antwoord 2) = P(2 goed ) + P(3 goed ) + P(4 goed ) + P(5 goed ) + P(6 goed ) P(goed antwoord 2) = 1 P(goed antwoord 1) = 1 P(0 goed ) P(1 goed ) = 6 3 6 6 1 3 5 1 0 * 4 1 * 4 * 4 = 0,4661
Algemeen kunnen we dus het volgende stellen: Voer ik een trekking n maal uit, waarbij de kans op succes gelijk is aan p, dan geeft de volgende formule de kans weer op k maal succes bij n trekkingen:
n k nk P(k ) = k * p * (1 p) Aan de basis van een binomiale verdeling ligt een experiment waarbij de kans op een bepaalde uitkomst gegeven wordt door een vast getal p. Jacob Bernoulli (1654 1705), een van de vele prominente wiskundigen uit de Bernoulli familie, is degene die zon experiment voor het eerst wiskundig heeft beschreven in zijn boek Ars Conjectandi (vertaald met: de Kunst van het Gissen)
P(k=4)
Kies: [second] VARS (=DISTR) Kies: 0: BINOMPDF Voer in: BINOMPDF(6, 0.25, 4)=0,0330
31
32
This approximation, known as de MoivreLaplace theorem, is a huge time-saver (exact calculations with large n are very onerous); historically, it was the first use of the normal distribution, introduced in Abraham de Moivre's book The Doctrine of Chances in 1738.
0.09 0.08
Zou je n nu langzaam minder laten worden, dan zul je zien dat op een gegeven moment de grafiek scheef begint te trekken. Als vuistregel geldt dat deze benadering goed opgaat als: n= 25 of hoger, n np > 5 n n(1-p) > 5 Om te kunnen rekenen met een normaalbenadering moeten we nog wel de formules hebben voor het gemiddelde en de variantie. Zonder afleiding of bewijs geven we de volgende formules: De verwachting = N * p ; de variantie var = N * p * q en standaardafwijking In deze twee formules geldt: N = aantal elementen in de verzameling. p = kans op succes. q = 1 p kans op falen.
= N * p*q
MAAR!!! Er is n belangrijke truc bij het toepassen van deze benadering en dat is de keuze van de juiste grenswaarde: Een binomiaalverdeling is een discontinue kansverdeling: ik kan 23 maal kop gooien of 24 maal, maar niet 23,5. Maar in de Normale benadering ga ik nu over naar een continue verdeling. Als ik bijvoorbeeld de kans wil uitrekenen op 24 maal kop of meer, dan valt 24 in mijn uit te rekenen kansgebied maar 23 erbuiten. In de normale benadering kies ik dan voor 23,5! LET OP: Als je deze truc met de grenswaarde niet goed toepast wordt het antwoord fout gerekend! Voorbeeld 1 We tossen een eerlijke munt 100 keer. Wat is de kans, dat we meer dan 60 keer kop gooien. Oplossing:
33
Bij een eerlijke munt is de kans op kop gelijk aan de kans op munt. Dit betekent dat p = 0,5 en q = 0,5 Verder geldt dat N = 100 . Daar 100 veel groter is dan 30 passen we in plaats van de binomiale verdeling de normale verdeling toe. In dit geval geldt: = N * p = 100 * 0,5 = 50
Kies: [second] VARS (=DISTR) Kies: 2: NORMALCDF Voer in: NORMALCDF(60.5, 1000, 50, 5)=0,0179 **)
Vullen we nu de waarde voor en hierin in, dan kunnen we het 95% betrouwbaarheidsinterval in de normale benadering van de binomiale verdeling ook schrijven als: n p 1,96 n p (1 p) < k < n p + 1,96 n p (1 p)
k door f dan krijgen we voor n het 95% betrouwbaarheidsinterval voor de fractie f van een steekproef met omvang n: p (1 p) p (1 p) p 1,96 < f < p + 1,96 n n
En als we deze hele vergelijking delen door n, en vervangen we
34
7 DE
POISSONVERDELING
In het vorige hoofdstuk hebben we kennis gemaakt met een discrete verdeling. Ook in dit hoofdstuk bekijken we een discrete verdeling: de Poissonverdeling of ook wel aangeduid met de term NegatiefExponentile verdeling. Deze verdeling mag in twee omstandigheden toegepast worden: . Er is niet zozeer sprake van een binomiale trekking met een bepaalde kans, maar wel van een verwacht aantal gebeurtenissen. Voorbeelden zijn: Het aantal vliegtuigen, dat in een uur landt op een bepaald vliegveld. Het aantal autos, dat op een bepaalde dag een zeker kruispunt passeert. Het aantal wachtenden in een rij, het aantal paketten met gevaarlijke stoffen dat per dag in een magazijn binnenkomt, of ook het aantal weeffouten in een lap stof per meter. In al deze voorbeelden is n onbekend en p ook onbekend, maar n*p is het verwachte aantal vliegtuigen, autos, pakjes met gevaarlijke stoffen etc. In de genoemde voorbeelden, gaat het dus heel vaak over een aantal gebeurtenissen per tijdseenheid, maar het kan dus ook om een gebeurtenis per andere eenheid gaan, zoals in het laatste voorbeeld per lengte geweven stof Er is wl sprake van een binomiale verdeling, maar de kans op een gebeurtenis is te klein en het aantal experimenten te groot (n) om de kans met behulp van de Binomiaalformule naukeurig te kunnen uitrekenen.
n! n! m m 1 m m = P(k ) = 1 = 1 k !(n k ) ! n n k ! n (n k ) ! k m k n 1 n n m k m n(n 1)(n 2)......(n k + 1) ) m k = 1 e m als n k k ! n k! m n k 1 n m hierin hebben we ingevuld voor p: p = ; m = p n n k e De Poissonverdeling wordt als volgt gedefinieerd: P(k = k ) = ; = pn k! Hierin is k het aantal dat beschouwd wordt en het verwachte aantal per tijdseenheid.
k nk k n
De Poissonverdeling als benadering van de binomiaalverdeling gaat het beste op als n>50 en n*p <5
De Poissonverdeling is genoemd naar Simon Poisson die deze kansverdeling ontdekte en samen met zijn statistische theorie in 1838 publiceerde in zijn werk Recherches sur la probabilit des jugements en matires criminelles et matire civile. 35
Voorbeeld 1 Het aantal schepen dat per dag de haven van Amsterdam binnenloopt is 5 per dag. Bereken de kans, dat er op een bepaalde dag geen enkel schip deze haven binnenloopt. Oplossing: Volgens de formule geldt: P(k = 0) =
Voorbeeld 2 De gemiddelde tijd, die verstrijkt tussen de aankomst van twee verschillende klanten in een wachtrij is 3 minuten. Bereken de kans, dat in een bepaald kwartier er minder dan 4 klanten binnen komen. Oplossing: Dat de tijd, die gemiddeld verstrijkt tussen de aankomst van twee klanten gelijk is aan 3 minuten, betekent dat er gemiddeld 5 klanten per kwartier arriveren. In dit geval betekent dat = 5
5 0 5 * e = 0,0067 0!
P(k < 4) = P(k = 0) + P(k = 1) + P(k = 2) + P(k = 3) 50 e 5 51 e 5 5 2 e 5 53 e 5 Dit betekent: P(k < 4) = + + + = 0! 1! 2! 3! 0,0067 + 0,0337 + 0,0842 + 0,1404 = 0,2650
P(k=3)
36
3 * 30 = 90
= 90 en = 90 = 9,49 De grenswaarde 95 wordt door integercorrectie 95,5. Met de GR berekenen we: P(x > 95) = normalcdf(95.5, 1000, 90, 9.49)=0.1357
Dit betekent: Met de tabel wordt dit: P( x > 95) = P z >
37
8 Formuleblad
8.1 Definitie:
gemiddelde,
variantie
en
standaardafwijking,
mediaan
N
x =
x
i =1
N
i
; variantie: var =
(x x )
i i =1
n
frequentietabel:
gemiddelde x =
x
i =1 n i =1
fi
;
i
variantie= var =
f * (x x )
i i i =1
f
i =1
standaardafwijking of standaarddeviatie:
= variantie
nl * s m , met: nl + nr
L is de ondergrens van de klasse, waarin de mediaan ligt. nl is het aantal elementen links van de mediaan in de klasse, waarin de mediaan ligt nr is het aantal elementen rechts van de mediaan in de klasse, waarin de mediaan ligt s m is de klassenbreedte van de klasse waarin de mediaan gelegen is.
k * P(k = k )
alle k
P(k = k )
2 i i
E(x)= =
xP (x )dx
P(x )dx
2
variantie:
Var (x ) =
alle i
(x x ) * f
alle i
`
i
Var(x ) =
P(x )* (x ) dx
P(x )dx
standaardafwijking of standaarddeviatie:
= variantie
38
8.3
rekenregels
verwachtingswaarde,
variantie
en
standaardafwijking
E( k ) = E(k ); Var( k ) = 2Var(k ) ; k = k E(k + ) = E(k ) + ; Var(k + ) = Var(k )
E(k 1 + k 2 ) = E(k 1 ) + E(k 2 ); Var(k 1 + k 2 ) = Var(k 1 ) + Var(k 2 ); k1 +k 2 = k21 + k22 E(k 1 k 2 ) = E(k 1 ) E(k 2 ); Var(k 1 k 2 ) = Var(k 1 ) + Var(k 2 ); k1 k 2 = k21 + k22
voor totalen van N onafhankelijk van elkaar tot stand gekomen uitkomsten geldt: E x = N * E ( x) ; Var( x) = N *Var( x) ; ( x) = N * ( x)
voor gemiddelden van N onafhankelijk van elkaar tot stand gekomen uitkomsten geldt:
E(x ) = E( x) ;
Var( x ) = Var ( i =1 ) = N
N * Var( x) Var ( x) = N2 N
(x) =
( x)
N
39
8.7
Binomiale
verdeling
(trekking
met
vaste
kans
op
succes,
dus
met
teruglegging)
Bij n onafhankelijke trekkingen, met elk afzonderlijk kans p op succes, dan geldt: n k nk de kans op k maal succes uit n trekkingen: P(k uit n) = k * p * (1 p)
N * p + 1,96 * N * p * q N * p + 2,575 * N * p * q
8.8
Poissonverdeling
indien p heel klein en n heel groot is kan de binomiale verdeling worden benaderd door de k e poisson formule: P(k = k ) = k! hierbij is zowel de verwachtingswaarde als ook de variantie.
40
41
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.5 2.0 3.0 4.0 5.0 6.0 7.0 8.0 k ----------------------------------------------------------------------------------------------------------------------------------------------0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 9048 8187 7408 6703 6065 5488 4966 4493 4066 3679 2231 1353 0498 0183 0067 0025 0009 0003 0905 1637 2222 2681 3033 3293 3476 3595 3659 3679 3347 2707 1494 0733 0337 0149 0064 0027 0045 .0164 0333 0536 0758 0988 1217 1438 1647 1839 2510 2707 2240 1465 0842 0446 0223 0107 0002 0011 0033 0072 0126 0198 0284 0383 0494 0613 1255 1804 2240 1954 1404 0892 0521 0286 0000 0001 0003 0007 0016 0030 0050 0077 0111 0153 0471 0902 1680 1954 1755 1339 0912 0573 0000 0000 0000 0001 0002 0004 0007 0012 0020 0031 0141 0361 1008 1563 1755 1606 1277 0916 0000 0000 0000 0000 0000 0000 0001 0002 0003 0005 0035 0120 0504 1042 1462 1606 1490 1221 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0008 0034 0216 0595 1044 1377 1490 1396 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0009 0081 0298 0653 1033 1304 1396 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0002 0027 0132 0363 0688 1014 1241 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0008 0053 0181 0413 0710 0993 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0002 0019 0082 0225 0452 0722 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0006 0034 0113 0263 0481 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0002 0013 0052 0142 0296 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0005 0022 0071 0169 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0002 0009 0033 0090 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0003 0014 0045 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0006 0021 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0002 0009 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0001 0007
42
43
44