Bedrijfsstatistiek Samenvatting Boek 1 (29blz)

Bedrijfsstatistiek
TEW 2e fase
Mieke Simons
H1: Statistiek en kansrekenen

Definitie van Statistiek
Statistiek
De (hulp)wetenschap die zich bezig houdt met informatie of gegevens
=> analyseren, interpreteren, voorstellen, verzamelen, classificeren,...
Enkele voorbeelden
Systeem voor vochtigheid

Informatie vliegpassagiers
P: alle ogenblikken | Var: vochtigheid

P: alle passagiers
| Var: bagage, tijdstip,
passagiers,...
Vulmachine
Nitraatgehalte groenten
Kwaliteit tennisballen
P: dozen | Var: rijst | Pr: vulproces

P: groenten | Var: nitraatgehalte
P: tennisballen | Var: diameter | Pr:
productiepr
Risico van bep aandelen

P: rendementen | Var: tijd
Karakteristieken klanten
P: klanten | Var: betalingswijze, keuze,...
Gegevens zijn beschikbaar of moeten verzameld worden
o Rechtstreeks beschikbaar
o Verkregen via experimenten
o Verkregen via enquetes
Onderwerp van de Statistiek
Over de populatie van elementen of objecten

Over een proces van elementen of objecten
(=> zie voorbeelden: P (populatie) en Pr (proces) en Var (variabele))
Gegevens via variabelen: verschilt bij elk element

Steekproef: slechts een deel wordt bekeken
Beschrijvende Statistiek
= descriptieve statistiek
Overzichtelijk beeld
Overzichtelijke beschrijving
Verklarende Statistiek
= inferentile statistiek = steekproeftheorie
Analyseren en interpreteren
Hypothesen testen en waarde toetsen
Antwoorden en conclusies veralgemenen naar populatie = inferentie
Uitspraak niet 100% zeker!
o Betrouwbaarheidsgraad => kansuitspraak => kansrekenen
Opletten met steekproeven
Moet voldoende groot zijn

Moet relevant en representatief zijn
De Kansrekening
Kansrekening
Bestudeert processen of experimenten waarbij de uitkomst onzeker is.
Het gooien van een dobbelsteen, de toekomstige prijs van een product,...
2
Statistiek vs Kansrekenen
o Statistiek: uitspraken via steekproefgegevens
o Kansrekenen: rechtstreekse uitspraken via onderstellingen
Onderstelling noodzakelijk
o Vb dobbelsteen moet homogeen zijn
o In de praktijk moeilijk of niet te verifiren
Zie voorbeelden HBp 7 voor verschillen bij statistische studie (is) en kansrekening
(zal)
!! Statistiek: beperkte steekproefinformatie: geen absoluut correcte uitspraken!!
H2: Data en hun voorstelling

Proces of Populatie Census van de populatie (volledige populatie)
Elementen
Steekproef uit de populatie
Variabelen
SOORTEN GEGEVENS
Kwalitatieve (categorische) variabelen
Nominale variabele
Een nominale variabele laat toe de elementen te classificeren, het element krijgt een
etiket.
Slechts om te categoriseren
Berekeningen zinloos (behalve percentages)
Codenummers, codeletters,... (cijfers impliceren dan geen volgorde en/of
hoeveelheid!)
Kleur, merk, verpakking,...
Ordinale variabele
Een ordinale variabele laat toe de elementen te ordenen.
Om te waarderen, te beoordelen
Geen vaste meeteenheid (
restaurant * en restaurant **
restaurant ** en
restaurant ***)
Berekeningen zinloos
Zeer goed/ goed/ slecht/ zeer slecht, 1 ster/2 sterren,...
Kwantitatieve variabele
Intervalvariabele
Geen natuurlijk nulpunt

16h is niet 2x zo laat als 8h
Tijd op de klok, temperatuur op de Celsiusschaal (nulpunt hebben we zelf gekozen),
Ratiovariabele
Wel een natuurlijk nulpunt

6cm is wel 2x 3cm
Lengte, volume,Kelvinschaal ,...
Discrete variabele
Eindig: aantal passagiers dat opdaagt, aantal kinderen in een gezin,...

Oneindig: de aantal worpen nodig om een zes te gooien
Gehele getallen
Continue variabele
Elk getal tussen de boven en ondergrens: lengte, duurtijd, inhoud,...

Verdelen in klassen
Rele getallen
DE DATAMATRIX
Waarneming
O1
Gewicht
50,56
Vulkop
1
Uur
8
Analist
A1
4
O2
51,58
A2
Rij: elementen/ waarnemingen = observatievector O

Kolom: variabelen
Gewicht: continue variabele (kwantitatief)
Vulkop, analist: nominale variabele (kwalitatieve)
Uur: intervariabele/ nominale variabele
Univariate voorstelling
Betrekking op 1 variabele
Bivariate voorstelling
Betrekking op 2 variabelen
Frequentie
Frequentie ve klasse:
Relatieve frequentie:
# elementen vd klasse
# elementen vd klasse/ totaal # elementen vd proef
HET VOORSTELLEN VAN UNIVARIATE KWALITATIEVE VARIABELEN

Het staafdiagram
Het cirkeldiagram = sectordiagram
Het Pareto diagram
Klassen volgens dalende frequentie

Cumulatief voorgesteld
Kijken naar de klassen met de hoogste frequenties
Excel (HBp14-15)
Frequentie: AANTAL.ALS(celbereik;criterium)
HET VOORSTELLEN VAN UNIVARIATE KWANTITATIEVE VARIABELEN

Discrete kwantitatieve variabelen
Gehele getallen
Naalddiagram
Continue kwantitatieve variabelen

Rele getallen: verdelen in klassen!
Histogram
o Klassenbreedte niet altijd gelijk
o
# klassen staat niet vast (tip:
o Maximaal 15 20
o Som van de oppervlakten = 1
Polygoon
o Middens van de rechthoeken verbinden
o Oppervlakte onder polygoon = 1
Het stam- en bladdiagram
Stam: eerste cijfer van elke waarneming

Blad: tweede cijfer van elke waarneming
Excel (HBp19-21)
Frequentie: INTERVAL(celbereik,bovengrenzen)
HET VOORSTELLEN VAN BIVARIATE VARIABELEN

5
Kwalitatieve variabelen
Kruistabel
Meervoudige staafdiagram
Kwantitatieve variabelen
Kruistabel
Puntenwolk/ puntendiagram
Gemengd
Kruistabel met kwalitatieve en kwantitatieve variabele
Excel (HBp19-21)
Kruistabel: DRAAITABEL
H3: Beschrijvende Kengetallen van Steeproefgegevens

BESCHRIJVENDE KENGETALLEN
(steekproef) statistieken = (steekproef) kengetallen
Kenmerkende maten die de gegevens van de steekproef samenvattend beschrijven =>
functies
Parameters
Kengetallen die betrekking hebben op een volledige populatie/ proces
UNIVARIATE KWANTITATIEVE VARIABELEN
Kengetallen van centrale ligging
Zowel voor discrete als continue variabelen
Het gemiddelde
Streekproefgemiddelde
Populatiegemiddelde
f i : frequentie |
fi
n
: gewichten = relatieve frequentie
Eigenschappen
o
x i=n x
x
( ix )=0
bewijs zie slides
Gevoelig aan extreme waarden
De mediaan
Ongeveer 50% vd waarnemingen zijn groter, 50% kleiner

Hoe groter de steekproef, hoe nauwkeuriger
Niet gevoelig aan extreme waarden => robuust
De modus
Waarneming met de grootste frequentie

Histogram: modale klasse => unimodaal / bimodaal
Maatstaven van relatieve ligging

Geven de positie van een waarneming relatief tot de andere waarnemingen
ie ordekengetal = ie ordestatistiek = ie observatie na rangschikking van klein naar
groot
Percentielen: Cp = waarde zodat p100% (0<p<1) van de gerangschikte waardes
kleiner is
Vb C0,76 = X => 76% van de waarnemingen kleiner dan X (en 24% groter)
Kwartielen
o 1e kwartiel: Q1 = c0.25
|
2e kwartiel: Q2 = c0.5 (mediaan) |
3e
o
kwartiel: Q3 = c0.75
Ongeveer is < Q1
ongeveer is < Q2
ongeveer is < Q3
Percentiel Cp = pde kwantiel
Vb C0,76 => 0,76ste kwantiel
7
Vb C0,80 => 0,80ste kwantiel => 8e deciel

Maatstaven van spreiding
Meten de spreiding van de gegevens rond een centrale waarde
Want zo kunnen 2 reeksen gegevens hetzelfde gemiddelde hebben, maar toch

sterk verschillen!
Afwijking =
( x i x )
De variatiebreedte = spreidingsbreedte = range
Grootste kleinste waarneming

Nadeel: hangt alleen af grootste en kleinste
Nadeel: moeilijk steekproeven met ongelijk # observaties te vglen (kan alleen
maar stijgen als n stijgt)
De interkwartielbreedte = IKB
Q3 Q1 = c0,75 c0,25
De gemiddelde absolute afwijking
GAA
Niet 0 want werken met absolute waarden!!!
De gemiddelde gekwadrateerde afwijking
GGA
Niet 0 want werken met kwadraten!!!
De variantie
Steekproefvariantie
Populatievariantie
Altijd positief
0 bij cte waarden, dus geen variantie

Populatievariantie is dus een GGA,
Steekproefvariantie is geen GGA
De standaarddeviatie
s

Variatiecofficint
vc
Om de relatieve variabiliteit te bekomen
Maatstaven van scheefheid
Pearson-cofficint
3 SP +3
Scheefheidscofficintie
o Derde moment m3
Symmetrisch:
gemiddelde = mediaan = modus
Links scheef:
gemiddelde < mediaan < modus
SP = 0
SP < 0
m3 = 0
m3 < 0
staart aan de linkerzijde

8
Rechts scheef:
gemiddelde > mediaan > modus
SP > 0
m3 > 0
staart aan de rechterzijde

Transformatie en standaardisatie van gegevens
Lineaire transformaties
o yi = axi + b met a en b cte
=> eenvoudige formules: gelden alleen als LINEAIRE transformaties!!!
Standaardiseren
o De gestandaardiseerde waarneming zi
Meet de afstand, uitgedrukt in standaarddeviaties, die x i verwijderd liggen
van
Belangrijk voorbeeld van lineaire transformatie
Waarbij
z =0 |
a=1/s
b=x / s
en
x i=x + zi . s
s z =1 |
Extreme waarden, uitbijters (outliers)
Uitzonderlijk grote of kleine steekproefwaarneming

Valt buiten het patroon
Oorzaak moeilijk te achterhalen
o Toch mogelijk: corrigeren of weglaten
o Niet mogelijk: gekwalificeerd oordeel onderzoeker
Histogram klokvormig symmetrisch
o Waarneming extreem als zi < -3 of als zi > +3
Histogram niet klokvormig symmetrisch: boxplot
Doos met snorharen = boxplot
Centrale deel: box

o Begrensd door Q1 en Q3
o Mediaan: verticale lijn
o Gemiddelde:
Naast de snorharen: de mogelijke extreme waarden
o
of
x i>Q3 +1.5IKB
Nog verder naast de snorharen: de werkelijke extreme waarden

o
x i<Q1 1.5IKB
x i<Q1 3IKB
of
x i>Q3 +3IKB
Positie mediaan en gemiddelde (+ snorharen)

Kan je uit afleiden of ze scheef is of niet en hoe
UNIVARIATE KWALITATIEVE VARIABELEN
Nominale variabel
o Modus
Ordinale variabele
o Modus en mediaan
o Soms gemiddelde: schaal moet intervalschaal benaderen
BIVARIATE (KWANTITATIEVE) VARIABELEN

Covariantie
Steekproefcovariantie sXY
9
Populatiecovariantie
Kan en + zijn: hangt af van de dominantie van de positieve of negatieve
XY
termen
Termen
in de covariantie
(+) : kleine waarde voor X en Y / grote waarde voor X en Y
(+)(+)
(-) : kleine waarde voor X en grote waarde voor Y (e.o.) (-)(+) of (+)(-)
Puntenwolk: assen rond de gemiddelden

o
o
( x ix ) ( y i y )
Positieve term: 1e en 3e kwadrant

Negatieve term: 2e en 4e kwadrant
en
(-)(-) of
=> domineren: positieve samenhang

=> domineren: negatieve
samenhang
Kruistabel van X en Y
o Marginale frequenties van X en Y => relatieve frequenties van X en Y
Nadeel: afhankelijk van meeteenheid
Variantie van een variabele is dus de covariantie met zichzelf:
s x =s xx en x = xx
Correlatie
Steekproefcorrelatie rXY
Populatiecorrelatie
Niet afhankelijk van meeteenheid

Belangrijke eigenschappen
o -1 < rXY < +1
o
-1 <
XY
XY
< +1
Voor lineaire verband: zie formules

Puntenwolken op rechte perfecte correlatie
Rechte met positieve helling
r = +1
perfect positief
Rechte met negatieve helling r = -1 perfect negatief
Perfect horizontaal/ verticaal
s = 0 geen lineair verband
Covarianties zeggen intutief niet veel, correlatie wel
Correlatie meet enkel de graad van lineair verband tussen 2 variabelen
o
EXCEL FORMULES
s : VAR(bereik)
s : STDEV(bereik)
: VARP(bereik)
GAA: GEM.DEVIATIE(bereik)
Vc : STDEV(bereik) / GEMIDDELDE(bereik)
SCHEEFHEID(celbereik)
N
N 1 COVARIANTIE(bereik1;bereik2)
: STDEVP(bereik)
GGA: DEV.KWAD(bereik)
PEARSON(bereik1;bereik2)
CORRELATIE(bereik1;bereik2)
10
H4: Kansrekening
BEGRIP KANS
Benaderend deterministisch
Resultaat zal met zekerheid worden voorspeld

Als aan voorwaarden voldaan
Slechts in theorie deterministisch want altijd kleine afwijkingen
Vb. bij druk van 760mm en t van 100C (vwen) zal water koken (resultaat)
Probabilistisch of stochastisch
Onzekerheid over de uitkomst

Kansprocessen = kansexperimenten = stochastische processen
erg waarschijnlijk dat
Uitkomst kan je interpreteren als steekproefgegevens voor populatie/ proces
KANSEXPERIMENTEN EN VERZAMELINGENLEER
Uitkomstenruimte
Uitkomstenruimte = steekproefruimte
Verzameling van alle uitkomsten waarvoor
Eindig, oneindig, continu, numeriek, niet-numeriek,

Eenzelfde experiment kan meerdere uitkomstenruimten hebben
Kijken welke vragen gesteld worden over het experiment
geldt
Gebeurtenis (herbekijk vb HBp58)
G: een deelverzameling van
Verzameling van uitkomsten waarbij ook
beschouwd
Elementaire gebeurtenis: een G die zich naar een uitkomst zelf herleid
Gebeurtenis G doet zich voor als
en
als gebeurtenis worden
Bij uitvoering van het experiment de uitkomst
Bij uitvoering dus 1 van de uitkomsten van G zich voordoet
Definities, operaties en relaties
Unie of vereniging:
o
G= A B (A of B of beide)
G=G1 G2 =i Gi
=> dan bevat G alle uitkomsten die behoren tot minsten 1 vd
gebeurtenissen G1,G2,
G is exhaustief (volledig) als
Doorsnede:
o
o
G= A B
i Gi=
(A en B)
Lege doorsnede: disjunct: sluiten elkaar uit
G=G 1 G2 =i Gi
11
=> dan bevat G alle uitkomsten die behoren tot al de gebeurtenissen

G1,G2,
G= AB
Verschil:
Deelverzameling:
Complement:
A B
(B bevat A)
G =G
GC G=
GC G=
Partitie
(A maar niet B)
(niet in G)
van
(ofofof)
Als ze exhaustief zijn
G=G1 G2
Als ze elkaar uitsluiten
G=Gi G j =
P ( G1 G2 )= P(Gi)
i=1
DEFINITIE VAN KANS

Kans op gebeurtenis G
De kans definiren dat een gebeurtenis
zich voordoet, dus dat de uitkomst
een element is van G

Frequentiedefinitie
Functie P(G)
Frequentie van G:
f n( G)
=> relatieve frequentie van G:
f n( G)/ n
Kans dat deze zal stabiliseren voor grote n: P(G)
Als
Als
G=
G=
dan is
dan is
f n (G)
=1
n
f n (G)
=0
n
en dus
en dus
P ( )=1
P ( ) =0
Hoe groot moet n zijn? We zouden n onbeperkt kunnen laten toenemen:
P (G ) =lim
n
f n (G)
n
=> is in praktijk moeilijk of zelfs onmogelijk

Axiomatische definitie
1.
P(G) 0
2.
P ( )=1
G1 G2 G 3 = P ( G i )
3.
waarbij G1,G2, elkaar uitsluiten (dus alleen of)
12
Nadeel: wordt niets gezegd over de bepaling van P(...) voor een concreet
experiment
Klassieke definitie van Laplace
P (G ) =
nG
n
Alle mogelijke uitkomsten zijn even waarschijnlijk
Slechts mogelijk voor eindig # mogelijke uitkomsten die alle gelijkwaardig zijn
Klassieke definitie tov frequentiedefinitie
Frequentiedefinitie => empirische verdeling

Klassieke definitie => theoretische verdeling = kansverdeling
Subjectieve definitie
Persoonlijke inschatting
Verschillende personen zullen dus verschillende inschattingen van de kans
hebben
REKENREGELS VOOR KANSEN
Formules gelden voor elk experiment en willekeurige gebeurtenissen G1,G2,G3,
SIMULATIE IN EXCEL
Doel
Goed inzicht krijgen

Kan vaak herhaald worden (op basis van de frequentiedefinitie)
Systemen optimaliseren
Programmas
Voor de ingewikkelde processen specifieke simulatietalen ontwikkeld: GPSS, Slam,
Excel: ASELECT( )
o Lukraak een getal genereren tussen 0 en 1
o Pseudolukrake getallen
VOORWAARDELIJKE KANS
Begrip
Voorwaardelijke kans
De kans berekenen op een gebeurtenis, rekening houdend met een andere
gebeurtenis, die de kans op de eerste in belangrijke mate zou kunnen veranderen
Formule voorwaardelijke kans: P(G2) > 0
P(G 1)
P ( G1|G2 )
onvoorwaardelijke kans = a priori kans

voorwaardelijke kans = a posteriori kans = herziene kans
Vermenigvuldigingsregel
13
Voor 3 gebeurtenissen:
Dus:
P ( G3|G 1 G2 )=
P ( G1 G2 G3 )
P ( G1 G 2 )
P ( G1 G2 Gk )=P ( G1 )P ( G 2|G1 )P ( G 3|G1 G2 )P ( Gk|G1 G2 GK )
Onafhankelijke en afhankelijke gebeurtenissen
Onafhankelijk: 2e gebeurtenis heeft geen invloed op de eerste: info is neutraal

Vb. de kans om 1 te gooien met 4 eerlijke dobbelstenen:
1
1
6
1
6
1
6
1 4
P (G ) =
=( )
6
6
( )
Elkaar uitsluitende gebeurtenissen
Informatie in G2 is
:
onafhankelijke gebeurtenissen!!!!
P ( G1|G2 ) > P ( G1 )
Positief
Negatief:
P ( G1|G2 ) < P ( G1 )
Neutraal:
P ( G1|G2 ) =P ( G1)
Totale kans en de kansregel van Bayes
Partitie: exhaustief en disjunct!

Bayes: indien totale kans gekend, zoeken waar de kans welke grootte heeft
14
H5: Univariate kansvariabelen

KANSVARIABELEN EN VERDELINGSFUNCTIE
Kansvariabele
Kansvariabele
Een functie X( ) die een reel getal associeert met elke uitkomst ( ) van een
experiment
Kansvariabele = stochastische variabele

Grote letters gebruiken: meestal X,Y of Z
Kleine letters: verwijzen naar een bepaalde rele waarde voor de kansvariabele
Betrekking op eigenschap van de elementen of een proces
o Univariaat: kansvariabele betrekking op 1 eigenschap
o Bivariaat: kansvariabele betrekking op 2 eigenschappen samen
o Kansvector: kansvariabele op meerdere eigenschappen samen
Kansen kansvariabelen kan je afleiden uit kansen gebeurtenissen
P ( X=x )=P(G x )
vb.
P ( X=3 )=P ( G3 )=2/36
met G3 =
{ ( 1,2 ) , ( 2,1 ) }
Verdelingsfunctie
Verdelingsfunctie = cumulatieve verdelingsfunctie

o
Niet dalend want kans is altijd positief
0< P<1
F x (x)
dus ook
Overlevingsfunctie:
0< F x <1
P ( X > x )=1F X (x )
DISCRETE KANSVARIABELE EN KANSVERDELING

Kansverdeling
p X (x i )
Discrete kansvariabele
o Als # mogelijke waarden voor X eindig aftelbaar zijn
o Als # mogelijke waarden voor X oneindig aftelbaar zijn
(som van # ogen)

(opgooien tot
uitkomst 6 is)
Kansverdeling: niet exact in praktijk: onderstellingen maken

Empirische verdeling wel (rechtstreeks uit steekproefgegevens)
Ook steeds positief
Kansverdeling
o
o
verdelingsfunctie! (Zie HB p88)
Kansverdeling:
Waarde dat bij variabele hoort
Gedefinieerd voor reel getal dat bij variabele hoort
Verdelingsfunctie: (cumulatief!)
tussen welke waarden het ligt
gedefinieerd voor elk reel getal
CONTINUE KANSVARIABELE EN KANSDICHTHEID

Kansdichtheid
15
f X (x)
f X ( x ) =g ( x ) als a x b
f X ( x ) =0 elders
Tegenhanger van de kansverdeling

Continue kansvariabele
o In klassen verdelen!
Benadering voor de kans (via relatieve frequentie)
o Geeft zelf dus geen kans weer!!!
Oppervlakte onder polygoon tussen a en b benadert de kans van een waarde
tussen a en b
Indien zeer groot => klassenbreedte zeer klein => limiet: continue curve
Waarde onder polygoon = 1 => waarde onder F ook
Om na te gaan je een dichtheid hebt
Aanduiden dat
f X (x ) 0
En dat
f X ( x )=1
a
Verdelingsfunctie
F x (x)
Afleiden en dan heb je de kansdichtheid
Stijgend tot 1
F X ( x )=0
als x< a
f (x) dx= [ f ( a )f (b) ]

F X ( x )=P ( a X b )=
F X ( x )=1
als a x b
als x> b
b
Uitwerken integraal:
[ ]
x n+1
x dx= n+1
a
n
GRAFISCH OVERZICHTJE
Discreet
Kansverdeling
: naalddiagram
Verdelingsfunctie: trapvorm
Continu
Kansdichtheid: klokvormig
Verdelingsfunctie: stijgende tot aan 1
16
Simuleren van continue kansvariabelen
F X ( x )=r
o
o
Met r = ASELECT( )
Functie herleiden tot x
FUNCTIE VAN EEN KANSVARIABELE

Algemeen
X =x
Y =g( X )
Y = y =g (x)
Kansvariabele
Functie
Discreet
Waarde van
Functie
zoeken
Of formule aanpassen door
pY ( y)
x -waarden
Y =g( X ) gewoon invullen met de gevonden

x
te substitueren door
gewoon zoeken door oorspronkelijke kansverdeling
p X (x ) toe te
passen met y
Continu
Via de verdelingsfunctie
1. Bepaal het nieuwe domein
2. Bereken de nieuwe verdelingsfunctie
3. Leid deze af tot je
f Y ( y)
FY ( y )=P(Y y)
krijgt (domein niet vergeten!)
Via de differentiaalanalyse
1. Bepaal het nieuwe domein
2. Los de nieuwe functie op naar
en bepaal de afgeleide
3. Vul deze inverse functie in in de oorspronkelijke en vermenigvuldig met de
afgeleide
Herbekijk voorbeelden HBp98-99
17
H6: Kengetallen van populaties en processen

VERWACHTE WAARDE VAN EEN KANSVARIABELE
E( x )
Verwachte waarde
Wordt ook het gemiddelde van
Verwachte waarde
of
genoemd
voor de populatie of het proces
Steekproefgemiddelde
Discrete kansvariabele
o
p X (x i )
Met kansverdeling
Continue kansvariabele
o
voor steekproefgegevens
f X (x )
Met kansdichtheid
Verwachte waarde kan een waarde zijn die niet door de kansvariabele kan
aangenomen worden
VERWACHTE WAARDE VAN EEN FUNCTIE VAN EEN KANSVARIABELE

Algemeen
Methode 1 (met substititie)

1. Bereken
pY ( y ) als discreet of f Y ( y )
als continu van de nieuwe variabele
Y =g( X )
2. Pas nu de definitie van de verwachte waarde toe

Methode 2 (direct)
1. Gebruik de kansverdeling of kansdichtheid van
zelf en de functie
g( X )
2. Pas nu de definitie van de verwachte waarde toe

St Petersburg Paradox
o Voor 1x te mogen spelen niet bereid veel in te zetten
o Verwachte waarde van de opbrengst is oneindig groot
Speciale gevallen
Lineaire functies
=> bewijs HBp106
Constante
=>
E ( c )=c
E ( X X ) =( X X )=0
VARIANTIE EN STANDAARDDEVIATIE VAN EEN KANSVARIABELE

Variantie en standaarddeviatie
Nu gedefinieerd voor elke mogelijke kansvariabele (discreet/continu)

18
Ook gebruikt als maatstaf van spreiding
Hoe groter
2X
of
X , hoe groter de spreiding rond de verwachte waarde
Var(lineaire functie)
Bewijs zie HBp109
Constant b heeft geen invloed op

2
b =0
en
2X
of
b =0
Gestandaardiseerde kansvariabele
Heeft altijd verwachte waarde 0 en variantie 1!!!

Zie ook hoofdstuk 3 (p9)
ANDERE KENGETALLEN
Modus
Bestaat niet als er geen maximum bestaat

Zeer zwakke maat van centrale ligging
Mediaan
Discreet: zie formule

0.5
P ( X 0.5 ) =P ( X 0.5 )= f X ( x ) dx= f X ( x ) dx=1/2
Continue:
Ook maat voor centrale ligging want minder gevoelig aan extreme waarden dan
0.5
E( X)
Kwantielen, parcentielen en kwartielen
100*pde percentiel = 10*pde deciel = pde kwantiel

Vb. 0,25e kwantiel = 2,5e deciel = 25e percentiel
0.25
0.5
0.75
1e kwartiel
Voor continue kansvariabelen: zie formules

Voor discrete kansvariabelen: slechts een benadering!
| 2e kwartiel
| 3e kwartiel
Scheefheidscofficinten
Pearson populatiecofficint
3 SP pop +3
Scheefheidscofficintie
o Vergeljkbaar met derde moment m3
Symmetrisch:
gemiddelde = mediaan = modus
Links scheef:
gemiddelde < mediaan < modus
SP = 0
SP < 0
m3 = 0
m3 < 0
staart aan de linkerzijde

Rechts scheef:
gemiddelde > mediaan > modus
SP > 0
m3 > 0
staart aan de rechterzijde
19
H7: Belangrijke discrete kansvariabelen

FAMILIE VAN KANSVERDELINGEN/ KANSDICHTHEDEN
Verzameling van verdelingen/ dichtheden

Gendexeerd door 1 of meerdere grootheden => parameters
Elke waarde die de parameter aanneemt (in een bepaald domein)
resulteert in een kansverdeling/ kansdichtheid
DE BERNOULLI VERDELING
0 1
Parameter
Succes:
X =1
met kans
Faling:
X =0
met kans
(1 )
Bernoulli-experiment = kanproces voor 1 element
stelt hier een kans voor =>
DE BINOMIALE KANSVERDELING
Voorwaarden
Bestaat uit n opeenvolgende Bernoulli experimenten => succes of faling
Met parameter
Experimenten worden onafhankelijk van elkaar uitgevoerd!
telkens dezelfde waarde
Kans op succes
X =1,2,3, , n
en stelt het aantal successen voor
Kans op
Kans op
(nx)
Parameters
n0
0 1
en
succes
faling
en geheeltallig
Scheefheid
Symmetrisch:
=0,5
Links scheef:
0,5
Rechts scheef:
0,5
(figuur
=0.2)
Excel
Binomiale kans
p X (x ; n , )
>( X=x )
=BINOMIALE.VERD (x , n , ,0)
20
p(x ; n , )
Cumulatieve kans
>(X x )=F X ( x )
x=0
=BINOMIALE.VERD (x , n , ,1)
Kleinste waarde x
p(x; n,)
zodanig dat
x=0
=CRIT.BINOM (n , , )
Herbekijk voorbeelden HBp117-120
DE POISSON VERDELING
Voorwaarden
Is een specifiek geval van een binomiale verdeling => succes of faling
Met
In 1 deelinterval kan maximum 1 gebeurtenis voorkomen

Gebeurtenissen zijn onafhankelijk van elkaar!
per klein interval telkens dezelfde waarde en zeer klein
Van Binomiaal naar Poisson verdeeld
Stel
binomiaal verdeeld
en
Indien
Dan tendeert de kansverdeling
naar de Poisson verdeling met
=n
Voorbeeld: # fouten in stof als we weten dat gemiddeld 5 fouten per 10m
o
Zeer veel intervallen
=>
n=10.000
Zeer kleine fout per m
=>
=0.0005
En dit tendeert dus naar =>
n =5=
Excel
Poisson kans
p X ( x ; )
> P( X=x)
=POISSON
(x , , 0)
p(x ; )
Cumulatieve kans
Herbekijk voorbeelden HBp125
> P ( X x )=F X ( x)
x=0
=POISSON ( x , , 1)
DE GEOMETRISCHE VERDELING
Bestaat uit n opeenvolgende Bernoulli experimenten => succes of faling
Na
experimenten een eerste succes

21
0 1
Excel
> P( X=x)
Geometrische kans
=NEG.BINOM.VERD (x1,1, )
DE NEGATIEF BINOMIALE OF PASCAL VERDELING
Veralgemening van de geometrische
Na
experimenten een
Bij geometrische:
r -de succes en dus aantal falingen =
(xr )
r=1
0 1
Excel
> P( X=x)
Pascal kans
=NEG.BINOM.VERD (xr , r , )
Om grootheden van bepaalde verdeling te bewijzen
Formules van H6 gewoon invullen met de gepaste waarden

Gepaste waarden: waarden die de bepaalde verdeling kan aannemen
KORT OVERZICHT
Bernoulli verdeling
Binair (0/1)
Faling/succes, ja/nee, geslaagd/niet geslaagd,
X =1/0
Binomiale verdeling
Reeks van Bernoulli

20 mensen dagen op/dagen niet op, 100 producten falen/zijn succes,
X =aantal successen
Poisson verdeling
Gebeurtenis doet zich lukraak voor
Binomiaal met
# klanten per u in apotheker, # brieven in de brievenbus na 2 dagen,
en
X =aantal gebeurtenissen per eenheid
Geometrische verdeling
Reeks van Bernoulli

Aantal experimenten nodig voor 1e succes
Kans om een eerste 6 te gooien, kans om een juiste bloeddonor te vinden,
X =aantal experimenten tot 1 e succes
Negatief binomiale of Pascal verdeling
Veralgemening van de geometrische

22
Aantal experimenten nodig voor
Kans om een r-de 6 te gooien, kans om r gepaste kleedjes te vinden,
succes
X =aantal experimenten tot r ' de succes
23
H8: Belangrijke continue kansvariabelen

INLEIDING
Problemen ivm met continue kansvariabele
In praktijk niet altijd volwaardig continu!

o Niet perfect te meten
o Benadering
o Eindig in aantal
Grote eindige populatie
o Eigenschap soms continue verondersteld
o Slecht een benadering!
o Vb gewicht producten grote voorraad
DE (CONTINUE) UNIFORME DICHTHEID

Excel
Genereren van een lukraak getal tussen 2 grenzen
+ ( )
ASELECT( )
Wielertoerist
Zie slides
Slechte week referentie bepalen
Afstand ligt binnen interval
Formule toepassen
DE EXPONENTILE DICHTHEID
Algemeen
>0
Stel dat
Y = X+ , dan zal de kansvariabele enkel waarden aannemen
Eigenschap zonder geheugen
Zie formule: vb loketten
Verband exponentile en Poisson
Poisson verdeeld met aankomstenfrequentie
Tijd tussen opeenvolgende aankomsten exponentieel verdeeld met paramater
Voorbeeld stof
t
Bewijs:
FT ( t )=1P ( T >t )=1P ( X =0 )=1
( t )
t
=1e
0!
Excel
24
Kansdichtheid
f X (x)
> P( X=x)
=EXPON.VERD
> P ( X x )
=EXPON.VERD
(x , , 0)
Verdelingsfunctie
F X (x)
(x , , 1)
Duidt aan:
f (2)
F ( 2)
25
H9: De Normale dichtheid

DE NORMALE DICHTHEID
Voordelen van de normale dichtheid
Heel wat processen in praktijk genereren normaal verdeelde gegevens

Belangrijke functies van normaal verdeelde kansvariabelen zijn normaal verdeeld
Belangrijke functies van niet normaal verdeelde kansvariabelen zijn benaderend
normaal verdeeld
Belangrijke eigenschappen
>0 , is het een dichtheid
Voor elke
Klokvormig met asymptoot naar 0 voor
Symmetrisch rond
Modus = mediaan = verwachte waarde =
Buigpunten:
en voor elke
of
f X (+ x ; , )=f X ( x ; , )
x=
DE NORMALE VERDELINGSFUNCTIE
F X (x)
Moeilijk te berekenen
Voor elke waarden anders
Normale verdeling gebruiken!
NORMAAL EN STANDAARDNORMAAL
Standaardnormaal
F Z ( z )= (z )
Als
=0
=1
en
Lineaire transformatie
Kansvariabele is normaal verdeeld
Y =aX+ b
Lineaire functie
E ( Y )=a+ b
var ( Y )=a
N ( , )
26
is dan ook normaal verdeeld
N (a+ b ,a )
Verband normaal en standaardnormaal kansvariabelen: tabel
N ( , )
Voor tabel standaardnormaal:
Alleen de positieve waarden van z

Altijd tekenen!!
Meeste elementen bevinden zich dicht bij het gemiddelde
Als
meer dan
boven 0 ligt, dan zak de normale verdeling zelden
negatieve waarden opleveren

EXCEL
NORM.VERD ( x , , , 0)
STAND.NORM.VERD ( z)
NORM.INV ( ASELECT (), , )
en
NORM.VERD (x , , , 1)
en
STAND.NORM.INV ( ASELECT ())
P ( Z < z ( ) ) =
z ( ) : grenzen
o
o
Eerst kolom
Dan rij aflezen
: de uiteindelijk waarde
27
SOM VAN ONAFHANKELIJKE KANSVARIABELEN
Gewoon kansrekenen toepassen

Zie slides om op te frissen
Som van 2 onafhankelijke kansvariabelen
Met
X1
Som
Y = X 1+ X 2 ook normaal verdeeld met:
en
X2
normaal verdeeld
Y =1 + 2
(Y =1 2 voor verschil)
Y = 1 + 2
Y
=
+
(
1
2 voor verschil ! )
Som van meerdere onafhankelijke kansvariabelen
Met
X1
X2
,,
Xn
normaal verdeeld
Met allemaal dezelfde verwachte waarde en dezelfde variantie:
Y = X 1+ X 2 ++ X n ook normaal verdeeld met:
Met
E ( Y )=Y =n
var ( Y )= Y =n
een lineaire functie:
Y =a0 +a1 X 1 +a2 X 2 ++ an X n
Y =a0 +a1 X 1 +a2 X 2 ++ an X n

ook normaal verdeeld met:
Formule hoofdstuk 11
o
Y =a 0+ a1 1 + a2 2 ++ an n
Y =a1 1 +a2 2 ++ an n
Met allemaal een verschillende verwachte waarde en verschillende variantie:

28
De centrale limietstelling!
Wat wordt de kansverdeling/ dichtheid indien we een groot # onafhankelijke
variabelen optellen?
Tenderen naar een normale verdeling/dichtheid!
Ongeacht de kansverdeling/ dichtheid van de oorspronkelijke kansvariabelen!
Y = X 1+ X 2 ++ X n
benaderend normaal verdeeld
Voorwaarden:
2i
Geen extreem afwijkende
N moet voldoende groot zijn
Kansdichtheid
Xi
Kansdichtheid
X i niet normaal, maar geen pieken
normaal verdeeld
=>
n=5
=>
n=12
Voor andere gevallen
=>
n=100
Aangezien Y dan benaderend normaal => Z(Y) benaderend standaardnormaal
Met
binomiaal verdeeld met
n en
Dan
Bewijs doordat de binomiale kans overal hetzelfde is (dus de varianties en
ook benaderend normaal verdeeld
verwachte waardes ook)
n groot =>
continuteitscorrectie:
en
n(1 )
minimum 5
P(a X b)
benaderen via
P(a0.5 X b+ 0.5)
H10: Multivariate kansvariabelen

BEGRIPPEN
Univariate kasvariabele
1 reel getal wordt geassocieerd met elke uitkomst van het experiment
Vb dobbelsteen 5x opgooien
Multivariate kansvariabelen
Meerdere rele getallen worden geassocieerd met elke mogelijke uitkomst

Vb witte en zwarte dobbelsteen tegelijkertijd 5x opgooien
Multivariaat = gezamenlijk = tegelijkertijd!!
Gezamenlijke kansverdeling
Voor discrete bivariate kansvector

Geld samen als een kans dus voorwaarden:
o
0 p ( x , y ) 1
p ( x , y )=1
MARGINALE KANSVERDELING
29
Kansverdeling van
Kansverdeling
afleiden uit de gezamenlijke kansverdeling
= marginale kansverdeling
(X ,Y )
o marginaal om aan te tonen dat ze werd afgeleid uit de gezamenlijke

o Telkens de totalen optellen
o Moet samen 1 geven!
De 2e kansvariabele wordt buiten beschouwing gelaten
Marginale kansverdelingen kunnen afgeleid worden uit de gezamenlijke
MAAR de gezamenlijke kan alleen afgeleid worden uit de marginale als
onafhankelijk!!!
VOORWAARDELIJKE KANSVERDELINGEN
De voorwaardelijke kansverdeling van
gegeven
Y=y
De voorwaardelijke kansverdeling van
gegeven
X =x
Wanneer
o
en
onafhankelijke kansvariabelen:
Voorwaardelijke kansverdeling van

= marginale kansverdeling van
en
gegeven
Y=y
gegeven
X =x
Voorwaardelijke kansverdeling van

= marginale kansverdeling van
30
H11: Functies van meerdere kansvariabelen

FUNCTIE VAN MEERDERE KANSVARIABELEN
X
g( 1 , X 2 , , X n)
Y =
We willen de reeds gevonden resultaten veralgemenen
VERWACHTE WAARDE VAN EEN FUNCTIE VAN MEERDERE KANSVARIABELEN

Verwachte waarde
E [ g (X 1 , X 2) ]
Zie formule
Verwachte waarde
E( X)
x imarginale kansverdeling
E ( X +Y )=E ( X ) + E ( Y )
E ( XY )=E ( X ) E(Y )
E ( XY )=E ( X ) E ( Y )
E ( X /Y ) E ( X ) /E (Y )
E ( X /Y )=E ( X ) E ( 1/ Y )
als onafhankelijk!!!
als onafhankelijk!!!
VOORWAARDELIJKE VERWACHTE WAARDEN
Hetzelfde als hierboven

Voorwaardelijke kansverdeling/dichtheid gebruik ipv de gewone afzonderlijke
(marginale)
Eerst voorwaardelijke kansverdeling/dichtheid berekenen, daarna pas verwachte
waarde
KANSVERDELING/KANSDICHTHEID VAN FUNCTIES VAN KANSVARIABELEN
Op dezelfde manier als in hoofdstuk 5

o Berekeningen gewoon uitvoeren
o Met deze resultaten verder werken
Stellingen en gevolgen reeds gezien in Hoofdstuk 9
31
H12: Covariantie - Correlatie - Variantie van lineaire functies

COVARIANTIE EN CORRELATIE
Begrippen
Hetzelfde als in hoofdstuk 3

Formule voor covariantie hier veralgemeend
Variantie hier opnieuw een speciaal geval van covariantie
Covariantie van X met zichzelf is de variantie van X!
Als
en
onafhankelijk, dan is
cov ( X ,Y )=0
Omgekeerde niet altijd waar!!!

Lineair verband
Voor lineaire verband:

o
Y =aX+ b
Rechte met positieve helling
corr ( X , Y )=+1
(a> 0)
perfect
positief
o
Rechte met negatieve helling
(a< 0)
corr ( X , Y )=1
(a=0)
corr ( X , Y )=onbepaald
perfect negatief
o
geen
lineair verband
Het omgekeerde geldt ook!
corr ( X , Y )
o
Perfect horizontaal/ verticaal
en
cov ( X ,Y ) geven enkel de graad van lineair verband!!!
Hoe meer de correlatie afwijkt van
|1| , hoe minder lineair
Correlatie zegt iets over de sterkte van het verband, covariantie niet
Excel
COVARIANTIE(celbereik X , celbereik Y)
CORRELATIE(celbereik X , celbereik Y) of PEARSON(celbereik X , celbereik Y)
VARIANTIE VAN EEN LINEAIRE FUNCTIE VAN KANSVARIABELEN

Formule
Herbekijk bewijsje HBp179

Gevolg
o
var ( X +Y )=var ( X )+ var ( Y ) +2 cov ( X ,Y )
var ( X Y )=var ( X ) + var ( Y ) 2 cov ( X , Y )
Je kan de variantie natuurlijk ook gewoon bereken via de methode van substitutie
zoals in H11
Voorbeeld belegging
Standaard deviatie als maatstaf voor risico van een portefeuille

o
Hoe hoger de
st . dev ( Portefeuille) , hoe groter het risisco
Gediversifieerde, gedomineerde en efficinte portefeuilles

32
Covariantiematrix
Symmetrisch + positief semi-definiet

Stel de covariantiematrix van het vb van de belegging opnieuw!
33

Bedrijfsstatistiek Samenvatting Boek 1 (29blz)

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bedrijfsstatistiek Samenvatting Boek 1 (29blz)

Uploaded by

Copyright:

Available Formats

Bedrijfsstatistiek

H1: Statistiek en kansrekenen

Systeem voor vochtigheid

P: alle ogenblikken | Var: vochtigheid

P: dozen | Var: rijst | Pr: vulproces

Risico van bep aandelen

Onderwerp van de Statistiek

Over de populatie van elementen of objecten

Gegevens via variabelen: verschilt bij elk element

Opletten met steekproeven

Moet voldoende groot zijn

!! Statistiek: beperkte steekproefinformatie: geen absoluut correcte uitspraken!!

H2: Data en hun voorstelling

Kleur, merk, verpakking,...

Geen natuurlijk nulpunt

Wel een natuurlijk nulpunt

Eindig: aantal passagiers dat opdaagt, aantal kinderen in een gezin,...

Elk getal tussen de boven en ondergrens: lengte, duurtijd, inhoud,...

Rij: elementen/ waarnemingen = observatievector O

HET VOORSTELLEN VAN UNIVARIATE KWALITATIEVE VARIABELEN

Klassen volgens dalende frequentie

HET VOORSTELLEN VAN UNIVARIATE KWANTITATIEVE VARIABELEN

Continue kwantitatieve variabelen

# klassen staat niet vast (tip:

Het stam- en bladdiagram

Stam: eerste cijfer van elke waarneming

HET VOORSTELLEN VAN BIVARIATE VARIABELEN

Kruistabel met kwalitatieve en kwantitatieve variabele

H3: Beschrijvende Kengetallen van Steeproefgegevens

Zowel voor discrete als continue variabelen

: gewichten = relatieve frequentie

bewijs zie slides

Gevoelig aan extreme waarden

Ongeveer 50% vd waarnemingen zijn groter, 50% kleiner

Waarneming met de grootste frequentie

Maatstaven van relatieve ligging

ie ordekengetal = ie ordestatistiek = ie observatie na rangschikking van klein naar

Vb C0,80 => 0,80ste kwantiel => 8e deciel

Want zo kunnen 2 reeksen gegevens hetzelfde gemiddelde hebben, maar toch

De variatiebreedte = spreidingsbreedte = range

Grootste kleinste waarneming

De gemiddelde absolute afwijking

De gemiddelde gekwadrateerde afwijking

0 bij cte waarden, dus geen variantie

Maatstaven van scheefheid

staart aan de linkerzijde

gemiddelde > mediaan > modus

staart aan de rechterzijde

Belangrijk voorbeeld van lineaire transformatie

Extreme waarden, uitbijters (outliers)

Uitzonderlijk grote of kleine steekproefwaarneming

Doos met snorharen = boxplot

Centrale deel: box

Nog verder naast de snorharen: de werkelijke extreme waarden

Positie mediaan en gemiddelde (+ snorharen)

UNIVARIATE KWALITATIEVE VARIABELEN

BIVARIATE (KWANTITATIEVE) VARIABELEN

Kan en + zijn: hangt af van de dominantie van de positieve of negatieve

(+) : kleine waarde voor X en Y / grote waarde voor X en Y

Puntenwolk: assen rond de gemiddelden

Positieve term: 1e en 3e kwadrant

=> domineren: positieve samenhang

Variantie van een variabele is dus de covariantie met zichzelf: