Professional Documents
Culture Documents
Bedrijfsstatistiek Samenvatting Boek 1 (29blz)
Bedrijfsstatistiek Samenvatting Boek 1 (29blz)
TEW 2e fase
Mieke Simons
passagiers,...
Vulmachine
Nitraatgehalte groenten
Kwaliteit tennisballen
productiepr
Beschrijvende Statistiek
= descriptieve statistiek
Overzichtelijk beeld
Overzichtelijke beschrijving
Verklarende Statistiek
= inferentile statistiek = steekproeftheorie
Analyseren en interpreteren
Hypothesen testen en waarde toetsen
Antwoorden en conclusies veralgemenen naar populatie = inferentie
Uitspraak niet 100% zeker!
o Betrouwbaarheidsgraad => kansuitspraak => kansrekenen
De Kansrekening
Kansrekening
Bestudeert processen of experimenten waarbij de uitkomst onzeker is.
Het gooien van een dobbelsteen, de toekomstige prijs van een product,...
2
Statistiek vs Kansrekenen
o Statistiek: uitspraken via steekproefgegevens
o Kansrekenen: rechtstreekse uitspraken via onderstellingen
Onderstelling noodzakelijk
o Vb dobbelsteen moet homogeen zijn
o In de praktijk moeilijk of niet te verifiren
Zie voorbeelden HBp 7 voor verschillen bij statistische studie (is) en kansrekening
(zal)
Slechts om te categoriseren
Berekeningen zinloos (behalve percentages)
Codenummers, codeletters,... (cijfers impliceren dan geen volgorde en/of
hoeveelheid!)
Ordinale variabele
Een ordinale variabele laat toe de elementen te ordenen.
Om te waarderen, te beoordelen
Geen vaste meeteenheid (
restaurant * en restaurant **
restaurant ** en
restaurant ***)
Berekeningen zinloos
Zeer goed/ goed/ slecht/ zeer slecht, 1 ster/2 sterren,...
Kwantitatieve variabele
Intervalvariabele
Ratiovariabele
Discrete variabele
Continue variabele
DE DATAMATRIX
Waarneming
O1
Gewicht
50,56
Vulkop
1
Uur
8
Analist
A1
4
O2
51,58
A2
Univariate voorstelling
Betrekking op 1 variabele
Bivariate voorstelling
Betrekking op 2 variabelen
Frequentie
Frequentie ve klasse:
Relatieve frequentie:
# elementen vd klasse
# elementen vd klasse/ totaal # elementen vd proef
Excel (HBp14-15)
Frequentie: AANTAL.ALS(celbereik;criterium)
Naalddiagram
Histogram
o Klassenbreedte niet altijd gelijk
o
o Maximaal 15 20
o Som van de oppervlakten = 1
Polygoon
o Middens van de rechthoeken verbinden
o Oppervlakte onder polygoon = 1
Excel (HBp19-21)
Frequentie: INTERVAL(celbereik,bovengrenzen)
Kwalitatieve variabelen
Kruistabel
Meervoudige staafdiagram
Kwantitatieve variabelen
Kruistabel
Puntenwolk/ puntendiagram
Gemengd
Excel (HBp19-21)
Kruistabel: DRAAITABEL
Het gemiddelde
Streekproefgemiddelde
Populatiegemiddelde
f i : frequentie |
fi
n
Eigenschappen
o
x i=n x
x
( ix )=0
De mediaan
De modus
groot
Percentielen: Cp = waarde zodat p100% (0<p<1) van de gerangschikte waardes
kleiner is
Vb C0,76 = X => 76% van de waarnemingen kleiner dan X (en 24% groter)
Kwartielen
o 1e kwartiel: Q1 = c0.25
|
2e kwartiel: Q2 = c0.5 (mediaan) |
3e
o
kwartiel: Q3 = c0.75
Ongeveer is < Q1
ongeveer is < Q2
ongeveer is < Q3
Percentiel Cp = pde kwantiel
Vb C0,76 => 0,76ste kwantiel
7
Afwijking =
( x i x )
De interkwartielbreedte = IKB
Q3 Q1 = c0,75 c0,25
GAA
Niet 0 want werken met absolute waarden!!!
GGA
Niet 0 want werken met kwadraten!!!
De variantie
Steekproefvariantie
Populatievariantie
Altijd positief
De standaarddeviatie
s
Variatiecofficint
vc
Om de relatieve variabiliteit te bekomen
Pearson-cofficint
3 SP +3
Scheefheidscofficintie
o Derde moment m3
Symmetrisch:
gemiddelde = mediaan = modus
Links scheef:
gemiddelde < mediaan < modus
SP = 0
SP < 0
m3 = 0
m3 < 0
Rechts scheef:
SP > 0
m3 > 0
Lineaire transformaties
o yi = axi + b met a en b cte
=> eenvoudige formules: gelden alleen als LINEAIRE transformaties!!!
Standaardiseren
o De gestandaardiseerde waarneming zi
Meet de afstand, uitgedrukt in standaarddeviaties, die x i verwijderd liggen
van
Waarbij
z =0 |
a=1/s
b=x / s
en
x i=x + zi . s
s z =1 |
of
x i>Q3 +1.5IKB
x i<Q1 1.5IKB
x i<Q1 3IKB
of
x i>Q3 +3IKB
Nominale variabel
o Modus
Ordinale variabele
o Modus en mediaan
o Soms gemiddelde: schaal moet intervalschaal benaderen
Steekproefcovariantie sXY
9
Populatiecovariantie
XY
termen
Termen
in de covariantie
(+)(+)
(-) : kleine waarde voor X en grote waarde voor Y (e.o.) (-)(+) of (+)(-)
( x ix ) ( y i y )
en
(-)(-) of
samenhang
Kruistabel van X en Y
o Marginale frequenties van X en Y => relatieve frequenties van X en Y
Nadeel: afhankelijk van meeteenheid
s x =s xx en x = xx
Correlatie
Steekproefcorrelatie rXY
Populatiecorrelatie
-1 <
XY
XY
< +1
EXCEL FORMULES
s : VAR(bereik)
s : STDEV(bereik)
: VARP(bereik)
GAA: GEM.DEVIATIE(bereik)
Vc : STDEV(bereik) / GEMIDDELDE(bereik)
SCHEEFHEID(celbereik)
N
N 1 COVARIANTIE(bereik1;bereik2)
: STDEVP(bereik)
GGA: DEV.KWAD(bereik)
PEARSON(bereik1;bereik2)
CORRELATIE(bereik1;bereik2)
10
H4: Kansrekening
BEGRIP KANS
Benaderend deterministisch
Probabilistisch of stochastisch
KANSEXPERIMENTEN EN VERZAMELINGENLEER
Uitkomstenruimte
Uitkomstenruimte = steekproefruimte
geldt
beschouwd
Elementaire gebeurtenis: een G die zich naar een uitkomst zelf herleid
Gebeurtenis G doet zich voor als
en
Unie of vereniging:
o
G= A B (A of B of beide)
G=G1 G2 =i Gi
=> dan bevat G alle uitkomsten die behoren tot minsten 1 vd
gebeurtenissen G1,G2,
Doorsnede:
o
o
G= A B
i Gi=
(A en B)
G=G 1 G2 =i Gi
11
G= AB
Verschil:
Deelverzameling:
Complement:
A B
(B bevat A)
G =G
GC G=
GC G=
Partitie
(A maar niet B)
(niet in G)
van
(ofofof)
G=G1 G2
G=Gi G j =
P ( G1 G2 )= P(Gi)
i=1
Functie P(G)
Frequentie van G:
f n( G)
f n( G)/ n
Als
Als
G=
G=
dan is
dan is
f n (G)
=1
n
f n (G)
=0
n
en dus
en dus
P ( )=1
P ( ) =0
P (G ) =lim
n
f n (G)
n
P(G) 0
2.
P ( )=1
G1 G2 G 3 = P ( G i )
3.
12
Nadeel: wordt niets gezegd over de bepaling van P(...) voor een concreet
experiment
P (G ) =
nG
n
Slechts mogelijk voor eindig # mogelijke uitkomsten die alle gelijkwaardig zijn
Subjectieve definitie
Persoonlijke inschatting
Verschillende personen zullen dus verschillende inschattingen van de kans
hebben
SIMULATIE IN EXCEL
Doel
Programmas
Excel: ASELECT( )
o Lukraak een getal genereren tussen 0 en 1
o Pseudolukrake getallen
VOORWAARDELIJKE KANS
Begrip
Voorwaardelijke kans
De kans berekenen op een gebeurtenis, rekening houdend met een andere
gebeurtenis, die de kans op de eerste in belangrijke mate zou kunnen veranderen
P(G 1)
P ( G1|G2 )
Vermenigvuldigingsregel
13
Voor 3 gebeurtenissen:
Dus:
P ( G3|G 1 G2 )=
P ( G1 G2 G3 )
P ( G1 G 2 )
1
1
6
1
6
1
6
1 4
P (G ) =
=( )
6
6
( )
Informatie in G2 is
:
onafhankelijke gebeurtenissen!!!!
P ( G1|G2 ) > P ( G1 )
Positief
Negatief:
P ( G1|G2 ) < P ( G1 )
Neutraal:
P ( G1|G2 ) =P ( G1)
14
P ( X=x )=P(G x )
vb.
met G3 =
{ ( 1,2 ) , ( 2,1 ) }
Verdelingsfunctie
0< P<1
F x (x)
dus ook
Overlevingsfunctie:
0< F x <1
P ( X > x )=1F X (x )
p X (x i )
Discrete kansvariabele
o Als # mogelijke waarden voor X eindig aftelbaar zijn
o Als # mogelijke waarden voor X oneindig aftelbaar zijn
uitkomst 6 is)
Kansverdeling
o
o
Kansverdeling:
Waarde dat bij variabele hoort
Gedefinieerd voor reel getal dat bij variabele hoort
Verdelingsfunctie: (cumulatief!)
tussen welke waarden het ligt
gedefinieerd voor elk reel getal
15
f X (x)
f X ( x ) =g ( x ) als a x b
f X ( x ) =0 elders
tussen a en b
Indien zeer groot => klassenbreedte zeer klein => limiet: continue curve
Waarde onder polygoon = 1 => waarde onder F ook
Om na te gaan je een dichtheid hebt
Aanduiden dat
f X (x ) 0
En dat
f X ( x )=1
a
Verdelingsfunctie
F x (x)
Afleiden en dan heb je de kansdichtheid
Stijgend tot 1
F X ( x )=0
als x< a
als a x b
als x> b
b
Uitwerken integraal:
[ ]
x n+1
x dx= n+1
a
n
GRAFISCH OVERZICHTJE
Discreet
Kansverdeling
: naalddiagram
Verdelingsfunctie: trapvorm
Continu
Kansdichtheid: klokvormig
16
F X ( x )=r
o
o
Met r = ASELECT( )
Functie herleiden tot x
X =x
Y =g( X )
Y = y =g (x)
Kansvariabele
Functie
Discreet
Waarde van
Functie
zoeken
pY ( y)
x -waarden
te substitueren door
p X (x ) toe te
passen met y
Continu
Via de verdelingsfunctie
1. Bepaal het nieuwe domein
2. Bereken de nieuwe verdelingsfunctie
3. Leid deze af tot je
f Y ( y)
FY ( y )=P(Y y)
Via de differentiaalanalyse
1. Bepaal het nieuwe domein
2. Los de nieuwe functie op naar
en bepaal de afgeleide
afgeleide
Herbekijk voorbeelden HBp98-99
17
E( x )
Verwachte waarde
Verwachte waarde
of
genoemd
Steekproefgemiddelde
Discrete kansvariabele
o
p X (x i )
Met kansverdeling
Continue kansvariabele
o
voor steekproefgegevens
f X (x )
Met kansdichtheid
Verwachte waarde kan een waarde zijn die niet door de kansvariabele kan
aangenomen worden
pY ( y ) als discreet of f Y ( y )
Y =g( X )
zelf en de functie
g( X )
Speciale gevallen
Lineaire functies
Constante
=>
E ( c )=c
E ( X X ) =( X X )=0
Hoe groter
2X
of
Var(lineaire functie)
b =0
en
2X
of
b =0
Gestandaardiseerde kansvariabele
ANDERE KENGETALLEN
Modus
Mediaan
Continue:
Ook maat voor centrale ligging want minder gevoelig aan extreme waarden dan
0.5
E( X)
Kwantielen, parcentielen en kwartielen
0.25
0.5
0.75
1e kwartiel
| 2e kwartiel
| 3e kwartiel
Scheefheidscofficinten
Pearson populatiecofficint
3 SP pop +3
Scheefheidscofficintie
o Vergeljkbaar met derde moment m3
Symmetrisch:
gemiddelde = mediaan = modus
Links scheef:
gemiddelde < mediaan < modus
SP = 0
SP < 0
m3 = 0
m3 < 0
SP > 0
m3 > 0
19
DE BERNOULLI VERDELING
0 1
Parameter
Succes:
X =1
met kans
Faling:
X =0
met kans
(1 )
DE BINOMIALE KANSVERDELING
Voorwaarden
Met parameter
Kans op succes
X =1,2,3, , n
Kans op
Kans op
(nx)
Parameters
n0
0 1
en
succes
faling
en geheeltallig
Scheefheid
Symmetrisch:
=0,5
Links scheef:
0,5
Rechts scheef:
0,5
(figuur
=0.2)
Excel
Binomiale kans
p X (x ; n , )
>( X=x )
=BINOMIALE.VERD (x , n , ,0)
20
p(x ; n , )
Cumulatieve kans
>(X x )=F X ( x )
x=0
=BINOMIALE.VERD (x , n , ,1)
Kleinste waarde x
p(x; n,)
zodanig dat
x=0
=CRIT.BINOM (n , , )
DE POISSON VERDELING
Voorwaarden
Is een specifiek geval van een binomiale verdeling => succes of faling
Met
Stel
binomiaal verdeeld
en
Indien
=n
Voorbeeld: # fouten in stof als we weten dat gemiddeld 5 fouten per 10m
o
=>
n=10.000
=>
=0.0005
n =5=
Excel
Poisson kans
p X ( x ; )
> P( X=x)
=POISSON
(x , , 0)
p(x ; )
Cumulatieve kans
> P ( X x )=F X ( x)
x=0
=POISSON ( x , , 1)
DE GEOMETRISCHE VERDELING
Na
0 1
Excel
> P( X=x)
Geometrische kans
=NEG.BINOM.VERD (x1,1, )
Na
experimenten een
Bij geometrische:
(xr )
r=1
0 1
Excel
> P( X=x)
Pascal kans
=NEG.BINOM.VERD (xr , r , )
KORT OVERZICHT
Bernoulli verdeling
Binair (0/1)
Faling/succes, ja/nee, geslaagd/niet geslaagd,
X =1/0
Binomiale verdeling
X =aantal successen
Poisson verdeling
Binomiaal met
en
Geometrische verdeling
succes
23
+ ( )
ASELECT( )
Wielertoerist
Zie slides
Slechte week referentie bepalen
Afstand ligt binnen interval
Formule toepassen
DE EXPONENTILE DICHTHEID
Algemeen
>0
Stel dat
Voorbeeld stof
t
Bewijs:
( t )
t
=1e
0!
Excel
24
Kansdichtheid
f X (x)
> P( X=x)
=EXPON.VERD
> P ( X x )
=EXPON.VERD
(x , , 0)
Verdelingsfunctie
F X (x)
(x , , 1)
Duidt aan:
f (2)
F ( 2)
25
Belangrijke eigenschappen
Voor elke
Symmetrisch rond
Buigpunten:
en voor elke
of
f X (+ x ; , )=f X ( x ; , )
x=
DE NORMALE VERDELINGSFUNCTIE
F X (x)
Moeilijk te berekenen
Voor elke waarden anders
Normale verdeling gebruiken!
NORMAAL EN STANDAARDNORMAAL
Standaardnormaal
F Z ( z )= (z )
Als
=0
=1
en
Lineaire transformatie
Y =aX+ b
Lineaire functie
E ( Y )=a+ b
var ( Y )=a
N ( , )
26
N (a+ b ,a )
N ( , )
Als
meer dan
NORM.VERD ( x , , , 0)
STAND.NORM.VERD ( z)
en
NORM.VERD (x , , , 1)
en
P ( Z < z ( ) ) =
z ( ) : grenzen
o
o
Eerst kolom
Dan rij aflezen
: de uiteindelijk waarde
27
Met
X1
Som
en
X2
normaal verdeeld
Y =1 + 2
(Y =1 2 voor verschil)
Y = 1 + 2
Y
=
+
(
1
2 voor verschil ! )
Met
X1
X2
,,
Xn
normaal verdeeld
Met
E ( Y )=Y =n
var ( Y )= Y =n
Formule hoofdstuk 11
o
Y =a 0+ a1 1 + a2 2 ++ an n
Y =a1 1 +a2 2 ++ an n
De centrale limietstelling!
Wat wordt de kansverdeling/ dichtheid indien we een groot # onafhankelijke
variabelen optellen?
Tenderen naar een normale verdeling/dichtheid!
Ongeacht de kansverdeling/ dichtheid van de oorspronkelijke kansvariabelen!
Y = X 1+ X 2 ++ X n
Voorwaarden:
2i
Kansdichtheid
Xi
Kansdichtheid
normaal verdeeld
=>
n=5
=>
n=12
=>
n=100
Met
n en
Dan
n groot =>
continuteitscorrectie:
en
n(1 )
minimum 5
P(a X b)
benaderen via
P(a0.5 X b+ 0.5)
1 reel getal wordt geassocieerd met elke uitkomst van het experiment
Vb dobbelsteen 5x opgooien
Multivariate kansvariabelen
Gezamenlijke kansverdeling
0 p ( x , y ) 1
p ( x , y )=1
MARGINALE KANSVERDELING
29
Kansverdeling van
Kansverdeling
= marginale kansverdeling
(X ,Y )
VOORWAARDELIJKE KANSVERDELINGEN
gegeven
Y=y
gegeven
X =x
Wanneer
o
en
onafhankelijke kansvariabelen:
en
gegeven
Y=y
gegeven
X =x
30
X
g( 1 , X 2 , , X n)
Y =
We willen de reeds gevonden resultaten veralgemenen
E [ g (X 1 , X 2) ]
Zie formule
Verwachte waarde
E( X)
x imarginale kansverdeling
E ( X +Y )=E ( X ) + E ( Y )
E ( XY )=E ( X ) E(Y )
E ( XY )=E ( X ) E ( Y )
E ( X /Y ) E ( X ) /E (Y )
E ( X /Y )=E ( X ) E ( 1/ Y )
als onafhankelijk!!!
als onafhankelijk!!!
(marginale)
Eerst voorwaardelijke kansverdeling/dichtheid berekenen, daarna pas verwachte
waarde
31
Als
en
onafhankelijk, dan is
cov ( X ,Y )=0
Y =aX+ b
corr ( X , Y )=+1
(a> 0)
perfect
positief
o
(a< 0)
corr ( X , Y )=1
(a=0)
corr ( X , Y )=onbepaald
perfect negatief
o
geen
lineair verband
Het omgekeerde geldt ook!
corr ( X , Y )
o
en
Correlatie zegt iets over de sterkte van het verband, covariantie niet
Excel
COVARIANTIE(celbereik X , celbereik Y)
CORRELATIE(celbereik X , celbereik Y) of PEARSON(celbereik X , celbereik Y)
Je kan de variantie natuurlijk ook gewoon bereken via de methode van substitutie
zoals in H11
Voorbeeld belegging
Hoe hoger de
Covariantiematrix
33