Wen 4

Hoofdstuk 4
Verwachtingswaarden
in allerlei vormen
Hand-outs van de theorielessen Waarschijnlijkheidsrekening en Statistiek 2020–2021
Prof. dr. ir. Gert de Cooman, Foundations Lab, Universiteit Gent
© 2008–2021 by Gert de Cooman

Vrijgegeven onder Creative Commons Naamsvermelding-NietCommercieel-GeenAfgeleideWerken
4.0 Internationaal-licentie
1 De verwachtingswaarde van een toevallige veranderlijke

Tot nu toe hebben we voornamelijk gebruik gemaakt van waarschijnlijkheidsmaten om onzekerheid te
beschrijven. We gaan het nu over een andere boeg gooien, en een gelijkwaardig model aanbrengen,
dat wellicht wiskundig eenvoudiger, eleganter, en ook intuïtief beter te rechtvaardigen is: verwachtings-
waarden.
4.2
Definitie voor discrete toevallige veranderlijken Verwachtingswaarde [DG:4.1]
Definitie: verwachtingswaarde van een discrete reële toevallige veranderlijke [Eng. expectation,
expected value, mean, prevision]
Beschouw een discrete toevallige veranderlijke met massafunctie fX . Zij WX de verzameling van de
mogelijke waarden van X, d.w.z.,
WX = {x ∈ R : fX (x) > 0} .
We noemen
∑ ∑ x fX (x) = ∑ x fX (x)
symbolisch
E(X) := x fX (x) =
x∈WX x x∈R
de verwachtingswaarde van X.
Voorbeeld
X is de uitkomst van het gooien met een faire dobbelsteen:
6
1 1 + 2 + 3 + 4 + 5 + 6 21 7
E(X) = ∑ x6 = 6
=
6
= .
2
x=1
Dit geeft aan dat de verwachtingswaarde E(X) niet noodzakelijk tot de verzameling van de mogelijke
waarden WX hoeft te behoren.
4.3
Discrete toevallige veranderlijken: motivering van de definitie Verwachtingswaarde [DG:4.1]
We geven nu een motivering voor deze definitie, gebruik makend van de frequentistische interpretatie.
Beschouw een experiment met als uitkomst een discrete toevallige veranderlijke X met eindige moge-
lijkhedenverzameling WX .
1
We doen een groot aantal n onafhankelijke herhalingen van dit experiment, en noemen
nx , x ∈ WX
het aantal keer dat de uitkomst de waarde x aanneemt.
Dan is de gemiddelde waarde van de uitkomsten (rekenkundig gemiddelde):
∑x∈WX x nx nx
= ∑ x → ∑ x PX ({x}) = E(X)
n x∈W n x∈W
X X
4.4
Discrete toevallige veranderlijken: het bestaan van E(X) Verwachtingswaarde [DG:4.1]
Opmerking
E(X) behoort niet noodzakelijk tot de mogelijke waarden van X.
Opmerking
Alternatieve notatie: µX .
Opmerking: het bestaan van E(X)
• Wanneer WX eindig is, dan bestaat E(X) altijd.

• Wanneer WX aftelbaar oneindig is, en E(X) is een reëel getal, d.w.z. dat de reekssom ∑x∈WX x fX (x)
convergeert en dat
−∞ < ∑ x fX (x) < +∞,
x∈WX
dan zeggen we dat de verwachtingswaarde E(X) van X bestaat als en slechts als de reeks absoluut
convergeert, d.w.z.:
∑ |x| fX (x) < +∞.
x∈WX
4.5
Definitie voor continue toevallige veranderlijken
Verwachtingswaarde [DG:4.1]
Definitie: verwachtingswaarde van een continue reële toevallige veranderlijke [Eng. expectation,
expected value, mean, prevision]
Beschouw een continue toevallige veranderlijke met densiteit fX . We noemen
∫ +∞
E(X) = µX := x fX (x) dx
−∞
de verwachtingswaarde van X.
Voorbeeld
X is uniform verdeeld over [a, b]:
∫ b
1 1 1 2 a+b
E(X) = x dx = (b − a2 ) = .
a b−a b−a 2 2
2
4.6
Continue toevallige veranderlijken: het bestaan van E(X)
Opmerking: het bestaan van E(X) ∫ +∞

Wanneer E(X) een reëel getal is, d.w.z. dat de integraal −∞ x fX (x) dx convergeert en dat
∫ +∞
−∞ < x fX (x) dx < +∞,
−∞
dan zeggen we dat de verwachtingswaarde E(X) van X bestaat als en slechts als de integraal absoluut
convergeert, d.w.z.: ∫ +∞
|x| fX (x) dx < +∞.
−∞
4.7
Verwachtingswaarde als centraliteitsmaat, en verband met de mediaan
Centraliteitsmaten
Zowel de verwachtingswaarde als de mediaan van de verdeling van X worden beschouwd als indicatief
voor ‘waar het centrum van de verdeling ligt’.
verwachtingswaarde geeft zwaartepunt van de waarschijnlijkheidsmassa
mediaan helft van de waarschijnlijkheidsmassa links, andere helft rechts
verwachtingswaarde en mediaan vallen niet noodzakelijk samen!
4.8
Verwachtingswaarde en mediaan: een voorbeeld
2
fX (x)
0 1/2 1 α
verwachtingswaarde
0 α 1 x mediaan
4.9
Verwachtingswaarde en mediaan: een ander voorbeeld Verwachtingswaarde [DG:4.5]
1
α fX (x)
−1 0 1 α x
α
− 13 3
1 1 1 α α −1
E(X) = (− ) + ( ) = en q 1 = 0.
2 3 2 3 6 2
Dit voorbeeld geeft aan dat de mediaan niet wordt beïnvloed door de lengte van de staart van de verde-
ling, maar de verwachtingswaarde wel!
3
4.10
Verwachtingswaarde van een functie van één veranderlijke
Beschouw een discrete reële toevallige veranderlijke X en een functie g : R → R. Dan is g(X) een
discrete reële toevallige veranderlijke met mogelijkhedenverzameling:
Wg(X) = g(WX ) := {g(x) : x ∈ WX } .
Wat is de massafunctie van g(X)? Voor willekeurige u ∈ Wg(X) :
fg(X) (u) = Pg(X) ({u}) = PX ({x : g(x) = u}) = ∑ fX (x) (1)

x∈WX : g(x)=u
Dan vinden we voor de verwachtingswaarde van g(X):
E(g(X)) = ∑ u fg(X) (u) (definitie)

u∈Wg(X)
= ∑ u ∑ fX (x) (vgl. (1))

u∈Wg(X) x∈WX : g(x)=u
= ∑ ∑ u fX (x) = ∑ ∑ g(x) fX (x)

u∈Wg(X) x∈WX : g(x)=u u∈Wg(X) x∈WX : g(x)=u
= ∑ g(x) fX (x).
x∈WX
4.11
Samengevat leidt dit tot:
Stelling 4.1
Gegeven is een discrete toevallige veranderlijke X met massafunctie fX en mogelijkhedenverzameling
WX . Beschouw een willekeurige functie g : R → R. Dan is g(X) een discrete toevallige veranderlijke
met verwachtingswaarde:
∑ ∑ g(x) fX (x) = ∑ g(x) fX (x).

symbolisch
E(g(X)) = g(x) fX (x) =
x∈WX x x∈R
Men toont makkelijk en op dezelfde manier aan dat E(g(X)) bestaat als en slechts als:
∑ |g(x)| fX (x) < +∞.

x∈WX
4.12
Analoog vindt men in het continue geval [zonder bewijs]:
Stelling 4.2
Gegeven is een continue toevallige veranderlijke X met densiteit fX . Beschouw een willekeurige functie
g : R → R. Dan is g(X) een toevallige veranderlijke met verwachtingswaarde:
∫ +∞
E(g(X)) = g(x) fX (x) dx.
−∞
E(g(X)) bestaat als en slechts als:

∫ +∞
|g(x)| fX (x) dx < +∞.
−∞
4
4.13
Verwachtingswaarde van een functie van meer veranderlijken Verwachtingswaarde [DG:4.1]
Analoog vindt men voor meerdere veranderlijken [zonder bewijs]:
Stelling 4.3
Gegeven is een tweedimensionale toevallige veranderlijke (X,Y ). Beschouw een willekeurige functie
g : R2 → R. Dan is g(X,Y ) een toevallige veranderlijke met verwachtingswaarde:
∑ ∑
symbolisch
E(g(X,Y )) = g(x, y) f(X,Y ) (x, y) = g(x, y) f(X,Y ) (x, y),
(x,y)∈W(X,Y ) (x,y)∈R2
wanneer (X,Y ) discreet is met gemeenschappelijke massafunctie f(X,Y ) ; en

∫ +∞ ∫ +∞
E(g(X,Y )) = g(x, y) f(X,Y ) (x, y) dx dy,
−∞ −∞
wanneer (X,Y ) continu is met gemeenschappelijke densiteit f(X,Y ) .
2 Eigenschappen van verwachtingswaarden

Waarom verwachtingswaarden zo elegant en eenvoudig zijn om ermee te werken, volgt vooral hieruit
dat ze enorm eenvoudige en aantrekkelijke eigenschappen hebben. Laten we die nu wat van naderbij
bekijken.
4.14
Lineariteit
Eigenschappen van verwachtingswaarden [DG:4.2]
Stelling 4.4: Lineariteit

Beschouw een willekeurige reële toevallige veranderlijke X. Dan geldt voor alle (constante) a en b in R
dat
E(aX + b) = aE(X) + b.
Bewijs. We beperken ons tot het geval dat X continu is. Met g(x) = ax + b volgt uit stelling 4.2 dat
∫ +∞
E(aX + b) = (ax + b) fX (x) dx
−∞
∫ +∞ ∫ +∞
=a x fX (x) dx + b fX (x) dx
−∞ −∞
= aE(X) + b.
De tweede gelijkheid volgt uit de lineariteit van de integraaloperator, en de derde gelijkheid uit stel-
ling 3.4.3.
4.15
Opmerking
Wanneer g een affiene functie is, dus
g(x) = ax + b, x∈R
dan is
E(g(X)) = E(aX + b) = aE(X) + b = g(E(X))
maar voor algemenere, niet-affiene functies g geldt dit niet noodzakelijk:
E(g(X)) ̸= g(E(X)).
5
4.16
Positiviteit Eigenschappen van verwachtingswaarden [DG:4.2]
Stelling 4.5: Positiviteit

Beschouw een willekeurige reële toevallige veranderlijke X.
1. Voor alle a en b in R:
P(X ≥ a) = PX ([a, +∞)) = 1 ⇒ E(X) ≥ a (2)

P(X ≤ b) = PX ((−∞, b]) = 1 ⇒ E(X) ≤ b
2. Voor ‘alle’ g, h : R → R:
(∀x ∈ R)g(x) ≤ h(x) ⇒ E(g(X)) ≤ E(h(X)) (3)

(∀x ∈ R)h(x) ≥ 0 ⇒ E(h(X)) ≥ 0
4.17
Bewijs. We bewijzen (2) en (3) voor continue toevallige veranderlijken.

(2) Als P(X ≥ a) = 1 dan is FX (x) = 0 voor alle x < a, en dus fX (x) = DFX (x) = 0 voor alle x < a.
Bijgevolg:
∫ +∞ ∫ +∞
E(X) = x fX (x) dx = x fX (x) dx
−∞ a
∫ +∞ ∫ +∞ ∫ +∞
≥ a fX (x) dx = a fX (x) dx = a fX (x) dx = a.
a a −∞
(3) Aangezien voor alle x ∈ R, g(x) fX (x) ≤ h(x) fX (x), komt er

∫ +∞ ∫ +∞
E(g(X)) = g(x) fX (x) dx ≤ h(x) fX (x) dx = E(h(X)).
−∞ −∞
De andere gevallen laten zich analoog behandelen.
4.18
Somwet
Stelling 4.6: Verwachtingswaarde van een som

Beschouw n willekeurige reële toevallige veranderlijken X1 , X2 , . . . , Xn , zo dat elke verwachtingswaarde
E(Xk ) bestaat. Dan bestaat de verwachtingswaarde van de som X1 + X2 + · · · + Xn en
E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ).
Bewijs.
We beperken ons tot het bewijs voor continue toevallige veranderlijken en n = 2. Het bewijs voor andere
gevallen verloopt analoog.
∫ +∞ ∫ +∞
E(X1 + X2 ) = (x + y) f(X1 ,X2 ) (x, y) dx dy (stelling 4.3)
−∞ −∞
∫ +∞ ∫ +∞ ∫ +∞ ∫ +∞
= x f(X1 ,X2 ) (x, y) dx dy + y f(X1 ,X2 ) (x, y) dx dy
−∞ −∞ −∞ −∞
∫ +∞ ∫ +∞ ∫ +∞ ∫ +∞
= x dx f(X1 ,X2 ) (x, y) dy + y dy f(X1 ,X2 ) (x, y) dx
−∞ −∞ −∞ −∞
∫ +∞ ∫ +∞
= x fX1 (x) dx + y fX2 (y) dy = E(X1 ) + E(X2 ).
−∞ −∞
6
4.19

Bewijs (vervolg). Verder zien we op precies dezelfde manier dat, aangezien |u + v| ≤ |u| + |v|,
∫ +∞ ∫ +∞
E(|X1 + X2 |) = |x + y| f(X1 ,X2 ) (x, y) dx dy (stelling 4.3)
−∞ −∞
∫ +∞ ∫ +∞
≤ (|x| + |y|) f(X1 ,X2 ) (x, y) dx dy
−∞ −∞
∫ +∞ ∫ +∞
= |x| fX1 (x) dx + |y| fX2 (y) dy
−∞ −∞
= E(|X1 |) + E(|X2 |) < +∞,
en dus bestaat E(X1 + X2 ).
4.20
Toepassing: binomiale verdeling
Werken met verwachtingswaarden is soms veel eenvoudiger en directer dan werken met waarschijnlijk-
heidsmaten en verwanten.
Verwachtingswaarde van een binomiaal verdeelde toevallige veranderlijke
Ter herinnering: Beschouw een experiment met twee mogelijke uitkomsten, a en b. De waarschijn-
lijkheid van a is p en de waarschijnlijkheid van b is q. Het experiment wordt n keer herhaald, en de
herhalingen zijn onafhankelijk van elkaar. De toevallige veranderlijke X stelt het aantal keer voor dat de
uitkomst a is in die n experimenten.
n ( )
n k n−k
E(X) = ∑ x fX (x) = ∑ k pq =?
x k=0 k
Eenvoudiger: Beschouw de toevallige veranderlijke Xk die 1 is wanneer het k-de experiment a geeft, en
0 wanneer het b geeft.
E(Xk ) = ∑ xk fXk (xk ) = 0 · q + 1 · p = p

xk
E(X) = E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np.
We zien hier voor de eerste keer een zeer belangrijke eigenschap, die het verband tussen verwach-
tingswaarden en waarschijnlijkheden in de verf zet: wanneer een toevallige veranderlijke Y alleen de
waarden 0 en 1 kan aannemen, dan is haar verwachtingswaarde E(Y ) de waarschijnlijkheid P(Y = 1)
dat ze de waarde 1 aanneemt:
E(Y ) = 0 · P(Y = 0) + 1 · P(Y = 1) = P(Y = 1).
3 Verwachtingswaarden en waarschijnlijkheden
4.21
Belangrijk verband
Verwachtingswaarden en waarschijnlijkheden
Stelling 4.7: Waarschijnlijkheid en verwachtingswaarde

Beschouw een reële toevallige veranderlijke X, en een gebeurtenis A ⊆ R, met indicator IA . Dan geldt:
PX (A) = P(X ∈ A) = E(IA (X)).
Bewijs. Als X discreet is, volgt uit stelling 4.1 met g = IA dat
E(IA (X)) = ∑ IA (x) fX (x) = ∑ fX (x) = PX (A),

x∈WX x∈WX : x∈A
7
waarbij de laatste gelijkheid volgt uit stelling 3.3.
Zij X continu, en bijvoorbeeld A = [a, b], dan volgt uit stelling 4.2 dat
∫ +∞ ∫ b
E(IA (X)) = I[a,b] (x) fX (x) dx = fX (x) dx = PX ([a, b]) = PX (A),
−∞ a
en dit kan worden veralgemeend naar algemenere types gebeurtenissen A.
4.22
Equivalente onzekerheidsmodellen
Verwachtingswaarden en waarschijnlijkheden
De voorgaande stelling 4.7 leert dat twee manieren om onzekerheid over de waarde van X voor te stellen
wiskundig equivalent zijn:
• waarschijnlijkheidsmaat PX
A ∈ R −→ PX (A)
• verwachtingswaarde-operator EX
g : R → R −→ EX (g) := E(g(X))
EX zet functies g om in reële getallen; is een lineaire functionaal:
EX (ag + bh) = aEX (g) + bEX (h), a, b ∈ R (uit stellingen 4.1 en 4.2)
Werken met verwachtingswaarden is vaak intuïtiever en makkelijker.
Voorbeeld: Voor willekeurige gebeurtenissen A, B ⊆ R geldt dat
IA∩B + IA∪B = IA + IB ⇒ EX (IA∩B + IA∪B ) = EX (IA + IB )

⇒ EX (IA∩B ) + EX (IA∪B ) = EX (IA ) + EX (IB ) (lineariteit)
⇒ PX (A ∩ B) + PX (A ∪ B) = PX (A) + PX (B) (stelling 4.7)
4 Conditionele verwachtingswaarden
4.23
Definitie
Conditionele verwachtingswaarden [DG:4.7]
Definitie: conditionele verwachtingswaarde [Eng. conditional expectation]

Beschouw een tweedimensionale reële toevallige veranderlijke (X,Y ). Dan is de conditionele verwach-
tingswaarde van Y als gegeven is dat X = x gedefinieerd door
∫ ∞
E(Y |x) = y fY |X (y|x) dy
−∞
als Y continu is, en door

E(Y |x) = ∑ y fY |X (y|x)
y
als Y discreet is.

Dus: de verwachtingswaarde die overeenkomt met de conditionele densiteit (of met de conditionele
massafunctie) fY |X (·|x).
8
4.24
Wet van totale waarschijnlijkheid voor verwachtingswaarden
Aangezien X een toevallige veranderlijke is, is ook E(Y |X) een toevallige veranderlijke, met mogelijke Conditionele verwachtingswaarden [DG:4.7]
waarden
E(Y |x), x ∈ R.
We zijn geïnteresseerd in de verwachtingswaarde E(E(Y |X)) van deze toevallige veranderlijke E(Y |X).
Stelling 4.8: wet van totale waarschijnlijkheid voor verwachtingswaarden
Zij (X,Y ) een tweedimensionale toevallige veranderlijke waarvoor E(Y ) bestaat. Dan geldt
E(E(Y |X)) = E(Y ).
4.25
Bewijs. We geven het bewijs als (X,Y ) continu is:

∫ +∞
E(E(Y |X)) = fX (x) E(Y |x) dx (stelling 4.2)
−∞
∫ +∞ (∫ +∞ )
= fX (x) dx y fY |X (y|x) dy
−∞ −∞
∫ +∞ ∫ +∞
= y fY |X (y|x) fX (x) dx dy
−∞ −∞
∫ +∞ ∫ +∞
= y f(X,Y ) (x, y) dx dy (stelling 3.12)
−∞ −∞
∫ +∞ (∫ +∞ )
= y dy f(X,Y ) (x, y) dx
−∞ −∞
∫ +∞
= y fY (y) dy (stelling 3.9)
−∞
= E(Y ).
Andere gevallen worden analoog bewezen.
4.26
Voorbeeld
We beschouwen een zakje met twee geldstukken: een met twee kopzijden, en een met twee muntzijden.
Een onschuldige hand kiest een geldstuk uit het zakje op aselecte manier, en tost dan n keer met het
gekozen geldstuk X. Wat is de verwachtingswaarde van het aantal keer Y dat munt wordt gegooid?
Stel X = 0 wanneer geldstuk met twee kopzijden, en X = 1 wanneer geldstuk met twee muntzijden
wordt gekozen. Dan is X een discrete toevallige veranderlijke met fX (0) = fX (1) = 1/2.
E(Y |0) = n · 0 = 0 en E(Y |1) = n · 1 = n
en dus volgt uit de wet van totale waarschijnlijkheid dat
E(Y ) = E(E(Y |X))

= ∑ E(Y |x) fX (x) = E(Y |0) fX (0) + E(Y |1) fX (1)
x
1 1 n
= 0 +n = .
2 2 2
Dit is dezelfde verwachtingswaarde als wanneer n keer met een faire munt wordt getost (binomiale
verdeling met p = 1/2).
9
5 Verwachtingswaarden en onafhankelijke toevallige verander-
lijken
4.27
De verwachtingswaarde van een product
Verwachtingswaarden en onafhankelijke toevallige veranderlijken
Stelling 4.9
Beschouw n onafhankelijke reële toevallige veranderlijken X1 , X2 , . . . , Xn . Dan geldt dat:
( n ) n
E ∏ Xk = ∏ E(Xk ).
k=1 k=1
Beschouw algemener n functies g1 , g2 , . . . , gn : R → R. Dan geldt dat:

( n ) n
E ∏ gk (Xk ) = ∏ E(gk (Xk )).
k=1 k=1
Vergelijk met de verwachtingswaarde van een som in stelling 4.6: daar is geen onafhankelijkheid nodig,
hier voor een product wel!
4.28
Verwachtingswaarden en onafhankelijke toevallige veranderlijken
Bewijs. We geven het bewijs voor continue toevallige veranderlijken en voor n = 2. Het bewijs voor
andere gevallen verloopt volkomen analoog.
∫ +∞ ∫ +∞
E(g1 (X1 )g2 (X2 )) = g1 (x)g2 (y) f(X1 ,X2 ) (x, y) dx dy (stelling 4.3)
−∞ −∞
∫ +∞ ∫ +∞
= g1 (x)g2 (y) fX1 (x) fX2 (y) dx dy (stelling 3.14)
−∞ −∞
∫ +∞ ∫ +∞
= g1 (x) fX1 (x) dx g2 (y) fX2 (y) dy
−∞ −∞
= E(g1 (X1 ))E(g2 (X2 )).
6 Variantie, covariantie en correlatie

6.1 Variantie
4.29
Definitie van variantie Variantie, covariantie en correlatie [DG:4.3]
Beschouw een reële veranderlijke X.
De verwachtingswaarde E(X) is, als ze bestaat, een maat voor het centrum van de verdeling van X.
We willen nu ook een spreidingsmaat: hoe sterk wijkt X gemiddeld van deze centrale waarde af?
Definitie: Variantie [Eng. variance]
De variantie var(X) van een reële toevallige veranderlijke X is de verwachte kwadratische afwijking van
X t.o.v. haar verwachtingswaarde E(X):
( )
var(X) := E [X − E(X)]2 .
Alternatieve notatie: σX2
Opmerking
√
σX = var X wordt de standaardafwijking [Eng. standard deviation] van X genoemd. σX heeft dezelfde
dimensie als X, en wordt vaak gezien als een natuurlijke eenheid om X erin uit te drukken.
10
4.30
Hoe de variantie te berekenen?
Variantie, covariantie en correlatie [DG:4.3]
Zij g : R → R een functie. Dan is
( )
var(g(X)) = E [g(X) − E(g(X))]2 .
Uit stelling 4.1 volgt meteen dat

var(g(X)) = ∑ [g(x) − E(g(X))]2 fX (x) (4)
x∈WX
∑ [g(x) − E(g(X))]2 fX (x)

symbolisch
=
x
= ∑ [g(x) − E(g(X))]2 fX (x),
x∈R
wanneer X discreet is, en uit stelling 4.2 volgt meteen dat

∫ +∞
var(g(X)) = [g(x) − E(g(X))]2 fX (x) dx, (5)
−∞
wanneer X continu is.
4.31
Voorbeeld: variantie van uniform verdeelde X Variantie, covariantie en correlatie [DG:4.3]
Zij de continue toevallige veranderlijke X uniform verdeeld over [a, b].
Dan is (zie hiervoor)

a+b
E(X) = µX =
2
en
∫ +∞ ∫ b[ ]2
a+b 1
var(X) = (x − µX ) fX (x) dx =
2
x− dx
−∞ a 2 b−a
[( )3 ( ) ] 3
1 1 b−a a−b
= −
b−a 3 2 2
(b − a)2
=
12
zodat:
(b − a)2 b−a
var(X) = en dus ook σX = √ .
12 2 3
4.32
Eigenschappen van variantie Variantie, covariantie en correlatie [DG:4.3]
Stelling 4.10
Zij X een reële toevallige veranderlijke. Dan geldt voor alle a, b ∈ R dat
var(aX + b) = a2 var(X).
Bewijs. Uit stelling 4.4 volgt dat E(aX + b) = aE(X) + b, en dus:

( ) ( )
var(aX + b) = E [aX + b − E(aX + b)]2 = E [aX + b − aE(X) − b]2
( ) ( )
= E [aX − aE(X)]2 = E a2 [X − E(X)]2
( )
= a2 E [X − E(X)]2 (stelling 4.4)
= a2 var(X).
11
4.33
Stelling 4.11
Zij X een reële toevallige veranderlijke. Dan geldt dat
var(X) = E(X 2 ) − [E(X)]2 .
Bewijs. Noem µX := E(X), dan:

[ ] ( )
var(X) = E (X − µX )2 = E X 2 − 2µX X + µX2
= E(X 2 ) + E(−2µX X) + E(µX2 ) (stelling 4.6)
= E(X ) − 2µX E(X) + µX2
2
(stelling 4.4)
= E(X 2 ) − µX2 .
4.34
Stelling 4.12
Zijn X1 , X2 , . . . , Xn onafhankelijke reële toevallige veranderlijken. Dan geldt:
var(X1 + X2 + · · · + Xn ) = var(X1 ) + var(X2 ) + · · · + var(Xn ).
4.35
Bewijs. We geven het bewijs voor n = 2. Noem µX1 = E(X1 ) en µX2 = E(X2 ), dan is E(X1 + X2 ) =
µX1 + µX2 , wegens stelling 4.6. En dus:
[ ] [ ]
var(X1 + X2 ) = E (X1 + X2 − µX1 − µX2 )2 = E (X1 − µX1 + X2 − µX2 )2
[ ]
= E (X1 − µX1 )2 + (X2 − µX2 )2 + 2(X1 − µX1 )(X2 − µX2 )
= E[(X1 − µX1 )2 ] + E[(X2 − µX2 )2 ] + 2E[(X1 − µX1 )(X2 − µX2 )] (stelling 4.6)
= var(X1 ) + var(X2 ) + 2E(X1 − µX1 )E(X2 − µX2 ) (stelling 4.9)
= var(X1 ) + var(X2 ) + 2(E(X1 ) − µX1 )(E(X2 ) − µX2 ) (stelling 4.4)
= var(X1 ) + var(X2 ).
Het bewijs voor grotere n verloopt dan analoog.
4.36
Gevolg 4.13
Zijn X1 , X2 , . . . , Xn onafhankelijke reële toevallige veranderlijken. Dan geldt voor alle a1 , a2 , . . . , an , b ∈
R dat:
var(a1 X1 + a2 X2 + · · · + an Xn + b) = a21 var(X1 ) + a22 var(X2 ) + · · · + a2n var(Xn ).
Bewijs. Stel Yk := ak Xk en Y := Y1 +Y2 + · · · +Yn , dan geldt
a1 X1 + a2 X2 + · · · + an Xn + b = Y + b
12
en ook
var(Y + b) = var(Y ) (stelling 4.10)

= var(Y1 ) + var(Y2 ) + · · · + var(Yn ) (stellingen 3.19 en 4.12)
= a21 var(X1 ) + a22 var(X2 ) + · · · + a2n var(Xn ). (stelling 4.10)
Dit voltooit het bewijs.
4.37
Voorbeeld: variantie van een binomiaal verdeelde veranderlijke
Ter herinnering: De toevallige veranderlijke X stelt het aantal keer voor dat de uitkomst a is in n onafhan-
kelijke herhalingen van een experiment met twee mogelijke uitkomsten, a en b. De waarschijnlijkheid
van a is telkens p en die van b is q.
n ( )
n k n−k
E(X) = ∑ x fX (x) = ∑ k pq = np
x k=0 k
n ( )
2 n
var(X) = ∑(x − np) fX (x) = ∑ (k − np)
2
pk qn−k = ?
x k=0 k
Eenvoudiger: Beschouw de toevallige veranderlijke Xk die 1 is wanneer k-de experiment a geeft, en 0

wanneer het b geeft. Dan zijn de Xk onafhankelijk bij veronderstelling.
E(Xk ) = ∑ xk fXk (xk ) = 0 · q + 1 · p = p

xk
var(Xk ) = ∑(xk − p)2 fXk (xk ) = (0 − p)2 q + (1 − p)2 p = p(1 − p) = pq

xk
var(X) = var(X1 + X2 + · · · + Xn ) = var(X1 ) + var(X2 ) + · · · + var(Xn )

= np(1 − p) = npq.
4.38
Voorbeeld Variantie, covariantie en correlatie [DG:4.3]
We beschouwen een zakje met twee geldstukken: een met twee kopzijden, en een met twee muntzijden.
Een onschuldige hand kiest een geldstuk uit het zakje op aselecte manier, en tost dan n keer met het
gekozen geldstuk X. Wat is de variantie van het aantal keer Y dat munt wordt gegooid?
Stel X = 0 wanneer geldstuk met twee kopzijden, en X = 1 wanneer geldstuk met twee muntzijden
wordt gekozen. Dan is X een discrete toevallige veranderlijke met fX (0) = fX (1) = 1/2.
E(Y 2 |0) = 02 · 1 = 0 en E(Y |1) = n2 · 1 = n2 ,
en dus volgt uit de wet van totale waarschijnlijkheid dat
E(Y 2 ) = E(E(Y 2 |X))

= ∑ E(Y 2 |x) fX (x) = E(Y 2 |0) fX (0) + E(Y 2 |1) fX (1)
x
1 1 n2
= 0 + n2 = .
2 2 2
En dus is
n2 ( n )2 n2
−
var(Y ) = E(Y 2 ) − E(Y )2 = = .
2 2 4
Wanneer n keer met een faire munt wordt getost, is de variantie n/4 (binomiale verdeling met p = 1/2),
en die is kleiner dan n2/4 zodra n > 1.
13
6.2 Covariantie
4.39
Definitie van covariantie Variantie, covariantie en correlatie [DG:4.6]
Definitie: Covariantie [Eng. covariance]

De covariantie cov(X,Y ) van twee reële toevallige veranderlijken X en Y is gegeven door:
cov(X,Y ) := E ([X − E(X)][Y − E(Y )]) .
Alternatieve notatie: σXY

cov(X,Y ) > 0: X − E(X) en Y − E(Y ) hebben gemiddeld genomen vaker hetzelfde teken dan een ver-
schillend teken, X en Y zijn positief gecorreleerd [Eng. positively correlated].
cov(X,Y ) < 0: X − E(X) en Y − E(Y ) hebben gemiddeld genomen vaker een tegengesteld teken dan
hetzelfde teken, X en Y zijn negatief gecorreleerd [Eng. negatively correlated].
cov(X,Y ) = 0: X − E(X) en Y − E(Y ) hebben gemiddeld genomen even vaak een tegengesteld teken
als hetzelfde teken, X en Y zijn ongecorreleerd [Eng. uncorrelated].
4.40
Berekenen van covariantie
Zijn g, h : R → R functies. Uit stelling 4.3 volgt meteen dat
cov(g(X), h(Y )) = ∑ [g(x) − E(g(X))][h(y) − E(h(Y ))] f(X,Y ) (x, y) (6)

(x,y)∈W(X,Y )
∑ [g(x) − E(g(X))][h(y) − E(h(Y ))] f(X,Y ) (x, y)

symbolisch
=
(x,y)
wanneer (X,Y ) discreet is en dat

∫ +∞ ∫ +∞
cov(g(X), h(Y )) = [g(x) − E(g(X))][h(y) − E(h(Y ))] f(X,Y ) (x, y) dx dy (7)
−∞ −∞
wanneer (X,Y ) continu is.
4.41
Eigenschappen van covariantie
Stelling 4.13
Beschouw reële toevallige veranderlijken X, X1 , X2 en Y .
1. cov(X,Y ) = cov(Y, X).
2. cov(aX + b,Y ) = a cov(X,Y ).
3. cov(X1 + X2 ,Y ) = cov(X1 ,Y ) + cov(X2 ,Y ).
4. cov(X,Y ) = E(XY ) − E(X)E(Y ).
Opmerking: Onafhankelijkheid impliceert ongecorreleerdheid

Wanneer X en Y onafhankelijk zijn dan volgt uit stelling 4.9 dat E(XY ) = E(X)E(Y ), en dus is
cov(X,Y ) = E(XY ) − E(X)E(Y ) = 0,
zodat X en Y ongecorreleerd zijn.
Het omgekeerde is niet noodzakelijk waar.
14
4.42
Bewijs. Punt 1 is triviaal. Voor 2 gebruiken we stelling 4.4 herhaaldelijk: uit aX + b − E(aX + b) =
a[X − E(X)] volgt dat
cov(aX + b,Y ) = E (a[X − E(X)][Y − E(Y )])
= aE ([X − E(X)][Y − E(Y )]) = a cov(X,Y ).
Voor 3 kijken we gewoon naar de definitie en gebruiken stelling 4.6:
cov(X1 + X2 ,Y ) = E ([X1 + X2 − E(X1 + X2 )][Y − E(Y )])
= E ([X1 − E(X1 )][Y − E(Y )] + [X2 − E(X2 )][Y − E(Y )])
= E ([X1 − E(X1 )][Y − E(Y )]) + E ([X2 − E(X2 )][Y − E(Y )])
= cov(X1 ,Y ) + cov(X2 ,Y ).
Ook voor 4 kijken we gewoon naar de definitie:
cov(X,Y ) = E ([X − E(X)][Y − E(Y )])
= E[XY − XE(Y ) −Y E(X) + E(X)E(Y )]
= E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y ) (stl. 4.4 en 4.6)
= E(XY ) − E(X)E(Y ).
4.43
Verband tussen variantie en covariantie
Stelling 4.14
Beschouw reële toevallige veranderlijken X, X1 , X2 , . . . Xn .
1. cov(X, X) = var(X).
2. Algemeen geldt dat
n n n
var( ∑ Xk ) = ∑ cov(Xk , Xℓ ) = ∑ var(Xk ) + 2 ∑ cov(Xk , Xℓ ).
k=1 k,ℓ=1 k=1 k<ℓ
3. Wanneer X1 , X2 , . . . , Xn onderling ongecorreleerd zijn, en dus cov(Xk , Xℓ ) = 0 voor alle k ̸= ℓ, dan

var(X1 + X2 + · · · + Xn ) = var(X1 ) + var(X2 ) + · · · + var(Xn ). (8)
Opmerking: vergelijk punt 3 met stelling 4.12

Opdat (8) zou gelden is ongecorreleerdheid al voldoende. Onafhankelijkheid is een sterkere voldoende
voorwaarde voor (8).
4.44
Bewijs. Punt 1 is triviaal, en 3 een onmiddellijk gevolg van 2. We bewijzen punt 2.

( ) ( )
n n n
var ∑ Xk = cov ∑ Xk , ∑ Xℓ (punt 1)
k=1 k=1 ℓ=1
( )
n n
= ∑ cov Xk , ∑ Xℓ (stelling 4.13.3)
k=1 ℓ=1
n n
= ∑ ∑ cov(Xk , Xℓ ) (stelling 4.13.1&3)
k=1 ℓ=1
n n
= ∑ cov(Xk , Xℓ ) + ∑ cov(Xk , Xℓ ).
k,ℓ=1 k,ℓ=1
k=ℓ k̸=ℓ
15
6.3 Correlatie
4.45
Definitie van de correlatie Variantie, covariantie en correlatie [DG:4.6]
De covariantie is niet schaalinvariant: voor a, c > 0 en b, d ∈ R
cov(aX + b, cY + d) = ac cov(X,Y )
Om tot een schaalinvariante maat te komen voor de mate waarin X en Y gecorreleerd zijn, voeren we
het volgende begrip in.
Definitie: Correlatie(coëfficiënt) [Eng. correlation (coefficient)]
Beschouw twee reële toevallige veranderlijken X en Y zo dat var(X) = σX2 < +∞ en var(Y ) = σY2 < +∞.
Dan is de correlatie(coëfficiënt) van X en Y gegeven door
cov(X,Y ) σXY
ρ (X,Y ) := √ √ = .
var(X) var(Y ) σX σY
Alternatieve notatie: ρXY
Merk op dat voor a, c > 0 en b, d ∈ R:
ρ (aX + b, cY + d) = ρ (X,Y )
4.46
Basiseigenschappen van correlatie Variantie, covariantie en correlatie [DG:4.6]
Stelling 4.15: de correlatie is een maat voor lineair verband

Beschouw twee reële toevallige veranderlijken X en Y met σX2 < +∞ en σY2 < +∞. Dan geldt:
1. −1 ≤ ρ (X,Y ) ≤ 1.
2. als Y = aX + b dan ρ (X,Y ) = sign a.
Bewijs. Schetsmatig bewijs voor punt 1. We kunnen X en Y zien als vectoren in een reële vectorruimte,
en dan is cov(X,Y ) een inwendig/scalair product: ⟨X,Y ⟩ = cov(X,Y ) en ∥X∥2 = ⟨X, X⟩ = var(X). Dan
cov(X,Y )2 ⟨X,Y ⟩2
ρ (X,Y )2 = = ≤ 1. (Cauchy–Schwarz)
var(X) var(Y ) ∥X∥2 ∥Y ∥2
Voor punt 2: cov(X,Y ) = a cov(X, X) = a var(X) en var(Y ) = a2 var(X), zodat σY = |a|σX . Dus:
aσX2 a
ρ (X,Y ) = = = sign a.
σX |a|σX |a|
7 Momenten en centrale momenten

4.47
Definitie Momenten en centrale momenten [DG:4.4]
Definitie
We noemen voor elke reële toevallige veranderlijke X en elke k ∈ N
µk′ (X) := E(X k )
het k-de moment (rond de oorsprong) van X [Eng. kth moment (about the origin), kth raw moment].
We zeggen dat dit moment bestaat wanneer:

E(|X|k ) < +∞.
Analoog noemen we ( )
µk (X) := E [X − E(X)]k
het k-de centrale moment van X [Eng. kth central moment].
Bijzondere gevallen: µ1′ (X) = E(X) en µ2 (X) = var(X).
16
4.48
Verband tussen momenten en centrale momenten
Beschouw een toevallige veranderlijke met µX = E(X). We zien via het binomium van Newton dat, Momenten en centrale momenten [DG:4.4]
wanneer de optredende momenten bestaan:

( ( ) )
n
n
µn (X) = E([X − µX ]n ) = E ∑ (−1)n−k µ n−k X k
k=0 k X
n ( )
n n−k
= ∑ (−1)n−k µX E(X k )
k=0 k
n ( )
n−k n
= ∑ (−1) µXn−k µk′ (X)
k=0 k
( ( ) )
n
n n−k
µn (X) = E([X − µX + µX ] ) = E ∑
′ n
µX [X − µX ] k
k=0 k
n ( )
n n−k
=∑ µX E([X − µX ]k )
k=0 k
n ( )
n n−k
=∑ µX µk (X)
k=0 k
8 Momentenfunctie en karakteristieke functie

4.49
Definitie Momentenfunctie en karakteristieke functie [DG:4.4]
Definitie: Momentenfunctie [Eng. moment generating function, mgf]

Beschouw een reële toevallige veranderlijke X. Dan noemen we de functie MX , met voor t ∈ R:

 ∑ e fX (x)
tx
 X discreet
x∈WX
MX (t) := E(e ) = ∫ +∞
tX

 etx fX (x) dx X continu
−∞
de momentenfunctie van X.
Opmerking
MX (t) is niet noodzakelijk gedefinieerd voor alle waarden van t in R. Wel steeds MX (0) = 1 [normering].
Opmerking: karakteristieke functie

χX (t) := E(eitX ) wordt de karakteristieke functie van X genoemd, en is verwant met de Fourier-getransformeerde
van fX voor continue X. Ze vervult een analoge rol als de momentenfunctie.
4.50
Waar komt de naam vandaan?
Momentenfunctie en karakteristieke functie [DG:4.4]
We kunnen de momentenfunctie gebruiken om de momenten te berekenen.
We geven een informele redenering:

[ n ] [ n ]
(n) d d tX
MX (0) = MX (t) = E(e )
dt n t=0 dt n t=0
([ n ] )
? d
=E etX (omwisselen operatoren?)
dt n
([ n tX ] t=0 )
= E X e t=0
= E(X n ),
17
en dus geldt dat
µn′ (X) = E(X n ) = MX (0).
(n)
4.51
Eigenschappen van de momentenfuctie Momentenfunctie en karakteristieke functie [DG:4.4]
Stelling 4.16: Momentenfunctie karakteriseert verdeling, zonder bewijs

Beschouw twee reële toevallige veranderlijken X en Y . Wanneer er een ε > 0 is zo dat
(∀t ∈ (−ε , +ε ))MX (t) = MY (t),
dan hebben X en Y dezelfde verdeling: PX = PY en dus FX = FY en fX = fY .
Stelling 4.17
Beschouw een reële toevallige veranderlijke X. Dan geldt voor elke t zo dat MX (at) bestaat dat MaX+b (t) =
ebt MX (at).
Bewijs.
MaX+b (t) = E(et(aX+b) ) = E(eatX ebt ) = ebt E(e(at)X ) = ebt MX (at).
4.52
Momentenfunctie en karakteristieke functie [DG:4.4]
Stelling 4.18
Beschouw n onafhankelijke reële toevallige veranderlijken X1 , . . . , Xn . Dan geldt voor elke t waarvoor
alle MXk (t) bestaan dat
MX1 +X2 +···+Xn (t) = MX1 (t)MX2 (t) · · · MXn (t).
Bewijs.
MX1 +X2 +···+Xn (t) = E(et(X1 +X2 +···+Xn ) )
= E(etX1 etX2 · · · etXn )
= E(etX1 )E(etX2 ) · · · E(etXn ) (stelling 4.9)
= MX1 (t)MX2 (t) · · · MXn (t).
4.53
Voorbeeld: momentenfunctie van de binomiale verdeling Momentenfunctie en karakteristieke functie [DG:4.4]
Ter herinnering: De toevallige veranderlijke X stelt het aantal keer voor dat de uitkomst a is in n onafhan-
kelijke herhalingen van een experiment met twee mogelijke uitkomsten, a en b. De waarschijnlijkheid
van a is telkens p en die van b is q.
Beschouw de toevallige veranderlijke Xk die 1 is wanneer k-de experiment a geeft, en 0 wanneer het b
geeft. Dan zijn de Xk onafhankelijk bij veronderstelling, en X = ∑nk=1 Xk .
MXk (t) = pe1·t + qe0·t = pet + q
MX (t) = MX1 +X2 +···+Xn (t)
= MX1 (t)MX2 (t) · · · MXn (t) (stelling 4.18)
t n
= (pe + q)
[ ]
µ1′ (X) = MX′ (0) = npet (pet + q)n−1 t=0
= np
[ ]
µ2′ (X) = MX′′ (0) = npet (pet + q) n−1
+ n(n − 1)p2 e2t (pet + q)n−2 t=0
= np[1 + (n − 1)p] = npq + (np) 2
µ2 (X) = µ2′ (X) − [µ1′ (X)]2 = npq
18
9 De ongelijkheden van Markov en Chebyshev
9.1 Markov-ongelijkheid
4.54
Andrei Andreyevich Markov (1856–1922)
De ongelijkheden van Markov en Chebyshev [DG:6.2]
4.55
Markov-ongelijkheid De ongelijkheden van Markov en Chebyshev [DG:6.2]
Stelling 4.19: Markov-ongelijkheid [Eng. Markov inequality]

Zij X een niet-negatieve toevallige veranderlijke (X ≥ 0) waarvoor de verwachtingswaarde E(X) bestaat.
Dan geldt voor elke reële a > 0 dat:
E(X)
P(X ≥ a) ≤ .
a
E(X)
E(X)/a
0 1 a
4.56
Bewijs. Kies een willekeurige reële a > 0, en beschouw de gebeurtenis {X ≥ a} dat X niet kleiner is
dan a. Dan {
a als X ≥ a
aI{X≥a} = ≤ X,
0 als X < a
19
en dus volgt dat
E(X) ≥ E(aI{X≥a} ) (stelling 4.5.2)

= aE(I{X≥a} ) (stelling 4.4)
= aP(X ≥ a), (stelling 4.7)
en dit voltooit het bewijs.
9.2 Chebyshev-ongelijkheid
4.57
Pafnuty Lvovich Chebyshev (1821–1894)
4.58
Chebyshev-ongelijkheid De ongelijkheden van Markov en Chebyshev [DG:6.2]
Stelling 4.20: Chebyshev-ongelijkheid [Eng. Chebyshev inequality]

Zij X een toevallige veranderlijke waarvoor de verwachtingswaarde E(X) en de variantie var(X) be-
staan. Dan geldt voor elke reële a > 0 dat:
var(X)
P(|X − E(X)| ≥ a) ≤ .
a2
Bewijs.
P(|X − E(X)| ≥ a) = P([X − E(X)]2 ≥ a2 )

E([X − E(X)]2 )
≤ (Markov-ongelijkheid)
a2
var(X)
= .
a2
10 De wet van de grote getallen

4.59
Ook de wet van Bernoulli genoemd
De wet van de grote getallen [DG:6.2]
We beschouwen een experiment met reële uitkomst X, zo dat
µX := E(X) en σX2 := var(X)
20
bestaan.
We herhalen het experiment n keer, en we noemen Xk de uitkomst van de k-de herhaling (of steekproef).
We veronderstellen verder dat de uitkomsten Xk van de herhaalde experimenten onafhankelijk zijn: het
observeren van de waarden van enkele onder ze, leert ons niks bij over de waarde van de andere.
We zijn geïnteresseerd in het steekproefgemiddelde:
1 n
X n := ∑ Xk .
n k=1
Dit is ook een toevallige veranderlijke!
4.60

De verwachtingswaarde van het steekproefgemiddelde:
( )
1 n
E(X n ) = E ∑ Xk
n k=1
1 n
= ∑ E(Xk )
n k=1
(stellingen 4.4 en 4.6)
1
= nµX = µX .
n
X n heeft dezelfde verwachtingswaarde als X:
E(X n ) = µX .
4.61
Ook de wet van Bernoulli genoemd De wet van de grote getallen [DG:6.2]
De variantie van het steekproefgemiddelde:
( )
1 n
var(X n ) = var ∑ Xk
n k=1
1 n
= ∑ var(Xk )
n2 k=1
(stellingen 4.10 en 4.12)
1 σX2
= nσX
2
= .
n2 n
De variantie van X n gaat naar nul als 1/n:
σX2
var(X n ) = .
n
√
De standaardafwijking van X n gaat naar nul als 1/ n:
σX
σX n = √ .
n
Dit geeft aan waarom men metingen herhaalt, en steekproefgemiddelden neemt.
21
4.62

Laten we nu eens kijken naar:
var(X n )
P(|X n − µX | ≥ ε ) ≤ (Chebyshev-ongelijkheid)
ε2
σ 2
= X2 .
nε
en dus vinden we voor elke ε > 0 dat:
σX2
P(|X n − µX | ≥ ε ) ≤ →0 voor n → ∞
nε 2
Dit is de wet van de grote getallen [Eng. law of large numbers].
Deze wet vormt de grondslag voor de frequentistische interpretatie van de waarschijnlijkheidsleer.
11 Addendum ter informatie: Essai door Stephen Jay Gould

The Median Isn’t the Message
My life has recently intersected, in a most personal way, two of Mark Twain’s famous quips. One I shall
defer to the end of this essay. The other (sometimes attributed to Disraeli), identifies three species of
mendacity, each worse than the one before—lies, damned lies, and statistics.
Consider the standard example of stretching the truth with numbers—a case quite relevant to my
story. Statistics recognizes different measures of an “average,” or central tendency. The mean is our
usual concept of an overall average—add up the items and divide them by the number of sharers (100
candy bars collected for five kids next Halloween will yield 20 for each in a just world). The median, a
different measure of central tendency, is the half-way point. If I line up five kids by height, the median
child is shorter than two and taller than the other two (who might have trouble getting their mean share
of the candy). A politician in power might say with pride, “The mean income of our citizens is $15,000
per year.” The leader of the opposition might retort, “But half our citizens make less than $10,000 per
year.” Both are right, but neither cites a statistic with impassive objectivity. The first invokes a mean, the
second a median. (Means are higher than medians in such cases because one millionaire may outweigh
hundreds of poor people in setting a mean; but he can balance only one mendicant in calculating a
median).
The larger issue that creates a common distrust or contempt for statistics is more troubling. Many
people make an unfortunate and invalid separation between heart and mind, or feeling and intellect.
In some contemporary traditions, abetted by attitudes stereotypically centered on Southern California,
feelings are exalted as more “real” and the only proper basis for action—if it feels good, do it—while
intellect gets short shrift as a hang-up of outmoded elitism. Statistics, in this absurd dichotomy, often
become the symbol of the enemy. As Hilaire Belloc wrote, “Statistics are the triumph of the quantitative
method, and the quantitative method is the victory of sterility and death.”
This is a personal story of statistics, properly interpreted, as profoundly nurturant and life-giving.
It declares holy war on the downgrading of intellect by telling a small story about the utility of dry,
academic knowledge about science. Heart and head are focal points of one body, one personality.
In July 1982, I learned that I was suffering from abdominal mesothelioma, a rare and serious cancer
usually associated with exposure to asbestos. When I revived after surgery, I asked my first question of
my doctor and chemotherapist: “What is the best technical literature about mesothelioma?” She replied,
with a touch of diplomacy (the only departure she has ever made from direct frankness), that the medical
literature contained nothing really worth reading.
Of course, trying to keep an intellectual away from literature works about as well as recommending
chastity to Homo sapiens, the sexiest primate of all. As soon as I could walk, I made a beeline for Har-
vard’s Countway medical library and punched mesothelioma into the computer’s bibliographic search
program. An hour later, surrounded by the latest literature on abdominal mesothelioma, I realized with
a gulp why my doctor had offered that humane advice. The literature couldn’t have been more brutally
clear: mesothelioma is incurable, with a median mortality of only eight months after discovery. I sat
stunned for about fifteen minutes, then smiled and said to myself: so that’s why they didn’t give me
anything to read. Then my mind started to work again, thank goodness.
22
If a little learning could ever be a dangerous thing, I had encountered a classic example. Attitude
clearly matters in fighting cancer. We don’t know why (from my old-style materialistic perspective, I
suspect that mental states feed back upon the immune system). But match people with the same cancer
for age, class, health, socioeconomic status, and, in general, those with positive attitudes, with a strong
will and purpose for living, with commitment to struggle, with an active response to aiding their own
treatment and not just a passive acceptance of anything doctors say, tend to live longer. A few months
later I asked Sir Peter Medawar, my personal scientific guru and a Nobelist in immunology, what the
best prescription for success against cancer might be. “A sanguine personality,” he replied. Fortunately
(since one can’t reconstruct oneself at short notice and for a definite purpose), I am, if anything, even-
tempered and confident in just this manner.
Hence the dilemma for humane doctors: since attitude matters so critically, should such a som-
bre conclusion be advertised, especially since few people have sufficient understanding of statistics to
evaluate what the statements really mean? From years of experience with the small-scale evolution
of Bahamian land snails treated quantitatively, I have developed this technical knowledge—and I am
convinced that it played a major role in saving my life. Knowledge is indeed power, in Bacon’s proverb.
The problem may be briefly stated: What does “median mortality of eight months” signify in our
vernacular? I suspect that most people, without training in statistics, would read such a statement as “I
will probably be dead in eight months”—the very conclusion that must be avoided, since it isn’t so, and
since attitude matters so much.
I was not, of course, overjoyed, but I didn’t read the statement in this vernacular way either. My
technical training enjoined a different perspective on “eight months median mortality.” The point is a
subtle one, but profound—for it embodies the distinctive way of thinking in my own field of evolutionary
biology and natural history.
We still carry the historical baggage of a Platonic heritage that seeks sharp essences and definite
boundaries. (Thus we hope to find an unambiguous “beginning of life” or “definition of death,” although
nature often comes to us as irreducible continua.) This Platonic heritage, with its emphasis in clear
distinctions and separated immutable entities, leads us to view statistical measures of central tendency
wrongly, indeed opposite to the appropriate interpretation in our actual world of variation, shadings, and
continua. In short, we view means and medians as the hard “realities,” and the variation that permits
their calculation as a set of transient and imperfect measurements of this hidden essence. If the median
is the reality and variation around the median just a device for its calculation, the “I will probably be
dead in eight months” may pass as a reasonable interpretation.
But all evolutionary biologists know that variation itself is nature’s only irreducible essence. Varia-
tion is the hard reality, not a set of imperfect measures for a central tendency. Means and medians are the
abstractions. Therefore, I looked at the mesothelioma statistics quite differently—and not only because
I am an optimist who tends to see the doughnut instead of the hole, but primarily because I know that
variation itself is the reality.
I had to place myself amidst the variation.
When I learned about the eight-month median, my first intellectual reaction was: fine, half the
people will live longer; now what are my chances of being in that half. I read for a furious and nervous
hour and concluded, with relief: damned good. I possessed every one of the characteristics conferring
a probability of longer life: I was young; my disease had been recognized in a relatively early stage; I
would receive the nation’s best medical treatment; I had the world to live for; I knew how to read the
data properly and not despair.
Another technical point then added even more solace. I immediately recognized that the distribution
of variation about the eight-month median would almost surely be what statisticians call “right skewed.”
(In a symmetrical distribution, the profile of variation to the left of the central tendency is a mirror
image of variation to the right. In skewed distributions, variation to one side of the central tendency is
more stretched out—left skewed if extended to the left, right skewed if stretched out to the right.) The
distribution of variation had to be right skewed, I reasoned. After all, the left of the distribution contains
an irrevocable lower boundary of zero (since mesothelioma can only be identified at death or before).
Thus, there isn’t much room for the distribution’s lower (or left) half—it must be scrunched up between
zero and eight months. But the upper (or right) half can extend out for years and years, even if nobody
ultimately survives. The distribution must be right skewed, and I needed to know how long the extended
tail ran—for I had already concluded that my favorable profile made me a good candidate for that part
of the curve.
The distribution was indeed, strongly right skewed, with a long tail (however small) that extended
for several years above the eight month median. I saw no reason why I shouldn’t be in that small tail,
and I breathed a very long sigh of relief. My technical knowledge had helped. I had read the graph
23
correctly. I had asked the right question and found the answers. I had obtained, in all probability, the
most precious of all possible gifts in the circumstances—substantial time. I didn’t have to stop and
immediately follow Isaiah’s injunction to Hezekiah—set thine house in order for thou shalt die, and not
live. I would have time to think, to plan, and to fight.
One final point about statistical distributions. They apply only to a prescribed set of circumstances—
in this case to survival with mesothelioma under conventional modes of treatment. If circumstances
change, the distribution may alter. I was placed on an experimental protocol of treatment and, if fortune
holds, will be in the first cohort of a new distribution with high median and a right tail extending to
death by natural causes at advanced old age.
It has become, in my view, a bit too trendy to regard the acceptance of death as something tantamount
to intrinsic dignity. Of course I agree with the preacher of Ecclesiastes that there is a time to love and a
time to die—and when my skein runs out I hope to face the end calmly and in my own way. For most
situations, however, I prefer the more martial view that death is the ultimate enemy—and I find nothing
reproachable in those who rage mightily against the dying of the light.
The swords of battle are numerous, and none more effective than humor. My death was announced
at a meeting of my colleagues in Scotland, and I almost experienced the delicious pleasure of reading
my obituary penned by one of my best friends (the so-and-so got suspicious and checked; he too is a
statistician, and didn’t expect to find me so far out on the right tail). Still, the incident provided my first
good laugh after the diagnosis. Just think, I almost got to repeat Mark Twain’s most famous line of all:
the reports of my death are greatly exaggerated.
Nawoord van Steve Dunn

Many people have written me to ask what became of Stephen Jay Gould. Sadly, Dr. Gould died in May
of 2002 at the age of 60. Dr. Gould lived for 20 very productive years after his diagnosis, thus exceeding
his 8 month median survival by a factor of thirty! Although he did die of cancer, it apparently wasn’t
mesothelioma, but a second and unrelated cancer.
In March 2002, Dr. Gould published his 1342 page “Magnum Opus”, The Structure of Evolutionary
Theory. It is fitting that Gould, one of the world’s most prolific scientists and writers, was able to
complete the definitive statement of his scientific work and philosophy just in time. That text is far too
long and dense for almost any layman—but the works of Stephen Jay Gould will live on. Especially I
hope, The Median Isn’t The Message .
Nog enkele opmerkingen ter verduidelijking

De overlevingstijd: [Eng. survival time] T is de tijd gedurende dewelke een patiënt nog zal leven na het
vaststellen van de ziekte (of eventueel na het begin van de ziekte).
Het gaat om een toevallige veranderlijke: we zijn onzeker over haar precieze waarde. Haar distribu-
tiefunctie
FT (t) = P(T ≤ t)
geeft de waarschijnlijkheid dat de patiënt hoogstens een tijd t overleeft. We zullen hier voor de eenvoud
veronderstellen dat deze functie continu en strikt stijgend is.
Een optimistischer variant is de overlevingsfunctie: [Eng. survival function]
ST (t) = P(T ≥ t) = 1 − FT (t),
die de waarschijnlijkheid geeft dat de patiënt tenminste een tijd t overleeft.

De mediaan of halveringstijd: [Eng. half-life] t1/2 is die waarde van t waarvoor de kans tot langer (en
dus ook die tot korter) leven 50% is:
1
ST (t1/2 ) = FT (t1/2 ) = .
2
De wet van de grote getallen zegt dat als we een groot aantal patiënten hebben met allemaal dezelfde
overlevingsfunctie, dan met zeer grote waarschijnlijkheid de helft van hen zal zijn overleden na een tijd
t1/2 , en dus ook dat de helft van ze nog leeft. Analoge conclusies kunnen we trekken over de andere
fractielen en percentielen van de veranderlijke T .
Hoe langer de staart van de verdeling, met andere woorden, hoe langer het duurt eer ST (t) klein
wordt, des te beter zijn de overlevingskansen op langere termijn. Dan zullen meteen ook de verwach-
tingswaarde E(T ) en de variantie var(T ) naar rechts opschuiven: hogere waarden van T komen met
grotere waarschijnlijkheid voor.
24
De wiskundige boodschap van het essai van Stephen Jay Gould zit vervat in de volgende observatie:
de mediaan zegt ons niks over de staart van de verdeling. Dat is ook aangegeven in het voorbeeld op
slide 9.
25

Wen 4

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Wen 4

Uploaded by

Copyright:

Available Formats

Hoofdstuk 4

Prof. dr. ir. Gert de Cooman, Foundations Lab, Universiteit Gent

© 2008–2021 by Gert de Cooman

1 De verwachtingswaarde van een toevallige veranderlijke

het aantal keer dat de uitkomst de waarde x aanneemt.

Dan is de gemiddelde waarde van de uitkomsten (rekenkundig gemiddelde):

Opmerking: het bestaan van E(X)

• Wanneer WX eindig is, dan bestaat E(X) altijd.

Opmerking: het bestaan van E(X) ∫ +∞

Wg(X) = g(WX ) := {g(x) : x ∈ WX } .

Wat is de massafunctie van g(X)? Voor willekeurige u ∈ Wg(X) :

fg(X) (u) = Pg(X) ({u}) = PX ({x : g(x) = u}) = ∑ fX (x) (1)

Dan vinden we voor de verwachtingswaarde van g(X):

E(g(X)) = ∑ u fg(X) (u) (deﬁnitie)

= ∑ u ∑ fX (x) (vgl. (1))

= ∑ ∑ u fX (x) = ∑ ∑ g(x) fX (x)

∑ ∑ g(x) fX (x) = ∑ g(x) fX (x).

∑ |g(x)| fX (x) < +∞.

E(g(X)) bestaat als en slechts als:

wanneer (X,Y ) discreet is met gemeenschappelijke massafunctie f(X,Y ) ; en

wanneer (X,Y ) continu is met gemeenschappelijke densiteit f(X,Y ) .

2 Eigenschappen van verwachtingswaarden

Stelling 4.4: Lineariteit

Eigenschappen van verwachtingswaarden [DG:4.2]

Stelling 4.5: Positiviteit

P(X ≥ a) = PX ([a, +∞)) = 1 ⇒ E(X) ≥ a (2)

(∀x ∈ R)g(x) ≤ h(x) ⇒ E(g(X)) ≤ E(h(X)) (3)

Eigenschappen van verwachtingswaarden [DG:4.2]

Bewijs. We bewijzen (2) en (3) voor continue toevallige veranderlijken.

(3) Aangezien voor alle x ∈ R, g(x) fX (x) ≤ h(x) fX (x), komt er

De andere gevallen laten zich analoog behandelen.

Stelling 4.6: Verwachtingswaarde van een som

E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ).

Eigenschappen van verwachtingswaarden [DG:4.2]

en dus bestaat E(X1 + X2 ).

E(Xk ) = ∑ xk fXk (xk ) = 0 · q + 1 · p = p

E(X) = E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np.

E(Y ) = 0 · P(Y = 0) + 1 · P(Y = 1) = P(Y = 1).

Stelling 4.7: Waarschijnlijkheid en verwachtingswaarde

PX (A) = P(X ∈ A) = E(IA (X)).

E(IA (X)) = ∑ IA (x) fX (x) = ∑ fX (x) = PX (A),

en dit kan worden veralgemeend naar algemenere types gebeurtenissen A.

EX zet functies g om in reële getallen; is een lineaire functionaal:

Werken met verwachtingswaarden is vaak intuïtiever en makkelijker.

Voorbeeld: Voor willekeurige gebeurtenissen A, B ⊆ R geldt dat

IA∩B + IA∪B = IA + IB ⇒ EX (IA∩B + IA∪B ) = EX (IA + IB )

Deﬁnitie: conditionele verwachtingswaarde [Eng. conditional expectation]

als Y continu is, en door

als Y discreet is.

E(E(Y |X)) = E(Y ).

Conditionele verwachtingswaarden [DG:4.7]

Bewijs. We geven het bewijs als (X,Y ) continu is:

Andere gevallen worden analoog bewezen.

E(Y |0) = n · 0 = 0 en E(Y |1) = n · 1 = n

en dus volgt uit de wet van totale waarschijnlijkheid dat

E(Y ) = E(E(Y |X))

Beschouw algemener n functies g1 , g2 , . . . , gn : R → R. Dan geldt dat:

Verwachtingswaarden en onafhankelijke toevallige veranderlijken

6 Variantie, covariantie en correlatie

Alternatieve notatie: σX2

Uit stelling 4.1 volgt meteen dat

∑ [g(x) − E(g(X))]2 fX (x)

wanneer X discreet is, en uit stelling 4.2 volgt meteen dat