Download as pdf or txt
Download as pdf or txt
You are on page 1of 25

Hoofdstuk 4

Verwachtingswaarden
in allerlei vormen
Hand-outs van de theorielessen Waarschijnlijkheidsrekening en Statistiek 2020–2021

Prof. dr. ir. Gert de Cooman, Foundations Lab, Universiteit Gent

© 2008–2021 by Gert de Cooman


Vrijgegeven onder Creative Commons Naamsvermelding-NietCommercieel-GeenAfgeleideWerken
4.0 Internationaal-licentie

1 De verwachtingswaarde van een toevallige veranderlijke


Tot nu toe hebben we voornamelijk gebruik gemaakt van waarschijnlijkheidsmaten om onzekerheid te
beschrijven. We gaan het nu over een andere boeg gooien, en een gelijkwaardig model aanbrengen,
dat wellicht wiskundig eenvoudiger, eleganter, en ook intuïtief beter te rechtvaardigen is: verwachtings-
waarden.
4.2
Definitie voor discrete toevallige veranderlijken Verwachtingswaarde [DG:4.1]

Definitie: verwachtingswaarde van een discrete reële toevallige veranderlijke [Eng. expectation,
expected value, mean, prevision]
Beschouw een discrete toevallige veranderlijke met massafunctie fX . Zij WX de verzameling van de
mogelijke waarden van X, d.w.z.,

WX = {x ∈ R : fX (x) > 0} .

We noemen
∑ ∑ x fX (x) = ∑ x fX (x)
symbolisch
E(X) := x fX (x) =
x∈WX x x∈R

de verwachtingswaarde van X.

Voorbeeld
X is de uitkomst van het gooien met een faire dobbelsteen:
6
1 1 + 2 + 3 + 4 + 5 + 6 21 7
E(X) = ∑ x6 = 6
=
6
= .
2
x=1

Dit geeft aan dat de verwachtingswaarde E(X) niet noodzakelijk tot de verzameling van de mogelijke
waarden WX hoeft te behoren.

4.3
Discrete toevallige veranderlijken: motivering van de definitie Verwachtingswaarde [DG:4.1]
We geven nu een motivering voor deze definitie, gebruik makend van de frequentistische interpretatie.

Beschouw een experiment met als uitkomst een discrete toevallige veranderlijke X met eindige moge-
lijkhedenverzameling WX .

1
We doen een groot aantal n onafhankelijke herhalingen van dit experiment, en noemen

nx , x ∈ WX

het aantal keer dat de uitkomst de waarde x aanneemt.

Dan is de gemiddelde waarde van de uitkomsten (rekenkundig gemiddelde):

∑x∈WX x nx nx
= ∑ x → ∑ x PX ({x}) = E(X)
n x∈W n x∈W
X X

4.4
Discrete toevallige veranderlijken: het bestaan van E(X) Verwachtingswaarde [DG:4.1]

Opmerking
E(X) behoort niet noodzakelijk tot de mogelijke waarden van X.

Opmerking
Alternatieve notatie: µX .

Opmerking: het bestaan van E(X)

• Wanneer WX eindig is, dan bestaat E(X) altijd.


• Wanneer WX aftelbaar oneindig is, en E(X) is een reëel getal, d.w.z. dat de reekssom ∑x∈WX x fX (x)
convergeert en dat
−∞ < ∑ x fX (x) < +∞,
x∈WX

dan zeggen we dat de verwachtingswaarde E(X) van X bestaat als en slechts als de reeks absoluut
convergeert, d.w.z.:
∑ |x| fX (x) < +∞.
x∈WX

4.5
Definitie voor continue toevallige veranderlijken
Verwachtingswaarde [DG:4.1]

Definitie: verwachtingswaarde van een continue reële toevallige veranderlijke [Eng. expectation,
expected value, mean, prevision]
Beschouw een continue toevallige veranderlijke met densiteit fX . We noemen
∫ +∞
E(X) = µX := x fX (x) dx
−∞

de verwachtingswaarde van X.

Voorbeeld
X is uniform verdeeld over [a, b]:
∫ b
1 1 1 2 a+b
E(X) = x dx = (b − a2 ) = .
a b−a b−a 2 2

2
4.6
Continue toevallige veranderlijken: het bestaan van E(X)
Verwachtingswaarde [DG:4.1]

Opmerking: het bestaan van E(X) ∫ +∞


Wanneer E(X) een reëel getal is, d.w.z. dat de integraal −∞ x fX (x) dx convergeert en dat
∫ +∞
−∞ < x fX (x) dx < +∞,
−∞

dan zeggen we dat de verwachtingswaarde E(X) van X bestaat als en slechts als de integraal absoluut
convergeert, d.w.z.: ∫ +∞
|x| fX (x) dx < +∞.
−∞

4.7
Verwachtingswaarde als centraliteitsmaat, en verband met de mediaan
Verwachtingswaarde [DG:4.5]

Centraliteitsmaten
Zowel de verwachtingswaarde als de mediaan van de verdeling van X worden beschouwd als indicatief
voor ‘waar het centrum van de verdeling ligt’.
verwachtingswaarde geeft zwaartepunt van de waarschijnlijkheidsmassa
mediaan helft van de waarschijnlijkheidsmassa links, andere helft rechts
verwachtingswaarde en mediaan vallen niet noodzakelijk samen!

4.8
Verwachtingswaarde en mediaan: een voorbeeld
Verwachtingswaarde [DG:4.5]

2
fX (x)
0 1/2 1 α

verwachtingswaarde
0 α 1 x mediaan

4.9
Verwachtingswaarde en mediaan: een ander voorbeeld Verwachtingswaarde [DG:4.5]

1
α fX (x)

−1 0 1 α x
α
− 13 3

1 1 1 α α −1
E(X) = (− ) + ( ) = en q 1 = 0.
2 3 2 3 6 2

Dit voorbeeld geeft aan dat de mediaan niet wordt beïnvloed door de lengte van de staart van de verde-
ling, maar de verwachtingswaarde wel!

3
4.10
Verwachtingswaarde van een functie van één veranderlijke
Verwachtingswaarde [DG:4.1]
Beschouw een discrete reële toevallige veranderlijke X en een functie g : R → R. Dan is g(X) een
discrete reële toevallige veranderlijke met mogelijkhedenverzameling:

Wg(X) = g(WX ) := {g(x) : x ∈ WX } .

Wat is de massafunctie van g(X)? Voor willekeurige u ∈ Wg(X) :

fg(X) (u) = Pg(X) ({u}) = PX ({x : g(x) = u}) = ∑ fX (x) (1)


x∈WX : g(x)=u

Dan vinden we voor de verwachtingswaarde van g(X):

E(g(X)) = ∑ u fg(X) (u) (definitie)


u∈Wg(X)

= ∑ u ∑ fX (x) (vgl. (1))


u∈Wg(X) x∈WX : g(x)=u

= ∑ ∑ u fX (x) = ∑ ∑ g(x) fX (x)


u∈Wg(X) x∈WX : g(x)=u u∈Wg(X) x∈WX : g(x)=u

= ∑ g(x) fX (x).
x∈WX

4.11

Verwachtingswaarde [DG:4.1]
Samengevat leidt dit tot:
Stelling 4.1
Gegeven is een discrete toevallige veranderlijke X met massafunctie fX en mogelijkhedenverzameling
WX . Beschouw een willekeurige functie g : R → R. Dan is g(X) een discrete toevallige veranderlijke
met verwachtingswaarde:

∑ ∑ g(x) fX (x) = ∑ g(x) fX (x).


symbolisch
E(g(X)) = g(x) fX (x) =
x∈WX x x∈R

Men toont makkelijk en op dezelfde manier aan dat E(g(X)) bestaat als en slechts als:

∑ |g(x)| fX (x) < +∞.


x∈WX

4.12

Verwachtingswaarde [DG:4.1]
Analoog vindt men in het continue geval [zonder bewijs]:
Stelling 4.2
Gegeven is een continue toevallige veranderlijke X met densiteit fX . Beschouw een willekeurige functie
g : R → R. Dan is g(X) een toevallige veranderlijke met verwachtingswaarde:
∫ +∞
E(g(X)) = g(x) fX (x) dx.
−∞

E(g(X)) bestaat als en slechts als:


∫ +∞
|g(x)| fX (x) dx < +∞.
−∞

4
4.13
Verwachtingswaarde van een functie van meer veranderlijken Verwachtingswaarde [DG:4.1]
Analoog vindt men voor meerdere veranderlijken [zonder bewijs]:
Stelling 4.3
Gegeven is een tweedimensionale toevallige veranderlijke (X,Y ). Beschouw een willekeurige functie
g : R2 → R. Dan is g(X,Y ) een toevallige veranderlijke met verwachtingswaarde:

∑ ∑
symbolisch
E(g(X,Y )) = g(x, y) f(X,Y ) (x, y) = g(x, y) f(X,Y ) (x, y),
(x,y)∈W(X,Y ) (x,y)∈R2

wanneer (X,Y ) discreet is met gemeenschappelijke massafunctie f(X,Y ) ; en


∫ +∞ ∫ +∞
E(g(X,Y )) = g(x, y) f(X,Y ) (x, y) dx dy,
−∞ −∞

wanneer (X,Y ) continu is met gemeenschappelijke densiteit f(X,Y ) .

2 Eigenschappen van verwachtingswaarden


Waarom verwachtingswaarden zo elegant en eenvoudig zijn om ermee te werken, volgt vooral hieruit
dat ze enorm eenvoudige en aantrekkelijke eigenschappen hebben. Laten we die nu wat van naderbij
bekijken.
4.14
Lineariteit
Eigenschappen van verwachtingswaarden [DG:4.2]

Stelling 4.4: Lineariteit


Beschouw een willekeurige reële toevallige veranderlijke X. Dan geldt voor alle (constante) a en b in R
dat
E(aX + b) = aE(X) + b.

Bewijs. We beperken ons tot het geval dat X continu is. Met g(x) = ax + b volgt uit stelling 4.2 dat
∫ +∞
E(aX + b) = (ax + b) fX (x) dx
−∞
∫ +∞ ∫ +∞
=a x fX (x) dx + b fX (x) dx
−∞ −∞
= aE(X) + b.
De tweede gelijkheid volgt uit de lineariteit van de integraaloperator, en de derde gelijkheid uit stel-
ling 3.4.3.

4.15

Eigenschappen van verwachtingswaarden [DG:4.2]

Opmerking
Wanneer g een affiene functie is, dus
g(x) = ax + b, x∈R
dan is
E(g(X)) = E(aX + b) = aE(X) + b = g(E(X))
maar voor algemenere, niet-affiene functies g geldt dit niet noodzakelijk:
E(g(X)) ̸= g(E(X)).

5
4.16
Positiviteit Eigenschappen van verwachtingswaarden [DG:4.2]

Stelling 4.5: Positiviteit


Beschouw een willekeurige reële toevallige veranderlijke X.
1. Voor alle a en b in R:

P(X ≥ a) = PX ([a, +∞)) = 1 ⇒ E(X) ≥ a (2)


P(X ≤ b) = PX ((−∞, b]) = 1 ⇒ E(X) ≤ b

2. Voor ‘alle’ g, h : R → R:

(∀x ∈ R)g(x) ≤ h(x) ⇒ E(g(X)) ≤ E(h(X)) (3)


(∀x ∈ R)h(x) ≥ 0 ⇒ E(h(X)) ≥ 0

4.17

Eigenschappen van verwachtingswaarden [DG:4.2]

Bewijs. We bewijzen (2) en (3) voor continue toevallige veranderlijken.


(2) Als P(X ≥ a) = 1 dan is FX (x) = 0 voor alle x < a, en dus fX (x) = DFX (x) = 0 voor alle x < a.
Bijgevolg:
∫ +∞ ∫ +∞
E(X) = x fX (x) dx = x fX (x) dx
−∞ a
∫ +∞ ∫ +∞ ∫ +∞
≥ a fX (x) dx = a fX (x) dx = a fX (x) dx = a.
a a −∞

(3) Aangezien voor alle x ∈ R, g(x) fX (x) ≤ h(x) fX (x), komt er


∫ +∞ ∫ +∞
E(g(X)) = g(x) fX (x) dx ≤ h(x) fX (x) dx = E(h(X)).
−∞ −∞

De andere gevallen laten zich analoog behandelen.

4.18
Somwet
Eigenschappen van verwachtingswaarden [DG:4.2]

Stelling 4.6: Verwachtingswaarde van een som


Beschouw n willekeurige reële toevallige veranderlijken X1 , X2 , . . . , Xn , zo dat elke verwachtingswaarde
E(Xk ) bestaat. Dan bestaat de verwachtingswaarde van de som X1 + X2 + · · · + Xn en

E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ).

Bewijs.
We beperken ons tot het bewijs voor continue toevallige veranderlijken en n = 2. Het bewijs voor andere
gevallen verloopt analoog.
∫ +∞ ∫ +∞
E(X1 + X2 ) = (x + y) f(X1 ,X2 ) (x, y) dx dy (stelling 4.3)
−∞ −∞
∫ +∞ ∫ +∞ ∫ +∞ ∫ +∞
= x f(X1 ,X2 ) (x, y) dx dy + y f(X1 ,X2 ) (x, y) dx dy
−∞ −∞ −∞ −∞
∫ +∞ ∫ +∞ ∫ +∞ ∫ +∞
= x dx f(X1 ,X2 ) (x, y) dy + y dy f(X1 ,X2 ) (x, y) dx
−∞ −∞ −∞ −∞
∫ +∞ ∫ +∞
= x fX1 (x) dx + y fX2 (y) dy = E(X1 ) + E(X2 ).
−∞ −∞

6
4.19

Eigenschappen van verwachtingswaarden [DG:4.2]


Bewijs (vervolg). Verder zien we op precies dezelfde manier dat, aangezien |u + v| ≤ |u| + |v|,
∫ +∞ ∫ +∞
E(|X1 + X2 |) = |x + y| f(X1 ,X2 ) (x, y) dx dy (stelling 4.3)
−∞ −∞
∫ +∞ ∫ +∞
≤ (|x| + |y|) f(X1 ,X2 ) (x, y) dx dy
−∞ −∞
∫ +∞ ∫ +∞
= |x| fX1 (x) dx + |y| fX2 (y) dy
−∞ −∞
= E(|X1 |) + E(|X2 |) < +∞,

en dus bestaat E(X1 + X2 ).

4.20
Toepassing: binomiale verdeling
Eigenschappen van verwachtingswaarden [DG:4.2]
Werken met verwachtingswaarden is soms veel eenvoudiger en directer dan werken met waarschijnlijk-
heidsmaten en verwanten.
Verwachtingswaarde van een binomiaal verdeelde toevallige veranderlijke
Ter herinnering: Beschouw een experiment met twee mogelijke uitkomsten, a en b. De waarschijn-
lijkheid van a is p en de waarschijnlijkheid van b is q. Het experiment wordt n keer herhaald, en de
herhalingen zijn onafhankelijk van elkaar. De toevallige veranderlijke X stelt het aantal keer voor dat de
uitkomst a is in die n experimenten.
n ( )
n k n−k
E(X) = ∑ x fX (x) = ∑ k pq =?
x k=0 k

Eenvoudiger: Beschouw de toevallige veranderlijke Xk die 1 is wanneer het k-de experiment a geeft, en
0 wanneer het b geeft.

E(Xk ) = ∑ xk fXk (xk ) = 0 · q + 1 · p = p


xk

E(X) = E(X1 + X2 + · · · + Xn ) = E(X1 ) + E(X2 ) + · · · + E(Xn ) = np.

We zien hier voor de eerste keer een zeer belangrijke eigenschap, die het verband tussen verwach-
tingswaarden en waarschijnlijkheden in de verf zet: wanneer een toevallige veranderlijke Y alleen de
waarden 0 en 1 kan aannemen, dan is haar verwachtingswaarde E(Y ) de waarschijnlijkheid P(Y = 1)
dat ze de waarde 1 aanneemt:

E(Y ) = 0 · P(Y = 0) + 1 · P(Y = 1) = P(Y = 1).

3 Verwachtingswaarden en waarschijnlijkheden
4.21
Belangrijk verband
Verwachtingswaarden en waarschijnlijkheden

Stelling 4.7: Waarschijnlijkheid en verwachtingswaarde


Beschouw een reële toevallige veranderlijke X, en een gebeurtenis A ⊆ R, met indicator IA . Dan geldt:

PX (A) = P(X ∈ A) = E(IA (X)).

Bewijs. Als X discreet is, volgt uit stelling 4.1 met g = IA dat

E(IA (X)) = ∑ IA (x) fX (x) = ∑ fX (x) = PX (A),


x∈WX x∈WX : x∈A

7
waarbij de laatste gelijkheid volgt uit stelling 3.3.
Zij X continu, en bijvoorbeeld A = [a, b], dan volgt uit stelling 4.2 dat
∫ +∞ ∫ b
E(IA (X)) = I[a,b] (x) fX (x) dx = fX (x) dx = PX ([a, b]) = PX (A),
−∞ a

en dit kan worden veralgemeend naar algemenere types gebeurtenissen A.

4.22
Equivalente onzekerheidsmodellen
Verwachtingswaarden en waarschijnlijkheden
De voorgaande stelling 4.7 leert dat twee manieren om onzekerheid over de waarde van X voor te stellen
wiskundig equivalent zijn:
• waarschijnlijkheidsmaat PX
A ∈ R −→ PX (A)
• verwachtingswaarde-operator EX

g : R → R −→ EX (g) := E(g(X))

EX zet functies g om in reële getallen; is een lineaire functionaal:

EX (ag + bh) = aEX (g) + bEX (h), a, b ∈ R (uit stellingen 4.1 en 4.2)

Werken met verwachtingswaarden is vaak intuïtiever en makkelijker.

Voorbeeld: Voor willekeurige gebeurtenissen A, B ⊆ R geldt dat

IA∩B + IA∪B = IA + IB ⇒ EX (IA∩B + IA∪B ) = EX (IA + IB )


⇒ EX (IA∩B ) + EX (IA∪B ) = EX (IA ) + EX (IB ) (lineariteit)
⇒ PX (A ∩ B) + PX (A ∪ B) = PX (A) + PX (B) (stelling 4.7)

4 Conditionele verwachtingswaarden
4.23
Definitie
Conditionele verwachtingswaarden [DG:4.7]

Definitie: conditionele verwachtingswaarde [Eng. conditional expectation]


Beschouw een tweedimensionale reële toevallige veranderlijke (X,Y ). Dan is de conditionele verwach-
tingswaarde van Y als gegeven is dat X = x gedefinieerd door
∫ ∞
E(Y |x) = y fY |X (y|x) dy
−∞

als Y continu is, en door


E(Y |x) = ∑ y fY |X (y|x)
y

als Y discreet is.


Dus: de verwachtingswaarde die overeenkomt met de conditionele densiteit (of met de conditionele
massafunctie) fY |X (·|x).

8
4.24
Wet van totale waarschijnlijkheid voor verwachtingswaarden
Aangezien X een toevallige veranderlijke is, is ook E(Y |X) een toevallige veranderlijke, met mogelijke Conditionele verwachtingswaarden [DG:4.7]

waarden
E(Y |x), x ∈ R.
We zijn geïnteresseerd in de verwachtingswaarde E(E(Y |X)) van deze toevallige veranderlijke E(Y |X).
Stelling 4.8: wet van totale waarschijnlijkheid voor verwachtingswaarden
Zij (X,Y ) een tweedimensionale toevallige veranderlijke waarvoor E(Y ) bestaat. Dan geldt

E(E(Y |X)) = E(Y ).

4.25

Conditionele verwachtingswaarden [DG:4.7]

Bewijs. We geven het bewijs als (X,Y ) continu is:


∫ +∞
E(E(Y |X)) = fX (x) E(Y |x) dx (stelling 4.2)
−∞
∫ +∞ (∫ +∞ )
= fX (x) dx y fY |X (y|x) dy
−∞ −∞
∫ +∞ ∫ +∞
= y fY |X (y|x) fX (x) dx dy
−∞ −∞
∫ +∞ ∫ +∞
= y f(X,Y ) (x, y) dx dy (stelling 3.12)
−∞ −∞
∫ +∞ (∫ +∞ )
= y dy f(X,Y ) (x, y) dx
−∞ −∞
∫ +∞
= y fY (y) dy (stelling 3.9)
−∞
= E(Y ).

Andere gevallen worden analoog bewezen.

4.26
Voorbeeld
Conditionele verwachtingswaarden [DG:4.7]
We beschouwen een zakje met twee geldstukken: een met twee kopzijden, en een met twee muntzijden.
Een onschuldige hand kiest een geldstuk uit het zakje op aselecte manier, en tost dan n keer met het
gekozen geldstuk X. Wat is de verwachtingswaarde van het aantal keer Y dat munt wordt gegooid?

Stel X = 0 wanneer geldstuk met twee kopzijden, en X = 1 wanneer geldstuk met twee muntzijden
wordt gekozen. Dan is X een discrete toevallige veranderlijke met fX (0) = fX (1) = 1/2.

E(Y |0) = n · 0 = 0 en E(Y |1) = n · 1 = n

en dus volgt uit de wet van totale waarschijnlijkheid dat

E(Y ) = E(E(Y |X))


= ∑ E(Y |x) fX (x) = E(Y |0) fX (0) + E(Y |1) fX (1)
x
1 1 n
= 0 +n = .
2 2 2
Dit is dezelfde verwachtingswaarde als wanneer n keer met een faire munt wordt getost (binomiale
verdeling met p = 1/2).

9
5 Verwachtingswaarden en onafhankelijke toevallige verander-
lijken
4.27
De verwachtingswaarde van een product
Verwachtingswaarden en onafhankelijke toevallige veranderlijken

Stelling 4.9
Beschouw n onafhankelijke reële toevallige veranderlijken X1 , X2 , . . . , Xn . Dan geldt dat:
( n ) n
E ∏ Xk = ∏ E(Xk ).
k=1 k=1

Beschouw algemener n functies g1 , g2 , . . . , gn : R → R. Dan geldt dat:


( n ) n
E ∏ gk (Xk ) = ∏ E(gk (Xk )).
k=1 k=1

Vergelijk met de verwachtingswaarde van een som in stelling 4.6: daar is geen onafhankelijkheid nodig,
hier voor een product wel!
4.28

Verwachtingswaarden en onafhankelijke toevallige veranderlijken

Bewijs. We geven het bewijs voor continue toevallige veranderlijken en voor n = 2. Het bewijs voor
andere gevallen verloopt volkomen analoog.
∫ +∞ ∫ +∞
E(g1 (X1 )g2 (X2 )) = g1 (x)g2 (y) f(X1 ,X2 ) (x, y) dx dy (stelling 4.3)
−∞ −∞
∫ +∞ ∫ +∞
= g1 (x)g2 (y) fX1 (x) fX2 (y) dx dy (stelling 3.14)
−∞ −∞
∫ +∞ ∫ +∞
= g1 (x) fX1 (x) dx g2 (y) fX2 (y) dy
−∞ −∞
= E(g1 (X1 ))E(g2 (X2 )).

6 Variantie, covariantie en correlatie


6.1 Variantie
4.29
Definitie van variantie Variantie, covariantie en correlatie [DG:4.3]
Beschouw een reële veranderlijke X.

De verwachtingswaarde E(X) is, als ze bestaat, een maat voor het centrum van de verdeling van X.

We willen nu ook een spreidingsmaat: hoe sterk wijkt X gemiddeld van deze centrale waarde af?
Definitie: Variantie [Eng. variance]
De variantie var(X) van een reële toevallige veranderlijke X is de verwachte kwadratische afwijking van
X t.o.v. haar verwachtingswaarde E(X):
( )
var(X) := E [X − E(X)]2 .

Alternatieve notatie: σX2

Opmerking

σX = var X wordt de standaardafwijking [Eng. standard deviation] van X genoemd. σX heeft dezelfde
dimensie als X, en wordt vaak gezien als een natuurlijke eenheid om X erin uit te drukken.

10
4.30
Hoe de variantie te berekenen?
Variantie, covariantie en correlatie [DG:4.3]
Zij g : R → R een functie. Dan is
( )
var(g(X)) = E [g(X) − E(g(X))]2 .

Uit stelling 4.1 volgt meteen dat


var(g(X)) = ∑ [g(x) − E(g(X))]2 fX (x) (4)
x∈WX

∑ [g(x) − E(g(X))]2 fX (x)


symbolisch
=
x
= ∑ [g(x) − E(g(X))]2 fX (x),
x∈R

wanneer X discreet is, en uit stelling 4.2 volgt meteen dat


∫ +∞
var(g(X)) = [g(x) − E(g(X))]2 fX (x) dx, (5)
−∞
wanneer X continu is.
4.31
Voorbeeld: variantie van uniform verdeelde X Variantie, covariantie en correlatie [DG:4.3]
Zij de continue toevallige veranderlijke X uniform verdeeld over [a, b].

Dan is (zie hiervoor)


a+b
E(X) = µX =
2
en
∫ +∞ ∫ b[ ]2
a+b 1
var(X) = (x − µX ) fX (x) dx =
2
x− dx
−∞ a 2 b−a
[( )3 ( ) ] 3
1 1 b−a a−b
= −
b−a 3 2 2
(b − a)2
=
12
zodat:
(b − a)2 b−a
var(X) = en dus ook σX = √ .
12 2 3

4.32
Eigenschappen van variantie Variantie, covariantie en correlatie [DG:4.3]

Stelling 4.10
Zij X een reële toevallige veranderlijke. Dan geldt voor alle a, b ∈ R dat
var(aX + b) = a2 var(X).

Bewijs. Uit stelling 4.4 volgt dat E(aX + b) = aE(X) + b, en dus:


( ) ( )
var(aX + b) = E [aX + b − E(aX + b)]2 = E [aX + b − aE(X) − b]2
( ) ( )
= E [aX − aE(X)]2 = E a2 [X − E(X)]2
( )
= a2 E [X − E(X)]2 (stelling 4.4)
= a2 var(X).

11
4.33

Variantie, covariantie en correlatie [DG:4.3]

Stelling 4.11
Zij X een reële toevallige veranderlijke. Dan geldt dat

var(X) = E(X 2 ) − [E(X)]2 .

Bewijs. Noem µX := E(X), dan:


[ ] ( )
var(X) = E (X − µX )2 = E X 2 − 2µX X + µX2
= E(X 2 ) + E(−2µX X) + E(µX2 ) (stelling 4.6)
= E(X ) − 2µX E(X) + µX2
2
(stelling 4.4)
= E(X 2 ) − µX2 .

4.34

Variantie, covariantie en correlatie [DG:4.3]

Stelling 4.12
Zijn X1 , X2 , . . . , Xn onafhankelijke reële toevallige veranderlijken. Dan geldt:

var(X1 + X2 + · · · + Xn ) = var(X1 ) + var(X2 ) + · · · + var(Xn ).

4.35

Variantie, covariantie en correlatie [DG:4.3]

Bewijs. We geven het bewijs voor n = 2. Noem µX1 = E(X1 ) en µX2 = E(X2 ), dan is E(X1 + X2 ) =
µX1 + µX2 , wegens stelling 4.6. En dus:
[ ] [ ]
var(X1 + X2 ) = E (X1 + X2 − µX1 − µX2 )2 = E (X1 − µX1 + X2 − µX2 )2
[ ]
= E (X1 − µX1 )2 + (X2 − µX2 )2 + 2(X1 − µX1 )(X2 − µX2 )
= E[(X1 − µX1 )2 ] + E[(X2 − µX2 )2 ] + 2E[(X1 − µX1 )(X2 − µX2 )] (stelling 4.6)
= var(X1 ) + var(X2 ) + 2E(X1 − µX1 )E(X2 − µX2 ) (stelling 4.9)
= var(X1 ) + var(X2 ) + 2(E(X1 ) − µX1 )(E(X2 ) − µX2 ) (stelling 4.4)
= var(X1 ) + var(X2 ).

Het bewijs voor grotere n verloopt dan analoog.

4.36

Variantie, covariantie en correlatie [DG:4.3]

Gevolg 4.13
Zijn X1 , X2 , . . . , Xn onafhankelijke reële toevallige veranderlijken. Dan geldt voor alle a1 , a2 , . . . , an , b ∈
R dat:
var(a1 X1 + a2 X2 + · · · + an Xn + b) = a21 var(X1 ) + a22 var(X2 ) + · · · + a2n var(Xn ).

Bewijs. Stel Yk := ak Xk en Y := Y1 +Y2 + · · · +Yn , dan geldt

a1 X1 + a2 X2 + · · · + an Xn + b = Y + b

12
en ook

var(Y + b) = var(Y ) (stelling 4.10)


= var(Y1 ) + var(Y2 ) + · · · + var(Yn ) (stellingen 3.19 en 4.12)
= a21 var(X1 ) + a22 var(X2 ) + · · · + a2n var(Xn ). (stelling 4.10)

Dit voltooit het bewijs.

4.37
Voorbeeld: variantie van een binomiaal verdeelde veranderlijke
Variantie, covariantie en correlatie [DG:4.3]
Ter herinnering: De toevallige veranderlijke X stelt het aantal keer voor dat de uitkomst a is in n onafhan-
kelijke herhalingen van een experiment met twee mogelijke uitkomsten, a en b. De waarschijnlijkheid
van a is telkens p en die van b is q.
n ( )
n k n−k
E(X) = ∑ x fX (x) = ∑ k pq = np
x k=0 k
n ( )
2 n
var(X) = ∑(x − np) fX (x) = ∑ (k − np)
2
pk qn−k = ?
x k=0 k

Eenvoudiger: Beschouw de toevallige veranderlijke Xk die 1 is wanneer k-de experiment a geeft, en 0


wanneer het b geeft. Dan zijn de Xk onafhankelijk bij veronderstelling.

E(Xk ) = ∑ xk fXk (xk ) = 0 · q + 1 · p = p


xk

var(Xk ) = ∑(xk − p)2 fXk (xk ) = (0 − p)2 q + (1 − p)2 p = p(1 − p) = pq


xk

var(X) = var(X1 + X2 + · · · + Xn ) = var(X1 ) + var(X2 ) + · · · + var(Xn )


= np(1 − p) = npq.

4.38
Voorbeeld Variantie, covariantie en correlatie [DG:4.3]
We beschouwen een zakje met twee geldstukken: een met twee kopzijden, en een met twee muntzijden.
Een onschuldige hand kiest een geldstuk uit het zakje op aselecte manier, en tost dan n keer met het
gekozen geldstuk X. Wat is de variantie van het aantal keer Y dat munt wordt gegooid?
Stel X = 0 wanneer geldstuk met twee kopzijden, en X = 1 wanneer geldstuk met twee muntzijden
wordt gekozen. Dan is X een discrete toevallige veranderlijke met fX (0) = fX (1) = 1/2.

E(Y 2 |0) = 02 · 1 = 0 en E(Y |1) = n2 · 1 = n2 ,

en dus volgt uit de wet van totale waarschijnlijkheid dat

E(Y 2 ) = E(E(Y 2 |X))


= ∑ E(Y 2 |x) fX (x) = E(Y 2 |0) fX (0) + E(Y 2 |1) fX (1)
x
1 1 n2
= 0 + n2 = .
2 2 2
En dus is
n2 ( n )2 n2

var(Y ) = E(Y 2 ) − E(Y )2 = = .
2 2 4
Wanneer n keer met een faire munt wordt getost, is de variantie n/4 (binomiale verdeling met p = 1/2),
en die is kleiner dan n2/4 zodra n > 1.

13
6.2 Covariantie
4.39
Definitie van covariantie Variantie, covariantie en correlatie [DG:4.6]

Definitie: Covariantie [Eng. covariance]


De covariantie cov(X,Y ) van twee reële toevallige veranderlijken X en Y is gegeven door:

cov(X,Y ) := E ([X − E(X)][Y − E(Y )]) .

Alternatieve notatie: σXY


cov(X,Y ) > 0: X − E(X) en Y − E(Y ) hebben gemiddeld genomen vaker hetzelfde teken dan een ver-
schillend teken, X en Y zijn positief gecorreleerd [Eng. positively correlated].
cov(X,Y ) < 0: X − E(X) en Y − E(Y ) hebben gemiddeld genomen vaker een tegengesteld teken dan
hetzelfde teken, X en Y zijn negatief gecorreleerd [Eng. negatively correlated].
cov(X,Y ) = 0: X − E(X) en Y − E(Y ) hebben gemiddeld genomen even vaak een tegengesteld teken
als hetzelfde teken, X en Y zijn ongecorreleerd [Eng. uncorrelated].

4.40
Berekenen van covariantie
Variantie, covariantie en correlatie [DG:4.6]
Zijn g, h : R → R functies. Uit stelling 4.3 volgt meteen dat

cov(g(X), h(Y )) = ∑ [g(x) − E(g(X))][h(y) − E(h(Y ))] f(X,Y ) (x, y) (6)


(x,y)∈W(X,Y )

∑ [g(x) − E(g(X))][h(y) − E(h(Y ))] f(X,Y ) (x, y)


symbolisch
=
(x,y)

wanneer (X,Y ) discreet is en dat


∫ +∞ ∫ +∞
cov(g(X), h(Y )) = [g(x) − E(g(X))][h(y) − E(h(Y ))] f(X,Y ) (x, y) dx dy (7)
−∞ −∞

wanneer (X,Y ) continu is.

4.41
Eigenschappen van covariantie
Variantie, covariantie en correlatie [DG:4.6]

Stelling 4.13
Beschouw reële toevallige veranderlijken X, X1 , X2 en Y .
1. cov(X,Y ) = cov(Y, X).
2. cov(aX + b,Y ) = a cov(X,Y ).
3. cov(X1 + X2 ,Y ) = cov(X1 ,Y ) + cov(X2 ,Y ).
4. cov(X,Y ) = E(XY ) − E(X)E(Y ).

Opmerking: Onafhankelijkheid impliceert ongecorreleerdheid


Wanneer X en Y onafhankelijk zijn dan volgt uit stelling 4.9 dat E(XY ) = E(X)E(Y ), en dus is

cov(X,Y ) = E(XY ) − E(X)E(Y ) = 0,

zodat X en Y ongecorreleerd zijn.

Het omgekeerde is niet noodzakelijk waar.

14
4.42

Variantie, covariantie en correlatie [DG:4.6]

Bewijs. Punt 1 is triviaal. Voor 2 gebruiken we stelling 4.4 herhaaldelijk: uit aX + b − E(aX + b) =
a[X − E(X)] volgt dat
cov(aX + b,Y ) = E (a[X − E(X)][Y − E(Y )])
= aE ([X − E(X)][Y − E(Y )]) = a cov(X,Y ).
Voor 3 kijken we gewoon naar de definitie en gebruiken stelling 4.6:
cov(X1 + X2 ,Y ) = E ([X1 + X2 − E(X1 + X2 )][Y − E(Y )])
= E ([X1 − E(X1 )][Y − E(Y )] + [X2 − E(X2 )][Y − E(Y )])
= E ([X1 − E(X1 )][Y − E(Y )]) + E ([X2 − E(X2 )][Y − E(Y )])
= cov(X1 ,Y ) + cov(X2 ,Y ).
Ook voor 4 kijken we gewoon naar de definitie:
cov(X,Y ) = E ([X − E(X)][Y − E(Y )])
= E[XY − XE(Y ) −Y E(X) + E(X)E(Y )]
= E(XY ) − E(X)E(Y ) − E(Y )E(X) + E(X)E(Y ) (stl. 4.4 en 4.6)
= E(XY ) − E(X)E(Y ).

4.43
Verband tussen variantie en covariantie
Variantie, covariantie en correlatie [DG:4.6]
Stelling 4.14
Beschouw reële toevallige veranderlijken X, X1 , X2 , . . . Xn .
1. cov(X, X) = var(X).
2. Algemeen geldt dat
n n n
var( ∑ Xk ) = ∑ cov(Xk , Xℓ ) = ∑ var(Xk ) + 2 ∑ cov(Xk , Xℓ ).
k=1 k,ℓ=1 k=1 k<ℓ

3. Wanneer X1 , X2 , . . . , Xn onderling ongecorreleerd zijn, en dus cov(Xk , Xℓ ) = 0 voor alle k ̸= ℓ, dan


var(X1 + X2 + · · · + Xn ) = var(X1 ) + var(X2 ) + · · · + var(Xn ). (8)

Opmerking: vergelijk punt 3 met stelling 4.12


Opdat (8) zou gelden is ongecorreleerdheid al voldoende. Onafhankelijkheid is een sterkere voldoende
voorwaarde voor (8).

4.44

Variantie, covariantie en correlatie [DG:4.6]

Bewijs. Punt 1 is triviaal, en 3 een onmiddellijk gevolg van 2. We bewijzen punt 2.


( ) ( )
n n n
var ∑ Xk = cov ∑ Xk , ∑ Xℓ (punt 1)
k=1 k=1 ℓ=1
( )
n n
= ∑ cov Xk , ∑ Xℓ (stelling 4.13.3)
k=1 ℓ=1
n n
= ∑ ∑ cov(Xk , Xℓ ) (stelling 4.13.1&3)
k=1 ℓ=1
n n
= ∑ cov(Xk , Xℓ ) + ∑ cov(Xk , Xℓ ).
k,ℓ=1 k,ℓ=1
k=ℓ k̸=ℓ

15
6.3 Correlatie
4.45
Definitie van de correlatie Variantie, covariantie en correlatie [DG:4.6]
De covariantie is niet schaalinvariant: voor a, c > 0 en b, d ∈ R
cov(aX + b, cY + d) = ac cov(X,Y )
Om tot een schaalinvariante maat te komen voor de mate waarin X en Y gecorreleerd zijn, voeren we
het volgende begrip in.
Definitie: Correlatie(coëfficiënt) [Eng. correlation (coefficient)]
Beschouw twee reële toevallige veranderlijken X en Y zo dat var(X) = σX2 < +∞ en var(Y ) = σY2 < +∞.
Dan is de correlatie(coëfficiënt) van X en Y gegeven door
cov(X,Y ) σXY
ρ (X,Y ) := √ √ = .
var(X) var(Y ) σX σY
Alternatieve notatie: ρXY
Merk op dat voor a, c > 0 en b, d ∈ R:
ρ (aX + b, cY + d) = ρ (X,Y )

4.46
Basiseigenschappen van correlatie Variantie, covariantie en correlatie [DG:4.6]

Stelling 4.15: de correlatie is een maat voor lineair verband


Beschouw twee reële toevallige veranderlijken X en Y met σX2 < +∞ en σY2 < +∞. Dan geldt:
1. −1 ≤ ρ (X,Y ) ≤ 1.
2. als Y = aX + b dan ρ (X,Y ) = sign a.

Bewijs. Schetsmatig bewijs voor punt 1. We kunnen X en Y zien als vectoren in een reële vectorruimte,
en dan is cov(X,Y ) een inwendig/scalair product: ⟨X,Y ⟩ = cov(X,Y ) en ∥X∥2 = ⟨X, X⟩ = var(X). Dan
cov(X,Y )2 ⟨X,Y ⟩2
ρ (X,Y )2 = = ≤ 1. (Cauchy–Schwarz)
var(X) var(Y ) ∥X∥2 ∥Y ∥2
Voor punt 2: cov(X,Y ) = a cov(X, X) = a var(X) en var(Y ) = a2 var(X), zodat σY = |a|σX . Dus:
aσX2 a
ρ (X,Y ) = = = sign a.
σX |a|σX |a|

7 Momenten en centrale momenten


4.47
Definitie Momenten en centrale momenten [DG:4.4]

Definitie
We noemen voor elke reële toevallige veranderlijke X en elke k ∈ N
µk′ (X) := E(X k )
het k-de moment (rond de oorsprong) van X [Eng. kth moment (about the origin), kth raw moment].

We zeggen dat dit moment bestaat wanneer:


E(|X|k ) < +∞.
Analoog noemen we ( )
µk (X) := E [X − E(X)]k
het k-de centrale moment van X [Eng. kth central moment].
Bijzondere gevallen: µ1′ (X) = E(X) en µ2 (X) = var(X).

16
4.48
Verband tussen momenten en centrale momenten
Beschouw een toevallige veranderlijke met µX = E(X). We zien via het binomium van Newton dat, Momenten en centrale momenten [DG:4.4]

wanneer de optredende momenten bestaan:


( ( ) )
n
n
µn (X) = E([X − µX ]n ) = E ∑ (−1)n−k µ n−k X k
k=0 k X
n ( )
n n−k
= ∑ (−1)n−k µX E(X k )
k=0 k
n ( )
n−k n
= ∑ (−1) µXn−k µk′ (X)
k=0 k
( ( ) )
n
n n−k
µn (X) = E([X − µX + µX ] ) = E ∑
′ n
µX [X − µX ] k
k=0 k
n ( )
n n−k
=∑ µX E([X − µX ]k )
k=0 k
n ( )
n n−k
=∑ µX µk (X)
k=0 k

8 Momentenfunctie en karakteristieke functie


4.49
Definitie Momentenfunctie en karakteristieke functie [DG:4.4]

Definitie: Momentenfunctie [Eng. moment generating function, mgf]


Beschouw een reële toevallige veranderlijke X. Dan noemen we de functie MX , met voor t ∈ R:

 ∑ e fX (x)
tx
 X discreet
x∈WX
MX (t) := E(e ) = ∫ +∞
tX

 etx fX (x) dx X continu
−∞

de momentenfunctie van X.

Opmerking
MX (t) is niet noodzakelijk gedefinieerd voor alle waarden van t in R. Wel steeds MX (0) = 1 [normering].

Opmerking: karakteristieke functie


χX (t) := E(eitX ) wordt de karakteristieke functie van X genoemd, en is verwant met de Fourier-getransformeerde
van fX voor continue X. Ze vervult een analoge rol als de momentenfunctie.

4.50
Waar komt de naam vandaan?
Momentenfunctie en karakteristieke functie [DG:4.4]
We kunnen de momentenfunctie gebruiken om de momenten te berekenen.

We geven een informele redenering:


[ n ] [ n ]
(n) d d tX
MX (0) = MX (t) = E(e )
dt n t=0 dt n t=0
([ n ] )
? d
=E etX (omwisselen operatoren?)
dt n
([ n tX ] t=0 )
= E X e t=0
= E(X n ),

17
en dus geldt dat
µn′ (X) = E(X n ) = MX (0).
(n)

4.51
Eigenschappen van de momentenfuctie Momentenfunctie en karakteristieke functie [DG:4.4]

Stelling 4.16: Momentenfunctie karakteriseert verdeling, zonder bewijs


Beschouw twee reële toevallige veranderlijken X en Y . Wanneer er een ε > 0 is zo dat
(∀t ∈ (−ε , +ε ))MX (t) = MY (t),
dan hebben X en Y dezelfde verdeling: PX = PY en dus FX = FY en fX = fY .

Stelling 4.17
Beschouw een reële toevallige veranderlijke X. Dan geldt voor elke t zo dat MX (at) bestaat dat MaX+b (t) =
ebt MX (at).
Bewijs.
MaX+b (t) = E(et(aX+b) ) = E(eatX ebt ) = ebt E(e(at)X ) = ebt MX (at).

4.52

Momentenfunctie en karakteristieke functie [DG:4.4]

Stelling 4.18
Beschouw n onafhankelijke reële toevallige veranderlijken X1 , . . . , Xn . Dan geldt voor elke t waarvoor
alle MXk (t) bestaan dat
MX1 +X2 +···+Xn (t) = MX1 (t)MX2 (t) · · · MXn (t).

Bewijs.
MX1 +X2 +···+Xn (t) = E(et(X1 +X2 +···+Xn ) )
= E(etX1 etX2 · · · etXn )
= E(etX1 )E(etX2 ) · · · E(etXn ) (stelling 4.9)
= MX1 (t)MX2 (t) · · · MXn (t).

4.53
Voorbeeld: momentenfunctie van de binomiale verdeling Momentenfunctie en karakteristieke functie [DG:4.4]
Ter herinnering: De toevallige veranderlijke X stelt het aantal keer voor dat de uitkomst a is in n onafhan-
kelijke herhalingen van een experiment met twee mogelijke uitkomsten, a en b. De waarschijnlijkheid
van a is telkens p en die van b is q.

Beschouw de toevallige veranderlijke Xk die 1 is wanneer k-de experiment a geeft, en 0 wanneer het b
geeft. Dan zijn de Xk onafhankelijk bij veronderstelling, en X = ∑nk=1 Xk .
MXk (t) = pe1·t + qe0·t = pet + q
MX (t) = MX1 +X2 +···+Xn (t)
= MX1 (t)MX2 (t) · · · MXn (t) (stelling 4.18)
t n
= (pe + q)
[ ]
µ1′ (X) = MX′ (0) = npet (pet + q)n−1 t=0
= np
[ ]
µ2′ (X) = MX′′ (0) = npet (pet + q) n−1
+ n(n − 1)p2 e2t (pet + q)n−2 t=0
= np[1 + (n − 1)p] = npq + (np) 2

µ2 (X) = µ2′ (X) − [µ1′ (X)]2 = npq

18
9 De ongelijkheden van Markov en Chebyshev
9.1 Markov-ongelijkheid
4.54
Andrei Andreyevich Markov (1856–1922)
De ongelijkheden van Markov en Chebyshev [DG:6.2]

4.55
Markov-ongelijkheid De ongelijkheden van Markov en Chebyshev [DG:6.2]

Stelling 4.19: Markov-ongelijkheid [Eng. Markov inequality]


Zij X een niet-negatieve toevallige veranderlijke (X ≥ 0) waarvoor de verwachtingswaarde E(X) bestaat.
Dan geldt voor elke reële a > 0 dat:
E(X)
P(X ≥ a) ≤ .
a

E(X)
E(X)/a

0 1 a

4.56

De ongelijkheden van Markov en Chebyshev [DG:6.2]

Bewijs. Kies een willekeurige reële a > 0, en beschouw de gebeurtenis {X ≥ a} dat X niet kleiner is
dan a. Dan {
a als X ≥ a
aI{X≥a} = ≤ X,
0 als X < a

19
en dus volgt dat

E(X) ≥ E(aI{X≥a} ) (stelling 4.5.2)


= aE(I{X≥a} ) (stelling 4.4)
= aP(X ≥ a), (stelling 4.7)

en dit voltooit het bewijs.

9.2 Chebyshev-ongelijkheid
4.57
Pafnuty Lvovich Chebyshev (1821–1894)
De ongelijkheden van Markov en Chebyshev [DG:6.2]

4.58
Chebyshev-ongelijkheid De ongelijkheden van Markov en Chebyshev [DG:6.2]

Stelling 4.20: Chebyshev-ongelijkheid [Eng. Chebyshev inequality]


Zij X een toevallige veranderlijke waarvoor de verwachtingswaarde E(X) en de variantie var(X) be-
staan. Dan geldt voor elke reële a > 0 dat:

var(X)
P(|X − E(X)| ≥ a) ≤ .
a2

Bewijs.

P(|X − E(X)| ≥ a) = P([X − E(X)]2 ≥ a2 )


E([X − E(X)]2 )
≤ (Markov-ongelijkheid)
a2
var(X)
= .
a2

10 De wet van de grote getallen


4.59
Ook de wet van Bernoulli genoemd
De wet van de grote getallen [DG:6.2]
We beschouwen een experiment met reële uitkomst X, zo dat

µX := E(X) en σX2 := var(X)

20
bestaan.

We herhalen het experiment n keer, en we noemen Xk de uitkomst van de k-de herhaling (of steekproef).

We veronderstellen verder dat de uitkomsten Xk van de herhaalde experimenten onafhankelijk zijn: het
observeren van de waarden van enkele onder ze, leert ons niks bij over de waarde van de andere.

We zijn geïnteresseerd in het steekproefgemiddelde:

1 n
X n := ∑ Xk .
n k=1

Dit is ook een toevallige veranderlijke!

4.60

De wet van de grote getallen [DG:6.2]


De verwachtingswaarde van het steekproefgemiddelde:
( )
1 n
E(X n ) = E ∑ Xk
n k=1
1 n
= ∑ E(Xk )
n k=1
(stellingen 4.4 en 4.6)

1
= nµX = µX .
n
X n heeft dezelfde verwachtingswaarde als X:

E(X n ) = µX .

4.61
Ook de wet van Bernoulli genoemd De wet van de grote getallen [DG:6.2]
De variantie van het steekproefgemiddelde:
( )
1 n
var(X n ) = var ∑ Xk
n k=1
1 n
= ∑ var(Xk )
n2 k=1
(stellingen 4.10 en 4.12)

1 σX2
= nσX
2
= .
n2 n
De variantie van X n gaat naar nul als 1/n:

σX2
var(X n ) = .
n

De standaardafwijking van X n gaat naar nul als 1/ n:
σX
σX n = √ .
n

Dit geeft aan waarom men metingen herhaalt, en steekproefgemiddelden neemt.

21
4.62

De wet van de grote getallen [DG:6.2]


Laten we nu eens kijken naar:

var(X n )
P(|X n − µX | ≥ ε ) ≤ (Chebyshev-ongelijkheid)
ε2
σ 2
= X2 .

en dus vinden we voor elke ε > 0 dat:
σX2
P(|X n − µX | ≥ ε ) ≤ →0 voor n → ∞
nε 2
Dit is de wet van de grote getallen [Eng. law of large numbers].

Deze wet vormt de grondslag voor de frequentistische interpretatie van de waarschijnlijkheidsleer.

11 Addendum ter informatie: Essai door Stephen Jay Gould


The Median Isn’t the Message
My life has recently intersected, in a most personal way, two of Mark Twain’s famous quips. One I shall
defer to the end of this essay. The other (sometimes attributed to Disraeli), identifies three species of
mendacity, each worse than the one before—lies, damned lies, and statistics.
Consider the standard example of stretching the truth with numbers—a case quite relevant to my
story. Statistics recognizes different measures of an “average,” or central tendency. The mean is our
usual concept of an overall average—add up the items and divide them by the number of sharers (100
candy bars collected for five kids next Halloween will yield 20 for each in a just world). The median, a
different measure of central tendency, is the half-way point. If I line up five kids by height, the median
child is shorter than two and taller than the other two (who might have trouble getting their mean share
of the candy). A politician in power might say with pride, “The mean income of our citizens is $15,000
per year.” The leader of the opposition might retort, “But half our citizens make less than $10,000 per
year.” Both are right, but neither cites a statistic with impassive objectivity. The first invokes a mean, the
second a median. (Means are higher than medians in such cases because one millionaire may outweigh
hundreds of poor people in setting a mean; but he can balance only one mendicant in calculating a
median).
The larger issue that creates a common distrust or contempt for statistics is more troubling. Many
people make an unfortunate and invalid separation between heart and mind, or feeling and intellect.
In some contemporary traditions, abetted by attitudes stereotypically centered on Southern California,
feelings are exalted as more “real” and the only proper basis for action—if it feels good, do it—while
intellect gets short shrift as a hang-up of outmoded elitism. Statistics, in this absurd dichotomy, often
become the symbol of the enemy. As Hilaire Belloc wrote, “Statistics are the triumph of the quantitative
method, and the quantitative method is the victory of sterility and death.”
This is a personal story of statistics, properly interpreted, as profoundly nurturant and life-giving.
It declares holy war on the downgrading of intellect by telling a small story about the utility of dry,
academic knowledge about science. Heart and head are focal points of one body, one personality.
In July 1982, I learned that I was suffering from abdominal mesothelioma, a rare and serious cancer
usually associated with exposure to asbestos. When I revived after surgery, I asked my first question of
my doctor and chemotherapist: “What is the best technical literature about mesothelioma?” She replied,
with a touch of diplomacy (the only departure she has ever made from direct frankness), that the medical
literature contained nothing really worth reading.
Of course, trying to keep an intellectual away from literature works about as well as recommending
chastity to Homo sapiens, the sexiest primate of all. As soon as I could walk, I made a beeline for Har-
vard’s Countway medical library and punched mesothelioma into the computer’s bibliographic search
program. An hour later, surrounded by the latest literature on abdominal mesothelioma, I realized with
a gulp why my doctor had offered that humane advice. The literature couldn’t have been more brutally
clear: mesothelioma is incurable, with a median mortality of only eight months after discovery. I sat
stunned for about fifteen minutes, then smiled and said to myself: so that’s why they didn’t give me
anything to read. Then my mind started to work again, thank goodness.

22
If a little learning could ever be a dangerous thing, I had encountered a classic example. Attitude
clearly matters in fighting cancer. We don’t know why (from my old-style materialistic perspective, I
suspect that mental states feed back upon the immune system). But match people with the same cancer
for age, class, health, socioeconomic status, and, in general, those with positive attitudes, with a strong
will and purpose for living, with commitment to struggle, with an active response to aiding their own
treatment and not just a passive acceptance of anything doctors say, tend to live longer. A few months
later I asked Sir Peter Medawar, my personal scientific guru and a Nobelist in immunology, what the
best prescription for success against cancer might be. “A sanguine personality,” he replied. Fortunately
(since one can’t reconstruct oneself at short notice and for a definite purpose), I am, if anything, even-
tempered and confident in just this manner.
Hence the dilemma for humane doctors: since attitude matters so critically, should such a som-
bre conclusion be advertised, especially since few people have sufficient understanding of statistics to
evaluate what the statements really mean? From years of experience with the small-scale evolution
of Bahamian land snails treated quantitatively, I have developed this technical knowledge—and I am
convinced that it played a major role in saving my life. Knowledge is indeed power, in Bacon’s proverb.
The problem may be briefly stated: What does “median mortality of eight months” signify in our
vernacular? I suspect that most people, without training in statistics, would read such a statement as “I
will probably be dead in eight months”—the very conclusion that must be avoided, since it isn’t so, and
since attitude matters so much.
I was not, of course, overjoyed, but I didn’t read the statement in this vernacular way either. My
technical training enjoined a different perspective on “eight months median mortality.” The point is a
subtle one, but profound—for it embodies the distinctive way of thinking in my own field of evolutionary
biology and natural history.
We still carry the historical baggage of a Platonic heritage that seeks sharp essences and definite
boundaries. (Thus we hope to find an unambiguous “beginning of life” or “definition of death,” although
nature often comes to us as irreducible continua.) This Platonic heritage, with its emphasis in clear
distinctions and separated immutable entities, leads us to view statistical measures of central tendency
wrongly, indeed opposite to the appropriate interpretation in our actual world of variation, shadings, and
continua. In short, we view means and medians as the hard “realities,” and the variation that permits
their calculation as a set of transient and imperfect measurements of this hidden essence. If the median
is the reality and variation around the median just a device for its calculation, the “I will probably be
dead in eight months” may pass as a reasonable interpretation.
But all evolutionary biologists know that variation itself is nature’s only irreducible essence. Varia-
tion is the hard reality, not a set of imperfect measures for a central tendency. Means and medians are the
abstractions. Therefore, I looked at the mesothelioma statistics quite differently—and not only because
I am an optimist who tends to see the doughnut instead of the hole, but primarily because I know that
variation itself is the reality.
I had to place myself amidst the variation.
When I learned about the eight-month median, my first intellectual reaction was: fine, half the
people will live longer; now what are my chances of being in that half. I read for a furious and nervous
hour and concluded, with relief: damned good. I possessed every one of the characteristics conferring
a probability of longer life: I was young; my disease had been recognized in a relatively early stage; I
would receive the nation’s best medical treatment; I had the world to live for; I knew how to read the
data properly and not despair.
Another technical point then added even more solace. I immediately recognized that the distribution
of variation about the eight-month median would almost surely be what statisticians call “right skewed.”
(In a symmetrical distribution, the profile of variation to the left of the central tendency is a mirror
image of variation to the right. In skewed distributions, variation to one side of the central tendency is
more stretched out—left skewed if extended to the left, right skewed if stretched out to the right.) The
distribution of variation had to be right skewed, I reasoned. After all, the left of the distribution contains
an irrevocable lower boundary of zero (since mesothelioma can only be identified at death or before).
Thus, there isn’t much room for the distribution’s lower (or left) half—it must be scrunched up between
zero and eight months. But the upper (or right) half can extend out for years and years, even if nobody
ultimately survives. The distribution must be right skewed, and I needed to know how long the extended
tail ran—for I had already concluded that my favorable profile made me a good candidate for that part
of the curve.
The distribution was indeed, strongly right skewed, with a long tail (however small) that extended
for several years above the eight month median. I saw no reason why I shouldn’t be in that small tail,
and I breathed a very long sigh of relief. My technical knowledge had helped. I had read the graph

23
correctly. I had asked the right question and found the answers. I had obtained, in all probability, the
most precious of all possible gifts in the circumstances—substantial time. I didn’t have to stop and
immediately follow Isaiah’s injunction to Hezekiah—set thine house in order for thou shalt die, and not
live. I would have time to think, to plan, and to fight.
One final point about statistical distributions. They apply only to a prescribed set of circumstances—
in this case to survival with mesothelioma under conventional modes of treatment. If circumstances
change, the distribution may alter. I was placed on an experimental protocol of treatment and, if fortune
holds, will be in the first cohort of a new distribution with high median and a right tail extending to
death by natural causes at advanced old age.
It has become, in my view, a bit too trendy to regard the acceptance of death as something tantamount
to intrinsic dignity. Of course I agree with the preacher of Ecclesiastes that there is a time to love and a
time to die—and when my skein runs out I hope to face the end calmly and in my own way. For most
situations, however, I prefer the more martial view that death is the ultimate enemy—and I find nothing
reproachable in those who rage mightily against the dying of the light.
The swords of battle are numerous, and none more effective than humor. My death was announced
at a meeting of my colleagues in Scotland, and I almost experienced the delicious pleasure of reading
my obituary penned by one of my best friends (the so-and-so got suspicious and checked; he too is a
statistician, and didn’t expect to find me so far out on the right tail). Still, the incident provided my first
good laugh after the diagnosis. Just think, I almost got to repeat Mark Twain’s most famous line of all:
the reports of my death are greatly exaggerated.

Nawoord van Steve Dunn


Many people have written me to ask what became of Stephen Jay Gould. Sadly, Dr. Gould died in May
of 2002 at the age of 60. Dr. Gould lived for 20 very productive years after his diagnosis, thus exceeding
his 8 month median survival by a factor of thirty! Although he did die of cancer, it apparently wasn’t
mesothelioma, but a second and unrelated cancer.
In March 2002, Dr. Gould published his 1342 page “Magnum Opus”, The Structure of Evolutionary
Theory. It is fitting that Gould, one of the world’s most prolific scientists and writers, was able to
complete the definitive statement of his scientific work and philosophy just in time. That text is far too
long and dense for almost any layman—but the works of Stephen Jay Gould will live on. Especially I
hope, The Median Isn’t The Message .

Nog enkele opmerkingen ter verduidelijking


De overlevingstijd: [Eng. survival time] T is de tijd gedurende dewelke een patiënt nog zal leven na het
vaststellen van de ziekte (of eventueel na het begin van de ziekte).
Het gaat om een toevallige veranderlijke: we zijn onzeker over haar precieze waarde. Haar distribu-
tiefunctie
FT (t) = P(T ≤ t)
geeft de waarschijnlijkheid dat de patiënt hoogstens een tijd t overleeft. We zullen hier voor de eenvoud
veronderstellen dat deze functie continu en strikt stijgend is.
Een optimistischer variant is de overlevingsfunctie: [Eng. survival function]

ST (t) = P(T ≥ t) = 1 − FT (t),

die de waarschijnlijkheid geeft dat de patiënt tenminste een tijd t overleeft.


De mediaan of halveringstijd: [Eng. half-life] t1/2 is die waarde van t waarvoor de kans tot langer (en
dus ook die tot korter) leven 50% is:
1
ST (t1/2 ) = FT (t1/2 ) = .
2
De wet van de grote getallen zegt dat als we een groot aantal patiënten hebben met allemaal dezelfde
overlevingsfunctie, dan met zeer grote waarschijnlijkheid de helft van hen zal zijn overleden na een tijd
t1/2 , en dus ook dat de helft van ze nog leeft. Analoge conclusies kunnen we trekken over de andere
fractielen en percentielen van de veranderlijke T .
Hoe langer de staart van de verdeling, met andere woorden, hoe langer het duurt eer ST (t) klein
wordt, des te beter zijn de overlevingskansen op langere termijn. Dan zullen meteen ook de verwach-
tingswaarde E(T ) en de variantie var(T ) naar rechts opschuiven: hogere waarden van T komen met
grotere waarschijnlijkheid voor.

24
De wiskundige boodschap van het essai van Stephen Jay Gould zit vervat in de volgende observatie:
de mediaan zegt ons niks over de staart van de verdeling. Dat is ook aangegeven in het voorbeeld op
slide 9.

25

You might also like