Professional Documents
Culture Documents
Slides HFSTK 9 Acadjaar 20192020
Slides HFSTK 9 Acadjaar 20192020
Pearson correlatieco¨effici¨ent
Voorbeeld
verband tussen ‘mortaliteit’ en ‘SO 2Pot’ is niet lineair
● met een logaritmische transformatie wordt dit wel meer lineair
● ●
1100
1100
New Orleans New Orleans
● ●
● ● ●
● ● ●
● ●
1000
● ●
●● ● ●●●●
● ● ●
● ● ● ●
●
Mortaliteit
Mortaliteit
● ●
● ● ●
● ●● ● ●● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ●
●
●●● ● ● ●● ●
● ●
● ● ● ●
1000
●●
● ● ● ● ● ● ● ●
900
900
● ●
●● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
●
●● ● ●
●
● ● ● ●
● ●
800
800
● ●
De kleinste-kwadratenmethode
a+bx3 ●
ei = yi − (a +
bxi )
e3
y3
y1
a+bx2 ●
notatie: ei (a, b)
a+bx1 ●
y2
x1 x2 x3
(a) (b)
Figuur: Rechte door een puntenwolk met (a) kleine en (b) grote verticale
spreiding.
y = αˆ + βˆx
› waarde = αˆ +ˆ i
yˆi geobserveerde
voor elke yi hebben we een geschatte (gefitte)
› βx
residu’s voor deze geschatte rechte:
ANOVA-tabel en determinatieco¨effici¨ent
xi
Figuur: Totale variatie als som van variatie verklaard door het regressiemodel
en de foutenterm.
● yi − y¯ = (yˆi − ) + (yi − yˆ
i
y¯ )
n n n n
2
y− =Σ (
yˆi − ) 2 + 2 yˆ − )(y − )+ ( yi − i
2
Σ ( i Σ ( i i i Σ
i y¯) i y¯ y¯ i yˆ i yˆ )
=1 =1 ⁄ −
=1−−
−
−
−−
−
−
−−
−− −−−
−
−
−−
−
−
−−− =1
=0 (zie
n n− −v −
−
−
−−
−−−
−
−
−
−−
−
−
2 2
yˆi − i y−
volgende
i
=Σ ( + Σ−( −
i y¯) i −
−
−−yˆ−−⁄
−
− −−
−−
−−−
)ide)sl −
−
=1 =1
n n n
● we noteren i y − 2y¯
yˆ − 2 y− i 2
Σ ( ) =Σ ( i +Σ ( i
i =1 i =1 y¯) i yˆ )
−
−
−
−−
−
−
⁄=1
−
−−
−
−
−−
−−
−
−
−−
−−
−
−v−
−
−
−−
−
−
−−
−
−
−−
−
−
−−
−−
−
−
−−
−
−
⁄−
−
−−
−
−−
⁄−
−
−−
−
−−
−
−
−−
−
−−
−
−
−v−
−
−
−−
−
−
−−
−
−
−−
−
−
−−
−
−
−−
−
−
⁄−
−
−−
−
−−
⁄−
−
−
−−
−−−
−
−
−−
−
−
−−
−
−
−v−
−
−
−−
−
−
−−
−
−−
−
−−
−−
−
−
−−
−
−
−−
⁄
=SST =SS
● SST = Sum of=Squares
SSM Total E
SSM = Sum of Squares SSE = Sum of Squares
ModelSST = SSM Error
+ SSE
● totale variantie = variantie +
verklaard door onverklaarde
het model variantie
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 11 / 34
ANOVA-tabel en determinatieco¨effici¨ent
n
Σ (yˆ i − y¯)(yi − yˆi) = 0 we tonen dit aan ...
i =1
●
we merken eerst op dat
Determinatieco¨effici¨ent
n n
2
n i yi − i 2
● Σ (y − ) 2 =Σ ( y ˆ i−y¯)
+Σ (
i =1 i i yˆ )
SST=
=1
y¯
SSM + SSE =1
● als de punten in de scatterplot vrijwel op de regressierecht liggen
dan is SSE klein =⇒ de totale variantie zal bijna volledig
verklaard worden door SSM
● als het deel van de ‘verklaarde variantie’ (SSM) groot is tov de
‘onverklaarde variantie’ (SSE) dan zal SSM SSTdicht bij 1 liggen ...
● determinatieco¨effici¨ent:
SSM ∑ni (yˆi −
R2 = n2=1
y¯)
(y i − 2
= SST ∑i
=1 y¯)
› voor enkelvoudige lineaire regressie
● geldt R2 = r2 2
dus 0
xy
™R ™ 1
› R 2 = 1: perfecte rechte
› als SSE groot is ten opzichte van SSM zal R 2 ≈ 0 enˆ β =xy rsy ≈
sx
0
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 13 / 34
ANOVA-tabel en determinatieco¨effici¨ent
Error SS
n−1
› MSE = SSE SST = Mean Squared
n−2 E
Error
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 14 / 34
ANOVA-tabel en determinatieco¨effici¨ent
vrijheidsgraden (df) SS MS F
Model 1 63211.1 63211.1 26.7
Error 57 134817.3 2365.2
Total 58 198028.4
› rxy
2 SSM = 63211 =
SST 198028
= 0.32
› F MSM = 2365.2 =
MSE
63211.1
= 26.7
interpretatie van F en de gerealiseerde waarde f : zie later ...
y2 y = α+
ε2 βx
N (0, σε2 )
ε1
y1
x1 x2
● Y i = α + βxi + εi ε ∼ 0, σ2 )
i ε
N(
● populatiemodel volledig bepaald door 3 parameters:
α: de intercept parameter
●● β: 2de richtingsco¨effici¨ent (slope) parameter
●● σ ε: geeft informatie over de spreiding op de fouten
● regressiemodel: Y = α + βx + ε
als x = 0, dan is E (Y | 0) = E (α + ε | 0)
› =α
de richtingsco¨effici¨ent β geeft aan hoe de gemiddelde Y -waarde
wijzigt indien x met ´e´en eenheid toeneemt:
E (Y | x ) = α + βx en E (Y | x + 1) = α
2
●Y i = α + βxi + εi i ε ∼ 0, σε )
N (parameters: α, β en σ ε2
●3
● schatten door :
ˆ kleinste kwadratenschatters
αˆ, β:
●● aangezien
σε2= Var( εi ) = E 2
i εi = Y i − α −
(ε ) βxi
schatten we dit met
1 n 2 1 n
sε2= σˆ ε2= Σ ei ( αˆ,ˆβ) ˆ 2
n − i =1 = n − Σi ( y i − αˆ −
2 =1 2 βxi )
delen door factor n − 2 om een onvertekende schatter te verkrijgen
voor σε2
(a) (b)
15 15
10 10
5 5
0 5 10 15 0 5 10 15
(c) (d)
15 15
10 10
5 5
0 5 10 15 0 5 10 15
modelveronderstellingen:
› Y i = α + βxi + εi i = 1, . . .
› ,ε n∼ N(0, σ2)
i ε
› de foutentermen ε1, . . . , εn zijn onafhankelijk
de residu’s
ei = y i− αˆ − ˆ i
βx
zijn een uitstekend middel om de modelveronderstellingen na te gaan
1. nagaan of ε normaal
i verdeeld zijn met µ = 0: normale
kwantielplot van de residu’s ei
-100 -50 0 50
-2 -1 0 1 2
intercept ≈ 0
› normaliteit van de residu’s n i e t formeel testen
1. nagaan of ε normaal
i verdeeld zijn met µ = 0: normale
kwantielplot van de residu’s ei
› gelijke spreiding
› gestandaardiseerde residu’s: ei
∈ [−3, 3] (of met 99%
sε
waarden in [−2.5, 2.5]) kans
● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
●● ● ● ● ●
● ● ●
●● ● ●● ●● ● ● ● ● ●
●●● ● ● ● ●● ●● ●●
●●● ● ● ●● ● ●
●● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●
● ●●
● ●●● ● ● ●● ●● ●
●●● ●●●● ●●●●● ● ● ● ●●
● ● ●●●● ● ● ●● ● ●
●●●● ● ● ●●●● ● ●
● ● ●●● ● ●● ●
●
●● ●●●● ●●●● ●
●● ● ●
●
●●
● ● ● ●
● ● ● ● ●
● ● ● ●
● ●● ●●●● ● ●● ●● ● ● ● ●
● ● ●
● ● ●●
● ● ● ● ●
●● ●●● ● ●● ● ● ● ● ● ●●
● ●
● ●
● ● ● ● ●
● ● ● ● ● ●● ● ●●
● ● ● ●● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●● ●●● ●●● ●● ● ●● ● ●
● ●● ● ●
● ● ● ● ● ● ●
● ● ● ●●● ● ● ●●
● ●●●
● ● ●● ● ●
● ●● ●
● ● ● ● ● ●● ● ●● ●● ● ●
●● ●
● ● ● ● ●● ●
● ● ● ●●●● ● ● ●
●
● ● ● ●● ●
● ●● ●● ● ● ● ● ● ● ●
●
● ●● ●
●●●● ●
● ●
●● ● ● ● ●●
●
● ● ● ●
● ● ● ● ●
●● ● ● ●● ● ● ●● ● ●● ●
●● ● ●
● ●●● ● ●●●● ●
● ●● ●● ● ● ● ●
● ●●
● ● ●● ● ● ● ● ●●● ●● ● ● ● ●
●● ●●●● ● ● ●
● ● ●
● ●●●● ●● ● ● ● ● ● ●●● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ●
● ● ● ●● ● ● ● ●
● ● ● ● ● ● ●
● ● ●● ● ●● ● ● ●●
● ● ●●● ●● ● ● ● ●● ●● ●
●● ●●
● ● ● ● ●● ●● ● ●● ●
● ● ●
●● ●● ● ●● ●● ● ● ● ●
●●● ●●● ●● ●
● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ●
● ●
● ● ● ● ●● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ●● ● ●● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ●●
●● ● ● ●●● ●● ● ●● ●●
● ● ● ●
● ●
●● ●
● ●●●
● ● ●
●
● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ●●
● ● ●
● ● ● ●● ●● ● ● ● ● ● ● ●
● ● ● ●
● ●●● ● ●
● ● ●
● ● ● ● ●●●● ●● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ●● ● ● ● ● ●
● ● ●
● ●
● ●
● ●
●
Voorbeeld
x = ‘log(SO2Pot)’ Y = ‘Mortaliteit’
(a) (b)
2
●
●
●
●● ●
●
Gestandaardiseerd residu
Gestandaardiseerd residu
●●●
1
● ● ●
●
●●●● ●
●● ●●●● ●
●
●●
●
● ● ●
● ●● ● ● ● ● ● ● ●
● ● ● ●
● ●●
0
●●● ● ●
●●
●● ● ●● ● ● ●
● ● ●
−3 −2 −1 0 1 2 3
●●● ● ● ● ● ●●
●
●●● ● ● ● ●
●●
●● ● ● ●● ●
● ● ●
●● ●● ●
●
●●●● ● ● ●
● ●
● Los Angeles
−2
−1
● ●
−2 −1 0 1 2 0 1 2 3 4 5 6
Standaardnormale kwantielen
log(SO2 Pot)
Voorbeeld
● ●
●
● ●
1000 ●●
●● ●
● ● ● ●
● ● ● ● ●
●
Mortaliteit
● ● ● ● ●
● ● ●
●
●● ●
●
● ● ●
● ● ● ●
900
● ●
● ● ●
●
● ● ●
● ● ●
● ● Los
● Angeles
800
0 1 2 3 4 5 6
log(SO2Pot)
̂ = σ2( 1+
Var(A) ε x¯2 2)
n (n − x
1)s
2 σε
Var(B̂) = (n − x2
1)s x¯
ε
̂ ̂
Cov(A, B) = − (n σ−2 x2
1)s
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 29 / 34
Inferentie omtrent
regressieparameters
BI voor α en β
‚
̂ = σ2( 1+ x¯2 x¯
› › Var(A) ε 1 ) → s.e.(A)
̂ = ε ı, +
n (n − x2 S 2
n (n − 2
x
1)s . 1)s
σ2ε
1
Var(B̂) = (n − x2 → s.e.(B̂) = Sε
› (n − 2
x
1)s 1)s
̂ B̂ ) = x¯ ε
› Cov(A,
− (n σ−2 x2
› bovendien geldt dat1)s
› Aˆ−α ∼ n−2
s.e.(Aˆ)
t
› Bˆ−β
ˆ) ∼ n−2
› s.e.(B
t
hieruit kunnen we BI’s afleiden voor α en β:
‚ = .
f ı, 1 1
ı + en [βˆ ± n−2,α/2 sε 2]
αˆ ±tn−2,α/2 sε x¯2 (n − 1) x2 ı
n (n − x
ıl t ız
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1)s 30 / 34
In ferentie omtrent
regressieparameters
Testen of β ≠
0
regressiemodel Y = α + βx +
› εals β = 0, kan de gemiddelde Y niet uit x voorspeld worden
scatterplot beta=0
12
10
8
y
6
4
2
0 2 4 6
Testen of β ≠
0
› regressiemodel Y = α + βx + ε
Testen of β ≠
0
› regressiemodel Y = α + βx + ε
Voorspellingen
Voorbeeld
●●●
● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ●●● ● ●
●● ●
● ● ● ● ● ●
● ● ●
● ● ●
●
● ● ●
● ●
● ● ●
●
●
0 1 2 3 4 5
log(SO2Pot)