Slides HFSTK 9 Acadjaar 20192020

Hoofdstuk 9: Lineaire regressie
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 34

Linear verband tussen twee variabelen
Pearson correlatiecoëfficiënt
● zij X en Y twee toevalsvariabelen

● een maat om de sterkte van een linear verband tussen X en Y
uit te drukken is de Pearson correlatiecoëfficiënt
Cov(X, Y ) E ((X − E (X ))(Y (Y )))

ρ(X, Y ) = =− E √
√ Var(X )Var(Y )
Var(X )Var(Y )
● in dit hoofdstuk stellen we dit linear verband expliciet op
● hoe stellen
● hoe we een
gebruiken weregressierechte op?
die om voorspellingen te maken?
● ●
hoe voeren we testen uit ivm de regressieparameters en wat leren
we hieruit?
●● hoe gaan we de assumpties van het regressiemodel na?

Linear verband tussen twee variabelen
Voorbeeld
verband tussen ‘mortaliteit’ en ‘SO 2Pot’ is niet lineair
● met een logaritmische transformatie wordt dit wel meer lineair
● ●
1100
1100
New Orleans New Orleans
● ●
● ● ●
● ● ●
● ●
1000
● ●
●● ● ●●●●
● ● ●
● ● ● ●
●
Mortaliteit
Mortaliteit
● ●
● ● ●
● ●● ● ●● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ●
●
●●● ● ● ●● ●
● ●
● ● ● ●
1000
●●
● ● ● ● ● ● ● ●
900
900
● ●
●● ● ●
● ● ●
● ● ●
● ● ● ● ● ●
●
●● ● ●
●
● ● ● ●
● ●
800
800
● ●
0 50 100 150 200 250 300 0 1 2 3 4 5 6
SO2 Pot log(SO2 Pot)
● voorspellen van ‘Mortaliteit’ op basis van de waarde van ‘log(SO2Pot)’

‘Mortaliteit’ = 863.39 + 22.77 ‘log(SO2Pot)’
y = a + b x
↓ ↓
respons variabele verklarende variabele
afhankelijke variabele onafhankelijke variabele
predictor
● hoe vinden we zo’n rechte y =+
a
Kleinste-kwadratenmethode
De kleinste-kwadratenmethode

hoe kunnen we de vergelijking van de rechte y = a + bx

bepalen?
we zoeken schattingen αˆ en βˆ voor a en b
› dat doen we op basis van de puntenwolk (x ,1 y )1 , . . . , (x n ,y
› zoek αˆ en βˆ zodat de totale kwadratische afstand
n )van de punten
tot de rechte minimaal is, maw dat er een minimale spreiding is
› beschouw een rechte y = a + bx , en voor elk punt (xi , yi )
bekijken
we de afwijking tot die rechte
› het verticale verschil tussen de geobserveerde waarde y en
i de
y -waarde op de rechte voor x = xi noemen we het residu:
y= a +bx
a+bx3 ●
ei = yi − (a +
bxi )
e3
y3
y1
a+bx2 ●
notatie: ei (a, b)
a+bx1 ●
y2
x1 x2 x3

we zoeken de rechte die minimale spreiding geeft
(a) (b)
Figuur: Rechte door een puntenwolk met (a) kleine en (b) grote verticale
spreiding.
● kleinste-kwadratenmethode (least squares method): zoek de

waarden van a en b waarvoor de som van de gekwadrateerde
residu’s
n n
2
ei (
a, ) = ( y i −(a +bx i) ) 2
Σ Σ
i b i
=1 =1
minimaal is
● kleinste-kwadratenmethode: zoek a en b waarvoor de som van

de gekwadrateerde residu’s
n n
2 a+ i 2
Σ ei ( a, b) =Σ ( y i −(
i i bx ) )
=1 =1
minimaal is
● de oplossing van dit minimalisatieprobleem is
n
( y − y¯) ( x − sy sxy
β̂ ∑i n i
i = xy want rxy =
=1∑x¯) 2 rxy
= i (x i − = s2x sx sy
s=1 x¯)
αˆ = y¯ − βˆx¯ sx
(hoe te komen aan die uitdrukkingen: niet te kennen)

› de geschatte kleinste-kwadraten rechte is
y = αˆ + βˆx
› waarde = αˆ +ˆ i
yî geobserveerde
voor elke yi hebben we een geschatte (gefitte)
› βx
residu’s voor deze geschatte rechte:
ei = ei (αˆ, βˆ) = yi − yî= yi − (αˆ + βˆxi ) voor i = 1,

› ...,n
hoe goed verklaart de geschatte rechte de aanwezige

variantie in de scatterplot?

ANOVA-tabel en determinatiecoëfficiënt
ANOVA = ANalyse Of VAriance

hoe goed verklaart de geschatte rechte de aanwezige variantie?

› yi − y¯ kan je schrijven als
yi − y¯ = (yi − yî) + (yî −

y¯)
met yî= αˆ + βˆxyi i

y i − yî
i
y i − y¯
y
yî− y¯
ˆy
¯
xi
Figuur: Totale variatie als som van variatie verklaard door het regressiemodel
en de foutenterm.

● yi − y¯ = (yî − ) + (yi − yˆ
i
y¯ )
n n n n
2
y− =Σ (
yî − ) 2 + 2 yˆ − )(y − )+ ( yi − i
2
Σ ( i Σ ( i i i Σ
i y¯) i y¯ y¯ i yˆ i yˆ )
=1 =1 ⁄ −
=1−−
−
−
−−
−
−
−−
−− −−−
−
−
−−
−
−
−−− =1
=0 (zie
n n− −v −
−
−
−−
−−−
−
−
−
−−
−
−
2 2
yî − i y−
volgende
i
=Σ ( + Σ−( −
i y¯) i −
−
−−yˆ−−⁄
−
− −−
−−
−−−
)ide)sl −
−
=1 =1
n n n
● we noteren i y − 2y¯
yˆ − 2 y− i 2
Σ ( ) =Σ ( i +Σ ( i
i =1 i =1 y¯) i yˆ )
−
−
−
−−
−
−
⁄=1
−
−−
−
−
−−
−−
−
−
−−
−−
−
−v−
−
−
−−
−
−
−−
−
−
−−
−
−
−−
−−
−
−
−−
−
−
⁄−
−
−−
−
−−
⁄−
−
−−
−
−−
−
−
−−
−
−−
−
−
−v−
−
−
−−
−
−
−−
−
−
−−
−
−
−−
−
−
−−
−
−
⁄−
−
−−
−
−−
⁄−
−
−
−−
−−−
−
−
−−
−
−
−−
−
−
−v−
−
−
−−
−
−
−−
−
−−
−
−−
−−
−
−
−−
−
−
−−
⁄
=SST =SS
● SST = Sum of=Squares
SSM Total E
SSM = Sum of Squares SSE = Sum of Squares
ModelSST = SSM Error
+ SSE
● totale variantie = variantie +
verklaard door onverklaarde
het model variantie
n
Σ (yˆ i − y¯)(yi − yî) = 0 we tonen dit aan ...
i =1
●
we merken eerst op dat
yî= αˆ + βˆxi = y¯ − βˆx¯ + βˆxi = y¯ + βˆ(xi − x¯) (aangezien αˆ =

y¯ − βˆx¯ )
● en dus
yîn− y¯ = βˆ(xi − x¯) en

n yi − yî= yi − y¯ − βˆ(xi − x¯)
ˆ
β x − )[ y i − y¯ −ˆβ xi −
( y ˆ i −y¯)(y
● weΣbekomen
i yˆ ) i =
−
aldus Σ ( i
i x¯i 1 ( x¯)]
=1 =n n
= ˆβ xi − )(y i − y¯) −ˆ 2 x− 2
Σ ( Σ ( i
x¯ i β i x¯)
=1n n =1
= βˆ 2 ( xi − x¯)22 − ˆ x − x¯)2 =
( i
Σ Σ
i β i 0
n =1 =1
yi − y¯)(xi
∑ i =1
(
aangezien βˆ = ∑ n= x i −x¯)
i1( −x¯)
2
Determinatiecoëfficiënt
n n
2
n i yi − i 2
● Σ (y − ) 2 =Σ ( y ˆ i−y¯)
+Σ (
i =1 i i yˆ )
SST=
=1
y¯
SSM + SSE =1
● als de punten in de scatterplot vrijwel op de regressierecht liggen
dan is SSE klein =⇒ de totale variantie zal bijna volledig
verklaard worden door SSM
● als het deel van de ‘verklaarde variantie’ (SSM) groot is tov de
‘onverklaarde variantie’ (SSE) dan zal SSM SSTdicht bij 1 liggen ...
● determinatiecoëfficiënt:
SSM ∑ni (yî −
R2 = n2=1
y¯)
(y i − 2
= SST ∑i
=1 y¯)
› voor enkelvoudige lineaire regressie
● geldt R2 = r2 2
dus 0
xy
™R ™ 1
› R 2 = 1: perfecte rechte
› als SSE groot is ten opzichte van SSM zal R 2 ≈ 0 enˆ β =xy rsy ≈
sx
0
ANalyse Of VAriance = ANOVA tabel

› andere methode om na te gaan of de totale variatie eerder door
de residu’s dan wel door het model worden verklaard:
SSM
∑n (yî −
F = 1 = 2i n1 (y
SS ∑ i y¯)i i
2
= n−2 =1 −yˆ )
E
n−2
vrijheidsgraden SS MS
als SSE groot is ten opzichte van SSM dan zal F
0 SSM
1 MSM= F = MSM
Mode SS 1
MSE
n− MSE= SSE
l 2 M n−2
Error SS
n−1
› MSE = SSE SST = Mean Squared
n−2 E
Error
ANOVA tabel: voorbeeld
› voorbeeld: ‘Mortaliteit’ als lineaire functie van ‘log(SO Pot)’

2
(zonder ‘New Orleans’)
vrijheidsgraden (df) SS MS F
Model 1 63211.1 63211.1 26.7
Error 57 134817.3 2365.2
Total 58 198028.4
› rxy
2 SSM = 63211 =
SST 198028
= 0.32
› F MSM = 2365.2 =
MSE
63211.1
= 26.7
interpretatie van F en de gerealiseerde waarde f : zie later ...

Het enkelvoudige lineaire regressiemodel

de punten van een puntenwolk liggen niet exact op een rechte

› we moeten rekening houden met een zekere spreiding rond de
gevonden rechte
› in een enkelvoudig lineair regressiemodel veronderstellen we
dat voor de toevalsvariabelen ( X , Y )
Y i = α + βxi + εi voor alle i = 1,

2, . . . , n
› de fouten εi zijn onafhankelijk en normaal verdeeld met
α, β ∈ IR
gemiddelde 0 en identieke variantie σ , 2ofwel ε ∼ N ( 0, σ2 )
ε
ε i
› er volgt:
E (Y i | xi ) = E (α + βxi + εi | xi ) = α + βxi + E (ε i ) = α + βxi
› voor een bepaalde xi -waarde zal de gemiddelde responswaarde

bepaald worden met behulp van de rechte y = α + βx (met x =
xi ) (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE
I. Gijbels & D. Vanpaemel 17 / 34
Het enkelvoudige lineaire
regressiemodel
› εi = Y i − α − βxi noemen we de foutentermen

› modelveronderstellingen: ε ∼ N(0, σ 2) en onderling onafhankelijk
i ε
›
Var(Y i ) = σε2 voor alle i = 1, . . .
,n
y2 y = α+
ε2 βx
N (0, σε2 )
ε1
y1
x1 x2

● Y i = α + βxi + εi ε ∼ 0, σ2 )
i ε
N(
● populatiemodel volledig bepaald door 3 parameters:
α: de intercept parameter
●● β: 2de richtingscoëfficiënt (slope) parameter
●● σ ε: geeft informatie over de spreiding op de fouten
● regressiemodel: Y = α + βx + ε
als x = 0, dan is E (Y | 0) = E (α + ε | 0)
› =α
de richtingscoëfficiënt β geeft aan hoe de gemiddelde Y -waarde
wijzigt indien x met één eenheid toeneemt:
E (Y | x ) = α + βx en E (Y | x + 1) = α
+ β(x + 1) waaruit volgt dat E (Y | x + 1) − E (Y | x ) =

2
●Y i = α + βxi + εi i ε ∼ 0, σε )
N (parameters: α, β en σ ε2
●3
● schatten door :
ˆ kleinste kwadratenschatters
αˆ, β:
●● aangezien
σε2= Var( εi ) = E 2
i εi = Y i − α −
(ε ) βxi
schatten we dit met
1 n 2 1 n
sε2= σˆ ε2= Σ ei ( αˆ,ˆβ) ˆ 2
n − i =1 = n − Σi ( y i − αˆ −
2 =1 2 βxi )
delen door factor n − 2 om een onvertekende schatter te verkrijgen
voor σε2

Nagaan van de modelveronderstellingen

Niet altijd een zinvol model
(a) (b)
15 15
10 10
5 5
0 5 10 15 0 5 10 15
(c) (d)
15 15
10 10
5 5
0 5 10 15 0 5 10 15
Figuur: Vier puntenwolken met eenzelfde kleinste-kwadratenrechte.

modelveronderstellingen:
› Y i = α + βxi + εi i = 1, . . .
› ,ε n∼ N(0, σ2)
i ε
› de foutentermen ε1, . . . , εn zijn onafhankelijk
de residu’s
ei = y i− αˆ − ˆ i
βx
zijn een uitstekend middel om de modelveronderstellingen na te gaan

Nagaan van modelonderstellingen
1. nagaan of ε normaal
i verdeeld zijn met µ = 0: normale
kwantielplot van de residu’s ei
-100 -50 0 50
-2 -1 0 1 2
intercept ≈ 0
› normaliteit van de residu’s n i e t formeel testen

Nagaan van modelonderstellingen
1. nagaan of ε normaal
i verdeeld zijn met µ = 0: normale
kwantielplot van de residu’s ei
2. nagaan of εi onderling onafhankelijk zijn met dezelfde

variantie σ2: (gestandaardiseerde) residuplot (x i , ei )
soms ook (yî ,i
› e )
ongeordend, lukraak puntenpatroon
› gelijke spreiding
› gestandaardiseerde residu’s: ei
∈ [−3, 3] (of met 99%
sε
waarden in [−2.5, 2.5]) kans

Afwijkingen van modelonderstellingen
● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
●● ● ● ● ●
● ● ●
●● ● ●● ●● ● ● ● ● ●
●●● ● ● ● ●● ●● ●●
●●● ● ● ●● ● ●
●● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●
● ●●
● ●●● ● ● ●● ●● ●
●●● ●●●● ●●●●● ● ● ● ●●
● ● ●●●● ● ● ●● ● ●
●●●● ● ● ●●●● ● ●
● ● ●●● ● ●● ●
●
●● ●●●● ●●●● ●
●● ● ●
●
●●
● ● ● ●
● ● ● ● ●
● ● ● ●
● ●● ●●●● ● ●● ●● ● ● ● ●
● ● ●
● ● ●●
● ● ● ● ●
●● ●●● ● ●● ● ● ● ● ● ●●
● ●
● ●
● ● ● ● ●
● ● ● ● ● ●● ● ●●
● ● ● ●● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●● ●●● ●●● ●● ● ●● ● ●
● ●● ● ●
● ● ● ● ● ● ●
● ● ● ●●● ● ● ●●
● ●●●
● ● ●● ● ●
● ●● ●
● ● ● ● ● ●● ● ●● ●● ● ●
●● ●
● ● ● ● ●● ●
● ● ● ●●●● ● ● ●
●
● ● ● ●● ●
● ●● ●● ● ● ● ● ● ● ●
●
● ●● ●
●●●● ●
● ●
●● ● ● ● ●●
●
● ● ● ●
● ● ● ● ●
●● ● ● ●● ● ● ●● ● ●● ●
●● ● ●
● ●●● ● ●●●● ●
● ●● ●● ● ● ● ●
● ●●
● ● ●● ● ● ● ● ●●● ●● ● ● ● ●
●● ●●●● ● ● ●
● ● ●
● ●●●● ●● ● ● ● ● ● ●●● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ●
● ● ● ●● ● ● ● ●
● ● ● ● ● ● ●
● ● ●● ● ●● ● ● ●●
● ● ●●● ●● ● ● ● ●● ●● ●
●● ●●
● ● ● ● ●● ●● ● ●● ●
● ● ●
●● ●● ● ●● ●● ● ● ● ●
●●● ●●● ●● ●
● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ●
● ●
● ● ● ● ●● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ●● ● ●● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ●●
●● ● ● ●●● ●● ● ●● ●●
● ● ● ●
● ●
●● ●
● ●●●
● ● ●
●
● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ●●
● ● ●
● ● ● ●● ●● ● ● ● ● ● ● ●
● ● ● ●
● ●●● ● ●
● ● ●
● ● ● ● ●●●● ●● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ●● ● ● ● ● ●
● ● ●
● ●
● ●
● ●
●

Voorbeeld
x = ‘log(SO2Pot)’ Y = ‘Mortaliteit’
gegevens voor de stad ‘New Orleans’ buiten beschouwing gelaten
(a) (b)
2
●
●
●
●● ●
●
Gestandaardiseerd residu
Gestandaardiseerd residu
●●●
1
● ● ●
●
●●●● ●
●● ●●●● ●
●
●●
●
● ● ●
● ●● ● ● ● ● ● ● ●
● ● ● ●
● ●●
0
●●● ● ●
●●
●● ● ●● ● ● ●
● ● ●
−3 −2 −1 0 1 2 3
●●● ● ● ● ● ●●
●
●●● ● ● ● ●
●●
●● ● ● ●● ●
● ● ●
●● ●● ●
●
●●●● ● ● ●
● ●
● Los Angeles
−2
−1
● ●
−2 −1 0 1 2 0 1 2 3 4 5 6
Standaardnormale kwantielen
log(SO2 Pot)
Figuur: (a) Normale kwantielplot en (b) gestandaardiseerde residuplot van de

kleinste-kwadratenanalyse van de puntenwolk.

Voorbeeld
● ●
●
● ●
1000 ●●
●● ●
● ● ● ●
● ● ● ● ●
●
Mortaliteit
● ● ● ● ●
● ● ●
●
●● ●
●
● ● ●
● ● ● ●
900
● ●
● ● ●
●
● ● ●
● ● ●
● ● Los
● Angeles
800
0 1 2 3 4 5 6
log(SO2Pot)
Figuur: (a) Kleinste-kwadratenrechte (blauw) en kleinste-kwadratenrechte

zonder ‘Los Angeles’ (groen).

Inferentie omtrent
regressieparameters
Inferentie omtrent regressieparameters

In ferentie omtrent
regressieparameters
Parameters, schattingen, schatters en hun eigenschappen

parameters schattingen schatters
α α Aˆ
ˆ
Bˆ
βε
σ sε
β Sε
ˆ ntonen:
● men kan aa
●● Â en B ̂ zijn onvertekende schatters voor respectievelijk het
̂ ̂
intercept α ende richtingscoëfficiënt β: E ( A ) =α en E ( B ) = β
●● varianties en covarianties van de schatters:
̂ = σ2( 1+
Var(A) ε x¯2 2)
n (n − x
1)s
2 σε
Var(B̂) = (n − x2
1)s x¯
ε
̂ ̂
Cov(A, B) = − (n σ−2 x2
1)s
Inferentie omtrent
regressieparameters
BI voor α en β
‚
̂ = σ2( 1+ x¯2 x¯
› › Var(A) ε 1 ) → s.e.(A)
̂ = ε ı, +
n (n − x2 S 2
n (n − 2
x
1)s . 1)s
σ2ε
1
Var(B̂) = (n − x2 → s.e.(B̂) = Sε
› (n − 2
x
1)s 1)s
̂ B̂ ) = x¯ ε
› Cov(A,
− (n σ−2 x2
› bovendien geldt dat1)s
› Aˆ−α ∼ n−2
s.e.(Aˆ)
t
› Bˆ−β
ˆ) ∼ n−2
› s.e.(B
t
hieruit kunnen we BI’s afleiden voor α en β:
‚ = .
f ı, 1 1
ı + en [βˆ ± n−2,α/2 sε 2]
αˆ ±tn−2,α/2 sε x¯2 (n − 1) x2 ı
n (n − x
ıl t ız
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1)s 30 / 34
In ferentie omtrent
regressieparameters
Testen of β ≠
0
regressiemodel Y = α + βx +
› εals β = 0, kan de gemiddelde Y niet uit x voorspeld worden
scatterplot beta=0
12
10
8
y
6
4
2
0 2 4 6

Inferentie omtrent
regressieparameters
Testen of β ≠
0
› regressiemodel Y = α + βx + ε
› als β = 0, kan de gemiddelde Y niet uit x voorspeld worden

› nagaan of lineaire regressie zinvol is met behulp van
hypothesetest:
H0 ∶ β = 0 versus H1 ∶ β ≠ 0

Inferentie omtrent
regressieparameters
Testen of β ≠
0
› regressiemodel Y = α + βx + ε
› als β = 0, kan de gemiddelde Y niet uit x voorspeld worden

› nagaan of lineaire regressie zinvol is met behulp van
hypothesetest:
H0 ∶ β = 0 versus H1 ∶ β ≠ 0
› met behulp van een t-test: T = Bˆ−β ∼ n−2

H0
s.e.(Bˆ) t
› testwaarde t
P-waarde = 2P(T “ t) met T ∼ tn−2
› of ook, met behulp van een F -test: F = MSM ∼ 1,n−2 onder H 0

MSE F
P-waarde = P ( F “ f ) met F ∼ F1,n−2
(software)

Het maken van voorspellingen

Voorspellingen
› puntschatting voor gemiddelde respons E (Y 0 ), gegeven

x0: y0 = αˆ + βˆx0
› BI voor gemiddelde respons E (Y‚0 ), gegeven x0: =

f 1 (x0− 2 ı
ı αˆ +ˆβx ± s ı, +
ı t 0 n−2,α/2 ε x¯) (n − x2 ı
n
l z
1)s
› predictie-interval voor respons Y0 gegeven x0:
f 1 (x0− 2=
ıαˆ +ˆβx ± s ‚ 1+ ı
ıt 0 n−2,α/2 ε ı , x¯) (n −
n 2
xı
l +
1)s
z
merk op dat dit interval breder is dan het BI voor de gemiddelde
respons

Het maken van
voorspellingen
Voorbeeld
700 800 900 1000 1100 1200

● ● ●
● ●
Mortaliteit
●●●
● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ●●● ● ●
●● ●
● ● ● ● ● ●
● ● ●
● ● ●
●
● ● ●
● ●
● ● ●
●
●
0 1 2 3 4 5
log(SO2Pot)
Figuur: Regressierechte voor ‘Mortaliteit’ als functie van ‘log(SO2Pot)’ met

betrouwbaarheidsintervallen voor de gemiddelde mortaliteit gegeven x0; dit is
E (Y0 ) (in blauwe streepjeslijn) en de individuele mortaliteit gegeven x ; dit
is Y 00(in zwarte stippellijn).

Slides HFSTK 9 Acadjaar 20192020

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Slides HFSTK 9 Acadjaar 20192020

Uploaded by

Copyright:

Available Formats

Hoofdstuk 9: Lineaire regressie

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 34

● zij X en Y twee toevalsvariabelen

Cov(X, Y ) E ((X − E (X ))(Y (Y )))

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 2 / 34

0 50 100 150 200 250 300 0 1 2 3 4 5 6

SO2 Pot log(SO2 Pot)

● voorspellen van ‘Mortaliteit’ op basis van de waarde van ‘log(SO2Pot)’

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 4 / 34

hoe kunnen we de vergelijking van de rechte y = a + bx

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 5 / 34

we zoeken de rechte die minimale spreiding geeft

● kleinste-kwadratenmethode (least squares method): zoek de

● kleinste-kwadratenmethode: zoek a en b waarvoor de som van

(hoe te komen aan die uitdrukkingen: niet te kennen)

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 7 / 34

› de geschatte kleinste-kwadraten rechte is

ei = ei (αˆ, βˆ) = yi − yˆi= yi − (αˆ + βˆxi ) voor i = 1,

hoe goed verklaart de geschatte rechte de aanwezige

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 8 / 34

ANOVA = ANalyse Of VAriance

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 9 / 34

hoe goed verklaart de geschatte rechte de aanwezige variantie?

yi − y¯ = (yi − yˆi) + (yˆi −

met yˆi= αˆ + βˆxyi i

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 10 / 34

yˆi= αˆ + βˆxi = y¯ − βˆx¯ + βˆxi = y¯ + βˆ(xi − x¯) (aangezien αˆ =

yˆin− y¯ = βˆ(xi − x¯) en

ANalyse Of VAriance = ANOVA tabel

ANOVA tabel: voorbeeld

› voorbeeld: ‘Mortaliteit’ als lineaire functie van ‘log(SO Pot)’

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 15 / 34

Het enkelvoudige lineaire regressiemodel

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 16 / 34

de punten van een puntenwolk liggen niet exact op een rechte

Y i = α + βxi + εi voor alle i = 1,

E (Y i | xi ) = E (α + βxi + εi | xi ) = α + βxi + E (ε i ) = α + βxi

› voor een bepaalde xi -waarde zal de gemiddelde responswaarde

› εi = Y i − α − βxi noemen we de foutentermen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 18 / 34

+ β(x + 1) waaruit volgt dat E (Y | x + 1) − E (Y | x ) =

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 19 / 34

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 20 / 34

Nagaan van de modelveronderstellingen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 21 / 34

Niet altijd een zinvol model

Figuur: Vier puntenwolken met eenzelfde kleinste-kwadratenrechte.

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 22 / 34

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 23 / 34

Nagaan van modelonderstellingen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 24 / 34

Nagaan van modelonderstellingen

2. nagaan of εi onderling onafhankelijk zijn met dezelfde

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 24 / 34

Afwijkingen van modelonderstellingen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 25 / 34

gegevens voor de stad ‘New Orleans’ buiten beschouwing gelaten

Figuur: (a) Normale kwantielplot en (b) gestandaardiseerde residuplot van de

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 26 / 34

Figuur: (a) Kleinste-kwadratenrechte (blauw) en kleinste-kwadratenrechte

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 27 / 34

Inferentie omtrent regressieparameters

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 28 / 34