Download as pptx, pdf, or txt
Download as pptx, pdf, or txt
You are on page 1of 37

Hoofdstuk 9: Lineaire regressie

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1 / 34


Linear verband tussen twee variabelen

Pearson correlatieco¨effici¨ent

● zij X en Y twee toevalsvariabelen


● een maat om de sterkte van een linear verband tussen X en Y
uit te drukken is de Pearson correlatieco¨effici¨ent

Cov(X, Y ) E ((X − E (X ))(Y (Y )))


ρ(X, Y ) = =− E √
√ Var(X )Var(Y )
Var(X )Var(Y )
● in dit hoofdstuk stellen we dit linear verband expliciet op
● hoe stellen
● hoe we een
gebruiken weregressierechte op?
die om voorspellingen te maken?
● ●
hoe voeren we testen uit ivm de regressieparameters en wat leren
we hieruit?
●● hoe gaan we de assumpties van het regressiemodel na?

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 2 / 34


Linear verband tussen twee variabelen

Voorbeeld
verband tussen ‘mortaliteit’ en ‘SO 2Pot’ is niet lineair
● met een logaritmische transformatie wordt dit wel meer lineair
● ●
1100

1100
New Orleans New Orleans
● ●

● ● ●
● ● ●
● ●
1000

● ●
●● ● ●●●●
● ● ●
● ● ● ●

Mortaliteit

Mortaliteit
● ●
● ● ●
● ●● ● ●● ● ●
● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ●

●●● ● ● ●● ●
● ●
● ● ● ●

1000
●●
● ● ● ● ● ● ● ●
900

900
● ●
●● ● ●
● ● ●
● ● ●

● ● ● ● ● ●

●● ● ●

● ● ● ●
● ●
800

800
● ●

0 50 100 150 200 250 300 0 1 2 3 4 5 6

SO2 Pot log(SO2 Pot)

● voorspellen van ‘Mortaliteit’ op basis van de waarde van ‘log(SO2Pot)’


‘Mortaliteit’ = 863.39 + 22.77 ‘log(SO2Pot)’
y = a + b x
↓ ↓
respons variabele verklarende variabele
afhankelijke variabele onafhankelijke variabele
predictor
● hoe vinden we zo’n rechte y =+
a
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 3 / 34
Kleinste-kwadratenmethode

De kleinste-kwadratenmethode

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 4 / 34


Kleinste-kwadratenmethode

hoe kunnen we de vergelijking van de rechte y = a + bx


bepalen?
we zoeken schattingen αˆ en βˆ voor a en b
› dat doen we op basis van de puntenwolk (x ,1 y )1 , . . . , (x n ,y
› zoek αˆ en βˆ zodat de totale kwadratische afstand
n )van de punten
tot de rechte minimaal is, maw dat er een minimale spreiding is
› beschouw een rechte y = a + bx , en voor elk punt (xi , yi )
bekijken
we de afwijking tot die rechte
› het verticale verschil tussen de geobserveerde waarde y en
i de
y -waarde op de rechte voor x = xi noemen we het residu:
y= a +bx

a+bx3 ●
ei = yi − (a +
bxi )
e3
y3

y1

a+bx2 ●

notatie: ei (a, b)
a+bx1 ●

y2

x1 x2 x3

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 5 / 34


Kleinste-kwadratenmethode

we zoeken de rechte die minimale spreiding geeft

(a) (b)

Figuur: Rechte door een puntenwolk met (a) kleine en (b) grote verticale
spreiding.

● kleinste-kwadratenmethode (least squares method): zoek de


waarden van a en b waarvoor de som van de gekwadrateerde
residu’s
n n
2
ei (
a, ) = ( y i −(a +bx i) ) 2
Σ Σ
i b i
=1 =1
minimaal is
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 6 / 34
Kleinste-kwadratenmethode

● kleinste-kwadratenmethode: zoek a en b waarvoor de som van


de gekwadrateerde residu’s
n n
2 a+ i 2
Σ ei ( a, b) =Σ ( y i −(
i i bx ) )
=1 =1
minimaal is
● de oplossing van dit minimalisatieprobleem is
n
( y − y¯) ( x − sy sxy
β̂ ∑i n i
i = xy want rxy =
=1∑x¯) 2 rxy
= i (x i − = s2x sx sy
s=1 x¯)
αˆ = y¯ − βˆx¯ sx

(hoe te komen aan die uitdrukkingen: niet te kennen)

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 7 / 34


Kleinste-kwadratenmethode

› de geschatte kleinste-kwadraten rechte is

y = αˆ + βˆx

› waarde = αˆ +ˆ i
yˆi geobserveerde
voor elke yi hebben we een geschatte (gefitte)
› βx
residu’s voor deze geschatte rechte:

ei = ei (αˆ, βˆ) = yi − yˆi= yi − (αˆ + βˆxi ) voor i = 1,


› ...,n

hoe goed verklaart de geschatte rechte de aanwezige


variantie in de scatterplot?

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 8 / 34


ANOVA-tabel en determinatieco¨effici¨ent

ANOVA-tabel en determinatieco¨effici¨ent

ANOVA = ANalyse Of VAriance

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 9 / 34


ANOVA-tabel en determinatieco¨effici¨ent

hoe goed verklaart de geschatte rechte de aanwezige variantie?


› yi − y¯ kan je schrijven als

yi − y¯ = (yi − yˆi) + (yˆi −


y¯)

met yˆi= αˆ + βˆxyi i


y i − yˆi
i
y i − y¯
y
yˆi− y¯
ˆy
¯

xi

Figuur: Totale variatie als som van variatie verklaard door het regressiemodel
en de foutenterm.

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 10 / 34


ANOVA-tabel en determinatieco¨effici¨ent

● yi − y¯ = (yˆi − ) + (yi − yˆ
i
y¯ )
n n n n
2
y− =Σ (
yˆi − ) 2 + 2 yˆ − )(y − )+ ( yi − i
2
Σ ( i Σ ( i i i Σ
i y¯) i y¯ y¯ i yˆ i yˆ )
=1 =1 ⁄ −
=1−−


−−


−−
−− −−−


−−


−−− =1
=0 (zie
n n− −v −


−−
−−−



−−


2 2
yˆi − i y−
volgende
i
=Σ ( + Σ−( −
i y¯) i −

−−yˆ−−⁄

− −−
−−
−−−
)ide)sl −

=1 =1
n n n
● we noteren i y − 2y¯
yˆ − 2 y− i 2
Σ ( ) =Σ ( i +Σ ( i
i =1 i =1 y¯) i yˆ )



−−


⁄=1

−−


−−
−−


−−
−−

−v−


−−


−−


−−


−−
−−


−−


⁄−

−−

−−
⁄−

−−

−−


−−

−−


−v−


−−


−−


−−


−−


−−


⁄−

−−

−−
⁄−


−−
−−−


−−


−−


−v−


−−


−−

−−

−−
−−


−−


−−

=SST =SS
● SST = Sum of=Squares
SSM Total E
SSM = Sum of Squares SSE = Sum of Squares
ModelSST = SSM Error
+ SSE
● totale variantie = variantie +
verklaard door onverklaarde
het model variantie
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 11 / 34
ANOVA-tabel en determinatieco¨effici¨ent
n
Σ (yˆ i − y¯)(yi − yˆi) = 0 we tonen dit aan ...
i =1

we merken eerst op dat

yˆi= αˆ + βˆxi = y¯ − βˆx¯ + βˆxi = y¯ + βˆ(xi − x¯) (aangezien αˆ =


y¯ − βˆx¯ )
● en dus

yˆin− y¯ = βˆ(xi − x¯) en


n yi − yˆi= yi − y¯ − βˆ(xi − x¯)
ˆ
β x − )[ y i − y¯ −ˆβ xi −
( y ˆ i −y¯)(y
● weΣbekomen
i yˆ ) i =

aldus Σ ( i
i x¯i 1 ( x¯)]
=1 =n n
= ˆβ xi − )(y i − y¯) −ˆ 2 x− 2
Σ ( Σ ( i
x¯ i β i x¯)
=1n n =1
= βˆ 2 ( xi − x¯)22 − ˆ x − x¯)2 =
( i
Σ Σ
i β i 0
n =1 =1
yi − y¯)(xi
∑ i =1
(
aangezien βˆ = ∑ n= x i −x¯)
i1( −x¯)
2
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 12 / 34
ANOVA-tabel en determinatieco¨effici¨ent

Determinatieco¨effici¨ent
n n
2
n i yi − i 2
● Σ (y − ) 2 =Σ ( y ˆ i−y¯)
+Σ (
i =1 i i yˆ )
SST=
=1

SSM + SSE =1
● als de punten in de scatterplot vrijwel op de regressierecht liggen
dan is SSE klein =⇒ de totale variantie zal bijna volledig
verklaard worden door SSM
● als het deel van de ‘verklaarde variantie’ (SSM) groot is tov de

‘onverklaarde variantie’ (SSE) dan zal SSM SSTdicht bij 1 liggen ...
● determinatieco¨effici¨ent:
SSM ∑ni (yˆi −
R2 = n2=1
y¯)
(y i − 2
= SST ∑i
=1 y¯)
› voor enkelvoudige lineaire regressie
● geldt R2 = r2 2
dus 0
xy
™R ™ 1
› R 2 = 1: perfecte rechte
› als SSE groot is ten opzichte van SSM zal R 2 ≈ 0 enˆ β =xy rsy ≈
sx
0
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 13 / 34
ANOVA-tabel en determinatieco¨effici¨ent

ANalyse Of VAriance = ANOVA tabel


› andere methode om na te gaan of de totale variatie eerder door
de residu’s dan wel door het model worden verklaard:
SSM
∑n (yˆi −
F = 1 = 2i n1 (y
SS ∑ i y¯)i i
2
= n−2 =1 −yˆ )
E
n−2
vrijheidsgraden SS MS
als SSE groot is ten opzichte van SSM dan zal F
0 SSM
1 MSM= F = MSM
Mode SS 1
MSE
n− MSE= SSE
l 2 M n−2

Error SS
n−1
› MSE = SSE SST = Mean Squared
n−2 E
Error
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 14 / 34
ANOVA-tabel en determinatieco¨effici¨ent

ANOVA tabel: voorbeeld

› voorbeeld: ‘Mortaliteit’ als lineaire functie van ‘log(SO Pot)’


2
(zonder ‘New Orleans’)

vrijheidsgraden (df) SS MS F
Model 1 63211.1 63211.1 26.7
Error 57 134817.3 2365.2
Total 58 198028.4

› rxy
2 SSM = 63211 =
SST 198028
= 0.32
› F MSM = 2365.2 =
MSE
63211.1
= 26.7
interpretatie van F en de gerealiseerde waarde f : zie later ...

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 15 / 34


Het enkelvoudige lineaire regressiemodel

Het enkelvoudige lineaire regressiemodel

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 16 / 34


Het enkelvoudige lineaire regressiemodel

de punten van een puntenwolk liggen niet exact op een rechte


› we moeten rekening houden met een zekere spreiding rond de
gevonden rechte
› in een enkelvoudig lineair regressiemodel veronderstellen we
dat voor de toevalsvariabelen ( X , Y )

Y i = α + βxi + εi voor alle i = 1,


2, . . . , n
› de fouten εi zijn onafhankelijk en normaal verdeeld met
α, β ∈ IR
gemiddelde 0 en identieke variantie σ , 2ofwel ε ∼ N ( 0, σ2 )
ε
ε i
› er volgt:

E (Y i | xi ) = E (α + βxi + εi | xi ) = α + βxi + E (ε i ) = α + βxi

› voor een bepaalde xi -waarde zal de gemiddelde responswaarde


bepaald worden met behulp van de rechte y = α + βx (met x =
xi ) (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE
I. Gijbels & D. Vanpaemel 17 / 34
Het enkelvoudige lineaire
regressiemodel

› εi = Y i − α − βxi noemen we de foutentermen


› modelveronderstellingen: ε ∼ N(0, σ 2) en onderling onafhankelijk
i ε

Var(Y i ) = σε2 voor alle i = 1, . . .
,n

y2 y = α+
ε2 βx

N (0, σε2 )

ε1
y1

x1 x2

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 18 / 34


Het enkelvoudige lineaire regressiemodel

● Y i = α + βxi + εi ε ∼ 0, σ2 )
i ε
N(
● populatiemodel volledig bepaald door 3 parameters:
α: de intercept parameter
●● β: 2de richtingsco¨effici¨ent (slope) parameter
●● σ ε: geeft informatie over de spreiding op de fouten
● regressiemodel: Y = α + βx + ε

als x = 0, dan is E (Y | 0) = E (α + ε | 0)
› =α
de richtingsco¨effici¨ent β geeft aan hoe de gemiddelde Y -waarde
wijzigt indien x met ´e´en eenheid toeneemt:

E (Y | x ) = α + βx en E (Y | x + 1) = α

+ β(x + 1) waaruit volgt dat E (Y | x + 1) − E (Y | x ) =

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 19 / 34


Het enkelvoudige lineaire regressiemodel

2
●Y i = α + βxi + εi i ε ∼ 0, σε )
N (parameters: α, β en σ ε2
●3

● schatten door :
ˆ kleinste kwadratenschatters
αˆ, β:
●● aangezien

σε2= Var( εi ) = E 2
i εi = Y i − α −
(ε ) βxi
schatten we dit met
1 n 2 1 n
sε2= σˆ ε2= Σ ei ( αˆ,ˆβ) ˆ 2
n − i =1 = n − Σi ( y i − αˆ −
2 =1 2 βxi )
delen door factor n − 2 om een onvertekende schatter te verkrijgen
voor σε2

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 20 / 34


Nagaan van de modelveronderstellingen

Nagaan van de modelveronderstellingen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 21 / 34


Nagaan van de modelveronderstellingen

Niet altijd een zinvol model

(a) (b)
15 15

10 10

5 5

0 5 10 15 0 5 10 15

(c) (d)
15 15

10 10

5 5

0 5 10 15 0 5 10 15

Figuur: Vier puntenwolken met eenzelfde kleinste-kwadratenrechte.

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 22 / 34


Nagaan van de modelveronderstellingen

modelveronderstellingen:
› Y i = α + βxi + εi i = 1, . . .
› ,ε n∼ N(0, σ2)
i ε
› de foutentermen ε1, . . . , εn zijn onafhankelijk

de residu’s
ei = y i− αˆ − ˆ i
βx
zijn een uitstekend middel om de modelveronderstellingen na te gaan

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 23 / 34


Nagaan van de modelveronderstellingen

Nagaan van modelonderstellingen

1. nagaan of ε normaal
i verdeeld zijn met µ = 0: normale
kwantielplot van de residu’s ei

-100 -50 0 50
-2 -1 0 1 2

intercept ≈ 0
› normaliteit van de residu’s n i e t formeel testen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 24 / 34


Nagaan van de modelveronderstellingen

Nagaan van modelonderstellingen

1. nagaan of ε normaal
i verdeeld zijn met µ = 0: normale
kwantielplot van de residu’s ei

2. nagaan of εi onderling onafhankelijk zijn met dezelfde


variantie σ2: (gestandaardiseerde) residuplot (x i , ei )
soms ook (yˆi ,i
› e )
ongeordend, lukraak puntenpatroon

› gelijke spreiding
› gestandaardiseerde residu’s: ei
∈ [−3, 3] (of met 99%

waarden in [−2.5, 2.5]) kans

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 24 / 34


Nagaan van de modelveronderstellingen

Afwijkingen van modelonderstellingen

● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ●
●● ● ● ● ●
● ● ●
●● ● ●● ●● ● ● ● ● ●
●●● ● ● ● ●● ●● ●●
●●● ● ● ●● ● ●
●● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●●● ● ●●
● ●●
● ●●● ● ● ●● ●● ●
●●● ●●●● ●●●●● ● ● ● ●●
● ● ●●●● ● ● ●● ● ●
●●●● ● ● ●●●● ● ●
● ● ●●● ● ●● ●

●● ●●●● ●●●● ●
●● ● ●

●●
● ● ● ●
● ● ● ● ●
● ● ● ●
● ●● ●●●● ● ●● ●● ● ● ● ●
● ● ●
● ● ●●
● ● ● ● ●
●● ●●● ● ●● ● ● ● ● ● ●●
● ●
● ●
● ● ● ● ●
● ● ● ● ● ●● ● ●●
● ● ● ●● ●
● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ● ●
●● ●● ●●● ●●● ●● ● ●● ● ●
● ●● ● ●
● ● ● ● ● ● ●
● ● ● ●●● ● ● ●●
● ●●●
● ● ●● ● ●
● ●● ●
● ● ● ● ● ●● ● ●● ●● ● ●
●● ●
● ● ● ● ●● ●
● ● ● ●●●● ● ● ●

● ● ● ●● ●
● ●● ●● ● ● ● ● ● ● ●

● ●● ●
●●●● ●
● ●
●● ● ● ● ●●

● ● ● ●
● ● ● ● ●
●● ● ● ●● ● ● ●● ● ●● ●
●● ● ●
● ●●● ● ●●●● ●
● ●● ●● ● ● ● ●
● ●●
● ● ●● ● ● ● ● ●●● ●● ● ● ● ●
●● ●●●● ● ● ●
● ● ●
● ●●●● ●● ● ● ● ● ● ●●● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ●
● ● ●● ● ● ●
● ● ● ●● ● ● ● ●
● ● ● ● ● ● ●
● ● ●● ● ●● ● ● ●●
● ● ●●● ●● ● ● ● ●● ●● ●
●● ●●
● ● ● ● ●● ●● ● ●● ●
● ● ●
●● ●● ● ●● ●● ● ● ● ●
●●● ●●● ●● ●
● ● ● ●● ● ●● ● ● ● ● ● ● ● ● ●● ● ●
● ●
● ● ● ● ●● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ● ● ● ● ●● ● ●● ●
● ● ● ● ● ● ●
● ● ● ●
● ● ● ● ●●
●● ● ● ●●● ●● ● ●● ●●
● ● ● ●
● ●
●● ●
● ●●●
● ● ●

● ● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ●●
● ● ●
● ● ● ●● ●● ● ● ● ● ● ● ●
● ● ● ●
● ●●● ● ●
● ● ●
● ● ● ● ●●●● ●● ● ●
● ●
● ● ● ● ● ● ●
● ● ● ●● ● ● ● ● ●
● ● ●
● ●
● ●
● ●

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 25 / 34


Nagaan van de modelveronderstellingen

Voorbeeld

x = ‘log(SO2Pot)’ Y = ‘Mortaliteit’

gegevens voor de stad ‘New Orleans’ buiten beschouwing gelaten

(a) (b)
2




●● ●

Gestandaardiseerd residu
Gestandaardiseerd residu

●●●
1

● ● ●

●●●● ●
●● ●●●● ●

●●

● ● ●
● ●● ● ● ● ● ● ● ●
● ● ● ●
● ●●
0

●●● ● ●
●●
●● ● ●● ● ● ●
● ● ●

−3 −2 −1 0 1 2 3
●●● ● ● ● ● ●●

●●● ● ● ● ●
●●
●● ● ● ●● ●
● ● ●
●● ●● ●

●●●● ● ● ●
● ●
● Los Angeles
−2
−1

● ●

−2 −1 0 1 2 0 1 2 3 4 5 6

Standaardnormale kwantielen
log(SO2 Pot)

Figuur: (a) Normale kwantielplot en (b) gestandaardiseerde residuplot van de


kleinste-kwadratenanalyse van de puntenwolk.

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 26 / 34


Nagaan van de modelveronderstellingen

Voorbeeld

● ●

● ●
1000 ●●
●● ●
● ● ● ●
● ● ● ● ●

Mortaliteit

● ● ● ● ●
● ● ●

●● ●

● ● ●
● ● ● ●
900

● ●
● ● ●

● ● ●
● ● ●

● ● Los
● Angeles
800

0 1 2 3 4 5 6

log(SO2Pot)

Figuur: (a) Kleinste-kwadratenrechte (blauw) en kleinste-kwadratenrechte


zonder ‘Los Angeles’ (groen).

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 27 / 34


Inferentie omtrent
regressieparameters

Inferentie omtrent regressieparameters

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 28 / 34


In ferentie omtrent
regressieparameters

Parameters, schattingen, schatters en hun eigenschappen


parameters schattingen schatters
α α Aˆ
ˆ

βε
σ sε
β Sε
ˆ ntonen:
● men kan aa
●● Â en B ̂ zijn onvertekende schatters voor respectievelijk het
̂ ̂
intercept α ende richtingsco¨effici¨ent β: E ( A ) =α en E ( B ) = β
●● varianties en covarianties van de schatters:

̂ = σ2( 1+
Var(A) ε x¯2 2)
n (n − x
1)s
2 σε
Var(B̂) = (n − x2
1)s x¯
ε
̂ ̂
Cov(A, B) = − (n σ−2 x2
1)s
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 29 / 34
Inferentie omtrent
regressieparameters

BI voor α en β

̂ = σ2( 1+ x¯2 x¯
› › Var(A) ε 1 ) → s.e.(A)
̂ = ε ı, +
n (n − x2 S 2
n (n − 2
x
1)s . 1)s
σ2ε
1
Var(B̂) = (n − x2 → s.e.(B̂) = Sε
› (n − 2
x
1)s 1)s
̂ B̂ ) = x¯ ε
› Cov(A,
− (n σ−2 x2
› bovendien geldt dat1)s

› Aˆ−α ∼ n−2
s.e.(Aˆ)
t
› Bˆ−β
ˆ) ∼ n−2
› s.e.(B
t
hieruit kunnen we BI’s afleiden voor α en β:
‚ = .
f ı, 1 1
ı + en [βˆ ± n−2,α/2 sε 2]
αˆ ±tn−2,α/2 sε x¯2 (n − 1) x2 ı
n (n − x
ıl t ız
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 1)s 30 / 34
In ferentie omtrent
regressieparameters

Testen of β ≠
0
regressiemodel Y = α + βx +
› εals β = 0, kan de gemiddelde Y niet uit x voorspeld worden
scatterplot beta=0

12
10
8
y

6
4
2

0 2 4 6

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 31 / 34


Inferentie omtrent
regressieparameters

Testen of β ≠
0

› regressiemodel Y = α + βx + ε

› als β = 0, kan de gemiddelde Y niet uit x voorspeld worden


› nagaan of lineaire regressie zinvol is met behulp van
hypothesetest:
H0 ∶ β = 0 versus H1 ∶ β ≠ 0

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 31 / 34


Inferentie omtrent
regressieparameters

Testen of β ≠
0
› regressiemodel Y = α + βx + ε

› als β = 0, kan de gemiddelde Y niet uit x voorspeld worden


› nagaan of lineaire regressie zinvol is met behulp van
hypothesetest:
H0 ∶ β = 0 versus H1 ∶ β ≠ 0

› met behulp van een t-test: T = Bˆ−β ∼ n−2


H0
s.e.(Bˆ) t
› testwaarde t
P-waarde = 2P(T “ t) met T ∼ tn−2

› of ook, met behulp van een F -test: F = MSM ∼ 1,n−2 onder H 0


MSE F
P-waarde = P ( F “ f ) met F ∼ F1,n−2
(software)

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 31 / 34


Het maken van voorspellingen

Het maken van voorspellingen

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 32 / 34


Het maken van voorspellingen

Voorspellingen

› puntschatting voor gemiddelde respons E (Y 0 ), gegeven


x0: y0 = αˆ + βˆx0

› BI voor gemiddelde respons E (Y‚0 ), gegeven x0: =


f 1 (x0− 2 ı
ı αˆ +ˆβx ± s ı, +
ı t 0 n−2,α/2 ε x¯) (n − x2 ı
n
l z
1)s
› predictie-interval voor respons Y0 gegeven x0:
f 1 (x0− 2=
ıαˆ +ˆβx ± s ‚ 1+ ı
ıt 0 n−2,α/2 ε ı , x¯) (n −
n 2

l +
1)s
z
merk op dat dit interval breder is dan het BI voor de gemiddelde
respons

I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 33 / 34


Het maken van
voorspellingen

Voorbeeld

700 800 900 1000 1100 1200


● ● ●
● ●
Mortaliteit

●●●
● ● ● ● ●
● ● ●
● ● ● ●
● ● ●
● ●●● ● ●
●● ●
● ● ● ● ● ●
● ● ●
● ● ●

● ● ●
● ●
● ● ●

0 1 2 3 4 5

log(SO2Pot)

Figuur: Regressierechte voor ‘Mortaliteit’ als functie van ‘log(SO2Pot)’ met


betrouwbaarheidsintervallen voor de gemiddelde mortaliteit gegeven x0; dit is
E (Y0 ) (in blauwe streepjeslijn) en de individuele mortaliteit gegeven x ; dit
is Y 00(in zwarte stippellijn).
I. Gijbels & D. Vanpaemel (KU Leuven) G0N11C-STATISTIEK & DATA-ANALYSE 34 / 34

You might also like