Andersen - Multivariat Statistisk Analyse II

M U LT I VA R I AT STATISTISK
A N A LY S E I I
INDLEDNING
F L E R D I M E N S I O N A L R E G R E S S I O N S A N A LY S E
S I M U LTA N E K O N FI D E N S I N T E RVA L L E R
D I S K R I M I N A N TA N A LY S E O G K L A S S I FI K AT I O N
P R I N C I PA L K O M P O N E N T A N A LY S E
L A R S N Ø RVA N G A N D E R S E N
© Lars Andersen 2020
Institut for Matematiske Fag

Det Naturvidenskabelige Fakultet
Aarhus Universitet
November 2020
Indhold
Indledning 1
Litteratur 3
1 Flerdimensional regressionsanalyse 5
1.1 Regressionsmodeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Mindste kvadraters metode . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Sædvanlig mindste kvadraters metode (OLS) . . . . . . . . . . . . 8
1.2.2 Generaliseret mindste kvadraters metode (GLS) . . . . . . . . . . 10
1.2.3 Anvendelser på flerdimensional multipel regression . . . . . . . . 10
1.2.4 Konsistens af mindste kvadraters estimatorer . . . . . . . . . . . . 11
1.3 Regularisering - ridge regression . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Supplement til Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1 Konvergens i sandsynlighed og i fordeling . . . . . . . . . . . . . 14
1.4.2 Konvergens i sandsynlighed og i fordeling: statistiske begreber . 16
Litteratur 19
Opgaver 21
2 Simultane konfidensintervaller 27
2.1 Generelt om konfidensområder . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 T 2 -konfidensintervaller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Bonferroni konfidensintervaller . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Multiple tests og Family-wise error rate . . . . . . . . . . . . . . . 35
Litteratur 37
Opgaver 39
3 Diskriminantanalyse og klassifikation 41
3.1 Diskriminantfunktionen for to grupper . . . . . . . . . . . . . . . . . . . 41
3.2 Diskriminantfunktionen for K grupper . . . . . . . . . . . . . . . . . . . . 44
3.2.1 Yderligere emner inden for diskriminantanalyse . . . . . . . . . . 47
3.3 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1 Klassifikationsfunktioner . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2 Klassifikation af to normalfordelte populationer . . . . . . . . . . 52
3.3.3 Evaluering af klassifikationsfunktioner . . . . . . . . . . . . . . . 55
3.3.4 Klassifikation af flere normalfordelte populationer . . . . . . . . . 59
i
ii INDHOLD
3.3.5 Klassifikation baseret på diskriminantfunktioner . . . . . . . . . . 64

3.3.6 Afsluttende bemærkninger til klassifikation . . . . . . . . . . . . . 65
Litteratur 67
Opgaver 69
4 Principal Komponent Analyse 75

4.1 Empiriske principal komponenter . . . . . . . . . . . . . . . . . . . . . . . 75
4.2 Teoretiske principal komponenter . . . . . . . . . . . . . . . . . . . . . . . 78
4.3 Principal komponenter og normalfordelingen . . . . . . . . . . . . . . . . 80
4.4 Standardiserede principal komponenter . . . . . . . . . . . . . . . . . . . 81
4.5 Anvendelser af principal komponenter . . . . . . . . . . . . . . . . . . . . 82
4.5.1 Hvor mange komponenter skal benyttes? . . . . . . . . . . . . . . 86
4.5.2 Afsluttende bemærkninger om principal komponenter . . . . . . 88
Litteratur 89
Opgaver 91
Appendix 93
A.1 Maksimeringsresultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Litteratur 97
Indeks 99
Indledning
Dette notesæt er udarbejdet til 2019-udgaven af kurset Multivariat Statistisk Analyse.

I notesættet lægger vi ud med at gennemgå nogle resultater inden for flerdimensio-
nal regressionsanalyse, som supplerer resultaterne fra Multivariat Statistisk Analyse
I, og som primært adskiller sig fra disse ved at vi slækker på antagelse om at data
er normalfordelt. Derudover indeholder notesættet en kort introduktion til emnerne
simultane konfidensintervaller, diskriminantanalyse og klassifikation samt principal
komponent analyse. Simultane konfidensintervaller behandles ud fra den betragtning,
at man herved på samme tid kan få en uddybende behandling af konfidensområder
og få illustreret problemstillinger indenfor “multipel testing”. Diskriminantanalyse og
klassifikation er klassiske emner indenfor multivariat analyse, og den teori, der præ-
senteres her, er netop den klassiske med udgangspunkt i Fisher [1936]’s artikel fra
1936. Principal komponent analyse er - ligesom klassifikation - et klassisk emne inden-
for multivariat analyse, som både er meget populært og udbredt. Præsentation i dette
notesæt afviger en smule fra den sædvanlige, idet vi her tager udgangspunkt i ønsket
om at finde en lav-dimensional repræsentation af vores datasæt, og ser at dette leder
os frem til principal komponenterne.
Med dette fundament er forhåbningen, at den studerende får en bedre mulighed
for at sætte sig i emner inden for moderne data science.
Noterne læner sig meget op ad bøgerne Rencher and Christensen [2012], Rencher
[2002], og Johnson and Wichern [2007], og i mindre omfang af Mardia et al. [2003]. Der
er tale om et nyt notesæt og der er givetvis rigeligt med trykfejl, som undertegnede
meget gerne vil høre om.
Lars Nørvang Andersen
1
Litteratur
R. A. Fisher. The use of multiple measurements in taxonomic problems. Annals of

Eugenics, 7(2):179–188, 1936. doi: 10.1111/j.1469-1809.1936.tb02137.x. URL https:
//onlinelibrary.wiley.com/doi/abs/10.1111/j.1469-1809.1936.tb02137.x.
Richard A. Johnson and Dean W. Wichern. Applied multivariate statistical analysis. Pear-
son Prentice Hall, Upper Saddle River, NJ, sixth edition, 2007. ISBN 978-0-13-187715-
3; 0-13-187715-1.
K. V. Mardia, J. T. Kent, and J. M. Bibby. Multivariate Analysis. Academic Press, 2003.
Alvin C. Rencher. Methods of multivariate analysis. Wiley Series in Probability and

Statistics. Wiley-Interscience [John Wiley & Sons], New York, second edition, 2002.
ISBN 0-471-41889-7. doi: 10.1002/0471271357. URL http://dx.doi.org/10.1002/
0471271357.
Alvin C. Rencher and William F. Christensen. Methods of multivariate analysis. Wiley

Series in Probability and Statistics. John Wiley & Sons, Inc., Hoboken, NJ, third
edition, 2012. ISBN 978-0-470-17896-6. doi: 10.1002/9781118391686. URL https:
//doi.org/10.1002/9781118391686.
3
Kapitel 1
Flerdimensional regressionsanalyse
1.1 Regressionsmodeller
Vi har i løbet af dette og tidligere kurser ofte betragtet regressionsmodeller. Udgangs-
punktet for disse var den lineære regressionsmodel for realisationer af uafhængige
stokastiske variable, som blev betragtet i Eksempel 3.5 side 59 i Andersen [2020]
xi ∼∼ N (α + βti , σ2 ), i = 1, . . . , n. (1.1)
hvor xi betegner den observerede værdi af stokastiske variabel og ti betegner værdien

af den ikke-stokastiske forklarende variabel.
I Opgave 3.1 side 73 og Opgave 3.2 side 74 i Andersen [2020] betragtede vi modellen
for multipel regression: Lad xi , i = 1, . . . , n, være realisationer af indbyrdes uafhængige
normalfordelte stokastiske variable:
xi ∼∼ N (ti∗ β, σ2 ), (1.2)
hvor ti er en søjlevektor af q forklarende variable, og β er en søjlevektor af q ukendte

parametre. Lad T være n × q matricen, hvor ite række er ti∗ ,
t1∗
 
 

 .. 

.

 

 
T= ti∗ , (1.3)

 .. 



 . 

 ∗  
tn
og antag yderligere, at q < n, og at T har fuld rang q. Man skriver kort modellen:
x ∼∼ Nn (Tβ, σ2 In ). (1.4)
Her er x = ( x1 , . . . , xn )∗ . Den lineære regressionsmodel i (1.1) kan naturligvis formu-

leres som multipel regression med T = {j, t} og β = (α, β)∗ , hvor j = (1, . . . , 1)∗ og
t = (t1 , . . . , tn )∗ , som påpeget i Opgave 3.2 i Andersen [2020].
En anden måde at skrive modellen i (1.2) på er
xi = ti∗ β + ui , i = 1, . . . , n, (1.5)
5
6 Kapitel 1. Flerdimensional regressionsanalyse
hvor ui erne er realisationer af uobserverede stokastiske variable, som er N (0, σ2 )-for-

delt og uafhængige.
Den tilsvarende måde at skrive modellen i (1.4) på er
x = Tβ + u, (1.6)
hvor u = (u1 , . . . , un )∗ og u ∼∼ Nn (0, σ2 In ). De uobserverede ui er beskriver obser-

vationernes afvigelser fra den systematiske del af modellen, som er ti∗ β i (1.5) og Tβ i
vektorversionen af modellen (1.6). De uobserverede ui er kalder vi fejlvariable eller fejl-
led, og de rummer tilfældige fluktuationer, som ikke kan forklares af den systematiske
del af modellen. Det er altså ikke nogen god betegnelse, for der ikke tale om fejl. Vi vil
omtale (1.5) og (1.6) som modelligninger. Sammen med en specifikation af fordelingen
af fejlleddet er de en formulering af modellen. Fordelen ved opskrivningerne i (1.5)
og (1.6) er, at de adskiller den systematiske del af modellen og fordelingen af de til-
fældige fluktuationer. Opskrivningerne i (1.5) og (1.6) beskriver den systematiske del
af modellen, og modelbeskrivelsen gøres færdig ved at beskrive fordelingen af fejl-
leddene. Da vi også vil betragte modeller, hvor vi ikke forudsætter normalfordeling af
fejlleddene vil modelformuleringer à la (1.5) og (1.6) ofte blive benyttet. Når vi forlader
normalfordelingsantagelsen, vil den ikke blive suppleret med antagelse om en anden
fordelingsklasse, men vi vil nøjes med at specificere middelværdi og kovariansmatriks
for fejlleddene. Denne opdeling i systematisk del og fejlled formuleres helt tilsvarende
for de den flerdimensionale multiple regressionsmodel, som blev betragtet i Eksempel
5.13 side 132 i Andersen [2020]. Disse opskrives derfor
X = TB + U, (1.7)
hvor X (n × p) er en observeret matriks af p responsvariable, T (n × q) er en matriks
af forklarende variable af rang q, B (q × p) er en matriks af ukendte regressionspara-
metre og U (n × p) er en matriks af uobserverede fejlvariable, hvis fordeling specificeres
nedenfor.
Ovenfor har de forklarende variable været faste værdier, og altså ikke været obser-
verede værdier af stokastiske variable. Det skal vi søge at frigøre os fra, og i den to-
og flerdimensionale normalfordeling har vi set regressionsmodeller med stokastiske
forklarende variable. I Lemma 5.4 (7) i Andersen [2020] gav vi følgende resultat om
den betingede fordeling af q søjler i en n × p-dimensional normalfordeling givet de
observerede værdier af de sidste p − k søjler:
Lad X ∼ Nn× p (M, In ⊗ Σ) og betragt en opdeling af X og M så
X(1) X(2) M(1) M(2)

X= og M = ,
hvor X(1) og M(1) er n × k matricer, og X(2) og M(2) er n × ( p − k ) matricer. Tilsvarende

opdeles
( )
Σ11 Σ12
Σ=
Σ21 Σ22
hvor Σ11 er en k × k matriks. Da gælder ifølge (7) Lemma 5.4:
1.1. Regressionsmodeller 7
Den betingede fordeling af X(1) givet X(2) = x(2) er

−1 −1
Nn×k (M(1) − (M(2) − x(2) )Σ22 Σ21 , In ⊗ (Σ11 − Σ12 Σ22 Σ21 )) . (1.8)
Specialtilfældet hvor M = 0 blev betragtet i Lemma 5.13 i Andersen [2020]. Der gælder
da at
X(1) |X(2) = x(2) ∼ Nn×k (x(2) B, In ⊗ Σ11·2 ), (1.9)
−1 −1
hvor B = Σ22 Σ21 og Σ11·2 = Σ11 − Σ12 Σ22 Σ21 , og vi observerede da, at (1.9) kan
opfattes som en flerdimensional multiple regressionsmodel. Hvis specielt k = 1, så
det er den betingede fordeling af første søjle, X(1) i X givet de p − 1 sidste søjler, vi
betragter, er resultatet
X(1) |X(2) = x(2) ∼ Nn (x(2) β, In ⊗ σ11·2 ), (1.10)

−1 −1 −1 −1
hvor β = Σ22 Σ21 = Σ22 σ(1) og σ11·2 = σ11 − σ(∗1) Σ22 σ(1) = Σ11 − Σ12 Σ22 Σ21 , idet σ(1)
i det tilfælde betegner den første (og eneste) søjle i Σ21 . Modellen i (1.10) er altså den
multiple regressionsmodel i (1.4) (med k = p − 1, T = x(2) og σ2 = σ11·2 ). Vi viser i
Opgave 1.9, at ovenstående ræsonnement holder generelt i en lineær normal model,
og altså ikke kun når M = 0.
Selv om vi som udgangspunkt har en model med stokastiske forklarende variab-
le, ender vi i velkendte regressionsmodeller, når vi betragter den betingede fordeling
givet den observerede værdi af de forklarende variable. Den statistiske behandling er
derefter som af de sædvanlige regressionsmodeller, men fortolkningen af resultaterne
er, at de gælder i den betingede fordeling givet den observerede værdi af de forklaren-
de variable.
En vigtig egenskab ved modellerne (1.9) og (1.10) er, at i den betingede fordeling af
observationerne givet den observerede faste værdi x(2) af de forklarende variable, er
observationerne (det vil sige rækkerne i henholdsvis X(1) og x(1) ), uafhængige og har
samme kovariansmatriks. Denne egenskab vil vi holde fast i, når vi nu slækker på mo-
dellens forudsætninger. Dog bliver uafhængige til ukorrelerede, når vi ikke kræver nor-
malfordeling af fejlleddene. Da regressionsmodellerne blev indført, var de forklarende
variabel faste tal, men meget ofte bliver de forklarende variable registreret sammen
med responserne, og det er vanskeligt at fastholde illusionen, at de er faste variable.
Løsningen er opfatte de forklarende variable som observerede værdier af stokastiske
variable og fortolke analyserne og resultaterne af dem i den betingede fordeling givet
de observerede værdier af de forklarende variable.
Vi vil nu specificere mulige fordelingsantagelser, som man kan betragte for multiple
regressionsmodeller og vil derfor nu, og i resten af afsnittet, opskrive den multiple
regression i (1.6) opskrevet ved hjælp af stokastiske vektorer
X = Tβ + U, (1.11)
hvor X (n × 1) er en observeret responsvariabel, T (n × q) er en matriks af forklarende

variable af rang q, β (q × 1) er en vektor af ukendte parametre og U (n × 1) er vektoren
af uobserverede fejlled.
Vi kan skelne mellem fire scenarier bestemt ved om T er stokastisk eller fast og af
to forskellige antagelser om fordelingen af U:
(1.1) T er ikke-stokastisk, og U ∼ Nn (0, σ2 In ).

(1.2) T er ikke-stokastisk, og fejlvariablene Ui , i = 1, . . . , n ukorrelerede og har mid-
delværdi 0 og samme varians σ2 . Vi skriver dette således:
E(Ui ) = 0, Cov(Ui , Uj ) = 0, i 6= j, Var(Ui ) = σ2 . (1.12)
(1.3) T er stokastisk, og U|T = T0 ∼ Nn (0, σ2 In ).

(1.4) T er stokastisk, og i den betingede fordeling givet T = T0 er fejlvariablene Ui , i =
1, . . . , n ukorrelerede og har middelværdi 0 og har samme varians σ2 . Vi skriver
dette således:
E(Ui |T) = 0, Cov(Ui , Uj |T) = 0, i 6= j, Var(Ui |T) = σ2 . (1.13)
Helt tilsvarende kan vi i den flerdimensionale multiple regressionsmodel (1.7) identi-

ficere de samme fire scenarier som ovenfor
(2.1) T er ikke-stokastisk, og U ∼ Nn× p (0, In ⊗ Σ).
(2.2) T er ikke-stokastisk, og fejlvariablene Ui , (de transponerede rækker i U) i =
1, . . . , n ukorrelerede og har middelværdi 0 og samme kovarians Σ. Vi skriver
dette således:
E(Ui ) = 0, Cov(Ui , U j ) = 0, i 6= j, Var(Ui ) = Σ. (1.14)
(2.3) T er stokastisk, og U|T = T0 ∼ Nn× p (0, In ⊗ Σ).

(2.4) T er stokastisk, og i den betingede fordeling givet T = T0 , er fejlvariablene Ui ,
(de transponerede rækker i U) i = 1, . . . , n ukorrelerede og har middelværdi 0
og samme kovariansmatrix Σ. Vi skriver dette således:
E(Ui |T) = 0, Cov(Ui , U j |T) = 0, i 6= j, Var(Ui |T) = Σ. (1.15)
1.2 Mindste kvadraters metode

1.2.1 Sædvanlig mindste kvadraters metode (OLS)
Betragt den multiple regressionsmodel
X = Tβ + U, (1.16)
hvor U (n × 1) er vektoren af fejlled, T (n × q) er en kendt matriks af rang q, og β (q × 1)
er en vektor af ukendte parametre. Om fordelingen af fejlled antager vi kun, at
E(U) = 0, Var(U) = Ω. (1.17)
1.2.1. Sædvanlig mindste kvadraters metode (OLS) 9
Definition 1.1 Den sædvanlige mindste kvadraters estimator for β i modellen (1.16)
er givet ved
β̂ = (T∗ T)−1 T∗ X (1.18)
N
Den engelske betegnelse er ordinary least squares estimator med tilhørende forkortelse
OLS. Denne forkortelse bruges så ofte i litteraturen, herunder i vejledninger til statisti-
ske programpakker, at vi også vil bruge den forkortelse – og allerede har brugt den i
overskriften. Ved at differentiere kvadratsummen
kX − Tβk2 = (X − Tβ)∗ (X − Tβ), (1.19)
og sætte lig 0, fås normal-ligningerne
T∗ T β̂ = T∗ X , (1.20)
og ved at løse disse fås (jævnfør Opgave 1.1) at β̂ minimerer kX − Tβk2 og derfra
kommer navnet.
Bemærk, at β̂ præcis er maksimum likelihood estimatoren for β under antagelsen,
at fejlleddene er normalfordelt med middelværdi 0 og samme varians (scenarie (1.1
side 8)), det vil sige
U ∼ Nn (0, σ2 In ). (1.21)
OLS estimatoren er middelværdiret (engelsk: unbiased), da
E( β̂) = (T∗ T)−1 T∗ [Tβ + E(U)] = β. (1.22)
Endvidere er
Var( β̂) = (T∗ T)−1 (T∗ ΩT)(T∗ T)−1 . (1.23)
Hvis specielt Ω = σ2 In , bliver udtrykket for kovariansmatricen for β̂ simpelthen
Var( β̂) = σ2 (T∗ T)−1 . (1.24)
Bemærk, at OLS estimatoren jvf. (1.18) er en lineær funktion af X, og som sådan er den
en lineær estimator. En generel lineær estimator vil være på formen β̃ = AX for en
q × n matriks A. Hvis Ω = σ2 In har vi følgende optimalitetsegenskab:
Theorem 1.2 (Gauss-Markov) Betragt den multiple regressionsmodel (1.16) og antag,
at fejlleddene er parvis ukorrelerede, Var U = σ2 In . Lad β̃ være en vilkårlig lineær
unbiased estimator for β. Da gælder at Var β̃ − Var β̂ positiv semidefinit.
Beviset for Gauss-Markovs resultat er skitseret i Opgave 1.2.

Bemærkning 1.3 I Afsnit A.1.13 i Andersen [2020] indførte vi notationen C ≥ 0 til at
indikere at matricen C var positiv-semidefinit. Med denne notation siger resultatet i
1.2 at under de givne betingelser er Var β̃ ≥ Var β̂. H
Målt ud fra kriteriet, at en god estimator har lille varians, er OLS estimatoren altså
den bedste. Da den også er unbiased, er den altså den bedste lineære unbiased estimator
(BLUE).
1.2.2 Generaliseret mindste kvadraters metode (GLS)

Når kovariansmatricen for U ikke er lig med σ2 In , så er OLS estimatoren ikke i almin-
delighed den bedste lineære unbiased estimator. Men hvis kovariansmatricen for U er
kendt, kan man lave en transformation, så OLS kan bruges.
Lad
E(U) = 0, Var(U) = Ω,
og da Ω er kendt, kan man i stedet for (1.16) betragte den transformerede model
Z = Ω− ⁄2 Tβ + V,
1
(1.25)
hvor
Z = Ω− ⁄2 X, V = Ω− ⁄2 U.
1 1
Da Var(V) = In , opfylder den transformerede model forudsætningerne i Gauss-Mar-

kovs sætning (Sætning 1.2), og det bedste lineære unbiased estimat for β er givet ved
β̂GLS = (T∗ Ω−1 T)−1 T∗ Ω− ⁄2 Z = (T∗ Ω−1 T)−1 T∗ Ω−1 X
1
(1.26)
og kovariansmatricen for β̂GLS er
Var( β̂GLS ) = (T∗ Ω−1 T)−1 . (1.27)
Estimatoren, der defineres i (1.26), hedder på engelsk the generalized least squares (GLS)
estimator, fordi den ikke kan beregnes ud fra data. Den er en oplagt generalisering af
OLS estimatoren, og den er BLUE. Dette kan også vises direkte, se Opgave 1.3.
Hvis Ω ikke er kendt, er (1.26) ikke en estimator, da en estimator ikke må afhænge

af ukendte parametre. I nogle sammenhænge har man en konsistent estimator for Ω̂
for Ω, og så bruger man estimatoren i (1.26) med Ω̂ i stedet for Ω.
1.2.3 Anvendelser på flerdimensional multipel regression

Flerdimensional multipel regression er et eksempel, hvor OLS og GLS giver de samme
estimatorer. Skrives den flerdimensionale regressionsmodel (1.7) på vektorform
XV = (TB)V + UV = (T ⊗ I p )BV + UV , (1.28)
hvor vi har benyttet Lemma 5.3 i Andersen [2020]. Vi antager, at vi er i scenarie (2.2)
side 8, og så har fejlleddet UV kovariansmatrix
Var UV = Ω = In ⊗ Σ .

Så er GLS estimatoren, B̂V , for BV givet ved

n ∗ o −1 ∗
B̂V = T ⊗ I p (In ⊗ Σ) −1 T ⊗ I p T ⊗ I p ( I n ⊗ Σ ) − 1 XV

(1.29)
= ( T ∗ T ) − 1 T ∗ ⊗ I p XV .

(1.30)
Bemærk, at (1.30) ikke afhænger af Σ og dermed definerer en estimator, uanset om Σ er
kendt eller ikke. Når Σ = I p , er (1.29) OLS estimatoren, så OLS og GLS estimatorerne
er de samme i dette tilfælde. Yderligere er (1.30) identisk med maksimum likelihood
estimatoren for B, når fejlleddene er normalfordelt.
1.2.4. Konsistens af mindste kvadraters estimatorer 11
1.2.4 Konsistens af mindste kvadraters estimatorer

Når man forlader antagelsen om normalitet af fejlleddene, mister man muligheden for
at angive eksakt fordeling for estimatorer. Det bedste man kan gøre er at forlade sig på
asymptotiske resultater, det vil sige se på om estimatoren har ønskværdige egenskaber,
når stikprøvestørrelsen går mod uendelig.
Lad os se på den asymptotiske opførsel af GLS estimatoren, så vi betragter en føl-
ge t1 , t2 , . . ., tn , . . . af faste q-dimensionale forklarende variable og en uendelig følge af
fejlled u1 , u2 , . . . , un , . . .. Vi sætter Tn = {t1 · · · tn }∗ , Un = (u1 , u2 , . . . , un )∗ . Uanset n
holder modelligningen i (1.16):
Xn = Tn β + Un , (1.31)
og GLS estimatoren er
β̂GLS
n = (T∗n Ω− −1 ∗ −1
n Tn ) Tn Ω n Xn
1
(1.32)
med E( β̂GLS GLS er
n ) = β, og kovariansmatricen for β̂ n
∗ −1 −1
n ) = (Tn Ω n Tn ) .
Var( β̂GLS (1.33)
Hvis følgende betingelse om Var( β̂GLS

n ) er opfyldt:
(T∗n Ω− 1
n Tn )
−1
→ 0, for n → ∞, (1.34)
vil β̂GLS
n være konsistent, det vil sige konvergere i sandsynlighed mod β,
P
β̂GLS
n −→ β for n → ∞. (1.35)
Se Definition 1.4 og Bemærkning 1.7 for definitionen af konvergens i sandsynlighed.

Hvis de forklarende variable ti er stokastiske men ukorrelerede med fejlleddene, vil
resultaterne i Afsnit 1.2.1 og 1.2.2 stadig holde, men med fortolkningen at alle middel-
værdier og kovariansmatricer er i den betingede fordeling givet T. Vi antager specielt,
at
E(Un |Tn ) = 0, Var(Un |Tn ) = Ωn , (1.36)
hvor Ωn ikke afhænger af Tn . Så vil
∗ −1 −1
n |Tn ) = (Tn Ω n Tn ) ,
Var( β̂GLS (1.37)
og hvis denne konvergerer i sandsynlighed mod 0, det vil sige at betingelsen (1.34)
erstattes med
−1 P
(T∗n Ω− 1
n Tn ) −→ 0, for n → ∞, (1.38)
vil β̂GLS
n være konsistent. Beviset for konsistens af β̂GLS
n , når (1.38) gælder, er skitseret i
Opgave 1.6.
Hvis betingelserne (1.34) eller (1.38) sikrer, at β̂GLS
n er konsistent, er næste spørgs-
mål: „Hvornår holder (1.34) eller (1.38)?“
Hvis Ψ (q × q) er invertibel, så vil betingelsen
1 ∗ −1
n Tn Ω n Tn → Ψ, for n → ∞, (1.39)
medføre (1.34), og betingelsen
1 ∗ −1 P
n Tn Ω n Tn −→ Ψ, for n → ∞, (1.40)
vil medføre (1.38).

Hvis Ωn = In og rækkerne i Tn for alle n er en observationsrække fra en fordeling
med middelværdi µ og kovariansmatrix Σ, så holder (1.40) med Ψ = Σ + µµ∗ .
1.3 Regularisering - ridge regression

Sætning 1.2 siger at OLS-estimatoren er optimal blandt de lineære middelværdirette
estimatorer. I dette afsnit vil vi demonstrere, at det godt kan være problematisk kræve
at ens estimator skal være middelværdiret, og vi skal komme med en løsning på pro-
blemerne i form af den såkaldte ridge estimator. Vi vil kun give de mest basale resultater
- yderligere resultater findes i van Wieringen [2015].
Betragt en multipel regression på formen X = Tβ + U hvor T (n × q) er en ikke-
stokastisk matriks af forklarende variable af rang q, β (q × 1) er en vektor af ukendte
parametre og U (n × 1) er vektoren af fejlled. Om fejlleddene U = (U1 , . . . , Un )∗ anta-
ges det at
E(Ui ) = 0, Cov(Ui , Uj ) = 0, i 6= j, Var(Ui ) = σ2 .
Som vi så i Afsnit 1.2.1 findes OLS estimatoren ved at minimere kvadratsummen
kX − Tβk2 , (1.41)
og vi så i (1.24) at kovariansmatricen på β̂ under de givne forudsætninger er
Var( β̂) = σ2 (T∗ T)−1 . (1.42)
Idet vi betegner det (i, j)te element i (T∗ T)−1 med cij vil variansen på den j-te kompo-
nent i β, d.v.s. β j , være
σ2 c jj .
Vi vil nu omtale hvad der kan ske, når matricen T∗ T “næsten” er singulær, hvilket ind-
træffer når søjlerne i T “næsten” er lineært afhængige. Man kan naturligvis præcisere,
hvad ordet “næsten” dækker over i denne sammenhæng, men vi vil nøjes med at illu-
strere dette med et eksempel. Lad j være en n-dimensional søjlevektor, hvis indgange
alle er 1 og lad t ∈ Rn opfylde at j∗ t = 0 samt t 6= 0. Overvej, at dette medfører at vek-
torerne t og t + ej er lineært uafhængige for alle e > 0, samtidigt med at det er intuitivt
rimeligt at tænkte på de to vektorer, som værende “næsten” lineært afhængige for små
værdier af e. Betragt en designmatriks T, defineret ved
def
T = Te = t t + ej .
Ved direkte udregning fås at diagonalindgangene i matricen (T∗ T)−1 er
1 1 1
c11 = 2
+ ∗ og c22 = .
ne t t ne2
1.3. Regularisering - ridge regression 13
Vi ser altså, at variansen for estimaterne af komponenterne i β vil eksplodere, når e går
mod nul. En metode til at håndtere dette er at finde en estimator, hvis kvadratlængde
ikke bliver for stor og man tilføjer derfor et ekstra led til (1.41) og betragter funktionen
def
L( β) = kX − Tβk2 + λk βk2 , (1.43)
for et kendt λ > 0. Idéen er, at det ekstra led “straffer” β-er med stor kvadratlængde,
således at man ved minimering får et β med mindre kvadratlængde end ved minime-
ring af residualkvadratsummen alene. Jo større lambda er, jo større er denne effekt, og
vi ser nedenfor at vi i en hvis forstand kan styre variansen på vores estimator.
I Opgave 1.11 vises det, at L fra 1.43 minimeres af den såkaldte ridge estimator.
def −1
βbridge = T∗ T + λIq T∗ X , (1.44)
samt at denne opfylder at

−1
ridge ∗ −1
Eβ
b = Iq + λ (T T ) β, (1.45)
og dermed er biased som estimator for β. Endvidere gælder der at

−1 −1
Var βbridge = Iq + λ(T∗ T)−1 σ 2 (T∗ T ) −1 Iq + λ (T∗ T ) −1 , (1.46)
og vi ser at Var βbridge → 0 for λ → ∞. Endvidere giver direkte udregning at

−1 −1
Var( βbOLS ) − Var βridge = σ2 T∗ T + λIq ) 2λIq + λ2 (T∗ T)−1 T∗ T + λIq )
og da alle faktorerne på højresiden er ikke-negativ definit, ses at
Var βbOLS ≥ Var βbridge ,
og kovariansmatricen for βbridge er i denne forstand mindre end kovariansmatricen for

Var βbOLS . Ridge estimatoren løser i denne forstand problemet med at variansen på
OLS-estimatoren blev for stor - men dette sker altså på bekostning af at estimatoren
er biased. Dette omtales som et såkaldt “variance-bias trade-off” og spørgsmålet er
så, om ridge estimatoren er “bedre” end OLS estimatoren. Svaret på dette afhænger
naturligvis af hvilket kriterie som benyttes når de to estimatorer sammenlignes. En
kvantitativ måde at sammenligne to estimatorer er “Mean Squared Error” (MSE). For
en generel estimator θ̂ for en parmeter θ er MSE defineret ved
MSE(θ̂) = E[(θ̂ − θ)∗ (θ̂ − θ)]
og vi ser at
MSE(θ̂) = tr Var(θ̂) + bias(θ̂)∗ bias(θ̂) .
Bemærk, at når parameteren er 1-dimensional er
MSE(θ̂ ) = Var(θ̂ ) + bias(θ̂ )2 .

Udtrykkene i (1.3) og omtales som “variance-bias”-dekompositionen af MSE . Det er

vist i [Hoerl and Kennard, 1970, Theorem 4.3], at der findes et λ > 0 således at

MSE βbridge (λ) < MSE βbOLS .
Det skal dog med det samme bemærkes at λ i ovenstående resultatet afhænger af både
β og σ2 og derfor som udgangspunkt ikke kan beregnes ud fra data.
Vi har i dette afsnit kun beskæftiget os med de helt basale egenskaber vi ridge-
estimatoren og dennes relation til OLS-estimatoren, og slutter af med en række be-
mærkninger, som er vigtige at vide hvis I støder på ridge estimatoren senere I jeres
studie.
1◦ Vi har ovenfor fundet βbridge ved at minimere (1.41) plus et “straf-led”. Man kan
ækvivalent udlede βbridge som løsning til et minimeringsproblem med bibetingel-
ser (engelsk: Constrained minimization problem):
arg min kX − Tβk . (1.47)

k β k2 ≤ c
Ækvivalensen skal forstås således at for et givet λ > 0 findes et c > 0 således
løsningen til mineringeproblemet (1.43) (med λ) er identisk med løsningen til
minimeringsproblemet (1.47) (med c).
2◦ Vi har i dette afsnit antaget at T har fuld rang, men det er værd at bemærke at
ridge estimatoren fra (1.44) er veldefineret selvom T ikke har fuld rang.
3◦ Vi indførte i dette afsnit ridge estimatoren ud fra ønsket om at begrænse varian-

sen på OLS-estimatoren, og vi demonstrerede at denne kunne eksplodere når to
søjler i designmatricen for “næsten” lineært afhængige. Man siger at to sådanne
søjler er kolineære (engelsk: colinear). Kolineære søjler kan opstå, når man inddra-
ger “for mange” forklarende variabel i sin model, hvilet kaldes overfitting, og med
store datamængder er der en særlig stor risiko for overfitting. Ridge-regression
er altså også et eksempel på hvordan man kan håndtere overfitting.
4◦ I praksis standardiseres de variable ofte, inden man tilføjer strafledet. Derved

undgås, and “store” variable kommer til at dominere standardiseringen.
5◦ Strafledet er L2 -normen af β og man taler for om “L2 -regularisering”.
1.4 Supplement til Kapitel 4

1.4.1 Konvergens i sandsynlighed og i fordeling
Her samler vi for bekvem reference nogle definitioner og regneregler for konvergens-
begreber, som ofte benyttes.
Lad X og Y være stokastiske variable, og lad X1 , . . . , Xn , . . . , og Y1 , . . . , Yn , . . . , be-
tegne følger af stokastiske variable.
1.4.1. Konvergens i sandsynlighed og i fordeling 15
Definition 1.4 (Konvergens i sandsynlighed) Xn konvergerer i sandsynlighed mod c ∈ R,

hvis
∀e > 0 P(| Xn − c |≥ e) → 0. for n → ∞. (1.48)
P
Vi skriver Xn −→ c, når Xn konvergerer i sandsynlighed mod c. N
Bemærkning 1.5 For en følge af p-dimensionale stokastiske vektorer, xn = ( Xn1 , . . . ,

Xnp )∗ er konvergens i sandsynlighed mod en fast vektor c = (c1 , . . . , c p ) defineret som
i (1.48), blot med normen | · | erstattet af den euklidiske norm k · k.
Konvergens i sandsynlighed af en følge af matricer af stokastiske variable er her-
med også dækket, idet vi i denne situation opfatter matricer som vektorer. Anderledes
formuleret er konvergens i sandsynlighed af matricer dækket, idet vi benytter den så-
def
kaldte Frobenius norm af en matriks A = { aij } : kAk2 = ∑ij a2ij = tr A∗ A. Konvergens
i sandsynlighed af xn mod c er ækvivalent med konvergens i sandsynlighed af hver
koordinat Xni mod ci . H
Definition 1.6 (Konvergens i fordeling) Xn konvergerer i fordeling mod X, hvis forde-

lingsfunktionerne for Xn konvergerer mod fordelingsfunktionen for X:
FXn ( x ) → FX ( x ) (1.49)
∼
for ethvert x, hvori FX er kontinuert. Vi skriver Xn −→ X, når Xn konvergerer i forde-
ling mod X. N
∼
Bemærkning 1.7 Når Xn −→ X benytter vi ofte fordelingsfunktionen for X til at be-
regne sandsynligheden for hændelser vedrørende Xn , især når Xn er en teststørrelse
med en ukendt fordeling, og vi ønsker at beregne testsandsynligheden baseret på Xn .
I de sammenhænge benytter vi ofte sprogbrugen „Xn er asymptotisk FX -fordelt“; for
eksempel i vendinger som „Xn er asymptotisk normalfordelt“ eller „Xn er asymptotisk
χ2 -fordelt“; H
Definition 1.8 (Asymptotisk ækvivalens) To følger X1 , . . . , Xn , . . . og Y1 , . . . , Yn , . . . af

P ∼
stokastiske variable kaldes asymptotisk ækvivalente, hvis Xn − Yn −→ 0. Vi skriver Xn ←
→
Yn , når Xn og Yn er asymptotisk ækvivalente. N
Bemærkning 1.9 Det følger af den første af regnereglerne i Bemærkning 1.10, at hvis
∼ ∼ ∼
Xn −→ X og Xn ← → Yn , så vil Yn −→ X.
Denne enkle iagttagelse er et vigtigt element i mange beviser for konvergens i for-
deling af en følge af stokastiske variable. Man viser, at den er asymptotisk ækvivalent
med en anden følge af stokastiske variable, hvis asymptotiske fordeling man kender.H
Bemærkning 1.10 Følgende to regneregler for konvergens i fordeling og konvergens i

sandsynlighed er meget nyttige.
∼ P

Lad Xn −→ X, Yn −
 → Y, hvor Y er degenereret, og lad f ( · , · )
(i) være en kontinuert funktion.
∼


Så gælder, at f ( Xn , Yn ) −→ f ( X, Y ).

P P
Lad Xn − → X, Yn − → Y, og lad f ( · , · ) være en kontinuert funk-


(ii) tion.

 P
Så gælder, at f ( Xn , Yn ) −
→ f ( X, Y ).

De store tals love og de centrale grænseværdisætninger er de helt uundværlige hjæl-

pemidler i forbindelse med konvergens i sandsynlighed og konvergens i fordeling i
statistiske anvendelser.
Ofte bruges regnereglerne til at kombinere resultater, som netop følger af en stor
tals lov eller en central grænseværdisætning. H
1.4.2 Konvergens i sandsynlighed og i fordeling: statistiske

begreber
Definition 1.11 (Konsistens af estimator) Lad T1 , . . . , Tn , . . . være en følge af stokasti-
ske variable, hvor Tn er en estimator for en parameter θ for ethvert n. Følgen siges at
P
være en konsistent estimator for θ, hvis Tn −→ θ. N
Ideen i konsistens er, at jo flere observationer man har, desto tættere skal estimato-
ren være på den ukendte parameter. Aspektet med det voksende antal observationer
fremgår ikke tydeligt af definitionen, men illustreres i det følgende.
Bemærkning 1.12 (Uafhængige identisk fordelte observationer) Lad Y1 , . . . , Yn , . . ., væ-
re en følge af uafhængige og identisk fordelte stokastiske variable med parameter
(θ, ψ). Lad Tn være en estimator for θ baseret på de første n observationer, det vil sige
at Tn er en funktion af Y1 , . . . , Yn . H
Example 1.13.
Normalfordelingen kan bruges til at illustrere Bemærkning 1.12.
Lad Y1 , . . . , Yn , . . . , være en følge af uafhængige identisk normalfordelte stokastiske
variable, N (µ, σ2 ).
Da er
1 n
Tn = Ȳ·n = ∑ Yi
n i =1
en konsistent estimator for middelværdien µ. Man ser, at Tn for ethvert n er „samme“
funktion af Y1 , . . . , Yn , nemlig gennemsnittet. Derfor siger man også i denne situation,
at gennemsnittet er en konsistent estimator for middelværdien.
Tilsvarende er
1 n
T̃n = σ̂n2 = ∑ (Yi − Ȳ·n )2
n i =1
1.4.2. Konvergens i sandsynlighed og i fordeling: statistiske begreber 17
en konsistent estimator for variansen σ2 . Også her er estimatoren T̃n for ethvert n den
„samme“ funktion af Y1 , . . . , Yn , nemlig variansen i den empiriske fordelingsfunktion
baseret på Y1 , . . . , Yn , og man siger derfor, at variansen i den empiriske fordelingsfunk-
tion er en konsistent estimator for variansen.
I Opgave 1.7 viser vi, at den empiriske varians
n
n 1
n − 1 i∑
T̃n = (Yi − Ȳ·n )2
n−1 =1
også er en konsistent estimator for variansen.

Litteratur
Lars Nørvang Andersen. Multivariat Statistisk Analyse. Institut for Matematiske Fag,
2020.
Arthur E Hoerl and Robert W Kennard. Ridge regression: Biased estimation for no-
northogonal problems. Technometrics, 12(1):55–67, 1970.
Wessel N. van Wieringen. Lecture notes on ridge regression, 2015.
19
Opgaver til Kapitel 1
Exercise 1.1 Vis, at
β = β̂ = (T∗ T)−1 T∗ X
minimerer kvadratsummen
(X − Tβ)∗ (X − Tβ).
Exercise 1.2 (Her vises Gauss-Markov resultatet formuleret i Sætning 1.2.) Lad β̃ =
AX, hvor A er en q × n matriks, være en vilkårlig lineær estimator for β og antag, at X
opfylder den multiple regressionsmodel
X = Tβ + U,
hvor U (n × 1) er vektoren af fejlled, og T (n × q) er en kendt matriks af rang q. Om

fordelingen af fejlled antager vi kun, at
E(U) = 0, Var(U) = Ω.
β̂ betegner OLS estimatoren i (1.18).

(1) Vis, at β̃ er unbiased (d.v.s. opfylder E β̃ = β for alle β), hvis AT = Iq , og bekræft
dermed (1.22).
(2) Vis, at Var( β̃) = AΩA∗ , og bekræft dermed (1.23).
(3) Vis, at β̃ = β̂ + CX, hvor C = A − (T∗ T)−1 T∗ , og dermed at β̃ er unbiased, hvis
og kun hvis CT = 0.
Antag nu, at β̃ er en unbiased estimator og Ω = σ2 In .
(4) Vis, at
h i h i
∗ ∗ ∗

E ( β̃ − β)( β̃ − β) = E ( β̃ − β̂)( β̃ − β̂) + E ( β̂ − β)( β̂ − β) ,
og dermed at β̂ har en mindre kovariansmatriks end enhver anden unbiased esti-

mator. (Dette viser Gauss-Markov resultatet formuleret i Sætning 1.2.)
Exercise 1.3 Lad β̃ = AX, hvor A er en q × n matriks, være en vilkårlig lineær estima-
tor for β og antag, at X opfylder den multiple regressionsmodel
X = Tβ + U,
hvor U (n × q) er vektoren af fejlled, og T (n × q) er en kendt matriks af rang q. Om

fordelingen af fejlled antager vi kun, at
E(U) = 0, Var(U) = Ω.
Så er β̂GLS givet ved

β̂GLS = (T∗ Ω−1 T)−1 T∗ Ω−1 X
(1) Vis, at β̃ = β̂GLS + CX, hvor C = A − (T∗ Ω−1 T)−1 T∗ Ω−1 , og dermed at β̃ er
unbiased, hvis og kun hvis CT = 0.
21
22 OPGAVER
(2) Vis, at hvis β̃ er unbiased, så er dens kovariansmatriks større end eller lig med
kovariansmatricen for β̂GLS .
Exercise 1.4 Antag, at X ∼ Nn (Tβ, Ω) med kendt og regulær kovariansmatriks Ω.

(1) Vis, at GLS estimatoren, β̂GLS , er lig med maksimum likelihood estimatoren for β,
og at β̂GLS ∼ Nq ( β, (T∗ Ω−1 T)−1 ).
Exercise 1.5 Vis, at β̂GLS er konsistent i tilfældet med faste forklarende variable, når
betingelsen (1.34) om Var( β̂GLS
n ) er opfyldt, det vil sige:
∗ −1 −1
n ) = (Tn Ω n Tn )
Var( β̂GLS → 0, for n → ∞.
Exercise 1.6 Her vises konsistens af β̂GLS under betingelserne (1.36) og (1.38), det vil
sige betingelserne
E(Un |Tn ) = 0, Var(Un |Tn ) = Ωn ,
hvor Ωn ikke afhænger af Tn , og
P
(T∗n Ω− 1
n Tn )
−1
−→ 0, for n → ∞.
Da konvergens i sandsynlighed af en vektor er ækvivalent med konvergens i sandsyn-

lighed af hver koordinat, ser vi på konvergensen af koordinaterne β̂GLS
n,i , for i = 1, . . . , q.
(1) Vis, at
∗ −1 −1
E( β̂GLS
n |Tn ) = β, n |Tn ) = (Tn Ω n Tn ) .
Var( β̂GLS
(2) Lad σnii betegne (i, i )te element af (T∗n Ω− 1 −1
n Tn ) , og brug Chebyshevs ulighed til
at vise, at
σnii
P(| β̂GLS
n,i − β i | > e | T n ) < .
e2
(3) Vis, at for alle e > 0 og alle δ > 0 er
ii ii ii
P(| β̂GLS GLS
n,i − β i | > e ) ≤ P (| β̂ n,i − β i | > e | σn < δ ) P ( σn < δ ) + P ( σn ≥ δ ),
n,i − β i | > e ) → 0, for n → ∞.

og slut heraf, at P(| β̂GLS
Exercise 1.7 Her betragtes situationen i Bemærkning 1.13.

Lad Y1 , . . . , Yn , . . . , være en følge af uafhængige identisk normalfordelte stokastiske
variable, N (µ, σ2 ).
(1) Vis, at
1 n
n i∑
Tn = Ȳ·n = Yi
=1
er en konsistent estimator for µ.
(2) Vis, at
1 n
n i∑
T̃n = σ̂n2 = (Yi − Ȳ·n )2
=1
er en konsistent estimator for σ2 .
OPGAVER 23
Antag nu, at Y1 , . . . , Yn , . . . , være en følge af uafhængige identisk fordelte stokastiske

variable med middelværdi µ og varians σ2 > 0.
(3) Vis, at Tn i (1) er en konsistent estimator for µ.

(4) Vis, at T̃n i (2) er en konsistent estimator for σ2 .
n
(5) Vis, at n−1 T̃n også er en konsistent estimator for σ2 .
Exercise 1.8 Lad Y1 , . . . , Yn , . . . , være en følge af uafhængige identisk normalfordelte

stokastiske variable, N (µ, σ2 ).
(1) Vis, at t-teststørrelsen

√ Ȳ·n − µ
Tn = nq
n 2
n−1 σ̂n
er asymptotisk N (0, 1) fordelt.

(2) Opgiv antagelsen om normalfordeling, og antag blot, at Y1 , . . . , Yn , . . . , være en
følge af uafhængige identisk fordelte stokastiske variable med endelig middel-
værdi og varians > 0. Vis, at under disse antagelser er Tn stadig asymptotisk nor-
malfordelt.
Bemærkning til Opgave 1.8

I (1), når Y1 , . . . , Yn , . . . , er normalfordelte – udover at være uafhængige og identisk
fordelt – ved vi at Tn ∼ t(n − 1), og det vil i dette tilfælde være mere korrekt at bruge
t fordelingen end normalfordelingen til at udregne sandsynligheder baseret på Tn .
I (2), når normalfordelingsantagelsen forlades, vil Tn stadig under visse betingelser
være asymptotisk normalfordelt. Men inspireret af iagttagelsen ovenfor får man den
idé, at det nok er bedre at bruge t(n − 1) fordelingen end normalfordelingen til at
approksimere fordelingen til Tn . Det kan man så få bekræftet i simulationsstudier, og
det viser sig, at t(n − 1) fordelingen er en god approksimation til fordelingen af Tn
også når Y1 , . . . , Yn , . . . , kun er uafhængige og identisk fordelt. Man udtrykker det ved
at sige, at t testet er robust overfor antagelsen om normalfordeling.
Exercise 1.9 Lad X følge en lineær normal model specificeret ved underrummet L med
dimension d og tilhørende ortogonal projektion P:
M1 : X ∼ Nn× p (M, In ⊗ Σ), med PM = M .
og lad Σ være opdelt som

( )
Σ11 Σ12
Σ= ,
Σ21 Σ22
hvor Σ11 er en q × q matrix.
Lad T betegne en n × d-dimensional designmatrix for M1 , det vil sige en matriks som
opfylder at søjlerummet udspænder L, col(T) = L. Som vi har set I Eksempel 5.13 i
Andersen [2020] kan modellen ækvivalent formuleres som
X ∼ Nn× p (TB, In ⊗ Σ). (1.50)

24 OPGAVER
hvor B er en d × p matriks af ukendte regressionskoefficienter. Lad B være opdelt

B = B(1) B(2) ,

hvor B(1) er d × q. Lad x(2) betegne en fast n × ( p − q)-dimensional matriks.
1◦ Vis, at
X(1) | X(2) = x(2) ∼ Nn×q ( T x(2) C, In ⊗ Σ11·2 ) ,

(1.51)
hvor C er (d + p − q) × q matricen
( )
−1
B(1) − B(2) Σ22 Σ21
C= −1
.
Σ22 Σ21
2◦ Betragt specialtilfældet én observationsrække fra den to-dimensionale normal-

fordeling. Gør rede for at indgangene i C i dette tilfælde bliver er identiske med
α og β side 87 i Andersen [2020].
Ved at opfatte C som en matriks af (nye) ukendte regressionskoefficienter ser vi alt-
så, på samme måde som i beviset for Sætning 5.14, at vi kan opfatte den betingede
fordeling i (1.51), som en flerdimensional multipel regression specificeret ved design-
def
matricen T̃ = T x(2) , og dermed som en lineær normal model specificeres ved
det lineære underrum col(T̃).
Exercise 1.10 I denne opgave udledes Mallows’ C p , der kan benyttes til at sammen-
ligne regressionsmodeller. Indledningsvist vises et resultat, som skal benyttes senere
i opgaven. Lad Y være en n-dimensional stokastisk vektor med middelværdivektor
E[Y] = µ og kovariansmatriks Var[Y] = Σ, og lad A betegne en n × n-matriks.
1◦ Vis, at
E[Y∗ AY] = tr(AΣ) + µ∗ Aµ .
Lad M1 betegne den multiple regressionsmodel

M1 : X = T1 β + U,
hvor U (n × 1) er vektoren af fejlled, T1 (n × q) er en kendt matriks af rang q, og β (q ×
1) er en vektor af ukendte parametre. Om fejlleddene antages det at U ∼ Nn (0, σ2 In ),
for σ2 > 0 og det antages at n − q > 2.
Lad p < q og lad T2 betegne en n × p matrix, som fremkommer ved at fjerne q − p
søjler fra T1 . Lad M2 betegne modellen
M2 : X = T2 γ + U,
hvor γ er en p × 1 vektor. Lad endvidere γ̂ = (T2∗ T2 )−1 T2∗ X betegne OLS-estimatoren
for γ og lad endeligt z betegne n-dimensionale stokastiske vektor
def
Z = T2 γ̂ − T1 β .
OPGAVER 25
Bemærk at Z er differencen mellem den estimerede middelværdivektor i M2 og den

sande middelværdivektor i M1 . Idéen er, at man kan vurdere modellen M2 i forhold til
M1 ved at estimere E[Z∗ Z].
2◦ Vis, at i modellen M1 gælder at
E[Z] = −(In − P2 )T1 β og Var[Z] = σ2 P2 ,
hvor P2 = T2 (T2∗ T2 )−1 T2∗ betegner den ortogonale projektion på søjlerummet for
T2 .
3◦ Vis, ved at benytte resultatet i 1◦ , at der i modellen M1 gælder at
E [Z∗ Z] = σ2 tr(P2 ) + β∗ T1∗ (In − P2 )T1 β ,
samt
E [X∗ (In − P2 )X] = σ2 tr(I − P2 ) + β∗ T1∗ (In − P2 )T1 β ,
og slut herudfra at
E [Z∗ Z] = E [X∗ (In − P2 )X] + σ2 (2p − n) .
På grund af resultatet i 3◦ estimeres middelværdien E[Z∗ Z] af
X∗ (In − P2 )X + s2 (2p − n) , (1.52)
hvor s2 er den middelværdirette estimator for σ2 i M1 , og Mallows’ C p indføres ved at

skalere udtrykket fra (1.52):
def X ∗ ( I n − P2 ) X
Cp = + (2p − n) .
s2
4◦ Vis, at
C p = (q − p)( F − 1) + p ,
hvor F betegner F-testoren for reduktionen fra modellen M1 til modellen M2 , og
vis dernæst at i modellen M2 gælder der at
2( q − p )
E[ C p ] = p + .
n−q−2
Vink:
Det må uden bevis benyttes, at hvis W ∼ F ( f 1 , f 2 ) hvor f 2 > 2 da er E[W ] =
f 2 / ( f 2 − 2).
Exercise 1.11 Lad situationen være som i Afsnit 1.3, hvor funktionen L( β) er defineret
i (1.43).
1◦ Vis, at
L( β) = X∗ X − 2X∗ Tβ + β∗ T∗ T + λIq β ,

26 OPGAVER
2◦ Vis, at L( β) minimeres for

−1
β = T∗ T + λIq T∗ X .
På grund af ovenstående resultater indføres ridge estimatoren:

def −1
βbridge = T∗ T + λIq T∗ X . (1.53)
3◦ Vis, at
−1 −1
T∗ T + λIq = Iq + λ (T∗ T ) −1 (T∗ T ) −1 ,
og vis derved at
−1
βbridge = Iq + λ(T∗ T)−1 βbOLS .
hvor βbOLS er OLS estimatoren.
4◦ Vis, at
−1
ridge ∗ −1
Eβ
b = Iq + λ (T T ) β.
og gør rede for at βbridge er biased som estimator for β.
5◦ Vis, at
−1 −1
Var βridge = Iq + λ(T∗ T)−1 σ 2 (T∗ T ) −1 Iq + λ (T∗ T ) −1 .
6◦ Antag at søjlerne i T er ortonormale. Vis, at
1 bOLS
βbridge = β .
1+λ
Kapitel 2
Simultane konfidensintervaller
2.1 Generelt om konfidensområder

Et 1 − α konfidensområde for en parameter θ ∈ Θ blev i (1.22) side 14 i notesættet
Andersen [2020] indført som
hypotesen H0 : θ = θ0 accepteres ved et signi-
C1−α (x) = {θ0 | }. (2.1)
fikanstest på niveau α på grundlag af data x
1 − α konfidensområder betegnes ofte som mængder, der med sandsynlighed 1 − α
indeholder den sande parameter θ0 uanset hvad denne er, altså, hvis X følger en sta-
tistisk model med parametermængde Θ, da vil R(X) være et 1 − α konfidensområde
dersom
Pθ0 (θ0 ∈ R(X)) = 1 − α θ0 ∈ Θ . (2.2)
Et konfidensområde, der opfylder (2.2) kan fortolkes dette ved at tænke på hypotetiske
gentagelser af eksperimentet, idet den sande værdi af parameteren da vil være inde-
holdt i (1 − α)% af konfidensområderne beregnet ved de hypotetiske gentagelser. Mere
generelt vil en følge af konfidensområder beregnet på baggrund af uafhængige ekspe-
rimenter (som ikke nødvendigvis har samme parametre, endsige parameterområder)
have den egenskab at (1 − α)% af konfidensområderne vil indeholde den tilsvarende
sande parameter.
Vi vil nu angive tilstrækkelige betingelser for hvornår betingelsen (2.1) medfører
(2.2). Vi lægger ud med at vise et relateret resultat, som er af selvstændig interesse.
Resultatet siger, at under visse betingelser vil det være tilfældet, at når en hypotese er
sand vil p-værdien, opfattet som stokastisk variabel, være uniformt fordelt på (0, 1).
Vi viser resultatet når fordelingsfunktionen FQ(X) (·) er strengt voksende og kontinuert
samtidigt med hypotesen er simpel (se Afsnit 1.4 i Andersen [2020]). Der gælder i dette
tilfælde at pobs (x) = FQ(X) ( Q(x)) = Pθ0 ( Q(X) ≤ Q(x)). Der gælder da, at
Pθ0 ( pobs (X) > α) = Pθ0 ( FQ(X) ( Q(X)) > α) =

Pθ0 ( Q(X) > FQ−(1X) (α)) = 1 − FQ(X) ( FQ−(1X) (α)) = 1 − α α ∈ (0, 1) , θ0 ∈ Θ .
Det følger nu, at under disse betingelser vil (2.1) medføre (2.2), da
Pθ0 (θ ∈ C1−α (X)) = Pθ0 ( pobs (X) > α) = 1 − α θ0 ∈ Θ .
27
28 Kapitel 2. Simultane konfidensintervaller
De angivne betingelser holder i mange tilfælde, men ikke altid. De holder, som vi har
set, når vi betragter hypoteser om middelværdivektoren i lineære normale modeller, og
vi vil i det efterfølgende ikke skelne mellem de to måde at anskue konfidensområder
på.
Vi vil nu detaljeret behandle situationen, hvor vi ønsker at angive et 1 − α konfi-
densområde for middelværdivektoren µ = (µ1 , . . . , µ p )∗ i én observationsrække fra
den p-dimensionale normalfordeling. Lad derfor
X ∼ Nn× p (M, In ⊗ Σ),
hvor M = {µ, . . . , µ}∗ , Σ er regulær og n > p. I Afsnit 5.4 i Andersen [2020] viste vi at
likelihood testet for H0 : µ = µ0 var ækvivalent med testet baseret på
T 2 (X) = n(X̄· − µ0 )∗ S−1 (X̄· − µ0 ), (2.3)
og at
T2 n − p
∼ F ( p, n − p) . (2.4)
n−1 p
Det følger da at
p ( n − 1)

∗ −1
µ0 | n(X̄· − µ0 ) S (X̄· − µ0 ) ≤ F ( p, n − p) (2.5)
( n − p ) 1− α
er et 1 − α-konfidensområde.
Example 2.1.
Betragt spinat-datasættet, som blev brugt som eksempel på et datasæt fra én observa-
tionsrække fra den todimensionale normalfordeling. Eksemplet er gennemregnet på
filen Eksempler.pdf.
Vi betragtede n = 24 målinger af x = tørstofindhold og y =bevaringsprocent for ascor-
binsyre i spinat og vi fandt estimaterne
x̄· = 10.53 ȳ· = 73.975
(2.6)
s2x = 2.594 s2y = 100.39
r = 0.6182.
Herudfra fås estimatet for kovariansmatricen og dennes inverse

2.594 9.98 −1 0.63 −0.06
S= ⇒ S =
9.98 100.39 −0.06 0.02
og dermed, ved hjælp af (2.5) at 1 − α konfidensområdet for µ = (µ x , µy ) er de µ
hvorom der gælder at
2 · 23

0.63 −0.06 10.53 − µ x
24 10.53 − µ x 73.975 − µy ≤ F0.95 (2, 22) ,
−0.06 0.02 73.975 − µy 22
og eftersom F0.95 (2, 22) = 3.44 kan denne mængde også skrives som
24 · 0.63(10.53 − µ x )2 − 48 · 0.06 · (10.53 − µ x )(73.975 − µy )
(2.7)
+ 24 · 0.02(73.975 − µy )2 ≤ 7.2 .
På Figur 2.1 er konfidensområdet indtegnet på et scatterplot af data.
2.1. Generelt om konfidensområder 29
100
90 ●
●
●
●
% bevaret ascorbinsyre
●
80 ●
● ●
●
● ●
●
70 ● ●
●
●
● ●
●
●
60
●
●
50
6 8 10 12 14 16
% tørstof i frisk spinat
Figur 2.1: Data fra Eksempel 3.1 med indtegnet konfidensområde for middelværdivek-
toren.
Der er to forhold, som begrænser de praktiske anvendelsesmuligheder af konfidens-

områder baseret på (2.5). Dels, kan man af gode grunde ikke visualisere mængderne
for p > 3, og dels er det svært at fortolke den information udtryk som (2.7) giver for
de individuelle komponenter i µ, som man ofte er interesseret i. For at imødegå sidst-
nævnte problem, kan man have lyst til at rapportere konfidensintervallerne for µ x og
µy baseret på de marginale fordelinger. Disse kan beregnes på vanlig vis ved hjælp af
størrelserne i (2.7) og
r
2.594
[10.53 ± 2.069] = [9.85, 11.21] for µ x
r 24 (2.8)
100.39
[3.975 ± 2.069] = [69.74, 78.21] for µy
24
For at belyse forholdet mellem 0.95% konfidensområdet fra (2.7) og de marginale kon-
fidensintervaller fra (2.8), er mængden [9.85, 11.21] × [69.74, 78.21] sammen med konfi-
densmængden fra (2.7) indtegnet på Figur 2.2. Det, der umiddelbart springer i øjnene
på Figur 2.2 er at der ikke er noget inklusionsforhold mellem de to indtegnede mæng-
der. Der er altså værdier af (µ0x , µ0y ) som vil blive afvist af det simultane test baseret
80
75
70
9.0 9.5 10.0 10.5 11.0 11.5 12.0
Figur 2.2: Konfidensområdet fra Figur 2.1 indtegnet sammen med rektanglet der sva-
rer til konfidensintervaller fundet ved hjælp af de marginale fordelinger. Det dobbelt-
skraverede område hvor der er overlap mellem de to mængder er præcis de værdier
af (µ0x , µ0y ) som vil blive accepteret ved både det simultane test af H : µ = 0 og begge
de marginale tests H : µ x = µ x0 og H : µy = µy0 .
på T 2 , men ikke bliver afvist af nogen af de marginale t-tests. Omvendt er der også
værdier, som bliver afvist af mindst ét af de to marginale t-tests, men som ikke bliver
forkastet af det simultane test baseret på T 2 .
I indledningen viste vi, at konfidensområderne opfattet som stokastiske mængder
havde den egenskab at de med sandsynlighed 1 − α indeholder den sande parameter,
men det er vigtigt at bemærke at denne egenskab kun holder når vi betragter et gi-
vent konfidensområde eller konfidensinterval i isolation og denne egenskab - og den
tilhørende fortolkning - kan ikke forventes at gælde, når vi betragter flere konfidens-
intervaller samtidigt. I næste afsnit vil vi råde bod på dette, ved at indføre konfidens-
intervaller som kan vises at gælde for samtlige linear kombinationer af middelværdi-
vektoren i en observationsrække fra den p-dimensionale normalfordeling.
2.2 T 2-konfidensintervaller
Vi betragter stadig modellen for én observationsrække fra Np , det vil sige
X ∼ Nn× p (M, In ⊗ Σ),
2.2. T 2 -konfidensintervaller 31
hvor M = {µ, . . . , µ}∗ og Σ er regulær og n > p. Lad b ∈ R p . Ved at benytte Lemma

def
5.4 i Andersen [2020] ser vi at Z = Xb ∼ Nn (Mb, b∗ Σb ⊗ In ), altså at Z udgør én
def def
normalfordelt observationsrække med middelværdi µ Z = b∗ µ og varians σZ2 = b∗ Σb.
For en tilhørende stikprøve x1 , . . . , xn indføres zi = b1 xi1 + · · · + b p xip , og parametrene
estimeres ved
µ Z ← z̄· = b∗ x̄·
og
σZ2 ← s2z = b∗ Sb .
Et 1 − α konfidensinterval for µ Z er givet ved

sZ sZ
µ Z | z̄· − √ t1−α/2 (n − 1) ≤ µ Z ≤ z̄· + √ t1−α/2 (n − 1) (2.9)
n n
det vil sige,

√ √
b ∗ Sb b∗ Sb
{b∗ µ | b∗ x̄· − √ t1−α/2 (n − 1) ≤ b∗ µ ≤ b∗ x̄· + √ t1−α/2 (n − 1)} . (2.10)
n n
Indfører vi
√ √
n(b∗ x̄· − b∗ µ) n(b∗ (x̄· − µ))
t (b) = √ = √ (2.11)
b∗ Sb b∗ Sb
kan (2.10) ækvivalent udtrykkes som
n o
b∗ µ | t (b )2 ≤ c 2 for c2 = t21−α/2 (n − 1) . (2.12)
Bemærk at de marginale konfidensintervaller fremkommer, ved at vælge b til at være

ei = (0, . . . , 0, 1, 0, . . . , 0). De ækvivalente opskrivninger af konfidensintervallet oven-
for er udledt for en fast værdi af b ∈ Rk , og som vi så i foregående afsnit kan vi ikke
umiddelbart fortolke disse for flere værdier af b samtidigt. Ambitionen er at komme
med et udsagn for alle b samtidigt, og i lyset af formen af (2.12) er det rimeligt at fo-
restille sig, at dette kan opnås ved at finde en større værdi af c2 end den, der er givet i
(2.12). Dette leder frem til at undersøge funktionen b 7→ t(b)2 , med henblik på at finde
dennes maksimum, samt de værdier af b som giver anledningen til dette maksimum.
Til dette formål vises følgende Korollar til Lemma A.1.
Corollary 2.2 For funktionen b 7→ t(b) indført ved hjælp af (2.11) gælder at
(b∗ (x̄· − µ))2

max t(b)2 = n max = n(x̄· − µ)∗ S−1 (x̄· − µ) = T 2 (x)
b b b∗ Sb
hvor T 2 blev indført i (2.3). Endvidere opnås maksimum for b proportional med vek-
toren S−1 (x̄· − µ).
Proof. Dette følger ved at benytte Lemma A.1 med c = b, d = (x̄· − µ) og Σ = S (som
er positiv definit med sandsynlighed 1 da n > p).
Bemærk, at hvis det simultane test for H : µ = µ0 afvises vil der mindst eksistere et b∗
så testet H : b∗ µ = b∗ µ0 ligeledes afvises.
Vi kan nu vise følgende:
Theorem 2.3 I modellen for én observationsrække fra Np , det vil sige
X ∼ Nn× p (M, In ⊗ Σ),
hvor M = {µ, . . . , µ}∗ og Σ er regulær og n > p, gælder
Pµ b∗ µ ∈ I (b ) ∀b = 1 − α

hvor
def
I (b) =
s s !
p ( n − 1) p ( n − 1)
b∗ X̄· − b∗ Sb F1−α ( p, n − p), b∗ X̄· + b∗ Sb F1−α ( p, n − p)
n(n − p) n(n − p)
Proof. Med de indførte betegnelser gælder at
n(b∗ (X̄· − µ))2 p ( n − 1)

b∗ µ ∈ I (b ) ⇔ ≤ F ( p, n − p)
∗
b Sb ( n − p ) 1− α
og det følger nu af Korollar 2.2 at
p ( n − 1)
Pµ b∗ µ ∈ I (b ) ∀b = Pµ ( T 2 (X ) ≤

F ( p, n − p)) = 1 − α .
( n − p ) 1− α
Sætning 2.3 besvarer altså spørgsmålet vedrørende hvilken værdi af c i (2.12) der skal
benyttes, hvis man ønsker et udsagn for alle b.
Benyttes Sætning 2.3 på vektorer på formen b = (0, . . . , 0, 1, 0, . . . , 0)∗ fås de såkald-
te T 2 -konfidensintervaller
s s
s11 p(n − 1) s11 p(n − 1)
x̄·1 − F1−α ( p, n − p) ≤µ1 ≤ x̄·1 + F1−α ( p, n − p) ,
n n−p n n−p
s s
s22 p(n − 1) s22 p(n − 1)
x̄·2 − F1−α ( p, n − p) ≤µ2 ≤ x̄·2 + F1−α ( p, n − p) ,
n n−p n n−p (2.13)
..
.
s s
s pp p(n − 1) s pp p(n − 1)
x̄· p − F1−α ( p, n − p) ≤µ p ≤ x̄· p + F1−α ( p, n − p) .
n n−p n n−p
Det følger umiddelbart fra Sætning 2.3 at sandsynligheden for at den bagvedliggende
stokastiske mængde indeholder den sande værdi af µ er mindst 1 − α.
2.3. Bonferroni konfidensintervaller 33
Example 2.1 (fortsat).

T 2 -konfidensintervallerne kan findes ved hjælp af estimaterne givet i (2.1) til
r
2.594
[10.53 ± 2.68] = [9.64, 11.41] for µ x
r 24 (2.14)
100.39
[3.975 ± 2.68] = [68.48, 79.46] for µy
24
Det fremgår umiddelbart, at T 2 -konfidensintervaller er bredere end de marginale kon-
fidensintervaller udledt i 2.8. Hvor meget bredere illustreres i Figur 2.3, hvoraf det
fremgår at de simultane konfidensintervaller præcis er konstrueret således at den til-
svarende kasse præcis indeholder konfidensellipsoiden.
Konfidensintervaller baseret på Sætning 2.3 er velegnede til eksplorativ dataanalyse

fordi en faglig konklusion, der drages på baggrund af at b∗ µ ∈/ I (b) altså (hvis ellers de
resterende betingelser er opfyldt) er gyldig, uanset hvor mange linearkombinationer
man prøvet først. Dette er ikke tilfældet hvis man hovedløst anvender marginale t-tests,
det vil sige
r r
sii sii
x̄·i − t1−α/2 (n − 1) ≤ µi ≤ + t ( n − 1) i = 1, . . . , p . (2.15)
n n 1−α/2
Hvor stor en fejl man risikerer at begå ved at anvende de marginale t-tests kan illustre-
res ved at antage at  

 σ11 0 . . . 0 

 0 σ22 . . . 0 
 
Σ= .. .. . . ..

 . . . . 


 0 
0 . . . σpp 
Estimatorerne, der svarer til estimaterne i (2.15), er da uafhængige for i = 1, . . . , p, så
der vil gælde at
Pµ (Konfidensintervallerne baseret på (2.15) indeholder µi , i = 1, . . . , p) = (1 − α) p
(2.16)
Hvis α = 0.05 og p = 20 er denne sandsynlighed (1 − α) p ≈ 0.36, og man skal altså
være meget tilbageholdende med at drage nogen konklusioner ud fra at een af kom-
ponenterne µi falder uden det tilhørende konfidensinterval.
Prisen som vi betaler for at kunne benytte konfidensintervaller fra (2.13) simultant,
er risikoen for at disse bliver for brede til at kunne drage nyttige konklusioner. Vi vil
i næste afsnit se på konfidensintervaller, der råder bod på dette samtidig med de kan
fortolkes simultant.
2.3 Bonferroni konfidensintervaller

Lad ( Ai )i være en tællelig mængde af hændelser. Fra sandsynlighedsteorien kendes
uligheden !
≤ ∑ P( A i )
[
P Ai
i i
80
75
70
9.0 9.5 10.0 10.5 11.0 11.5 12.0
Figur 2.3: Konfidensområdet fra Figur 2.1 indtegnet sammen med rektanglet der svarer
til de simultane T 2 -konfidensintervaller fra (2.14). Sammenlign med Figur 2.2.
der ofte går under navnene “Booles ulighed” eller “Bonferronis ulighed”. En simpel
konsekvens af uligheden er
!
≥ 1 − ∑(1 − P( Ai )) .
\
P Ai (2.17)
i i
Denne ulighed finder anvendelse i en situation, hvor man på forhånd har lagt sig fast på
nogle bestemte linear kombinationer b1∗ µ, b2∗ µ, . . . , b∗m µ som man ønsker at undersøge.
Lad nemlig Ai betegne hændelsen
( )
b∗ Sb bi∗ Sbi
p p
bi∗ X̄· − √i t1−αi /2 (n − 1) ≤ bi∗ µ ≤ bi∗ X̄· + √ t1−αi /2 (n − 1) (2.18)
n n
for αi > 0 og i = 1, . . . m. Da siger (2.17) at
m
Pµ (bi∗ µ tilhører konfidensintervallerne fra (2.18) for i = 1, . . . , m) ≥ 1 − ∑ αi .
i =1
2.3.1. Multiple tests og Family-wise error rate 35
Uligheden anvendes særligt i specialtilfældet hvor m = p, αi = α/m og bi = ei . I dette

tilfældes fås de såkaldte Bonferroni konfidensintervaller:
r r
s11 s11
x̄·1 − t1−α/(2p) (n − 1) ≤ µ1 ≤ x̄·1 + t ( n − 1)
n n 1−α/(2p)
r r
s22 s22
x̄·2 − t1−α/(2p) (n − 1) ≤ µ2 ≤ x̄·2 + t ( n − 1)
n n 1−α/(2p) (2.19)
..
.
r r
s pp s pp
x̄· p − t1−α/(2p) (n − 1) ≤ µ p ≤ x̄· p + t ( n − 1)
n n 1−α/(2p)

Bonferronikonfidensintervaller kan findes ved hjælp af estimaterne givet i (2.1), idet vi
benytter at t1−0.5/4 (23) = 2.40
r
2.594
[10.53 ± 2.40] = [9.74, 11.32] for µ x
r 24 (2.20)
100.39
[3.975 ± 2.40] = [69.07, 78.88] for µy
24
På Figur 2.4 er alle konfidensintervallerne indtegnet til sammenligning.
2.3.1 Multiple tests og Family-wise error rate

I indledningen til dette afsnit blev vi, motiveret af ønsket om fortolkelighed, drevet til
at betragte konfidensintervaller baseret på flere marginale t-tests simultant. Vi konsta-
terede, at selvom de individuelle konfidensintervaller da vil kunne fortolkes, opstår
der problemer med at fortolke intervaller simultant. Som vi også har set, kan konfi-
densintervaller ækvivalent formuleres som tests af hypoteser og de problemstillinger
som vi har behandlet går af denne årsag igen når man tester flere hypoteser samtidigt.
Der er en lang række begreber knyttet til de fænomener, som man kan støde på, når
man undersøger flere hypoteser eller tests, og vi vil her nævne på et af dem: Family Wi-
se Error Rate . Family Wise Error Rate (FWER), også kaldet experimentwise error rate er
defineret til at være sandsynligheden for at få mindst en type I fejl (se s. 13 i Andersen
[2020]), når man undersøger en familie af hypoteser. Består “familien” af et en enkelt
test på niveau α er FWER lig α, men som det fremgik af udregningerne i forbindelse
med (2.16) kan FWER hurtigt blive betydeligt større en α, selvom de individuelle tests
hver især er på niveau α. Det er i denne forbindelse værd at bemærke at Bonferroni
korrektionen som blev omtalt i afsnit 2.3 ikke knytter sig særligt til konfidensinter-
valler, men generelt kan benyttes til at sikre at FWER holder sig mindre lig et ønsket
niveau α.
80
T2
75 Bonferroni
Marginal
70
9 10 11 12
Figur 2.4: De tre typer konfidensintervaller, indtegnet til sammenligning.

Litteratur
2020.
37
Exercise 2.1 I tudse-datasættet (bufobufo) på Eksempler.pdf argumenteres for at 2 ko-
variansmatricer er identiske, ved at lave 3 tests. Hvad er sandsynligheden for at mindst
et af disse tests er signifikante, selvom hypotesen er sand, det vil sige at kovariansma-
tricerne vitterligt er ens?
Exercise 2.2 I Opgave D.7 undersøges hypotesen (µ1x , µ1y ) = (µ2x , µ2y ) i en todimen-
sional normalfordeling med korrelation 0, ved at undersøge om µ1x = µ2x og µ1y = µ2y
i de marginale fordelinger. Hvad er sandsynligheden for at forkaste hypotesen, når den
er sand?
Exercise 2.3 Data i denne opgave betragtes i Opgave D.23 og består af målinger på
kranier fra ægyptiske mænd fra 5 epoker. For hver epoke er der foretaget målinger af
4 variable på 30 kranier. De 4 variable er: Maximum Breadth (MB), Basibrematic Height
(BH), Basialveolar Length (BL) og Nasal height (NH). Udgangspunktet er modellen 5 uaf-
hængige observationsrækker fra den firedimensionale normalfordeling, det vil sige,
hvis xij = ( xij1 , xij2 , xij3 , xij4 )∗ betegner de 4 målinger for det jte kranium i den ite
epoke, i = 1, . . . , 5 og j = 1, . . . , 30, betragter vi modellen
M0 : Xij ∼ N4 (µi , Σi ), i = 1, . . . , 5, j = 1, . . . , 30,
hvor Xij -erne er uafhængige.

Datasættet kan findes på filen skulls.dat.
1◦ Udfør modelkontrol for modellen M0 og vis, at det kan antages at kovariansma-

tricerne for de 5 observationsrækker er ens.
2◦ Vis, at det ikke kan antages, at middelværdivektorerne for de 5 observationsræk-

ker er ens.
3◦ Konstruér 95% Bonferroni konfidensintervaller for middelværdierne og angiv

dernæst 95% T 2 -konfidensintervallerne.
Exercise 2.4 Betragt kork-data fra Eksempler.pdf, som findes på filen cork.dat, hvor
man for 28 korkege har lavet boringer i barken i hver af retningerne N, Ø, V og S for at
vurdere korklagets tykkelse.

dernæst 95% T 2 -konfidensintervallerne.

dernæst 95% T 2 -konfidensintervallerne, for de transformerede variable, som blev
betragtet i på Eksempler.pdf.
39
Kapitel 3
Diskriminantanalyse og klassifikation
I dette kapitel behandler vi diskriminantanalyse og klassifikation. Det præcise indhold

af disse begreber varierer i litteraturen, og vi følger her Rencher [2002]:
1. Ved diskriminantanalyse forstår vi gruppeseparation, hvor lineære funktioner af

de variable (de såkaldte diskriminantfunktioner) bruges til at beskrive og klargøre
forskelle mellem to eller flere grupper. Målet med diskriminantanalyse er blandt
at identificere de relative bidrag af de p variable til separationen af grupperne,
samt at finde det optimale 1- eller 2-dimensionale underrum som observationer-
ne kan projiceres ned på for at illustrere gruppe separationen.
2. Ved klassifikation forstår vi prædiktion eller allokering af observationer til grup-

per, hvor vi benytter lineære eller kvadratiske funktioner af de variable. Disse
klassifikationsfunktioner tilordner en (potentiel/virkelig) observation den grup-
pe som observationen mest troligt tilhører.
Vi betragter først diskriminantanalyse, da det viser sig at diskriminantfunktionerne

giver anledning til en meget intuitiv klassifikationsmetode.
3.1 Diskriminantfunktionen for to grupper

Betragt modellen for 2 uafhængige observationsrækker fra den p-dimensionale nor-
malfordeling med fælles kovariansmatriks:
M1 : xij ∼∼ Np (µi , Σ), j = 1, . . . , ni , i = 1, 2, (3.1)
hvor xij erne er uafhængige, kovariansmatricen Σ er ukendt og regulær og n1 + n2 −

2 ≥ p. Tilfældet p = 2 blev detaljeret behandlet i Afsnit 3.12.3 og 3.12.4 i Andersen
[2020]. Estimaterne for parameterene samt fordelingerne af de tilsvarende estimatorer
er udledt i Opgave 3.3, og herfra har vi
1 ni 1
µi ← µ̂i = x̄i· = ∑ xij ∼∼ Np (µi , Σ), i = 1, 2,
n i j =1 ni
(3.2)
1 1
Σ←S= (SSD(1) + SSD(2) ) ∼∼ Wp ( Σ, n1 + n2 − 2) ,
n1 + n2 − 2 n1 + n2 − 2
41
42 Kapitel 3. Diskriminantanalyse og klassifikation
hvor
ni
SSD(i) = ∑ (xij − x̄i· )(xij − x̄i· )∗ , i = 1, 2.
j =1
Vi ønsker at finde en lineær afbildning x 7→ b∗ x, repræsenteret ved b ∈ R p , der på

bedst mulig måde separerer de to grupper. Vi indfører nu
def
zij = b∗ xij , (3.3)
og for disse variable er det naturligt at måle graden af separation mellem de to grupper
gennem t-teststørrelsen for hypotesen om ens middelværdi,
z̄ · − z̄2·
|t| ∝ | 1q |. (3.4)
2
s1
Denne kan udtrykkes i termer af de tilsvarende udtryk fra (3.2)
b∗ x̄1· − b∗ x̄2·
|t(b)| = | √ |, (3.5)
b∗ Sb
og det følger af Lemma A.1 at (3.5) maksimeres af b proportional med S−1 (x̄1· − x̄2· ).
Vi ønsker en løsning som opfylder at b∗ Sb = 1 og indfører derfor
def S−1 (x̄1· − x̄2· )

â = p . (3.6)
(x̄1· − x̄2· )∗ S−1 (x̄1· − x̄2· )
Vektoren â, og den tilhørende lineære afbildning fra R p over i R, det vil sige
R p 3 x 7→ â∗ x ∈ R
kaldes for den lineære diskriminantfunktion eller blot diskriminantfunktionen. Mere præcist
er der tale om den estimerede diskriminantfunktion, idet den opfattes som det empiriske
modstykke til den teoretiske diskriminantfunktion, som er givet ved
def def
a = Σ−1 (µ1 − µ2 )/D hvor D 2 = ( µ 1 − µ 2 ) ∗ Σ −1 ( µ 1 − µ 2 ) . (3.7)
Selvom â ikke unikt maksimerer (3.5), da aâ, a 6= 0 ligeledes vil maksimere (3.5), så vil
det tilhørende lineære underrum span(â) være unikt, og projektionen af datapunkter-
ne ned på dette underrum vil altså maksimalt separere de to grupper.
Bemærkning 3.1 Selvom vi indledningsvist erklærede at de stokastiske vektorer var

normalfordelt, så er denne antagelse ikke nødvendig for at betragte (3.4) som et rime-
ligt mål for graden af separation af to grupper, og den udledte diskriminantfunktion â
er derfor heller ikke afhængig af antagelsen om at data er normalfordelt. Dog skal de
to grupper have fælles kovariansmatriks, for at S skal være et meningsfyldt estimat.
Example 3.2.
Data i Tabel 3.1 er fra Kramer and Jensen [1969], hvor man ved stålproduktion foretog
målinger af x1 = flydegrænse og x2 = styrke ved to produktionstemperaturer. En
3.1. Diskriminantfunktionen for to grupper 43
Temperatur 1 Temperatur 2
x1 x2 x1 x2
33 60 35 57
36 61 36 59
35 64 38 59
38 63 39 61
40 65 41 63
43 65
41 59
Tabel 3.1: x1 = flydegrænse og x2 = styrke for stål produceret ved to forskellige tem-
peraturer
●
64
●
62
●
60
●
● ● ●
styrke
58
●
56
●
54 Temperatur 1
● Temperatur 2
52
30 35 40 45
flydegrænse
Figur 3.1: Scatterplot af styrke mod flydegrænse, samt gruppemiddelværdierne. Linien

indikerer L = span(â) hvor â er givet i (3.10) samt projektionerne af observationerne
ned på L. Linien er forskudt for at kunne passe i plottet.
indledende modelkontrol bekræfter at det er rimeligt at beskrive data ved hjælp af

modellen M1 fra (3.1) og vi finder

µ11 36.4 µ21 39.0 7.92 5.68
µ1 = ← x̄1· = , µ2 = ← x̄2· = , Σ←S=
µ12 62.6 µ22 60.4 5.68 6.29
(3.8)
De marginale konfidensintervaller µ1i − µ2i for i ∈ {flydegrænse, styrke} findes til

henholdsvis
(−6.27, 1.07) og (−1.10, 5.44) , (3.9)
Temperatur 1 Temperatur 2
19.31 16.26
18.23 16.96
20.71 15.82
18.36 16.52
18.49 16.65
16.78
14.11
Tabel 3.2: Værdierne af diskriminantfunktionen z = −0.570x1 + 0.636x2 beregnet for

data i Tabel 3.1
og vi vil altså ikke på baggrund af de marginale t-tests foranlediges til at tro, at der
er forskel på de to temperaturer. Til gengæld finder vi, at det simultane T 2 -test for hy-
potesen H : µ1 = µ2 baseret på (3.51) p. 96 Andersen [2020] giver T 2 = 23.91 og den
tilhørende testsandsynlighed findes til pobs = 0.0041. Ved hjælp af diskriminantfunk-
tionen, som findes til

−0.570
â = , (3.10)
0.636

kan vi illustrere, hvad der foregår. Værdierne
z = â∗ x = â1 x1 + â2 x2 = −0.570x1 + 0.636x2
er beregnet i Tabel 3.2 og vi ser umiddelbart, at vi ved hjælp af diskriminantfunktionen

får observationerne ved de to temperaturer fuldstændigt separeret. Dette er yderligere
illustreret i Figur 3.1.Bemærk at de marginale t-tests svarer til projektionen af data-
punkterne ned på koordinat-akserne, og vi kan altså ikke separere de to temperaturer
når vi betragter denne projektion.
3.2 Diskriminantfunktionen for K grupper

Vi vil nu betragte situationen med K grupper. Vi tænker på K > 2, men den diskrimi-
nantfunktion som vi udleder, viser sig at være identisk med diskriminantfunktionen
fra Afsnit 3.1. Vi betragter derfor situationen
M1 : xij ∼∼ Np (µi , Σ), j = 1, . . . , ni , i = 1, 2, . . . , K,
hvor, som før, xij erne er uafhængige, kovariansmatricen Σ er ukendt og regulær og vi

antager at n1 + · · · + nk − K ≥ p.
Når vi skal generalisere diskriminantfunktionen til K grupper for K > 2, betragter
vi igen zij = b∗ xij fra (3.3) og skal nu generalisere t-teststørrelsen fra (3.4), hvilket
3.2. Diskriminantfunktionen for K grupper 45
naturligt gøres ved hjælp af F-teststørrelsen fra Sætning 3.7 i Andersen [2020]. Ifølge
denne kan hypotesen
H : b∗ µ 1 = b∗ µ 2 = · · · = b∗ µ K
undersøges ved lade L1 og L2 betegne de lineære underrum defineret i Eksempel 3.1
og 3.3 i Andersen [2020] og betragte
k P1 z − P2 z k 2
F∝ (3.11)
k z − P1 z k 2
hvor z = (zij ) er n × 1. Idet vi lader X være defineret ud fra xij erne på samme måde
som datamatricen fra Afsnit 5.2 i Andersen [2020] (således at X er n × p) har vi z = Xb
og idet Pi betegner den ortogonale projektion ned på Li , i = 1, 2 kan vi omskrive (3.11)
til
k P2 z − P1 z k 2 z∗ (P1 − P2 )z b∗ SSD2 b
= ∗ = ∗ , (3.12)
k z − P1 z k 2 z ( I − P1 ) z b SSD1 b
med betegnelserne fra Sætning 5.12. Ifølge Øvelse 3.2 gælder der
K
SSD2 = X∗ (P1 − P2 )X = ∑ ni (x̄i· − x̄·· )(x̄i· − x̄·· )∗ (3.13)
i =1
og
K ni
SSD1 = X∗ (In − P1 )X = ∑ ∑ (xij − x̄i· )(xij − x̄i· )∗ . (3.14)
i =1 j =1
Lad λ̂1 betegne den største egenvektor for SSD1−1 SSD2 . Ratioen i (3.12) maksimeres
ifølge Sætning A.5 af en vektor â, der er en egenvektor hørende til λ̂1 . I tilfældet K = 2
vil â ifølge Øvelse 3.1 svare til diskriminantfunktionen (op til skalering) udledt i Afsnit
def
3.1. Da rangen af SSD1−1 SSD2 er lig s = min(K − 1, p)† er det naturligt at generalisere
diskriminantfunktionen for K = 2 til flere diskriminantfunktioner for et generelt K og
vi indfører derfor de lineære diskriminantfunktioner:
Definition 3.3 Lad λ̂1 > λ̂2 > · · · > λ̂s > 0 være egenværdierne forskellige fra nul for
SSD1−1 SSD2 . De tilhørende vektorer â1 , â2 , . . . , âs kaldes den første, anden og generelt
kte lineære diskriminantfunktion. Egenvektorerne skaleres således at âi∗ Sâi = 1. N
Med skaleringen er de lineære diskriminantfunktioner bestemt op til fortegn. Det er

implicit i definitionen at egenværdierne λ̂i > 0 er forskellige, og det følger af resulta-
terne i Okamoto [1973] at de tilhørende stokastiske variable opfylder dette med sand-
synlighed 1. Bemærk at det følger af Korollar A.3 at âi∗ Sâk = 0 for i 6= k.
Example 3.4.
På Tabel 3.3 vises en del af et datasæt, der blev indsamlet med henblik på at undersøge
en eventuel sammenhæng mellem hjelm-design og nakkeskader i amerikansk fodbold.
† Mere præcist: De tilsvarende stokastiske matricer opfylder dette med sandsynlighed 1.
Data blev oprindeligt indsamlet af G.R. Bryce og R.M. Barker og præsentationen her
er fra Rencher [2002].
I alt deltog 90 forsøgspersoner, og disse var inddelt i 3 grupper: Fodboldspillere i High
School (gruppe 1), Fodboldspillere i college (gruppe 2) og ikke-fodboldspillere (gruppe
3). På hver forsøgsperson blev foretaget 6 målinger, og de variable var:
WDIM = Hovedbredde på bredeste led ,

CIRCUM = Hovedomkreds ,
FBEYE = For-til-bag måling ved øjehøjde ,
FBEYE = længde fra øje til hovedtop ,
EARHD = længde fra øre til hovedtop ,
JAW = kæbebredde .
Group WDIM CIRCUM FBEYE EYEHD EARHD JAW

1 1 13.50 57.15 19.50 12.50 14.00 11.00
2 1 15.50 58.42 21.00 12.00 16.00 12.00
3 1 14.50 55.88 19.00 10.00 13.00 12.00
4 1 15.50 58.42 20.00 13.50 15.00 12.00
.. .. .. .. .. .. ..
. . . . . . .
88 3 15.50 58.40 19.80 13.10 14.50 11.70
89 3 15.70 59.00 20.40 12.10 13.00 12.70
90 3 17.30 61.70 20.70 11.90 13.30 13.30
Tabel 3.3: Del af data for studie i sportsskader.
De relevante estimater er fundet på filen Rtilsupp.pdf. Her findes estimaterne for

egenværdierne af SSD1−1 SSD2 til λ̂1 = 1.91778 og λ̂2 = 0.11593. Gruppemiddelværdi-
erne µi i = 1, . . . , 3 estimeres af
     
15.20 15.42 15.58
58.94 57.38 57.77
     
20.10 19.80 19.81
x̄1· = 13.08 , x̄2· = 10.08 , x̄3· = 10.94 .
    
     
14.73 13.45 13.69
12.27 11.94 11.80
Endvidere fås
 

 0.428 · · · · ·  
0.578 3.161 · · · · 

 

 

1 0.158 1.020 0.546 · · ·
 
S = SSD1 = , (3.15)
87 
 0.084 0.653 0.077 1.232 · ·  
0.125 0.340 0.129 0.315 0.618 · 

 

 

0.228 0.505 0.159 0.042 0.009 0.376
 
3.2.1. Yderligere emner inden for diskriminantanalyse 47
og vi finder diskriminantfunktionerne
   
−0.948 −1.407
 0.004  0.001
   
 0.006  0.029
â1 = 
 , â2 = 
 . (3.16)
 0.647 
  − 0.540 

 0.504  0.384
0.829 1.529
Vi bemærker at λ̂1 udgør en stor andel af den totale sum af egenværdierne (det vil sige
sporet af SSD1−1 SSD2 ):
λ̂1 1.91778
= = 0.94 . (3.17)
λ̂1 + λ̂2 1.91778 + 0.11593

Hvis de estimerede gruppemiddelværdier x̄i· , i = 1, 2, 3 havde ligget i et affint under-

rum af dimension 1, ville λ̂2 = 0 (bemærk, at det følger af (3.13) at SSD2 = B∗ B, hvor
√
søjlerne i B er ni (xi· − x̄·· ), i = 1, . . . , K). (3.17) fortolkes til at gruppemiddelværdierne
næsten ligger i et affint underrum af dimension 1.
Da p = 6 for datasættet i Tabel 3.3 lader dette sig ikke uden videre visualisere.
Dette er et generelt problem for middel- og højdimensionale data, og der er udviklet
en lang række forskellige metoder til at visualisere sådanne data. Diskriminantfunk-
tionerne giver anledning til én sådan metode, ved for i = 1, . . . , n = n1 + · · · + nK at
plotte z2i = â2∗ xi mod z1i = â1∗ xi , sammen med de tilsvarende værdier for gruppemid-
delværdierne (Se Opgave 3.6 for en behandling af tilfældet K = 2). Et sådant plot er
vist i Figur 3.2. Det fremgår at gruppe 1 separeres godt fra gruppe 2 og 3 ved hjælp
af den første diskriminantfunktion, mens gruppe 2 og 3 i et vist, men mindre, omfang
separeres af den anden diskriminantfunktion. Vi bemærker at diskriminantfunktioner-
ne knytter sig til egenværdierne for SSD1−1 SSD2 og som sådan indikerer dimensionen
af middelværdiunderrummet, men ikke dimensionen af underrummet som de indivi-
duelle observationer ligger i. Sidstnævnte kan belyses ved hjælp principal komponent
analyse hvilket gøres på side 85.
3.2.1 Yderligere emner inden for diskriminantanalyse

Vi har i dette afsnit kun overfladisk berørt de emner som optræder indenfor diskri-
minantanalyse. Som det blev antydet i Eksempel 3.4 er der en sammenhæng mellem
middelværdiunderrummet og antallet af λi er, der er forskellige fra 0. Man kan der-
for være interesseret i at foretage et egentligt test for hypotesen at en delmængde
af egenvektorerne er lig nul. Endvidere kan de relative størrelser af koefficienterne i
diskriminantfunktionerne fortolkes som de relative bidrag fra de tilsvarende variable
til gruppeopdelingen. For at denne fortolkning skal være rimelig, skal de underliggen-
de variable være af samme størrelsesorden, hvilket kan sikres ved at standardisere, det
vil sige ved at betragte
xij − x̄ij
xij? = ,
sj
z2
●
●
5 ● ●
● ●
●
● ●
●
●
4 ● ●
●
● ●● ●
●
●●
● ● ● ●
● ● ●
●
●
●
3
●
●
●
●
●
● ●
● ●
●
● ● ●
● ●
●
● ●
● ● ●
2 ● ●
●
●
● ●
−14 −13 −12 −11 −10 −9 −8

Gruppe ● 1 ● 2 3
z1
Figur 3.2: Scatterplot baseret på diskriminantfunktionerne for data fra Eksempel 3.4.
De tre fyldte cirkler markerer gruppemiddelværdierne.
hvor s j = (S)1/2
jj er kvadratroden af den jte diagonalindgang i S. De tilknyttede diskri-
minantfunktioner âi? kan findes ved â? = (diag S)1/2 â (op til skalering). Som for egen-
værdierne kan man også her være interesseret i egentlige tests, der i dette tilfælde vil
gå på om mængder af λi erne kan være lig nul. For information om hvordan de nævnte
tests konkret udføres henvises til Rencher [2002] og Johnson and Wichern [2007].
Vi bemærker afslutningsvist, at vi notationsmæssigt i Definition 3.3 indikerede at
der var tale om estimerede størrelser ved at f.eks. at skrive λ̂1 frem for λ1 - en skelnen,
som vi også foretog på side 42. De tilsvarende teoretiske størrelser er her egenværdier
og -vektorer for matricen Σ−1 Bµ , hvor
K
1 K
Bµ = ∑ (µi − µ̄)(µi − µ̄)∗ hvor µ̄ =
K i∑
µi .
i =1 =1
Her skal man dog være opmærksom på at mens SSD1 kan erstatte Σ da nΣ̂ = SSD1 er
det mindre oplagt at SSD2 skal erstatte Bµ dels fordi SSD2 , som det fremgår af (3.13),
er vægtet med ni erne og dels fordi µ̄ erstattes ved x̄·· (og ikke ved (x̄1· + · · · + x̄K · )/K).
Man kan på grund denne tvetydighed støde på flere udgaver diskriminantfunktioner-
ne når K > 2. Fremstillingen i dette kapitel er baseret på Rencher [2002], mens f.eks.
3.3. Klassifikation 49
Johnson and Wichern [2007] Kap 11.6 og Lachenbruch [1975] Kap. 5 benytter alternati-
ve estimatorer for Bµ .
3.3 Klassifikation
Vi vender os nu mod klassifikation. Som beskrevet i indledningen går klassifikation ud
på at tilordne observationer til grupper, eller, med andre ord, at klassificere observationer.
Vi lægger ud med at vise, hvordan diskriminantfunktionen for to grupper fra Afsnit
3.1 naturligt giver anledning til en metode til at klassificere observationer (en klassifi-
kationsprocedure). Vi går dernæst videre til at beskrive klassifikation i tilfældet hvor to
grupper er givet ved hver deres tæthed f 1 (x) og f 2 (x), og vi benytter dette udgangs-
punkt til at introducere relevant terminologi. Når tæthederne er kendte, kan vi udlede
en generel optimal klassifikationsprocedure, og vi specialiserer derefter den generelle
procedure til tilfældet hvor f i (x)erne er normalfordelingstætheder.
I Eksempel 3.2 beregnede vi diskriminantfunktionen â for datasættet fra Tabel 3.1
og værdierne, når denne blev anvendt på datasættet, blev angivet i Tabel 3.2. An-
tag nu at vi ønsker at klassificere en måling på (38.0, 60.0). Den tilsvarende værdi af
diskriminantfunktionen beregnes til 16.46 og ved at sammenligne med Tabel 3.2 ser
vi at målingen klassificeres som tilhørende Temperatur 2. For en vilkårlig observation
( x1 , x2 )∗ systematiseres denne tankegang beregne værdierne af diskriminantfunktio-
nen for gruppemiddelværdierne (findes ved hjælp af (3.8) til 19.02 og 16.16) og tilord-
ne observationen til den gruppe, som den tilsvarende værdi af diskriminantfunktionen
ligger nærmest. Konkret vil det sige, at vi tilordner en observation til Temperatur 1 hvis
19.02 + 16.16
−0.570x1 + 0.636x2 ≥ = 17.59 ,
2
og ellers til Temperatur 2. På Figur 3.3 er linien −0.570x1 + 0.636x2 = 17.59 indtegnet
som en stiplet linie i Figur 3.1, og vi ser at denne inddeler udfaldsrummet (her R2 ) i to
disjunkte mængder således at udfald i den i ene mængde tilordnes gruppe 1 og udfald
i den anden mængde tilordnes gruppe 2.
Den generelle formulering af klassifikationsproceduren er klar, når blot vi obser-

verer at â∗ x̄1· > â∗ x̄2 . En observation x0 vil derfor være nærmere â∗ x̄1· end â∗ x̄2· hvis
â∗ x0 > â∗ (x̄1· + x̄2· )/2 og vi finder derfor vores første eksempel på en klassifikatio-
nensprocedure. Vi antager at kovariansmatricerne for de to grupper er identiske, men,
jævnfør Bemærkning 3.1, ikke at data er normalfordelt.
Allokér x0 til gruppe 1 hvis
1
(x̄1· − x̄2· )∗ S−1 x0 > (x̄1· − x̄2· )∗ S−1 (x̄1· + x̄2· ) (3.18)
2
og ellers til gruppe 2.
●
64
●
62
●
60
●
● ● ●
styrke
58
●
56
●
54 Temperatur 1
● Temperatur 2
52
30 35 40 45
flydegrænse
Figur 3.3: Figur 3.1 med linien −0.570x1 + 0.636x2 = 17.59 indtegnet. (stiplet)
Hvis vi indfører funktionen

x̄ + x̄2·
f (x) = (x̄1· − x̄2· ) S ∗ −1
x − 1·
2
kan klassifikationsproceduren fra (3.18) alternativt beskrives ved vi allokerer x0 til

gruppen givet ved 1 ( f (x0 ) ≤ 0) + 1. Dette er vores første eksempel på en klassifika-
tionsfunktion.
3.3.1 Klassifikationsfunktioner
Vi vil nu diskutere klassifikation mere generelt - dels for at indføre noget terminologi,
og dels for at vise et teoretisk resultat om optimal klassifikation, der viser at den netop
udledte klassifikationsprocedure i en vis forstand er optimal, hvis data er normalfor-
delt. Vi lader K betegne antallet af grupper. For at facilitere den teoretiske diskussion
vil vi nu betragte gruppetilordningen som stokastisk, i den forstand at vi til hver Xi
indfører en stokastisk variabel Yi ∈ {1, . . . , K }, der indikerer hvilken gruppe Xi hø-
rer til. Det samlede datasæt består derfor af n observationer (xi∗ , yi )∗ , der er ( p + 1)-
dimensionale søjlevektorer og udfald en i.i.d. følge (Xi∗ , Yi )∗ i = 1, . . . , n. De marginale
sandsynligheder for Yi erne betegnes πk , det vil sige
P (Y = k ) = π k , k = 1, . . . , K .
Inden for hver gruppe har vi en betinget sandsynlighed Pk :
Xi | Yi = k ∼ Pk .
3.3.1. Klassifikationsfunktioner 51
Det konkrete eksempel vi har i tankerne, er situationen hvor Pk er fordelingsmålet

hørende til en p-dimensional normalfordeling, hvor middelværdi, og muligvis kovari-
ansmatriks afhænger af k. Idet vi antager at Pk er absolut kontinuert med tæthed f k (x)
er den simultane tæthed for (Xi∗ , Yi )∗ givet ved
f (X,Y ) (x, k ) = f k (x)πk ,
og den marginale tæthed for X er
f X (x) = π1 f 1 (x) + · · · + π K f (x)
Modellen, som vi her har formuleret kaldes en mikstur-model. Vi kan tænke på de tidli-
gere betragtede modeller, som mikstur-modeller, hvor vi har betinget med en fast vær-
di af tilordning erne Y1 , . . . , Yn . Sandsynlighederne (πk ) kaldes prior-sandsynligheder
og skal opfattes som de sandsynligheder, vi ville betragte for en observation x0 om
hvilken vi ingen information har.
Vi indfører nu en klassifikationsfunktion (eller: classifier) til at være en funktion som
tager et udfald x og tilordner en gruppe: Udfaldsrummet blev i Kapitel 1 i Andersen
[2020] betegnet X så vi kan derfor skrive
X 3 x 7→ C(x) ∈ {1, . . . , K } .
Lad nu (X0 , Y0 ) betegne en “ny” observation. Et rimeligt kriterium for at være en god
klassifikationsfunktion er at sandsynligheden for at lave en fejl er lille, dvs. blandt de
mulige klassifikationsfunktioner ønsker vi at finde C der minimerer
P(C(X0 ) 6= Y0 ). (3.19)
Udtrykket i (3.19) kaldes TPM for Total Probability of Misclassification. To bemærkninger
er relevante at indskyde: For det første er en implicit forudsætning for gyldigheden af
(3.19) som kriterie, at omkostningerne ved enhver slags misklassifikation er identiske.
I en konkret situation med to grupper, kan man forestille sig at man meget gerne vil
undgå at klassificere en observation fra gruppe 1 som tilhørende gruppe 2, mens man
er mindre bekymret for at lave den modsatrettede fejl. Denne situation kan håndteres
ved at indføre omkostninger “costs” cij , der repræsenterer omkostningen ved at tilordne
gruppe i til en observation, som rent faktisk tilhører gruppe j. Udtrykket (3.19) erstattes
da med
K K
∑ ∑ cij P(C(X0 ) = i, Y0 = j) , cii = 0
i =1 j =1
der fortolkes som den forventede omkostning med misklassifikation. Vi vil fokusere
på (3.19), da det generelle tilfælde ikke er substantielt anderledes, se Johnson and Wi-
chern [2007]. For det andet bliver klassifikationsfunktionerne ofte specificeret indirekte
def
gennem klassifikationsområder, der i vores terminologi er Ri = {x | C(x) = i }. I tilfældet
K = 2 kan (3.19) derved udtrykkes som
Z Z
π1 f 1 (x)dx + π2 f 2 (x)dx (3.20)
R2 R1
idet første, henholdsvis andet, led udtrykker sandsynligheden for at en observation fra
population 1 henholdsvis 2 misklassificeres. Vi definerer nu den såkaldte Bayes klassifi-
kationsfunktion og viser at denne minimerer (3.19). Beviset er fra Mardia et al. [2003].
Lemma 3.5 Lad Bayes klassifikationsfunktion C B (·) være defineret ved
C B (x) = k hvis P(Y = k | X = x) > P(Y = l | X = x) for l 6= k .
Da vil C B (·) minimere (3.19) blandt alle klassifikationsfunktioner C .
Proof. Fra Kapitel 8 i Thorbjø rnsen [2017] har vi
P(C(X0 ) 6= Y0 ) = E [1 (C(X0 ) 6= Y0 )] = E hC (X0 ) . (3.21)
hvor
hC (x) = E [1 (C(x) 6= Y0 ) | X0 = x] = 1 − P(Y0 = C(x) | X0 = x) .
Hvis vi uniformt kan minimere højresiden ovenfor, vil (3.21) ligeledes blive minimeret.
Dette kan gøres ved at maksimere
K
P(Y0 = C(x) | X0 = x) = ∑ 1 (C(x) = k) P(Y0 = k | X0 = x) ,
k =1
hvilket præcis gøres ved at vælge C til at være C B
De betingede sandsynligheder P(Y = k | X = x) kaldes posterior sandsynligheder og

angiver altså sandsynligheder for gruppetilordninger efter vi har foretaget observatio-
nen x. Ved hjælp af Bayes formel fås
f k (x) π k
P (Y = k | X = x ) = ,
f 1 (x) π1 + · · · + f K (x) π K
og eftersom nævneren i ovenstående er uafhængig af k findes C B (x) til
C B (x) = k hvis f k (x)πk > f l (x)πl for l 6= k . (3.22)
eller med andre ord: C B (x) = arg maxk f k (x). Følgende ækvivalente form, er ofte be-
kvem:
πl
C B (x) = k hvis log f k (x) − log f l (x) > log for l 6= k . (3.23)
πk
3.3.2 Klassifikation af to normalfordelte populationer

Vi vil nu beskrive hvordan Lemma 3.5 anvendes i praksis. Den generelle procedure er
at antage en konkret form af de betingede tætheder f i (x) som blev indført i indled-
ningen. Vi antager i denne forbindelse at de parametre som f i erne måtte afhænge af,
er kendte, hvilket de naturligvis sjældent er. I praksis erstattes parametrene med esti-
mater fra konsistente estimatorer, og prior-sandsynlighederne antages enten at være
identiske, eller være lig nk /n hvor nk er antallet af observationer inden for gruppe k,
og n er det totale antal observationer. De klassifikationsprocedurer som vi når frem til,
kaldes derfor estimerede minimum TPM procedurer eller asymptotisk optimale procedurer.
3.3.2. Klassifikation af to normalfordelte populationer 53
3.3.2.1 Identiske kovariansmatricer

Vi betragter nu tilfældet hvor K = 2 og f i (x) er tætheder i p-dimensionale normalfor-
delinger. Først betragtes tilfældet, hvor kovariansmatricerne er identiske. Med andre
ord antager vi, at de betingede tætheder f i (x) er
1 1 ∗ Σ −1 (x − µ
f i (x) = p 1
e − 2 (x− µ i ) i) , x ∈ R p , i = 1, 2. (3.24)
(2π ) |Σ|
2 2
Ved at benytte omskrivningen
1 1
− (x − µ 1 ) ∗ Σ −1 (x − µ 1 ) + (x − µ 2 ) ∗ Σ −1 (x − µ 2 )
2 2
1
= (µ1 − µ2 )∗ Σ−1 x − (µ1 − µ2 )∗ Σ−1 (µ1 + µ2 ) (3.25)
2
fås ved hjælp af (3.23) følgende optimale klassifikationsprocedure:
Alloker x0 til population 1 hvis
1 π
(µ1 − µ2 )∗ Σ−1 x0 − (µ1 − µ2 )∗ Σ−1 (µ1 + µ2 ) > log 2 (3.26)
2 π1
og ellers til population 2.
Som nævnt i indledningen erstattes parametrene i (3.26) med de tilsvarende estimater

og konklusionen er at den estimerede minimal TPM procedure for 2 populationer fra
normalfordelingen er:
Lineær klassifikation K = 2
1 π̂
(x̄1· − x̄2· )∗ S−1 x0 − (x̄1· − x̄2· )∗ S−1 (x̄1· + x̄2· ) > log 2 (3.27)
2 π̂1
Bemærk at venstresiden af (3.27) er en lineær funktion af x0 vi vil derfor referere til den-
ne, og den senere generalisering til K ≥ 2 i (3.40), som lineær klassifikation. Vi ser nu at
den estimerede procedure i tilfældet π̂1 = π̂2 præcis er proceduren fra (3.18), selvom,
som det blev bemærket i Bemærkning 3.1, sidstnævnte ikke afhænger af antagelsen
om normalitet. Vi konkluderer at hvis data er normalfordelt (og kovariansmatricerne
er ens), er proceduren approksimativt optimal.
3.3.2.2 Forskellige kovariansmatricer

Vi vender os nu mod situationen, hvor vi ikke antager at Σ1 = Σ2 , altså hvor
1 1 ∗ Σ −1 (x − µ )
f i (x) = p 1
e− 2 (x− µ i ) i i , i = 1, 2 x ∈ R p . (3.28)
(2π ) |Σi |
2 2
Igen benyttes (3.23), og idet vi indfører

| Σ1 |

def 1 1 ∗ −1
∗ −1
k = log + µ Σ µ1 − µ2 Σ2 µ2 ,
2 | Σ2 | 2 1 1
fås den optimale procedure
1 π
− x0∗ (Σ1−1 − Σ2−1 )x0 + µ1∗ Σ1−1 − µ2∗ Σ2−1 x0 − k > log 2
2 π1
Bemærk tilstedeværelsen af “det nye” led − 12 x0∗ (Σ1−1 − Σ2−1 )x0 . Igen indsættes estima-
terne for at finde den estimerede TPM procedure:
Kvadratisk klassifikation K = 2
1 π̂2
− x0∗ (S− 1
(1)
− S −1
(2)
) x 0 + x̄1
∗ −1
· S (1)
− x̄2
∗ −1
· S (2)
x0 − k̂ > log (3.29)
2 π̂1
hvor !
def 1 | S(1) | 1 ∗ −1
k̂ = log + x̄1· S(1) x̄1· − x̄2∗· S− 1
x̄
(2) 2·
.
2 | S(2) | 2
Vi bemærker at venstresiden nu bliver en kvadratisk funktion i x0 , og som indikeret
kaldes proceduren for kvadratisk klassifikation
Example 3.6.
Vi vil i dette eksempel betragte det datasæt som Fisher i artiklen Fisher [1936] fra 1936
benyttede som udgangspunkt for sin udledning af den lineære diskriminantfunktion.
Datasættet blev betragtet på filen Eksempler.pdf med yderligere beregninger foretaget
Rtilsupp.pdf og indeholder målinger på 50 planter af hver af arterne Iris Setosa, Iris
Versicolor og Iris Virginica. På hver plante har man målt længde og bredde af bæger-
bladet (sepalum) og længde og bredde af kronbladet (petalum). I Tabel 3.4 findes et
uddrag af datasættet. Vi vil i første omgang illustrere de netop indførte metoder ved at
betragte længde og bredde af kronbladet for arterne Versicolor og Virginica (henholds-
vis 1 og 2).
Estimaterne for middelværdivektorerne samt estimaterne for kovariansmatricerne in-

den for grupperne samt estimatet for den fælles kovariansmatriks findes til

4.260 5.552
x̄1· = , x̄2· =
1.326 2.026
(3.30)
0.2208 0.0731 0.3046 0.0488 0.2627 0.0610
S(1) = , S(2) = , S=
0.0731 0.0391 0.0488 0.0754 0.0610 0.0573
3.3.3. Evaluering af klassifikationsfunktioner 55
og derved findes venstresiden af (3.27) til

dˆ( x1 , x2 ) = −2.764568x1 − 9.280052x2 + 29.116339 (3.31)
og denne angiver indirekte den approksimativt optimale lineære klassifikationsfunk-
tion hvis π̂1 = π̂2 . På Figur 3.4 er linien dˆ( x1 , x2 ) = 0 indtegnet sammen med data.
Sepalum Længde Sepalum Bredde Petalum Længde Petalum Bredde Art

1 5.10 3.50 1.40 0.20 Setosa
2 4.90 3.00 1.40 0.20 Setosa
3 4.70 3.20 1.30 0.20 Setosa
.. .. .. .. .. ..
. . . . . .
49 5.30 3.70 1.50 0.20 Setosa
50 5.00 3.30 1.40 0.20 Setosa
51 7.00 3.20 4.70 1.40 Versicolor
52 6.40 3.20 4.50 1.50 Versicolor
53 6.90 3.10 4.90 1.50 Versicolor
.. .. .. .. .. ..
. . . . . .
99 5.10 2.50 3.00 1.10 Versicolor
100 5.70 2.80 4.10 1.30 Versicolor
101 6.30 3.30 6.00 2.50 Virginica
102 5.80 2.70 5.10 1.90 Virginica
103 7.10 3.00 5.90 2.10 Virginica
.. .. .. .. .. ..
. . . . . .
150 5.90 3.00 5.10 1.80 Virginica
Tabel 3.4: En del af datasættet til Eksempel 3.6
Ved hjælp af Bartlett’s test viser det sig imidlertid at kovariansmatricerne ikke kan
antages at være identiske, og vi ønsker derfor at benytte klassifikationsproceduren
kvadratisk klassifikation, det vil sige proceduren baseret på (3.29). Venstresiden af ud-
trykket findes til
dˆQ ( x1 , x2 ) = −4.11x12 − 26.15x22 + 19.84x2 x1 + 5.63x1 − 22.46x2 − 19.73

−4.11 9.92 x1 + 4.17
= x1 + 4.17 x2 + 2.01 + 30.59
9.92 −26.15 x2 + 2.01
og på Figur 3.5 er kurven dˆQ ( x1 , x2 ) = 0 indtegnet.
3.3.3 Evaluering af klassifikationsfunktioner

I (3.20) angav vi følgende opskrivning af TPM for en generel 2-klasse-klassifikations-
funktion
Z Z
π1 f 1 (x)dx + π2 f 2 (x)dx (3.32)
R2 R1
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5
Versicolor
Virginica
0.0
3 4 5 6 7
Petalum Lændge
Figur 3.4: Scatterplot af petalum bredde mod petalum længde, og klassifikationsområ-

derne fundet ved lineær klassifikation.
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5
Versicolor
Virginica
0.0
3 4 5 6 7
Petalum Lændge
Figur 3.5: Scatterplot af petalum bredde mod petalum længde, og klassifikationsområ-

derne fundet ved kvadratisk klassifikation.
3.3.3. Evaluering af klassifikationsfunktioner 57
hvor Ri = {x | C(x) = i } i = 1, 2, og vi har i Lemma 3.5 udledt den optimale

klassifikationsfunktion, som vi viste var Bayes klassifikationsfunktion C B (·). Ved dette
konkrete valg af klassifikationsfunktion kaldes udtrykket fra (3.32) for Optimum Er-
ror Rate. I (3.26) udledte vi den optimale klassifikationsprocedure, for normalfordelte
data med identisk kovariansmatriks og vi vil her beregne den tilhørende OER når
π1 = π2 = 1/2.
Ud fra (3.26) ser vi

−1 1 −1
R1 : x ∈ X | ( µ1 − µ2 ) Σ x − ( µ1 − µ2 ) Σ ( µ1 + µ2 ) ≥ 0
2
. (3.33)
−1 1 −1
R2 : x ∈ X | ( µ1 − µ2 ) Σ x − ( µ1 − µ2 ) Σ ( µ1 + µ2 ) < 0
2
Sandsynlighederne i (3.20) kan beregnes ved at betragte den teoretiske diskriminant-
funktion a defineret i (3.7) idet vi ser at
1 ( µ 1 − µ 2 ) ∗ Σ −1 ( µ 1 + µ 2 )
Z
f 1 (x)dx = P Y < =♣ (3.34)
R2 2 D
def
hvor Y = a∗ X og for X ∼ f 1 (x), altså X ∼ Np (µ1 , Σ) og D er defineret i (3.7). Vi indfører
def
nu µY = E a∗ X = (µ1 − µ2 )∗ Σ−1 µ1 /D og regner videre på (3.34):
1 ( µ 1 − µ 2 ) Σ −1 ( µ 1 + µ 2 )

♣ = P Y − µY < − µY
2 D
!
− 21 D2 −D

= P Y − µY < =Φ .
D 2
Et tilsvarende udtryk for led i (3.32) leder frem til følgende udtryk:
−D −D −D

1 1
OER = Φ + Φ =Φ .
2 2 2 2 2
Vi har altså her fundet et udtryk for TPM for den optimale klassifikationsprocedure. For
de estimerede procedurer fra (3.27) og (3.29) kaldes TPM for Actual Error Rate ( AER)
og denne beregnes ved
Z Z
π1 f 1 (x)dx + π2 f 2 (x)dx , (3.35)
R̂2 R̂1
hvor R̂i i = 1, 2 kan findes ved at indsætte estimater i udtryk svarende til (3.33). Som
det fremgår afhænger (3.35) af de ukendte tætheder, og selvom vi i princippet kan
approksimere disse ved at indsætte estimater, vil vi i stedet betragte den såkaldte
Apparent Error Rate (APER) , som defineres til at være andelen af observationer der
misklassificeres blandt de observationer, som indgår i beregningen af den estimerede
procedure. APER er ikke-parametrisk i den forstand at vi ikke gør nogen antagelser
om bagvedliggende fordelinger. Beregningen af APER tager ofte udgangspunkt i den
såkaldte Konfusionsmatrix (engelsk: Confusion Matrix). Konfusionsmatricen er en K × K
matrix, hvor indgang nij , i = 1, . . . , K, j = 1, . . . , K angiver antallet af observationer
Forudsagt gruppe
Antal
Virkelig gruppe 1 2
observationer
1 n11 n12 n 1·
2 n21 n22 n 2·
Tabel 3.5: Konfusionsmatrix for to grupper.
fra population i, der klassificeres som værende fra population j. Diagonalindgangen

nii , i = 1, . . . , K er altså antal observationer fra gruppe i der klassificeres korrekt, mens
ikke-diagonal indgangene er misklassifikationer. For 2 grupper er konfusionsmatricen
angivet i Tabel 3.5
For to grupper har vi
n + n21
APER = 12 .
n 1· + n 2·

I Eksempel 3.6 benyttede vi lineær og kvadratisk klassifikation på iris-datasættet. For
lineær klassifikation var 2 planter fra arten Versicolor misklassificeret som værende
Virginica og 4 observationer fra arten Virginica blev misklassificeret som Versicolor.
Konfusionsmatricen findes således i Tabel 3.6 og APER beregnes til 0.06. Konfusions-
matricen ved kvadratisk klassifikation findes i Tabel 3.7 idet vi her fandt vi at 1 plante
fra arten Versicolor misklassificeret som værende Virginica og 2 observationer fra arten
Virginica blev klassificeret som Versicolor. APER findes dermed til 0.03.
Forudsagt gruppe
Antal
Virkelig gruppe Versicolor Virginica
observationer
Versicolor 48 2 50
Virginica 4 46 50
Tabel 3.6: Konfusionsmatrix ved lineær klassifikation af iris datasættet.
Fordelene ved APER er at den er let at beregne og fortolke. Ulempen er at den er til-
bøjelig til at undervurdere AER, og i en løs forstand er APER biased. Problemet der
opstår skyldes at klassifikationsproceduren tilpasses data, og at data derfor ikke kan
bruges til vurdere klassifikationsproceduren. For at imødegå dette problem kan man
opdele det originale datasæt i træningsdata og testdata (eller valideringsdata), og så, som
navnene lægger op til, benytte førstnævnte til at beregne klassifikationsproceduren og
sidstnævnte til at estimere fejlraten. Et problem ved den teknik er at man evaluerer en
3.3.4. Klassifikation af flere normalfordelte populationer 59
Forudsagt gruppe
Antal
Virkelig gruppe Versicolor Virginica
observationer
Versicolor 49 1 50
Virginica 2 48 50
Tabel 3.7: Konfusionsmatrix ved kvadratisk klassifikation af iris datasættet.
klassifikationsprocedure, som er forskellig fra den procedure, som man i sidste ende
ønsker at benytte. En teknik, der imødegår dette problem er krydsvalidering (engelsk:
cross-validation. ) Krydsvalidering er et generelt begreb, som vi her vil benytte om føl-
gende teknik: Først findes en klassifikationsfunktion, ved at benytte alle observationer
undtagen een. Den undtagne observation klassificeres dernæst, ved hjælp af den fund-
ne klassifikationsfunktion. Dette gentages indtil alle observationer er klassificeret. Hvis
AER opfattes som en stokastisk variabel, så vil proportionen af misklassificerede obser-
vationer ved krydsvalidering givet et asymptotisk unbiased estimat af middelværdien
af AER og denne betegnes derfor Ê(AER). Krydsvalidering kaldes også leave-one-out,
holdout eller jack-knifing, og kan være ret beregningstung.
3.3.4 Klassifikation af flere normalfordelte populationer

Vi vil nu betragte klassifikationsprocedurer for flere (≥ 2) populationer. På et begrebs-
mæssigt niveau tilføjes der ikke det helt store. Teknikken er, ligesom i tilfældet K = 2,
at tage udgangspunkt i tæthederne
1 1 ∗ Σ −1 (x − µ
f i (x) = p 1
e− 2 (x− µ i ) i) , x ∈ R p , i = 1, . . . , K , (3.36)
(2π ) |Σ|
2 2
og så benytte Lemma 3.5 til at udlede optimale procedurer. Man kan vælge om man
vil benytte formen (3.22) eller (3.23). Sidstnævnte er naturlig, hvis man ønsker at be-
tragte en referencegruppe, men vi benytter førstnævnte. Vi starter med tilfældet, hvor
kovariansmatricerne antages at være identiske: Σ1 = · · · = ΣK . Allokeringsreglen vil
her være:
Alloker x0 til population k hvis
log πk f k (x0 ) = max log πi f i (x0 ) (3.37)

i =1,...,K
Venstresiden af (3.37) er
p 1 1
log πk f k (x0 ) = log πk − log(2π ) − log Σ − (x0 − µk )∗ Σ−1 (x0 − µk ) . (3.38)
2 2 2
Ved at gange ud i (3.38) og ignorere led der ikke afhænger af k ser vi, at klassifikations-
proceduren bekvemt kan beskrives ved hjælp af de såkaldte lineære klassifikationsfunk-
tioner)
def 1
di (x) = µi∗ Σ−1 x − µi∗ Σ−1 µi + log πi i = 1, . . . , K ,
2
idet proceduren da bliver at allokere x0 til gruppe k, hvor k er det indeks, der mak-
simerer di (x) i = 1, . . . , K, og de lineære klassifikationsfunktioner definerer derved
indirekte en samlet klassifikationsfunktion. Som i afsnit 3.3.2 benyttes i praksis estime-
rede størrelser og den tilsvarende procedure formuleres da ved hjælp af de estimerede
lineære klassifikationsfunktioner
def 1
dî (x) = x̄i∗· S−1 x − x̄i∗· S−1 x̄i· + log π̂i i = 1, . . . , K . (3.39)
2
Lineær klassifikation K ≥ 2
dˆk (x0 ) = max dî (x0 ) (3.40)

i =1,...,K
hvor dî (x) er givet ved (3.39).
Bemærk, at når det antages at π̂i er uafhængig af i, altså at prior-sandsynlighederne

er identiske, droppes ledet log π̂i i (3.39), da dette ikke gør nogen forskel på klassifika-
tionsproceduren.
Hvis antagelsen Σ1 = · · · = ΣK ikke er rimelig bliver klassifikationsfunktionerne
en kende mere komplicerede. I udtrykket svarende til (3.38) vil kun leddet p/2 log(2π )
være uafhængigt af k. Klassifikationsproceduren kan i dette tilfælde beskrives ved
hjælp af de kvadratiske klassifikationsfunktioner
def 1 1
dkQ (x) = − log|Σi | − (x − µi )∗ Σi−1 (x − µ) + log πi (3.41)
2 2
De tilsvarende estimerede funktioner er
def 1 1
dîQ (x) = − log|S(i) | − (x − x̄i· )∗ S− 1
(i )
(x − x̄i· ) + log π̂i i = 1, . . . , K (3.42)
2 2
Allokeringsproceduren bliver her
Kvadratisk klassifikation K ≥ 2
dˆkQ (x0 ) = max dîQ (x0 ) (3.43)

i =1,...,K
hvor dˆk (x) er givet ved (3.41).


Vi ønsker nu at inddrage Iris Setosa i vores klassifikationsprocedure baseret på længde
og bredde for kronbladet af iris planterne. Nogle af estimaterne fra (3.30) kan genbru-
ges og de resterende estimater findes på Eksempler.pdf Bemærk at estimatet for Σ skal
genberegnes. Vi finder

1.462 0.2351 0.0792 0.1852 0.0427
x̄3· = , S(3) = og S =
0.246 0.0792 0.0370 0.0427 0.0419
og de lineære klassifikationsfunktioner findes herved til
dˆ1 (x) = 20.53x1 + 10.75x2 − 50.85 ,

dˆ2 (x) = 24.61x1 + 23.30x2 − 91.93 , (3.44)
dˆ3 (x) = 8.55x1 − 2.83x2 − 5.90 .
Konfusionsmatricen er angivet i Tabel 3.8:
Forudsagt gruppe
Antal
Virkelig gruppe Setosa Versicolor Virginica
observationer
Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 4 46 50
Tabel 3.8: Konfusionsmatrix ved lineær klassifikation af iris datasættet for to variable.
APER findes til

50 + 48 + 46
APER = 1 − = 0.04 . (3.45)
50 + 50 + 50
Ønsker vi nu at klassificere en ny plante, hvor vi har målt Petalum længde (bredde) til
4.0 (1.0) gøres dette ved at beregne de tilsvarende værdier af de lineære diskriminant-
funktioner. Sætter vi x0 = (4.0, 1.0)∗ fås
dˆ1 (x0 ) = 42.02 , dˆ2 (x0 ) = 29.81 og dˆ3 (x0 ) = 25.47 (3.46)
og vi konkluderer at planten tilhører gruppe 1, altså Versicolor arten. På Figur 3.6 er
et scatterplot hvor tillige linierne dˆ1 (x) = dˆ2 (x) og dˆ1 (x) = dˆ3 (x) er indtegnet hvilket
(her) afgrænser de tre klassifikationsområder R1 , R2 og R3 .
Præcis som det var tilfældet, da vi tidligere undersøgte Virginica og Versicolor vil
et Bartlett’s test også her afvise hypotesen om ens kovariansmatricer og vi ledes derfor
til at betragte de kvadratiske klassifikationsfunktioner fra (3.43) For d1Q finder vi:

Q 1 11.881 −22.210 x1 − 4.260
ˆ
d1 (x) = − x1 − 4.260 x2 − 1.326 + 2.858
2 −22.210 67.090 x2 − 1.326
= −5.940x12 + 22.210x1 x2 + 21.164x1 − 33.545x22 − 5.655x2 − 38.472
og på tilsvarende vis
dˆ2Q (x) = −1.832x12 + 2.371x1 x2 + 15.534x1 − 7.396x22 + 16.803x2 − 58.204 ,
dˆ3Q (x) = −7.631x12 + 32.679x1 x2 + 14.274x1 − 48.501x22 − 23.915x2 − 4.482 .
På Figur 3.7 er de tre klassifikationsområder antydet. Konfusionsmatricen for kvadra-
tisk klassifikation ved hjælp af (3.43) er givet i Tabel 3.9.
Forudsagt gruppe
Antal
observationer
Setosa 50 0 0 50
Virginica 0 2 48 50
Tabel 3.9: Konfusionsmatrix for kvadratisk klassifikation af iris datasættet med to va-
riable.
Vi finder
50 + 48 + 49
APER = 1 − = 0.02
150
Klassifikationen med kvadratiske klassifikationsfunktioner er dog lidt mindre impo-
nerende, når den evalueres ved hjælp af krydsvalidering som det fremgår af konfu-
sionsmatricen på Tabel 3.10. Ud fra denne findes
50 + 48 + 47
Ê(AER) = 1 − = 0.033
150
Forudsagt gruppe
Antal
observationer
Setosa 50 0 0 50
Virginica 0 3 47 50
Tabel 3.10: Konfusionsmatrix for kvadratisk klassifikation af iris datasættet med to va-
riable hvor der er benyttet krydsvalidering.
Afslutningsvist nævner vi at når alle de variable i iris datasættet inkluderes bliver

resultatet ved brug af lineær klassifikation som præsenteret i Tabel 3.11 og vi bemærker
at den præsenterede konfusionsmatrix her er uændret selvom vi benytter krydsvalide-
ring.
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5 Versicolor
Virginica
Setosa
0.0
1 2 3 4 5 6 7
Petalum Lændge
Figur 3.6: Scatterplot af petalum bredde mod petalum længde for 3 tre iris arter. Ind-
tegnet er linerne dˆ1 (x) = dˆ2 (x) og dˆ1 (x) = dˆ3 (x).
Forudsagt gruppe
Antal
observationer
Setosa 50 0 0 50
Virginica 1 1 49 50
Tabel 3.11: Konfusionsmatriks ved lineær klassifikation af iris datasættet.
og finder
50 + 48 + 49
APER = E(AER) = 1 − = 0.02 .
50 + 50 + 50
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5 Versicolor
Virginica
Setosa
0.0
1 2 3 4 5 6 7
Petalum Lændge
Figur 3.7: Scatterplot af Petalum Bredde mod Petalum Længde med indtegnet kvadra-
tiske klassifikationsområder.
3.3.5 Klassifikation baseret på diskriminantfunktioner

Vi så i afsnit 3.3 at i tilfældet K = 2 og Σ1 = Σ2 kunne vi konstruere en klassifika-
tionsprocedure, som vi i 3.3.2 fandt ud af var identisk med den asymptotisk optima-
le procedure. I afsnit 3.2 præsenterede vi diskriminantfunktioner for K grupper. Det
oplagte spørgsmål er nu, om vi igen i det generelle tilfælde kan konstruere en klassi-
fikations procedure ved hjælp diskriminantfunktionerne og om denne i givet fald er
asymptotisk optimal.
def
Svaret er at det kan man, og det er den. Idet s = min(k − 1, p) kan klassifikations-
proceduren formuleres som følger:

s s
∑ [â∗j (x0 − x̄k· )]2 ≤ ∑ [â∗j (x − x̄i· )]2 for alle i 6= k (3.47)
j =1 j =1
3.3.6. Afsluttende bemærkninger til klassifikation 65
Hvis vi betragter y = (y1 , . . . , y p )∗ hvor y j = â∗j x og ȳk = (ȳk1 , . . . , ȳkp )∗ hvor ȳkj =
a∗j x̄k· kan venstresiden ovenfor fortolkes som kvadratet på afstanden mellem de trans-
formerede værdier y og ȳk og allokeringsproceduren siger med andre ord at vi tilordne
x til den gruppe, hvis middelværdi x ligger nærmest i diskriminantrummet. Selvom
det måske ikke umiddelbart ser sådan ud, er den fundne procedure faktisk ækvivalent
med (3.40) og vi konkluderer at den er asymptotisk optimal, når data er normalfordel.
3.3.6 Afsluttende bemærkninger til klassifikation

Vi har i dette afsnit diskuteret og udledt forskellige allokeringsprocedurer. Motivatio-
nen for de udledte procedurer var at finde empiriske udgaver af procedurer, som vi
kunne vise var optimale når vi antog at data var normalfordelt. Det er afslutningsvist
værd at bemærke at en allokeringsprocedure sagtens kan være brugbar, selvom den
ikke opfylder kravene til at være asymptotisk optimal. En situation hvor denne be-
mærkning er relevant er når man konstruerer afledte variable. For eksempel kan man
i iris-datasættet have lyst til inkludere kvadraterne på de indgående variable:
(sepalum længde)2 (sepalum bredde)2 (petalum længde)2 (petalum bredde)2
og så lave lineær klassifikation. Det samlede datasæt kan i sagens natur ikke være fler-
dimensional normalfordelt, men hvis klassifikationsproceduren fungerer godt ud fra
kriterierne givet i afsnit 3.3.3, er dette ikke noget problem. I machine learning termino-
logi refererer man ofte til de variable som “features” og konstruktionen af nye variable
betegnes “feature engineering”.
Litteratur
2020.
R. A. Fisher. The use of multiple measurements in taxonomic problems. Annals of

Eugenics, 7(2):179–188, 1936. doi: 10.1111/j.1469-1809.1936.tb02137.x. URL https:
//onlinelibrary.wiley.com/doi/abs/10.1111/j.1469-1809.1936.tb02137.x.
P.M. Gerrild and R.J. Lantz. Chemical analysis of 75 crude oil samples from pliocene
sand units, elk hills oil field, ca. Geological Survey Open File Report, 1969.
3; 0-13-187715-1.
Clyde Y Kramer and Donald R Jensen. Fundamentals of multivariate analysis part i.

inference about means. Journal of Quality Technology, 1(2):120–133, 1969.
Peter A Lachenbruch. Discriminant analysis. New York: Hafner Press., 1975.
Masashi Okamoto. Distinctness of the eigenvalues of a quadratic form in a multivariate

sample. Ann. Statist., 1(4):763–765, 07 1973. doi: 10.1214/aos/1176342472. URL
http://dx.doi.org/10.1214/aos/1176342472.
Alvin C. Rencher. Methods of multivariate analysis. Wiley Series in Probability and

Statistics. Wiley-Interscience [John Wiley & Sons], New York, second edition, 2002.
ISBN 0-471-41889-7. doi: 10.1002/0471271357. URL http://dx.doi.org/10.1002/
0471271357.
Steen Thorbjø rnsen. Forelæsningsnoter i Videregående Sandsynlighedsteori. Aarhus Uni-

versitetsforlag, 2017.
67
Exercise 3.1 Vis, at for K = 2 er S−1 (x̄1· − x̄2· ) en egenvektor for SSD1−1 SSD2 , hvor
SSD1 og SSD2 er indført i henholdsvis (3.14) og (3.13), og redegør herved at der er
overensstemmelse mellem diskriminantfunktionen indført i (3.6) og den første (og her
eneste) diskriminantfunktion indført i Definitionen 3.3.
Vink: Vis at
n1 n2
SSD2 = (x̄1· − x̄2· )(x̄1· − x̄2· )∗
n1 + n2
og benyt Sætning A.2 eller Sætning A.5.
Exercise 3.2 Vis formlerne (3.14) og (3.13).

Vink, udnyt at for i = 1, . . . , K, j = 1, . . . , ni
∗ ∗
xij − x̄·· xij − x̄·· = xij − x̄i· + x̄i· − x̄·· xij − x̄i· + x̄i· − x̄·· ,
n
samt at ∑ j=i 1 xij − x̄i· = 0.

Exercise 3.3 Denne opgave vedrører test af identitet af middelværdivektorerne i to p-

dimensional normalfordelte observationsrækker med samme kovariansmatriks.
Først antages denne kendt, det vil sige, vi betragter modellen
M1 : Xij ∼ Np (µi , Σ0 ), j = 1, . . . , ni , i = 1, 2,
hvor Xij erne er uafhængige, og hvor kovariansmatricen Σ0 er kendt og regulær.
1◦ Vis, at maksimum likelihood estimatorerne for middelværdivektorerne i M1 er
1 ni 1
µ̂i = X̄i· = ∑
n i j =1
Xij ∼ Np (µi , Σ0 ), i = 1, 2,
ni
samt at den maksimale værdi af likelihood funktionen er
1 1 1 2 ni
2 i∑ ∑ (Xij − X̄i· )∗ Σ0−1 (Xij − X̄i· )},
L(µ̂1 , µ̂2 ) = exp {−
(2π )np/2 | Σ0 |n/2 =1 j =1
hvor n = n1 + n2 .
Betragt hypotesen
H: µ1 = µ2 ,
svarende til reduktionen fra model M1 til
M2 : Xij ∼ Np (µ, Σ0 ), j = 1, . . . , ni , i = 1, 2.
2◦ Gør rede for, at maksimum likelihood estimatoren for middelværdivektoren i M2

er
1 2 ni 1
µ̂ = X̄·· = ∑ ∑ Xij ∼ Np (µ, Σ0 ),
n i =1 j =1 n
69
70 OPGAVER
og at den maksimale værdi af likelihood funktionen er
1 1 1 2 ni
L(µ̂) = exp{− ∑ ∑ ( Xij − X̄·· )∗ Σ0−1 ( Xij − X̄·· )}.
(2π )np/2 | Σ0 |n/2 2 i =1 j =1
Vis endvidere, at der for likelihood ratio testoren Q for hypotesen H gælder, at
2 ni 2 ni
−2 ln Q = ∑ ∑ (Xij − X̄·· )∗ Σ0−1 (Xij − X̄·· ) − ∑ ∑ (Xij − X̄i· )∗ Σ0−1 (Xij − X̄i· ).
i =1 j =1 i =1 j =1
Nedenfor kan følgende omskrivning af −2 ln Q benyttes uden bevis:

n1 n2
−2 ln Q = ( X̄1· − X̄2· )∗ Σ0−1 ( X̄1· − X̄2· ).
n1 + n2
3◦ Vis, at under hypotesen H er
1 1 n + n2
X̄1· − X̄2· ∼ Np (0, ( + )Σ0 ) = Np (0, 1 Σ0 ), (3.48)
n1 n2 n1 n2
samt at
n1 n2
− 2 ln Q = ( X̄1· − X̄2· )∗ Σ0−1 ( X̄1· − X̄2· ) ∼ χ2 ( p). (3.49)
n1 + n2
Vi betragter nu situationen, hvor den fælles kovariansmatriks er ukendt, det vil

sige, vi betragter modellen
M̃1 : Xij ∼ Np (µi , Σ), j = 1, . . . , ni , i = 1, 2,
hvor Xij erne er uafhængige, og hvor kovariansmatricen Σ er ukendt og regulær. Vi

antager desuden at n1 + n2 − 2 ≥ p.
Lad
ni
SSD(i) = ∑ (Xij − X̄i· )(Xij − X̄i· )∗ , i = 1, 2.
j =1
4◦ Gør rede for, at i M̃1 er
W = SSD(1) + SSD(2) ∼ Wp (Σ, n1 + n2 − 2), (3.50)
samt at
1
S= (SSD(1) + SSD(2) )
n1 + n2 − 2
er en middelværdiret estimator for Σ.
I M̃1 testes hypotesen H: µ1 = µ2 ved hjælp af Hotellings T2 testor, der fremkommer

ved i −2 ln Q testoren i (3.49) at erstatte den kendte kovariansmatriks Σ0 med estimatet
S for den ukendte kovariansmatriks Σ, det vil sige
n1 n2
T2 = ( X̄1· − X̄2· )∗ S−1 ( X̄1· − X̄2· ).
n1 + n2
OPGAVER 71
5◦ Vis ved hjælp af (3.48) med Σ0 erstattet med Σ, (3.50) og Sætning 5.9 i Andersen
[2020], at
n + n2 − ( p + 1) 2
F= 1 T ∼ F ( p, n1 + n2 − ( p + 1)).
p ( n1 + n2 − 2)
Exercise 3.4 Betragt datasættet firben på filen firben.dat.

I spørgsmålene nedenfor antages prior-sandsynlighederne at være identiske.
1◦ Foretag lineær og kvadratisk klassifikation ved hjælp af R, baseret på vægt og

længde, det vil sige de variable v og l.
2◦ Foretag lineær og kvadratisk klassifikation ved hjælp af R, baseret på log(vægt)

og log(længde), det vil sige de variable lnv og lnl.
3◦ Benyt lineær klassifikation til klassificere et nyt firben, for hvilket (v, l ) = (2, 60).
Benyt både (v, l ) og den tilsvarende værdi af (lnv, lnl ). Hvordan skal resultatet
fortolkes?
Exercise 3.5 Som tidligere omtalt vil APER undervurdere den reelle fejlrate for vores
klassifikationsprocedurer. Dette er i særdeleshed et problem ved mellem- til højdimen-
sionale datasæt, hvilket illustreres i denne opgave.
Opgaven vedrører datasættet på filen sonar.dat. Datasættet indeholder i alt n =
208 observationer, der hver består af p = 60 målinger. Hver observation er et sonar-
signal, der er tilbagekastet fra enten en metal-cylinder eller en sten, og variablen Class
angiver med M henholdsvis R hvilken af de to muligheder, der er tale om. Hver måling
er et tal mellem 0.0 og 1.0 som angiver den energien indenfor forskellige frekvensbånd
integreret over tid.
1◦ Foretag lineær og kvadratisk klassifikation ved hjælp af R og beregn i begge til-

fælde APER og Ê(AER).
Exercise 3.6 I denne opgave betragtes Sonar datasættet fra Øvelse 3.5. Da hver obser-
vation består af 60 målepunkter, kan vi ikke umiddelbart visualisere det.
1◦ Benyt teknikken som er beskrevet i forbindelse med Figur 3.2 til at plotte kode til
at plotte z1i med i for i = 1, . . . , 208.
Exercise 3.7 I forbindelse med en amerikansk salgskampagne for havetraktorer øn-

sker man at klassificere ejere/ikke-ejere af disse ud fra indkomst x (målt i $1000) og
grundstørrelse y (målt i 1000) kvadratfod. Data er angivet i Tabel 3.12 og i Tabel 3.13 er
angivet i række standardberegninger, som skal benyttes i opgaven.
For de interesserede er datasættet endvidere til rådighed på filen havetraktor.dat.
En indledende modelkontrol bekræfter at data kan beskrives ved modellen
( 2
)
Xij µix σix ρi σix σiy
M0 : ∼ N2 ( , 2 ), i = 1, 2, j = 1, . . . , ni ,
Yij µiy ρi σix σiy σiy
hvor n1 = 12 = n2 = 12, altså modellen for to uafhængige observationsrækker fra den

todimensionale normalfordeling.
72 OPGAVER
ejer Ikke-ejer
x y x y
90.0 18.4 105.0 19.6
115.5 16.8 82.8 20.8
94.8 21.6 94.8 17.2
91.5 20.8 73.2 20.4
117.0 23.6 114.0 17.6
140.1 19.2 79.2 17.6
138.0 17.6 89.4 16.0
112.8 22.4 96.0 18.4
99.0 20.0 77.4 16.4
123.0 20.8 63.0 18.8
81.0 22.0 81.0 14.0
111.0 20.0 93.0 14.8
Tabel 3.12: Data for ejere og ikke-ejere af havetraktorer
Havetraktor-ejer Ikke-ejer
x y x y
n 12 n 12
S 1313.70 243.20 1048.80 211.60
USS 147696.39 4973.76 93872.88 3780.32
SP 26494.32 SP 18465.36
SSD 3879.08 44.91 2207.76 49.11

SPD −130.00 SPD −28.89
Tabel 3.13: Standardberegninger for data fra Tabel 3.12
1◦ Vis ved hjælp af tre test, at det kan antages, at σ1x

2 = σ2 = σ2 , σ2 = σ2 = σ2 og
2x x 1y 2y y
ρ1 = ρ2 = ρ.
Resultaterne i 1◦ medfører, at det kan antages, at de to observationsrækker har
samme kovariansmatriks Σ.
2◦ Beregn det middelværdirette estimat S for Σ, samt estimaterne for middelværdi-

vektorerne µ1 og µ2 . Angiv desuden de tilsvarende estimatorers fordelinger.
3◦ Beregn diskriminantfunktionen â og benyt denne til at klassificere en observation

med ( x, y) = (100, 16);
OPGAVER 73
Kilde: Richard A. Johnson and Dean W. Wichern (2002): Applied Multivariate Stati-
stical Analysis. New Jersey: Prentice Hall, Inc.
Exercise 3.8 Et hospital ønsker at udvikle en procedure til, ved hjælp af en blodprøve,
at afgøre om en person er bærer af et gen, der forårsager hæmofili A - en variant af
blødersygdommen. Af denne årsag har man på grupper af kvinder udtaget blodprøver
og målt variable: x1 = activity, som angiver log10 (AHF activity) og x2 = antigen,
som er log10 (AHF antigen). De to grupper består af n1 = 45 kvinder som er bærere
(carrier) af genet og n2 = 30 kvinder, som er ikke-bærere (noncarrier).
Datasættet findes på filen hemo.dat:
1◦ Undersøg om data kan antages at være todimensional normalfordelte, og opskriv

den relevant statistiske model.
2◦ Beregn den lineære klassifikationsfunktion, hvor priorsandsynlighederne anta-
ges at være identiske og evaluer klassifikationen ved beregne Ê(AER).
3◦ Klassificér to nye observationer, med ( x1 , x2 ) = (−0.120, 0.121) og ( x1 , x2 ) =
(−0.126, −0.019).
4◦ Blødersygdommen er arvelig, så hvis man kender forældrenes sygdomsmønster,
kan man forbedre klassificeringen. Gentag 2◦ og 3◦ , idet prior sandsynligheden
for carrier er 0.25 og prior sandsynligheden for noncarrier er 0.75.
Exercise 3.9 I artiklen Gerrild and Lantz [1969] analyseres råolie-prøver fra tre typer
sandsten: Wilhelm, Sub-Mulinia og Upper. For hver prøve måles der på 5 variable:
x1 = vanadium (i procent aske)

x2 = jern (i procent aske)
x3 = beryllium (i procent aske)
x4 = mættet kulbrinte (i procent af areal)
x5 = aromatisk kulbrinte (i procent af areal)
1◦ Antag at data kan betragtes som normalfordelt og beregn konfusionsmatricen

ved krydsvalidering for den relevante klassifikationsprocedure.
2◦ Undersøg om antagelsen om normalfordeling er rimelig.
I Johnson and Wichern [2007] foreslås følgende transformation af data:
y1 = x1
√
y2 = y2
√
y3 = y3
y4 = 1/y4
y5 = y5
74 OPGAVER
3◦ Gentag 1◦ for de transformerede data.
4◦ Gentag 3◦ , men hvor nogle (efter eget valg) variable udelades. Hvilke variable er
vigtige for klassificeringen?
Datasættet findes på filen crude.dat.

Kapitel 4
Principal Komponent Analyse
x y y
4
1.74 1.36
1.84 2.41 3
0.45 −0.49 ●
2
−1.58 −1.51
●
−0.18 1.33 1
●
0.98 0.42 ●
●
−1.92 −1.80 0
●
●
● ●
−0.63 −0.75 ●
●
−1
0.21 −0.31 ●
0.49 −0.28 −2
● ●
−0.52 −0.18
0.03 0.55 −3
−0.26 0.12
−4 −2 0 2 4
1.47 0.91
−2.12 −1.78 x
Figur 4.1: Et næsten en-dimensionalt datasæt og det tilhørende scatterplot.

I dette afsnit vil vi give en introduktion til teknikken principal komponent analyse, som
vi vil referere til ved sin engelske forkortelse, PCA. Vi vil starte med at indføre princi-
pal komponenterne ud fra et ønske om dimensions-reduktion, et begreb som i sig selv
uddybes nedenfor. Dernæst vil omtale hvordan teknikken også kan bidrage til fortolk-
ningen af et datasæt.
Præsentationen i kapitlet læner sig tæt op ad Johnson and Wichern [2007].
4.1 Empiriske principal komponenter

Vi lægger ud betragte en følge af n punkter xi i = 1, . . . , n i R p . Vi antager følgen
opfylder at ∑in=1 xi = 0, da vi ellers vil kunne opnå dette vi at betragte xi − x̄· . Vi ønsker
at finde det endimensionale underrum L, som bedst muligt beskriver datasættet i den
75
76 Kapitel 4. Principal Komponent Analyse
y y
4 4
3 3
● ●
2 2
● ● ● ●
1 ● 1 ●
● ●
● ●
● ●
0 0
● ●
● ● ● ●
● ●
● ●
−1 −1
● ●
● ● ● ●
−2 −2
−3 −3
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figur 4.2: Datasættet fra Figur 4.1 med Figur 4.3: Datasættet fra Figur 4.1 med
det lineære underrum span((1, 2)∗ ) det lineære underrum span((3, 1)∗ )
samt de tilhørende ortogonale projek- samt de tilhørende ortogonale projek-
tioner indtegnet. tioner indtegnet.
forstand, at hvis P betegner den ortogonale projektion på L da vil P minimere summen

n
∑ kxi − Pxi k2 . (4.1)
i =1
L er endimensionalt, og vil derfor være på formen L = span(a) for en vektor a ∈ R p ,

som vi kan antage opfylder a∗ a = 1, og projektionsmatricen vil i dette tilfælde være
givet ved P = aa∗ . Endvidere kan vi uden videre dividere med n i (4.1), hvilket vi vil
gøre, da udtrykket herved kommer til at involvere Mean Square Error (MSE) som vi
stødte på, på side 13, hvor begrebet dog vedrørte estimatorer. Vi ender således i første
omgang med følgende minimeringsproblem
def 1 n
n i∑
MSE(a) = kxi − aa∗ xi k2 , (4.2)
=1
under bibetingelsen a∗ a = 1.
Før vi går videre, vil vi betragte et konkrete eksempel på problemstillingen, som er

givet ved datasættet fra Figur 4.1, hvor vi betragter 15 punkter fra R2 . På Figurerne
4.2 og 4.3 er linierne svarende til de lineære underrum span((1, 2)∗ ) og span((3, 1)∗ )
indtegnet og de stiplede linier indikerer i begge figurer afstanden til de pågældende
underrum. Den størrelse vi ønsker at minimere er således summen af kvadraterne på
længderne af de stiplede linier.
def
Vi omskriver nu MSE fra (4.2) og indfører zi = a∗ xi således at
1 n ∗ 1 n 1 n 1 n
MSE(a) = ∑
n i =1
xi xi − ∑ (a∗ xi )2 = ∑ xi∗ xi − ∑ z2i .
n i =1 n i =1 n i =1
(4.3)
4.1. Empiriske principal komponenter 77
Minimering af MSE(a) svarer altså til maksimering af n1 ∑in=1 (a∗ xi )2 , hvilket vi med
z = (z1 , . . . , zn )∗ kan skrive som USSz /n og da z· = 0 vil denne være lig SSDz /n
hvilket vi genkender som den empiriske varians for følgen z1 , . . . , zn . Vi ser altså, at
vores oprindelige problem med at finde en en-dimensional repræsentation af vores
datasæt, er blevet til et spørgsmål om at maksimere den empiriske varians af en linear
transformation af vores datapunkter. Vi ønsker at benytte resultatet A.4 i Appendikset
til at løse dette maksimeringsproblem, og vi indfører derfor n × p X hvis ite række er
xi (med andre ord: “datamatricen” svarende til x1 , . . . , xn ). Vi har da z = Xa og kan
derfor omskrive
z∗ z (Xa)∗ (Xa)
∗
SSDz USSz ∗ X X
= = = =a a. (4.4)
n n n n n
def
Ved at sætte Σ̂ = X∗ X/n og kombinere (4.3) med (4.4) får vi at
1 n ∗ SSDXa
∑
n i =1
xi xi − MSE(a) =
n
= a∗ Σ̂a . (4.5)
Vi kan nu anvende Sætning A.4, som ikke blot fortæller at det endimensionale under-
rum som vi indledningsvist søgte efter er span(ô(1) ) hvor ô(1) er en normeret egenvek-
tor hørende til λ̂1 , den største egenværdi for Σ̂, men også, at hvis vi ønsker at maksime-
re (4.5) under bibetingelsen af a∗ ô(1) = 0 så vil dette maksimum antages for ô(2) og så
fremdeles. Endeligt bemærker vi, at ô∗(i) Σ̂ô( j) = 0, for i 6= j, da ô∗(i) Σ̂ô( j) = o∗(i) λ j o( j) =
0, og at ô∗(i) Σ̂ô( j) /n er den empiriske kovarians mellem z1 = Xô(i) og z2 = Xô( j) , som
vi på side 82 i Andersen [2020] betegnede SPDz1 z2 /n.
Vi kan nu definere de empiriske principal komponenter:
Definition 4.1
Den linear kombination Xa1 der maksimerer den

Den første empiriske
= empiriske varians af z1 = Xa1 under bibetingelsen
principal komponent
at a1∗ a1 = 1.
Den linear kombination Xa2 der maksimerer den

Den anden empiriske empiriske varians af z2 = Xa2 under bibetingelsen
=
principal komponent at a2∗ a2 = 1 samt at den empiriske kovarians mellem
z1 og z2 er nul.
og generelt:
Den linear kombination Xai der maksimerer den

Den ith empiriske empiriske varians af zi = Xai under bibetingelsen
= N
principal komponent at ai∗ ai = 1 samt at den empiriske kovarians mellem
zi og z j er nul for j < i.
y y
4 4
3 3
● ●
2 2
● ● ● ●
1 ● 1 ●
● ●
● ●
● ●
0 0
● ●
● ● ● ●
● ●
● ●
−1 −1
● ●
● ● ● ●
−2 −2
−3 −3
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figur 4.4: Datasættet fra Figur 4.1 med Figur 4.5: Datasættet fra Figur 4.1 med
det lineære underrum span(ô(1) ) samt det lineære underrum span(ô(2) ) samt
de tilhørende ortogonale projektioner de tilhørende ortogonale projektioner
indtegnet. indtegnet.
For data eksemplet fra 4.1 finder vi

1.43 1.20 0.72 0.70
Σ̂ = ô(1) = ô(2) =
1.20 1.36 0.70 −0.72
De tilsvarende lineære underrum er indtegnet på Figur 4.4 og Figur 4.5. Vi bemær-

ker iøvrigt med henvisning til A.5 i Appendikset at den empiriske varians faktisk er
minimal når vi projicerer ned på ô(2) .
4.2 Teoretiske principal komponenter

Det er værd at bemærke at vi intetsteds i Afsnit 4.1 refererede til nogen statistisk model
af nogen art. Det vil vi gøre i dette afsnit, idet vi vil betragte en stokastisk vektor X med
tilhørende kovariansmatrix Σ, hvis ordnede egenværdier betegnes λ1 ≥ λ2 ≥ . . . λ p ≥
def
0. Lad ai i = 1, . . . , p være p-dimensionale søjlevektorer og sæt Yi = ai∗ X. Ifølge (A.73)
/ Opgave 1.6 i Andersen [2020] har vi
Var(Yi ) = ai∗ Σai i = 1, 2, . . . , p (4.6)

Cov(Yi , Yj ) = ai∗ Σa j i, j = 1, 2, . . . , p . (4.7)
Motiveret af Afsnit 4.1 ønsker vi finde de ai -er der maksimerer varianserne (4.9) under
den begrænsning at Yi -erne skal være ukorrelerede, altså kovarianserne i (4.10) skal
være nul.
Vi definerer nu principal komponenterne for X. Definitionen følger præcis definitionen

af de empiriske principal komponenter givet i Definition 4.1.
4.2. Teoretiske principal komponenter 79
Definition 4.2
Den første principal Den linear kombination a1 X der maksimerer varian-

=
komponent sen Var(a1∗ X) under bibetingelsen at a1∗ a1 = 1.
Den linear kombination a2 X der maksimerer varian-

Den anden principal
= sen Var(a2∗ X) under bibetingelsen at a2∗ a2 = 1, samt
komponent
at Cov(a1∗ X, a2∗ X) = 0.
og generelt:
Den linear kombination ai X der maksimerer varian-
Den ith principal
= sen Var(ai∗ X) under bibetingelsen at ai∗ ai = 1, samt N
komponent
at Cov(ai∗ X, a∗k X) = 0, k < i.
Theorem 4.3 Lad Σ betegne kovariansmatricen for en stokastisk vektor X. Lad λ1 ≥

λ2 ≥ · · · ≥ λ p betegne egenværdierne for Σ og lad o(i) betegne en normeret egenvektor
svarende til λi . Den ite principal komponent er da givet ved
Yi = o∗(i) X i = 1, 2, . . . , p , (4.8)
og der gælder i da at
Var(Yi ) = o∗(i) Σo(i) = λi i = 1, 2, . . . , p (4.9)

Cov(Yi , Yj ) = o∗(i) Σo( j) = 0 i, j = 1, 2, . . . , p . (4.10)

Proof. Resultatet følger ved at benytte Sætning A.4. Vi starter med at observere, at
(4.9) medfører at den første principal komponent findes ved løsning af maksimerings-
problemet
max
∗
a1∗ Σa1 .
a1 a1 =1
Sætning A.4 giver nu umiddelbart at den første principal komponent er givet ved Y1
fra (4.8). Med den første principal komponent ved hånden kan den anden nu findes
(ved at benytte (4.9) og (4.10)) ved løsning af maksimeringsproblemet
max a2∗ Σa2 .

a2∗ a2 =1
∗
o(1) Σa2 =0
Da o∗(1) Σ = λ1 o∗(1) er dette identisk med følgende
max
∗
a2∗ Σa2 ,
a2 a2 =1
o∗(1) a2 =0
og Sætning A.4 giver nu at Y2 fra (4.8) er den anden principal komponent. De resteren-
de principal komponenter kan nu findes ved successiv anvendelse af Sætning A.4.
Bemærkning 4.4 En af fortolkningerne af principal komponenterne er at de hver for

sig “forklarer” en del af den totale varians, som her er defineret ved tr(Σ) = σ11 +
· · · + σpp . Fortolkningen retfærdiggøres ved benytte at sporet af Σ kan beregnes som
summen af egenværdierne tr(Σ) = λ1 + · · · + λ p , jvf. A.34 i Andersen [2020]. Vi siger
derfor at den kte principal komponent forklarer λk /(λ1 + · · · + λ p ) % af den totale vari-
ans og at de første k principal komponenter kumuleret forklarer (λ1 + · · · + λk )/(λ1 +
· · · + λ p ) % af den totale varians H
I praksis står man ofte i den situation af de første få (en, to eller tre) principal kompo-
nenter forklarer en stor (80% − 90%) del af variansen og man kan derfor se bort fra de
resterende principal komponenter, uden, løst sagt, at miste meget information.
De individuelle komponenter i o∗(i) = (oi1 , . . . , oik , . . . , oip ) kan også fortolkes, idet kor-
relationen mellem Yi og Xk er proportional med oik , hvilket vi formulerer i nedenstå-
ende resultat:
Theorem 4.5 Lad Yi = o∗(i) X, i = 1, . . . , p betegne principal komponenterne fra (4.8).

Da gælder at
√
oik λi
Cor(Yi , Xk ) = √
σkk
Proof. Ved at skrive Xk = Xek hvor ek er en vektor hvis k-te komponent er 1 og resten
er 0 fås af (A.73) fra Andersen [2020] at Cov(Yi , Xek ) = o∗(i) Σek og dermed
o∗(i) Σek √
Cov(Yi , Xk ) λi oik oik λi
Cor(Yi , Xk ) = p =√ √ =√ √ = √ . (4.11)
Var(Yi ) Var( Xk ) λi σk k λi σkk σkk

4.3 Principal komponenter og normalfordelingen

Hvis X er regulært normalfordelt kan vi knytte en yderligere fortolkning til principal
komponenterne. Vi antager først at middelværdien for X er nul, d.v.s. X ∼ Np (0, Σ).
Tætheden for X er da ifølge Proposition 2.16 i Andersen [2020]
1 1 ∗ −1
Σ x
f X (x) = p 1
e− 2 x , x ∈ Rp. (4.12)
(2π ) |Σ|
2 2
Konturkurverne for f X er {x ∈ R p | f X (x) = k} eller, ækvivalent hermed,
{ x ∈ R p | x∗ Σ −1 x = c 2 } . (4.13)
I (4.12) i Andersen [2020] er tilfældet med p = 2 skrevet ud. Vi genkender x∗ Σ−1 x

som en kvadratisk form, og kan derfor benytte resultaterne for niveaukurver for kva-
dratiske former fra Appendix A.1.15 i Andersen [2020], som vi gentages her for at
belyse principal komponenterne. Vi foretager et variabelskift svarende til (4.8), det
4.4. Standardiserede principal komponenter 81
y2 x2
y1
r λ1
r λ2
x1
−r λ 2
−r λ 1
Figur 4.6: Ellipser i det generelle tilfælde ved p = 2 med indtegnede halvakser. De tykt
optrukne liniestykker er de normaliserede egenvektorer for Σ
vil sige yi = o∗(i) x, og observerer at y = (y1 , . . . , y p )∗ vil opfylde at x = Oy med

O = o(1) , . . . , o( p) . Konturkurven i (4.13) kan dermed skrives i y-koordinaterne:
{ y ∈ R p | y∗ ∆ −1 y = c 2 } . (4.14)
hvor ∆ er diagonal matricen hvis diagonalindgange er {λi } (bemærk at λi−1 er en egen-

værdi for Σ−1 hørende til egenvektoren o(i) ). Skrives (4.14) ud fås
2 2 2
y y y
∗ p
{(y1 , . . . , y p ) ∈ R | √1 + √1 +···+ √1 = c2 } . (4.15)
λ1 λ1 λ1
og i (4.15) genkendes forskriften for en ellipsoide (ellipse for p = 2). Situationen er

afbilledet i Figur 4.8. Bemærk at i akserne y-koordinatsystemet ligger i retninger for
o(i) -erne.
Vi antog indledningsvist at middelværdien µ var nul. Hvis dette ikke er tilfældet be-
nyttes ovenstående argumenter på X − µ i stedet, og konsekvensen af dette er at y-
koordinatsystemet er centreret i µ i stedet for i 0, se Figur A.1 i Andersen [2020].
4.4 Standardiserede principal komponenter

Hvis en variabel er numerisk stor i forhold til de andre variable i et datasæt, kan man
risikere at denne kommer til at dominere i en principal komponent analyse, og en
måde at tage højde for dette er at betragte standardiserede variable, defineret ved
Z = D−1 (X − µ ) (4.16)
hvor √ 
σ11 0 ... 0


 0 √ 

... 0
 
σ22 
D= .. .. .. .. .
 . . .  .


 0 √  
0 ... σpp 
Skrives (4.16) ud, fås,
x1 − µ1
z1 = √
σ11
x2 − µ2
z2 = √
σ22 (4.17)
..
.
xp − µp
zp = √ .
σpp
Vi bemærker at kovariansmatricen for Z er korrelationsmatricen for X, idet vi kan be-
nytte regnereglerne i afsnit (A.4.3) i Andersen [2020] til at få
Cov(Z) = D−1 ΣD−1 = ρ .
Principal komponenterne af Z kan altså findes ved at beregne egenvektorerne õ(i) for
korrelationsmatricen ρ for X, og er givet ved
Yi = õ∗(i) Z = õ∗(i) D−1 (X − µ) .
Resultaterne fra sætningerne 4.3 og 4.5 gælder med mindre (og simple) modificeringer
som er konsekvenser af at variansen på komponenterne i Z er 1, og således har vi
p p
∑ Var(Yi ) = ∑ Var Zi = p
i =1 i =1
og
p
Cor(Yi , Zk ) = õik λi .
Bemærkning 4.6 Det er vigtigt at bemærke at egenvektorerne õ(i) for korrelationsma-

tricen og egenvektorerne o(i) generelt ikke er identiske og der er ikke nogen simpel
relation mellem dem. H
4.5 Anvendelser af principal komponenter

I dette afsnit vil vi præsentere anvendelser af principal komponenter. Først gives ek-
sempler på klassisk principal komponent analyse, hvor de principale komponenter
estimeres ved deres empiriske modstykker, som blev gennemgået i Afsnit 4.1, og væg-
tene (som vi kaldte loadings i forbindelse med PCA) for de første principal komponen-
ter fortolkes. Dernæst præsenteres en anvendelse af principal komponenter til at finde
grupper i et datasæt - det, som i moderne terminologi kaldes unsupervised learning.
4.5. Anvendelser af principal komponenter 83
Egenværdi Andel af variansen kumulativ andel

1.95 0.65 0.65
0.76 0.25 0.9
0.29 0.10 1
Tabel 4.1: Egenvektorer og forklaret varians for Eksempel 4.7, beregnet ud fra kovari-
ansmatricen (4.18).
Example 4.7.
I artiklen Pearce [1965], som er omtalt i Rencher [1998], beskrives målinger på 54 æb-
letræer. De variable er y1 = total længde af sidegrene, y2 = omkreds af stammen and
y3 =højde. Da varianserne har forskellig størrelsesorden betragtes de standardiserede
variable, yi0 , i = 1, 2, 3, som er dannet som (4.17) med estimaterne indsat for middel-
værdier og varianser. Den estimerede korrelationsmatrix findes til
 
 1 · ·
ρ̂ = 0.5702 1 · (4.18)
0.2414 0.5816 1
 
Egenværdierne er angivet i Tabel 4.1 og de tilhørende egenvektorer findes til
ô(1) = ( 0.534, 0.654, 0.536)∗

ô(2) = (−0.709, 0.001, 0.705)∗
ô(3) = (−0.460, 0.757, −0.464)∗ .
Med ovenstående betegnelser er den første principal komponent altså z1 = 0.534y10 +

0.654y20 + 0.536y30 og svarer altså til et gennemsnit af de indgående variable og udgør
som sådan et overordnet mål for størrelsen af træet. Den anden principal komponent
er z2 = −0.709y10 + 0.001y20 + 0.705y30 og altså næsten proportional med y30 − y10 . Denne
udgør et mål for formen af træet, da y3 angiver højden og y1 er relateret til bredden af
træet. Endeligt er den tredje principal component z3 = −0.460y10 + 0.757y20 − 0.464y30 .
Denne sammenligner omkredsen af træet med de to mål for højde og bredde af træet,
og udgør derfor er andet mål for formen af træet.
Example 4.8.
Dette eksempel er taget fra Johnson and Wichern [2007], og omhandler ugentlige afkast
for fem aktier i perioden januar 2004 til december 2005, hvilket svarer til 103 observa-
tioner. De fem aktier er knyttet til tre banker (JP Morgan, Citibank og Wells Fargo) og
to olieselskaber (Royal Dutch og ExxonMobil). De ugentlige afkast er her defineret til
at være (ugentlig lukkepris - foregående uges lukkepris)/foregående uges lukkepris,
justeret for aktiesplit og dividender. Vi betragter de standardiserede variable y10 , . . . , y50
svarende til henholdsvis JP Morgan, Citibank, Wells Fargo, Royal Dutch Shell og Exxon
Egenværdi % af Egenvektor
i
λ̂i variansen ô(i)
1 2.4370 0.49 ( 0.469, 0.532, 0.465, 0.387, 0.361)∗
2 1.4070 0.77 (−0.368, −0.236, −0.315, 0.585, 0.606)∗
3 0.5010 0.87 ( 0.604, 0.136, −0.772, −0.093, 0.109)∗
4 0.4000 0.95 (−0.363, 0.629, −0.289, 0.381, −0.493)∗
5 0.2550 1.00 (−0.384, 0.496, −0.071, −0.595, 0.498)∗
Tabel 4.2: Egenvektorer og forklaret varians for Estimerede korrelationsmatrix for

ugentlige afkast for fem aktier i perioden januar 2004–2005 kovariansmatricen (4.18).
Mobil. Estimatet for korrelationsmatricen findes til

 

 1.000 · · · · 
0.632 1.000 · · · 

 

ρ̂ = 0.510 0.574 1.000 · · . (4.19)
0.115 0.322 0.182 1.000 ·

 


 

0.154 0.213 0.146 0.683 1.000
 
Det fremgår af Tabel 4.2 at de to første principal komponenter samlet forklarer 77% af
variansen og er givet ved
z1 = 0.469y10 + 0.532y20 + 0.465y30 + 0.387y40 + 0.361y50

(4.20)
z2 = −0.368y10 − 0.236y20 − 0.315y30 + 0.585y40 + 0.606y50 .
Den første principal komponent er således et vægtet gennemsnit af de indgående af-

kast, og kaldes en generel markedskomponent. Fortolkningen er her, at denne komponent
beskriver den del af variationen i markedet, der skyldes eksterne faktorer og som så-
dan er fælles for hele markedet. Som det fremgår, udgør den anden principal kompo-
nent en differens mellem en vægtet sum af bankaktierne og en vægtet sum af industri-
aktierne og kan derfor kaldes en industri-komponent. De resterende principal kompo-
nenter er sværere at fortolke, men udgør under alle omstændigheder ikke nogen stor
del af variationen.
Vi betragter her datasættet omhandlende sportsskader, som blev brugt som eksem-
pel på diskriminantanalyse med flere grupper. Estimatet for kovariansmatricen S blev
angivet i (3.15) og dennes egenværdier og tilhørende egenvektorer er angivet i Tabel
4.3. Vi vil udelade en analyse af principal komponenterne, da denne bliver meget lig
analysen i Eksempel 4.7. De to første principal komponenter, y1 og y2 , er plottet mod
hinanden i Figur 4.7, og kan sammenlignes med plottet af de to første diskriminant-
funktioner fra Figur 3.2, idet også middelværdierne i y-koordinaterne er indtegnet og
det er værd at bemærke disse praktisk talt ligger på en ret linie, hvilket blev omtalt på
side 47.
4.5. Anvendelser af principal komponenter 85
Egenværdi % af Egenvektor
i
λ̂i variansen ô(i)
1 3.935 0.619 ( 0.179, 0.884, 0.292, 0.245, 0.132, 0.153)∗
2 1.174 0.803 ( 0.077, 0.194, 0.192, −0.893, −0.323, 0.132)∗
3 0.510 0.883 (−0.291, 0.142, −0.088, 0.305, −0.891, −0.028)∗
4 0.424 0.950 ( 0.660, −0.151, −0.299, 0.122, −0.189, 0.634)∗
5 0.180 0.978 ( 0.369, 0.279, −0.636, −0.121, −0.035 − 0.605)∗
6 0.139 1.000 (−0.552, 0.246, −0.614, −0.141, 0.218, 0.437)∗
Tabel 4.3: Egenværdier og tilhørende egenvektorer for kovariansmatricen fra (3.15).
y2
●
32
31 ●
●
●
●
●
30 ● ●
● ●
● ●
●
● ●
●
29 ●
●
● ●● ●
● ●
● ●
● ●
● ●
● ●
28 ●
●
●
●
● ●
●
● ●
● ●
●
●
●
27
●●
●
● ● ●
●
● ● ●
●
26 ●
●
● ●
−66 −64 −62 −60 −58 −56
y1
Figur 4.7: Plot af anden principal komponent mod første principal data for datasættet
fra Eksempel 3.4
Vi giver nu et eksempel, hvor de principale komponenter bruges til at finde grupper i

et datasæt. Her benyttes de principale komponenter altså som et eksplorativt værktøj,
fremfor et fortolkningsmæssigt værktøj.
Example 4.9.
I dette eksempel gengives et datasæt fra artiklen Jeffers [1967]. Datasættet indeholder
målinger på 19 variable for 40 vingede bladlus. De 19 variable er beskrevet i Jeffers
[1967] og måler forskellige fysiologiske karakteristika ved bladlusene. Da målingerne
er meget forskelligartede er det naturligt at betragte de standardiserede variable - da-
tasættet er ikke gengivet her, men er gengivet i Krzanowski [1987], og i Tabel 4.4 er
egenværdierne for den estimerede korrelationsmatrix angivet.
Egenværdi Andel af variansen kumulativ andel

1 13.84 0.73 0.73
2 2.37 0.12 0.85
3 0.75 0.04 0.89
4 0.50 0.03 0.92
5 0.28 0.01 0.93
6 0.26 0.01 0.95
7 0.18 0.01 0.96
8 0.16 0.01 0.96
9 0.14 0.01 0.97
10 0.13 0.01 0.98
11 0.09 0.00 0.98
12 0.08 0.00 0.99
13 0.07 0.00 0.99
14 0.04 0.00 0.99
15 0.03 0.00 1.00
16 0.02 0.00 1.00
17 0.02 0.00 1.00
18 0.01 0.00 1.00
19 0.00 0.00 1.00
Tabel 4.4: Egenvektorer og forklaret varians for Eksempel 4.9
Et af målene med undersøgelsen var at finde ud af om de vingede bladlus udgjorde

een eller flere arter, og dette kan undersøges ved hjælp af de empiriske principal kom-
ponenter. Plottes disse de to første af disse mod hinanden, som det er gjort på Figur 4.8
ses fire forskellige grupper, hvilket fortolkes således at målingerne er foretaget på fire
forskellige arter af vinget bladlus.
4.5.1 Hvor mange komponenter skal benyttes?

Følgende kommentarer til taget fra Rencher [1998]. Hvor mange komponenter som
skal benyttes i en analyse vil være afhængigt af formålet med analysen og altid en
smule subjektivt. Vi angiver her forskellige mulige strategier:
4.5.1. Hvor mange komponenter skal benyttes? 87
z2
● ●
●
●
● ●
●
2 ●
●
●
●
●
●
●
1
●
0 ●
●
●
● ●
●
●●
● ●
−1
● ● ● ●
●
● ●
●
● ●● ●
●●
●
−2
−6 −4 −2 0 2 4 6
z1
Figur 4.8: Anden (estimerede) principal komponent plottet mod den første for data fra
Eksempel 4.9. Som det ses fremkommer fire grupper.
1. Benyt et antal komponenter, der forklarer en stor (∼ 80% − 90%) af variansen.

2. Benyt et scree plot, der plotter de estimerede egenværdier λ̂i mod i, med henblik
på at identificere en naturlig skillelinie mellem “store” og “små” egenværdier.
Eksempler på scree plots er givet i Figur 4.9 og 4.10.
3. Benyt de komponenter, der svarer til egenværdier som er større en gennemsnittet
p p
af egenværdier, ∑i=1 λ̂i /p. Motivationen for dette kriterie er at ∑i=1 λ̂i /p ifølge
Bemærkning 4.4 også er gennemsnittet af de estimerede varianser.
4. Foretag et test af at de mindste k egenværdier er små og identiske og se bort fra
disse, altså benytte de første p − k egenvektorer. Dette test forudsætter at data-
sættet kan betragtes som værende nogenlunde normalfordelt. Formelt kan dette
test formuleres som
H0k : λ p−k+1 = · · · = λk = λ (4.21)
og estimatet for λ er
p
def λ̂i
λ̂ = ∑ k
i = p − k +1
og teststørrelsen er X 2 hvor
!
p
2p + 11
2
X = n−
6
k log λ̂ − ∑ log λ̂i
i = p − k +1
som under hypotesen vil være udfald af en χ2 ( f ) fordeling med f = (k − 1)(k +

2)/2-fordeling. Se Opgave 4.4 for flere detaljer vedrørende dette test.
14 ●
4 ●
12
3
10
Størrelse af egenværdien
Størrelse af egenværdien
8
2
6
4 ●
1
●
2
●
●
●
●
● ● ● ● ● ● ●
● ● ●
0 ● ● ● ● ● ● ●
0
5 10 15 1 2 3 4 5 6
Egenværdi nummer Egenværdi nummer
Figur 4.9: Scree plot for data fra Eksem- Figur 4.10: Scree plot for data fra Ek-
pel 4.9 sempel 3.4
4.5.2 Afsluttende bemærkninger om principal komponenter

• Test for uafhængighed mellem alle komponenter.
Først kan vi have lyst til at teste uafhængighed af alle komponenter - dette test
blev udledt i Opgave 5.34 i Andersen [2020]. Hvis dette test ikke afvises, er der
ikke nogen grund til at foretage en principal komponent analyse.
• Information i de sidste principal komponenter

Selv om de første principal komponenter per definition forklarer størstedelen
af variansen i et givent datasæt, betyder dette ikke, at der ikke kan være vigtig
information i de sidste principal komponenter. En egenvektor knyttet til en meget
lille egenværdi indikerer kolinearitet i datasættet.
Litteratur
2020.
JNR Jeffers. Two case studies in the application of principal component analysis. Ap-
plied Statistics, pages 225–236, 1967.
3; 0-13-187715-1.
Wojtek J Krzanowski. Selection of variables to preserve multivariate data structure,

using principal components. Applied Statistics, pages 22–33, 1987.
SC Pearce. The measurement of a living organism. Biometrie-Praximetrie, 6:143–152,

1965.
Alvin C Rencher. Multivariate statistical inference and applications, volume 338. Wiley-
Interscience, 1998.
89
Exercise 4.1 Betragt kork-datasættet, som blandt andet blev benyttet i Opgave 5.39 i
Andersen [2020].
1◦ Angiv de fire principal komponenter for både de oprindelige og de standardise-

rede variable, og beregn i begge tilfælde for stor en del af variansen, der forklares
ved de forskellige komponenter.
2◦ Giv en fortolkning af første og anden principal komponent. Er der forskel på om

det er de oprindelige eller de standardiserede variable som betragtes? Stemmer
fortolkningen overens med resultaterne i Opgave 5.39?
Exercise 4.2 I denne opgave betragtes datasættet fra filen skulls.dat, som er beskre-
vet i Eksempler.pdf. Datasættet indeholder målinger på kranier fra ægyptiske mænd
fra 5 epoker. For hver epoke er der foretaget målinger af 4 variable på 30 kranier. De
4 variable er: Maximum Breadth (MB), Basibrematic Height (BH), Basialveolar Length
(BL) og Nasal height (NH), og vi betragter vi modellen
M0 : Xij ∼ N4 (µi , Σ), i = 1, . . . , 5, j = 1, . . . , 30,
hvor Xij -erne er uafhængige.
1◦ Beregn estimaterne µ̂i for middelværdivektorerne µi , i = 1, . . . , 5 og estimatet S

for kovariansmatricen Σ (i M0 ). Hvad er de tilsvarende estimatorers fordeling?
2◦ Beregn principal komponenterne baseret på S, estimatet for Σ i M0 . Kan du for-

tolke de første principal komponenter?
3◦ Lad ôi i = 1, . . . , 5 betegne egenværdierne for S. Beregn ô1 µ̂i og ô2 µ̂i og afsæt
disse i plot som indeholder de to første principal komponenter plottet mod hin-
anden. Farv punkterne i plottet med fem forskellige farver svarende til de fem
forskellige perioder. Hvad viser plottet?
Exercise 4.3 Betragt Sonar datasættet, som også blev betragtet i Øvelse 3.5. For sim-
pelheds skyld beskrives datasættet her som én observationsrække.
1◦ Beregn estimater for de 60 varianser σii i = 1, . . . , 60 og plot disse mod i.
2◦ Beregn principal komponenterne for både de originale og de standardiserede va-

riable og beregn estimater for de 60 varianser og plot de to scree plots.
3◦ Baseret på 1◦ og 2◦ , vil det være mest relevant at arbejde med originale eller de
transformerede variable?
Exercise 4.4 Betragt modellen M0 for en normalfordelt observationsrække fra Np , det

vil sige hvor X1 , . . . , Xn er uafhængige og ens fordelt Np (µ, Σ) hvor Σ er regulær. Vi
betragter her hypotesen om at de mindske k egenværdier ens som er formuleret i 4.22
H0k : λ p−k+1 = · · · = λk = λ (4.22)
91
92 OPGAVER
1◦ Vis, at under H0k er maksimum likelihood estimatet for λ givet ved

p
def λ̂i
λ̂ = ∑ k
.
i = p − k +1
2◦ Vis, at hvis likelihood ratio testoren Q opfylder at

!
p
−2 log Q = k log λ̂ − ∑ log λ̂i .
i = p − k +1
3◦ Gør rede for −2 log Q er approksimativt χ2 ( f ) fordelt med f = (k − 1)(k + 2)/2.
Exercise 4.5 (Perron-Frobenius) Lad A = { aij } være en symmetrisk n × n matriks,

hvis indgange alle er strengt positive, lad λ1 betegne den største egenværdi for A og
lad o(1) = (o1 , . . . , on )∗ betegne en tilhørende egenvektor, som vi antager har norm 1. I
denne opgave viser vi, at alle indgangene i o(1) har samme fortegn.
1◦ Vis, at λ1 > 0. (Vink: Betragt sporet af A).
2◦ Lad b ∈ R p være defineret ved at b = (b1 , . . . , bn )∗ opfylder at bi = |oi |, i =

1, . . . , n. Vis, at
λ1 = o∗(1) Ao(1) ≤ b∗ Ab (4.23)
3◦ Vis, at hvis to indgange i o(1) har forskelligt fortegn, så vil uligheden i (4.23) være
skarp. Vis, dernæst ved hjælp af A.6, at der gælder lighedstegn i (4.23).
Appendix
A.1 Maksimeringsresultat
I dette afsnit vises nogle resultater fra Mardia et al. [2003] og Horn and Johnson [1990].
Lemma A.1 Lad c og d være vektorer i R p , og lad Σ være en positiv definit matriks Da
gælder
(c∗ d)2 ≤ (c∗ Σc)(d∗ Σ−1 d) ,
med lighed hvis og kun hvis c = aΣ−1 d for et a ∈ R (eller d = aΣc).
Proof. Lad h·, ·iΣ betegne det til Σ knyttede indre produkt, defineret ved hx, yiΣ =
x∗ Σy for x, y ∈ R p . Ifølge Cauchy-Schwarz’ ulighed gælder der at
hx, yi2Σ ≤ hx, xiΣ hy, yiΣ

med lighed hvis og kun hvis x og y er lineært afhængige. Ved hjælp af dette fås
D E2 D E
(c d) = c, Σ d ≤ hc, ciΣ Σ d, Σ d = (c∗ Σc)(d∗ Σ−1 d)
∗ 2 −1 −1 −1
Σ Σ
med lighed hvis og kun hvis c og Σ−1 d er lineært afhængige, dvs. c = aΣ−1 d for et
a ∈ R.
Theorem A.2 Lad A og B være henholdsvis n × p og p × n matricer. Hvis λ 6= 0 er

en egenværdi for AB da er den det ligeledes for BA og den algebraiske multiplicitet
af λ er den samme for begge de to matrixprodukter. Endvidere gælder, at hvis x 6= 0
er en egenvektor for AB hørende til en egenværdi λ 6= 0 da er y = Bx 6= 0 og y er en
egenvektor for BA hørende til λ.
Proof. Fra Opgave 1.14 i p. 31 i Andersen [2020] har vi

|In + AB| = |I p + BA|.
og det følger heraf at
(−λ) p−n |AB − λIn | = |BA − λI p | . (A.1)
Første del følger nu, idet (A.1) siger at de karakteristiske polynomier for AB og BA
er altså identiske op til faktoren (−λ) p−n . Lad nu x 6= 0 være en egenvektor for AB,
hørende til egenværdien λ 6= 0. Da gælder for y = Bx at Ay = ABx = λx 6= 0 og
dermed er y 6= 0. Endvidere gælder at BAy = B(ABx) = λBx og vi ser at y er en
egenvektor for BA.
93
94 OPGAVER
Corollary A.3 Lad A og B være symmetriske matricer, hvor B er positiv definit. Så

gælder at egenværdierne for B−1 A er identiske med egenværdierne for B−1/2 AB−1/2
1
(og er som sådan reele) og hvis õ1 er en egenvektor for B−1/2 AB−1/2 så er B− 2 õ1 en
egenvektor for B−1 A. Endvidere gælder at hvis o1 og o2 er egenvektorer hørende til
forskellige egenværdier for matricen B−1 A så vil o1∗ Bo2 = 0, samt at hvis o er en egen-
vektor for B−1 A, så er B1/2 o en egenvektor for B−1/2 AB−1/2 .
Proof. Første del følger af Sætning A.2, ved at skrive B−1 A = B−1/2 B−1/2 A. Ved-
rørerende anden del af sætning observerer vi, igen med henvisning til Sætning A.2,
at hvis oi i = 1, 2 er egenvektorer hørende til forskellige egenværdier for B−1 A =
B−1 AB−1/2 B1/2 så er B1/2 oi , egenvektorer for den symmetriske matriks B−1/2 AB−1/2
hørende til samme (forskellige) egenværdier og disse opfylder
(B1/2 o1 )∗ B1/2 o2 = o1∗ Bo2 = 0 .
Vi vil nu vise en række resultater for funktioner på formen
f :R p → R
x∗ Ax (A.2)
x 7→ ∗ ,
x Bx
hvor A er symmetrisk og B er positiv definit. Når B = I p kaldes brøken ovenfor en
Rayleigh kvotient og x∗ Ax/x∗ Bx kaldes en generaliseret Rayleigh kvotient. Vi vil vise for-
skellige optimeringsresultater for f og får i denne forbindelse brug for spektraldekom-
positionen A = O∆O∗ af A, samt den symmetriske kvadratrod af B, B1/2 og dennes
inverse B−1/2 - begge dele er omtalt i afsnit A.1.14 i Andersen [2020]), og vi minder om
at søjlerne o(i) , i = 1, . . . , p, i den ortogonale matriks O er normerede egenvektorer for
A og at indgangene λ1 , . . . , λ p i diagonalmatricen ∆ er de tilhørende egenværdier, som
vi antager er ordnet i aftagende rækkefølge λ1 ≥ · · · ≥ λ p . Vi betragter først tilfældet
hvor B = I p , og observerer at
p p
∗
x Ax = x O∆O x =∗ ∗
∑x ∗
λi o(i) o∗(i) x = ∑ λi |o∗(i) x|2 , (A.3)
i =1 i =1
og tilsvarende
p
x∗ x = x∗ OO∗ x = ∑ |o∗(i) x|2 . (A.4)
i =1
Ved at kombinere (A.3) og (A.4) fås

p p p
∗
λpx x = ∑ λ p |o∗(i) x|2 ≤ ∑ λi |o∗(i) x|2 ∗
= x Ax ≤ ∑ λ1 |o∗(i) x|2 = λ1x∗ x .
i =1 i =1 i =1
Vi får således vores første resultat for Rayleigh kvotienten, nemlig
x∗ Ax
λp ≤ ≤ λ1 , x ∈ Rp , (A.5)
x∗ x
A.1. Maksimeringsresultat 95
og bemærker endvidere, at der kan opnås lighedstegn i (A.5), idet f (o(i) ) = λi , i =

1, . . . , p. I praksis er vi særligt interesserede i maksimering af f og bemærker derfor at
ovenstående giver at
x∗ Ax
max ∗ = λ1 , (A.6)
x6 =0 x x
og at maksimum antages i o(1) . Næste observation er at f (x) = f (αx) for α 6= 0 og vi

kan derfor uden tab af generalitet antage at maksimum i (A.6) tages over vektorer med
norm 1, altså at der gælder at
x∗ Ax x∗ Ax
max ∗
= max ∗
= max x∗ Ax = λ1 . (A.7)
x6 =0 x x kxk=1,x6=0 x x kxk=1
Resultaterne ovenfor har vedrørt den største og mindste egenværdi for A, og næste
spørgsmål er hvordan vi får de resterende egenværdier i spil. Svaret findes ved at
observere at hvis x ∈ R p står ortogonalt på o(1) forsvinder det dominerende led fra
summen (A.3):
p
o∗(1) x ∗
= 0 ⇒ x Ax = ∑ λi |o∗(i) x|2
i =2
og vi konkluderer på samme måde som i (A.6) at
x∗ Ax
max = max x∗ Ax = λ2 ,
x6 =0 x∗ x kxk=1
o∗(1) x=0 o∗(1) x=0
og da o∗(1) o(2) = 0 opnås maksimum igen for den normerede egenvektor hørende til
λ2 . Ovenstående ræsonnement generaliseres uden videre til generelt k og resultatet
formuleres i nedenstående sætning:
Theorem A.4 Lad A betegne en symmetrisk matriks med egenværdier λ1 ≥ · · · ≥ λ p
og tilhørende normerede egenvektorer o(i) i = 1, . . . , p, da gælder
x∗ Ax
max = max x∗ Ax = λ1 (A.8)
x6 =0 x∗ x kxk=1
og for k = 2, . . . , p
x∗ Ax
max = max x∗ Ax = λk (A.9)
x6 =0 x∗ x kxk=1
o∗(1) x=0,...,o∗(k−1) x=0 o∗(1) x=0,...,o∗(k−1) x=0
Maksimalværdien i begge tilfælde for λk opnås for o(k) .
Sætning A.4 er en skrabet udgave Courant-Fisher sætningen, se Horn and Johnson

[1990]. Vi vil nu generalisere ovenstående, til situationen med en generel positiv de-
finit matriks B i (A.2). I dette tilfælde bliver f maksimeret til lignende vis, men af
egenværdierne af B−1 A i stedet for A. I vores anvendelse får vi ikke brug for tilfældet
hvor vi betragter vektorer med norm 1, så dette udelades. Beviset går ud på foretage
et basisskifte og anvende Korollar A.3.
96 OPGAVER
Theorem A.5 Lad A og B være symmetriske p × p matricer, hvor B tillige er positiv de-
finit. Lad λ1 ≥ · · · ≥ λ p betegne egenværdierne for B−1 A med tilhørende normerede
egenvektorer o(i) i = 1, . . . , p. Der gælder da
x∗ Ax
max = λ1 (A.10)
x6 =0 x∗ Bx
og for k = 2, . . . , p
x∗ Ax
max = λk (A.11)
x6 =0 x∗ Bx
o∗(1) Bx=0,...,o∗(k−1) Bx=0
Maksimalværdien i begge tilfælde for λk opnås for o(k) .
1
Proof. Vi viser først (A.10), som er det simpleste tilfælde. Lad for x ∈ R p , y = B 2 x
1 1
(og dermed x = B− 2 y) og bemærk at da B 2 er invertibel, er den tilhørende lineære
afbildning en bijektion og maksimering over x 6= 0 kan ækvivalent foretages over
y 6= 0. Vi får derved
1 1
x∗ Ax y∗ B− 2 AB− 2 y
max ∗ = max . (A.12)
x6=0 x Bx y6 =0 y∗ y
Vi kan nu benytte (A.9) i Sætning A.4 til at konkludere maksimal værdien af (A.12) er
1 1
den maksimale egenværdi af y∗ B− 2 AB− 2 y∗ /(y∗ y∗ ) som ifølge Korollar A.3 er lig λ1 .
1 1
Endvidere opnås dette maksimum når y er en egenvektor for B− 2 AB− 2 , y = õ(1) . Den
1
tilsvarende værdi for x er B− 2 õ(1) som ifølge Korollar A.3 er en egenvektor for B−1 A
hørende til λ1 som ønsket.
Det generelle tilfælde er næsten identisk med ovenstående, idet vi dog skal bemærke
at betingelsen o∗(i) Bx hvor o(i) er en egenvektor for B−1 A hørende til λi , på grund af
1 1 1
Korollar A.3 er ækvivalent med at õ∗(i) B 2 x = 0, hvor õ(i) er en egenvektor for B− 2 AB− 2
1
hørende til λi . Maksimeringen i (A.11) foretages derfor igen at lade y = B 2 x og skrive
x∗ Ax
max =
x6 =0 x∗ Bx
o∗(1) Bx=0,...,o∗(k−1) Bx=0
1 1
y∗ B− 2 AB− 2 y
max =
y6 =0 y∗ y
1 1
o∗(1) B 2 y=0,...,o∗(k−1) B 2 y=0
1 1
y∗ B− 2 AB− 2 y
max .
y6 =0 y∗ y
õ∗(1) y=0,...,õ∗(k−1) y=0
Den ønskede konklusion følger nu som ovenfor, med henvisning til Korollar A.3.
Litteratur
2020.
Roger A Horn and Charles R Johnson. Matrix analysis. Cambridge university press,
1990.
97
Indeks
Actual Error Rate, 57 Konsistens af mindste kvadraters estimator,

Apparent Error Rate, 57 11
Asymptotisk ækvivalens; definition, 15 Konvergens i fordeling; definition, 15
asymptotisk optimale procedurer, 52 Konvergens i sandsynlighed; definition, 15
krydsvalidering, 59
Kvadratisk klassifikation, 54
BLUE, best linear unbiased estimator, 9
Bonferroni konfidensintervaller, 35 Kvadratiske klassifikationsfunktioner, 60
classifier, Se klassifikationsfunktion Lineær estimator, 9, 21

Confusion Matrix, Se Konfusionsmatrix lineær klassifikation, 53
Cross-validation, Se krydsvalidering Lineære klassifikationsfunktioner, 60
Diskriminantfunktion, 42 Mean Squared Error, 13

Estimeret, 42 Mindste kvadraters metode, 8
Teoretisk, 42 Modelligninger, 6
MSE, Se Mean Squared Error
Estimerede lineære klassifikationsfunktio-

ner, 60 normalligningerne, 9
estimerede minimum TPM procedurer, 52
experimentwise error rate, 35 OLS, ordinary least squares, 9
Opgaver
Family Wise Error Rate, 35 Kapitel 1, 21
Ordinary least squares, 9
Gauss-Markovs sætning, 9
Gauss-Markovs sætning; Bevis for, 21 prior-sandsynligheder, 51
Generaliseret mindste kvadraters metode,
10
Rayleigh kvotient, 94
Generalized least squares, 10
ridge estimator, 13
GLS, generalized least squares, 10
Supplement til Kapitel 1, 14

klassifikationsfunktion, 51
klassifikationsområde, 51
klassifikationsprocedure, 49 T 2 -konfidensintervaller, 32
Konfusionsmatrix, 57 testdata, 58
Konsistens af estimator, 10, 16 Total Probability of Misclassification, Se
Konsistens af estimator; definition, 16 TPM
99
100 INDEKS
TPM, 51
træningsdata, 58
training data, Se træningsdata
valideringsdata, Se testdata

Andersen - Multivariat Statistisk Analyse II

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Andersen - Multivariat Statistisk Analyse II

Uploaded by

Copyright:

Available Formats

M U LT I VA R I AT STATISTISK

Institut for Matematiske Fag

3.3.5 Klassifikation baseret på diskriminantfunktioner . . . . . . . . . . 64

4 Principal Komponent Analyse 75

Dette notesæt er udarbejdet til 2019-udgaven af kurset Multivariat Statistisk Analyse.

Lars Nørvang Andersen

R. A. Fisher. The use of multiple measurements in taxonomic problems. Annals of

K. V. Mardia, J. T. Kent, and J. M. Bibby. Multivariate Analysis. Academic Press, 2003.

Alvin C. Rencher. Methods of multivariate analysis. Wiley Series in Probability and

Alvin C. Rencher and William F. Christensen. Methods of multivariate analysis. Wiley

hvor xi betegner den observerede værdi af stokastiske variabel og ti betegner værdien

hvor ti er en søjlevektor af q forklarende variable, og β er en søjlevektor af q ukendte

Her er x = ( x1 , . . . , xn )∗ . Den lineære regressionsmodel i (1.1) kan naturligvis formu-

hvor ui erne er realisationer af uobserverede stokastiske variable, som er N (0, σ2 )-for-

hvor u = (u1 , . . . , un )∗ og u ∼∼ Nn (0, σ2 In ). De uobserverede ui er beskriver obser-

X(1) X(2) M(1) M(2)

hvor X(1) og M(1) er n × k matricer, og X(2) og M(2) er n × ( p − k ) matricer. Tilsvarende

Den betingede fordeling af X(1) givet X(2) = x(2) er

X(1) |X(2) = x(2) ∼ Nn (x(2) β, In ⊗ σ11·2 ), (1.10)

hvor X (n × 1) er en observeret responsvariabel, T (n × q) er en matriks af forklarende

(1.1) T er ikke-stokastisk, og U ∼ Nn (0, σ2 In ).

(1.3) T er stokastisk, og U|T = T0 ∼ Nn (0, σ2 In ).

Helt tilsvarende kan vi i den flerdimensionale multiple regressionsmodel (1.7) identi-

(2.3) T er stokastisk, og U|T = T0 ∼ Nn× p (0, In ⊗ Σ).

1.2 Mindste kvadraters metode

kX − Tβk2 = (X − Tβ)∗ (X − Tβ), (1.19)

og sætte lig 0, fås normal-ligningerne

E( β̂) = (T∗ T)−1 T∗ [Tβ + E(U)] = β. (1.22)

Var( β̂) = σ2 (T∗ T)−1 . (1.24)

Beviset for Gauss-Markovs resultat er skitseret i Opgave 1.2.

1.2.2 Generaliseret mindste kvadraters metode (GLS)

Da Var(V) = In , opfylder den transformerede model forudsætningerne i Gauss-Mar-

Hvis Ω ikke er kendt, er (1.26) ikke en estimator, da en estimator ikke må afhænge

1.2.3 Anvendelser på flerdimensional multipel regression

Så er GLS estimatoren, B̂V , for BV givet ved

1.2.4 Konsistens af mindste kvadraters estimatorer

Hvis følgende betingelse om Var( β̂GLS

Se Definition 1.4 og Bemærkning 1.7 for definitionen af konvergens i sandsynlighed.

medføre (1.34), og betingelsen

vil medføre (1.38).

1.3 Regularisering - ridge regression

og vi så i (1.24) at kovariansmatricen på β̂ under de givne forudsætninger er

Var( β̂) = σ2 (T∗ T)−1 . (1.42)

Ved direkte udregning fås at diagonalindgangene i matricen (T∗ T)−1 er

samt at denne opfylder at

og dermed er biased som estimator for β. Endvidere gælder der at

og vi ser at Var βbridge → 0 for λ → ∞. Endvidere giver direkte udregning at

og da alle faktorerne på højresiden er ikke-negativ definit, ses at

Var βbOLS ≥ Var βbridge ,

og kovariansmatricen for βbridge er i denne forstand mindre end kovariansmatricen for

MSE(θ̂) = E[(θ̂ − θ)∗ (θ̂ − θ)]

MSE(θ̂ ) = Var(θ̂ ) + bias(θ̂ )2 .

Udtrykkene i (1.3) og omtales som “variance-bias”-dekompositionen af MSE . Det er

arg min kX − Tβk . (1.47)

3◦ Vi indførte i dette afsnit ridge estimatoren ud fra ønsket om at begrænse varian-

4◦ I praksis standardiseres de variable ofte, inden man tilføjer strafledet. Derved

5◦ Strafledet er L2 -normen af β og man taler for om “L2 -regularisering”.

1.4 Supplement til Kapitel 4

Definition 1.4 (Konvergens i sandsynlighed) Xn konvergerer i sandsynlighed mod c ∈ R,

Bemærkning 1.5 For en følge af p-dimensionale stokastiske vektorer, xn = ( Xn1 , . . . ,

Definition 1.6 (Konvergens i fordeling) Xn konvergerer i fordeling mod X, hvis forde-

Definition 1.8 (Asymptotisk ækvivalens) To følger X1 , . . . , Xn , . . . og Y1 , . . . , Yn , . . . af

Bemærkning 1.10 Følgende to regneregler for konvergens i fordeling og konvergens i

De store tals love og de centrale grænseværdisætninger er de helt uundværlige hjæl-