Professional Documents
Culture Documents
Andersen - Multivariat Statistisk Analyse II
Andersen - Multivariat Statistisk Analyse II
A N A LY S E I I
INDLEDNING
F L E R D I M E N S I O N A L R E G R E S S I O N S A N A LY S E
S I M U LTA N E K O N FI D E N S I N T E RVA L L E R
D I S K R I M I N A N TA N A LY S E O G K L A S S I FI K AT I O N
P R I N C I PA L K O M P O N E N T A N A LY S E
L A R S N Ø RVA N G A N D E R S E N
© Lars Andersen 2020
Indledning 1
Litteratur 3
1 Flerdimensional regressionsanalyse 5
1.1 Regressionsmodeller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Mindste kvadraters metode . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Sædvanlig mindste kvadraters metode (OLS) . . . . . . . . . . . . 8
1.2.2 Generaliseret mindste kvadraters metode (GLS) . . . . . . . . . . 10
1.2.3 Anvendelser på flerdimensional multipel regression . . . . . . . . 10
1.2.4 Konsistens af mindste kvadraters estimatorer . . . . . . . . . . . . 11
1.3 Regularisering - ridge regression . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Supplement til Kapitel 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.1 Konvergens i sandsynlighed og i fordeling . . . . . . . . . . . . . 14
1.4.2 Konvergens i sandsynlighed og i fordeling: statistiske begreber . 16
Litteratur 19
Opgaver 21
2 Simultane konfidensintervaller 27
2.1 Generelt om konfidensområder . . . . . . . . . . . . . . . . . . . . . . . . 27
2.2 T 2 -konfidensintervaller . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.3 Bonferroni konfidensintervaller . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.1 Multiple tests og Family-wise error rate . . . . . . . . . . . . . . . 35
Litteratur 37
Opgaver 39
3 Diskriminantanalyse og klassifikation 41
3.1 Diskriminantfunktionen for to grupper . . . . . . . . . . . . . . . . . . . 41
3.2 Diskriminantfunktionen for K grupper . . . . . . . . . . . . . . . . . . . . 44
3.2.1 Yderligere emner inden for diskriminantanalyse . . . . . . . . . . 47
3.3 Klassifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.3.1 Klassifikationsfunktioner . . . . . . . . . . . . . . . . . . . . . . . 50
3.3.2 Klassifikation af to normalfordelte populationer . . . . . . . . . . 52
3.3.3 Evaluering af klassifikationsfunktioner . . . . . . . . . . . . . . . 55
3.3.4 Klassifikation af flere normalfordelte populationer . . . . . . . . . 59
i
ii INDHOLD
Litteratur 67
Opgaver 69
Litteratur 89
Opgaver 91
Appendix 93
A.1 Maksimeringsresultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
Litteratur 97
Indeks 99
Indledning
1
Litteratur
Richard A. Johnson and Dean W. Wichern. Applied multivariate statistical analysis. Pear-
son Prentice Hall, Upper Saddle River, NJ, sixth edition, 2007. ISBN 978-0-13-187715-
3; 0-13-187715-1.
3
Kapitel 1
Flerdimensional regressionsanalyse
1.1 Regressionsmodeller
Vi har i løbet af dette og tidligere kurser ofte betragtet regressionsmodeller. Udgangs-
punktet for disse var den lineære regressionsmodel for realisationer af uafhængige
stokastiske variable, som blev betragtet i Eksempel 3.5 side 59 i Andersen [2020]
xi ∼∼ N (α + βti , σ2 ), i = 1, . . . , n. (1.1)
xi ∼∼ N (ti∗ β, σ2 ), (1.2)
t1∗
..
.
T= ti∗ , (1.3)
..
.
∗
tn
og antag yderligere, at q < n, og at T har fuld rang q. Man skriver kort modellen:
x ∼∼ Nn (Tβ, σ2 In ). (1.4)
xi = ti∗ β + ui , i = 1, . . . , n, (1.5)
5
6 Kapitel 1. Flerdimensional regressionsanalyse
x = Tβ + u, (1.6)
X = TB + U, (1.7)
hvor X (n × p) er en observeret matriks af p responsvariable, T (n × q) er en matriks
af forklarende variable af rang q, B (q × p) er en matriks af ukendte regressionspara-
metre og U (n × p) er en matriks af uobserverede fejlvariable, hvis fordeling specificeres
nedenfor.
Ovenfor har de forklarende variable været faste værdier, og altså ikke været obser-
verede værdier af stokastiske variable. Det skal vi søge at frigøre os fra, og i den to-
og flerdimensionale normalfordeling har vi set regressionsmodeller med stokastiske
forklarende variable. I Lemma 5.4 (7) i Andersen [2020] gav vi følgende resultat om
den betingede fordeling af q søjler i en n × p-dimensional normalfordeling givet de
observerede værdier af de sidste p − k søjler:
Lad X ∼ Nn× p (M, In ⊗ Σ) og betragt en opdeling af X og M så
Specialtilfældet hvor M = 0 blev betragtet i Lemma 5.13 i Andersen [2020]. Der gælder
da at
X(1) |X(2) = x(2) ∼ Nn×k (x(2) B, In ⊗ Σ11·2 ), (1.9)
−1 −1
hvor B = Σ22 Σ21 og Σ11·2 = Σ11 − Σ12 Σ22 Σ21 , og vi observerede da, at (1.9) kan
opfattes som en flerdimensional multiple regressionsmodel. Hvis specielt k = 1, så
det er den betingede fordeling af første søjle, X(1) i X givet de p − 1 sidste søjler, vi
betragter, er resultatet
X = Tβ + U, (1.11)
Definition 1.1 Den sædvanlige mindste kvadraters estimator for β i modellen (1.16)
er givet ved
β̂ = (T∗ T)−1 T∗ X (1.18)
N
Den engelske betegnelse er ordinary least squares estimator med tilhørende forkortelse
OLS. Denne forkortelse bruges så ofte i litteraturen, herunder i vejledninger til statisti-
ske programpakker, at vi også vil bruge den forkortelse – og allerede har brugt den i
overskriften. Ved at differentiere kvadratsummen
T∗ T β̂ = T∗ X , (1.20)
og ved at løse disse fås (jævnfør Opgave 1.1) at β̂ minimerer kX − Tβk2 og derfra
kommer navnet.
Bemærk, at β̂ præcis er maksimum likelihood estimatoren for β under antagelsen,
at fejlleddene er normalfordelt med middelværdi 0 og samme varians (scenarie (1.1
side 8)), det vil sige
U ∼ Nn (0, σ2 In ). (1.21)
OLS estimatoren er middelværdiret (engelsk: unbiased), da
Endvidere er
Var( β̂) = (T∗ T)−1 (T∗ ΩT)(T∗ T)−1 . (1.23)
Hvis specielt Ω = σ2 In , bliver udtrykket for kovariansmatricen for β̂ simpelthen
Bemærk, at OLS estimatoren jvf. (1.18) er en lineær funktion af X, og som sådan er den
en lineær estimator. En generel lineær estimator vil være på formen β̃ = AX for en
q × n matriks A. Hvis Ω = σ2 In har vi følgende optimalitetsegenskab:
Theorem 1.2 (Gauss-Markov) Betragt den multiple regressionsmodel (1.16) og antag,
at fejlleddene er parvis ukorrelerede, Var U = σ2 In . Lad β̃ være en vilkårlig lineær
unbiased estimator for β. Da gælder at Var β̃ − Var β̂ positiv semidefinit.
Målt ud fra kriteriet, at en god estimator har lille varians, er OLS estimatoren altså
den bedste. Da den også er unbiased, er den altså den bedste lineære unbiased estimator
(BLUE).
10 Kapitel 1. Flerdimensional regressionsanalyse
Lad
E(U) = 0, Var(U) = Ω,
og da Ω er kendt, kan man i stedet for (1.16) betragte den transformerede model
Z = Ω− ⁄2 Tβ + V,
1
(1.25)
hvor
Z = Ω− ⁄2 X, V = Ω− ⁄2 U.
1 1
Xn = Tn β + Un , (1.31)
og GLS estimatoren er
β̂GLS
n = (T∗n Ω− −1 ∗ −1
n Tn ) Tn Ω n Xn
1
(1.32)
med E( β̂GLS GLS er
n ) = β, og kovariansmatricen for β̂ n
∗ −1 −1
n ) = (Tn Ω n Tn ) .
Var( β̂GLS (1.33)
(T∗n Ω− 1
n Tn )
−1
→ 0, for n → ∞, (1.34)
vil β̂GLS
n være konsistent, det vil sige konvergere i sandsynlighed mod β,
P
β̂GLS
n −→ β for n → ∞. (1.35)
og hvis denne konvergerer i sandsynlighed mod 0, det vil sige at betingelsen (1.34)
erstattes med
−1 P
(T∗n Ω− 1
n Tn ) −→ 0, for n → ∞, (1.38)
vil β̂GLS
n være konsistent. Beviset for konsistens af β̂GLS
n , når (1.38) gælder, er skitseret i
Opgave 1.6.
Hvis betingelserne (1.34) eller (1.38) sikrer, at β̂GLS
n er konsistent, er næste spørgs-
mål: „Hvornår holder (1.34) eller (1.38)?“
Hvis Ψ (q × q) er invertibel, så vil betingelsen
1 ∗ −1
n Tn Ω n Tn → Ψ, for n → ∞, (1.39)
12 Kapitel 1. Flerdimensional regressionsanalyse
1 ∗ −1 P
n Tn Ω n Tn −→ Ψ, for n → ∞, (1.40)
kX − Tβk2 , (1.41)
Idet vi betegner det (i, j)te element i (T∗ T)−1 med cij vil variansen på den j-te kompo-
nent i β, d.v.s. β j , være
σ2 c jj .
Vi vil nu omtale hvad der kan ske, når matricen T∗ T “næsten” er singulær, hvilket ind-
træffer når søjlerne i T “næsten” er lineært afhængige. Man kan naturligvis præcisere,
hvad ordet “næsten” dækker over i denne sammenhæng, men vi vil nøjes med at illu-
strere dette med et eksempel. Lad j være en n-dimensional søjlevektor, hvis indgange
alle er 1 og lad t ∈ Rn opfylde at j∗ t = 0 samt t 6= 0. Overvej, at dette medfører at vek-
torerne t og t + ej er lineært uafhængige for alle e > 0, samtidigt med at det er intuitivt
rimeligt at tænkte på de to vektorer, som værende “næsten” lineært afhængige for små
værdier af e. Betragt en designmatriks T, defineret ved
def
T = Te = t t + ej .
1 1 1
c11 = 2
+ ∗ og c22 = .
ne t t ne2
1.3. Regularisering - ridge regression 13
Vi ser altså, at variansen for estimaterne af komponenterne i β vil eksplodere, når e går
mod nul. En metode til at håndtere dette er at finde en estimator, hvis kvadratlængde
ikke bliver for stor og man tilføjer derfor et ekstra led til (1.41) og betragter funktionen
def
L( β) = kX − Tβk2 + λk βk2 , (1.43)
for et kendt λ > 0. Idéen er, at det ekstra led “straffer” β-er med stor kvadratlængde,
således at man ved minimering får et β med mindre kvadratlængde end ved minime-
ring af residualkvadratsummen alene. Jo større lambda er, jo større er denne effekt, og
vi ser nedenfor at vi i en hvis forstand kan styre variansen på vores estimator.
I Opgave 1.11 vises det, at L fra 1.43 minimeres af den såkaldte ridge estimator.
def −1
βbridge = T∗ T + λIq T∗ X , (1.44)
og vi ser at
MSE(θ̂) = tr Var(θ̂) + bias(θ̂)∗ bias(θ̂) .
Bemærk, at når parameteren er 1-dimensional er
Det skal dog med det samme bemærkes at λ i ovenstående resultatet afhænger af både
β og σ2 og derfor som udgangspunkt ikke kan beregnes ud fra data.
Vi har i dette afsnit kun beskæftiget os med de helt basale egenskaber vi ridge-
estimatoren og dennes relation til OLS-estimatoren, og slutter af med en række be-
mærkninger, som er vigtige at vide hvis I støder på ridge estimatoren senere I jeres
studie.
1◦ Vi har ovenfor fundet βbridge ved at minimere (1.41) plus et “straf-led”. Man kan
ækvivalent udlede βbridge som løsning til et minimeringsproblem med bibetingel-
ser (engelsk: Constrained minimization problem):
Ækvivalensen skal forstås således at for et givet λ > 0 findes et c > 0 således
løsningen til mineringeproblemet (1.43) (med λ) er identisk med løsningen til
minimeringsproblemet (1.47) (med c).
2◦ Vi har i dette afsnit antaget at T har fuld rang, men det er værd at bemærke at
ridge estimatoren fra (1.44) er veldefineret selvom T ikke har fuld rang.
FXn ( x ) → FX ( x ) (1.49)
∼
for ethvert x, hvori FX er kontinuert. Vi skriver Xn −→ X, når Xn konvergerer i forde-
ling mod X. N
∼
Bemærkning 1.7 Når Xn −→ X benytter vi ofte fordelingsfunktionen for X til at be-
regne sandsynligheden for hændelser vedrørende Xn , især når Xn er en teststørrelse
med en ukendt fordeling, og vi ønsker at beregne testsandsynligheden baseret på Xn .
I de sammenhænge benytter vi ofte sprogbrugen „Xn er asymptotisk FX -fordelt“; for
eksempel i vendinger som „Xn er asymptotisk normalfordelt“ eller „Xn er asymptotisk
χ2 -fordelt“; H
Bemærkning 1.9 Det følger af den første af regnereglerne i Bemærkning 1.10, at hvis
∼ ∼ ∼
Xn −→ X og Xn ← → Yn , så vil Yn −→ X.
Denne enkle iagttagelse er et vigtigt element i mange beviser for konvergens i for-
deling af en følge af stokastiske variable. Man viser, at den er asymptotisk ækvivalent
med en anden følge af stokastiske variable, hvis asymptotiske fordeling man kender.H
16 Kapitel 1. Flerdimensional regressionsanalyse
Ideen i konsistens er, at jo flere observationer man har, desto tættere skal estimato-
ren være på den ukendte parameter. Aspektet med det voksende antal observationer
fremgår ikke tydeligt af definitionen, men illustreres i det følgende.
Bemærkning 1.12 (Uafhængige identisk fordelte observationer) Lad Y1 , . . . , Yn , . . ., væ-
re en følge af uafhængige og identisk fordelte stokastiske variable med parameter
(θ, ψ). Lad Tn være en estimator for θ baseret på de første n observationer, det vil sige
at Tn er en funktion af Y1 , . . . , Yn . H
Example 1.13.
Normalfordelingen kan bruges til at illustrere Bemærkning 1.12.
Lad Y1 , . . . , Yn , . . . , være en følge af uafhængige identisk normalfordelte stokastiske
variable, N (µ, σ2 ).
Da er
1 n
Tn = Ȳ·n = ∑ Yi
n i =1
en konsistent estimator for middelværdien µ. Man ser, at Tn for ethvert n er „samme“
funktion af Y1 , . . . , Yn , nemlig gennemsnittet. Derfor siger man også i denne situation,
at gennemsnittet er en konsistent estimator for middelværdien.
Tilsvarende er
1 n
T̃n = σ̂n2 = ∑ (Yi − Ȳ·n )2
n i =1
1.4.2. Konvergens i sandsynlighed og i fordeling: statistiske begreber 17
en konsistent estimator for variansen σ2 . Også her er estimatoren T̃n for ethvert n den
„samme“ funktion af Y1 , . . . , Yn , nemlig variansen i den empiriske fordelingsfunktion
baseret på Y1 , . . . , Yn , og man siger derfor, at variansen i den empiriske fordelingsfunk-
tion er en konsistent estimator for variansen.
I Opgave 1.7 viser vi, at den empiriske varians
n
n 1
n − 1 i∑
T̃n = (Yi − Ȳ·n )2
n−1 =1
Lars Nørvang Andersen. Multivariat Statistisk Analyse. Institut for Matematiske Fag,
2020.
Arthur E Hoerl and Robert W Kennard. Ridge regression: Biased estimation for no-
northogonal problems. Technometrics, 12(1):55–67, 1970.
19
Opgaver til Kapitel 1
Exercise 1.1 Vis, at
β = β̂ = (T∗ T)−1 T∗ X
minimerer kvadratsummen
(X − Tβ)∗ (X − Tβ).
Exercise 1.2 (Her vises Gauss-Markov resultatet formuleret i Sætning 1.2.) Lad β̃ =
AX, hvor A er en q × n matriks, være en vilkårlig lineær estimator for β og antag, at X
opfylder den multiple regressionsmodel
X = Tβ + U,
E(U) = 0, Var(U) = Ω.
Exercise 1.3 Lad β̃ = AX, hvor A er en q × n matriks, være en vilkårlig lineær estima-
tor for β og antag, at X opfylder den multiple regressionsmodel
X = Tβ + U,
E(U) = 0, Var(U) = Ω.
21
22 OPGAVER
(2) Vis, at hvis β̃ er unbiased, så er dens kovariansmatriks større end eller lig med
kovariansmatricen for β̂GLS .
Exercise 1.5 Vis, at β̂GLS er konsistent i tilfældet med faste forklarende variable, når
betingelsen (1.34) om Var( β̂GLS
n ) er opfyldt, det vil sige:
∗ −1 −1
n ) = (Tn Ω n Tn )
Var( β̂GLS → 0, for n → ∞.
Exercise 1.6 Her vises konsistens af β̂GLS under betingelserne (1.36) og (1.38), det vil
sige betingelserne
E(Un |Tn ) = 0, Var(Un |Tn ) = Ωn ,
hvor Ωn ikke afhænger af Tn , og
P
(T∗n Ω− 1
n Tn )
−1
−→ 0, for n → ∞.
(1) Vis, at
∗ −1 −1
E( β̂GLS
n |Tn ) = β, n |Tn ) = (Tn Ω n Tn ) .
Var( β̂GLS
(2) Lad σnii betegne (i, i )te element af (T∗n Ω− 1 −1
n Tn ) , og brug Chebyshevs ulighed til
at vise, at
σnii
P(| β̂GLS
n,i − β i | > e | T n ) < .
e2
(3) Vis, at for alle e > 0 og alle δ > 0 er
ii ii ii
P(| β̂GLS GLS
n,i − β i | > e ) ≤ P (| β̂ n,i − β i | > e | σn < δ ) P ( σn < δ ) + P ( σn ≥ δ ),
Exercise 1.9 Lad X følge en lineær normal model specificeret ved underrummet L med
dimension d og tilhørende ortogonal projektion P:
1◦ Vis, at
X(1) | X(2) = x(2) ∼ Nn×q ( T x(2) C, In ⊗ Σ11·2 ) ,
(1.51)
hvor C er (d + p − q) × q matricen
( )
−1
B(1) − B(2) Σ22 Σ21
C= −1
.
Σ22 Σ21
Exercise 1.10 I denne opgave udledes Mallows’ C p , der kan benyttes til at sammen-
ligne regressionsmodeller. Indledningsvist vises et resultat, som skal benyttes senere
i opgaven. Lad Y være en n-dimensional stokastisk vektor med middelværdivektor
E[Y] = µ og kovariansmatriks Var[Y] = Σ, og lad A betegne en n × n-matriks.
1◦ Vis, at
E[Y∗ AY] = tr(AΣ) + µ∗ Aµ .
hvor P2 = T2 (T2∗ T2 )−1 T2∗ betegner den ortogonale projektion på søjlerummet for
T2 .
samt
E [X∗ (In − P2 )X] = σ2 tr(I − P2 ) + β∗ T1∗ (In − P2 )T1 β ,
og slut herudfra at
def X ∗ ( I n − P2 ) X
Cp = + (2p − n) .
s2
4◦ Vis, at
C p = (q − p)( F − 1) + p ,
hvor F betegner F-testoren for reduktionen fra modellen M1 til modellen M2 , og
vis dernæst at i modellen M2 gælder der at
2( q − p )
E[ C p ] = p + .
n−q−2
Vink:
Det må uden bevis benyttes, at hvis W ∼ F ( f 1 , f 2 ) hvor f 2 > 2 da er E[W ] =
f 2 / ( f 2 − 2).
Exercise 1.11 Lad situationen være som i Afsnit 1.3, hvor funktionen L( β) er defineret
i (1.43).
1◦ Vis, at
L( β) = X∗ X − 2X∗ Tβ + β∗ T∗ T + λIq β ,
26 OPGAVER
3◦ Vis, at
−1 −1
T∗ T + λIq = Iq + λ (T∗ T ) −1 (T∗ T ) −1 ,
og vis derved at
−1
βbridge = Iq + λ(T∗ T)−1 βbOLS .
4◦ Vis, at
−1
ridge ∗ −1
Eβ
b = Iq + λ (T T ) β.
5◦ Vis, at
−1 −1
Var βridge = Iq + λ(T∗ T)−1 σ 2 (T∗ T ) −1 Iq + λ (T∗ T ) −1 .
1 bOLS
βbridge = β .
1+λ
Kapitel 2
Simultane konfidensintervaller
Det følger nu, at under disse betingelser vil (2.1) medføre (2.2), da
Pθ0 (θ ∈ C1−α (X)) = Pθ0 ( pobs (X) > α) = 1 − α θ0 ∈ Θ .
27
28 Kapitel 2. Simultane konfidensintervaller
De angivne betingelser holder i mange tilfælde, men ikke altid. De holder, som vi har
set, når vi betragter hypoteser om middelværdivektoren i lineære normale modeller, og
vi vil i det efterfølgende ikke skelne mellem de to måde at anskue konfidensområder
på.
Vi vil nu detaljeret behandle situationen, hvor vi ønsker at angive et 1 − α konfi-
densområde for middelværdivektoren µ = (µ1 , . . . , µ p )∗ i én observationsrække fra
den p-dimensionale normalfordeling. Lad derfor
X ∼ Nn× p (M, In ⊗ Σ),
hvor M = {µ, . . . , µ}∗ , Σ er regulær og n > p. I Afsnit 5.4 i Andersen [2020] viste vi at
likelihood testet for H0 : µ = µ0 var ækvivalent med testet baseret på
T 2 (X) = n(X̄· − µ0 )∗ S−1 (X̄· − µ0 ), (2.3)
og at
T2 n − p
∼ F ( p, n − p) . (2.4)
n−1 p
Det følger da at
p ( n − 1)
∗ −1
µ0 | n(X̄· − µ0 ) S (X̄· − µ0 ) ≤ F ( p, n − p) (2.5)
( n − p ) 1− α
er et 1 − α-konfidensområde.
Example 2.1.
Betragt spinat-datasættet, som blev brugt som eksempel på et datasæt fra én observa-
tionsrække fra den todimensionale normalfordeling. Eksemplet er gennemregnet på
filen Eksempler.pdf.
Vi betragtede n = 24 målinger af x = tørstofindhold og y =bevaringsprocent for ascor-
binsyre i spinat og vi fandt estimaterne
x̄· = 10.53 ȳ· = 73.975
(2.6)
s2x = 2.594 s2y = 100.39
r = 0.6182.
Herudfra fås estimatet for kovariansmatricen og dennes inverse
2.594 9.98 −1 0.63 −0.06
S= ⇒ S =
9.98 100.39 −0.06 0.02
og dermed, ved hjælp af (2.5) at 1 − α konfidensområdet for µ = (µ x , µy ) er de µ
hvorom der gælder at
2 · 23
0.63 −0.06 10.53 − µ x
24 10.53 − µ x 73.975 − µy ≤ F0.95 (2, 22) ,
−0.06 0.02 73.975 − µy 22
og eftersom F0.95 (2, 22) = 3.44 kan denne mængde også skrives som
24 · 0.63(10.53 − µ x )2 − 48 · 0.06 · (10.53 − µ x )(73.975 − µy )
(2.7)
+ 24 · 0.02(73.975 − µy )2 ≤ 7.2 .
På Figur 2.1 er konfidensområdet indtegnet på et scatterplot af data.
2.1. Generelt om konfidensområder 29
100
90 ●
●
●
●
% bevaret ascorbinsyre
●
80 ●
● ●
●
● ●
●
70 ● ●
●
●
● ●
●
●
60
●
●
50
6 8 10 12 14 16
Figur 2.1: Data fra Eksempel 3.1 med indtegnet konfidensområde for middelværdivek-
toren.
For at belyse forholdet mellem 0.95% konfidensområdet fra (2.7) og de marginale kon-
fidensintervaller fra (2.8), er mængden [9.85, 11.21] × [69.74, 78.21] sammen med konfi-
densmængden fra (2.7) indtegnet på Figur 2.2. Det, der umiddelbart springer i øjnene
på Figur 2.2 er at der ikke er noget inklusionsforhold mellem de to indtegnede mæng-
der. Der er altså værdier af (µ0x , µ0y ) som vil blive afvist af det simultane test baseret
30 Kapitel 2. Simultane konfidensintervaller
80
75
70
Figur 2.2: Konfidensområdet fra Figur 2.1 indtegnet sammen med rektanglet der sva-
rer til konfidensintervaller fundet ved hjælp af de marginale fordelinger. Det dobbelt-
skraverede område hvor der er overlap mellem de to mængder er præcis de værdier
af (µ0x , µ0y ) som vil blive accepteret ved både det simultane test af H : µ = 0 og begge
de marginale tests H : µ x = µ x0 og H : µy = µy0 .
på T 2 , men ikke bliver afvist af nogen af de marginale t-tests. Omvendt er der også
værdier, som bliver afvist af mindst ét af de to marginale t-tests, men som ikke bliver
forkastet af det simultane test baseret på T 2 .
I indledningen viste vi, at konfidensområderne opfattet som stokastiske mængder
havde den egenskab at de med sandsynlighed 1 − α indeholder den sande parameter,
men det er vigtigt at bemærke at denne egenskab kun holder når vi betragter et gi-
vent konfidensområde eller konfidensinterval i isolation og denne egenskab - og den
tilhørende fortolkning - kan ikke forventes at gælde, når vi betragter flere konfidens-
intervaller samtidigt. I næste afsnit vil vi råde bod på dette, ved at indføre konfidens-
intervaller som kan vises at gælde for samtlige linear kombinationer af middelværdi-
vektoren i en observationsrække fra den p-dimensionale normalfordeling.
2.2 T 2-konfidensintervaller
Vi betragter stadig modellen for én observationsrække fra Np , det vil sige
X ∼ Nn× p (M, In ⊗ Σ),
2.2. T 2 -konfidensintervaller 31
Indfører vi
√ √
n(b∗ x̄· − b∗ µ) n(b∗ (x̄· − µ))
t (b) = √ = √ (2.11)
b∗ Sb b∗ Sb
kan (2.10) ækvivalent udtrykkes som
n o
b∗ µ | t (b )2 ≤ c 2 for c2 = t21−α/2 (n − 1) . (2.12)
Corollary 2.2 For funktionen b 7→ t(b) indført ved hjælp af (2.11) gælder at
hvor T 2 blev indført i (2.3). Endvidere opnås maksimum for b proportional med vek-
toren S−1 (x̄· − µ).
Proof. Dette følger ved at benytte Lemma A.1 med c = b, d = (x̄· − µ) og Σ = S (som
er positiv definit med sandsynlighed 1 da n > p).
32 Kapitel 2. Simultane konfidensintervaller
Bemærk, at hvis det simultane test for H : µ = µ0 afvises vil der mindst eksistere et b∗
så testet H : b∗ µ = b∗ µ0 ligeledes afvises.
Pµ b∗ µ ∈ I (b ) ∀b = 1 − α
hvor
def
I (b) =
s s !
p ( n − 1) p ( n − 1)
b∗ X̄· − b∗ Sb F1−α ( p, n − p), b∗ X̄· + b∗ Sb F1−α ( p, n − p)
n(n − p) n(n − p)
p ( n − 1)
Pµ b∗ µ ∈ I (b ) ∀b = Pµ ( T 2 (X ) ≤
F ( p, n − p)) = 1 − α .
( n − p ) 1− α
Sætning 2.3 besvarer altså spørgsmålet vedrørende hvilken værdi af c i (2.12) der skal
benyttes, hvis man ønsker et udsagn for alle b.
Benyttes Sætning 2.3 på vektorer på formen b = (0, . . . , 0, 1, 0, . . . , 0)∗ fås de såkald-
te T 2 -konfidensintervaller
s s
s11 p(n − 1) s11 p(n − 1)
x̄·1 − F1−α ( p, n − p) ≤µ1 ≤ x̄·1 + F1−α ( p, n − p) ,
n n−p n n−p
s s
s22 p(n − 1) s22 p(n − 1)
x̄·2 − F1−α ( p, n − p) ≤µ2 ≤ x̄·2 + F1−α ( p, n − p) ,
n n−p n n−p (2.13)
..
.
s s
s pp p(n − 1) s pp p(n − 1)
x̄· p − F1−α ( p, n − p) ≤µ p ≤ x̄· p + F1−α ( p, n − p) .
n n−p n n−p
Det følger umiddelbart fra Sætning 2.3 at sandsynligheden for at den bagvedliggende
stokastiske mængde indeholder den sande værdi af µ er mindst 1 − α.
2.3. Bonferroni konfidensintervaller 33
80
75
70
Figur 2.3: Konfidensområdet fra Figur 2.1 indtegnet sammen med rektanglet der svarer
til de simultane T 2 -konfidensintervaller fra (2.14). Sammenlign med Figur 2.2.
der ofte går under navnene “Booles ulighed” eller “Bonferronis ulighed”. En simpel
konsekvens af uligheden er
!
≥ 1 − ∑(1 − P( Ai )) .
\
P Ai (2.17)
i i
Denne ulighed finder anvendelse i en situation, hvor man på forhånd har lagt sig fast på
nogle bestemte linear kombinationer b1∗ µ, b2∗ µ, . . . , b∗m µ som man ønsker at undersøge.
Lad nemlig Ai betegne hændelsen
( )
b∗ Sb bi∗ Sbi
p p
bi∗ X̄· − √i t1−αi /2 (n − 1) ≤ bi∗ µ ≤ bi∗ X̄· + √ t1−αi /2 (n − 1) (2.18)
n n
m
Pµ (bi∗ µ tilhører konfidensintervallerne fra (2.18) for i = 1, . . . , m) ≥ 1 − ∑ αi .
i =1
2.3.1. Multiple tests og Family-wise error rate 35
80
T2
75 Bonferroni
Marginal
70
9 10 11 12
Lars Nørvang Andersen. Multivariat Statistisk Analyse. Institut for Matematiske Fag,
2020.
37
Opgaver til Kapitel 2
Exercise 2.1 I tudse-datasættet (bufobufo) på Eksempler.pdf argumenteres for at 2 ko-
variansmatricer er identiske, ved at lave 3 tests. Hvad er sandsynligheden for at mindst
et af disse tests er signifikante, selvom hypotesen er sand, det vil sige at kovariansma-
tricerne vitterligt er ens?
Exercise 2.2 I Opgave D.7 undersøges hypotesen (µ1x , µ1y ) = (µ2x , µ2y ) i en todimen-
sional normalfordeling med korrelation 0, ved at undersøge om µ1x = µ2x og µ1y = µ2y
i de marginale fordelinger. Hvad er sandsynligheden for at forkaste hypotesen, når den
er sand?
Exercise 2.3 Data i denne opgave betragtes i Opgave D.23 og består af målinger på
kranier fra ægyptiske mænd fra 5 epoker. For hver epoke er der foretaget målinger af
4 variable på 30 kranier. De 4 variable er: Maximum Breadth (MB), Basibrematic Height
(BH), Basialveolar Length (BL) og Nasal height (NH). Udgangspunktet er modellen 5 uaf-
hængige observationsrækker fra den firedimensionale normalfordeling, det vil sige,
hvis xij = ( xij1 , xij2 , xij3 , xij4 )∗ betegner de 4 målinger for det jte kranium i den ite
epoke, i = 1, . . . , 5 og j = 1, . . . , 30, betragter vi modellen
Exercise 2.4 Betragt kork-data fra Eksempler.pdf, som findes på filen cork.dat, hvor
man for 28 korkege har lavet boringer i barken i hver af retningerne N, Ø, V og S for at
vurdere korklagets tykkelse.
39
Kapitel 3
Diskriminantanalyse og klassifikation
1 ni 1
µi ← µ̂i = x̄i· = ∑ xij ∼∼ Np (µi , Σ), i = 1, 2,
n i j =1 ni
(3.2)
1 1
Σ←S= (SSD(1) + SSD(2) ) ∼∼ Wp ( Σ, n1 + n2 − 2) ,
n1 + n2 − 2 n1 + n2 − 2
41
42 Kapitel 3. Diskriminantanalyse og klassifikation
hvor
ni
SSD(i) = ∑ (xij − x̄i· )(xij − x̄i· )∗ , i = 1, 2.
j =1
og for disse variable er det naturligt at måle graden af separation mellem de to grupper
gennem t-teststørrelsen for hypotesen om ens middelværdi,
z̄ · − z̄2·
|t| ∝ | 1q |. (3.4)
2
s1
b∗ x̄1· − b∗ x̄2·
|t(b)| = | √ |, (3.5)
b∗ Sb
og det følger af Lemma A.1 at (3.5) maksimeres af b proportional med S−1 (x̄1· − x̄2· ).
Vi ønsker en løsning som opfylder at b∗ Sb = 1 og indfører derfor
R p 3 x 7→ â∗ x ∈ R
kaldes for den lineære diskriminantfunktion eller blot diskriminantfunktionen. Mere præcist
er der tale om den estimerede diskriminantfunktion, idet den opfattes som det empiriske
modstykke til den teoretiske diskriminantfunktion, som er givet ved
def def
a = Σ−1 (µ1 − µ2 )/D hvor D 2 = ( µ 1 − µ 2 ) ∗ Σ −1 ( µ 1 − µ 2 ) . (3.7)
Selvom â ikke unikt maksimerer (3.5), da aâ, a 6= 0 ligeledes vil maksimere (3.5), så vil
det tilhørende lineære underrum span(â) være unikt, og projektionen af datapunkter-
ne ned på dette underrum vil altså maksimalt separere de to grupper.
Temperatur 1 Temperatur 2
x1 x2 x1 x2
33 60 35 57
36 61 36 59
35 64 38 59
38 63 39 61
40 65 41 63
43 65
41 59
Tabel 3.1: x1 = flydegrænse og x2 = styrke for stål produceret ved to forskellige tem-
peraturer
●
64
●
62
●
60
●
● ● ●
styrke
58
●
56
●
54 Temperatur 1
● Temperatur 2
52
30 35 40 45
flydegrænse
Temperatur 1 Temperatur 2
19.31 16.26
18.23 16.96
20.71 15.82
18.36 16.52
18.49 16.65
16.78
14.11
og vi vil altså ikke på baggrund af de marginale t-tests foranlediges til at tro, at der
er forskel på de to temperaturer. Til gengæld finder vi, at det simultane T 2 -test for hy-
potesen H : µ1 = µ2 baseret på (3.51) p. 96 Andersen [2020] giver T 2 = 23.91 og den
tilhørende testsandsynlighed findes til pobs = 0.0041. Ved hjælp af diskriminantfunk-
tionen, som findes til
−0.570
â = , (3.10)
0.636
kan vi illustrere, hvad der foregår. Værdierne
naturligt gøres ved hjælp af F-teststørrelsen fra Sætning 3.7 i Andersen [2020]. Ifølge
denne kan hypotesen
H : b∗ µ 1 = b∗ µ 2 = · · · = b∗ µ K
undersøges ved lade L1 og L2 betegne de lineære underrum defineret i Eksempel 3.1
og 3.3 i Andersen [2020] og betragte
k P1 z − P2 z k 2
F∝ (3.11)
k z − P1 z k 2
hvor z = (zij ) er n × 1. Idet vi lader X være defineret ud fra xij erne på samme måde
som datamatricen fra Afsnit 5.2 i Andersen [2020] (således at X er n × p) har vi z = Xb
og idet Pi betegner den ortogonale projektion ned på Li , i = 1, 2 kan vi omskrive (3.11)
til
k P2 z − P1 z k 2 z∗ (P1 − P2 )z b∗ SSD2 b
= ∗ = ∗ , (3.12)
k z − P1 z k 2 z ( I − P1 ) z b SSD1 b
med betegnelserne fra Sætning 5.12. Ifølge Øvelse 3.2 gælder der
K
SSD2 = X∗ (P1 − P2 )X = ∑ ni (x̄i· − x̄·· )(x̄i· − x̄·· )∗ (3.13)
i =1
og
K ni
SSD1 = X∗ (In − P1 )X = ∑ ∑ (xij − x̄i· )(xij − x̄i· )∗ . (3.14)
i =1 j =1
Lad λ̂1 betegne den største egenvektor for SSD1−1 SSD2 . Ratioen i (3.12) maksimeres
ifølge Sætning A.5 af en vektor â, der er en egenvektor hørende til λ̂1 . I tilfældet K = 2
vil â ifølge Øvelse 3.1 svare til diskriminantfunktionen (op til skalering) udledt i Afsnit
def
3.1. Da rangen af SSD1−1 SSD2 er lig s = min(K − 1, p)† er det naturligt at generalisere
diskriminantfunktionen for K = 2 til flere diskriminantfunktioner for et generelt K og
vi indfører derfor de lineære diskriminantfunktioner:
Definition 3.3 Lad λ̂1 > λ̂2 > · · · > λ̂s > 0 være egenværdierne forskellige fra nul for
SSD1−1 SSD2 . De tilhørende vektorer â1 , â2 , . . . , âs kaldes den første, anden og generelt
kte lineære diskriminantfunktion. Egenvektorerne skaleres således at âi∗ Sâi = 1. N
Data blev oprindeligt indsamlet af G.R. Bryce og R.M. Barker og præsentationen her
er fra Rencher [2002].
I alt deltog 90 forsøgspersoner, og disse var inddelt i 3 grupper: Fodboldspillere i High
School (gruppe 1), Fodboldspillere i college (gruppe 2) og ikke-fodboldspillere (gruppe
3). På hver forsøgsperson blev foretaget 6 målinger, og de variable var:
Endvidere fås
0.428 · · · · ·
0.578 3.161 · · · ·
1 0.158 1.020 0.546 · · ·
S = SSD1 = , (3.15)
87
0.084 0.653 0.077 1.232 · ·
0.125 0.340 0.129 0.315 0.618 ·
0.228 0.505 0.159 0.042 0.009 0.376
3.2.1. Yderligere emner inden for diskriminantanalyse 47
og vi finder diskriminantfunktionerne
−0.948 −1.407
0.004 0.001
0.006 0.029
â1 =
, â2 =
. (3.16)
0.647
− 0.540
0.504 0.384
0.829 1.529
Vi bemærker at λ̂1 udgør en stor andel af den totale sum af egenværdierne (det vil sige
sporet af SSD1−1 SSD2 ):
λ̂1 1.91778
= = 0.94 . (3.17)
λ̂1 + λ̂2 1.91778 + 0.11593
z2
●
●
5 ● ●
● ●
●
● ●
●
●
4 ● ●
●
● ●● ●
●
●●
● ● ● ●
● ● ●
●
●
●
3
●
●
●
●
●
● ●
● ●
●
● ● ●
● ●
●
● ●
● ● ●
2 ● ●
●
●
● ●
Figur 3.2: Scatterplot baseret på diskriminantfunktionerne for data fra Eksempel 3.4.
De tre fyldte cirkler markerer gruppemiddelværdierne.
hvor s j = (S)1/2
jj er kvadratroden af den jte diagonalindgang i S. De tilknyttede diskri-
minantfunktioner âi? kan findes ved â? = (diag S)1/2 â (op til skalering). Som for egen-
værdierne kan man også her være interesseret i egentlige tests, der i dette tilfælde vil
gå på om mængder af λi erne kan være lig nul. For information om hvordan de nævnte
tests konkret udføres henvises til Rencher [2002] og Johnson and Wichern [2007].
Vi bemærker afslutningsvist, at vi notationsmæssigt i Definition 3.3 indikerede at
der var tale om estimerede størrelser ved at f.eks. at skrive λ̂1 frem for λ1 - en skelnen,
som vi også foretog på side 42. De tilsvarende teoretiske størrelser er her egenværdier
og -vektorer for matricen Σ−1 Bµ , hvor
K
1 K
Bµ = ∑ (µi − µ̄)(µi − µ̄)∗ hvor µ̄ =
K i∑
µi .
i =1 =1
Her skal man dog være opmærksom på at mens SSD1 kan erstatte Σ da nΣ̂ = SSD1 er
det mindre oplagt at SSD2 skal erstatte Bµ dels fordi SSD2 , som det fremgår af (3.13),
er vægtet med ni erne og dels fordi µ̄ erstattes ved x̄·· (og ikke ved (x̄1· + · · · + x̄K · )/K).
Man kan på grund denne tvetydighed støde på flere udgaver diskriminantfunktioner-
ne når K > 2. Fremstillingen i dette kapitel er baseret på Rencher [2002], mens f.eks.
3.3. Klassifikation 49
Johnson and Wichern [2007] Kap 11.6 og Lachenbruch [1975] Kap. 5 benytter alternati-
ve estimatorer for Bµ .
3.3 Klassifikation
Vi vender os nu mod klassifikation. Som beskrevet i indledningen går klassifikation ud
på at tilordne observationer til grupper, eller, med andre ord, at klassificere observationer.
Vi lægger ud med at vise, hvordan diskriminantfunktionen for to grupper fra Afsnit
3.1 naturligt giver anledning til en metode til at klassificere observationer (en klassifi-
kationsprocedure). Vi går dernæst videre til at beskrive klassifikation i tilfældet hvor to
grupper er givet ved hver deres tæthed f 1 (x) og f 2 (x), og vi benytter dette udgangs-
punkt til at introducere relevant terminologi. Når tæthederne er kendte, kan vi udlede
en generel optimal klassifikationsprocedure, og vi specialiserer derefter den generelle
procedure til tilfældet hvor f i (x)erne er normalfordelingstætheder.
I Eksempel 3.2 beregnede vi diskriminantfunktionen â for datasættet fra Tabel 3.1
og værdierne, når denne blev anvendt på datasættet, blev angivet i Tabel 3.2. An-
tag nu at vi ønsker at klassificere en måling på (38.0, 60.0). Den tilsvarende værdi af
diskriminantfunktionen beregnes til 16.46 og ved at sammenligne med Tabel 3.2 ser
vi at målingen klassificeres som tilhørende Temperatur 2. For en vilkårlig observation
( x1 , x2 )∗ systematiseres denne tankegang beregne værdierne af diskriminantfunktio-
nen for gruppemiddelværdierne (findes ved hjælp af (3.8) til 19.02 og 16.16) og tilord-
ne observationen til den gruppe, som den tilsvarende værdi af diskriminantfunktionen
ligger nærmest. Konkret vil det sige, at vi tilordner en observation til Temperatur 1 hvis
19.02 + 16.16
−0.570x1 + 0.636x2 ≥ = 17.59 ,
2
og ellers til Temperatur 2. På Figur 3.3 er linien −0.570x1 + 0.636x2 = 17.59 indtegnet
som en stiplet linie i Figur 3.1, og vi ser at denne inddeler udfaldsrummet (her R2 ) i to
disjunkte mængder således at udfald i den i ene mængde tilordnes gruppe 1 og udfald
i den anden mængde tilordnes gruppe 2.
1
(x̄1· − x̄2· )∗ S−1 x0 > (x̄1· − x̄2· )∗ S−1 (x̄1· + x̄2· ) (3.18)
2
og ellers til gruppe 2.
50 Kapitel 3. Diskriminantanalyse og klassifikation
●
64
●
62
●
60
●
● ● ●
styrke
58
●
56
●
54 Temperatur 1
● Temperatur 2
52
30 35 40 45
flydegrænse
Figur 3.3: Figur 3.1 med linien −0.570x1 + 0.636x2 = 17.59 indtegnet. (stiplet)
3.3.1 Klassifikationsfunktioner
Vi vil nu diskutere klassifikation mere generelt - dels for at indføre noget terminologi,
og dels for at vise et teoretisk resultat om optimal klassifikation, der viser at den netop
udledte klassifikationsprocedure i en vis forstand er optimal, hvis data er normalfor-
delt. Vi lader K betegne antallet af grupper. For at facilitere den teoretiske diskussion
vil vi nu betragte gruppetilordningen som stokastisk, i den forstand at vi til hver Xi
indfører en stokastisk variabel Yi ∈ {1, . . . , K }, der indikerer hvilken gruppe Xi hø-
rer til. Det samlede datasæt består derfor af n observationer (xi∗ , yi )∗ , der er ( p + 1)-
dimensionale søjlevektorer og udfald en i.i.d. følge (Xi∗ , Yi )∗ i = 1, . . . , n. De marginale
sandsynligheder for Yi erne betegnes πk , det vil sige
P (Y = k ) = π k , k = 1, . . . , K .
Xi | Yi = k ∼ Pk .
3.3.1. Klassifikationsfunktioner 51
der fortolkes som den forventede omkostning med misklassifikation. Vi vil fokusere
på (3.19), da det generelle tilfælde ikke er substantielt anderledes, se Johnson and Wi-
chern [2007]. For det andet bliver klassifikationsfunktionerne ofte specificeret indirekte
def
gennem klassifikationsområder, der i vores terminologi er Ri = {x | C(x) = i }. I tilfældet
K = 2 kan (3.19) derved udtrykkes som
Z Z
π1 f 1 (x)dx + π2 f 2 (x)dx (3.20)
R2 R1
idet første, henholdsvis andet, led udtrykker sandsynligheden for at en observation fra
population 1 henholdsvis 2 misklassificeres. Vi definerer nu den såkaldte Bayes klassifi-
kationsfunktion og viser at denne minimerer (3.19). Beviset er fra Mardia et al. [2003].
52 Kapitel 3. Diskriminantanalyse og klassifikation
hvor
Hvis vi uniformt kan minimere højresiden ovenfor, vil (3.21) ligeledes blive minimeret.
Dette kan gøres ved at maksimere
K
P(Y0 = C(x) | X0 = x) = ∑ 1 (C(x) = k) P(Y0 = k | X0 = x) ,
k =1
f k (x) π k
P (Y = k | X = x ) = ,
f 1 (x) π1 + · · · + f K (x) π K
eller med andre ord: C B (x) = arg maxk f k (x). Følgende ækvivalente form, er ofte be-
kvem:
πl
C B (x) = k hvis log f k (x) − log f l (x) > log for l 6= k . (3.23)
πk
1 1
− (x − µ 1 ) ∗ Σ −1 (x − µ 1 ) + (x − µ 2 ) ∗ Σ −1 (x − µ 2 )
2 2
1
= (µ1 − µ2 )∗ Σ−1 x − (µ1 − µ2 )∗ Σ−1 (µ1 + µ2 ) (3.25)
2
fås ved hjælp af (3.23) følgende optimale klassifikationsprocedure:
1 π
(µ1 − µ2 )∗ Σ−1 x0 − (µ1 − µ2 )∗ Σ−1 (µ1 + µ2 ) > log 2 (3.26)
2 π1
og ellers til population 2.
1 π̂
(x̄1· − x̄2· )∗ S−1 x0 − (x̄1· − x̄2· )∗ S−1 (x̄1· + x̄2· ) > log 2 (3.27)
2 π̂1
og ellers til population 2.
Bemærk at venstresiden af (3.27) er en lineær funktion af x0 vi vil derfor referere til den-
ne, og den senere generalisering til K ≥ 2 i (3.40), som lineær klassifikation. Vi ser nu at
den estimerede procedure i tilfældet π̂1 = π̂2 præcis er proceduren fra (3.18), selvom,
som det blev bemærket i Bemærkning 3.1, sidstnævnte ikke afhænger af antagelsen
om normalitet. Vi konkluderer at hvis data er normalfordelt (og kovariansmatricerne
er ens), er proceduren approksimativt optimal.
1 π
− x0∗ (Σ1−1 − Σ2−1 )x0 + µ1∗ Σ1−1 − µ2∗ Σ2−1 x0 − k > log 2
2 π1
og ellers til population 2.
Bemærk tilstedeværelsen af “det nye” led − 12 x0∗ (Σ1−1 − Σ2−1 )x0 . Igen indsættes estima-
terne for at finde den estimerede TPM procedure:
Kvadratisk klassifikation K = 2
Alloker x0 til population 1 hvis
1 π̂2
− x0∗ (S− 1
(1)
− S −1
(2)
) x 0 + x̄1
∗ −1
· S (1)
− x̄2
∗ −1
· S (2)
x0 − k̂ > log (3.29)
2 π̂1
og ellers til population 2.
hvor !
def 1 | S(1) | 1 ∗ −1
k̂ = log + x̄1· S(1) x̄1· − x̄2∗· S− 1
x̄
(2) 2·
.
2 | S(2) | 2
Vi bemærker at venstresiden nu bliver en kvadratisk funktion i x0 , og som indikeret
kaldes proceduren for kvadratisk klassifikation
Example 3.6.
Vi vil i dette eksempel betragte det datasæt som Fisher i artiklen Fisher [1936] fra 1936
benyttede som udgangspunkt for sin udledning af den lineære diskriminantfunktion.
Datasættet blev betragtet på filen Eksempler.pdf med yderligere beregninger foretaget
Rtilsupp.pdf og indeholder målinger på 50 planter af hver af arterne Iris Setosa, Iris
Versicolor og Iris Virginica. På hver plante har man målt længde og bredde af bæger-
bladet (sepalum) og længde og bredde af kronbladet (petalum). I Tabel 3.4 findes et
uddrag af datasættet. Vi vil i første omgang illustrere de netop indførte metoder ved at
betragte længde og bredde af kronbladet for arterne Versicolor og Virginica (henholds-
vis 1 og 2).
Ved hjælp af Bartlett’s test viser det sig imidlertid at kovariansmatricerne ikke kan
antages at være identiske, og vi ønsker derfor at benytte klassifikationsproceduren
kvadratisk klassifikation, det vil sige proceduren baseret på (3.29). Venstresiden af ud-
trykket findes til
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5
Versicolor
Virginica
0.0
3 4 5 6 7
Petalum Lændge
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5
Versicolor
Virginica
0.0
3 4 5 6 7
Petalum Lændge
1 ( µ 1 − µ 2 ) ∗ Σ −1 ( µ 1 + µ 2 )
Z
f 1 (x)dx = P Y < =♣ (3.34)
R2 2 D
def
hvor Y = a∗ X og for X ∼ f 1 (x), altså X ∼ Np (µ1 , Σ) og D er defineret i (3.7). Vi indfører
def
nu µY = E a∗ X = (µ1 − µ2 )∗ Σ−1 µ1 /D og regner videre på (3.34):
1 ( µ 1 − µ 2 ) Σ −1 ( µ 1 + µ 2 )
♣ = P Y − µY < − µY
2 D
!
− 21 D2 −D
= P Y − µY < =Φ .
D 2
Et tilsvarende udtryk for led i (3.32) leder frem til følgende udtryk:
−D −D −D
1 1
OER = Φ + Φ =Φ .
2 2 2 2 2
Vi har altså her fundet et udtryk for TPM for den optimale klassifikationsprocedure. For
de estimerede procedurer fra (3.27) og (3.29) kaldes TPM for Actual Error Rate ( AER)
og denne beregnes ved
Z Z
π1 f 1 (x)dx + π2 f 2 (x)dx , (3.35)
R̂2 R̂1
hvor R̂i i = 1, 2 kan findes ved at indsætte estimater i udtryk svarende til (3.33). Som
det fremgår afhænger (3.35) af de ukendte tætheder, og selvom vi i princippet kan
approksimere disse ved at indsætte estimater, vil vi i stedet betragte den såkaldte
Apparent Error Rate (APER) , som defineres til at være andelen af observationer der
misklassificeres blandt de observationer, som indgår i beregningen af den estimerede
procedure. APER er ikke-parametrisk i den forstand at vi ikke gør nogen antagelser
om bagvedliggende fordelinger. Beregningen af APER tager ofte udgangspunkt i den
såkaldte Konfusionsmatrix (engelsk: Confusion Matrix). Konfusionsmatricen er en K × K
matrix, hvor indgang nij , i = 1, . . . , K, j = 1, . . . , K angiver antallet af observationer
58 Kapitel 3. Diskriminantanalyse og klassifikation
Forudsagt gruppe
Antal
Virkelig gruppe 1 2
observationer
1 n11 n12 n 1·
2 n21 n22 n 2·
Forudsagt gruppe
Antal
Virkelig gruppe Versicolor Virginica
observationer
Versicolor 48 2 50
Virginica 4 46 50
Fordelene ved APER er at den er let at beregne og fortolke. Ulempen er at den er til-
bøjelig til at undervurdere AER, og i en løs forstand er APER biased. Problemet der
opstår skyldes at klassifikationsproceduren tilpasses data, og at data derfor ikke kan
bruges til vurdere klassifikationsproceduren. For at imødegå dette problem kan man
opdele det originale datasæt i træningsdata og testdata (eller valideringsdata), og så, som
navnene lægger op til, benytte førstnævnte til at beregne klassifikationsproceduren og
sidstnævnte til at estimere fejlraten. Et problem ved den teknik er at man evaluerer en
3.3.4. Klassifikation af flere normalfordelte populationer 59
Forudsagt gruppe
Antal
Virkelig gruppe Versicolor Virginica
observationer
Versicolor 49 1 50
Virginica 2 48 50
klassifikationsprocedure, som er forskellig fra den procedure, som man i sidste ende
ønsker at benytte. En teknik, der imødegår dette problem er krydsvalidering (engelsk:
cross-validation. ) Krydsvalidering er et generelt begreb, som vi her vil benytte om føl-
gende teknik: Først findes en klassifikationsfunktion, ved at benytte alle observationer
undtagen een. Den undtagne observation klassificeres dernæst, ved hjælp af den fund-
ne klassifikationsfunktion. Dette gentages indtil alle observationer er klassificeret. Hvis
AER opfattes som en stokastisk variabel, så vil proportionen af misklassificerede obser-
vationer ved krydsvalidering givet et asymptotisk unbiased estimat af middelværdien
af AER og denne betegnes derfor Ê(AER). Krydsvalidering kaldes også leave-one-out,
holdout eller jack-knifing, og kan være ret beregningstung.
1 1 ∗ Σ −1 (x − µ
f i (x) = p 1
e− 2 (x− µ i ) i) , x ∈ R p , i = 1, . . . , K , (3.36)
(2π ) |Σ|
2 2
og så benytte Lemma 3.5 til at udlede optimale procedurer. Man kan vælge om man
vil benytte formen (3.22) eller (3.23). Sidstnævnte er naturlig, hvis man ønsker at be-
tragte en referencegruppe, men vi benytter førstnævnte. Vi starter med tilfældet, hvor
kovariansmatricerne antages at være identiske: Σ1 = · · · = ΣK . Allokeringsreglen vil
her være:
Venstresiden af (3.37) er
p 1 1
log πk f k (x0 ) = log πk − log(2π ) − log Σ − (x0 − µk )∗ Σ−1 (x0 − µk ) . (3.38)
2 2 2
60 Kapitel 3. Diskriminantanalyse og klassifikation
Ved at gange ud i (3.38) og ignorere led der ikke afhænger af k ser vi, at klassifikations-
proceduren bekvemt kan beskrives ved hjælp af de såkaldte lineære klassifikationsfunk-
tioner)
def 1
di (x) = µi∗ Σ−1 x − µi∗ Σ−1 µi + log πi i = 1, . . . , K ,
2
idet proceduren da bliver at allokere x0 til gruppe k, hvor k er det indeks, der mak-
simerer di (x) i = 1, . . . , K, og de lineære klassifikationsfunktioner definerer derved
indirekte en samlet klassifikationsfunktion. Som i afsnit 3.3.2 benyttes i praksis estime-
rede størrelser og den tilsvarende procedure formuleres da ved hjælp af de estimerede
lineære klassifikationsfunktioner
def 1
dˆi (x) = x̄i∗· S−1 x − x̄i∗· S−1 x̄i· + log π̂i i = 1, . . . , K . (3.39)
2
Lineær klassifikation K ≥ 2
Alloker x0 til population k hvis
def 1 1
dkQ (x) = − log|Σi | − (x − µi )∗ Σi−1 (x − µ) + log πi (3.41)
2 2
De tilsvarende estimerede funktioner er
def 1 1
dˆiQ (x) = − log|S(i) | − (x − x̄i· )∗ S− 1
(i )
(x − x̄i· ) + log π̂i i = 1, . . . , K (3.42)
2 2
Allokeringsproceduren bliver her
Kvadratisk klassifikation K ≥ 2
Alloker x0 til population k hvis
Forudsagt gruppe
Antal
Virkelig gruppe Setosa Versicolor Virginica
observationer
Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 4 46 50
Tabel 3.8: Konfusionsmatrix ved lineær klassifikation af iris datasættet for to variable.
og på tilsvarende vis
dˆ2Q (x) = −1.832x12 + 2.371x1 x2 + 15.534x1 − 7.396x22 + 16.803x2 − 58.204 ,
dˆ3Q (x) = −7.631x12 + 32.679x1 x2 + 14.274x1 − 48.501x22 − 23.915x2 − 4.482 .
På Figur 3.7 er de tre klassifikationsområder antydet. Konfusionsmatricen for kvadra-
tisk klassifikation ved hjælp af (3.43) er givet i Tabel 3.9.
Forudsagt gruppe
Antal
Virkelig gruppe Setosa Versicolor Virginica
observationer
Setosa 50 0 0 50
Versicolor 0 49 1 50
Virginica 0 2 48 50
Tabel 3.9: Konfusionsmatrix for kvadratisk klassifikation af iris datasættet med to va-
riable.
Vi finder
50 + 48 + 49
APER = 1 − = 0.02
150
Klassifikationen med kvadratiske klassifikationsfunktioner er dog lidt mindre impo-
nerende, når den evalueres ved hjælp af krydsvalidering som det fremgår af konfu-
sionsmatricen på Tabel 3.10. Ud fra denne findes
50 + 48 + 47
Ê(AER) = 1 − = 0.033
150
Forudsagt gruppe
Antal
Virkelig gruppe Setosa Versicolor Virginica
observationer
Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 3 47 50
Tabel 3.10: Konfusionsmatrix for kvadratisk klassifikation af iris datasættet med to va-
riable hvor der er benyttet krydsvalidering.
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5 Versicolor
Virginica
Setosa
0.0
1 2 3 4 5 6 7
Petalum Lændge
Figur 3.6: Scatterplot af petalum bredde mod petalum længde for 3 tre iris arter. Ind-
tegnet er linerne dˆ1 (x) = dˆ2 (x) og dˆ1 (x) = dˆ3 (x).
Forudsagt gruppe
Antal
Virkelig gruppe Setosa Versicolor Virginica
observationer
Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 1 1 49 50
og finder
50 + 48 + 49
APER = E(AER) = 1 − = 0.02 .
50 + 50 + 50
64 Kapitel 3. Diskriminantanalyse og klassifikation
3.0
2.5
2.0
Petalum Bredde
1.5
1.0
0.5 Versicolor
Virginica
Setosa
0.0
1 2 3 4 5 6 7
Petalum Lændge
Figur 3.7: Scatterplot af Petalum Bredde mod Petalum Længde med indtegnet kvadra-
tiske klassifikationsområder.
Hvis vi betragter y = (y1 , . . . , y p )∗ hvor y j = â∗j x og ȳk = (ȳk1 , . . . , ȳkp )∗ hvor ȳkj =
a∗j x̄k· kan venstresiden ovenfor fortolkes som kvadratet på afstanden mellem de trans-
formerede værdier y og ȳk og allokeringsproceduren siger med andre ord at vi tilordne
x til den gruppe, hvis middelværdi x ligger nærmest i diskriminantrummet. Selvom
det måske ikke umiddelbart ser sådan ud, er den fundne procedure faktisk ækvivalent
med (3.40) og vi konkluderer at den er asymptotisk optimal, når data er normalfordel.
og så lave lineær klassifikation. Det samlede datasæt kan i sagens natur ikke være fler-
dimensional normalfordelt, men hvis klassifikationsproceduren fungerer godt ud fra
kriterierne givet i afsnit 3.3.3, er dette ikke noget problem. I machine learning termino-
logi refererer man ofte til de variable som “features” og konstruktionen af nye variable
betegnes “feature engineering”.
Litteratur
Lars Nørvang Andersen. Multivariat Statistisk Analyse. Institut for Matematiske Fag,
2020.
P.M. Gerrild and R.J. Lantz. Chemical analysis of 75 crude oil samples from pliocene
sand units, elk hills oil field, ca. Geological Survey Open File Report, 1969.
Richard A. Johnson and Dean W. Wichern. Applied multivariate statistical analysis. Pear-
son Prentice Hall, Upper Saddle River, NJ, sixth edition, 2007. ISBN 978-0-13-187715-
3; 0-13-187715-1.
67
Opgaver til Kapitel 3
Exercise 3.1 Vis, at for K = 2 er S−1 (x̄1· − x̄2· ) en egenvektor for SSD1−1 SSD2 , hvor
SSD1 og SSD2 er indført i henholdsvis (3.14) og (3.13), og redegør herved at der er
overensstemmelse mellem diskriminantfunktionen indført i (3.6) og den første (og her
eneste) diskriminantfunktion indført i Definitionen 3.3.
Vink: Vis at
n1 n2
SSD2 = (x̄1· − x̄2· )(x̄1· − x̄2· )∗
n1 + n2
og benyt Sætning A.2 eller Sætning A.5.
M1 : Xij ∼ Np (µi , Σ0 ), j = 1, . . . , ni , i = 1, 2,
1 ni 1
µ̂i = X̄i· = ∑
n i j =1
Xij ∼ Np (µi , Σ0 ), i = 1, 2,
ni
1 1 1 2 ni
2 i∑ ∑ (Xij − X̄i· )∗ Σ0−1 (Xij − X̄i· )},
L(µ̂1 , µ̂2 ) = exp {−
(2π )np/2 | Σ0 |n/2 =1 j =1
hvor n = n1 + n2 .
Betragt hypotesen
H: µ1 = µ2 ,
svarende til reduktionen fra model M1 til
M2 : Xij ∼ Np (µ, Σ0 ), j = 1, . . . , ni , i = 1, 2.
69
70 OPGAVER
1 1 1 2 ni
L(µ̂) = exp{− ∑ ∑ ( Xij − X̄·· )∗ Σ0−1 ( Xij − X̄·· )}.
(2π )np/2 | Σ0 |n/2 2 i =1 j =1
Vis endvidere, at der for likelihood ratio testoren Q for hypotesen H gælder, at
2 ni 2 ni
−2 ln Q = ∑ ∑ (Xij − X̄·· )∗ Σ0−1 (Xij − X̄·· ) − ∑ ∑ (Xij − X̄i· )∗ Σ0−1 (Xij − X̄i· ).
i =1 j =1 i =1 j =1
1 1 n + n2
X̄1· − X̄2· ∼ Np (0, ( + )Σ0 ) = Np (0, 1 Σ0 ), (3.48)
n1 n2 n1 n2
samt at
n1 n2
− 2 ln Q = ( X̄1· − X̄2· )∗ Σ0−1 ( X̄1· − X̄2· ) ∼ χ2 ( p). (3.49)
n1 + n2
samt at
1
S= (SSD(1) + SSD(2) )
n1 + n2 − 2
er en middelværdiret estimator for Σ.
5◦ Vis ved hjælp af (3.48) med Σ0 erstattet med Σ, (3.50) og Sætning 5.9 i Andersen
[2020], at
n + n2 − ( p + 1) 2
F= 1 T ∼ F ( p, n1 + n2 − ( p + 1)).
p ( n1 + n2 − 2)
3◦ Benyt lineær klassifikation til klassificere et nyt firben, for hvilket (v, l ) = (2, 60).
Benyt både (v, l ) og den tilsvarende værdi af (lnv, lnl ). Hvordan skal resultatet
fortolkes?
Exercise 3.5 Som tidligere omtalt vil APER undervurdere den reelle fejlrate for vores
klassifikationsprocedurer. Dette er i særdeleshed et problem ved mellem- til højdimen-
sionale datasæt, hvilket illustreres i denne opgave.
Opgaven vedrører datasættet på filen sonar.dat. Datasættet indeholder i alt n =
208 observationer, der hver består af p = 60 målinger. Hver observation er et sonar-
signal, der er tilbagekastet fra enten en metal-cylinder eller en sten, og variablen Class
angiver med M henholdsvis R hvilken af de to muligheder, der er tale om. Hver måling
er et tal mellem 0.0 og 1.0 som angiver den energien indenfor forskellige frekvensbånd
integreret over tid.
Exercise 3.6 I denne opgave betragtes Sonar datasættet fra Øvelse 3.5. Da hver obser-
vation består af 60 målepunkter, kan vi ikke umiddelbart visualisere det.
1◦ Benyt teknikken som er beskrevet i forbindelse med Figur 3.2 til at plotte kode til
at plotte z1i med i for i = 1, . . . , 208.
ejer Ikke-ejer
x y x y
90.0 18.4 105.0 19.6
115.5 16.8 82.8 20.8
94.8 21.6 94.8 17.2
91.5 20.8 73.2 20.4
117.0 23.6 114.0 17.6
140.1 19.2 79.2 17.6
138.0 17.6 89.4 16.0
112.8 22.4 96.0 18.4
99.0 20.0 77.4 16.4
123.0 20.8 63.0 18.8
81.0 22.0 81.0 14.0
111.0 20.0 93.0 14.8
Havetraktor-ejer Ikke-ejer
x y x y
n 12 n 12
S 1313.70 243.20 1048.80 211.60
USS 147696.39 4973.76 93872.88 3780.32
SP 26494.32 SP 18465.36
Kilde: Richard A. Johnson and Dean W. Wichern (2002): Applied Multivariate Stati-
stical Analysis. New Jersey: Prentice Hall, Inc.
Exercise 3.8 Et hospital ønsker at udvikle en procedure til, ved hjælp af en blodprøve,
at afgøre om en person er bærer af et gen, der forårsager hæmofili A - en variant af
blødersygdommen. Af denne årsag har man på grupper af kvinder udtaget blodprøver
og målt variable: x1 = activity, som angiver log10 (AHF activity) og x2 = antigen,
som er log10 (AHF antigen). De to grupper består af n1 = 45 kvinder som er bærere
(carrier) af genet og n2 = 30 kvinder, som er ikke-bærere (noncarrier).
Datasættet findes på filen hemo.dat:
Kilde: Richard A. Johnson and Dean W. Wichern (2002): Applied Multivariate Stati-
stical Analysis. New Jersey: Prentice Hall, Inc.
Exercise 3.9 I artiklen Gerrild and Lantz [1969] analyseres råolie-prøver fra tre typer
sandsten: Wilhelm, Sub-Mulinia og Upper. For hver prøve måles der på 5 variable:
y1 = x1
√
y2 = y2
√
y3 = y3
y4 = 1/y4
y5 = y5
74 OPGAVER
4◦ Gentag 3◦ , men hvor nogle (efter eget valg) variable udelades. Hvilke variable er
vigtige for klassificeringen?
x y y
4
1.74 1.36
1.84 2.41 3
0.45 −0.49 ●
2
−1.58 −1.51
●
−0.18 1.33 1
●
0.98 0.42 ●
●
−1.92 −1.80 0
●
●
● ●
−0.63 −0.75 ●
●
−1
0.21 −0.31 ●
0.49 −0.28 −2
● ●
−0.52 −0.18
0.03 0.55 −3
−0.26 0.12
−4 −2 0 2 4
1.47 0.91
−2.12 −1.78 x
75
76 Kapitel 4. Principal Komponent Analyse
y y
4 4
3 3
● ●
2 2
● ● ● ●
1 ● 1 ●
● ●
● ●
● ●
0 0
● ●
● ● ● ●
● ●
● ●
−1 −1
● ●
● ● ● ●
−2 −2
−3 −3
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figur 4.2: Datasættet fra Figur 4.1 med Figur 4.3: Datasættet fra Figur 4.1 med
det lineære underrum span((1, 2)∗ ) det lineære underrum span((3, 1)∗ )
samt de tilhørende ortogonale projek- samt de tilhørende ortogonale projek-
tioner indtegnet. tioner indtegnet.
def 1 n
n i∑
MSE(a) = kxi − aa∗ xi k2 , (4.2)
=1
under bibetingelsen a∗ a = 1.
1 n ∗ 1 n 1 n 1 n
MSE(a) = ∑
n i =1
xi xi − ∑ (a∗ xi )2 = ∑ xi∗ xi − ∑ z2i .
n i =1 n i =1 n i =1
(4.3)
4.1. Empiriske principal komponenter 77
Minimering af MSE(a) svarer altså til maksimering af n1 ∑in=1 (a∗ xi )2 , hvilket vi med
z = (z1 , . . . , zn )∗ kan skrive som USSz /n og da z· = 0 vil denne være lig SSDz /n
hvilket vi genkender som den empiriske varians for følgen z1 , . . . , zn . Vi ser altså, at
vores oprindelige problem med at finde en en-dimensional repræsentation af vores
datasæt, er blevet til et spørgsmål om at maksimere den empiriske varians af en linear
transformation af vores datapunkter. Vi ønsker at benytte resultatet A.4 i Appendikset
til at løse dette maksimeringsproblem, og vi indfører derfor n × p X hvis ite række er
xi (med andre ord: “datamatricen” svarende til x1 , . . . , xn ). Vi har da z = Xa og kan
derfor omskrive
z∗ z (Xa)∗ (Xa)
∗
SSDz USSz ∗ X X
= = = =a a. (4.4)
n n n n n
def
Ved at sætte Σ̂ = X∗ X/n og kombinere (4.3) med (4.4) får vi at
1 n ∗ SSDXa
∑
n i =1
xi xi − MSE(a) =
n
= a∗ Σ̂a . (4.5)
Vi kan nu anvende Sætning A.4, som ikke blot fortæller at det endimensionale under-
rum som vi indledningsvist søgte efter er span(ô(1) ) hvor ô(1) er en normeret egenvek-
tor hørende til λ̂1 , den største egenværdi for Σ̂, men også, at hvis vi ønsker at maksime-
re (4.5) under bibetingelsen af a∗ ô(1) = 0 så vil dette maksimum antages for ô(2) og så
fremdeles. Endeligt bemærker vi, at ô∗(i) Σ̂ô( j) = 0, for i 6= j, da ô∗(i) Σ̂ô( j) = o∗(i) λ j o( j) =
0, og at ô∗(i) Σ̂ô( j) /n er den empiriske kovarians mellem z1 = Xô(i) og z2 = Xô( j) , som
vi på side 82 i Andersen [2020] betegnede SPDz1 z2 /n.
Definition 4.1
og generelt:
y y
4 4
3 3
● ●
2 2
● ● ● ●
1 ● 1 ●
● ●
● ●
● ●
0 0
● ●
● ● ● ●
● ●
● ●
−1 −1
● ●
● ● ● ●
−2 −2
−3 −3
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figur 4.4: Datasættet fra Figur 4.1 med Figur 4.5: Datasættet fra Figur 4.1 med
det lineære underrum span(ô(1) ) samt det lineære underrum span(ô(2) ) samt
de tilhørende ortogonale projektioner de tilhørende ortogonale projektioner
indtegnet. indtegnet.
Motiveret af Afsnit 4.1 ønsker vi finde de ai -er der maksimerer varianserne (4.9) under
den begrænsning at Yi -erne skal være ukorrelerede, altså kovarianserne i (4.10) skal
være nul.
Definition 4.2
og generelt:
Den linear kombination ai X der maksimerer varian-
Den ith principal
= sen Var(ai∗ X) under bibetingelsen at ai∗ ai = 1, samt N
komponent
at Cov(ai∗ X, a∗k X) = 0, k < i.
Yi = o∗(i) X i = 1, 2, . . . , p , (4.8)
og der gælder i da at
Proof. Resultatet følger ved at benytte Sætning A.4. Vi starter med at observere, at
(4.9) medfører at den første principal komponent findes ved løsning af maksimerings-
problemet
max
∗
a1∗ Σa1 .
a1 a1 =1
Sætning A.4 giver nu umiddelbart at den første principal komponent er givet ved Y1
fra (4.8). Med den første principal komponent ved hånden kan den anden nu findes
(ved at benytte (4.9) og (4.10)) ved løsning af maksimeringsproblemet
max
∗
a2∗ Σa2 ,
a2 a2 =1
o∗(1) a2 =0
og Sætning A.4 giver nu at Y2 fra (4.8) er den anden principal komponent. De resteren-
de principal komponenter kan nu findes ved successiv anvendelse af Sætning A.4.
80 Kapitel 4. Principal Komponent Analyse
I praksis står man ofte i den situation af de første få (en, to eller tre) principal kompo-
nenter forklarer en stor (80% − 90%) del af variansen og man kan derfor se bort fra de
resterende principal komponenter, uden, løst sagt, at miste meget information.
De individuelle komponenter i o∗(i) = (oi1 , . . . , oik , . . . , oip ) kan også fortolkes, idet kor-
relationen mellem Yi og Xk er proportional med oik , hvilket vi formulerer i nedenstå-
ende resultat:
Proof. Ved at skrive Xk = Xek hvor ek er en vektor hvis k-te komponent er 1 og resten
er 0 fås af (A.73) fra Andersen [2020] at Cov(Yi , Xek ) = o∗(i) Σek og dermed
o∗(i) Σek √
Cov(Yi , Xk ) λi oik oik λi
Cor(Yi , Xk ) = p =√ √ =√ √ = √ . (4.11)
Var(Yi ) Var( Xk ) λi σk k λi σkk σkk
1 1 ∗ −1
Σ x
f X (x) = p 1
e− 2 x , x ∈ Rp. (4.12)
(2π ) |Σ|
2 2
{ x ∈ R p | x∗ Σ −1 x = c 2 } . (4.13)
y2 x2
y1
r λ1
r λ2
x1
−r λ 2
−r λ 1
Figur 4.6: Ellipser i det generelle tilfælde ved p = 2 med indtegnede halvakser. De tykt
optrukne liniestykker er de normaliserede egenvektorer for Σ
{ y ∈ R p | y∗ ∆ −1 y = c 2 } . (4.14)
Vi antog indledningsvist at middelværdien µ var nul. Hvis dette ikke er tilfældet be-
nyttes ovenstående argumenter på X − µ i stedet, og konsekvensen af dette er at y-
koordinatsystemet er centreret i µ i stedet for i 0, se Figur A.1 i Andersen [2020].
Z = D−1 (X − µ ) (4.16)
82 Kapitel 4. Principal Komponent Analyse
hvor √
σ11 0 ... 0
0 √
... 0
σ22
D= .. .. .. .. .
. . . .
0 √
0 ... σpp
Skrives (4.16) ud, fås,
x1 − µ1
z1 = √
σ11
x2 − µ2
z2 = √
σ22 (4.17)
..
.
xp − µp
zp = √ .
σpp
Vi bemærker at kovariansmatricen for Z er korrelationsmatricen for X, idet vi kan be-
nytte regnereglerne i afsnit (A.4.3) i Andersen [2020] til at få
Principal komponenterne af Z kan altså findes ved at beregne egenvektorerne õ(i) for
korrelationsmatricen ρ for X, og er givet ved
Resultaterne fra sætningerne 4.3 og 4.5 gælder med mindre (og simple) modificeringer
som er konsekvenser af at variansen på komponenterne i Z er 1, og således har vi
p p
∑ Var(Yi ) = ∑ Var Zi = p
i =1 i =1
og
p
Cor(Yi , Zk ) = õik λi .
Tabel 4.1: Egenvektorer og forklaret varians for Eksempel 4.7, beregnet ud fra kovari-
ansmatricen (4.18).
Example 4.7.
I artiklen Pearce [1965], som er omtalt i Rencher [1998], beskrives målinger på 54 æb-
letræer. De variable er y1 = total længde af sidegrene, y2 = omkreds af stammen and
y3 =højde. Da varianserne har forskellig størrelsesorden betragtes de standardiserede
variable, yi0 , i = 1, 2, 3, som er dannet som (4.17) med estimaterne indsat for middel-
værdier og varianser. Den estimerede korrelationsmatrix findes til
1 · ·
ρ̂ = 0.5702 1 · (4.18)
0.2414 0.5816 1
Example 4.8.
Dette eksempel er taget fra Johnson and Wichern [2007], og omhandler ugentlige afkast
for fem aktier i perioden januar 2004 til december 2005, hvilket svarer til 103 observa-
tioner. De fem aktier er knyttet til tre banker (JP Morgan, Citibank og Wells Fargo) og
to olieselskaber (Royal Dutch og ExxonMobil). De ugentlige afkast er her defineret til
at være (ugentlig lukkepris - foregående uges lukkepris)/foregående uges lukkepris,
justeret for aktiesplit og dividender. Vi betragter de standardiserede variable y10 , . . . , y50
svarende til henholdsvis JP Morgan, Citibank, Wells Fargo, Royal Dutch Shell og Exxon
84 Kapitel 4. Principal Komponent Analyse
Egenværdi % af Egenvektor
i
λ̂i variansen ô(i)
1 2.4370 0.49 ( 0.469, 0.532, 0.465, 0.387, 0.361)∗
2 1.4070 0.77 (−0.368, −0.236, −0.315, 0.585, 0.606)∗
3 0.5010 0.87 ( 0.604, 0.136, −0.772, −0.093, 0.109)∗
4 0.4000 0.95 (−0.363, 0.629, −0.289, 0.381, −0.493)∗
5 0.2550 1.00 (−0.384, 0.496, −0.071, −0.595, 0.498)∗
Det fremgår af Tabel 4.2 at de to første principal komponenter samlet forklarer 77% af
variansen og er givet ved
Vi betragter her datasættet omhandlende sportsskader, som blev brugt som eksem-
pel på diskriminantanalyse med flere grupper. Estimatet for kovariansmatricen S blev
angivet i (3.15) og dennes egenværdier og tilhørende egenvektorer er angivet i Tabel
4.3. Vi vil udelade en analyse af principal komponenterne, da denne bliver meget lig
analysen i Eksempel 4.7. De to første principal komponenter, y1 og y2 , er plottet mod
hinanden i Figur 4.7, og kan sammenlignes med plottet af de to første diskriminant-
funktioner fra Figur 3.2, idet også middelværdierne i y-koordinaterne er indtegnet og
det er værd at bemærke disse praktisk talt ligger på en ret linie, hvilket blev omtalt på
side 47.
4.5. Anvendelser af principal komponenter 85
Egenværdi % af Egenvektor
i
λ̂i variansen ô(i)
1 3.935 0.619 ( 0.179, 0.884, 0.292, 0.245, 0.132, 0.153)∗
2 1.174 0.803 ( 0.077, 0.194, 0.192, −0.893, −0.323, 0.132)∗
3 0.510 0.883 (−0.291, 0.142, −0.088, 0.305, −0.891, −0.028)∗
4 0.424 0.950 ( 0.660, −0.151, −0.299, 0.122, −0.189, 0.634)∗
5 0.180 0.978 ( 0.369, 0.279, −0.636, −0.121, −0.035 − 0.605)∗
6 0.139 1.000 (−0.552, 0.246, −0.614, −0.141, 0.218, 0.437)∗
y2
●
32
31 ●
●
●
●
●
30 ● ●
● ●
● ●
●
● ●
●
29 ●
●
● ●● ●
● ●
● ●
● ●
● ●
● ●
28 ●
●
●
●
● ●
●
● ●
● ●
●
●
●
27
●●
●
● ● ●
●
● ● ●
●
26 ●
●
● ●
y1
Figur 4.7: Plot af anden principal komponent mod første principal data for datasættet
fra Eksempel 3.4
86 Kapitel 4. Principal Komponent Analyse
Example 4.9.
I dette eksempel gengives et datasæt fra artiklen Jeffers [1967]. Datasættet indeholder
målinger på 19 variable for 40 vingede bladlus. De 19 variable er beskrevet i Jeffers
[1967] og måler forskellige fysiologiske karakteristika ved bladlusene. Da målingerne
er meget forskelligartede er det naturligt at betragte de standardiserede variable - da-
tasættet er ikke gengivet her, men er gengivet i Krzanowski [1987], og i Tabel 4.4 er
egenværdierne for den estimerede korrelationsmatrix angivet.
z2
● ●
●
●
● ●
●
2 ●
●
●
●
●
●
●
1
●
0 ●
●
●
● ●
●
●●
● ●
−1
● ● ● ●
●
● ●
●
● ●● ●
●●
●
−2
−6 −4 −2 0 2 4 6
z1
Figur 4.8: Anden (estimerede) principal komponent plottet mod den første for data fra
Eksempel 4.9. Som det ses fremkommer fire grupper.
og estimatet for λ er
p
def λ̂i
λ̂ = ∑ k
i = p − k +1
og teststørrelsen er X 2 hvor
!
p
2p + 11
2
X = n−
6
k log λ̂ − ∑ log λ̂i
i = p − k +1
14 ●
4 ●
12
3
10
Størrelse af egenværdien
Størrelse af egenværdien
8
2
6
4 ●
1
●
2
●
●
●
●
● ● ● ● ● ● ●
● ● ●
0 ● ● ● ● ● ● ●
0
5 10 15 1 2 3 4 5 6
Figur 4.9: Scree plot for data fra Eksem- Figur 4.10: Scree plot for data fra Ek-
pel 4.9 sempel 3.4
Lars Nørvang Andersen. Multivariat Statistisk Analyse. Institut for Matematiske Fag,
2020.
JNR Jeffers. Two case studies in the application of principal component analysis. Ap-
plied Statistics, pages 225–236, 1967.
Richard A. Johnson and Dean W. Wichern. Applied multivariate statistical analysis. Pear-
son Prentice Hall, Upper Saddle River, NJ, sixth edition, 2007. ISBN 978-0-13-187715-
3; 0-13-187715-1.
Alvin C Rencher. Multivariate statistical inference and applications, volume 338. Wiley-
Interscience, 1998.
89
Opgaver til Kapitel 4
Exercise 4.1 Betragt kork-datasættet, som blandt andet blev benyttet i Opgave 5.39 i
Andersen [2020].
Exercise 4.2 I denne opgave betragtes datasættet fra filen skulls.dat, som er beskre-
vet i Eksempler.pdf. Datasættet indeholder målinger på kranier fra ægyptiske mænd
fra 5 epoker. For hver epoke er der foretaget målinger af 4 variable på 30 kranier. De
4 variable er: Maximum Breadth (MB), Basibrematic Height (BH), Basialveolar Length
(BL) og Nasal height (NH), og vi betragter vi modellen
3◦ Lad ôi i = 1, . . . , 5 betegne egenværdierne for S. Beregn ô1 µ̂i og ô2 µ̂i og afsæt
disse i plot som indeholder de to første principal komponenter plottet mod hin-
anden. Farv punkterne i plottet med fem forskellige farver svarende til de fem
forskellige perioder. Hvad viser plottet?
Exercise 4.3 Betragt Sonar datasættet, som også blev betragtet i Øvelse 3.5. For sim-
pelheds skyld beskrives datasættet her som én observationsrække.
3◦ Baseret på 1◦ og 2◦ , vil det være mest relevant at arbejde med originale eller de
transformerede variable?
91
92 OPGAVER
3◦ Vis, at hvis to indgange i o(1) har forskelligt fortegn, så vil uligheden i (4.23) være
skarp. Vis, dernæst ved hjælp af A.6, at der gælder lighedstegn i (4.23).
Appendix
A.1 Maksimeringsresultat
I dette afsnit vises nogle resultater fra Mardia et al. [2003] og Horn and Johnson [1990].
Lemma A.1 Lad c og d være vektorer i R p , og lad Σ være en positiv definit matriks Da
gælder
(c∗ d)2 ≤ (c∗ Σc)(d∗ Σ−1 d) ,
med lighed hvis og kun hvis c = aΣ−1 d for et a ∈ R (eller d = aΣc).
Proof. Lad h·, ·iΣ betegne det til Σ knyttede indre produkt, defineret ved hx, yiΣ =
x∗ Σy for x, y ∈ R p . Ifølge Cauchy-Schwarz’ ulighed gælder der at
med lighed hvis og kun hvis c og Σ−1 d er lineært afhængige, dvs. c = aΣ−1 d for et
a ∈ R.
93
94 OPGAVER
Proof. Første del følger af Sætning A.2, ved at skrive B−1 A = B−1/2 B−1/2 A. Ved-
rørerende anden del af sætning observerer vi, igen med henvisning til Sætning A.2,
at hvis oi i = 1, 2 er egenvektorer hørende til forskellige egenværdier for B−1 A =
B−1 AB−1/2 B1/2 så er B1/2 oi , egenvektorer for den symmetriske matriks B−1/2 AB−1/2
hørende til samme (forskellige) egenværdier og disse opfylder
f :R p → R
x∗ Ax (A.2)
x 7→ ∗ ,
x Bx
hvor A er symmetrisk og B er positiv definit. Når B = I p kaldes brøken ovenfor en
Rayleigh kvotient og x∗ Ax/x∗ Bx kaldes en generaliseret Rayleigh kvotient. Vi vil vise for-
skellige optimeringsresultater for f og får i denne forbindelse brug for spektraldekom-
positionen A = O∆O∗ af A, samt den symmetriske kvadratrod af B, B1/2 og dennes
inverse B−1/2 - begge dele er omtalt i afsnit A.1.14 i Andersen [2020]), og vi minder om
at søjlerne o(i) , i = 1, . . . , p, i den ortogonale matriks O er normerede egenvektorer for
A og at indgangene λ1 , . . . , λ p i diagonalmatricen ∆ er de tilhørende egenværdier, som
vi antager er ordnet i aftagende rækkefølge λ1 ≥ · · · ≥ λ p . Vi betragter først tilfældet
hvor B = I p , og observerer at
p p
∗
x Ax = x O∆O x =∗ ∗
∑x ∗
λi o(i) o∗(i) x = ∑ λi |o∗(i) x|2 , (A.3)
i =1 i =1
og tilsvarende
p
x∗ x = x∗ OO∗ x = ∑ |o∗(i) x|2 . (A.4)
i =1
x∗ Ax
λp ≤ ≤ λ1 , x ∈ Rp , (A.5)
x∗ x
A.1. Maksimeringsresultat 95
x∗ Ax x∗ Ax
max ∗
= max ∗
= max x∗ Ax = λ1 . (A.7)
x6 =0 x x kxk=1,x6=0 x x kxk=1
Resultaterne ovenfor har vedrørt den største og mindste egenværdi for A, og næste
spørgsmål er hvordan vi får de resterende egenværdier i spil. Svaret findes ved at
observere at hvis x ∈ R p står ortogonalt på o(1) forsvinder det dominerende led fra
summen (A.3):
p
o∗(1) x ∗
= 0 ⇒ x Ax = ∑ λi |o∗(i) x|2
i =2
og vi konkluderer på samme måde som i (A.6) at
x∗ Ax
max = max x∗ Ax = λ2 ,
x6 =0 x∗ x kxk=1
o∗(1) x=0 o∗(1) x=0
og da o∗(1) o(2) = 0 opnås maksimum igen for den normerede egenvektor hørende til
λ2 . Ovenstående ræsonnement generaliseres uden videre til generelt k og resultatet
formuleres i nedenstående sætning:
Theorem A.4 Lad A betegne en symmetrisk matriks med egenværdier λ1 ≥ · · · ≥ λ p
og tilhørende normerede egenvektorer o(i) i = 1, . . . , p, da gælder
x∗ Ax
max = max x∗ Ax = λ1 (A.8)
x6 =0 x∗ x kxk=1
og for k = 2, . . . , p
x∗ Ax
max = max x∗ Ax = λk (A.9)
x6 =0 x∗ x kxk=1
o∗(1) x=0,...,o∗(k−1) x=0 o∗(1) x=0,...,o∗(k−1) x=0
Theorem A.5 Lad A og B være symmetriske p × p matricer, hvor B tillige er positiv de-
finit. Lad λ1 ≥ · · · ≥ λ p betegne egenværdierne for B−1 A med tilhørende normerede
egenvektorer o(i) i = 1, . . . , p. Der gælder da
x∗ Ax
max = λ1 (A.10)
x6 =0 x∗ Bx
og for k = 2, . . . , p
x∗ Ax
max = λk (A.11)
x6 =0 x∗ Bx
o∗(1) Bx=0,...,o∗(k−1) Bx=0
1
Proof. Vi viser først (A.10), som er det simpleste tilfælde. Lad for x ∈ R p , y = B 2 x
1 1
(og dermed x = B− 2 y) og bemærk at da B 2 er invertibel, er den tilhørende lineære
afbildning en bijektion og maksimering over x 6= 0 kan ækvivalent foretages over
y 6= 0. Vi får derved
1 1
x∗ Ax y∗ B− 2 AB− 2 y
max ∗ = max . (A.12)
x6=0 x Bx y6 =0 y∗ y
Vi kan nu benytte (A.9) i Sætning A.4 til at konkludere maksimal værdien af (A.12) er
1 1
den maksimale egenværdi af y∗ B− 2 AB− 2 y∗ /(y∗ y∗ ) som ifølge Korollar A.3 er lig λ1 .
1 1
Endvidere opnås dette maksimum når y er en egenvektor for B− 2 AB− 2 , y = õ(1) . Den
1
tilsvarende værdi for x er B− 2 õ(1) som ifølge Korollar A.3 er en egenvektor for B−1 A
hørende til λ1 som ønsket.
Det generelle tilfælde er næsten identisk med ovenstående, idet vi dog skal bemærke
at betingelsen o∗(i) Bx hvor o(i) er en egenvektor for B−1 A hørende til λi , på grund af
1 1 1
Korollar A.3 er ækvivalent med at õ∗(i) B 2 x = 0, hvor õ(i) er en egenvektor for B− 2 AB− 2
1
hørende til λi . Maksimeringen i (A.11) foretages derfor igen at lade y = B 2 x og skrive
x∗ Ax
max =
x6 =0 x∗ Bx
o∗(1) Bx=0,...,o∗(k−1) Bx=0
1 1
y∗ B− 2 AB− 2 y
max =
y6 =0 y∗ y
1 1
o∗(1) B 2 y=0,...,o∗(k−1) B 2 y=0
1 1
y∗ B− 2 AB− 2 y
max .
y6 =0 y∗ y
õ∗(1) y=0,...,õ∗(k−1) y=0
Den ønskede konklusion følger nu som ovenfor, med henvisning til Korollar A.3.
Litteratur
Lars Nørvang Andersen. Multivariat Statistisk Analyse. Institut for Matematiske Fag,
2020.
Roger A Horn and Charles R Johnson. Matrix analysis. Cambridge university press,
1990.
97
Indeks
99
100 INDEKS
TPM, 51
træningsdata, 58
training data, Se træningsdata
valideringsdata, Se testdata