Professional Documents
Culture Documents
14 KOVACS E Tobbvalt Adatelemzes
14 KOVACS E Tobbvalt Adatelemzes
Algoritmuselmlet
Algoritmusok bonyolultsga
Analitikus mdszerek a pnzgyben s a kzgazdasgtanban
Analzis feladatgyjtemny I
Analzis feladatgyjtemny II
Bevezets az analzisbe
Complexity of Algorithms
Differential Geometry
Diszkrt matematikai feladatok
Diszkrt optimalizls
Geometria
Igazsgos elosztsok
Introductory Course in Analysis
Mathematical Analysis Exercises I
Mathematical Analysis Problems and Exercises II
Mrtkelmlet s dinamikus programozs
Numerikus funkcionlanalzis
Opercikutats
Opercikutatsi pldatr
Parcilis differencilegyenletek
Pldatr az analzishez
Pnzgyi matematika
Szimmetrikus struktrk
Tbbvltozs adatelemzs
Variciszmts s optimlis irnyts
Kovcs Erzsbet
TBBVLTOZS
ADATELEMZS
KULCSSZAVAK: Adatelemzs, tbbvltozs matematikai statisztika, trsadalmi s gazdasgi adatok elemzse, SPSS alkalmazsok, elemi statisztikk,
statisztikai tblk, kereszttbla, tanul algoritmusok, klaszterelemzs, regressziszmts, logisztikus regresszi, fkomponens elemzs, faktoranalzis,
diszkriminanciaanalzis, tbbdimenzis sklzs, sajtrtk-sajtvektor feladatok megoldsa.
SSZEFOGLALS: A kzgazdasgi kpzsben a Tbbvltozs adatelemzs
s a Tbbvltozs statisztikai modellezs c. trgyak hallgatinak kszlt jegyzet az elemzsi mdszerek matematikai httrnek s az alkalmazs elfeltteleinek bemutatsa utn az SPSS-ben elvgezhet elemzs technikjt s
a mintapldk eredmnyeinek rtelmezst trgyalja. Az alapok ismertetse
sorn kitrnk az adatok elksztsre is. Vals gazdasgi, pnzgyi s
demogrfiai adatok elemzse mellett egyszer szmpldkkal is illusztrljuk
az elemzsi munka buktatit. Az elemi statisztikai mdszereket kveten ismertetjk a statisztikai tblzs lehetsgeit, majd sorba vesszk a pnzgyi terleten hasznlt legfontosabb tbbvltozs adatelemz mdszereket: a
klaszterezst, a lineris s logisztikus regresszi elemzst, a diszkriminanciaanalzist, a faktorok keresst s a tbbdimenzis sklzst lehetsgeit.
A tananyaghoz kapcsold adattblk letlthetk innen:
https://www.typotex.hu/index.php?page=ELTE%20TTK
Tartalom
Bevezets............................................................................................... i
1. Ler s feltr adatelemzs .......................................................... 2
1.1. A vltozk mrsi sklja ................................................................... 2
1.2. Ler statisztikk kivlasztsa az adatok mrsi sklja alapjn ........ 4
1.3. Ler statisztikk kiszmtsa s rtelmezse ..................................... 8
1.4. Az extrm pontok s az almintk statisztikai elemzse .................... 13
1.5. A normalitsvizsglat numerikus s grafikus mdszerei .................. 19
1.5.1. Kolmogorov-Szmirnov prba
19
1.5.2. Shapiro-Wilk W mutat
20
1.5.3. Grafikus normalits vizsglat
21
1.6. Idsoros adatok statisztikai elemzse ............................................... 24
3. Klaszterelemzs ............................................................................ 49
A klaszterez eljrsok csoportostsa
49
3.1. Hierarchikus klaszterezs ................................................................. 50
3.1.1. Tvolsgi s hasonlsgi mrtkek
51
3.1.2. sszevon eljrsok
55
3.1.3. Dendrogramok rtkelse, sszehasonltsa
56
3.1.4. Az sszevon algoritmus lpseinek kvetse egy mintapldn... 57
3.2. Nem-hierarchikus klaszterezs ......................................................... 61
A k-kzppont klaszterezs rtelmezse kt f krdst vet fel.............. 61
3.3. A klaszterelemzs eredmnynek rtkelse .................................... 62
3.4. A megvalsts lpsei az SPSS-ben ................................................ 64
3.4.1. Hierarchikus klaszterezs
64
3.4.2. Nem-hierarchikus klaszterezs, k-kzppont eljrs
65
3.5. Teleplsek klaszterezse ................................................................. 66
ii
Forrsok........................................................................................... 244
iii
Bevezets
A jegyzet a Tbbvltozs adatelemzs s a Tbbvltozs statisztikai modellezs
cm trgyak hallgati szmra kszlt, s a flves kurzus sorn trgyalt fbb
mdszereket ismerteti.
Adatokkal minden szakember tallkozik, s az adatokbl kinyerhet informci
rtke felbecslhetetlen. A szemlyi szmtgpek elterjedsvel npszerv vltak
a tbbvltozs statisztikai mdszerek, kzlk is elssorban a feltr elemzsek. A
statisztikai szoftverek knnyen s gyorsan vgzik el a krt elemzst, a megfelel
adatok kivlasztsa, a korrekt alkalmazs, valamint az eredmnyek rtelmezse, a
kvetkeztetsek levonsa idt s odafigyelst ignyel. Nem haszontalan Winston
Churchill egy mondst idzni:
The only statistics you can trust are those you falsified yourself.
A jegyzet nyolc fejezete hrmas tagols:
Kovcs Erzsbet
TBBVLTOZS ADATELEMZS
Ha csak egy-egy vltozt elemznk, akkor is fontos a mrsi szint pontos ismerete.
A mrsi szintnek megfelel ler statisztikai mutatk kivlasztshoz az 1.2.
alfejezet ad tmutatst.
A tbbvltozs elemzsek tbbsgkben azonos mrsi sklt ignyelnek. Ennek
rdekben gyakran skla-transzformcit hajtunk vgre, ami fel- s lertkels is
lehet. Magasabb szint sklra ttrni csak tbblet informci birtokban lehet.
A skla lertkelse, a klnbsgek helyett kategrik kialaktsa sokszor hasznosan
tmrti az informcit. A kategria kpzs hatkony mdjt a 2 fejezet ismerteti.
A knyv tovbbi fejezeteiben bemutatunk majd ms skla-transzformcis
lehetsgeket is.
Mindegyik eljrs megengedi, hogy egyszerre tbb vltozt vlasszunk ki, s ezek
mindegyikre elvgzi az sszes ltalunk krt mveletet. Ezrt clszer egyszerre
csak azonos mrsi szint vltozkat felsorolni, gy csak a szakmailag korrekt
eredmnyeket lltjuk el.
Az 1.1. tblzatban sszefoglaljuk azt, hogy melyik SPSS menpontban tallhatk
meg a ler statisztika eszkzei a mrsi sklk szerinti bontsban. A magasabb
szint mrsi sklkon az elz sklkhoz rendelt eljrsok mindig alkalmazhatk.
D jelli a Descriptive, F a Frequency s E az Explore funkcit.
1.1. tblzat: Elemzsi clokat megvalst funkcik
Cl / Skla
Nominlis
Kzponti
tendencia
Mdusz F, E
Szrds
Eloszls numerikus
Ordinlis
Intervallum/arny
Mdusz F,E
Medin F, E
Minimum,
Maximum F,D,E
Terjedelem F,D,E
tlag F,D,E
Gyakorisg,
relatv gyakorisg
Interkvartilis
F
terjedelem E
Szrs, variancia,
sztenderd hiba F,D,E
Ferdesg,
cscsossg F,D,E
Normalitsi teszt E
Eloszls grafikus
Gyakorisgra
oszlop- s
krdiagram F
Stem&leaf E
Hisztogram F, E
boxplot E
TBBVLTOZS ADATELEMZS
x=
1 n
xi , ahol n a megfigyelsek szma
n i =1
(1.1)
Az elmleti vrhat rtk (m) ltalban nem ismert. rtkt az (1.1) szerint
szmtott mintabeli tlaggal ( x ) helyettestjk.
s2 =
( x
x )2
(1.2)
n 1
vagy becslse
(1.3)
n
1
(xi m )3
A ferdesg negatv rtke balra hosszan elnyl eloszlst, a pozitv rtke pedig
jobbra elnyl eloszlst jelez. Ha nulla kzeli a mutat, akkor szimmetrikus az
eloszls. (De itt ne csak a normlis eloszlsra gondoljunk, mert az U alak
eloszls is szimmetrikus.)
A ferdesg variancija =
6 n(n 1)
. E variancia gyke: SE ( 1 )
(n 2 )(n + 1)(n + 3)
1 =
n xi x
(n 1)(n 2)s 3
(1.4)
SE ( 1 )
(1.5)
1
(xi m )4
)[ ( )]
4 n 2 1 SE 1
(n 3)(n + 5 )
n(n + 1) xi x 3(n 1) xi x
4
)]
2 2
(1.6)
A cscsossgi mutat s a sztenderd hiba (SE ( 2 )) hnyadost hasonltjuk az (n1) szabadsgi fok Student eloszls kritikus rtkhez. A cscsossgi mutathoz
tartoz t-prba kplete: t = 2
SE ( 2 )
(1.7)
TBBVLTOZS ADATELEMZS
zx =
xx
s
(1.8)
Normlis eloszls (s/vagy nagy minta) esetn a kzponti hatreloszls ttel alapjn
a sztenderdizlt vltoz z x =
pedig
xm
s/ n
Valid
Missing
Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Sum
Percentiles
10
20
25
30
40
50
60
70
75
80
90
Average
female life
expectancy
109
0
70,16
1,01
74,00
75a
10,57
111,76
-1,109
,231
,213
,459
39
43
82
7647
52,00
59,00
66,50
68,00
70,00
74,00
76,00
78,00
78,00
79,00
80,00
Average
male life
expectancy
109
0
64,92
,89
67,00
73
9,27
85,98
-1,080
,231
,336
,459
35
41
76
7076
50,00
57,00
61,00
63,00
65,00
67,00
69,00
71,00
72,50
73,00
74,00
10
TBBVLTOZS ADATELEMZS
Frequency
10
0
40,0
42,5
45,0 47,5
50,0 52,5
55,0
57,5 60,0
62,5 65,0
67,5 70,0
72,5
75,0
N
Range
Minimum
Maximum
Sum
Mean
Std. Deviation
Variance
Skewness
Kurtosis
Statistic
Statistic
Statistic
Statistic
Statistic
Statistic
Std. Error
Statistic
Statistic
Statistic
Std. Error
Statistic
Std. Error
Average female
life expectancy
109
39
43
82
7647
70,16
1,01
10,57
111,762
-1,109
,231
,213
,459
Average male
life expectancy
109
35
41
76
7076
64,92
,89
9,27
85,984
-1,080
,231
,336
,459
Valid N (listwise)
109
11
109
Minimum Maximum
-,3
Mean
Deviation
5,2
1,682
1,1976
2,97072
,000
1,000
year))
Zscore: Population increase
109 -1,65535
(% per year))
Gross domestic product /
109
122
23474
5859,98
6479,836
109
-,88551
2,71828
,000
1,000
capita
Zscore: Gross domestic
product / capita
Valid N (listwise)
109
12
TBBVLTOZS ADATELEMZS
13
b)
c)
2 +2
n xm
n x m kt tag kztti
x t / 2 ,( n 1 )
s
n
14
TBBVLTOZS ADATELEMZS
f (
i =1
xi T
) = 0 , ahol fi a gyakorisg, s szrs s pratlan fggvny.
s
( u )
xi T xi T
= 0 , ahol( u ) =
s s
u
f
i =1
xi xi T
T
s
f s
i =1
f
s
xi T
=0
s
Tk +1 =
xi Tk
)
s
x Tk
f i ( i
)
s
f x (
i
Ltjuk, hogy T csak itercival adhat meg, a Tk+1 kifejezhet a Tk bl. T0-t
nem adja meg az SPSS lersa, de ez az rtk ltalban a medin.
Az iterci lell, ha
i) Tk +1 Tk 0 ,005
ii) k>30.
Tk +1 + Tk
vagy
2
15
ui =
xi T
xi Medin( x )
=
s
Medin xi Medin( x )
1,
ha ui 1,339
ha ui > 1,339
(1,339 / ui ) sgn(ui ),
(ui ) =
( u i ) = 1 (
ui 2
) , ha u i 4 ,685 ,
4 ,685
0 klnben
( ui )
= 1, ha az ui1,7
a)
A sly
b)
( u i ) =
1,7
sgn( u i ) , ha a 1,7<ui 3,4
ui
c)
( u i ) =
1,7 8 ,5 u i
sgn( u i ) , ha a 3,4<ui8,5
u i 8 ,5 3 ,4
( u i ) =
ui
1,34
) , ha ui1,34* (~4,2).
sin(
1,34
ui
16
TBBVLTOZS ADATELEMZS
Estimator
Average female
Tukey's
Biweight
Hampel's Mb
Estimator
Andrews'
Wave
73,06
74,51
73,09
74,55
66,85
67,30
66,44
67,33
life expectancy
Average male life
expectancy
17
18
TBBVLTOZS ADATELEMZS
Stem &
9 Extremes
Leaf
(=<50)
5 .
223
5 .
455
5 .
77
5 .
88889
6 .
6 .
455
6 .
677777
6 .
8888899
7 .
000001
7 .
222333
14
7 .
44444555555555
11
7 .
66666777777
16
7 .
8888888889999999
14
8 .
00000001111111
8 .
222
Stem width:
Each leaf:
10
1 case(s)
19
JB =
n 2 1 2
1 + 2
6
4
adatokat
standardizljuk: z (i )
5
nagysg
szerint
sorba
rendezzk,
majd
20
TBBVLTOZS ADATELEMZS
(i))eltrsek
max Di helyett
i
n max Di addik.
i
Kolmogorov-Smirnov
Statistic
df
Sig.
Shapiro-Wilk
Statistic
df
Sig.
,174
109
,000
,860
109
,000
,164
109
,000
,882
109
,000
21
xx x x
) = transzformci utn a normlis eloszls
u = 1 (
s s s
22
TBBVLTOZS ADATELEMZS
1.
6. bra: A normlis eloszlstl val eltrs brja
23
df
Sig.
Shapiro-Wilk
Statistic
df
Sig.
,204
109
,000
,800
109
,000
,085
109
,053
,950
109
,000
Lngdp (base e)
,085
109
,053
,950
109
,000
24
TBBVLTOZS ADATELEMZS
12
Az SPSS egy munkalapos Excel llomnyt tud kzvetlenl beolvasni, ha az els sorban a
vltozk rvid neve ll. (A nv legyen maximum 8 alfanumerikus karakter hossz, clszer
kezet nlkli, angol betket hasznlni, specilis karakterek nlkl.)
13
Kt idsort kointegrltnak neveznk, ha egytt mozognak az idben, de ok-okozati
kapcsolatot nem tteleznk fel kzttk. konometria knyvek rszletesen foglalkoznak
ezzel a mdszerrel.
25
26
TBBVLTOZS ADATELEMZS
27
14
2008. oktber 15-re volt minden orszgban nagy ess, kivve Japnt. Ott msnap, oktber
16-n rtk el a vltozsok mlypontjt.
28
TBBVLTOZS ADATELEMZS
1.8. tblzat: BUX index els differencinak statisztikai mutati napok szerint
Case Summaries
DBUX
napszma
Mean
Minimum
Maximum
Std. Deviation
htf
525
21,8571
-1165,00
1203,00
250,27327
kedd
559
2,3971
-1067,00
1049,00
241,33509
szerda
559
-13,1878
-1953,00
1654,00
275,93169
cstrtk
557
3,4147
-1381,00
800,00
250,26170
pntek
552
12,8786
-834,00
1598,00
240,67750
Total
2752
5,2522
-1953,00
1654,00
252,15855
1.9. tblzat: DAX index els differencinak statisztikai mutati napok szerint
Case Summaries
DDAX
napszma
Mean
Minimum
Maximum
Std. Deviation
htf
525
2,0229
-524,00
518,00
90,73243
kedd
559
,2755
-396,00
488,00
80,41003
szerda
559
-4,2934
-337,00
298,00
79,56389
cstrtk
557
1,3591
-353,00
382,00
80,53497
pntek
552
1,9221
-343,00
327,00
78,76485
Total
2752
,2304
-524,00
518,00
81,99164
29
2. Kategrik s kereszttblk
elemzse
Ha vizsglt adathalmazunkban tbb vltoz van, felttelezhet, hogy vannak
kzttk fggetlen vltoz-prok, s vannak olyanok is, amelyek hatnak egymsra
vagy klcsns kapcsolatban llnak egymssal. A kapcsolat ltnek s erssgnek
feltrsra tbb mdszer ll rendelkezsnkre, melyek kzl a mrsi sklk
ismeretben vlaszthatunk. A legegyszerbb eljrsok a kvetkezk:
31
Az gyfelek tovbbi ismert tulajdonsgai kapcsolatban llhatnak a kategriabesorolssal. Elemezni rdemes pldul azt, hogy az egyn neme, letkora, csaldi
llapota, jvedelme, a gpjrm tpusa kzl melyik s milyen hats. Itt azonban
felmerl az eltr mrsi sklk problmja, tovbb az, hogy elegend
megfigyelsnk van-e.
Az letkor vagy a jvedelem mrse intervallum skln trtnik, de egy-egy
letkorhoz vagy jvedelem szinthez nem felttlenl tartozik sok egyn. Ezrt
statisztikailag indokolt a sklkat transzformlni, s ordinlis mrsi szint
kategrikba sorolni az ilyen vltozkat. A tovbbiakban a kategrikat hasznlva a
kereszttblkat lehet elemezni.
A skla-transzformci ebben az esetben a skla lertkelst jelenti, azaz
informcit vesztnk.
Eredeti s j skla
neve
Nominlis
Ordinlis
Ordinlis
Szls rtkek
sszevonsa, kzps
megtartsa
Intervallum vagy
arny
Az tlagos s az tlagtl
eltr rtkek
kategorizlsa
15
32
TBBVLTOZS ADATELEMZS
Els metszspont
Metszspontok szma
- Intervallum hossza
b) Egyenl percentilisekre bontst krve az egyik rtket kell megadni:
-
16
33
* Visual Binning.
*age.
RECODE age (MISSING=COPY) (LO THRU 28.0=1) (LO THRU 38.0=2)
(LO THRU 48.0=3) (LO THRU 58.0=4) (LO
THRU HI=5) (ELSE=SYSMIS) INTO age10.
VARIABLE LABELS age10 'Age of insured (Binned)'.
FORMATS age10 (F5.0).
VALUE LABELS age10 1 '<= 28' 2 '29 - 38' 3 '39 - 48' 4 '49 - 58' 5 '59+'.
VARIABLE LEVEL age10 (ORDINAL).
EXECUTE.
34
TBBVLTOZS ADATELEMZS
accid
one or more
zero accident
Number of accidents past 5
years
Total
accident
Total
122
122
139
139
107
107
63
63
39
39
19
19
122
378
500
35
f11 f12
f1c m1
A2
f21 f22
m2
Ar
fij
fr1
mi
frc mr
sszesen n1 n2 nj
nc n
Fij = n / rc
(2.1)
B3
sszes
A1
60
A2
40
sszes
18
B2
10
50
40
100
36
TBBVLTOZS ADATELEMZS
c)
B2
B3
sszes
A1
60
A2
40
sszes
10
50
40
100
B3
sszes
A1
60
A2
40
sszes
e)
B2
10
50
40
100
B3
sszes
A1
60
A2
40
sszes
f)
B2
10
50
40
100
37
=
2
i =1 j =1
( f ij mi n j / n) 2
mi n j / n
, szabadsgfok: (r-1)(c-1)
f ij
f
i =1 j =1
ij
ln
mi n j / n
(2.6)
, sz.fok: (r-1)(c-1)
(2.7)
2 = ( n 1 )r 2 ,
(2.8)
2.
38
TBBVLTOZS ADATELEMZS
(2.9)
Cramer-V =
n( q 1 )
1/ 2
(2.10)
Nominlis vltozkra
vlaszthatunk:
nem-szimmetrikus
(2.11)
mrszmokat
is
max f
a b =
ij
max mi
(2.12)
n max mi
b a =
3.
max f
ij
max n j
(2.13)
n max n j
szimmetrikus mutat:
max f
j
ij
2n max mi max n j
(2.14)
Goodman-Kruskal tau mrtknek is 3 vltozata van, itt csak egyet runk fel, amely
azt mri, hogy a hibavalsznsg relatv cskkense mekkora, ha a sorvltoz
szerinti kategria ismert.
22
b a =
39
n f ij2 / mi n 2j
i
n n
2
(2.15)
2
j
UC =
f
i =1 j =1
log(m i n j / nf ij )
ij
(2.16)
m
i =1
log(mi / n)
ahol
P = f ij S ij s Q =
i =1 j =1
(2.17)
f
i =1 j =1
ij
Dij , tovbb
+ +
+ +
+ +
40
TBBVLTOZS ADATELEMZS
2
i
2
j
Ha szimmetrikus a kt vltoz: d =
PQ
1 / 2( Dr + Dc )
(2.18)
b =
PQ
(2.19)
D r Dc
c =
q( P Q )
, ahol q=min (r,c)
n2( q 1)
(2.20)
C) Tovbbi mutatk:
Kappa: (Cohen mutatja) ngyzetes tblra, csak a diagonlis elemeket hasznlja,
pozitv rtke kt dntshoz vlemnye kztti egyezst mri.
K=
n f ii mi ni
i
(2.21 )
n mi ni
2
Kockzat (Risk): 2x2 tblra szmolhat, ha nincs res cella. Az els oszlopba
sorols relatv kockzata (f11(f21+f22))/(f21 (f11 +f12 )) mellett a msodik oszlopba
sorols relatv kockzata is szmolhat, s a kett hnyadosaknt az eslyhnyadost
R=(f11 f22 /f12 f21) is becsli. Konfidencia-intervallumot is kapunk mindhromra. Az
eslyhnyadosra az als s fels hatr:
1
1
1
1
=
+
+
+
f11 f12 f 21 f 22
1/ 2
=
2
( f 12 f 21 1) 2
f 12 + f 21
s df=1
41
log
p ij
1 p ij
= + i + j ,
2.2.3. 1. mintaplda
Az USA 242 felsoktatsi intzmnyt az iskola jellege valamint a tulajdonos
alapjn rendeztk, s a kt ismrv kztti fggetlensg hipotzist teszteljk.
A kereszttblban nincs res cella, s teljesl az, hogy cellnknt minimum 5
megfigyelst vrunk. A cellkban a megfigyelt gyakorisgok mellett krhetjk a vrt
gyakorisgok, a szzalkok (sor-, oszlop-, teljes) s a rezidulisok (kznsges s
sztenderdizlt eltrsek) feltntetst.
Milyen tulajdon? * iskola tpusa Crosstabulation
Count
Milyen
tulajdon?
Total
llami
magn
egyhzi
iskola tpusa
fiskola
egyetem
6
86
33
37
53
27
92
150
Total
92
70
80
242
42
TBBVLTOZS ADATELEMZS
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value
68,264a
77,976
65,552
2
2
Asymp.
Sig.
(2-sided)
,000
,000
,000
df
242
u v
i
khi-ngyzet eloszls statisztikt kapunk. A nullhipotzis azt mondja ki, hogy nincs
sor-oszlop interakci. Pldnkban a kategrik rendezettsge nem teljesl, ezrt nem
rtelmezzk.
A tulajdonos vltoz nominlis, az iskola tpusa ordinlis. Vegyes kapcsolatra
az SPSS-ben nincs kln mrszm, ezrt a nominlis vltozkra javasolt mrtket
vlasztjuk. Egyes szakmkban kialakult hagyomnya van annak, hogy melyik
mrszmot hasznljk.
Ha azt gondoljuk, hogy a kt vltoz kztt klcsns kapcsolat van, akkor a
szimmetrikus mutatk kzl kell vlasztanuk. sszehasonltani kt kereszttblt
csak azonos asszocicis mrtk alapjn lehet. A mrszmok rtke ltalban
klnbz. Pldnkban a hrom szimmetrikus kapcsolat-mrtk kzl kett
egybeesik, mert az iskolatpus vltoznak kt kategrija van, s ezrt a Cramer Vben q-1=min(r,c)-1=1 kerl a nevezbe. A (10) szerint szmolva a szignifikancia
szint lnyegben nulla, kzepesen szoros a kapcsolatot a kt vltoz kztt.
Symmetric Measures
Nominal by
Nominal
N of Valid Cases
Phi
Cramer's V
Contingency Coefficient
Value
,531
,531
,469
242
Approx.
Sig.
,000
,000
,000
43
Nominal
by
Nominal
Lambda
Goodman
and
Kruskal tau
Uncertainty
Coefficient
Symmetric
Milyen tulajdon?
Dependent
iskola tpusa Dependent
Milyen tulajdon?
Dependent
iskola tpusa Dependent
Symmetric
Milyen tulajdon?
Dependent
iskola tpusa Dependent
Value
,302
Asymp.
Std. Error
,055
Approx.
T
4,889
Approx.
Sig.
,000
,313
,042
6,655
,000
,283
,082
2,959
,003
,152
,029
,282
,183
,048
,035
5,225
,000
,000
,147
,028
5,225
,000
,243
,046
5,225
,000
,000
80
60
40
iskola tpusa
Count
20
fi sk ola
egy etem
0
l lami
magn
egy hzi
Milyen tulajdon?
2.2.4. 2. mintaplda
Ha van egy feltevsnk, pldul az, hogy a fiatalabb frfiak s a kzpkor nk
okoznak autvezets kzben tbb balesetet (lsd a Pontdiagramot a 2. brn), akkor
ennek tesztelshez a kategorizlt letkor vltozt s a nemet is figyelembe vesszk.
Ismt a Program Files\SPSS\tutorial\sample files\autoaccidents.sav adatokat
hasznljuk.
44
TBBVLTOZS ADATELEMZS
45
5-6-7
Total
Male
46
69
54
38
23
20
250
Female
76
70
53
25
16
10
250
122
139
107
63
39
30
500
Total
df
sided)
Pearson Chi-Square
14,666a
,012
Likelihood Ratio
14,833
,011
Linear-by-Linear Association
12,990
,000
N of Valid Cases
a.
500
0 cells (,0%) have expected count less than 5. The minimum expected count
is 15,00.
46
TBBVLTOZS ADATELEMZS
.Directional Measures
Asymp.
Std.
Value
Nomi-
Lambda
Error
Approx.
a
Approx.
Sig.
Symmetric
,061
,032
1,814
,070
nal by
Sex of insured
,124
,060
1,926
,054
Nomi-
Dependent
nal
acc6 Dependent
,017
,033
,497
,619
Goodman and
Sex of insured
,029
,015
,012c
Kruskal tau
Dependent
acc6 Dependent
,006
,003
,009c
Uncertainty
Symmetric
,013
,006
1,950
,011d
Coefficient
Sex of insured
,021
,011
1,950
,011d
,009
,005
1,950
,011d
Dependent
acc6 Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on chi-square approximation
d. Likelihood ratio chi-square probability.
Total
one or more
Total
Male
46
204
250
Female
76
174
250
122
378
500
47
Lower
Upper
,516
,340
,784
,605
,439
,835
1,172
1,060
1,297
500
24
A biztostk egy idszakban meglepve tapasztaltk, hogy a 45-50 ves nk nevn lev
autkra milyen sok krbejelents rkezik. Az ok termszetesen nem a nk roml vezetsi
rutinja, hanem az, hogy ppen felntt, jogostvnyt szerzett a fi, aki az anyja kocsijt kri
klcsn. (Azta a biztosts megktsekor jelezni kell, ha tbb szemly vezeti az autt.) A
plda tanulsga, hogy nagyon vatosan kell a kereszttblban a kategria vltozkat
megvlasztani. Nem a tulajdonos, hanem a hasznl neme s letkora a fontos, ha ezt is
rgzti a biztost adatbzisa.
48
TBBVLTOZS ADATELEMZS
kicsi, ezrt a tblzat aljn zenet figyelmeztet, hogy a vrt gyakorisg 5 alatt
maradt.
Chi-Square Tests
Sex of insured
Male
Female
Asymp. Sig.
(2-sided)
df
Pearson Chi-Square
2,880a
,578
Likelihood Ratio
3,040
,551
Linear-by-Linear Association
,000
,992
N of Valid Cases
250
2,606b
,626
2,511
,643
Linear-by-Linear Association
,000
,998
N of Valid Cases
250
Pearson Chi-Square
Likelihood Ratio
Total
Value
Pearson Chi-Square
1,580c
,812
Likelihood Ratio
1,573
,814
Linear-by-Linear Association
,002
,966
N of Valid Cases
500
a. 2 cells (20,0%) have expected count less than 5. The minimum expected count is 1,66.
b. 1 cells (10,0%) have expected count less than 5. The minimum expected count is 2,43.
c. 1 cells (10,0%) have expected count less than 5. The minimum expected count is 4,15.
3. Klaszterelemzs
A klaszterez eljrsok csoportostsa
Az osztlyoz eljrsok csaldjnak egyik gba sorolhat a klaszterelemzs, amely
tbbfle mdszer s konkrt eljrs sszefoglal neve. Alapgondolata az, hogy elre
nem ismert besorols esetben is feltrhat a halmazon bell egymshoz leginkbb
hasonl (kzeli) egyedek csoportja. Egyed alatt rthetjk a megfigyelsi egysget
vagy a vltozt, mindkettre vgezhet osztlyozs.
A klaszterez mdszerek kt f csoportja:
a hierarchikus osztlyozs s
a nemhierarchikus osztlyozs.
k
1 k
(1) k j j n
k! j =1
j flekppen sorolhat be. A kplet alapjn n=8 megfigyelst
k=2 csoportba (1/2)(-2+28) = 127 vltozatban lehet besorolni.
Ha a struktra feltrsnak kezdetn a csoportok szmt nem ismerjk, akkor
minden 1 k n szmra el kellene vgezni a felosztst, hogy a k elfogadhat rtkt
megtalljuk. Nagymret feladatok esetben ez az t jrhatatlan, ezrt ilyenkor a
k
25
n 2
50
TBBVLTOZS ADATELEMZS
26
KLASZTERELEMZS
51
Tvolsgi mutat
kplete
(3.1) (3.4)
(3.5) (3.10)
(3.11) (3.14)
d ik = ( xij x kj ) 2
2
(3.1)
= max xij x kj
(3.2)
d ik = xij x kj
(3.3)
52
TBBVLTOZS ADATELEMZS
d ik = xij x kj
j
1/ r
(3.4)
Alaprtelmezs szerint a kereszttblknl szoksos khi-ngyzetet vagy a Phingyzetet kapjuk, amelyek esetekre is s vltozkra is szmolhatk, s hasonlsgot
2 ( x, y ) =
i
(xi E ( xi ) )2 +
E ( xi )
( yi E ( yi ) )2
E ( yi )
PHI 2 =
Binris vltozk 30
(1)
(0)
sszesen
(1)
a+b
(0)
c+d
30
Nincs ltalnosan ismert magyar neve egyik mrtknek sem, ezrt itt is az angol elnevezs
szerepel. Az SPSS 27 tvolsgi s hasonlsgi mrszmot knl fel binris vltozkra, ugyan
mindre nem trnk ki, de a felsoroltakat klaszterezzk is.
KLASZTERELEMZS
53
Size difference:
d=
Pattern difference
Variance:
d=
(b c )2
(a + b + c + d )2
d=
(max:1)
(3.6)
(a + b + c + d )2 , (max: )
(3.7)
(bc )
(b + c )
4(a + b + c + d )
(max: )
(a + b + c + d )(b + c ) (b c )2 , (max: 1)
(a + b + c + d )2
(b + c ) , (max: 1)
Lance-Williams: d =
(2a + b + c )
Shape:
(3.5)
d=
(3.8)
(3.9)
(3.10)
a+d
a+b+c+d
Jaccard:
a
a+b+c
Dice:
2a
2a + b + c
(max:1)
(3.11)
(max:1)
(3.12)
(max:1)
(3.13)
31
Zrus addhat akkor is, ha b=c=0, vagyis tnyleg nem klnbznek, de gy is, pl. (3.6)ban, ha b=c, s egyik sem 0. Kln problma az, hogy a d szm mit jelent. Attl, hogy
egyformn nem rendelkeznek a vizsglt tulajdonsgokkal, mg nem biztos, hogy hasonlak.
54
Sokal-Sneath 3. mutatja:
TBBVLTOZS ADATELEMZS
a+d
b+c
(max: )
(3.14)
32
33
KLASZTERELEMZS
55
1.Egyszer
lnc
1/2
1/2
-1/2
2.Teljes lnc
1/2
1/2
1/2
3.tlagos
lnc
nI /(nI +nJ )
nJ /(nI +nJ )
4. Centroid
nI /(nI +nJ )
nJ /(nI +nJ )
-IJ
5. Medin
1/2
1/2
-1/4
6. Ward
34
56
mdszervlaszts megknnytse rdekben
klaszterez eljrsok fbb jellemzit.
TBBVLTOZS ADATELEMZS
tekintsk
rszletesebben
KLASZTERELEMZS
57
Kt dendrogramot sszehasonlthatunk gy is, hogy az sszekapcsoldsokat vetjk egybe. Az n(n-1)/2 pontprra meghatrozzuk, hogy az egyes
dendrogramokban hnyadik sszekapcsolds utn kerltek egy csoportba,
s a kt sszevonsi adatsorra korrelcit szmtunk.
58
TBBVLTOZS ADATELEMZS
KLASZTERELEMZS
59
Case
Budapest
01. ker.
Budapest
22. ker.
Budapest
12. ker.
Budapest
02. ker.
Budapest
03. ker.
Budapest
11. ker.
Budapest
Budapest
Budapest
Budapest
Budapest
Budapest
01. ker.
22. ker.
12. ker.
02. ker.
03. ker.
11. ker.
,000
,502
1,637
5,119
9,066
13,335
,502
,000
,454
2,543
5,345
8,713
1,637
,454
,000
,993
3,207
5,888
5,119
2,543
,993
,000
,691
2,096
9,066
5,345
3,207
,691
,000
,411
13,335
8,713
5,888
2,096
,411
,000
(III+XI) I: 13,335
(XII+XXII) I: 1,637
Az tdik lps az utols, mivel hat kerlet van a pldban. Az eddigi lpsek miatt
itt mr csak a kt klaszter kztti tvolsg meghatrozsa maradt htra. Nem volt
extrm helyzet kerlet, amelyik eddig nem kapcsoldott sehov.
o
60
TBBVLTOZS ADATELEMZS
Cluster 1
Appears
Cluster 2
Coefficients
Cluster 1
Next
Cluster 2
Stage
11
,411
22
12
,454
12
1,637
2,096
13,335
KLASZTERELEMZS
61
j klaszterkzppontok szmtsa,
2.
37
62
TBBVLTOZS ADATELEMZS
ii.
iii.
KLASZTERELEMZS
63
64
TBBVLTOZS ADATELEMZS
ii.
iii.
2) PLOTS/brk:
KLASZTERELEMZS
65
Centroid eljrs
Medin eljrs
Ward eljrsa
Vltozk kivlasztsa
2.
3.
66
TBBVLTOZS ADATELEMZS
4.
b.
6.
7.
b.
c.
d.
KLASZTERELEMZS
67
46
68
TBBVLTOZS ADATELEMZS
3.6. tblzat: Ler statisztikai mutatk rtkei
KLASZTERELEMZS
69
47
70
TBBVLTOZS ADATELEMZS
3.7. tblzat: Az sszevons lpsei
Agglomeration Schedule
Cluster Combined
Stage
Sq. Euc.
Stage Cluster
Distance
First Appears
Cluster
Cluster
Coefficient
Cluster
Cluster
Next
Correlation
Stage
Coefficients
,947
,990
1,970
,980
4,078
,958
13
14
5,874
,940
6,697
10
,932
12
15
8,304
,915
11
9,116
,907
11,276
10
,885
12
13
12,077
15
,877
10
14,156
11
,856
11
22,933
10
12
,766
12
10
31,518
11
14
,678
13
16
87,459
14
,108
14
94,310
13
12
15
,038
15
12
132,195
14
-,349
49
KLASZTERELEMZS
71
72
TBBVLTOZS ADATELEMZS
KLASZTERELEMZS
73
74
TBBVLTOZS ADATELEMZS
KLASZTERELEMZS
75
76
TBBVLTOZS ADATELEMZS
KLASZTERELEMZS
77
Error
Mean
Square
Mean
df
Square
df
Sig.
Zscore(Npessgszm)
34,786
,296
48
117,476
,000
Zscore(Odavndorls)
16,659
,674
48
24,726
,000
Zscore(Elvndorls)
25,157
,497
48
50,646
,000
Zscore(llandodavndorls)
17,241
,662
48
26,059
,000
Zscore(llandelvndorls)
26,362
,472
48
55,895
,000
Zscore(nkormnyzatibev)
32,736
,339
48
96,613
,000
Zscore(Vendglthely)
28,776
,421
48
68,297
,000
Zscore(Laksllomny)
34,167
,309
48
110,563
,000
Zscore(ptettlaksok)
8,563
,842
48
10,165
,003
Zscore(llskeresk)
32,666
,340
48
95,990
,000
Zscore(Odavanperfo)
18,797
,629
48
29,873
,000
Zscore(Elvanperfo)
25,881
,482
48
53,733
,000
Zscore(llElvanperfo)
22,046
,562
48
39,260
,000
Zscore(llodavanperfo)
22,298
,556
48
40,084
,000
The F tests should be used only for descriptive purposes because the clusters have been
chosen to maximize the differences among cases in different clusters. The observed
significance levels are not corrected for this and thus cannot be interpreted as tests of the
hypothesis that the cluster means are equal.
52
78
TBBVLTOZS ADATELEMZS
3.9. tblzat: A klaszterkzppontok vltoznknt szmtott rtkei
Final Cluster Centers
Cluster
1
Zscore(Npessgszm)
-,73935
,94100
Zscore(Odavndorls)
-,51165
,65120
Zscore(Elvndorls)
-,62875
,80023
Zscore(llandodavndorls)
-,52051
,66247
Zscore(llandelvndorls)
-,64363
,81916
Zscore(nkormnyzatibev)
-,71723
,91284
Zscore(Vendglthely)
-,67245
,85585
Zscore(Laksllomny)
-,73274
,93258
Zscore(ptettlaksok)
-,36683
,46688
Zscore(llskeresk)
-,71646
,91186
Zscore(Odavanperfo)
,54349
-,69172
Zscore(Elvanperfo)
,63773
-,81165
Zscore(llElvanperfo)
,58859
-,74912
Zscore(llodavanperfo)
,59195
-,75339
53
KLASZTERELEMZS
79
Agglomerci
Kerlet
Total
Total
26
27
21
23
28
22
50
80
TBBVLTOZS ADATELEMZS
0,80
0,765
0,75
0,714
0,70
0,65
0,648
0,60
0,55
0,505
0,50
0,45
2
klaszterek szma
KLASZTERELEMZS
81
Zscore(Npessgszm)
,61404
2,22201
-,75234
Zscore(Odavndorls)
,19085
3,01267
-,50176
Zscore(Elvndorls)
,41749
2,44990
-,61989
Zscore(llandodavndorls)
,23395
2,73049
-,50401
Zscore(llandelvndorls)
,47605
2,17202
-,63512
Zscore(nkormnyzatibev)
,63625
1,99471
-,74405
Zscore(Vendglthely)
,59034
1,87814
-,69352
Zscore(Laksllomny)
,57831
2,51209
-,75695
Zscore(ptettlaksok)
,02224
2,89130
-,35158
Zscore(llskeresk)
,66578
1,68841
-,73256
Zscore(Odavanperfo)
-,90322
,51612
,66998
Zscore(Elvanperfo)
-,86323
-,54159
,75971
Zscore(llElvanperfo)
-,75900
-,74313
,69879
Zscore(llodavanperfo)
-,82118
-,33622
,70206
4.Tbbvltozs
regressziszmts
54
54
TBBVLTOZS REGRESSZISZMTS
c)
83
55
84
TBBVLTOZS ADATELEMZS
TBBVLTOZS REGRESSZISZMTS
85
Dnts
A npessgszm s az nkormnyzati
bevtel egyttes nvekedse, lineris
kapcsolata fennll.
Az x nvekedsvel az y adatok
szrsa vltozatlan marad-e, a
hibatag konstans szrsa
felttelezhet-e?
A npessg nvekedsvel az
nkormnyzati bevtelek szrsa
enyhn nvekedik, br a kisebb
lakossg mellett is van kt helyen
jelentsebb eltrs az ltalnos
tendencitl.
56
86
TBBVLTOZS ADATELEMZS
be 57 a modellbe, s a bevont vltozk elhagyhatsgt is lpsenknt
ellenrizzk. gy olyan modell addik, ami statisztikai rtelemben a lehet
legjobb, de elfordulhat, hogy szakmailag nehezebben rtelmezhet.
I) megerst
II) feltr
Vltozk
bevonsa
szelektlva
a) Vltozk
ereje
b) Modell
egsze
az adott vltozkrbl
ez a legjobb lineris
modell, de ez elg je?
c) Hibatagok
azonos az I) modellel
d) Egyedi
megfigye-lsek
hatsa
azonos az I) modellel
57
TBBVLTOZS REGRESSZISZMTS
87
y = X + , ahol
(4.1)
= ( X T X ) 1 X T y
(4.2)
A reziduumok variancija:
2 =
T
n p 1
, ahol
= yy= yX
(4.3)
e = y Xb .
A teljes eltrsek ngyzetsszege (SST: Sum of Square of Total) az egyvltozs
modellhez hasonl alak, ez az y vltoz szrsngyzetnek n-szerese:
88
TBBVLTOZS ADATELEMZS
n
(y
SST=
i =1
y) 2 = yT y + n y
(4.4)
yi yi = y
i =1
n
y y
y = ( y Xb )T ( y Xb )
, s
s 2 = (e T e) /(n p 1)
(4.5)
A regresszis egytthatk szrsngyzete a hibavariancia (4.5) segtsgvel
hatrozhat meg. Egy b regresszis egytthat variancija az (XTX)-1 megfelel
diagonlis elembl addik:
Var(bj)=s2 diagj{(XTX)-1}
(4.6)
SSR = SST-SSE =
( y
i =1
y )2 = y T Xb n y
(4.7)
59
TBBVLTOZS REGRESSZISZMTS
89
Eltrs
Szabadsg tlagos
F-hnyados
forrsa
ngyzetsszeg
fok
ngyzetsszeg
Regresszi
SSR
MSR=SSR/p
Hibatag
SSE
n-p-1
MSE=SSE/(n-p-1)
Teljes
SST=SSR+SSE n-1
F=MSR/MSE
r ( x, y ) =
( xi x)( yi y)
i =1
( xi x ) 2 ( y i y ) 2
i =1
i =1
x y
i =1
x y
2
i
=
2
i
xT y
= cos
x y
(4.8)
90
TBBVLTOZS ADATELEMZS
t=
r n2
1 r 2
(4.9)
Radj
SSE / (n p 1)
p (1 R 2 )
= 1
=R
SST / (n 1)
n p 1
2
(4.10)
s=
60
SSE
1
=
( yi yi ) 2
n p 1
n p 1 i =1
(4.11)
TBBVLTOZS REGRESSZISZMTS
91
A modell parcilis vizsglata a regresszis egytthatk egyenknti tesztelse tprbval trtnik. A nullhipotzis szerint H 0 : j = 0 s a ktoldali alternatv
hipotzis:
H1 : j 0 .
t=
bj
sb j
(4.12)
ahol sbj az (4.5) szerinti becslt variancia gyke. A t-prba szabadsgfoka n-j-1, ahol
j azt jelzi, hogy a j-edik vltozt vontuk be a modellbe. A t-eloszls segtsgvel (1) valsznsgi szint konfidencia intervallum is felrhat az elmleti j
paramterre:
b j t / 2,( n j 1) sb j
(4.13)
beta j = b j
sx j
sy
(4.14)
92
TBBVLTOZS ADATELEMZS
az alaprtket adja meg, amit y akkor vesz fel, ha minden xj rtke nulla. A bj
egytthat pedig azt a kzvetlen hatst mri, hogy mennyivel vltozik y, ha xj egy
egysggel n, mikzben a tbbi magyarz vltoz rtke vltozatlan.
Ha a magyarz vltozk lineris fggetlensge nem teljesl, akkor y s xj kztt a
teljes hatst (byj) a kzvetlen hats (bj) s az xj-vel korrell (pl. xk) magyarz
vltoz(ko)n keresztl megvalsul kzvetett hatsok egytt adjk.
gy byj =bj + bk*bjk, ahol bjk az xknak mint magyarz vltoznak az xjre, mint
fgg vltozra felrt regresszis egytthatja. A direkt s az indirekt hatsok
feltrsa t-elemzssel 62 valsthat meg.
R 2 RO2 n p 1
Fp =
1 R2
q
(4.15)
62
TBBVLTOZS REGRESSZISZMTS
R 2 RO2 >
q
(1 R 2 ) F ,q ,( n p 1)
n p 1
93
(4.16)
R parc =
R 2 RO2
1 RO2
(4.17)
94
TBBVLTOZS ADATELEMZS
sszes tbbi x milyen szorosan hatrozza meg:
variancia
infll
faktor
(VIF)
tolerancia
reciproka:
Tolerancia s VIF
Tolerancia
VIF
0,2
0,4
0,6
0,8
Determincis egytthat
63
TBBVLTOZS REGRESSZISZMTS
95
B =( X T X ) 1 X T y
mindkt oldalt szorozzuk balrl X mtrixszal. Ekkor azonossgot kapunk, ahol H
(nxn)-es mtrix a lekpezs 64 mtrixa.
X B = y = X ( X T X ) 1 X T y = Hy
64
(4.18)
96
TBBVLTOZS ADATELEMZS
e = y y = y Hy = ( E H ) y ,
(4.19)
SSE = y T ( E H ) y
SSR = y T Hy n y .
H mtrix szimmetrikus, diagonlis elemei (jellje hii ) azt a hatst fejezik ki, amit az
i-edik megfigyels (X mtrix i-edik sora) gyakorol az sszes magyarz vltozn
keresztl a regresszis becslsre.
hii = xiT ( X T X ) 1 xi
n
Megmutathat, hogy
h
i =1
ii
(4.20)
hii
1
n
(4.21)
Az SPSS kziknyv ltal javasolt msik szably szerint p>6 s (n-p)>12 esetn 3p/n
a bevonsi kszb. Ha a megfigyelsek szma s a magyarz vltozk szma
kztti n>5p ajnlst is figyelembe vesszk, akkor 3/5=0,6 feletti rtket elr
megfigyelst semmikppen nem vesznk figyelembe a regresszis modell
becslsekor.
TBBVLTOZS REGRESSZISZMTS
97
A legkisebb ngyzetes becsls nagyon rzkeny az extrm (xi, yi) megfigyelsprokra. Ha a megfigyelt y rtk extrm, s/vagy az x rtkektl fgg h sly nagy,
akkor ers hatst gyakorolnak a becslsre. Egyszerbb a hatsok rtelmezse, ha az
X mtrixban a fggetlen vltozk tlagtl vett eltrsei, a centrozott adatok vannak.
Ekkor egy magyarz vltoz esetn h azt fejezik ki, hogy az x vltoz egy-egy
1
megfigyelt rtke milyen tvol van az tlagtl: hii = +
n
(x x )
(x x )
2
j =1
= yi y i )
e(i )i = yi y (i )i .
65
Az egy megfigyels trlse, kihagysa utn szmtott hibatag angol neve deleted residual.
Hunyadi-Mundrucz-Vita: Statisztika c. knyve sorelhagysos mdszert emlt.
98
TBBVLTOZS ADATELEMZS
e(i )i = ei /(1 hii )
(4.22)
e(i )i ei
ngyzetsszege 66 PRESS=
e
i =1
2
(i )i
zi = ei / s
Mivel
regresszis
(4.23)
becslsbl
szrmaz
hibatagok
variancija
torztott,
ri = ei / s 1 hii
(4.24)
ti = ei / s(i ) 1 hii
(4.25)
66
TBBVLTOZS REGRESSZISZMTS
99
Kpletnek
szma
SPSS-neve
(4.19)
res
(4.22)
dre
(4.23)
zre
(4.24)
sre
(4.25)
sdr
a) dM =(n-1)(hii 1/n),
(4.26)
pontban: Di
= ( y ( i )i y i )2 /( p + 1 )s 2
i =1
ei2 hii
hii
Di =
= ri 2
2
2
( p + 1) s (1 hii )
( p + 1)(1 hii )
(4.27)
100
TBBVLTOZS ADATELEMZS
69
rzkenysgt mrjk, ha az i-
(4.28)
2 / n kszbszmot.
DfFitsi = yi y(i )i
StDfFitsi = yi y( i ) i / s( i ) hii = ti ii
1 hii
1/ 2
(4.29)
CovRatio =
S (i )
S
(n p) p
[(n p 1) + ti ]p (1 hii )
(4.30)
68
CovRatio 1 3 p / n.
TBBVLTOZS REGRESSZISZMTS
101
Az outputok listja a kvetkez 4 gomb mgtt trul fel: Statistics, Plots, Save,
Options.
A bellts menete s az eredmnyek sorrendje jelentsen eltr. Elszr azt tekintjk
t, hogy mit rdemes krni, majd azt, hogy mit hogyan rtelmeznk.
I.
Statistics
II.
Plots
III.
Save
102
TBBVLTOZS ADATELEMZS
1.
2.
3.
4.
5.
IV.
Options
Szrs/tlag= relatv szrs, a kettnl nem nagyobb rtk a kedvez. Az tlag eljeltl
eltekintnk.
72
Nincs npessgre vettve az adat, s az USA kiugran magas betegszma megnveli a
szrst.
71
TBBVLTOZS REGRESSZISZMTS
103
Mean
Population increase (%
per year))
Average female life
expectancy
Average male life
expectancy
Infant mortality (deaths
per 1000 live births)
Gross domestic
product / capita
Daily calorie intake
Aids cases
1,821
1,143
75
68,81
11,41
75
63,88
10,11
75
47,021
38,731
75
5853,16
7149,52
75
2753,83
11067,40
567,83
48111,34
75
75
Population increase (%
per year))
Average female life
expectancy
Average male life
expectancy
Infant mortality (deaths
per 1000 live births)
Gross domestic
product / capita
Daily calorie intake
Aids cases
Population
increase
(% per
year))
Average
female life
expectancy
Average
male life
expectancy
Infant
mortality
(deaths
per 1000
live births)
1,000
-,582
-,529
,617
-,665
-,609
-,582
1,000
,989
-,962
,675
,775
-,529
,989
1,000
-,946
,657
,765
,617
-,962
-,946
1,000
-,690
-,777
-,665
,675
,657
-,690
1,000
,751
-,609
-,094
,775
,044
,765
,032
-,777
-,075
,751
,285
1,000
,167
Gross
domestic
product /
capita
Daily
calorie
intake
104
TBBVLTOZS ADATELEMZS
Model
1
2
3
4
5
R
,665
,700
,722
,752
,745
R
Square
,443
,491
,521
,565
,555
Adjusted
R Square
,435
,476
,501
,540
,536
Std. Error of
the
Estimate
,859
,827
,808
,775
,779
R Square
Change
,443
,048
,031
,044
-,010
Change Statistics
F
df1
df2
Change
73
58,006
1
1
72
6,751
71
1
4,558
70
7,015
1
72
1,640
1
Sig. F
Change
,000
,011
,036
,010
,204
Durbin Watson
1,887
TBBVLTOZS REGRESSZISZMTS
105
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
42,832
53,904
96,737
47,453
49,283
96,737
50,426
46,310
96,737
54,644
42,092
96,737
53,658
43,079
96,737
df
1
73
74
2
72
74
3
71
74
4
70
74
3
71
74
Mean
Square
42,832
,738
F
58,006
Sig.
,000
23,727
,684
34,663
,000
16,809
,652
25,770
,000
13,661
,601
22,719
,000
17,886
,607
29,479
,000
106
TBBVLTOZS ADATELEMZS
4.9. tblzat: A regresszis modell egytthati
TBBVLTOZS REGRESSZISZMTS
107
108
TBBVLTOZS ADATELEMZS
4.10. tblzat: A mg be nem vont vltozk statisztiki
110
TBBVLTOZS ADATELEMZS
A rezidulisok statisztiki
Elszr kt orszgot ltunk a 4.12. tblzatban, amelyek sztenderdizlt rezidulisa
kvl esnek a (-3;+3) intervallumon. Mindkettnek pozitv eljele van, azaz a modell
alulbecsli a megfigyelt rtket. Fellbecsls negatv rezidulis esetn fordul el.
4.12. tblzat: Kilg megfigyelsek
a
Casewise Diagno stics
Case Number
80
87
COUNT RY
Kuwait
U.Arab
Em.
Std.
Residual
4,497
Population
increase
(% per
year))
5,2
Predicted
Value
1,737
Residual
3,503
4,348
4,8
1,413
3,387
Minimum
,149
-1,964
Predicted Value
Std. Predicted Value
Standard Error of
,106
Predicted Value
Adjusted Predicted Value 9,415E-02
Residual
-1,936
Std. Residual
-2,485
Stud. Residual
-2,450
Deleted Residual
-1,936
Stud. Deleted Residual
-2,452
Mahal. Distance
,375
Cook's Distance
,000
Centered Leverage Value
,005
Mean
1,753
-,079
Std.
Deviation
,812
,954
,348
,178
5,001E-02
109
3,544
3,503
4,497
4,572
3,620
5,404
13,787
,196
,186
1,756
-7,10E-02
-,091
-,089
-7,33E-02
-,083
3,095
,014
,042
,818
,850
1,091
1,095
,873
1,134
2,367
,029
,032
109
109
109
109
109
109
109
109
109
Maxim um
3,544
2,023
N
109
109
TBBVLTOZS REGRESSZISZMTS
111
1,2
1,0
,8
,6
,4
,2
-1
P o p u la t io n in c r e a s e (% p e r y e a r) )
Rezidulisok bri
a) A rezidulisok statisztikibl lttuk, hogy a 80. s 87. orszgok rontjk az
illeszkedst. A 4.4/a. brn mg e kt orszg rezidulisai is szerepelnek, mg a 4.4/b
hisztogram a kihagysukkal kszlt regresszis modell sztenderdizlt hibatagjait
mutatja.
112
TBBVLTOZS ADATELEMZS
Histogram
Histogram
30
14
12
20
10
8
6
Frequency
Frequency
10
Std. Dev = 1,09
Mean = -,09
N = 109,00
Mean = -,12
N = 107,00
50
2,
00
2,
50
1,
00
1,
0
,5
00
0,
0
-,5 0
,0
-1 0
,5
-1 0
,0
-2 0
,5
-2
50
4,
50
3,
50
2,
50
1,
0
,5
0
-,5
0
,5
-1
0
,5
-2
Standardized Residual
,75
,50
,25
0,00
0,00
,25
,50
,75
1,00
TBBVLTOZS REGRESSZISZMTS
113
tmasztjk al. A 4.6. brn a 80. s 87. orszgok a nagy rezidulisok miatt kln
llnak, s a hibatagok nvekednek 74.
4
Unstandardized Residual
-1
-2
-1
74
114
TBBVLTOZS ADATELEMZS
4
Unstandardized Residual
-1
-2
-10000
10000
20000
30000
70
80
Unstandardized Residual
-1
-2
40
50
60
TBBVLTOZS REGRESSZISZMTS
115
-2
-4
-3
-2
-1
116
TBBVLTOZS ADATELEMZS
multikollinearitst okoz, a GDP hatsa viszont nem lineris. A lpsenknti
regresszi a megadott vltozk kzl ksztette el a lehet legjobb becslst, ami
szakmai rtelemben nem j, tovbbi elemzsekre nem alkalmas.
Female life
Male life ex
Infant mortality
GDP/c
Population incr.
TBBVLTOZS REGRESSZISZMTS
117
2. feladat
A magyarz vltozk kz vlasztand a kvetkez 7 vltoz:
Npessgszm
Odavndorls
Elvndorls
Vendglthely
Laksllomny
ptett laksok
llskeresk
a) A relatv szrsok kett alatt vannak?
b)A magyarz vltozk kztti korrelcik szignifiknsak?
c) A STEPWISE eljrs fontos? Igen/nem
3. feladat
Elemezze egytt, egy regresszis modellben az 50 teleplst az 1. s a 2. feladat
vltozi alapjn.
a) Hny magyarz vltoz kerlt bevonsra?
b) Milyen a modell illeszkedse?
c) A rezidulisok viselkedse megfelel-e?
d) Vannak-e kilg kerletek/teleplsek az adatok kztt?
e) A kerlet sttusz vltoz dummy-knt szerepelhet-e a modellben? Igen/nem
Bevonsra kerl? Igen/nem
HOMOGN az adathalmaz, kzs tendencia jellemz a ktfle teleplsre?
Igen/nem
4. feladat
Kln illesztend lineris regresszis modell a 23 kerletre s a tbbi 27
falura/vrosra.
a) Ms magyarz vltozk kerlnek be a kt modellbe?
b) Melyik modell illeszkedik jobban?
c) Melyek a kilg kerletek/teleplsek az adatok kztt?
5. feladat
a) Hogyan lehet csak konstansban eltr modellt illeszteni kt almintra?
b) Ha magas a kondcis index, akkor a regresszis modell helyett melyik mdszer
alkalmazsa lehet indokolt?
4.12. Megoldsok
1. feladat
A fggvltoz (nkormnyzati bevtel) normlis eloszlsa elvrs. A normalits
ellenrizhet grafikusan s numerikusan is.
a) Grafikusan kt lehetsg is addik:
i) Hisztogram
118
TBBVLTOZS ADATELEMZS
Kolmogorov-Smirnova
nkormnyzatibev
Statistic
,132
df
50
Sig.
Statistic
,029
,916
Shapiro-Wilk
df
50
Sig.
,002
TBBVLTOZS REGRESSZISZMTS
119
120
TBBVLTOZS ADATELEMZS
3.feladat tblzata
2. feladat tblzata
TBBVLTOZS REGRESSZISZMTS
121
122
TBBVLTOZS ADATELEMZS
TBBVLTOZS REGRESSZISZMTS
123
4. feladat
Ha kln illesztnk lineris regresszis modellt a 23 kerletre s a tbbi 27
falura/vrosra, nagyon eltr regresszis modelleket kapunk. A szmtsokat kt
ron vgezhetjk el:
i) A regresszis modellezsen bell Selection: Kerlet=1 (majd 0) belltssal
futtatva mind a kivlasztott, mind a msik almintra elkszl a becsls, s mindkt
rszre megkapjuk a fbb statisztikai jellemzket.
ii) Ha elre leszrjk az egyik almintt, s csak ezt hasznljuk a regresszis
blokkban, akkor a msik almintra nem kapunk semmilyen eredmnyt.
Most az i) szerint jrtunk el, s kt rszmodell eredmnyeit vetjk ssze az a) b)
c) krdsek mentn.
124
a) c)
krdsek
magyarz
TBBVLTOZS ADATELEMZS
Kerleti adatok
sajt modellje
Kerleti adatok
agglomercira
Agglomercis
adatok sajt
modellje
Agglomercis
adatok kerletre
laksllomny
laksllomny
Odavndorls
Odavndorls
ptettlaksok
ptettlaksok
Elvndorls
Elvndorls
vltoz(k)
modell
Tbbszrs
Tbbszrs
Tbbszrs
Tbbszrs
illeszkedse
R=0,851
R=0,854 (!)
R=0,939
R=0,522
kilg
V. kerlet
Budars
nincs
13 kerlet
teleplsek
TBBVLTOZS REGRESSZISZMTS
125
5. feladat
a) Csak konstansban eltr modellt illeszteni kt almintra gy lehet, hogy az
almintt azonost dummy (d= 0 vagy 1) vltozt a modellbe bevonjuk. gy
y = b0 + b x + b2 d az alapmodell lesz, ha d=0. Mg d=1-re b2vel magasabb vagy
alacsonyabb rtket becslnk b2 eljeltl fggen.
b) Ha magas a kondcis index, akkor a regresszis modell helyett faktor (vagy
fkomponens) elemzs alkalmazsa indokolt. De legynk tudatban annak, hogy ez
is a vltozk szoros lineris kapcsolatra pt. Nem lineris kapcsolat esetn elzetes
linearizl transzformci indokolt.
5. Logisztikus regresszi
A lineris regresszi trgyalsa sorn ppen csak utaltunk a nemlineris regresszira. Mi ennek az oka? Az, hogy a nemlineris jelleg szmtalan fggvnyformt takar.
Tovbbi mdszertani elgazst jelent az, amikor az y fgg vltoz nem folytonos,
hanem kt vagy tbb kategrival rendelkez vltoz. Ha ilyen elemzsi feladat
addik, akkor hasznlhatjuk a kereszttblt, vagy a kereszttblra illeszthet
loglineris modellt 75. Ez ppgy, mint a lineris regressziszmts is az
ltalnostott lineris modell csald (GLM) specilis esete.
Ebben a fejezetben egy tovbbi GLM modellt, a logisztikus regresszis modellcsald legegyszerbb modelljt, a binris logisztikus regresszit, az un. logit modellt
trgyaljuk. A mdszer fontossgt, alkalmazhatsgt az utbbi vekben megjelent
szmos cikk 76 is bizonytja.
A logisztikus regresszi alkalmazsi cljt tekintve az osztlyoz eljrsok 77 kz
sorolhat,
mert akkor hasznlhatjuk, ha elre definilt, egymst klcsnsen kizr csoportok
egyikbe soroljuk be a megfigyelseket a magyarz vltozkbl nyert informci
alapjn. Ha az eredmnyvltoznak tbb lehetsges kimenete van, akkor
multinomilis logisztikus regresszirl beszlnk. A logit modell akkor
75
LOGISZTIKUS REGRESSZI
127
128
TBBVLTOZS ADATELEMZS
p
= log it ( p) = 0 + 1 x
log
1 p
,
(5.1)
ahol p/(1-p) az odds 79, s ennek logaritmusa, azaz az esly logaritmusa a logit.
L( p ) = ( p ) yi ( 1 p )( 1 yi )
i =1
(5.2)
i =1
i =1
ln L = yi ln p + ( 1 yi ) ln( 1 p )
d ln L
=
dp
y (1 y ) = 0
i
1 p
Mivel az n szm megfigyelsbl k esetben y=1 s (n-k) esetben y=0 kvetkezett be,
az sszegzsben y=k s (1-y)=n-k rhat. Ekkor k/p=(n-k)/(1-p), amit rendezve
k=np addik, azaz a relatv gyakorisggal trtn becsls formuljt kaptuk:
^
p =
k
n
(5.3)
LOGISZTIKUS REGRESSZI
129
p
ln(odds ) = ln
1 p
= log it ( p ) = 0 + 1 x1 + ... + p x p
(5.4)
vagy
p
T x
= exp( 0 + 1 x1 + ... + p x p ) = e
odds =
1 p
(5.5)
Ebbl kapjuk a becslt feltteles valsznsget:
p
T x
p
e
(1 p )
=
p=
=
T x
1 p + p
1+ e
1+ p
(1 p )
(5.6)
80
(5.7)
130
TBBVLTOZS ADATELEMZS
exp( b j xij )
j
L( b ) =
1 + exp( b j xij
yi
)
1 + exp( b j xij
j
1 yi
(5.8)
Ha csak egyetlen x vltoznk van, akkor kt paramtert (b0 s b1) becslnk. Mivel a
b becslsekre nincsen explicit formula, a szmtgp szmos b0 s b1 rtkprt
behelyettest, hogy megtallja azt az rtkprt, amelyre az L(b) a maximumt
felveszi. Ez az iteratv Newton-Raphson eljrs.
A becslt b paramterek felhasznlsval (5.9) egyenletbl (5.10) szerint kapunk
becslst p-re:
^
log it ( p i ) = b 0 + b 1 xi
^
p =
(5.9)
1
1+ e
( b0 +b1x )
(5.10)
p=
1
1
1 + e b0
(5.11)
p
x
1
odds =
1 p
= exp( 0 + 1 ( x1 + 1) + ... + p x p ) = e e
(5.12)
Ha b1>0, akkor exp(b1)>1, az esly nvekedik, mg b1<0 esetben exp(b1)<1, ami
cskkenti az eslyt. Ha b1=0, akkor az eslyhnyados rtke 1, vagyis x vltozsval
arnyosan vltozik az odds.
A b1 kzvetlen rtelme az eslyhnyados logaritmushoz kapcsolhat:
p ( x + 1)
p ( x + 1)
p( x)
(1 p ( x + 1))
log
= log 1 p ( x + 1) log 1 p ( x) = (b0 + b1 ( x + 1) ) (b0 + b1 x) = b1
p( x)
(1 p ( x))
LOGISZTIKUS REGRESSZI
131
p=
1
1+ e
( b0 +b1x
=1/2, ha
e ( b0 + b1 x ) =1
Az egyenlsg akkor teljesl, ha a kitev nulla. Ez kt esetben llhat fenn, ha x= b0/b1, vagy ha b0=b1=0.
A statisztikai becslst ltalban kveti a konfidencia intervallumok felrsa,
nullhipotzisek fellltsa s tesztelse.
Az (1-) megbzhatsgi szinthez tartoz konfidencia intervallumokat tbb
magyarz vltozt tartalmaz logit modell egytthatira rjuk fel. Az xj egysgnyi
vltozsnak hatsa kt alakban is vizsglhat:
a) a logit vltozsra:
b) az odds-ra pedig: e
b j z / 2 se(b j )
b j z / 2 se(b j )
(5.13)
81
132
TBBVLTOZS ADATELEMZS
p pb
ez =
p b (1 pb ) / n
(5.14)
( fx
nx p xb )
nx p xb (1 p xb )
2
(5.15)
Ha egy kovarins vltoz kategriira nem teljesl az, hogy a becslt gyakorisgok
nagysga legalbb t, akkor Hosmer-Lemeshow tesztet kell alkalmazni, hogy
megllaptsuk, szignifikns-e a megfigyelt s a vrt gyakorisgok eltrse. A
szmtgp akkor is elvgzi ezt a homogenitsvizsglatot, ha kell szm
megfigyels esik egy-egy kategriba, ezrt rviden ttekintjk a HosmerLemeshow teszt lpseit.
A binris (y) vltozra s a becslt (p) valsznsgekre 2xg mret kereszttblt
ksztnk. ltalban g=10 sort, azaz deciliseket hatrozunk meg.
A becslt valsznsgeket nvekv sorrendbe rendezzk s decilisekre bontjuk.
sszegket decilisenknt osztjuk a decilis elemszmval (s~n/10).
A msodik tag komplementert vesszk minden decilisre: 1-p/s.
Megfigyelt (M) s vrt (V) gyakorisgok eltrst ngyzetre emeljk, s a nevezben
a msodik tag komplementere is szerepel:
2 = ( M V ) / (V ( 1 p / s )
2
A fenti sszeg khi-ngyzet eloszlst kvet. A teszt kritikus rtke g-2 szabadsgi fok
mellett addik. A szmtgp az empirikus szignifikancia szint megadsval segti a
dntst. Ha ez kisebb, mint 0,05, akkor elvetjk a homogenitst.
A likelihood arny elven trtn tesztels azrt fontos, mert hierarchikus modellekre
is jl hasznlhat. Az (5.16) szerint ez azt fejezi ki, hogy egy x magyarz vltoz
bevonsa javt-e az illeszkedsen ahhoz kpest, ha csak a konstans szerepel a
modellben:
LOGISZTIKUS REGRESSZI
Lb
LR = 2 ln 0
Lb
1
133
(5.16)
ln L(b) (k + 1)
R = 1
ln L(0)
,
2
(5.17)
134
TBBVLTOZS ADATELEMZS
klnbsg.
A feltteles (Conditional) statisztika alapjn trtn vlaszts is LR alapon
trtnik. De itt a reduklt modellben az egytthatk kztti kovariancikat
is felhasznl feltteles becslssel szmoldnak az egytthatk.
LOGISZTIKUS REGRESSZI
135
ebbl a becslt valsznsg: 7/23= 0,304. Az 5.1. bra alapjn ez azonban nem
konstans valsznsg, mert a hmrsklet emelkedsvel cskkenni ltszik a
kudarc. A logit modell illesztsvel a becsls sorn felhasznljuk a hmrskleti
adatokat, s teszteljk a modell erejt.
1, 2
1, 0
,8
,6
,4
FAILURE
,2
0, 0
-, 2
10
12
14
16
18
20
22
24
26
28
CELCIUS
p=
1
= 0 ,3043
1 + e 0.827
, ami ppen megegyezik a k/n=7/23 relatv
gyakorisggal.
5.1. tblzat: A logit modellbeli konstans s a Wald teszt
V aria ble s in the Equati on
S tep 0
Const ant
B
-, 827
S .E .
,453
W al d
3,328
df
1
S ig.
,068
E xp(B )
,438
1
0 ,438
1 + 0 ,438 1 + 0 ,438
16
=7,268*10-7 .
Ennek logaritmust (lnL= -14,134), majd (-2)-szerest vesszk, mert ez kvet khingyzet eloszlst.
136
TBBVLTOZS ADATELEMZS
-2 L og
l i k e l i ho o d
2 8 , 27 7
2 8 , 26 7
2 8 , 26 7
It e rat i o n
1
S tep
0
2
3
C o e ffi c i en t s
C o n s t an t
-, 7 8 3
-, 8 2 6
-, 8 2 7
a . C o n s t an t i s i nc l u de d i n t he m o de l .
b . In it i a l -2 L o g L ik e l ih o o d : 28 , 2 6 7
c . E s t i m at i o n t e rm i n a t ed a t i t e rat i o n n um
p a ram e t e r e s t i m a t es c h a ng e d by l e s s
S tep 0
V ari ables
Overal l S tatis tic s
S core
7,231
7,231
CELCIUS
df
1
1
S ig.
,007
,007
It e r a ti on
1
S t ep
1
2
3
4
H i stoar,b
y , c, d
-2 Log
li k e li h o o d
21, 185
20, 359
20, 315
20, 315
C o e ffi ci e n ts
Cons t ant
C E L C IU S
4, 834
- ,2 6 9
6, 896
- ,3 8 0
7, 559
- ,4 1 5
7, 613
- ,4 1 8
a . M e th o d : E n t e r
b . C o n s t a n t is
in c l u d e d i n t h e m o d e l.
c . In i ti a l -2 L o g L i k e li h o o d : 2 8 ,2 6 7
d . E s t im a ti o n t e rm in a t e d a t it e ra t io n n u m b e r 4 b e c a
lo g - li k e li h o o d d e c r e a s e d b y le s s th a n ,0 1 0 p e rc e
LOGISZTIKUS REGRESSZI
137
-2 Log
likelihood
20,315
Nagelkerke
R Square
,413
L( 0 )
= 1
L( 1 )
2/ n
(5.18)
2
RN2 = RCox
/ 1 L( 0 )2 / n
(5.19)
A becslt egytthatk outputja eltt kapjuk meg az osztlyozs jsgt, vagyis azt,
hogy a hmrskletet figyelembe vve a replsek 87%-t helyesen osztlyozza a
modell, amint ezt az 5.6. tblzat mutatja. Az sszestett szzalkot is befolysolja,
de klnsen az egyes kategrikhoz helyesen besorolt megfigyelsek arnya
rzkeny a kszbszm (cut value) belltsra.
138
TBBVLTOZS ADATELEMZS
5.6. tblzat: Klasszifikcis tblzat
Cla ssifica tio n Ta bale
P redic ted
S tep 1
Obs erved
F AILURE
F AILURE
s uc cess
failure
16
0
3
4
s uc cess
failure
Overall P ercentage
P ercentage
Correc t
100,0
57,1
87,0
Satep
1
CELCIUS
Cons tant
B
-, 418
7, 613
S .E.
,195
3, 933
W ald
4, 601
3, 747
df
1
1
S ig.
,032
,053
E xp(B)
,658
2025,098
95,0% C.I.for E XP (B )
Lower
Upper
,965
,449
Cas e
18
S elect ed
a
S tat us
S
Obs erved
FAILURE
f**
P redic ted
,086
P redic ted
Group
s
LOGISZTIKUS REGRESSZI
139
,8
Predicted probability
,6
,4
FAILURE
,2
f ailure
success
0,0
10
12
14
16
18
20
22
24
26
28
CELCIUS
Valid
Percent
Valid Percent
Cumulative
Percent
No
726
72,6
72,6
72,6
Yes
274
27,4
27,4
100,0
Total
1000
100,0
100,0
140
TBBVLTOZS ADATELEMZS
A mdszer kivlasztsnl felttelezzk, hogy az gyfelek adatai
korrellnak egymssal, ezrt a 8 vltoz kztt szelekcit krnk, a
belptets a Wald teszt alapjn trtnik.
Az gyfl csaldi llapota s a neme kategria vltozk, ezeket belltjuk,
s az utols kategrit, mint referencit adjuk meg. gy az 5.10. tblzat
szerint a frfi s a nem hzas szerepelhetne ha szignifikns hatsa
lenne a bevont vltozk kztt.
5.10. tblzat: Kategria vltozk kdolsa s modellbeli szerepe
Categorical Variables Codings
Frequency
Parameter coding
(1)
Male
483
1,000
Female
517
,000
Unmarried
505
1,000
Married
495
,000
Gender
Marital status
-2 Log likelihood
Nagelkerke R
Square
1020,513a
,143
,206
1004,542
,156
,226
1000,758
,159
,231
LOGISZTIKUS REGRESSZI
141
Predicted
Churn within last month
No
Yes
Percentage
Correct
No
478
248
65,8
Yes
74
200
73,0
67,8
No
475
251
65,4
Yes
72
202
73,7
67,7
No
479
247
66,0
Yes
73
201
73,4
68,0
142
TBBVLTOZS ADATELEMZS
LOGISZTIKUS REGRESSZI
143
Area
,755
Predicted probability
,758
144
TBBVLTOZS ADATELEMZS
LOGISZTIKUS REGRESSZI
145
Tovbbi feladat:
Ms vltozk bevonsval keressen magasabb R-ngyzetet elr, s pontosabb
besorolst ad modellt.
Tnyleges/Dnts
J, befogadott (1)
J, kedvez (1)
Rossz (0)
A dntsi tblt a logit modell alapjn kapjuk meg, ami a dntsi rtk (cut-value)
belltstl fggen ms s ms lesz. A ROC-grbe egy-egy pontja azt mutatja
84
Trtnelmi rdekessg, hogy a jelfelismers a II. vilghbor idejn Pearl Harbor 1941-es
megtmadst kveten vlt szksgess. A radarok hasznlatnak clja az ellensges
replk s a sajt replgpek ltal adott jelek megklnbztetse volt. A ROC-grbe
szlesebb kr alkalmazsa az 1970-es vek ta jellemz: kockzatcskkentsre, orvosi
tesztek rtelmezsre is hasznlni kezdtk.
146
TBBVLTOZS ADATELEMZS
0,90-1 = kivl
0,80-0,90 = j
0,70-0,80 = kzepes
0,60-0,70 = gyenge
LOGISZTIKUS REGRESSZI
147
P( Y = 1 X ) = ( X ' )
A modellben az x vltozk hatst kifejez egytthatk maximum likelihood
elven becslhetk.
6. Faktorelemzs
A faktorelemzs hrom esetben kiemelten hasznos mdszer. Ezek rvid bemutatsa
mellett pldkkal is igyeksznk az olvas figyelmt megragadni.
a)
85
FAKTORELEMZS
149
6.1. A fkomponenselemzs
Az eljrs alapgondolata az, hogy az egymssal pronknt linerisan korrell
vltozk egyttesbl ortogonlis transzformci rvn ellltjuk a korrellatlan
fkomponenseket gy, hogy az els nhny komponens lerja a vltozk sszes
szrsngyzetnek elg nagy hnyadt, s gy alacsonyabb dimenziba kpezhetjk
le megfigyelseinket. Ha az indul vltozk kztti korrelcik gyengk, akkor az
eredeti vltozkkal tbb-kevsb megegyez szm s tartalm komponenseket
kapunk.
86
87
150
TBBVLTOZS ADATELEMZS
Y = X A , ahol az A (pxp)-s.
2) A lineris kombinci egytthatinak ngyzetsszege minden fkomponensre
egy legyen, az elsre gy rhat fel:
a1 a1 = 1
T
L = a 1 R a 1 1 ( a 1 a 1 1 ) max
T
(6.1)
L
a 1
= 2 R a 1 2 1 a 1 = 0
R a 1 = 1 a 1
s (R 1 E )a 1 = 0
(6.2)
FAKTORELEMZS
151
R 1E = 0
(6.3)
i =1
= p
(6.4)
p
fkomponens.
A nagy szrs vltoz dominlja a
fkomponenst.
88
152
TBBVLTOZS ADATELEMZS
R a1 = a1
/*a1T
a1 R a1 = 1 a1 a1 = 1
T
(6.5)
p
j / k hnyados
mutatja, szzzal
k =1
yij = a j x i
T
(6.6)
c j = j a j , amelyre c j = c j c j = j a j a j = j
T
vagy mskppen
c
i =1
2
ij
= j
(6.7)
90
A sajtvektorok eljele tetszleges, mert a homogn lineris egyenletrendszer
megoldsakor van szabad ismeretlen.
91
A korrelci szmtsakor osztunk az Y komponensek szrsval, azaz a sajtrtkek
gykvel.
A diagonlis mtrix, ftljban a sajtrtkek szerepelnek. Az X-beli vltozk
sztenderdizltak, szrsuk egysgnyi.
FAKTORELEMZS
153
cov( x , y )
1 T
1 / 2
1 / 2
1 / 2
1/ 2
= cov( X ,Y )
= X ( X A
) = R A
= A = C
sx s y
n
A C mtrix minden eleme korrelcis egytthat, de a C nem korrelcis mtrix,
corr( X ,Y ) =
c
j =1
2
ij
= hi2 = 1
(6.8)
(6.9)
R A = A
/*AT
R = A A = i a i a i
T
(6.10
i =1
aT a=1
aT a=
R korrelcis mtrix
cij=aijj
cij=aij
S kovariancia mtrix
cij=aijj/i
cij=aij/i
154
TBBVLTOZS ADATELEMZS
R = i a i a i
(6.11)
i =1
92
FAKTORELEMZS
155
6.1. tblzat: PCA ler statisztikk
Vlaszthat rszeredmnyek
rtelmezsk
Bartlett-teszt (gmblysgi)
r
i j
ij
r
i j
ij
+ pij
(6.12)
i j
r1234... p = q12
q11 q 22
, ahol
q az inverz mtrix megfelel eleme. Ha nem zavar, akkor a rszletes kirs helyett pij
szerepel.
94
Egy tbbszrs korrelci rtke az inverz mtrix azonos index elembl meghatrozhat:
R123... p = 1 1 q11
95
156
TBBVLTOZS ADATELEMZS
r
i j
2
ij
r
i j
2
ij
+ pij2
(6.3)
i j
A mutat nagy rtke fontos vltozt s kzs faktor ltt jelzi. Ha kicsi (0,5 alatti)
valamely MSA, akkor a vltoz kihagysval javthat a modell.
Az AIC ftln kvli elemei a parcilis korrelcik (-1)-szeresei. J a faktormodell,
ersek a kzs faktorok, ha a parcilis korrelcik nullhoz kzeliek. Ez azt jelenti,
hogy az egyedi faktorok kztti korrelci is kzel nulla.
Hvelykujj szably szerint minsthetjk az eredmnyt, ahogy a 6.2. tblzat jelzi.
6.2. tblzat: A minta megfelelsgnek rtkelse KMO s MSA mrtkek alapjn
KMO s MSA
Minsts (s teend)
rtke
0,9 felett
0,8-0,9
0,7-0,8
kzepes
0,5 felett
megfelel
=0,5
0,5 alatt
FAKTORELEMZS
157
2 = a log R
(6.14)
hi2 = cij 1
2
96
97
A Scree plot vzszintes tengelyn a faktorok szma, fggleges tengelyn pedig a
sajtrtkek lthatk.
98
A rotci jelentsgt mutatja be Hajdu Ott cikke a Statisztikai Szemle 2004. X-XI. dupla
szmban.
99
A rotls a PAF eljrs kzs faktorainak rtelmezsekor nagyon fontos.
158
TBBVLTOZS ADATELEMZS
V =
q =1
p
p 2
4
b jq b jq / p
j =1
j =1
p
(6.15)
A ferdeszg (Oblique) forgatst a Direct Oblimin eljrs vgzi. Ekkor a
fkomponensek kztti korrelcik mtrixa nem lesz egysgmtrix, s nem adhat
meg az, hogy egyes vltozk szrsngyzetnek mekkora hnyadt kpviseli egyegy faktor.
Ebben a rszben krhet a Loading plot, amely a vltozkat brzolja a faktorok
terben.
D) Tovbbi eredmnyeket kapunk a Factor Scores blokkban.
A score egytthat-vektor p elem, a sajtrtk gykbl s a hozztartoz
sajtvektorbl szmolhat, minden vltozhoz kirathat:
(6.16)
100
FAKTORELEMZS
159
Std. Deviation
Analysis N
Odavanperfo
,043197
,0152623
50
Elvanperfo
,034468
,0109296
50
llElvanperfo
,020327
,0074053
50
llodavanperfo
,025357
,0124537
50
101
160
TBBVLTOZS ADATELEMZS
6.4. tblzat: Az eredeti vltozk korrelcis mtrixa
Correlation Matrixa
Correlation
Sig. (1-tailed)
Odavanp
Elvan
erfo
perfo
Odavanperfo
llElvan llodavanp
perfo
erfo
1,000
,877
,838
,915
Elvanperfo
,877
1,000
,940
,884
llElvanperfo
,838
,940
1,000
,908
llodavanperfo
,915
,884
,908
1,000
,000
,000
,000
,000
,000
Odavanperfo
Elvanperfo
,000
llElvanperfo
,000
,000
llodavanperfo
,000
,000
,000
,000
a. Determinant = ,002
Approx. Chi-Square
df
Sig.
,746
280,951
6
,000
A vltozk egyedi alkalmassgt a 6.5/b. tblzat als mtrix ftlja adja meg. Az
egyedi MSA rtkek a KMO krl ingadoznak, egyik vltoz kihagysa sem
indokolt, mindegyik meghaladja a 0,5 kszbt. A ftln kvl a parcilis
korrelcik (-1)-szeresei kaptak helyet.
FAKTORELEMZS
161
Anti-image Correlation
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
erfo
,127
-,049
,032
-,073
,752a
-,466
,316
-,667
Elvan
llElvan
llodava
perfo
,032
-,062
,080
-,048
,316
-,737
,718a
-,551
nperfo
-,073
,015
-,048
,093
-,667
,170
-,551
,758a
perfo
-,049
,087
-,062
,015
-,466
,755a
-,737
,170
102
Extraction
Odavanperfo
1,000
,894
Elvanperfo
1,000
,931
llElvanperfo
1,000
,923
llodavanperfo
1,000
,933
Ha a kommunalits kisebb, mint 0,25, akkor a vltoz egyetlen faktorral sem korrell
kzepesen, mert 0,52 = 0,25. A kommunalits tbbszrs determincis egytthatknt
rtelmezhet.
162
TBBVLTOZS ADATELEMZS
Component
Total
Loadings
% of
Cumulative
Variance
3,681
92,036
92,036
,183
4,576
96,612
,098
2,448
99,060
,038
,940
100,000
Total
3,681
% of
Cumulative
Variance
92,036
92,036
FAKTORELEMZS
163
,946
Elvanperfo
,965
llElvanperfo
,961
llodavanperfo
,966
164
TBBVLTOZS ADATELEMZS
6.9. tblzat: A korrelcik becslt rtkei s a hibatagok
Reproduced Correlations
Reproduced
Correlation
Residualb
Odavanp
Elvanp
erfo
erfo
llElvan llodavanp
perfo
erfo
Odavanperfo
,894
,912
,909
,914
Elvanperfo
,912
,931a
,927
,932
,928
llElvanperfo
,909
,927
,923
llodavanperfo
,914
,932
,928
,933a
-,035
-,070
,002
,013
-,048
Odavanperfo
Elvanperfo
-,035
llElvanperfo
-,070
,013
llodavanperfo
,002
-,048
-,021
-,021
,257
Elvanperfo
,262
llElvanperfo
,261
llodavanperfo
,262
FAKTORELEMZS
165
Egyedisg=1-kommunalits
166
TBBVLTOZS ADATELEMZS
(6.17)
Feltevsek:
(6.18)
T
(6.19)
A megfigyelt vltozk korrelcis mtrixt (6.17) alapjn felbontjuk, s a (6.18)(6.20) feltevseket felhasznlva a faktorelemzs alapegyenlett kapjuk:
R= XTX/n= 1/n(FLT+H)T( FLT+H) = LLT+ U2
(6.21)
(6.22)
szmoljuk:
ui2 = 1 hi2
(6.23)
FAKTORELEMZS
167
Rred =LLT=VVT
(6.24)
cos
T =
sin
sin
cos
0.9
0.7
R= 0.9
0.4
0.7
0.4
1
168
TBBVLTOZS ADATELEMZS
A megfigyelsek (nx3)-s mret X mtrixa teht oszloponknt gy rhat fel:
Xi1 = l1 Fi + hi1 , ahol i=1,,n
Xi2 = l2 Fi + hi2
Xi3 = l3 Fi + hi3
A loadingok s a hibatagok a (6.21) alapegyenlet rtelmben egyenlk a
korrelcis mtrix elemeivel az albbiak szerint:
1 = l12 + u12
0,9 = l1l 2
1= l +u
2
2
0,7 = l1l 3
2
0,4 = l 2 l 3
1 = l 32 + u 2 3
l1 = 1,255
FAKTORELEMZS
169
Analysis N
74,365
11,355
31
64,610
26,538
31
68,597
24,109
31
Mean
Composite ICRG risk
rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)
Correlation
Sig. (1-tailed)
Composite
ICRG risk
rating
Institutional
Investor
credit rating
Country credit
worthiness
rating
(Euromoney)
1,000
,921
,925
,921
1,000
,992
,925
,992
1,000
,000
,000
,000
,000
,000
,000
a. Determinant = 2,398E-03
A tesztek (6.13. tblzat) is azt bizonytjk, hogy adataink alkalmasak ltens vltoz
ellltsra. Ez a rsz megegyezik a PCA s a PAF eljrsoknl.
170
TBBVLTOZS ADATELEMZS
6.13. tblzat: Alkalmassgi tesztek
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Bartlett's Test of
Sphericity
,739
Approx. Chi-Square
df
Sig.
169,936
3
,000
Extraction
,856
,860
,983
,988
,984
,994
Factor
1
2
3
Initial Eigenvalues
% of
Cumulativ
Total
Variance
e%
2,892
96,403
96,403
9,959E-02
3,320
99,723
8,325E-03
,277
100,000
FAKTORELEMZS
171
6.16. tblzat: Ffaktor slyok
F ac to r M atra
ix
F ac tor
1
C om p os ite I CR G ris k
rati ng
Ins tit utio nal Inv esto r cre d
rati ng
C oun try c redi t w orthi nes
rati ng (E u rom o ney )
,92 7
,99 4
,99 7
,026
,308
,668
,334
,342
,342
172
TBBVLTOZS ADATELEMZS
FAKTORELEMZS
173
Composite
ICRG risk
rating
Reproduced Correlation
Residuala
Institution
al Investor
credit
rating
Country
credit
worthines
s rating
(Euromon
ey)
,922
,925
,860
,922
,988
,991
,925
,991
,994
,000
,000
,000
,000
,000
,000
1,5
1,0
,5
PAFrisk
0,0
-,5
-1,0
-1,5
-2,0
-2,5
-2,5
-2,0
-1,5
-1,0
-,5
0,0
,5
1,0
1,5
PCArisk
174
TBBVLTOZS ADATELEMZS
Npessgszm
Odavndorls
Elvndorls
llandodavndorls
llandelvndorls
nkormnyzatibev
Vendglthely
Laksllomny
ptettlaksok
llskeresk
A 2. komponens: nincs
sszestett minsts: jl rtelmezhet modell
FAKTORELEMZS
(AR10) n=50 s p=10
175
KMO mrtk: 0,828
Npessgszm
nkormnyzatibev
Vendglthely
Laksllomny
ptettlaksok
llskeresk
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
Npessgszm
nkormnyzatibev
Vendglthely
Laksllomny
ptettlaksok
llskeresk
(K4) n=50 s p=4
KMO mrtk:0,746
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
Vajon mirt van az, hogy hromszor egy faktoros, s egyszer kt faktoros eredmny
addott? Mibl ered ez a klnbsg?
Ismt a mrethatsra emlkeztetnk. A mutatk tbbsge egymssal egyttmozog,
ers a multikollinearits, ezrt az (A10) modell KMO-ja a legmagasabb. Ha az egyik
mutat nagyobb rtket r el, akkor a msik is magasabb. De a msodik modellben,
az (AR10)-ben relatv mutatk is szerepelnek, s ezek klnlnek el a tbbi
vltoztl. Ez azzal magyarzhat, hogy a ltszmhoz viszonytott vndorls
msknt alakulhat, mint a vndorls nmagban.
176
TBBVLTOZS ADATELEMZS
Component
1
2
3
4
5
6
7
8
9
10
Total
6,800
2,045
,391
,313
,140
,101
,092
,079
,029
,010
Initial Eigenvalues
% of
Cumulative
Variance
%
67,999
67,999
20,453
88,452
3,915
92,367
3,126
95,492
1,401
96,894
1,009
97,902
,918
98,820
,788
99,608
,295
99,903
,097
100,000
A 10 vltozbl kinyert 88%-nyi sszes informci nem nhet meg a rotls sorn,
de a tengelyek kztti sztoszts 68+20 szzalkrl indulva 48+40%-ra, azaz
jelentsen megvltozik. (Kivteles esetekben a msodik komponens sajtrtke
rotls utn meghaladhatja az elst!)
A rotls a faktorok rtelmezsben, a vltozk tengelyekhez rendelsben, a tiszta
struktra kialaktsban segt. A komponens mtrix C rotls eltti (6.21. tblzat)
s utni (6.23. tblzat) elemeit, valamint a kt brt (6.3/a. s 6.3/b.) is bemutatjuk,
hogy e mvelet hatst rzkeltetni tudjuk.
Az els pillantsra rtelmezhetetlen komponens mtrixot ltunk a 6.21 tblzatban.
Szinte minden vltoz kzepes vagy ers korrelcit mutat mindkt faktorral, az
ptett laksok s az odavndorls/f mutatk kzel azonosan korrellnak mindkt
tengellyel, teht mintha kzpen, a 45 s a 135 fokos egyenes mentn lennnek. (Ezt
megersti a 6.3/a. bra)
FAKTORELEMZS
177
6.21. tblzat: Eredeti komponens mtrix
Component Matrixa
Component
1
Npessgszm
,916
,307
nkormnyzatibev
,896
,269
Vendglthely
,830
,306
Laksllomny
,921
,327
ptettlaksok
,558
,666
llskeresk
,883
,251
Odavanperfo
-,689
,683
Elvanperfo
-,834
,479
llElvanperfo
-,833
,455
llodavanperfo
-,815
,519
178
TBBVLTOZS ADATELEMZS
6.22. tblzat: A forgats mrtke
Component Transformation Matrix
Component
,758
-,653
,653
,758
A variancia maximlizl rotci (6.22. tblzat) megtallja azt a 40 fok 104 kzeli
szget, amivel a kis slyok mg kisebbek, a nagyok pedig mg nagyobbak lesznek,
s kialakul egy rtelmezhetbb struktra a 6.21/b tblzatban s a 6.3/b. brn.
6.23. tblzat: Rotlt komponens mtrix
Rotated Component Matrixa
Component
1
104
Npessgszm
,895
-,365
nkormnyzatibev
,854
-,381
Vendglthely
,829
-,310
Laksllomny
,911
-,354
ptettlaksok
,858
,140
llskeresk
,833
-,386
Odavanperfo
-,076
,967
Elvanperfo
-,320
,907
llElvanperfo
-,334
,888
llodavanperfo
-,278
,925
FAKTORELEMZS
179
180
TBBVLTOZS ADATELEMZS
FAKTORELEMZS
181
182
TBBVLTOZS ADATELEMZS
105
FAKTORELEMZS
183
6.24. tblzat: Korrelcis egytthatk
Correlation Matrixa
Correlation
Sig. (1-tailed)
DBUX
DUKX
DDJI
DDAX
DNKY
DBUX
DUKX
DDJI
DDAX
DNKY
DBUX
1,000
,486
,280
,468
,282
,000
,000
,000
,000
DUKX
,486
1,000
,477
,796
,284
,000
,000
,000
,000
DDJI
,280
,477
1,000
,542
,102
,000
,000
,000
,000
DDAX
,468
,796
,542
1,000
,270
,000
,000
,000
DNKY
,282
,284
,102
,270
1,000
,000
,000
,000
,000
,000
DBUX
DUKX
DDJI
DDAX
DNKY
Communalities
Initial
Extraction
1,000
,470
1,000
,776
1,000
,454
1,000
,794
1,000
,198
184
TBBVLTOZS ADATELEMZS
6.26. tblzat: 5 indexbl 1 vagy 2 komponens kpezhet
Total Variance Explained
Initial Eigenvalues
Component
Total
% of
Cumulative
Variance
2,691
53,830
53,830
,944
18,881
72,711
,651
13,029
85,740
,514
10,280
96,020
,199
3,980
100,000
Total
2,691
% of
Cumulative
Variance
53,830
53,830
Std. Deviation
Analysis N
RBUX
1,0006
,01703
2753
RUKX
1,0000
,01330
2753
RDJI
1,0001
,01299
2753
RDAX
1,0002
,01669
2753
RNKY
1,0000
,01594
2753
FAKTORELEMZS
185
Sig. (1-tailed)
RBUX
1,000
,506
,299
,468
,301
RBUX
RUKX
RDJI
RDAX
RNKY
RBUX
RUKX
RDJI
RDAX
RNKY
RUKX
,506
1,000
,488
,790
,295
,000
,000
,000
,000
,000
RDJI
,299
,488
1,000
,573
,119
,000
,000
,000
,000
,000
,000
,000
RDAX
,468
,790
,573
1,000
,260
,000
,000
,000
RNKY
,301
,295
,119
,260
1,000
,000
,000
,000
,000
,000
a. Determinant = ,161
1
2
3
4
5
Initial Eigenvalues
Original and Rotation Sums of Squared
% of
Cumulative
% of
% of
Cumulative
Total Variance
%
Total Variance Total Variance
%
2,732
54,639
54,639 2,732
54,639 2,358
47,156
47,156
,939
18,790
18,790 1,314
26,272
73,429 ,939
73,429
,634
12,680
86,109
,494
9,882
95,991
,200
4,009
100,000
RBUX
RUKX
RDJI
RDAX
Communalities
Initial
Extraction
1,000
,545
1,000
,782
1,000
,672
1,000
,821
1,000
,851
RNKY
Extraction Method: Principal
Component Analysis.
186
TBBVLTOZS ADATELEMZS
RBUX
RUKX
RDJI
RDAX
RNKY
2
,538
,331
-,073
,244
,922
FAKTORELEMZS
187
RBUX
RUKX
RDJI
RDAX
RNKY
Communalities
Initial
Extraction
,293
,412
,654
,737
,334
,378
,675
,877
,121
,252
7. Diszkriminancia elemzs
7.1. A diszkriminanciaelemz eljrs alapgondolata
Megfigyelseink sok esetben nem homognek, s mr elzetesen csoportokba
sorolva llnak rendelkezsnkre a vltozk mentn mrt rtkek. A csoportosts
szempontjai lehetnek a jvedelmi viszonyok vagy a fizetkpessg ppgy, mint az
iskolai vgzettsg, fldrajzi, terleti elv vagy ms szakmai megfontolsok.
Statisztikai megfontolsokbl a mintn belli eltrsek cskkentse rdekben
statisztika eljrsok alkalmazsval (pl. klaszterelemzssel) is csoportosthatjuk az
egyedeket.
Most azt vizsgljuk, hogy melyik vltoz milyen szerepet jtszik az adott, ismert
csoportostsban. Clunk az, hogy a megfigyelt p szm vltoz olyan lineris
kombinciit lltsuk el, amelyek a lehet legjobban elklntik a g szm
osztlyba tagolt mintt. Ha ez(ek) a diszkriminl fggvny(ek) nem kpes(ek) az
elre megadott feloszts teljes reproduklsra, akkor az eljrs megadja a
fggvny(ek) alapjn javasolt csoportostst.
2.
190
TBBVLTOZS ADATELEMZS
slyozzuk, kis eltrsek is szignifiknsnak tnnek, ha nagy a csoport mrete 107. Kis
mret csoportokra a lineris diszkriminl fggvny alkalmazhat akkor is, ha a
kovariancia mtrixok kiss eltrek. Ha a kovariancia mtrixok nem egyenlk de a
minta elg nagy akkor kvadratikus diszkriminancia fggvny alkalmazsa
ajnlhat. Ilyen vlasztst az SPSS nem tesz lehetv.
Ha csak kt osztlyunk van, azaz dichotom vltozval rhat le a csoportosts,
akkor a logisztikus regresszi alkalmazsa clravezet. E mdszernl ugyanis
kevesebb elfeltevst kell figyelembe vennnk. Ezt a mdszert az 5. fejezet
ismerteti.
Vegyes mrsi sklj adatok elemzsre szmos nemparametrikus mdszer ll
rendelkezsre, ilyenkor nem clszer diszkriminancia elemzst vgezni. Problmt
okoz az, hogy diszkrt vltozkra normlis eloszlst tteleznk fel, vagy az, hogy
ordinlis skln mrt vltozkra kovariancia nem szmthat.
Az indul adatok:
Ismerjk p szm vltoz terben a legalbb intervallum szinten mrt adatokat, s
egy tovbbi oszlopban szerepel a csoportostst megad nominlis vltoz. A
csoportok elemszma eltr lehet.
A matematikai httr:
Az ismert csoportostsbl kiindulva a tbbvltozs szrselemzs alapgondolatt
kvetjk. Elfeltevseink:
T = K + B , ahol T = X T X ,
(7.1)
n
i =1
107
= n.
Ha minden csoport elemszma kzel azonosan nagy, akkor ennek nincs torzt hatsa. A
sly szerepe akkor fontos, ha vegyesen vannak nagyon nagy s nagyon kismret
csoportjaink.
108
Ha tbbvltozs elemzst vgznk, akkor tlagvektorok s eltrs ngyzetsszeg mtrixok
rhatk fel, mretk (pxp).
DISZKRIMINANCIA ELEMZS
191
B = (ni 1) S i
(7.2)
i =1
y = Xc s c T c = 1
(7.3)
(7.4)
c T Kc
max
c T Bc
(7.5.a)
109
cT S p c = 1
192
TBBVLTOZS ADATELEMZS
T
Kc Bc = 0
(7.5.b)
( B 1 K E )c = 0
B
1
=
T
j =1 1 + j
k
(7.6)
Azt, hogy hny fggvny mentn van szignifikns klnbsg a csoportok kztt,
szksges-e mind a k kiszmthat fggvny az elklntshez, Bartlett nyomn khingyzet prbval teszteljk. Wilks lambdjt (7.7) szerint khi-ngyzet eloszlsv
transzformljuk. A nullhipotzis szerint a diszkriminl fggvny(ek) hatsa nem
szignifikns.
2 = ( n 1
112
g+p
) ln
2
Itt nem jelent kivlasztsi szablyt az, hogy a sajtrtkek egynl nagyobbak-e.
(7.7)
DISZKRIMINANCIA ELEMZS
193
A fggvnyegytthatk:
194
TBBVLTOZS ADATELEMZS
Teljes kovariancia
Display: itt adjuk meg azt, hogy mit krnk outputknt. Az sszegz
eredmnyek mellett ha nem tl nagy a minta , rdemes esetenknt
vizsglni a besorolst. Egy-egy elem kihagysval (n-1) megfigyelsre
elvgezve az osztlyozst szrevehetjk az eredmnyre jelents befolyst
gyakorol megfigyelseket.
o Casewise result
o Summary Table
o Leave-one-out-classification
Plots:
o Combined groups: egy brn mutatja az sszes csoport
kzppontjait s elemeit. (neve: All-groups scatterplot) 1
fggvny esetn hisztogramot rajzol.
o Separate groups: ahny csoport, annyi kln bra kszl. 1
fggvny esetn vltoznknt hisztogramot rajzol.
o Territorial map: a szrmaztatott trbeli trkpen szerepelnek a
csoporttlagok, a csoportokat jelz szmokbl kpzett vonalak
pedig elhatroljk a trrszeket egymstl. Csak kt vagy tbb
fggvny esetn kszthet.
DISZKRIMINANCIA ELEMZS
195
X2
2
1
1
3
0
-1
3
-2
-3
3
-4
-5
-5
-4
-3
-2
-1
X1
X1
-2
-1
-1
X2
-2
-4
196
TBBVLTOZS ADATELEMZS
CSOPORT
1
X1
X2
X1
X2
X1
X2
X1
X2
2
3
Total
Mean
-1,00
3,00
1,00
4,00
,00
-2,00
,00
1,67
Std.
Deviation
1,00
2,00
1,00
2,00
1,00
2,00
1,22
3,28
Valid N
(listwise)
Unweight
ed
3
3
3
3
3
3
9
9
X1
X2
Wilks'
Lambda
,500
,279
F
3,000
7,750
df1
df2
2
2
6
6
Sig.
,125
,022
F ( xi ) =
1 lambda n g SSK /( g 1 ) ,
=
lambda
g 1 SSB /( n g )
DISZKRIMINANCIA ELEMZS
197
Covariance
Correlati on
X1
X2
X1
X2
X1
1,000
-,333
1,000
-,167
X2
-,333
4,000
-,167
1,000
X1
1 ,0 00
-1 ,0 00
1 ,0 00
-1 ,0 00
1 ,0 00
1 ,0 00
1 ,5 00
,1 2 5
X2
-1 ,0 00
4 ,0 00
-1 ,0 00
4 ,0 00
1 ,0 00
4 ,0 00
,1 2 5
1 0, 75 0
a . T he t ot al c ov a ri an c e m at rix h a s 8 d eg re
113
198
TBBVLTOZS ADATELEMZS
1 1
= 3 , ebbl ln3=1,0986, az egyestett (poolozott) kovariancira
1 4
S1 =
pedig:
Sp =
1/ 3
1/ 3
8
= 3 , ennek termszetes alap logaritmusa 1,358.
9
CSOPORT
1
2
3
Pooled within-groups
Rank
2
2
2
2
Log
Determin
ant
1,099
1,099
1,099
1,358
M = [ S k
( nk 1) / 2
]/ S
( n g ) / 2
,ahol
k =1
S = (nk 1) S k /(n g )
k =1
n = nk
k =1
115
DISZKRIMINANCIA ELEMZS
199
Approx.
df1
df2
Sig.
1,557
,133
6
897,231
,992
Eigenvalue
2,867a
,904a
% of
Variance
76,0
24,0
Cumulativ
e%
76,0
100,0
Canonical
Correlation
,861
,689
A 7.7. tblzat utols oszlopban a kanonikus korrelci azt mri, hogy milyen
szoros az asszocici a kapott diszkriminancia rtkek (mint fgg vltozk) s a
csoportok kztt. Kiszmtsa s rtelmezse megegyezik az ANOVA-bl ismert
eta-ngyzet mutat gykvel, ahol eta-ngyzet a csoportok kztti s a teljes eltrs
ngyzetsszegek hnyadosa. Itt azt mri, hogy a diszkriminl score-ok
vltozkonysgt milyen arnyban magyarzza a csoportbesorols. Kzvetlen
200
TBBVLTOZS ADATELEMZS
2j =
j
,
1+ j
= 0,136
1 + 2,867 1 + 0,904
1
1. fggvnynlkl =
= 0,525
1 + 0,904
7.8. tblzat: Szignifikns fggvnyek kivlasztsa
Wilks' Lambda
Test of Function(s)
1 through 2
2
Wilks'
Lambda
,136
,525
Chi-squar
e
10,982
3,543
df
4
1
Sig.
,027
,060
2 = (9 1
2+3
) ln 0,136 = 10,98 szabadsgfoka: (2-0)(3-0-1)=4
2
2 = (9 1
2+3
) ln 0,525 = 3,543 szabadsgfoka: (2-1)(3-1-1)=1
2
DISZKRIMINANCIA ELEMZS
201
ezrt mondhatjuk, hogy az els fggvnyben a msodik vltoz hatsa ersebb, mint
az els vltoz, mg a msodik fggvnyben fordtott a helyzet.
7.9. tblzat: Sztenderdizlt diszkriminancia egytthatk
Standardized Canonical Discriminant Function Coefficients
Function
1
X1
X2
2
,386
,989
,938
-,224
x
x
y1 = 0,386 1 + 0,989 2
s2
s1
x
x
y 2 = 0,938 1 0,224 2
s
s2
1
Pldnkban s1 = 1,5 =1,2247 s s 2 = 10,75 = 3,2404 .
A vltozknak a diszkriminl fggvnyhez val hozzjrulst a sztenderdizlt
egytthatk mellett korrelcival is kifejezhetjk. A 7.10. tblzat elemei a
fkomponens elemzsnl megismert struktra mtrixhoz hasonlan a vltozk s a
dntsi fggvnyek kztti korrelcis egytthatk.
7.10. tblzat: Vltozk s fggvnyek korrelcii
Structure M atrix
Function
1
X2
X1
,925*
,221
2
-,380
,975*
202
TBBVLTOZS ADATELEMZS
0,386x1 +0,495x2 0,824 = 0
0,938x1 0,112x2 +0,187 = 0
,386
,495
-,824
,938
-,112
,187
Unstandardized coefficients
,472
1,622
,000
2
1,149
-,367
,000
Unstandardized coefficients
DISZKRIMINANCIA ELEMZS
203
1
,274
1,540
-1,813
2
-1,087
,677
,410
204
TBBVLTOZS ADATELEMZS
C ano nical D iscri m i nant F unct ions
2
2
3
C SO P OR T
-1
Function 2
G rou p Ce nt
3
-2
2
-3
1
-4
-3
-2
-1
F u n ctio n 1
CSOPORT
1
2
3
Total
Prior
,333
,333
,333
1,000
Cases Used in
Analysis
Unweight
ed
Weighted
3
3,000
3
3,000
3
3,000
9
9,000
DISZKRIMINANCIA ELEMZS
205
X1
X2
(Constant)
1
-,771
,686
-2,513
CSOPORT
2
1,371
1,114
-4,013
3
-,171
-,514
-1,613
P ( D Gi ) P (Gi )
g
P( D G ) P(G )
i =1
206
TBBVLTOZS ADATELEMZS
DISZKRIMINANCIA ELEMZS
15. tblzat: Megfigyelsenknti eredmnyek
207
208
TBBVLTOZS ADATELEMZS
Original
Count
Cross-validateda
Count
CSOPORT
1
2
3
1
2
3
1
2
3
1
2
3
Total
3
3
3
100,0
100,0
100,0
3
3
3
100,0
100,0
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 100,0% of original grouped cases correctly classified.
c. 77,8% of cross-validated grouped cases correctly classified.
DISZKRIMINANCIA ELEMZS
209
Ezt kveten lpsenknt egy tovbbi vltoz bevonsra vagy elhagysra kerl
sor, amelyek kivlasztsa az albbi elvek szerint trtnik.
1.
Fchange =
n g p 1 p +1 / p
g 1
p +1 / p
2
AB
116
Az F-eloszls kritikus rtkt a szmll (g-1) s a nevez (n-g) szabadsgi foka is
meghatrozza, ezrt a tblzatban tbb helyen tallhat 5%- mellett 3,8 krli rtk, pl. (g1)=4 s (n-g)=8, vagy g-1=2 s n-g=13. Nagyobb megfigyelsszm mellett cskken a kritikus
F-rtk.
117
Kt csoport esetben ez a lps kimarad.
210
TBBVLTOZS ADATELEMZS
c)
3.
F=
(n 1 p)n A n B
2
D AB
p (n 2)(n A + n B )
A Rao-fle V mutat 119 is a Mahalanobis tvolsgbl indul ki, de itt egyegy csoport tlagt viszonytjuk a ftlaghoz minden egyes modellbeli
vltoz mentn. Minl inkbb eltrnek csoporttlagok s a ftlag, annl
nagyobb Rao V-je.
p
i =1
j =1
k =1
V = ( n g ) wij ( x ik x i )( x jk x j )
118
DISZKRIMINANCIA ELEMZS
211
Fggetlen vltozk: x1: Kvta alapja (db), x2: Kvta alapjn kijellhet
maximum (db), x3: Knyszerrtkestsre kijellt (db), x4:
Kvtakihasznltsg (%)
212
TBBVLTOZS ADATELEMZS
DISZKRIMINANCIA ELEMZS
213
214
TBBVLTOZS ADATELEMZS
df1
df2
Sig.
,992
,180
95
,948
,942
1,461
95
,220
,942
1,457
95
,221
,388 37,478
95
,000
A lpsenknti bevlogats tbb szelekcis elv szerint kszthet el. Az els sikeres,
a feltteleknek eleget tev s statisztikailag jl rtelmezhet megolds megtallsa
azonban tbb elkszt lpst ignyel. A lpsek megadsa mellett kitrnk arra,
hogy milyen felttelek nem teljeslse tette szksgess az jabb lpseket. (Ez
termszetesen nem jelenti azt, hogy mindig ilyen s ilyen sorrendben vgrehajtott korrekcikra van szksg.)
1) Az eredeti vltozkat s t negyedvet hasznlva keressk a diszkriminl
fggvnyt. Ekkor a magas M rtk s az alacsony szignifikancia szint (0,000)
miatt a kovariancia mtrixok egyezsnek hipotzist el kell vetnnk.
Test Results
Box's M
F
Approx.
df1
df2
Sig.
324,382
7,359
40
19908,088
,000
DISZKRIMINANCIA ELEMZS
215
216
TBBVLTOZS ADATELEMZS
Ezzel a vltozkrrel a kovariancia mtrixok eltrse kisebb mrtk, a Boxfle M rtke hatodra cskkent, de mg elvetjk az egyezsket (szignifikancia
szint 0,002<0,05).
Test Results
Box's M
53,537
Approx.
2,076
df1
24
F
df2
24918,584
Sig.
,002
DISZKRIMINANCIA ELEMZS
217
Test Results
Box's M
7,743
,819
9
66191,846
,598
Approx.
df1
df2
Sig.
df1
df2
Sig.
Kvtakihasznltsg
,335
50,215
76
,000
lnkvalap
,987
,330
76
,803
lnkvmax
,986
,365
76
,778
lnkenyszer
,982
,459
76
,711
Variables Entered/Removed
Step
Entered
a,b,c,d
Wilks' Lambda
Statistic
df1
df2
df3
Exact F
Statistic
1
2
Kvtakihasznlt
sg
lnkvalap
df1
df2
Sig.
,335
3 76,000
50,215
76,000
,000
,146
3 76,000
40,383
150,000
,000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
218
TBBVLTOZS ADATELEMZS
7.20. tblzat: A kt fggvny s a 4 negyedv kztti kanonikus korrelci
Eigenvalues
Function
Eigenvalue
% of Variance
Cumulative %
Canonical
Correlation
1
2
5,808
99,9
99,9
,924
,005
,1
100,0
,068
Wilks' Lambda
Chi-square
df
Sig.
1 through 2
,146
146,130
,000
,995
,351
,839
DISZKRIMINANCIA ELEMZS
219
-,038
,999
,048
,997
-,053
,996
,584
,812
lnkenyszer
b
lnkvmax
Kvtakihasznltsg
Pooled
within-groups
correlations
between
discriminating variables and standardized canonical
discriminant functions
Variables ordered by absolute size of correlation
within function.
*. Largest absolute correlation between each
variable and any discriminant function
b. This variable not used in the analysis.
1,627
,062
-1,322
,950
A 7.24. tblzatban az eredeti vltozk terben is brzolhat sztenderdizlatlan dntsi fggvny egytthati kaptak helyet. Ezekbe a fggvnyekbe behelyettestve
a negyedveket jellemz tlagokat kapjuk a 7.25. tblzatban lthat centrum,
azaz tlagpontokat.
220
TBBVLTOZS ADATELEMZS
7.24. tblzat: A kt dntsi fggvny egytthati
Canonical Discriminant Function
Coefficients
Function
1
Kvtakihasznltsg
29,786
1,135
lnkvalap
-2,570
1,847
-,309
-16,455
(Constant)
Unstandardized coefficients
Function
1
2012. I. negyedv
2,263
-,092
2,414
,085
-2,035
,035
-2,642
-,028
DISZKRIMINANCIA ELEMZS
221
Negyed v
Megyk db
Szzalk
Classification Results
Predicted Group Membership
2012. I.
2012. II.
2012. III.
negyedv
negyedv
negyedv
10
10
0
8
12
0
0
0
14
0
0
9
50,0
50,0
,0
40,0
60,0
,0
,0
,0
70,0
,0
,0
45,0
Total
2012. IV.
negyedv
0
0
6
11
,0
,0
30,0
55,0
20
20
20
20
100,0
100,0
100,0
100,0
222
TBBVLTOZS ADATELEMZS
1. lps
2. lps
Wilks lambda
(min)
kvtakihasznltsg
lnkvtaalap
azonosan 58,8%
besorolt
Minimlis
Variancia
kvtakihasznltsg
lnkvtaalap
Mahalanobis
tvolsg(max)
kvtakihasznltsg
lnknyszer
F hnyados
(max)
kvtakihasznltsg
lnknyszer
Rao - V
58,8%
60%
60%
58,8%
kvtakihasznltsg
lnkvtaalap
Box-M s F teszt
fggvnyek egytthati
centrumpontok
120
8. Sokdimenzis sklzs
8.1. Az eljrs alapgondolata
A sokdimenzis sklzs (Multidimensional Scaling=MDS) a feltr mdszerek
csaldjba tartozik. Geometriai htterben az a feltevs ll, hogy a trben minden
megfigyelsnek megfelel egy pont, s a hasonlbb pontok kzelebb vannak
egymshoz. Az MDS alkalmazsakor nem fogalmazunk meg sztochasztikus
modellt, nem tteleznk fel oksgi kapcsolatot, nem lltunk fel tesztelend
hipotzist. A sklzssal az adatok kztt mrt klnbzsgekbl nyernk
informcit, szrmaztatunk koordintkat a sklatrkpen. Majd a szrmaztatott
koordintk
kztti
tvolsgokat
sszevetjk
az
eredetileg
ismert
klnbzsgekkel, s treksznk az eltrsek minimalizlsra. Az MDS elemzs
clja hasonl ahhoz, amit a fkomponens elemzsnl tznk ki: az objektumok
kztti eltrseket megrizve cskkentjk a tr dimenzijt, objektv sklt hozunk
ltre egy reduklt dimenzij trben.
Az indul adatok
A mtrixok szma s a mrsi skla szerint tbb modell ltezik.
A matematikai httr
A megfigyelt klnbzsgekbl MDS trbeli koordintkat szrmaztatunk, s a
koordintk kztt euklideszi tvolsgot szmtunk. Ismert, hogy n pont kztti
eltrseket (n-1) dimenziban tkletesen tudunk brzolni. A sklzs clja az,
121
224
TBBVLTOZS ADATELEMZS
brs = x rj x sj
ahol r, s = 1,,n
(8.1)
j =1
(8.2)
j =1
Miutn X-bl knnyen felrhat D, vizsgljuk meg a fordtott problmt. Tegyk fel,
hogy ismerjk a tvolsgok ngyzeteit, de nem ismertek a koordintk. Kt lpsben
oldjuk meg a feladatot, elszr B-t becsljk, majd B=XXT szorzatt bontjuk.
122
SOKDIMENZIS SKLZS
225
x
r =1
rj
d
r =1
2
rs
= tr ( B ) + nbss ,ebbl
bss = d rs2 / n tr ( B ) / n = d r2 tr ( B ) / n
(8.3)
d
s =1
n
2
rs
d
r =1 s =1
2
rs
(8.4)
(8.5)
= 2 ntr( B )
brs =
1
(brr + bss d rs2 )
2
brs =
1 2
1 2
(d r + d 2s d 2 d rs2 ) =
(d rs d r2 d 2s + d 2 )
2
2
(8.6)
(8.7)
226
TBBVLTOZS ADATELEMZS
i v i = X ai
(8.8)
126
127
SOKDIMENZIS SKLZS
227
adatmtrixban n>5p, mert ekkor a (p*p) mret XTX dekompozcija jelent kisebb
feladatot.
Tvolsg
Becslt tv.
128
228
TBBVLTOZS ADATELEMZS
tvolsgok
Monoton regresszi
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
8.1. bra: A klnbzsgek rangsorhoz illeszked tvolsgok
S = ( d rs d rs ) 2 / d rs2
r <s
r <s
1/ 2
(8.9)
129
130
SOKDIMENZIS SKLZS
229
SCALING
lpseket
kvetve
A nyit oldalon elszr azt kell megadni, hogy 1) az input tvolsgmtrix, vagy 2)
az (nxp)-s X megfigyelsi mtrixbl szmtjuk a tvolsgot:
1) Data are distances
Ha tvolsgmtrixbl indulunk, akkor a mtrix alakjrl is informcit kell adnunk,
mert a tvolsgmtrix lehet
230
TBBVLTOZS ADATELEMZS
SOKDIMENZIS SKLZS
231
232
TBBVLTOZS ADATELEMZS
kapunk, nagyobb rtk megadsval rvidebb a szmtsi id. Zrus
megadsval 30 itercis lpst hajt vgre az SPSS.
SOKDIMENZIS SKLZS
233
2) A koordintk
A vetleteket megkapjuk hrom dimenziban, de sajnos kzvetlenl a ments
nem lehetsges.
Configuration derived in 3 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1
2
3
Number
Name
1
1,2151 1,1148 ,2766
2
,3576 ,8341 1,2442
3
1,7544 -,3214 -,1385
4
,9237 -1,0688 -,2229
5
,6276 2,9403 ,0390
6
1,0598 -,6098 -,7026
7
,6630 -,8249 -,2454
8
-,3203 -1,5557 1,2401
9
-,8091 -,9016 1,2216
10
1,1973 ,0522 -1,0767
11
-,4442 1,1190 -,6994
12
,6089 1,2245 ,8052
13
,6436 -,1807 ,0765
14
,5090 -,3929 ,6542
15
,6622 -,6255 -,1427
16
,9285 -,8751 -,1241
17
,5104 -,0429 ,0703
18
,0396 -,0856 -,2694
19
-,8464 -,7769 -1,1336
20
-1,4968 1,1220 -,4716
21
-1,9283 ,0073 -,5381
22
-2,8726 ,1205 ,6089
23
-2,9831 -,2731 -,4715
234
TBBVLTOZS ADATELEMZS
3) Az iterci lpsei
A ktdimenzis iterci is a harmadik lpsben ll meg.
Iteration history for the 2 dimensional solution (in squared distances)
Young's S-stress formula 1 is used.
Iteration
1
2
3
S-stress
,16331
,14217
,14173
Improvement
,02114
,00044
SOKDIMENZIS SKLZS
14
15
16
17
18
19
20
21
22
23
VAR14
VAR15
VAR16
VAR17
VAR18
VAR19
VAR20
VAR21
VAR22
VAR23
,4737
,5610
,7986
,4160
,0301
-,8319
-1,2869
-1,6589
-2,4946
-2,5737
235
-,3509
-,4893
-,7019
-,0153
-,0453
-,8313
,9575
,0195
,1221
-,2187
5) Csoporttrbeli bra
Dimenzinknt kapjuk a csoporttrbeli brkat. Itt csak a ktdimenzis trkpet
mutatjuk be. Feliratozst nem lehet vlasztani, a megfigyelseket mindig
sorszmokkal azonostjuk (8.2. bra).
1
case 22
case 23
Dimension 2
case 12
case 2
case 1
case 11
case 21
case 19
case 9
case 10
case
case 18
case1713
case 3
case 14
case 15
case 6
case
7
case 16
case 4
-1
case 8
-2
-3
-2
-1
Dimension 1
236
TBBVLTOZS ADATELEMZS
Az brn is lthat, hogy nem tkletes az illeszkeds, mert eredetileg relatve tvol
lev pont-pr (disparits=2) nagyon kzel kerlt a sklatrkpen (distance= 0,1). A
hromdimenzis megolds pontdiagramjn a tvolsg-prok szinte tkletesen a 45
fokos egyenesen fekszenek. (8.3. bra)
Distances
0
-1
Disparities
134
SOKDIMENZIS SKLZS
237
d ijk
r
2
= ( y iks y jks )
s =1
1/ 2
y jks = wks x jk ,
d ijk
r
2
= wks (xis x js )
s =1
1/ 2
w
s =1
2
ks
= Rk2
238
TBBVLTOZS ADATELEMZS
a Modell gomb alatt kell jelezni, hogy tbb azonos mret mtrixunk van,
ezrt egyni klnbsgeket sklzunk,
Stress
RSQ
,214
,803
,044
,988
,076
,970
Matrix Stress
RSQ
2
,146
,935
4
,134
,934
6
,234
,699
135
SOKDIMENZIS SKLZS
Stress = ,15664
239
RSQ = ,88810
Az illeszkeds jsgra adott korbbi minstst itt nem alkalmazzuk, mert a kzs
trben nem vrunk el az egyes rgiktl j illeszkedst. Hrom lps utn mr nem
javul jelentsen az illeszkeds. Rginknt nzve a 3. trsgben kivl, az 5.
trsgben j az illeszkeds.
A vgs Stress (0,15664) nem a rgis clfggvnyek tlaga, az R-ngyzet (0,8881)
viszont az egyes csoportok mrszmainak egyszer szmtani tlaga, teht a 89%
azt jelenti, hogy tlagosan j az illeszkeds.
2) Koordintk a kzs trben
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus
1
2
1
URBAN
-1,0130 -1,4641
2
LIFEEXPF
,9989 ,2403
3
LIFEEXPM 1,0010 -,1126
4
LITERACY -,9869 1,3364
Ezek alapjn kszl el a kzs trben az bra, amelybl az egyedi slyok gykvel
szorozva az egyedi terekben a vltozk brzolhatk.
3) Az egyedi slyok s a weirdness (W) index
Subject Weights
Subject Weirdness Dim 1 Dim 2
1
,6807 ,8741 ,1980
2
,9029 ,9649 ,0652
3
,7561 ,2130 ,9709
4
,0843 ,7641 ,5914
5
,7032 ,2554 ,9510
6
,0709 ,6557 ,5184
Overall importance of each dimension:
,4699
,4182
w
k =1
2
k1
/6
w
k =1
2
k2
/6
240
TBBVLTOZS ADATELEMZS
lltunk el:
v ks = wksn / ( wksn ) 2
s =1
1/ 2
WI = (cos 1 r 1 / 2
] v
r
s =1
ks
) /(cos 1 ( r 1 / 2 ))
SOKDIMENZIS SKLZS
241
rgik slyait. Az tlagos sly rgi most nulla-kzeli F-slyt kap, az els tengelyt
preferlkhoz nagy pozitv, a msodik tengelyt kiemelkhz pedig nagy negatv
slyt rendel az eljrs.
5) brk az INDSCAL-ban
a) Csoport trben lthatk a vltozk (8.4. bra) vagy a megfigyelsek.
1,0
,5
avera ge fema le li fe
avera ge mal e life ex
0,0
Dimension 2
-,5
-1,0
-1,5
-1,5
-1,0
-,5
0,0
D im ensio n 1
,5
1,0
1,5
242
b)
TBBVLTOZS ADATELEMZS
A
eltren
rgik
slyozzk
az
egyes
tengelyeket
(8.5.
bra).
1,0
,8
4
,6
Dimension 2
,4
1
,2
2
0,0
,2
,4
,6
,8
1,0
D i m e n sio n 1
1,3
1,0
,8
,5
4
6
,3
0,0
Variable 1
-,3
-,5
-,8
-1, 0
-1, 3
-1, 5
-,6
5
3
-,4
-,2
-,0
,2
,4
,6
SOKDIMENZIS SKLZS
243
b.
c.
d.
b.
c.
d.
Forrsok
Carol Alexander (2007): Market Models, A Guide to Financial Data Analysis, John
Wiley&Sons, Ltd
Chatfield, C. And Collins, A. J. (2000): Introduction to Multivariate Analysis,
Chapman & Hall/CRC, Boca Raton st al., (Reprint, First edition 1980)
Csendes Tibor (2001): Bevezets a szmtgpes statisztikba, Novadat, Szeged
Fsts Lszl Meszna Gyrgy Simonn Mosolyg Nra (1997): Trstatisztika,
Aula Kiad, Budapest
Fsts Lszl Kovcs Erzsbet Meszna Gyrgy Simonn Mosolyg Nra
(2004, 2007): Alakfelismers. Sokvltozs statisztikai modellezs a
trsadalomtudomnyokban jMandtum Kiad, Budapest
Green, Samuel B. Salkind, Neil J. Akey Theresa M. (2000): Using SPSS for
WINDOWS. Analyzing and Understanding Data, Prentice Hall International (UK)
Ltd, London (Second Edition)
Hajdu Ott (2003): Tbbvltozs statisztikai szmtsok, KSH, Budapest
Horvai Gyrgy (2001): Sokvltozs adatelemzs (Kemometria), Nemzeti
Tanknyvkiad, Bp.
Hunyadi Lszl (2001): Statisztikai kvetkeztetselmlet kzgazdszoknak, KSH,
Budapest
Hunyadi Lszl Mundrucz Gyrgy Vita Lszl (1997): Statisztika, AULA
Kiad, Budapest (II. kiads)
Jobson, J. D. (1992): Applied Multivariate Data Analysis, Volume I & II, SpringerVerlag, New York et al. (Second Edition)
Johnson, Dallas E. (1998): Applied Multivariate Methods for Data Analysts, Duxury
Press, Pacific Grow (California)
FORRSOK
245
Ketskemty Lszl Izs Lajos Knyves Tth Eld (2011): Bevezets az IBM
SPSS Statistics programrendszerbe, 3. kiads, Artria Stdi Kft, Budapest
Krzanowski, W. J. (2000): Principles of Multivariate Analysis. A Users
Perspective, Oxford University Press, Oxford (Revised Edition)
Maindonald, J.-Braun, W. J. (2008): Data Analysis and Graphics. Using R- an
Example-Based Approach, 2nd Edition, Cambridge Press
Norusis Maria, J. [SPSS Inc.] (1994): SPSS Professional Statistics 6.1., SPSS Inc.,
Chicago
SPSS Inc. (1998): SPSS Base 8.0. Applications Guide, SPPS Inc., Chicago
Szkelyi Mria Barna Ildik (2002): Tllkszlet az SPSS-hez. Tbbvltozs
elemzsi technikkrl trsadalomkutatk szmra, Typotex Kiad, Bp.