Download as pdf or txt
Download as pdf or txt
You are on page 1of 253

TBBVLTOZS ADATELEMZS

Jegyzetek s pldatrak a matematika egyetemi oktatshoz


sorozat

Algoritmuselmlet
Algoritmusok bonyolultsga
Analitikus mdszerek a pnzgyben s a kzgazdasgtanban
Analzis feladatgyjtemny I
Analzis feladatgyjtemny II
Bevezets az analzisbe
Complexity of Algorithms
Differential Geometry
Diszkrt matematikai feladatok
Diszkrt optimalizls
Geometria
Igazsgos elosztsok
Introductory Course in Analysis
Mathematical Analysis Exercises I
Mathematical Analysis Problems and Exercises II
Mrtkelmlet s dinamikus programozs
Numerikus funkcionlanalzis
Opercikutats
Opercikutatsi pldatr
Parcilis differencilegyenletek
Pldatr az analzishez
Pnzgyi matematika
Szimmetrikus struktrk
Tbbvltozs adatelemzs
Variciszmts s optimlis irnyts

Kovcs Erzsbet

TBBVLTOZS
ADATELEMZS

Budapesti Corvinus Egyetem


Typotex
2014

c 20142019, Dr. Kovcs Erzsbet, Budapesti Corvinus Egyetem, Operci


kutats s Akturiustudomnyok tanszk

Lektorlta: goston Andrea


ISBN 978 963 279 243 9
Kszlt a Typotex Kiad (http://www.typotex.hu) gondozsban
Felels vezet: Votisky Zsuzsa
Mszaki szerkeszt: Hajabcs Enik
Kszlt a TMOP-4.1.2-08/2/A/KMR-2009-0045 szm,
Jegyzetek s pldatrak a matematika egyetemi oktatshoz cm projekt
keretben.

KULCSSZAVAK: Adatelemzs, tbbvltozs matematikai statisztika, trsadalmi s gazdasgi adatok elemzse, SPSS alkalmazsok, elemi statisztikk,
statisztikai tblk, kereszttbla, tanul algoritmusok, klaszterelemzs, regressziszmts, logisztikus regresszi, fkomponens elemzs, faktoranalzis,
diszkriminanciaanalzis, tbbdimenzis sklzs, sajtrtk-sajtvektor feladatok megoldsa.
SSZEFOGLALS: A kzgazdasgi kpzsben a Tbbvltozs adatelemzs
s a Tbbvltozs statisztikai modellezs c. trgyak hallgatinak kszlt jegyzet az elemzsi mdszerek matematikai httrnek s az alkalmazs elfeltteleinek bemutatsa utn az SPSS-ben elvgezhet elemzs technikjt s
a mintapldk eredmnyeinek rtelmezst trgyalja. Az alapok ismertetse
sorn kitrnk az adatok elksztsre is. Vals gazdasgi, pnzgyi s
demogrfiai adatok elemzse mellett egyszer szmpldkkal is illusztrljuk
az elemzsi munka buktatit. Az elemi statisztikai mdszereket kveten ismertetjk a statisztikai tblzs lehetsgeit, majd sorba vesszk a pnzgyi terleten hasznlt legfontosabb tbbvltozs adatelemz mdszereket: a
klaszterezst, a lineris s logisztikus regresszi elemzst, a diszkriminanciaanalzist, a faktorok keresst s a tbbdimenzis sklzst lehetsgeit.
A tananyaghoz kapcsold adattblk letlthetk innen:
https://www.typotex.hu/index.php?page=ELTE%20TTK

Tartalom
Bevezets............................................................................................... i
1. Ler s feltr adatelemzs .......................................................... 2
1.1. A vltozk mrsi sklja ................................................................... 2
1.2. Ler statisztikk kivlasztsa az adatok mrsi sklja alapjn ........ 4
1.3. Ler statisztikk kiszmtsa s rtelmezse ..................................... 8
1.4. Az extrm pontok s az almintk statisztikai elemzse .................... 13
1.5. A normalitsvizsglat numerikus s grafikus mdszerei .................. 19
1.5.1. Kolmogorov-Szmirnov prba
19
1.5.2. Shapiro-Wilk W mutat
20
1.5.3. Grafikus normalits vizsglat
21
1.6. Idsoros adatok statisztikai elemzse ............................................... 24

2. Kategrik s kereszttblk elemzse ........................................ 30

2.1. Kategrik ellltsa ....................................................................... 30


2.2. Kereszttbla ksztse s elemzse ................................................... 35
2.2.1. Matematikai-statisztikai httr
35
2.2.2. Kereszttbla elemzs megvalstsa az SPSS-ben:
37
2.2.3. 1. mintaplda
41
2.2.4. 2. mintaplda
43

3. Klaszterelemzs ............................................................................ 49
A klaszterez eljrsok csoportostsa
49
3.1. Hierarchikus klaszterezs ................................................................. 50
3.1.1. Tvolsgi s hasonlsgi mrtkek
51
3.1.2. sszevon eljrsok
55
3.1.3. Dendrogramok rtkelse, sszehasonltsa
56
3.1.4. Az sszevon algoritmus lpseinek kvetse egy mintapldn... 57
3.2. Nem-hierarchikus klaszterezs ......................................................... 61
A k-kzppont klaszterezs rtelmezse kt f krdst vet fel.............. 61
3.3. A klaszterelemzs eredmnynek rtkelse .................................... 62
3.4. A megvalsts lpsei az SPSS-ben ................................................ 64
3.4.1. Hierarchikus klaszterezs
64
3.4.2. Nem-hierarchikus klaszterezs, k-kzppont eljrs
65
3.5. Teleplsek klaszterezse ................................................................. 66

4.Tbbvltozs regressziszmts ................................................. 82

4.1. Az adatok ttekintse, elzetes megfontolsok ................................ 83


4.2. A regresszi matematikai httere...................................................... 87
4.3. A vltozk kztti korrelci mrse s szerepe a regresszis
modellben ................................................................................................ 89
4.4. rdemes-e tbb vltozt egyidejleg bevonni a regresszis
modellbe?................................................................................................. 90
4.5. A vltoz szelekcit megvalst lpsenknti regresszi ............... 92
4.6. A magyarz vltozk kztti korrelci, a multikollinearits ........ 93
4.7. Az egyedi megfigyelsek hatsa a becslsre .................................... 95
4.7.1. A becslst befolysol pontok feltrsa
95
4.7.2. Hibatagok ellltsa s elemzse
97
4.7.3. A becslst befolysol tvoli pontok feltrsa, kihagysi dnts99
4.8. A megvalsts lpsei az SPSS-ben .............................................. 101
4.9. A szmtsi eredmnyek bemutatsa .............................................. 102
4.10. sszefoglals: A bemutatott modell illeszkedsnek minstse . 115
4.11. nll elemzsi feladatok............................................................. 116
4.12. Megoldsok................................................................................... 117

5. Logisztikus regresszi ................................................................ 126


5.1. A logit modell s az indul adatok ................................................. 127
5.2. A logit modell paramtereinek becslse ......................................... 128
5.3. A logit modell illeszkedsnek jsga ............................................ 131
5.4. A logit modell illesztse az SPSS-ben ............................................ 133
5.5. LOGIT modell illesztse................................................................. 134
5.6. Mintamodell a lemorzsoldsra ...................................................... 139
5.7. A modellvlaszts grafikus eszkze ............................................... 145
5.8. Tovbbi logisztikus modellek ......................................................... 146

6. Faktorelemzs ............................................................................. 148


6.1. A fkomponenselemzs .................................................................. 149
6.1.1. A fkomponens elemzs matematikai httere
150
6.1.2. A megvalsts lpsei az SPSS-ben
154
6.1.3. A PCA eredmnyek bemutatsa s rtelmezse
159
6.2. A faktorelemz mdszercsald tovbbi eljrsai............................ 165
6.2.1. A faktorelemzs modellje
166
6.2.2. A PAF eredmnyek bemutatsa s rtelmezse
168
6.3. A faktorelemzs tovbbi kihvsai.................................................. 174
6.3.1. Abszolt s relatv mutatk elemzse
174
6.3.2. Ktdimenzis megolds rtelmezse, brzolsa
176

ii

6.4. Idsorok faktorelemzse ................................................................. 182


6.4.1. Differencik faktorelemzse
182
6.4.2. Tzsdehnyadosok faktorelemzse
184

7. Diszkriminancia elemzs ............................................................ 189


7.1. A diszkriminanciaelemz eljrs alapgondolata............................. 189
7.2. A diszkriminancia elemzs alkalmazsnak felttelei .................... 189
7.3. A diszkriminancia elemzs szmtsi lpsei ................................. 193
7.4. Az eredmnyek rszletezse, rtelmezse ...................................... 195
7.5. A vltozk lpsenknti bevonsval vgzett diszkriminancia
elemzs .................................................................................................. 208
7.6. Plda a szelekcis kritriumok alkalmazsra ................................ 211
7.7. Egyni munkra javasolt tovbbi feladatok .................................... 222

8. Sokdimenzis sklzs ............................................................... 223


8.1. Az eljrs alapgondolata ................................................................. 223
8.2. Koordintk meghatrozsa klasszikus sklzssal........................ 224
8.3. Ordinlis sklzs ........................................................................... 227
8.4. A megvalsts lpsei az SPSS-ben .............................................. 229
8.5. Az eredmnyek rszletezse, rtelmezse ...................................... 232
8.6. Az egyni klnbsgek sklzsa (INDSCAL) .............................. 236
8.7. Az INDSCAL megvalstsa az SPSS-ben .................................... 238
8.8 nll elemzsi feladatok................................................................ 243

Forrsok........................................................................................... 244

iii

Bevezets
A jegyzet a Tbbvltozs adatelemzs s a Tbbvltozs statisztikai modellezs
cm trgyak hallgati szmra kszlt, s a flves kurzus sorn trgyalt fbb
mdszereket ismerteti.
Adatokkal minden szakember tallkozik, s az adatokbl kinyerhet informci
rtke felbecslhetetlen. A szemlyi szmtgpek elterjedsvel npszerv vltak
a tbbvltozs statisztikai mdszerek, kzlk is elssorban a feltr elemzsek. A
statisztikai szoftverek knnyen s gyorsan vgzik el a krt elemzst, a megfelel
adatok kivlasztsa, a korrekt alkalmazs, valamint az eredmnyek rtelmezse, a
kvetkeztetsek levonsa idt s odafigyelst ignyel. Nem haszontalan Winston
Churchill egy mondst idzni:
The only statistics you can trust are those you falsified yourself.
A jegyzet nyolc fejezete hrmas tagols:

a matematikai httr bemutatsa, az alkalmazs elfelttelei,

az SPSS-ben elvgezhet elemzs technikja s

a mintaplda eredmnyeinek rtelmezse kvetik egymst.

A matematikai alapok ismertetse sorn kitrnk az adatok elksztsre is. Az


SPSS 20.0 vltozatn alapul az elemzsi lehetsgek bemutatsa, s a futtats
belltsa mellett egy-egy mintaplda eredmnytblit is megadjuk. A jegyzetben
vals gazdasgi, pnzgyi s demogrfiai adatok elemzse mellett egyszer
szmpldk is szerepelnek, amelyek az elemzsi buktatkra hvjk fel a figyelmet.
Az elemzsi lncok lehetsge, a mdszerek kombinlt alkalmazsa terjedelmi
okokbl nem kerlt be az rott anyagba.
Az elz flvekben sok hallgatval dolgoztam egytt a trgyak keretben.
rdekldsk, sszegyjttt adataik s elemzseik sokat segtettek abban, hogy
elkszljn a jegyzet. Nv szerint is ksznm goston Kolosnak, Csicsman
Jzsefnek s Kovcs Eszternek, hogy figyelmesen elolvastk, javt tleteikkel
gazdagtottk az anyagot. Minden, a szvegben maradt esetleges hiba s
pontatlansg arra vr, hogy a kurzus hallgati jelezzk nekem!
A lektor munkjt s a TMOP ltal nyjtott tmogatst kln is ksznm.
Budapest, 2013. szeptember

Kovcs Erzsbet

1. Ler s feltr adatelemzs


A tbbvltozs adatelemzs alapja az adat, ami a szmtgpes elemzs rdekben
mtrixba rendezett. Szoksos elrendezse szerint soraiban talljuk a megfigyelseket, s az oszlopok tartalmazzk a megfigyelseken mrt vltozkat. Ezrt a
tbbvltozs adatelemzs mdszerei kztti vlaszts eltt clszer az adattbla
tartalmt, kitltttsgt ttekinteni.
Kezd lpsknt a bevont vltozkat egyenknt vizsgljuk meg. Szksg lehet a
mrsi sklk belltsra, st nha a sklk transzformcijra, az eloszlsokra
vonatkoz elfeltevsek ellenrzsre.
A vltozk jellemzinek feltrsa mellett a megfigyelt rtkekre is fordtsunk
figyelmet. A hinyz adatok ptlsa, a kilg egyedek feltrsa, esetleg kiszrse is
az elemzs elkszt szakaszban trtnik. A megfigyelt rtkek csoportokra
bontsa, valamely kategria szerinti almintk vizsglata is ebben a szakaszban
vgezhet el. Az alapos, krltekint ler s feltr elemzssel a tbbvltozs
adatelemz munknk sikert alapozzuk meg.

1.1. A vltozk mrsi sklja


Az adatok szerzse, gyjtse tbb mdon trtnhet, ezrt nem mindig mi hatrozzuk
meg a vltozk mrsi skljt. De az elemzsek megkezdse eltt t kell tekinteni,
hogy melyik vltoz milyen skln van mrve, hiszen statisztikai mutatszmokat is
a mrsi szint szerint kell vlasztani.
Elmleti megfontolsok alapjn ngyfle mrsi szintet 1 klnbztetnk meg,
amelyeket az egyszerbbtl a bonyolultabbak fel haladva ismertetnk. Kvalitatv
(minsgi) sklnak nevezzk sszefoglalan a nominlis s az ordinlis sklkat.
Kvantitatv (mennyisgi) skla az intervallum s az arnyskla.

Nominlis skln mrnk, ha csak megklnbztetst jeleznek a szmok


vagy a betk. Ilyenkor ltalban nem is egyrtelm, hogy egy-egy
kategrit mivel jellnk. A nominlis skln bell megklnbztetnk
ktrtk (dichotom) s tbb kategribl ll vltozkat.
o

A frfi-n megklnbztetsre a 0-1, az 1-2, de az F-N is teljesen


megfelel.

Ugyangy pldul a budapesti kerleteket is azonosthatjuk arab


vagy rmai szmokkal is. Ilyenkor az egyms utni szmok nem
adnak informcit arrl, hogy melyik kerlet jobb vagy rosszabb,
st a szomszdos szmok sem jelentenek hasonlsgot.

Tovbbi pldk tallhatk itt: http://en.wikipedia.org/wiki/Level_of_measurement

LER S FELTR ADATELEMZS


o

Az irnytszmok, a telefonszmok, rendszmok stb. mind


nominlis szinten mrt adatok.

Ordinlis skln mrt adat mr preferencit is jelez. Kt megfigyels


esetn az egyenl, (leg)nagyobb vagy (leg)kisebb informcit is ltjuk a
vltozkhoz rendelt szmokbl. A szmok kztti klnbsg azonban nem
rtelmezhet. Itt is hasznlhatunk ktrtk (dichotom) s tbb
kategribl ll vltozkat. Ktrtk ordinlis vltoz mutatja pl. a
megfelelt-nem felelt meg, az igaz-hamis, egszsges-beteg kategrikat.
Tbb kategrira szmos plda adhat.
o

Az letkorokat gyakran tves korcsoportokban hasznljuk, ha a


tnyleges kor ismerete nem ad tbb informcit, vagy tl kevs
megfigyelsnk van egyedi adatok elemzshez.

A teleplseket megadhatjuk gy, hogy 1=500 f alatti falu,


2=500-1000 f kztti falu, 3=1000-2000 kztti telepls, s gy
tovbb. A laknpessg ltszma szerinti kategrikat hasznljuk
a tnyleges ltszm megadsa/ismerete nlkl.

A jvedelemsvok, a gpjrmvek teljestmny kategorik is


ordinlis adatot jelentenek, hiszen a szmok kztt aritmetikai
mvelet nem rtelmezhet.

Betkkel megadott ordinlis sklt is ismernk, pl. klfldi


egyetemeken A-F kztt osztlyoznak, vagy az orszgkockzatra,
tzsdei cgek minstsre is gondolhatunk.

A krdves vizsglatokban leggyakrabban pratlan (5,7,..) fok


ordinlis skln lehet a vlaszokat megadni. Ilyenkor a szmok
mellett szvegesen is szerepel a vlasz: 1: teljesen nem rt egyet,
2: nem rt egyet, 3: nincs vlemnye, 4: egyetrt, 5: teljesen
egyetrt.

Intervallum skln mrt adatok kztt mr eltrst is szmolunk s


rtelmeznk. Az intervallum hossza a kt megfigyels kztti eltrst
tkrzi.
o

Ha az idjrst Celsiusban mrjk, akkor az tlaghmrsklet


vltozst jellemezni tudjuk.

A fizetsek vagy a hitelsszegek ismeretben az tlagos rtkek s


az tlagtl val eltrsek kiszmtsa mellett akr a kt vltoz
kztti kapcsolatot is jellemezni tudjuk.

Az egyetemi vizsgadolgozatok pontozsa is intervallum szint


adatot jelent. Ebbl kategria hatrokat kijellve ordinlis szinten
mrt osztlyzatot kpeznk.

Tbb minst cg 0-100 kztti pontszmmal, azaz intervallum


skln rtkeli az orszgkockzatot.

TBBVLTOZS ADATELEMZS

Az arnyskla specilis intervallumskla, amelyen mrt adatok kztt


kitntetett nulla pont is van, s kt megfigyels arnya is rtelmezhet,
nemcsak a klnbsgk.
o

A testmagassg s a testsly egyarnt arnyskln mrt vltozk.

Az letkor is arnyskln mrhet, hiszen a szlets pillanathoz


nulla letv tartozik.

A Kelvin fokban mrt hmrskletnek is van abszolt nulla foka,


ez a -273.15 Celsius.

Napokban, hnapokban, vekben mrt tartamokat (befektets,


hitel, letbiztosts jellemzsre) is arnyskln mrnk.

Ha csak egy-egy vltozt elemznk, akkor is fontos a mrsi szint pontos ismerete.
A mrsi szintnek megfelel ler statisztikai mutatk kivlasztshoz az 1.2.
alfejezet ad tmutatst.
A tbbvltozs elemzsek tbbsgkben azonos mrsi sklt ignyelnek. Ennek
rdekben gyakran skla-transzformcit hajtunk vgre, ami fel- s lertkels is
lehet. Magasabb szint sklra ttrni csak tbblet informci birtokban lehet.
A skla lertkelse, a klnbsgek helyett kategrik kialaktsa sokszor hasznosan
tmrti az informcit. A kategria kpzs hatkony mdjt a 2 fejezet ismerteti.
A knyv tovbbi fejezeteiben bemutatunk majd ms skla-transzformcis
lehetsgeket is.

1.2. Ler statisztikk kivlasztsa az adatok mrsi sklja alapjn


Ler statisztikt ksztnk, ha nem lltunk fel s tesztelnk hipotzis(eke)t, csak a
vltozk s a megfigyelsek jellemzse a clunk. Leggyakrabban kzponti rtket
vagy szrdsi jellemzt szmtunk, az eloszls alakjt mutatjuk be numerikus
s/vagy grafikus eszkzkkel. Vizsglhatjuk a teljes adatllomnyt egytt, vagy
rszekre tagolva is.
Az SPSS-ben az Analyze/Descriptive Statistics menpont alatt tallunk hrom
eljrst, amelyek tbb mutat:

A Frequencies funkci vlasztsval a nominlis s ordinlis vltozk


kategriihoz tartoz gyakorisgok listzsa vlik lehetv. Tovbb
gyakorisgokat s relatv gyakorisgokat is megad brkat is kszthetnk
itt. Emellett tetszleges skln mrt adatokat is elemezhetnk, mert
minden statisztikai mutatt felajnl ez a menpont is vlasztsi
lehetsgknt.

A Descriptive funkci az intervallum vagy arny sklj vltozk


lersra, jellemzsre csak numerikus statisztikkat szmol. Itt krhetjk
s menthetjk el a vltozk sztenderdizlt rtkeit.

LER S FELTR ADATELEMZS

Az Explore 2 funkcit vlasztjuk, ha almintkat is feltteleznk, vagy egy


kategriakpz nominlis/ordinlis vltoz szerint tagoljuk a
megfigyelseket, s intervallum vagy arnyskln mrt vltoz(k)ra ler
statisztikt ksztnk. A feltrs elnevezs arra utal, hogy ez az elemzs
megelzi pl. a kt minta tlagnak egyezsre vonatkoz hipotzis
megfogalmazst, a normalitsi teszt elvgzst, stb.

Mindegyik eljrs megengedi, hogy egyszerre tbb vltozt vlasszunk ki, s ezek
mindegyikre elvgzi az sszes ltalunk krt mveletet. Ezrt clszer egyszerre
csak azonos mrsi szint vltozkat felsorolni, gy csak a szakmailag korrekt
eredmnyeket lltjuk el.
Az 1.1. tblzatban sszefoglaljuk azt, hogy melyik SPSS menpontban tallhatk
meg a ler statisztika eszkzei a mrsi sklk szerinti bontsban. A magasabb
szint mrsi sklkon az elz sklkhoz rendelt eljrsok mindig alkalmazhatk.
D jelli a Descriptive, F a Frequency s E az Explore funkcit.
1.1. tblzat: Elemzsi clokat megvalst funkcik
Cl / Skla

Nominlis

Kzponti
tendencia

Mdusz F, E

Szrds

Eloszls numerikus

Ordinlis

Intervallum/arny

Mdusz F,E
Medin F, E
Minimum,
Maximum F,D,E
Terjedelem F,D,E

tlag F,D,E

Gyakorisg,
relatv gyakorisg
Interkvartilis
F
terjedelem E

Szrs, variancia,
sztenderd hiba F,D,E

Ferdesg,
cscsossg F,D,E
Normalitsi teszt E

Eloszls grafikus

Gyakorisgra
oszlop- s
krdiagram F

Stem&leaf E

Hisztogram F, E
boxplot E

A legfontosabb ler statisztikai mutatkat rviden ttekintjk, s a kpleteket is


megadjuk.

Az Explore nemcsak almintk sszehasonltsra alkalmas. Egyetlen homogn


minta esetben a Descriptive-vel azonos eredmnyeket ad, tovbb nyesett
tlagot is szmol.

TBBVLTOZS ADATELEMZS

Mean: szmtani tlag,

x=

1 n
xi , ahol n a megfigyelsek szma
n i =1

(1.1)

Az elmleti vrhat rtk (m) ltalban nem ismert. rtkt az (1.1) szerint
szmtott mintabeli tlaggal ( x ) helyettestjk.

Range: terjedelem= maximum-minimum

Variance: szrsngyzet, a sokasgban: 2 , ennek mintabeli becslse s2 s gyke


a szrs, s. A szrs angol neve standard deviation, rviden: Std. dev.

s2 =

( x

x )2

(1.2)

n 1

Std.Error: az tlag sztenderd hibja:

vagy becslse

(1.3)

n
1
(xi m )3

Skewness: ferdesgi mrtk, kplete: 1 = n


3

A ferdesg negatv rtke balra hosszan elnyl eloszlst, a pozitv rtke pedig
jobbra elnyl eloszlst jelez. Ha nulla kzeli a mutat, akkor szimmetrikus az
eloszls. (De itt ne csak a normlis eloszlsra gondoljunk, mert az U alak
eloszls is szimmetrikus.)
A ferdesg variancija =

6 n(n 1)
. E variancia gyke: SE ( 1 )
(n 2 )(n + 1)(n + 3)

szerepel standard error elnevezssel az eredmnyeket bemutat 1.2. tblban.

A ferdesg torztatlan becslse

1 =

n xi x

(n 1)(n 2)s 3

(1.4)

A nullhipotzis szerint a ferdesg=0. A ferdesgi mutat s a sztenderd hiba


hnyadost hasonltjuk az (n-1) szabadsgi fok Student eloszls kritikus
rtkhez.
A ferdesghez tartoz t-teszt kplete: t = 1

SE ( 1 )

(1.5)

LER S FELTR ADATELEMZS

1
(xi m )4

Kurtosis: cscsossg, mrszma: 2 = n


, rtke sztenderd normlis
4

eloszls esetben = 3. Ezt levonva kzvetlenl (2 - 3) alakban kapjuk a mutatt


az SPSS-ben. Ms gpi programok ezt kurtosis excess nven adjk meg.
A cscsossg variancija =

)[ ( )]

4 n 2 1 SE 1
(n 3)(n + 5 )

. E variancia gyke szerepel

standard error elnevezssel az 1.2. tblzatban.


A cscsossgi mutat torztatlan becslse:

n(n + 1) xi x 3(n 1) xi x
4

(n 1)(n 2 )(n 3)s 4

)]

2 2

(1.6)

A cscsossgi mutat s a sztenderd hiba (SE ( 2 )) hnyadost hasonltjuk az (n1) szabadsgi fok Student eloszls kritikus rtkhez. A cscsossgi mutathoz
tartoz t-prba kplete: t = 2

SE ( 2 )

(1.7)

A pozitv cscsossg a normlis eloszls srsgfggvnynl hosszabb, vastagabb


farok rszt, a kzponti rtk krli tmrlst vagy mindkettt jelezheti. A negatv
rtk lapult eloszlsra utal, amelynek a haranggrbnl rvidebb, vkonyabb farok
rsze van, s kzpen sem srsdnek a megfigyelsek.
A lapultsg minimlis rtke 2, mert a ferdesg s a cscsossg mrtke kztt
fennll a kvetkez egyenltlensg: cscsossg (ferdesg2 2)
A ferdesg csak az egyik oldalon, a cscsossg a mindkt oldalon elfordul extrm
rtkek elfordulst jelezheti. Az extrm, outlier megfigyelsek nagy hatssal
lehetnek az tlagra s a szrsra, ezrt rdemes grafikusan (pldul hisztogramon) is
megnzni a vltozk alakjt.
A mintatlag ferdesge: 1 / n s cscsossga: 2 / n . A mintanagysg
nvelsvel cskken a ferdesg, s mg gyorsabban cskken a cscsossg.
Van nhny egyszer, de hasznos nagysgrendi sszefggs a ler statisztikk
kztt, amire itt felhvjuk a figyelmet.

Szimmetrikus eloszls esetn az tlag=medin=mdusz, mg eltrsk


ferde eloszlsra utal.
Pozitv ferdesg az eloszls, ha mdusz<medin<tlag, s negatv
ferdesg, ha tlag<medin<mdusz ll fenn.
A medin kevsb rzkeny az adathinyra s a szls rtkekre, mint
az tlag.
A terjedelem kzeltleg a szrs ngyszerese.

TBBVLTOZS ADATELEMZS

Az SPSS nem szmol relatv szrst, amely a szrs s az tlag hnyadosa. A


Csebisev egyenltlensgen alapul hvelykujj szably alapjn magas a szrs, ha ez
az arny meghaladja a kettt. Ez arra utal, hogy az adatrendszerben tbb alminta
lehet, ezek feltrst grafikus mdszerekkel rdemes elvgezni.
A pnzgyi adatokban ltalban a szrs a kockzat mrtke, a biztostsban pedig a
relatv szrs mri a kockzatot. A relatv szrs alkalmazst indokolja az is, hogy
gy a klnbz mrtkegysget kikszbljk, teht pl. klnbz valutanemben
kifejezett vltozk szrsa is gy vethet ssze.
Ha egy vltoznak nagy a szrsa, akkor ez a vltoz mentn megvalsthat
nagyobb szeparcis kpessget jelzi. Az alacsony szrs az tlag krl
koncentrld (ltalban cscsos eloszls) megfigyelsekre utal.
A Descriptive a sztenderdizlt z-score vltozk elmentst is lehetv teszi.
A zrus tlag s egysgnyi szrs j vltoz ferdesge s cscsossga nem
vltozik meg.

zx =

xx
s

(1.8)

Normlis eloszls (s/vagy nagy minta) esetn a kzponti hatreloszls ttel alapjn
a sztenderdizlt vltoz z x =
pedig

xm

standard normlis eloszls lesz, kis mintra

s/ n

(n-1) szabadsgfok Student t-eloszlst kvet.

Tbb rv szl a vltozk sztenderdizlsa mellett. A mrtkegysg kikszblse,


az ismert tlag s szrs klnsen akkor hasznos, ha tbbvltozs elemzst
vgznk, azaz egyszerre tbb vltozt hasznlunk.
A fejezet vgn vjuk az olvast attl, hogy brmely programcsomagot
mechanikusan alkalmazzon. A szrs mintbl trtn becslsekor az SPSS-ben (n1) szerepel a nevezben, akr kicsi a minta, akr nagy. A cscsossgi mutatbl
elzetes figyelmeztets nlkl levonja az SPSS a sztenderd normlis eloszlsra
jellemz hrmat. Az R-ben pedig a >range(x) menpont nem a terjedelmet adja meg,
hanem a minimum s a maximum rtkeket rja ki egyms mell.

1.3. Ler statisztikk kiszmtsa s rtelmezse


A szmtsi eredmnyeket a megismtelhetsg rdekben az SPSS mintapldk
kztt tallhat World95.sav adathalmazon mutatjuk be, amely 109 orszg adatait
tartalmazza. Az els lpsben a frfiak s nk vrhat lettartamra kszltek
szmtsok. Ezek az informcik a befektetsi dntsek, pl. az letjradk s
klnsen a nyugdj szmtshoz fontosak. Br nem szerepel az adat nevben, ezek
a szletskor vrhat lettartamok, s a kt nemre szmolt tlagok kztt a vilg

LER S FELTR ADATELEMZS

minden orszgban eltrs van. Az 1.2. tblzatban a Frequency-ben ksztett


rszeredmnyek lthatk.
Hinyz adat nincs erre a kt vltozra, a medin termszetesen megegyezik az
50%-os percentilissel, s figyelmeztetst kapunk, hogy tbb mdusz a nk vrhat
lettartamt mr vltoz. A negatv ferdesg a hisztogramon (1.1. bra) is lthat,
teht a magasabb vrhat lettartam rtkek a gyakoribbak. Az (1.4) szerinti
ferdesgre szmolt (1.5)-beli t-teszt rtke -5 krli, azaz minden szoksos
szignifikancia szint mellett elvethet, hogy szimmetrikus az eloszls, hisz rtke
nem nulla. A cscsossg/lapultsg rtke nem tr el szignifiknsan a zrustl,
mindkt nemre a t-teszt kisebb, mint egy. Nem koncentrldnak teht tlzottan a
vrhat lettartamok az tlag krl. Az lettartamok sszege (Sum) nem hordoz
lnyegi informcit.
A percentilisek s a kvartilisek alapjn megllapthat az lettartam eloszlsok tbb
jellemzje. rdekes az, hogy a legalacsonyabb letkilts 10 szzalknyi
npessgnl 2 vnyi lettartam eltrst kaptunk, mg a legfels 10 %-ban mr 6 v a
nk javra a klnbsg.
1.2. tblzat: Frequency-ben ellltott eredmnyek
Statistics

Valid
Missing

Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Sum
Percentiles

10
20
25
30
40
50
60
70
75
80
90

Average
female life
expectancy
109
0
70,16
1,01
74,00
75a
10,57
111,76
-1,109
,231
,213
,459
39
43
82
7647
52,00
59,00
66,50
68,00
70,00
74,00
76,00
78,00
78,00
79,00
80,00

a. Multiple modes exist. The smallest value is shown

Average
male life
expectancy
109
0
64,92
,89
67,00
73
9,27
85,98
-1,080
,231
,336
,459
35
41
76
7076
50,00
57,00
61,00
63,00
65,00
67,00
69,00
71,00
72,50
73,00
74,00

10

TBBVLTOZS ADATELEMZS

Average male life expectancy


20

Frequency

10

Std. Dev = 9,27


Mean = 64,9
N = 109,00

0
40,0

42,5

45,0 47,5

50,0 52,5

55,0

57,5 60,0

62,5 65,0

67,5 70,0

72,5

75,0

Average male life expectancy

1.1. bra: Hisztogram s a normlis eloszls srsgfggvnye


Az 1.3. tblzatban a Descriptive-ben ellltott valamennyi rszeredmnyt
bemutatjuk. rtkeik termszetesen megegyeznek azokkal, amiket a Frequency-ben
kaptunk, csak elrendezsk ms. Itt is tbb vltoz krhet egyszerre, de statisztikai
sszehasonltst most sem vgznk.
Azt a szembetn klnbsget, ami a frfiak s a nk vrhat lettartama kztt
lthat, a konfidencia intervallumok sszevetsvel vagy t-prbval lehet tesztelni.
1.3. tblzat: Ler statisztikk
Descriptive Statistics

N
Range
Minimum
Maximum
Sum
Mean
Std. Deviation
Variance
Skewness
Kurtosis

Statistic
Statistic
Statistic
Statistic
Statistic
Statistic
Std. Error
Statistic
Statistic
Statistic
Std. Error
Statistic
Std. Error

Average female
life expectancy
109
39
43
82
7647
70,16
1,01
10,57
111,762
-1,109
,231
,213
,459

Average male
life expectancy
109
35
41
76
7076
64,92
,89
9,27
85,984
-1,080
,231
,336
,459

Valid N (listwise)
109

LER S FELTR ADATELEMZS

11

Az (1.8) szerinti sztenderdizls nem csak a mrtkegysg kiszrse miatt hasznos,


hanem az sszehasonltst is segti. A pozitv rtkek tlag feletti, a negatvok pedig
tlag alatti eredeti rtket jeleznek. Ezeket kt vagy tbb vltoz mentn egyszerre
is lthatv tudjuk tenni egy pontdiagramon (Scatter plot), ahogy ezt az 1.2. bra
mutatja. Mivel behztuk az tlagokat jelz koordinta tengelyeket, a ngy sk
negyedben jl tudjuk jellemezni az orszgokat. Az els sk negyedben a mindkt
vltoz szerint tlag feletti rtkkel rendelkez orszgokat ltjuk. Magyarorszg s a
szomszdos orszgok a harmadik negyedben helyezkednek el, azaz az egy fre jut
GDP s a npessg nvekedse szerint is tlag alatti rtkek jellemeztk trsgnket
1995-ben.
Az is szembetn az 1.2. brn, hogy negatv eljel, br nem teljesen lineris a kt
vltoz kapcsolata, s kevs olyan orszg van, ahol mindkt vltoz az tlag felett
van.
rdemes figyelni arra is, hogy az eredeti adatokban a GDP/f vltoz terjedelme s
szrsa jval nagyobb, mint a npessg nvekeds szzalkos adatnak terjedelme.
A sztenderdizlt vltozk terben a terjedelem ppen fordtott nagysgot mutat,
mikzben mindkt tlag 0 s a szrsok egysgnyiek, ahogy ez az 1.4. tblzatban
lthat.
1.4. tblzat: Az eredeti s a sztenderdizlt vltozk jellemzi
Descriptive Statistics
Std.
N
Population increase (% per

109

Minimum Maximum
-,3

Mean

Deviation

5,2

1,682

1,1976

2,97072

,000

1,000

year))
Zscore: Population increase

109 -1,65535

(% per year))
Gross domestic product /

109

122

23474

5859,98

6479,836

109

-,88551

2,71828

,000

1,000

capita
Zscore: Gross domestic
product / capita
Valid N (listwise)

109

12

TBBVLTOZS ADATELEMZS

1.2.bra: Orszgok a sztenderdizlt vltozk terben

LER S FELTR ADATELEMZS

13

Hzi feladat: Bizonytand


a)

Az eredeti s a sztenderdizlt vltozk ferdesge s cscsossga


megegyezik.

b)

Normlis eloszls alapsokasg esetben az s s a


fggetlenek, ezrt korrelcijuk zrus.

c)

Tetszleges eloszls esetn az s s a


korrelci=

2 +2

n xm

n x m kt tag kztti

, ez a normalitstl val eltrst is jelzi.

1.4. Az extrm pontok s az almintk statisztikai elemzse


Kt vltoz statisztikai jellemzinek sszevetse, az egyedi, extrm rtkek
azonostsa s az adatllomnyban lev almintk, kategriavltozk (factor) mentn
kpzett csoportok vizsglata az Explore menpontban vgezhet el. Az itt ellltott
(az 1.2. s 1.3. tblzattal megegyez) eredmnyeket nem mutatjuk be ismt, csak
azokat, amiket tbbletknt kapunk.
a) Konfidencia intervallum (1-) megbzhatsgi szinten:

x t / 2 ,( n 1 )

s
n

kplettel szmolhat. A megbzhatsgi intervallum szlessgt a sztenderd hiba


mellett a t-statisztika is befolysolja. A megfigyelsszm nvekedsvel cskken
mind a sztenderd hiba, mind a t-rtk, teht nagyobb mintban szkebb
intervallumot kaphatunk.
A nk vrhat lettartamra az als s fels hatr: 68,15-72,16 v, a frfiak adataira
63,16-66,68 v addik. A kt intervallum nem fedi t egymst, ezrt a megfelel
tesztek elvgzse nlkl 3 is mondhatjuk, hogy jelents, statisztikailag szignifikns
az eltrs.
b) Trimmed mean, azaz nyesett tlag: a nagysg szerint sorba rendezett
megfigyelsek kzps 90 szzalkra szmtott tlag. A rendezett minta kt vgn
5-5%-ot elhagyunk. Szimmetrikus eloszls esetn a kznsges s a nyesett tlag
megegyezik. Nem normlis eloszls s extrm rtkek elfordulsa esetn az gy
szmtott tlag rtelmezse javasolt. A vrhat lettartam adatokra a frfiak esetben
65,59, a nknl 70,96 a nyesett tlag. Mindkt eloszls ersen balra ferde, ezrt a
nyesett tlag nagyobb, mint a kznsges szmtani tlag.
A nyesett tlag szmtsnak kt vltozata van:

gy a tesztels elfeltteleit sem kell ellenrizni. A normlis eloszls pldul a ferdesg


miatt nem ll fenn.

14

TBBVLTOZS ADATELEMZS

Ha a nyess sorn (0,05n) egsz, akkor ennyi megfigyelst hagyunk el, s a


fennmarad rtkek egyszer sszege a nyesett tlag szmllja. A
nevezben pedig (0,9n) ll.

Ha (0,05n) nem egsz szm, akkor k s (k+1) egszek kz esik. Az els k


s az utols k darab megfigyelst elhagyja a gp, a (k+1)-edik elem s az
(n-k)-adik elem slya pedig a zrjelben ll kt tag minimuma lesz:
min(k+1-0,05n; 0,05n-k) a szmtani tlag szmtsakor. A kztes
megfigyelsek slya egy.

c) A centrumtl tvoli megfigyelsek slyozsa M-esztimtorok alkalmazsval is


trtnhet. (Nem elhagyjuk a tvoli rtkeket, hanem cskken slyt adunk nekik.)
Az M-esztimtorok rvn becslt korriglt tlagokltalban az tlag s a medin
kz esnek, nem rangsorolhatk, nem mondhat meg, hogy melyik a jobb.
Az esztimtorok kpzse a helyzeti kzp (T) becslse utn kvetkezik. A helyzeti
kzepet az albbi egyenlet megoldsval kapjuk:
k

f (
i =1

xi T
) = 0 , ahol fi a gyakorisg, s szrs s pratlan fggvny.
s

Az egyenlet msik alakja:


k

( u )
xi T xi T

= 0 , ahol( u ) =
s s
u

f
i =1

A gyakorisgokkal szorzunk, hogy T kifejezhet legyen:


k

xi xi T
T
s

f s
i =1

f
s

xi T
=0
s

trendezve T az x adatok slyozott tlaga:

Tk +1 =

xi Tk
)
s
x Tk
f i ( i
)
s

f x (
i

Ltjuk, hogy T csak itercival adhat meg, a Tk+1 kifejezhet a Tk bl. T0-t
nem adja meg az SPSS lersa, de ez az rtk ltalban a medin.
Az iterci lell, ha
i) Tk +1 Tk 0 ,005
ii) k>30.

Tk +1 + Tk
vagy
2

LER S FELTR ADATELEMZS

15

A helyzeti kzptl val eltrsbl rezidulist kapunk. A rezidulis szmllja a


medintl val eltrs, mg a nevezje a minta medinjtl val abszolt
rtkes eltrsek medinja.

ui =

xi T
xi Medin( x )
=
s
Medin xi Medin( x )

Az (u) fggvny - mint sly - a rezidulis nagysghoz kapcsoldik. Az


SPSS-ben a sly megvlasztsra elrhet c1)-c4) eljrs a kidolgozirl kapta
a nevt.
c1) Huber esztimtorban:

1,
ha ui 1,339
ha ui > 1,339
(1,339 / ui ) sgn(ui ),

(ui ) =

Itt 1,339-tl vltoz eljellel cskken, eltte pedig 1 a sly.


c2) Tukey kt slyt hasznl. A 4,685-nl nagyobb abszolt rtk,
sztenderdizlt rezidulisra 0 slyt ad, a kisebbekre pedig a centrumtl val
tvolsggal fordtott arnyos a sly.

( u i ) = 1 (

ui 2
) , ha u i 4 ,685 ,
4 ,685

0 klnben

c3) Hampel slyfggvnye 4 szakaszbl ll:

( ui )

= 1, ha az ui1,7

a)

A sly

b)

( u i ) =

1,7
sgn( u i ) , ha a 1,7<ui 3,4
ui

c)

( u i ) =

1,7 8 ,5 u i
sgn( u i ) , ha a 3,4<ui8,5

u i 8 ,5 3 ,4

d) Ha pedig az ui >8,5 akkor a sly = 0.


c4) Andrews szinusz fggvnyt javasolt, ebben nincs trs.
A sly

( u i ) =

ui
1,34
) , ha ui1,34* (~4,2).
sin(
1,34
ui

16

TBBVLTOZS ADATELEMZS

1.5. tblzat: A korriglt tlagok szmtsa


M-Estimators
Huber's Ma

Estimator
Average female

Tukey's
Biweight

Hampel's Mb

Estimator

Andrews'
Wave

73,06

74,51

73,09

74,55

66,85

67,30

66,44

67,33

life expectancy
Average male life
expectancy

a. The weighting constant is 1,339.


b. The weighting constant is 4,685.
c. The weighting constants are 1,700, 3,400, and 8,500
d. The weighting constant is 1,340*pi.

A negatv ferdesg miatt mindkt vltozra mind a ngyfle korriglt tlag


meghaladja a szmtani tlagot, st a nyesett tlagot is. A nk vrhat lettartamnak
minden M-esztimtora magasabb a 95%-os konfidencia intervallum fels hatrnl,
mg a frfiakra szmolt Hampel-fle rtk beleesik a konfidencia intervallumba.
Az lettartambecsls pontossga azrt kiemelten fontos, mert a fejlett orszgokban
ez a mutat folyamatosan emelkedik. Kt megllaptst tehetnk ebben a
szakaszban:
-

rdemes vrl vre friss adatokat gyjtve megismtelni a szmtsokat.


Clszer a fejlett s a fejld orszgokat kln csoportban vizsglni, hogy
homognebb almintink legyenek.

d) Interquartile range: interkvartilis (bels) terjedelem, a fels kvartilis (75%) s


az als kvartilis (25%) kzti klnbsg: IQR=Q3 Q1 , s ez a doboz diagram (boxplot) doboznak magassgt adja meg.
A vrhat lettartamokra 1.3. brn lthat a kzs doboz-diagram, eredeti nevn
Box-plot. A doboz kzepn lev vonal a medin, a dobozban a megfigyelsek 50%a tallhat. A doboz alja: az els kvartilis: Q1 , teteje a fels kvartilis: Q3.
Felfel s lefel addig hzzuk a vonalat, amg az albbi kett kzl az els
bekvetkezik:

LER S FELTR ADATELEMZS


-

elrjk a tnyleges maximumot vagy minimumot,

fel/lemrjk az interkvartilis terjedelem 1,5-szerest.

17

A fenti tartomnyon kvl es megfigyels outlier (jele: o).


A kilg (Outlier) pontok tartomnya:
alul: Q1 3IQR; Q1 1,5IQR
fell: Q3 +1,5IQR; Q3 +3IQR
A hromszoros interkvartilis terjedelemnl tvolabbi megfigyelsek az extrm
pontok (jelk:*):
alul: x Q1 3IQR
fell: x Q3 +3IQR
Br az lettartam kvartilisek eltrek, klnbsgnk mindkt nemre 12 v, ezrt a
dobozok magassga azonos. Az eloszlsok ferdk, ezrt a vonalkk hossza felfel s
lefel eltr. Az outlier orszgok szmmal vagy nvvel rathatk ki. Itt csak lefel
vannak kilg nagyon alacsony vrhat lettartam orszgok melyeket az
orszgnv-cmkk azonostanak. Az 1.3. brba behztuk a frfi medin letkort (67
v). Szembetn, hogy a nk als kvartilise is a frfi-medin vonal felett van. Azaz
az orszgok 75%-ban tovbb lnek a nk 67 vnl, mg a frfiaknl csak 50% ez az
arny.

1.3. bra: Doboz diagram 2 vltozra

18

TBBVLTOZS ADATELEMZS

e) Az extrm rtkek listja minden vltozra az 5 legnagyobb s az 5 legkisebb


megfigyelst sorolja fel akkor is, ha ezek nem valban kilg pontok. Az extrm
listt ssze kell vetni a box-plottal vagy a stem&leaf brval, hogy a tnyleges bels
tvolsgokrl meggyzdhessnk.
f) A Stem&leaf bra a gyakorisgokat adja meg, s felsorolja az egyes
osztlyokban 4 elfordul rtkeket. A megfigyelt rtk utols szmjegye a levl
(leaf). Errl az brrl pldul azonnal megllapthat, hogy a 75 ves kor mellett a
nk msik mdusza a 78, mert mindkett 9-9 orszgban fordul el. (1.4. bra)
Nagyobb minta esetben egy-egy levlke tbb (egymshoz kzeli) esetet jelkpez. A
minimum vagy maximum eltti szakadst, s a terjedelmen belli res kategrikat
is lthatjuk egy ilyen brn. is lthatjuk egy ilyen brn.
Average female life expectancy Stem-and-Leaf Plot
Frequency

Stem &

9 Extremes

Leaf

(=<50)

5 .

223

5 .

455

5 .

77

5 .

88889

6 .

6 .

455

6 .

677777

6 .

8888899

7 .

000001

7 .

222333

14

7 .

44444555555555

11

7 .

66666777777

16

7 .

8888888889999999

14

8 .

00000001111111

8 .

222

Stem width:
Each leaf:

10
1 case(s)

1.4. bra: Stem-and-leaf gyakorisgi bra


4

Ordinlis skln mrt adatok is megjelenthetk gy.

LER S FELTR ADATELEMZS

19

Hzi feladat: Bizonytandak az albbi lltsok:

A nyess hatsra a vltoz szrsa biztosan cskken.


A nyess utn az tlag lehet azonos, kisebb, st nagyobb is, mint az eredeti
adatok tlaga.

1.5. A normalitsvizsglat numerikus s grafikus mdszerei


A normalits vizsglatnak kt mutatszmt, a ferdesg s a cscsossg
mrszmait mr ismertettk az 1.2. alfejezetben. Mindkettre nullhipotzist
lltottunk fel, s t-teszttel vizsgltuk a normlis eloszlstl val eltrs mrtkt.
Br az SPSS nem szmolja, a ferdesg s cscsossg rszeredmnyeinek
ismeretben knnyen meghatrozhat Jarque-Bera normalits tesztje 5, ha a
mintbl becslt ferdesg (4) s cscsossg (6) ngyzeteit sszegezzk az albbiak
szerint, ahol n a minta mrete:

JB =

n 2 1 2
1 + 2
6
4

A JB teszt hasznlata csak nagy minta 6 esetn ajnlott, s a JB rtkt a khi-ngyzet


eloszlssal vetjk egybe. A teszt szabadsgi foka kett, hisz kt ngyzetszmot
adunk ssze.
Eredmnyeink alapjn (JB_frfi= 21,702 s JB_n=22,549) mindkt vltozra el
kell vetni a normalitsi feltevst, hiszen a khi-ngyzet kritikus rtke 5,99 (ha a
szabadsgi fok=2 s p=0,05)
Ha a minta elg nagy, akkor 2 prbt vgezhetnk annak a hipotzisnek a
tesztelsre, hogy a vltoz normlis eloszlst kvet. Az SPSS kt normalits tesztet
szmol a ler statisztikk kztt. A Shapiro-Wilks tesztet rtkeljk n<50-re,
nagyobb mintra a Kolmogorov-Szmirnow teszt szmtott rtke alapjn
kvetkeztetnk.

1.5.1. Kolmogorov-Szmirnov prba


Itt az empirikus eloszls fggvny s a normlis eloszls sszevetst gy vgezzk,
hogy a sokasgi vrhat rtket s a szrst is a mintbl becsljk. Ezt a vltozatot
Lilliefors 1967-ben javasolta.
Az

adatokat

standardizljuk: z (i )
5

nagysg

szerint

sorba

rendezzk,

majd

= x(i ) x s . Ehhez a z-hez tartoz sztenderd normlis

konometribl is ismert lehet a JB teszt: Jarque, Carlos M. s Bera, Anil K. (1980).


"Efficient tests for normality, homoscedasticity and serial independence of regression
residuals". Economics Letters 6 (3): 255259.
6
Mivel 109 adatbl dolgozunk, alkalmazhat a J-B teszt.

20

TBBVLTOZS ADATELEMZS

eloszls fggvnyrtke: (z (i)). Az empirikus eloszlsfggvny lpcss fggvny,


0 s 1 kztt i/n rtket vesz fel.
gy Di=i/n-(z

(i))eltrsek

maximuma, max Di lesz a teszt fggvny rtke.


i

Szabadsgi foka n, azaz a megfigyelsek szma.


A nem-parametrikus 7 prbk blokkjban is kszthet egymints K-S teszt, de ott a

max Di helyett
i

n max Di addik.
i

1.5.2. Shapiro-Wilk W mutat


Az SPSS ltal kzlt msik tesztet Shapiro s Wilk publiklta 8 1965-ben. Itt is a
nvekv sorba rendezett x(i) adatokbl indulunk ki. A W mutat szmlljban lev
slyokat (a vektor) a sorba rendezett adatok tlaga (m vektor) s kovariancia mtrixa
(V) alapjn hatrozzuk meg. A teszt szabadsgi foka a megfigyelsek szma.

1.6. tblzat: Normalits prbk


Tests of Normality
a

Kolmogorov-Smirnov
Statistic

df

Sig.

Shapiro-Wilk
Statistic

df

Sig.

Average female life


expectancy

,174

109

,000

,860

109

,000

Average male life


expectancy

,164

109

,000

,882

109

,000

a. Lilliefors Significance Correction

A nem-parametrikus prbk nem valamely eloszlst jellemz paramter becslt rtkt


tesztelik.
8
Shapiro, S. S.- Wilk, M. B. (1965). "An analysis of variance test for normality (complete
samples)". Biometrika 52 (3-4): 591611. A Biometrika folyirat nagyon sok, statisztikai
szempontbl jelents rst jelentetett meg. Az ELTE Knyvtrban olvashatk is a rgi
jsgok.
7

LER S FELTR ADATELEMZS

21

Az 1.6. tblzat alapjn mindkt vltozra elvetjk a normalitsi feltevst 9, mert a


K-S teszt empirikus szignifikancia szintje mindkt vltozra kisebb, mint 0,05.

1.5.3. Grafikus normalits vizsglat


Grafikus normalits vizsglatot 10 is kapunk az Explore-bl Q-Q plot nven. Ez a
kvantilisek 11 brja, innen kapta nevt, azaz a Q-Q-t. Ha a vzszintes tengelyen az
letkort, a fgglegesen pedig a sztenderd normlis eloszls u vltozjt brzoljuk,
akkor az

xx x x
) = transzformci utn a normlis eloszls
u = 1 (
s s s

vltoz rtkei a 45 fokos egyenes mentn helyezkednek el, vagy az tl krl


vletlenszeren szrdnak.
Ha a normalitsi feltevs helyes, csak a paramterekben tvedtnk, akkor az egyenes
helyzete ms lesz.
Ha a normalits nem teljesl, amint ez az 1.5. brn is lthat, akkor a pontok
szisztematikusan trnek el az egyenestl.
A frfiak vrhat lettartama a tesztek alapjn sem kvetett normlis eloszlst.
Nagyon alacsony tlagletkorban jval tbb orszgban halnak meg, mint ami a
normlis eloszls alapjn vrhat lenne. 60 krli vrhat lettartamot kevesebb
orszgban ltunk, s 75 fltt ismt magasabb a megfigyelt, mint a vrt gyakorisg.
A Q-Q brhoz megkapjuk a felttelezett s a megfigyelt eloszls eltrst mutat
vltozatot is, melynek neve: Detrended Q-Q, s a 1.6. brn lthat.

Az 1.1.brn a hisztogramot ltva biztosak lehettnk a dntsben, szinte felesleges volt a


teszt.
10
Ajnlott olvasmny a tmhoz Hunyadi Lszl cikke a 2002. januri Statisztikai
Szemlben.
11
A kvantilisek kztt a legismertebbek a msodrend kvantilis= medin, a
negyedrend=kvartilisek, a tized-rendek, azaz a decilisek, s a szzadrendek, a
percentilisek.

22

TBBVLTOZS ADATELEMZS

1.5. bra: Grafikus normalits vizsglat Q-Q brn

1.
6. bra: A normlis eloszlstl val eltrs brja

LER S FELTR ADATELEMZS

23

Ha az a clunk, hogy normlis eloszlsv transzformljunk egy ferde eloszls


vltozt, akkor tbb lehetsg kzl vlaszthatunk.

Szba jhet a szls, extrm rtkek elhagysa. Ez akkor igazn hasznos,


ha kevs ilyen adatunk van, s ezek tvol vannak a megfigyelsek
tbbsgtl.

A pozitv ferdesg mutatk logaritmlsa vagy az adatokbl val


gykvons ajnlott, ez legtbbszr hatkonyan orvosolja a problmt.

A pnzgyi mutatk, a biztostsi sszegek s ms jvedelem-adatok eredenden


pozitv ferdesgek, mert a kisebb rtkek elfordulsa gyakoribb. A szls rtkek
elhagysa alapos megfontolst ignyel a pnzgyi elemzsekben. Egy klnsen
nagy sszeg hitelt felvev ads vagy egy hatalmas krt bejelent biztostott
adatainak elhagysa az egsz szmts rtelmt megkrdjelezheti!
A Transform / Compute Variable menpontban megtalljuk az aritmetikai
fggvnyek kztt mind a tzes alap, mind a termszetes alap logaritmust.
A WORLD95.sav-ban szerepl mutatk kzl egy fre jut GDP pozitv ferdesg
(1,146, s st. hibja 0,231) ezrt transzformljuk. A GDP/f tzes-alap logaritmust
tartalmazza az adatllomny, ezrt most az e-alap logaritmust, az ln(gdp)-t
ksztjk el. Ha sszevetjk a kt transzformlt vltozt, akkor mindkett a
szimmetrikushoz kzelebbi eloszlst kvet, ferdesgk azonosan -0,243 s a
sztenderd hiba 0,231.
A K-S teszt alapjn mr nincs elegend bizonytkunk arra, hogy a normalitst 5%os valsznsgi szinten elvessk a 1.7. tblzat szerint, mg a kismints W mutat
tovbbra is elvetn a normalitsi feltevst.
1.7. tblzat: A logaritmls hatsa a tesztekre
Tests of Normality
Kolmogorov-Smirnova
Statistic

df

Sig.

Shapiro-Wilk
Statistic

df

Sig.

Gross domestic product / capita

,204

109

,000

,800

109

,000

Log (base 10) of GDP_CAP

,085

109

,053

,950

109

,000

Lngdp (base e)

,085

109

,053

,950

109

,000

a. Lilliefors Significance Correction

24

TBBVLTOZS ADATELEMZS

Hzi feladat: Bizonytand, hogy az x adatsorra ksztett log10(x) s az ln x tlaga


s szrsa eltr, de a kt adatsor ferdesge s cscsossga megegyez lesz.

1.6. Idsoros adatok statisztikai elemzse


Az adatelksztshez tartoz lps az idsoros adatok differencijnak kpzse is.
A pnzgyi letben szmos idsor, pl. hozam, rfolyam adat gylik, de az idbeli
egymsutnisg miatt nem tekinthetk fggetlen megfigyelseknek, s nem
stacionriusak. A differencia kpzsvel kikszbljk ezeket, s gy ler
statisztikai elemzseket vgezhetnk, korrelcit szmolhatunk, s a pronknti
lineris korrelcin alapul tovbbi modelleket illeszthetnk.
Az adatokat az importls utn SPSS llomnyknt 12 elmenthetjk. A vltozk
mrsi skljt rdemes ellenrizni, mert nem mindig sikerl tkletesen az tvitel.
A szmtsokat az Indexek.xls adatllomny megnyitsval s importlsval
vgezhetjk el. Ebben 1999.01.07. s 2009.12.31. kztt htkznapokon t tzsdei
index rtkeit ltjuk. A megfigyelsek szma 2753, de mivel ezek egymst kvet
napok mrt adatai, ezrt nem vletlenszer s egymstl nem fggetlen
megfigyelseink vannak.
Az adatsorok egymstl eltr alakulst jl mutatja a Multiple Line Chart, ahol az
egyedi rtkeket vlasztva (Values of individual cases) kaphatjuk meg a 1.7. brt.
A legnagyobb hullmzst a BUX mutatja, mg az angol (UKX) s a nmet (DAX)
indexek els ltsra is egyttmozognak, azaz kointegrltak 13.

12

Az SPSS egy munkalapos Excel llomnyt tud kzvetlenl beolvasni, ha az els sorban a
vltozk rvid neve ll. (A nv legyen maximum 8 alfanumerikus karakter hossz, clszer
kezet nlkli, angol betket hasznlni, specilis karakterek nlkl.)
13
Kt idsort kointegrltnak neveznk, ha egytt mozognak az idben, de ok-okozati
kapcsolatot nem tteleznk fel kzttk. konometria knyvek rszletesen foglalkoznak
ezzel a mdszerrel.

LER S FELTR ADATELEMZS

25

1.7. bra: Az eredeti 5 tzsdeindex 11 ves adatsorai


De most nem kzvetlenl az idsorok viselkedst elemezzk. Clunk az egymst
kvet napokra kpzett klnbsgek elemzse. Ezek mr stacionriusok, ahogy az
1.8. bra mutatja.

1.8. bra: Az 5 tzsdeindex els differenciinak idsora

26

TBBVLTOZS ADATELEMZS

rdekes krds, hogy az egyes napok szerint klnbznek-e a differencik. Ezt


rszben a panel brkon tekinthetjk meg (1.9. bra), rszben az Explore-ban
factor=napok belltssal szmolhatjuk ki, s dobozdiagramon brzolhatjuk. (1.10.
bra) Az adott nap differencija az jelenti, hogy az elz naprl erre tlpve hogyan
vltoztak az indexek. Teht a htfi differencia a htf-pntek klnbsget mri.

1.9. bra: A differencik napok szerint bontott idsorai


Az 1.10. brn a dobozdiagramok egyms mellett mutatjk a napokra vonatkoz
magyar adatokat. Az t doboz kzepn a medin vonalat ltjuk, ami ltalban nem
zrus. Lthat, hogy a dobozok magassga kicsi, azaz a vltozsok 50%-a nem volt
jelents.

LER S FELTR ADATELEMZS

27

1.10. bra: A magyar differencik dobozdiagramjai naponknt


A magyar s a nmet adatokbl kpzett differencikra szmolt eredmnyek egy
rszt a Report belltssal tmrebb formban tartalmazza az 1.8. s az 1.9.
tblzat. A napok kztti tlagok eltrse mellett a relatv szrsok hatalmas rtkei
rdemelnek figyelmet. A szrs/tlag rtkek a szzat is meghaladjk a magyar
keddi adatokra! A magyar adatok nagyobb terjedelmhez nagyobb szrs is tartozik
A vltozsok tlaga szerdnknt a magyar s a nmet adatokra negatv, teht keddrl
szerdra inkbb volt cskkens, mint nvekeds. Ez a fekete szerda 14 megllapts
mind az t orszgra rvnyes. A japn s az amerikai tlagos differencia emellett
mg pnteken, az angol tlag pedig kedden negatv.

14

2008. oktber 15-re volt minden orszgban nagy ess, kivve Japnt. Ott msnap, oktber
16-n rtk el a vltozsok mlypontjt.

28

TBBVLTOZS ADATELEMZS

1.8. tblzat: BUX index els differencinak statisztikai mutati napok szerint
Case Summaries
DBUX
napszma

Mean

Minimum

Maximum

Std. Deviation

htf

525

21,8571

-1165,00

1203,00

250,27327

kedd

559

2,3971

-1067,00

1049,00

241,33509

szerda

559

-13,1878

-1953,00

1654,00

275,93169

cstrtk

557

3,4147

-1381,00

800,00

250,26170

pntek

552

12,8786

-834,00

1598,00

240,67750

Total

2752

5,2522

-1953,00

1654,00

252,15855

1.9. tblzat: DAX index els differencinak statisztikai mutati napok szerint
Case Summaries
DDAX
napszma

Mean

Minimum

Maximum

Std. Deviation

htf

525

2,0229

-524,00

518,00

90,73243

kedd

559

,2755

-396,00

488,00

80,41003

szerda

559

-4,2934

-337,00

298,00

79,56389

cstrtk

557

1,3591

-353,00

382,00

80,53497

pntek

552

1,9221

-343,00

327,00

78,76485

Total

2752

,2304

-524,00

518,00

81,99164

Az 1.11. bra a napokra szmtott tlagokat s az 1.12. bra a napokra kpzett


szrsokat mutatja orszgonknt. Ezek az brk Multiple line, Summaries of
separate variables belltssal kszltek, ahol a kategria tengelyt a napok jelentik.
Az angol s a nmet tzsdei adatok nullhoz kzeli tlagos vltozsa s legkisebb
szrsa a legszembetnbb a kt brn.

LER S FELTR ADATELEMZS

29

1.11. bra: Az t index vltozsainak tlaga a 11 v sorn

1.12. bra: Az t index vltozsainak szrsa a 11 v adataibl


Hzi feladat:
A 1.8. s a 1.9. tblzat eredmnyeit rdemes ellltani s ttekinteni az amerikai,
az angol s a japn adatokra is

2. Kategrik s kereszttblk
elemzse
Ha vizsglt adathalmazunkban tbb vltoz van, felttelezhet, hogy vannak
kzttk fggetlen vltoz-prok, s vannak olyanok is, amelyek hatnak egymsra
vagy klcsns kapcsolatban llnak egymssal. A kapcsolat ltnek s erssgnek
feltrsra tbb mdszer ll rendelkezsnkre, melyek kzl a mrsi sklk
ismeretben vlaszthatunk. A legegyszerbb eljrsok a kvetkezk:

Kt nominlis, kt ordinlis vagy vegyes (nominlis s ordinlis) skln


mrt vltozkra vonatkoz megfigyelseket kereszttblba rendezzk, s
fggetlensgi hipotzist fogalmazunk meg.

Ordinlis sklj vltozkra (Spearman) rangkorrelcit szmolunk.


Intervallum (vagy arny) skln mrt vltozk kztti lineris kapcsolatot
korrelcival mrjk.
Kettnl tbb vltoz kapcsolatrendszernek vizsglatra a ksbbi fejezetekben
szerepl mdszerek alkalmazhatk.

2.1. Kategrik ellltsa


A gazdasgi-pnzgyi elemzsek tbbsgben sok adatbl kiindulva kpezhet
kategria vagy index, aminek az rtelmezse knnyebb, mint az eredeti adatok
minstse. Ilyen pldul az orszg-kockzati besorols, ahol a besorolsi kategria
vltozsa, pldul egy leminsts bejelentse a rszletek kzlse s ismerete
nlkl is informcit ad egy orszgrl.
A banki s biztosti gyakorlatban is sok olyan adat ll az elemz rendelkezsre,
amelyet csoportostva, kategorizlva rdemes felhasznlni. Pldaknt a kvetkezk
emlthetk:

A hiteltrlesztsben ksedelmes gyfelek besorolsa a legalbb 30, 60 s


90 napos ksedelmi kategriba.

A biztostsban a kockzatelbrls folyamata, melynek binris kimenetele


az gyfl kockzatnak vllalsa vagy elmenponta, vllalskor pedig
esetleg magasabb djosztsba sorols.

A gpjrm felelssgbiztostsban a bnusz-mlusz rendszer fokozatai.

KATEGRIK S KERESZTTBLK ELEMZSE

31

A testtmeg index (BMI) arny skln szmthat, hisz kplete = testsly


(kg)/ magassg (mter)2, mgis rtkelse 4 kategriba 15 sorolva trtnik:
Sovny, ha BMI < 18,5
Norml testalkat 18,5 - 24,9 kztt
Tlslyos 25 - 29,9 kztt
Ersen testes, tlslyos, ha BMI > 30.

Az gyfelek tovbbi ismert tulajdonsgai kapcsolatban llhatnak a kategriabesorolssal. Elemezni rdemes pldul azt, hogy az egyn neme, letkora, csaldi
llapota, jvedelme, a gpjrm tpusa kzl melyik s milyen hats. Itt azonban
felmerl az eltr mrsi sklk problmja, tovbb az, hogy elegend
megfigyelsnk van-e.
Az letkor vagy a jvedelem mrse intervallum skln trtnik, de egy-egy
letkorhoz vagy jvedelem szinthez nem felttlenl tartozik sok egyn. Ezrt
statisztikailag indokolt a sklkat transzformlni, s ordinlis mrsi szint
kategrikba sorolni az ilyen vltozkat. A tovbbiakban a kategrikat hasznlva a
kereszttblkat lehet elemezni.
A skla-transzformci ebben az esetben a skla lertkelst jelenti, azaz
informcit vesztnk.
Eredeti s j skla
neve

Nominlis

Ordinlis

Ordinlis

Szls rtkek
sszevonsa, kzps
megtartsa

Kevesebb kategria kpzse

Intervallum vagy
arny

Az tlagos s az tlagtl
eltr rtkek
kategorizlsa

Az tlagos s az tlagtl felfel


valamint lefel eltr
megfigyelsek osztlyba sorolsa

Az rtkek s a kategrik sszevonsra nemcsak a skla vltoztatsa miatt kerl


sor. Szksg lehet erre, akkor is, ha egy-egy osztlyba kevs megfigyels kerlt.
Erre az SPSS/Transform/Recode into Different Variables hasznlata ajnlhat, hogy
az eredeti adatok is megmaradjanak.
A kategorizls/diszkretizls szmos mdon elvgezhet. Szakmai megfontolsok
alapjn s az eloszlst megvizsglva rdemes vlasztani az albbiak kzl.

15

Kerektst alkalmazunk, amikor a legkzelebbi egsz szmot tartjuk meg:


az letkort is csak vekben mrjk, a jvedelmet 1000-re, szzezerre
kerektve adjuk meg.

Sportolk, idsebbek rtkelsre ms hatrok alkalmazhatak.

32

TBBVLTOZS ADATELEMZS

Egyenl hossz kategrikat kpznk, pl. 5 ves letkor tartomnyokba


soroljuk az embereket, vllalkozsokat.

Egyenl gyakorisg csoportokat hozunk ltre, pl. kettosztjuk a


medinnl, 10 csoportot kpznk a decilisek mentn vagy 4 csoportot a
kvartilisek szerint.

Osztlyozssal, amikor a kategriahatrokat elre kijelljk. (Ilyen a


dolgozatok pontozst kveten megllaptott rdemjegy is.)

Elzetes kategria hatrok kijellse nlkl, a tbb dimenziban


leghasonlbb
megfigyelsek
csoportba
sorolsval,
amit
klaszterelemzssel 16 kszthetnk el.
Mieltt az eljrsrl dntnk, rdemes megvizsglni az adatok lehetsges tagolst.
Ehhez felhasznlhatjuk az SPSS/ Transform/Visual binning menpontjt, amely
grafikus s numerikus megkzeltst is alkalmazva tbbfle felosztst tud
megjelenteni.

a) Egyenl hossz intervallumokat krve az albbiak kzl 2 rtket kell berni:


-

Els metszspont

Metszspontok szma

- Intervallum hossza
b) Egyenl percentilisekre bontst krve az egyik rtket kell megadni:
-

Metszspontok szma (3 metszspontra 25%-os feloszts addik)

Intervallum hossza (20% megadsa 4 metszspontot ad!)

c) Az tlag s a szrs alapjn az tlag krl 1, 2 vagy 3-szoros szrsnyi


intervallumokat vlaszthatunk, ha az elzetesen brzolt adatok hisztogramja
normlis eloszlshoz hasonl kpet mutat.
Ha megnyitjuk a Program Files\SPSS\tutorial\samplefiles\autoaccidents.sav
adatokat, s az 500 gyfl letkor megoszlst oszlopdiagramon 17 brzoljuk, akkor
a 2.1. brn lthat, hogy rdemes a 22-68 v kztti vezetket kevesebb korkategriba sorolni, mert egy-egy letkorhoz statisztikai szempontbl kevs
ember tartozik.

16

A klaszterelemzs mdszercsaldot a 3. fejezetben mutatjuk be.


Pldnkban az oszlopdiagram nem egyezik meg a hisztogrammal. A hisztogram nulla
elfordulst jelezne 63 vnl s 65-67 v kztt, mivel nincs ezekhez az letvekhez tartoz
gyfl. Az oszlopdiagram csak a megfigyelt rtkeket tkrzi.
17

KATEGRIK S KERESZTTBLK ELEMZSE

33

2.1. bra: A vezetk letkornak oszlopdiagramja


Arra rdemes figyelni, hogy ha egyenl hossz intervallumokat ksztnk, akkor a
kzps kategriban nagyon sok egyn lesz, a szlskben pedig nagyon kevs.
Minl cscsosabb az eloszls, annl erteljesebben jelentkezik ez a problma.
A statisztikai megfontolsok (legalbb 5-10 megfigyels essen egy intervallumba)
mell rtelmezsi szempontokat is rdemes figyelembe venni. Ha ltalban 10 ves
intervallumokban kzlnek adatokat, akkor ksztsnk mi is ilyen felosztst. A
kezd rtket megadva s 4 kategrit krve a Paste gombbal az albbi Syntax
utastst lltjuk el:

* Visual Binning.
*age.
RECODE age (MISSING=COPY) (LO THRU 28.0=1) (LO THRU 38.0=2)
(LO THRU 48.0=3) (LO THRU 58.0=4) (LO
THRU HI=5) (ELSE=SYSMIS) INTO age10.
VARIABLE LABELS age10 'Age of insured (Binned)'.
FORMATS age10 (F5.0).
VALUE LABELS age10 1 '<= 28' 2 '29 - 38' 3 '39 - 48' 4 '49 - 58' 5 '59+'.
VARIABLE LEVEL age10 (ORDINAL).
EXECUTE.

34

TBBVLTOZS ADATELEMZS

rdemes binris kategorizlst alkalmazni a balesetek szmra, gy a


balesetmentesen vezetket elvlasztjuk a balesetet szenvedktl. Ezt az
SPSS/Transform/Recode into Different Variables funkcijval kapjuk: a nullk
megmaradnak, a tbbi rtk 1 lesz. (A cmkbe berhatjuk, hogy egy vagy tbb.)
Vgl pedig kereszttblban ellenrizzk, hogy mind az 500 megfigyels tkdolsa
megtrtnt, s nem vesztettnk adatot.
RECODE accident (0=0) (ELSE=1) INTO accid.
EXECUTE.

accid
one or more
zero accident
Number of accidents past 5
years

Total

accident

Total

122

122

139

139

107

107

63

63

39

39

19

19

122

378

500

A csoportok kialaktsa utn kereszttblban vizsgljuk a balesetek szma s a


vezet letkor-csoportja kztti kapcsolatot. Az elkszt lpsek utn tekintsk t
a kereszttbla elemzs mdszertant.

KATEGRIK S KERESZTTBLK ELEMZSE

35

2.2. Kereszttbla ksztse s elemzse


Ebben a fejezetben a nominlis s/vagy ordinlis skln mrt vltozkra 18 felrhat
kombincis tblkkal foglalkozunk, s a vltozk kztti kapcsolatot mrjk.

2.2.1. Matematikai-statisztikai httr


A kereszttbla elemzsekor a kt vltoz kztti fggetlensg hipotzist vizsgljuk,
s a fggetlensg elvetsekor az asszocicis kapcsolat erssgt mrjk. A
vltozk kztti kapcsolatrendszerre azonban szmos ms hipotzis is felrhat.
a)

Kt nominlis vagy ordinlis mrsi szint vltoz esetn kereszttblba


rendezzk az egyttes elfordulsuk gyakorisgait:
Vltozk B1 B2 .. Bc sszesen
A1

f11 f12

f1c m1

A2

f21 f22

m2

Ar

fij
fr1

mi
frc mr

sszesen n1 n2 nj

nc n

Ktdimenzis tblra t modell illeszthet.


b) A tblban a vrt gyakorisgok (F) alakulsra felrhat modellek kzl a
legegyszerbb a minimlis vagy null-modell. Ekkor a tbla minden
celljban egyenl gyakorisgot tteleznk fel, az sszes megfigyelst
sztosztjuk az sszes cella (rc) kztt:

Fij = n / rc

(2.1)

1.Plda: Vrt gyakorisgok a null-modellben


A tblban a megfigyelt peremgyakorisgok szerepelnek, amelyek nem
felttlenl egyeznek meg a vrt gyakorisgok sor- s oszlopsszegeivel.
Vltozk B1

B3

sszes

A1

100/6 100/6 100/6

60

A2

100/6 100/6 100/6

40

sszes

18

B2

10

50

40

100

Nominlis s intervallum vltozk kztti kapcsolat vizsglatra pldul a


szrselemzs alkalmazhat.

36

TBBVLTOZS ADATELEMZS

c)

Felttelezhetjk, hogy a vrt gyakorisgokra csak az egyik vltoz hat. Az


elsrend hats egyik modelljben csak a sorvltoz hat, az adott kategria
sszes gyakorisgt egyenletesen sztosztjuk az oszlopok kztt, mert az
oszlopvalsznsg konstans. Ekkor
(2.2)
Fij =mi /c

2. Plda: Sorhats modelljben vrt gyakorisgok


Vltozk B1

B2

B3

sszes

A1

60/3 60/3 60/3

60

A2

40/3 40/3 40/3

40

sszes

10

50

40

100

d) Elsrend modellt az oszlopvltoz hatsra is felrhatunk, az oszlop


sszes gyakorisgt egyenlen elosztjuk a sorok kztt. Ekkor a
(2.3)
sorvalsznsg konstans, s a vrt gyakorisg: Fij = nj /r
3. Plda: Oszlophats modelljben vrt gyakorisgok
Vltozk B1

B3

sszes

A1

10/2 50/2 40/2

60

A2

10/2 50/2 40/2

40

sszes

e)

B2

10

50

40

100

Elsrend modellt illesztnk akkor is, ha sor- s oszlopvltozk egymstl


fggetlen hatst ttelezznk fel. Ekkor a fggetlensg modelljt rjuk fel,
amelyben a sor s az oszlop sszegeket is figyelembe vesszk a vrt
gyakorisg becslsekor:
(2.4)
Fij = mi nj /n

4. Plda: Fggetlensgi modell vrt gyakorisgai


Vltozk B1

B3

sszes

A1

60*10/100 60*50/100 60*40/100

60

A2

40*10/100 40*50/100 40*40/100

40

sszes

f)

B2

10

50

40

100

Az egyes vltozk egyedi hatsa mellett klcsnhatsuk, azaz msodrend


hats is szerepel a teltett modellben. Ez a modell teljesen a megfigyelt
(2.5)
gyakorisgok alapjn becsli a vrt elfordulsokat: Fij = f ij

Ez utbbi esetben tkletes az illeszkeds, az elbbiekben viszont mrni kell a


megfigyelt s a vrt gyakorisgok eltrst. Az t modell tovbb vizsglhat

KATEGRIK S KERESZTTBLK ELEMZSE

37

loglineris modellezssel. Ez az eljrs terjedelmi korltok miatt nem szerepel a


jegyzetben.
A fggetlensg felttelezse mellett elfordul eltrsek mrtkt a Pearson ltal
javasolt khi-ngyzet prbval (2.6), likelihood arny teszttel (2.7) vagy lineris
asszocicis teszttel (2.8) mrjk.

=
2

i =1 j =1

( f ij mi n j / n) 2
mi n j / n

, szabadsgfok: (r-1)(c-1)

Likelihood arny teszt: L(f)= 2

f ij

f
i =1 j =1

ij

ln

mi n j / n

(2.6)

, sz.fok: (r-1)(c-1)
(2.7)

Lineris asszocici tesztje 19

2 = ( n 1 )r 2 ,

(2.8)

ahol r a lineris korrelci. A teszt szabadsgi foka 1.


Ha a fggetlensg hipotzist elvetjk, akkor mrni kell az asszocici szorossgt.
Erre szmos mutatszm ltezik, kzlk a szakmai felttelezsek s a mrsi skla
alapjn vlasztunk. Az asszocicis mrszmok ismertetst az SPSS-ben elrhet
csoportostsban mutatjuk be.

2.2.2. Kereszttbla elemzs megvalstsa az SPSS-ben:


A ler statisztikk kztt talljuk a kereszttbla elemzst annak ellenre, hogy itt
mr hipotzisvizsglatot 20 vgznk.
Analyze/Descriptive/Crosstabs vlaszts utn a kvetkez belltsokat tehetjk:
1.

Sor- s oszlopvltoz kijellse 21 az elemzs clja szerint.

2.

Layer: rtegekre, alcsoportokra bonthat a kereszttbla, gy vizsgljuk a 2


vltoz fggst, az eredmnyeket is gy bontva kapjuk.

Ez a lineris asszocici Mantel-Haenszel-fle tesztje.


Az eloszlsmentes vagy ms nven nem paramteres tesztek csaldjba tartozik a khingyzet prba.
21
Csak nomilis s/vagy ordinlis vltozkat vlasztunk. Intervallum/arny sklj vltozk
elzetesen kategrikra bontandk a Recode menponttal.
19
20

38

TBBVLTOZS ADATELEMZS

A Crosstab men STATISTICS opci hasznlata


A) Nominlis vltozkra szmthat hrom khi-ngyzet alap asszocicis
mrszm (2.9)-(2.11), melyek szimmetrikusak s 0-1 kztt mrnek:
Phi =(2/n)1/2

(2.9)

A (2.9) mutat rtelmezst nehezti, hogy a khi-ngyzet vrhat rtke a


szabadsgfok (variancija pedig annak ktszerese), ezrt kevs megfigyels esetn
Phi >1 is elfordulhat.

Cramer-V =
n( q 1 )

1/ 2

(2.10)

Ahol a (2.10) nevezje az aszimptotikus sztenderd hiba: ASE(V)=


(n(q-1))-1/2 s V/ASE(V)~N(0,1). A (2.10)-ben q=min(r,c).
Kontingencia egytthat CC = ( 2/(n+ 2))1/2
PRE 22-alap

Nominlis vltozkra
vlaszthatunk:

nem-szimmetrikus

(2.11)
mrszmokat

is

A Guttman ltal javasolt Lambda mutatnak hrom vltozata van:


1. ha B oszlopkategria ismert s az A vltoz i. sorba esst becsljk, akkor

max f

a b =

ij

max mi

(2.12)

n max mi

2 ha a sor szerinti besorols ismert, akkor

b a =
3.

max f

ij

max n j

(2.13)

n max n j

szimmetrikus mutat:

max f
j

ij

max mi + max f ij max n j


i

2n max mi max n j

(2.14)

Goodman-Kruskal tau mrtknek is 3 vltozata van, itt csak egyet runk fel, amely
azt mri, hogy a hibavalsznsg relatv cskkense mekkora, ha a sorvltoz
szerinti kategria ismert.

22

PRE: Proportional Reduction of Errors= relatv hibacskkens= (hiba1 hiba2 )/hiba1 .

KATEGRIK S KERESZTTBLK ELEMZSE

b a =

39

n f ij2 / mi n 2j
i

n n
2

(2.15)

2
j

Bizonytalansgi (Uncertainty) egytthat (Likelihood-arny teszten alapul)


sor/oszlop mutat, PRE elven mr:
r

UC =

f
i =1 j =1

log(m i n j / nf ij )

ij

(2.16)

m
i =1

log(mi / n)

A kt utbbi mutatszm a G-K tau (2.15) s az UC (2.16) rtke aszimptotikusan


konvergl az (r-1)(c-1) szabadsgi fok khi-ngyzet eloszlshoz. Szlsrtkk:

0, ha az oszlop szerinti kategria ismeretben nem cskken a sorvariancia

1, ha az oszlop szerinti kategria ismeretben teljesen lecskken a


sor-variancia

B) Az ordinlis vltozkra alkalmas mrtkek nemcsak szorossgot, hanem irnyt is


mrnek, ezrt rtkk -1 s 1 kztt lehet.
Gamma (Goodman-Kruskal) =(P-Q)/(P+Q)
r

ahol

P = f ij S ij s Q =
i =1 j =1

(2.17)

f
i =1 j =1

ij

Dij , tovbb

S az egyezen rendezett megfigyelsek szma, azaz vagy i>k s j>l, vagy


i<k s j<l teljesl egyszerre. Az f12 hz kpest (+) jelli az ilyen cellkat az
albbi kis tblban.
D az eltren rendezett prok szma, vagy i>k s j<l, vagy i<k s j>l, ezeket
f12 hz kpest (-) jelli az albbi tblban:
f12
-

+ +

+ +

+ +

A Somers-fle d mutatnak 3 vltozata 23 van, ezek az i=k s a j=l egyezseket is


figyelembe veszik.
23

A Goodman-Kkruskal tau s a Somers d mutatk nevezi megegyeznek.

40

TBBVLTOZS ADATELEMZS

Ha az oszlopban van a fgg vltoz: dB/A= (P-Q)/Dr , ahol Dr = n 2

2
i

Ha a sorban van a fgg vltoz: dA/B= (P-Q)/Dc , ahol Dc = n 2

2
j

Ha szimmetrikus a kt vltoz: d =

PQ
1 / 2( Dr + Dc )

(2.18)

A Kendall-fle tau-b a mrtani tlaggal osztja az eltrst:

b =

PQ

(2.19)

D r Dc

Sztenderd hibja: ASE(b)={(4n+10)/9(n2 n)}1/2 .


Kendall tau-c

c =

q( P Q )
, ahol q=min (r,c)
n2( q 1)

(2.20)

C) Tovbbi mutatk:
Kappa: (Cohen mutatja) ngyzetes tblra, csak a diagonlis elemeket hasznlja,
pozitv rtke kt dntshoz vlemnye kztti egyezst mri.

K=

n f ii mi ni
i

(2.21 )

n mi ni
2

Kockzat (Risk): 2x2 tblra szmolhat, ha nincs res cella. Az els oszlopba
sorols relatv kockzata (f11(f21+f22))/(f21 (f11 +f12 )) mellett a msodik oszlopba
sorols relatv kockzata is szmolhat, s a kett hnyadosaknt az eslyhnyadost
R=(f11 f22 /f12 f21) is becsli. Konfidencia-intervallumot is kapunk mindhromra. Az
eslyhnyadosra az als s fels hatr:

R exp( z1 / 2 ); R exp(+ z1 / 2 ) ahol

1
1
1
1

=
+
+
+
f11 f12 f 21 f 22

1/ 2

McNemar teszt: csak ngyzetes tblra alkalmazhat. Ismtelt mrsre a vltozst


teszteli (before-after, initial-final hatsok), a diagonlison kvli elemekre pl:
(2.22)
MC=f 12-f 21
Nagy mintra

=
2

( f 12 f 21 1) 2
f 12 + f 21

s df=1

Cohran s Mantel-Haenszel statisztika: csak binris vltozkra alkalmazhat


(dichotom factor, dichotom response) egy vagy tbb kontrolvltoz esetn. Ha

KATEGRIK S KERESZTTBLK ELEMZSE

41

logisztikus regressziban alkalmazzuk, akkor azt teszteli, hogy az oszlopvltoznak


(kezelsnek) nincs hatsa:

log

p ij
1 p ij

= + i + j ,

s a nullhipotzis szerint a j index oszlopvltozk megegyeznek.

Korrelcis egytthatt is szmolhatunk a kereszttbla elemzse sorn, amit


kivlasztva egyttal a Spearman-fle rangkorrelcit (s mindkett t-tesztjt) is
megkapjuk.

Az eta mutat is krhet, ha a nominlis vltoznak, mint szempontnak a


hatst mrjk az intervallum szinten mrt vltozra.

A kereszttbla elemzsben a tesztek nagy mintra alkalmazhatk, aszimptotikusan


kvetik a felttelezett eloszlst. Exact teszt szmolhat az SPSS-ben binomilis,
Poisson vagy hipergeometriai eloszls felttelezse mellett, ha a megfigyelsek
szma nem tbb mint 20-30, s a vltozknak hromnl nincs tbb kategrijuk.
Vgl grafikus brzolst is vlaszthatunk a kereszttblban vizsglt sszefggs
szemlltetsre.
Kombinlt oszlopdiagramot krhetnk Clustered bar chart nven. A sorok
szmval megegyez beosztst ltunk a vzszintes tengelyen, s mindegyiknl annyi
oszlop szerepel, ahny kategrija van az oszlopvltoznak. Az oszlopok magassga
az egyttes gyakorisg, ami a fggleges tengelyen jelenik meg.

2.2.3. 1. mintaplda
Az USA 242 felsoktatsi intzmnyt az iskola jellege valamint a tulajdonos
alapjn rendeztk, s a kt ismrv kztti fggetlensg hipotzist teszteljk.
A kereszttblban nincs res cella, s teljesl az, hogy cellnknt minimum 5
megfigyelst vrunk. A cellkban a megfigyelt gyakorisgok mellett krhetjk a vrt
gyakorisgok, a szzalkok (sor-, oszlop-, teljes) s a rezidulisok (kznsges s
sztenderdizlt eltrsek) feltntetst.
Milyen tulajdon? * iskola tpusa Crosstabulation
Count

Milyen
tulajdon?
Total

llami
magn
egyhzi

iskola tpusa
fiskola
egyetem
6
86
33
37
53
27
92
150

Total
92
70
80
242

42

TBBVLTOZS ADATELEMZS

A fggetlensg hipotzist minden valsznsgi szint mellett elvethetjk, hiszen a


khi-ngyzet tesztnl p<0,05 teljesl:
Chi-Square Tests

Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases

Value
68,264a
77,976
65,552

2
2

Asymp.
Sig.
(2-sided)
,000
,000

,000

df

242

a. 0 cells (,0%) have expected count less than 5. The


minimum expected count is 26,61.

Az eredmnyek kztt szerepl lineris asszocicis mrtk (linear-by-linear)


akkor rtelmezhet, ha a sor- s oszlopvltozk termszetes mdon rendezettek.
Ekkor a sorokhoz ui s az oszlopokhoz vj tetszleges szmokat rendelve, s a
gyakorisgokkal slyozva: LL =

u v
i

f ij addik. Az sszeget sztenderdizlva

khi-ngyzet eloszls statisztikt kapunk. A nullhipotzis azt mondja ki, hogy nincs
sor-oszlop interakci. Pldnkban a kategrik rendezettsge nem teljesl, ezrt nem
rtelmezzk.
A tulajdonos vltoz nominlis, az iskola tpusa ordinlis. Vegyes kapcsolatra
az SPSS-ben nincs kln mrszm, ezrt a nominlis vltozkra javasolt mrtket
vlasztjuk. Egyes szakmkban kialakult hagyomnya van annak, hogy melyik
mrszmot hasznljk.
Ha azt gondoljuk, hogy a kt vltoz kztt klcsns kapcsolat van, akkor a
szimmetrikus mutatk kzl kell vlasztanuk. sszehasonltani kt kereszttblt
csak azonos asszocicis mrtk alapjn lehet. A mrszmok rtke ltalban
klnbz. Pldnkban a hrom szimmetrikus kapcsolat-mrtk kzl kett
egybeesik, mert az iskolatpus vltoznak kt kategrija van, s ezrt a Cramer Vben q-1=min(r,c)-1=1 kerl a nevezbe. A (10) szerint szmolva a szignifikancia
szint lnyegben nulla, kzepesen szoros a kapcsolatot a kt vltoz kztt.
Symmetric Measures

Nominal by
Nominal
N of Valid Cases

Phi
Cramer's V
Contingency Coefficient

Value
,531
,531
,469
242

Approx.
Sig.
,000
,000
,000

KATEGRIK S KERESZTTBLK ELEMZSE

43

A ktfle oksgi irnyt felttelez mrtkek kzrefogjk a szimmetrikus mrtket.


Mindig szakmai megfontols alapjn vlasztunk, nem a nagyobb szmot
rtelmezzk! Ha nem szimmetrikus kapcsolatot tteleznk fel, akkor feltevssel kell
lnnk arra, hogy melyik a fgg vltoz, s azt a sort kell rtkelnnk az output
tblban.
Gondolhatjuk azt, hogy a tulajdonos dnti el, hogy egyetemet vagy fiskolt alapt,
teht a tpus a fgg vltoz. De az az rvels is helyes lehet, hogy a mr mkd
iskolt veszi/kapja meg a tulajdonos, teht fordtott is lehet az oksgi kapcsolat.
Directional Measures

Nominal
by
Nominal

Lambda

Goodman
and
Kruskal tau
Uncertainty
Coefficient

Symmetric
Milyen tulajdon?
Dependent
iskola tpusa Dependent
Milyen tulajdon?
Dependent
iskola tpusa Dependent
Symmetric
Milyen tulajdon?
Dependent
iskola tpusa Dependent

Value
,302

Asymp.
Std. Error
,055

Approx.
T
4,889

Approx.
Sig.
,000

,313

,042

6,655

,000

,283

,082

2,959

,003

,152

,029

,282
,183

,048
,035

5,225

,000
,000

,147

,028

5,225

,000

,243

,046

5,225

,000

,000

A kombinlt oszlopdiagram szemllteti, hogy az llam dnten egyetemeket


finanszroz, mg az egyhzak inkbb fiskolkat mkdtetnek.
100

80

60

40

iskola tpusa

Count

20

fi sk ola
egy etem

0
l lami

magn

egy hzi

Milyen tulajdon?

2.2.4. 2. mintaplda
Ha van egy feltevsnk, pldul az, hogy a fiatalabb frfiak s a kzpkor nk
okoznak autvezets kzben tbb balesetet (lsd a Pontdiagramot a 2. brn), akkor
ennek tesztelshez a kategorizlt letkor vltozt s a nemet is figyelembe vesszk.
Ismt a Program Files\SPSS\tutorial\sample files\autoaccidents.sav adatokat
hasznljuk.

44

TBBVLTOZS ADATELEMZS

2. bra: Az letkor, a nem s a balesetek szma


Tbbfle hipotzist fogalmazhatunk meg s tesztelhetnk, ha az autoaccident.sav
llomnyhoz megnyitjuk az Analyze/Descriptive Statistics/Crosstabs ot.
a) A balesetek szma s a nemek kztti fggetlensgt vizsgljuk elszr. A
nominlis vltozkra elrhet asszocicis mutatkat krjk, hisz az gyfl neme
nominlis vltoz.
Az els Pearson-fle khi-ngyzet teszt rtke 16,584 (az empirikus szignifikancia
p=0,02), teht elvethetjk a fggetlensget, de a tblzat aljn figyelmeztetst
tallunk: 4 cellban a vrt gyakorisgok nem rik el az tt. Ez a 6 s 7 balesetet
okozk alacsony szma miatt kvetkezett be. Ilyenkor az 5 vagy tbb baleset
sszevonsa, az 5+ kategria kialaktsa segt. A tbbi rtket vltoztats nlkl
tmsoljuk. Az j vltoz neve acc6, hogy emlkezznk a kategrik szmra.

KATEGRIK S KERESZTTBLK ELEMZSE

45

Sex of insured * acc6 Crosstabulation


Count
acc6
0
Sex of insured

5-6-7

Total

Male

46

69

54

38

23

20

250

Female

76

70

53

25

16

10

250

122

139

107

63

39

30

500

Total

A vrt gyakorisgok mr minden cellban kell szmban vannak, s a


fggetlensget a szoksos 5%-os valsznsgi szinten elvethetjk, hisz
p=0,012<0,05.
Chi-Square Tests
Asymp. Sig. (2Value

df

sided)

Pearson Chi-Square

14,666a

,012

Likelihood Ratio

14,833

,011

Linear-by-Linear Association

12,990

,000

N of Valid Cases
a.

500

0 cells (,0%) have expected count less than 5. The minimum expected count
is 15,00.

Ha azt gondoljuk, hogy a vezet neme befolysolja a balesetek szmt, akkor az


acc6 Dependent sorokat olvassuk. A Lambda mutat nem tmasztja al lltsunkat,
mert rtke statisztikailag nullnak tekinthet. A vezet nemnek ismeretbl alig
2%-nyi informcit szerznk a balesetek szmra.

46

TBBVLTOZS ADATELEMZS
.Directional Measures
Asymp.
Std.
Value

Nomi-

Lambda

Error

Approx.
a

Approx.
Sig.

Symmetric

,061

,032

1,814

,070

nal by

Sex of insured

,124

,060

1,926

,054

Nomi-

Dependent

nal

acc6 Dependent

,017

,033

,497

,619

Goodman and

Sex of insured

,029

,015

,012c

Kruskal tau

Dependent
acc6 Dependent

,006

,003

,009c

Uncertainty

Symmetric

,013

,006

1,950

,011d

Coefficient

Sex of insured

,021

,011

1,950

,011d

,009

,005

1,950

,011d

Dependent
acc6 Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on chi-square approximation
d. Likelihood ratio chi-square probability.

A vezetk nemt a balesetmentes-balesetes kettssggel is sszevethetjk. A


fggetlensget elvetjk, mertekkor a khi-ngyzet 9,758 (p=0,002), s a relatv
kockzatot is mrjk.
Sex of insured * accid Crosstabulation
accident
zero accident
Sex of insured

Total

one or more

Total

Male

46

204

250

Female

76

174

250

122

378

500

KATEGRIK S KERESZTTBLK ELEMZSE

47

Annak relatv kockzata, hogy egy gyfelet balesetmentesnek minstnk, 0,605. A


balesetet okoz kategriba sorols relatv kockzata 1,172. Ezek hnyadosa
megadja az eslyhnyadost (odds ratio), a 0,516-t, ami a gyakorisgokbl
kzvetlenl is szmolhat: (46*174)/(76*204). Erre kapunk egy krli
konfidencia intervallumot. Teht a vezet neme a krokozsra nincs rdemi hatssal.
Risk Estimate
95% Confidence Interval
Value

Lower

Upper

Odds Ratio for Sex of insured


(Male / Female)

,516

,340

,784

For cohort accid = zero


accident

,605

,439

,835

1,172

1,060

1,297

For cohort accid = one or more


accident
N of Valid Cases

500

b) A balesetek szma s az letkor-kategrik kapcsolatra ksztett kereszttblban


nincs elegend bizonytk a fggetlensg hipotzisnek elvetsre. Ezt llaptjuk
meg akkor is, ha a binris balesetvltozra s a 10 vnyi hossz letkorkategrikra szmolunk. A khi-ngyzet rtke 1,58 (p=0,812). A fggetlensg
elvetsekor nem rtelmezzk az asszocicis mrszmokat, hiszen azok rtke
nem klnbzik szignifiknsan a nulltl.
c) A vezet neme vltoz rtegkpz (Layer) lehet, amit berva a kt nemre s a
teljes mintra is kereszttblt szmol a program. Kln tudunk teht dnteni a
frfiak s a nk csoportjban arrl, hogy az letkor s a baleset okozsa 24 kztt
van-e kapcsolat.
gy a hrom tblra egyszerre ltjuk, hogy a balesetmentes-balesetet okoz s az 5
letkor kategria kztti fggetlensg hipotzist egyik esetben sem vethetjk el. A
szabadsgi fok mindhrom esetben (5-1)(2-1)=4. Az 59 v feletti vezetk szma

24
A biztostk egy idszakban meglepve tapasztaltk, hogy a 45-50 ves nk nevn lev
autkra milyen sok krbejelents rkezik. Az ok termszetesen nem a nk roml vezetsi
rutinja, hanem az, hogy ppen felntt, jogostvnyt szerzett a fi, aki az anyja kocsijt kri
klcsn. (Azta a biztosts megktsekor jelezni kell, ha tbb szemly vezeti az autt.) A
plda tanulsga, hogy nagyon vatosan kell a kereszttblban a kategria vltozkat
megvlasztani. Nem a tulajdonos, hanem a hasznl neme s letkora a fontos, ha ezt is
rgzti a biztost adatbzisa.

48

TBBVLTOZS ADATELEMZS

kicsi, ezrt a tblzat aljn zenet figyelmeztet, hogy a vrt gyakorisg 5 alatt
maradt.
Chi-Square Tests
Sex of insured
Male

Female

Asymp. Sig.
(2-sided)

df

Pearson Chi-Square

2,880a

,578

Likelihood Ratio

3,040

,551

Linear-by-Linear Association

,000

,992

N of Valid Cases

250
2,606b

,626

2,511

,643

Linear-by-Linear Association

,000

,998

N of Valid Cases

250

Pearson Chi-Square
Likelihood Ratio

Total

Value

Pearson Chi-Square

1,580c

,812

Likelihood Ratio

1,573

,814

Linear-by-Linear Association

,002

,966

N of Valid Cases

500

a. 2 cells (20,0%) have expected count less than 5. The minimum expected count is 1,66.
b. 1 cells (10,0%) have expected count less than 5. The minimum expected count is 2,43.
c. 1 cells (10,0%) have expected count less than 5. The minimum expected count is 4,15.

3. Klaszterelemzs
A klaszterez eljrsok csoportostsa
Az osztlyoz eljrsok csaldjnak egyik gba sorolhat a klaszterelemzs, amely
tbbfle mdszer s konkrt eljrs sszefoglal neve. Alapgondolata az, hogy elre
nem ismert besorols esetben is feltrhat a halmazon bell egymshoz leginkbb
hasonl (kzeli) egyedek csoportja. Egyed alatt rthetjk a megfigyelsi egysget
vagy a vltozt, mindkettre vgezhet osztlyozs.
A klaszterez mdszerek kt f csoportja:

a hierarchikus osztlyozs s

a nemhierarchikus osztlyozs.

A hierarchikus osztlyozs kt megkzeltssel vgezhet.


Az sszevon (agglomeratv) hierarchikus eljrs kezdetben mind az n elemet kln
osztlynak tekinti, majd lpsenknt egy-egy sszekapcsolst vgez. sszesen (n-1)
lpsben 25 elvgzi azt az sszevons-sorozatot, amely vgl egyest minden egyedet.
Ez a folyamat grafikusan kt dimenziban megjelenthet. Ha az adott lpsben
mr k csoport van, akkor a kvetkez sszekapcsolst maximum k(k-1)/2 tvolsg
sszehasonltsval lehet kivlasztani. A konkrt sszevons 7 eljrsvltozattal
valsthat meg az SPSS-ben.
A feloszt (divizv) hierarchikus eljrs minden egyes lpsben valamilyen
dntsi kritrium alapjn kettosztja a megfigyelseket, gy az eljrs (2n-1-1)
feloszts megvizsglsa utn fejezdik be. A magas lpsszm miatt ezt az eljrst a
gyakorlatban nem alkalmazzk.
A nemhierarchikus osztlyozs a tmakr szakmai ismerete alapjn elre adott k
szm osztlyra bontja a mintt. Az n szm elem k nem res csoportba

k
1 k
(1) k j j n

k! j =1
j flekppen sorolhat be. A kplet alapjn n=8 megfigyelst
k=2 csoportba (1/2)(-2+28) = 127 vltozatban lehet besorolni.
Ha a struktra feltrsnak kezdetn a csoportok szmt nem ismerjk, akkor
minden 1 k n szmra el kellene vgezni a felosztst, hogy a k elfogadhat rtkt
megtalljuk. Nagymret feladatok esetben ez az t jrhatatlan, ezrt ilyenkor a
k

25

n 2

hvelykujj szablyt kvetjk. Hasznos lehet a hierarchikus klaszterezs

Ha p szm vltozra vgznk sszevonst, akkor (p-1) lesz a lpsek szma.

50

TBBVLTOZS ADATELEMZS

sszevon vltozatt elvgezve, struktrafeltr elemzst ksztve tjkozdnunk


a klaszterszmrl, br nagy elemszm esetben nem kapunk ttekinthet kpet.
A kvetkezkben a legismertebb, szmtgpes algoritmussal is rendelkez
klaszterez eljrsokat mutatjuk be. A tmakr ttekintst segti az elemzs dntsi
pontjainak elzetes ttekintse:
Ha az adatok elzetes csoportostsa nem ismert, akkor 3.1. fejezet szerint jrhatunk
el.
-

A tvolsgi vagy hasonlsgi mrszmok kztti tjkozdst segti a


3.1.1. alfejezet.

Az sszevon eljrs kivlasztsakor a 3.1.2. alfejezet ad tmutatst.

Ha a minta szerkezett tanulmnyozzuk, akkor 3.1.3. alfejezet segt.

A szmtgpes futtats lpseit a 3.4.1. alfejezet mutatja be.

Ha a megfigyelsekbl kpezhet klaszterek szmra feltevssel lnk, akkor a 3.2.


fejezetet kvethetjk.
-

A szmtgpes megvalsts lpseit a 3.4.2. alfejezet mutatja be.

3.1. Hierarchikus klaszterezs


A hierarchikus mdszerek legfbb sajtossga az, hogy a csoportostshoz nem kell
megadni a mintban ltez (vagy felttelezett) csoportok szmt.
ltalban 3 lpst 26 hajtunk vgre:

Az indul adatokbl 27 hasonlsgi vagy tvolsg-mtrixot kszthetnk.

rtelmezzk az egyedek s a csoportok egymshoz val kzelsgt.

brzoljuk az sszevonsi folyamatot.

E hrom lps sorn szmos rszdntst hozzunk, amelyek kvetkeztben eltr


eredmnyeket kaphatunk. Az egyedek kzti tvolsgot szmos mrszmmal
mrhetjk, kzlk pldul a mrsi skla alapjn vlaszthatunk. A mr egy
klaszterbe sorolt egyedek tvolsgt a tbbi egyedtl (vagy klasztertl)
szrmaztatott tvolsggal mrjk, amely szintn tbbflekppen rtelmezhet. Ezrt
fontos, hogy a lehetsgeket ttekintsk, s az adatrendszer sajtossgainak
leginkbb megfelel tvolsgmrtket s sszevon eljrst megtalljuk.

26

A lpsek megegyeznek akr eseteket, akr vltozkat osztlyozunk. Ezrt ezt a


szempontot csak akkor emltjk, ha szksges.
27
Az is elfordulhat, hogy ez a lps kimarad, mert inputknt mr a tvolsgi vagy a
hasonlsgi mtrixot ismerjk.

KLASZTERELEMZS

51

3.1.1. Tvolsgi s hasonlsgi mrtkek


Az elemzs clja alapjn vlasztunk, hogy tvolsgot vagy hasonlsgot szmolunk.
De azt, hogy a kt f csoporton bell melyik mrszmmal dolgozunk, az adatok
mrsi sklja alapjn kell eldnteni. A rszletes ismertets eltt az 3.1. tblzatban
sszefoglaljuk az egyes mrsi szintekre alkalmazhat mutatk nevt vagy
kpletszmt.
3.1. tblzat: Mrsi szintek szerinti mutatszmok kpletei
Mrsi szint / Mutat

Tvolsgi mutat
kplete

Hasonlsgi mutat kplete

Nominlis vagy ordinlis


skln mrt vltozk

Khi-ngyzet s Phi mutat (2.


fejezet)

Intervallum vagy arny


skln mrt vltozk

(3.1) (3.4)

Pearson-korrelci, bezrt szg


koszinusza (4. fejezet)

Binris skln mrt vltozk

(3.5) (3.10)

(3.11) (3.14)

Intervallum skln mrt adatok kztt mrt tvolsg

Az SPSS alaprtelmezsben a ngyzetes euklideszi tvolsgot javasolja, amely az i


s a k egyedek kztt (3.1) szerint szmolhat, ahol j index jelzi az egyedeket
vagy a vltozkat:

d ik = ( xij x kj ) 2
2

(3.1)

A Csebisev metrika csak a legnagyobb eltrst mri: d ik

= max xij x kj

(3.2)

Mg a city-block (vagy Manhattan) metrika sszegzi az eltrseket 28:

d ik = xij x kj

(3.3)

Ngyszer-ngy 29 tvolsg nven eltr hatvnykitevt s gykt vlaszthatunk:

A vltozk elzetes sztenderdizlsa nagyon fontos azrt, hogy ne klnbz


mrtkegysgben mrt eltrseket adjunk ssze.
29
A customized lefordtva felltztetett lenne. Mivel a p s az r 1-4 kztt vltozhat,
ezrt 4*4 mutatknt emltjk.
28

52

TBBVLTOZS ADATELEMZS

d ik = xij x kj
j

1/ r

(3.4)

ami p = r esetn megegyezik a Minkowski metrikval.


A hasonlsg mrsre a kt vektor ltal bezrt szg koszinuszt s a Pearson-fle
korrelcis egytthatt vlaszthatjuk.

Nominlis vagy ordinlis skln mrt adatok (Counts)

Alaprtelmezs szerint a kereszttblknl szoksos khi-ngyzetet vagy a Phingyzetet kapjuk, amelyek esetekre is s vltozkra is szmolhatk, s hasonlsgot

2 ( x, y ) =
i

(xi E ( xi ) )2 +
E ( xi )

( yi E ( yi ) )2
E ( yi )

PHI 2 =

mrnek. A khi-ngyzet mutat nagyon rzkeny a minta nagysgra, n-re.


A khi-ngyzet kpletben a vrhat rtk a fggetlensg felttelezse melletti
gyakorisgknt hatrozhat meg x-re s y-ra.

Binris vltozk 30

Mestersgesen is kpezhetnk binris vltozkat, ha csak a tulajdonsggal


rendelkezs vagy nem rendelkezs a fontos. Azt, hogy kt egyed (X s Y) mennyire
hasonlt, a tulajdonsgok egyttes elfordulsnak gyakorisgt tartalmaz
kereszttblbl olvassuk ki. (3.2. tblzat)
3.2. tblzat: Egyttes gyakorisgok
X/Y

(1)

(0)

sszesen

(1)

a+b

(0)

c+d

sszesen a+c b+d a+b+c+d

Ha sszesen p (=a+b+c+d) tulajdonsg alapjn hasonltjuk ssze X s Y egyedet,


akkor b esetben csak X-re, s c esetben csak Y-ra voltak jellemzk a vizsglt
ismrvek. Ezek felhasznlsval szmos tvolsgmrszm kpezhet, itt az SPSS

30
Nincs ltalnosan ismert magyar neve egyik mrtknek sem, ezrt itt is az angol elnevezs
szerepel. Az SPSS 27 tvolsgi s hasonlsgi mrszmot knl fel binris vltozkra, ugyan
mindre nem trnk ki, de a felsoroltakat klaszterezzk is.

KLASZTERELEMZS

53

ltal felajnlottak kzl hatot mutatunk be. Egymssal nem sszehasonlthatak,


mert a fels hatruk klnbz, br mindegyiknek zrus 31 a minimuma.
Euklideszi:

d = b + c (ngyzete az alaprtelmezs) (max: p)

Size difference:

d=

Pattern difference

Variance:

d=

(b c )2

(a + b + c + d )2

d=

(max:1)

(3.6)

(a + b + c + d )2 , (max: )

(3.7)

(bc )

(b + c )

4(a + b + c + d )

(max: )

(a + b + c + d )(b + c ) (b c )2 , (max: 1)
(a + b + c + d )2
(b + c ) , (max: 1)
Lance-Williams: d =
(2a + b + c )

Shape:

(3.5)

d=

(3.8)

(3.9)

(3.10)

A hasonlsg mrse sok binris asszocicis mutatval valsthat meg. Ezek


csoportosthatk aszerint, hogy a 0-0 rtkpr (d gyakorisg) elfordulst
szerepeltetik-e a szmllban s/vagy a nevezben. A slyozs szerint is vannak
klnbz mrtkek: egyenl slyt vagy dupla slyt kaphatnak a prok. A mutatk
egy rsze 0 s 1 kztt mr, itt az 1 jelzi a maximlis hasonlsgot. De vannak
olyanok is, amelyek fels hatra a vgtelen.
Simple matching:

a+d
a+b+c+d

Jaccard:

a
a+b+c

Dice:

2a
2a + b + c

(max:1)

(3.11)

(max:1)

(3.12)

(max:1)

(3.13)

31
Zrus addhat akkor is, ha b=c=0, vagyis tnyleg nem klnbznek, de gy is, pl. (3.6)ban, ha b=c, s egyik sem 0. Kln problma az, hogy a d szm mit jelent. Attl, hogy
egyformn nem rendelkeznek a vizsglt tulajdonsgokkal, mg nem biztos, hogy hasonlak.

54
Sokal-Sneath 3. mutatja:

TBBVLTOZS ADATELEMZS

a+d
b+c

(max: )

(3.14)

A binris mutatk eltrseit s egymshoz viszonytott helyzett a fejezet


tmakrhez igazodva a hierarchikus klaszterezs Ward 32 elv sszevon
eljrsval kszlt n. dendrogramon 33 szemlltetjk a 3.1. brn.
Az adattblt a knyvhz is csatoljuk, gy a szmtsokat ellenrizni lehet.
Vilgosan elvlik az els blokkban a ngy hasonlsgi mutat, majd egy klasztert
alkot a hat tvolsgi mrszm. Az egyes mutatcsoportokon bell is lthatunk
tagozdst. A (3.9) kplettel megadhat Shape mutat sszetettsge miatt csak az
utols eltti lpsben csatlakozik a tvolsg-mrszmok csoportjhoz.
Termszetesen ez az eredmny is fgg attl, hogy milyen adatok alapjn s milyen
eljrssal hasonltjuk ssze a mutatkat. Itt binris vltozkkal jellemeztk az egyes
mrszmok tartalmt, felptst.

3.1. bra: Binris mutatk klaszterezse hasonlsguk alapjn

32
33

A Ward elv lnyegt a kvetkez alfejezet ismerteti.


Az bra tulajdonsgait a 3.1.3. alfejezet ismerteti.

KLASZTERELEMZS

55

3.1.2. sszevon eljrsok


Az SPSS-ben ht agglomeratv eljrs tallhat, melyek lnyegben hat megfontols
szerint mrik a csoportok kztti tvolsgot. Lance s Williams (1966) megmutatta,
hogy e klnbzsgek ellenre a klaszterek tvolsga a (3.15) kzs kplettel
rhat fel. A kpletben szerepl:
D(IJ,K)=I D(I,K)+J D(J,K)+ D(I,J)+ D(I,K)-D(J,K) (3.15)
Az sszevons kezdetn D(I,J) kt eredeti megfigyels kztti minimlis tvolsg.
Az I s a J egynek vagy klaszterek sszevonsa mr megtrtnt, most a K (egyn
vagy csoport) hozzkapcsolst vizsgljuk. A tovbbi lpsekben az , ,
paramterek, mint slyok megvlasztsval brmelyik sszevon eljrs
elvgezhet. A 3.3. tblzatban az egyes hierarchikus sszevon eljrsok s a
tvolsg-paramterek megfeleltetse lthat.
3.3. tblzat: Tvolsgok slyozsa 34 Lance-Williams egytthatkkal
Eljrs

1.Egyszer
lnc

1/2

1/2

-1/2

2.Teljes lnc

1/2

1/2

1/2

3.tlagos
lnc

nI /(nI +nJ )

nJ /(nI +nJ )

4. Centroid

nI /(nI +nJ )

nJ /(nI +nJ )

-IJ

5. Medin

1/2

1/2

-1/4

(nJ +nK )/(nI +nJ +nK)

-nK /(nI +nJ +nK)

6. Ward

(nI +nK )/(nI +nJ +nK)

Ez a kzs gykr a hierarchikus eljrsok egyik szp tulajdonsga, de ez okozza


az alkalmazsok sorn a legnagyobb nehzsget, mert az eltr eljrsok 35 eltr
felosztst, s gy eltr dendrogramot eredmnyeznek. Ezrt tbb vltozatban
clszer elvgezni a klaszterezst. gy, ha a klnbz eljrsokbl egymssal
sszhangban lev felosztsok addnak, akkor stabilabb a kapott feloszts. Mivel a
hierarchikus mdszereknl a korbban besorolt elemek thelyezse nem valsthat
meg, a kezdeti lpsek dnt jelentsgek.
Ms szerzk (pl. Krzanowski (2000)) amellett rvelnek, hogy a csoportostand
elemek termszett tanulmnyozva elre kell mdszert vlasztani. Ezzel elkerlhet
a sok flsleges futtats, valamint az, hogy az elzetes elvrsainknak legjobban
megfelel eredmnyt vlasztjuk. Mindkt megkzelts megfontoland, ezrt a

34

A slyok az tlagos lnc, a centroid s a Ward eljrsnl a klaszterek tagszmtl fggnek


Emlkeztetnk arra, hogy a sokfle hasonlsgi s tvolsgmrtk kztti vlaszts
lehetsge mg tovbbi klaszter-kombincikat eredmnyezhet.
35

56
mdszervlaszts megknnytse rdekben
klaszterez eljrsok fbb jellemzit.

TBBVLTOZS ADATELEMZS

tekintsk

rszletesebben

Ha a klasztereljrsok matematikai tulajdonsgait tekintjk, akkor fontos


megjegyezni, hogy az egyedek kztti tvolsgok monoton transzformcijra csak
az egyszer lnc s a teljes lnc mdszerek invarinsak 36.
A klaszterek geometriai alakja eltr az egyes eljrsoknl. Az egyszer lnc
mdszer jellemzje a lnchats, vagyis bizonyos elemeket kzbees elemek
lncolata rvn kapcsol ssze. A kzs klaszterbe kerlshez elegend az is, ha a
csoport egyetlen tagjhoz hasonlt a vizsglt egyed, gy az eljrs trsszehz
hats. A lnchats rvnyes a medin mdszernl is, ahol az utoljra kapcsold
pontnak dnt hatsa lehet a klaszterezs tovbbi menetre.
Viszonylag zrt, gmbly klasztereket kapunk, ha a teljes lnc, az tlagos lnc
vagy a centroid mdszerekkel vgezzk az osztlyozst. Ekkor egy-egy klaszter
elemei egymshoz nagyon kzeliek. A legtvolabbi szomszd elv alapjn inkbb j
klaszterek kpzdnek egy-egy kvetkez lpsben, nem a meglevk csoportokhoz
kapcsoldnak az jabb egyedek. Ezt trtgt hatsnak nevezi a szakirodalom, mg
az tlagos lnc elv trkonzervl hatsnak tekinthet. A teljes lnc mdszer
egyenl tmrj, a Ward mdszer pedig egyenl elemszm klaszterek
kialaktsra trekszik.
Ha az adatok klaszterezdse nem egyrtelm, akkor a centroid s a medin
mdszer alkalmazsa sorn problmt okozhat az inverzi elfordulsa. Ekkor az
sszevons ksbbi lpsben megtrik a monoton nvekeds, s kisebb tvolsg
addik, mint a korbbi szintek klaszterei kztt mrt legkisebb tvolsg.
Tovbbi br a klaszterezsben nem lnyegi problmt okoz az, ha a tvolsgi
vagy a hasonlsgi mtrixban megegyez elemek vannak. Ekkor klnsen az
sszevons elejn tbbfle feloszts addhat, s ez az rtelmezst nehezti.

3.1.3. Dendrogramok rtkelse, sszehasonltsa


A hierarchikus sszevon eljrsok kzs tulajdonsga, hogy az n szm egyedet
(n-1) lpsben sszevonjk egyetlen egy csoportba. Az sszevonsi folyamat
brzolsa dendrogramon trtnik. Ez egy ktdimenzis bra, melynek specilis
szerkezete van. Az egyik tengelyen az sszevont elemeket ltjuk, a msikon pedig
azt a tvolsgrtket, amelynl az sszevons megtrtnt. Kezdetben (0 tvolsgi
szinten) minden megfigyels egyedl van, a vgn (ltalban 25 maximlis
tvolsgrtkre tsklzva) mr minden pont egyetlen csoportban van. Ha tbbfle
tvolsgmrtkkel s/vagy eltr eljrsokkal is elvgezzk a klaszterezst, akkor
nagy valsznsggel klnbz dendrogramokat kapunk, amelyek hasonlsgt
meg kell vizsglni.

Pldul a tvolsgok logaritmust vve eltr feloszts s eltr dendrogram addik, ha


nem a legkzelebbi vagy a legtvolabbi szomszd elvet kvetjk.
36

KLASZTERELEMZS

57

Az sszevonsi folyamatot tkrzi maga a dendrogram, de tovbbi elemzst ignyel


a megfelel klaszterszm leolvassa. Ehhez az sszevons rendjt s
tvolsgszintjeit mutat tblzat ad informcit.

Kt dendrogramot sszehasonlthatunk gy is, hogy az sszekapcsoldsokat vetjk egybe. Az n(n-1)/2 pontprra meghatrozzuk, hogy az egyes
dendrogramokban hnyadik sszekapcsolds utn kerltek egy csoportba,
s a kt sszevonsi adatsorra korrelcit szmtunk.

Elemzi szoks a 40%-os tvolsgszint (10-es rescaled distance) alatti


csoportok szmt leolvasni, s ezt elmenteni. gy kt sszevon eljrs
eredmnye kereszttblzatban is sszevethet. Mivel a klaszter-azonostk
nominlis vltozk, a 2. fejezetben bemutatott asszocicis mrszmokkal
mrhetjk a felosztsok hasonlsgt.

Fontos azonban megjegyezni, hogy brmilyen gondosan vlasztottunk


tvolsgmrtket s klaszterez eljrst, brhogyan hasonltottuk ssze a
dendrogramokat, nem kapunk vgleges vlaszt arra a krdsre, hogy hny
csoportba sorolhat a vizsglt adathalmaz. A struktrafeltrs ezen eljrsa csak
exploratv clra alkalmas, az bra alapjn hipotzis fogalmazhat meg a
mintabeli csoportok szmra. Tovbb hatkonyan segti a dendrogram az
extrm rtkek feltrst, hiszen a magas tvolsg szinten s/vagy az
sszekapcsolds ksbbi szakaszban lthat megfigyelsek egyedi jellege
szembetn. Ismt emlkeztetjk az olvast arra, hogy a vltozkat is lehet
klaszterezni, s az sszekapcsoldsukat dendrogramon brzolni. Ekkor a
vltoz-frtkbl a dimenzicskkents lehetsges mrtkrl kapunk
statisztikai kpet.
Ha szakmai ismeretek alapjn elre tudjuk, hogy hny csoport van a vizsglt
mintban, akkor ne alkalmazzuk az agglomeratv eljrsokat, mert azok nem
alkalmasak egy vrt feloszts reproduklsra. Ilyen feladatok megoldsra
vlaszthatjuk a nem-hierarchikus klaszterezst, vagy a konkrt cltl fggen
szmos ms sokvltozs statisztikai eljrst.

3.1.4. Az sszevon algoritmus lpseinek kvetse egy mintapldn


Hat budai kerletet mutatunk be kt vltoz terben (3.2. bra), hogy egyszeren,
akr kzi szmolssal is ellenrizni tudjuk a klaszterezs folyamatt. Az brrl
leolvashat, hogy hrom kerlet (II., III. s XI.) mindkt vltoz szerint tlag feletti
rtkekkel rendelkezik, mg a msik hrom tlag alatti rtkeket r el.

58

TBBVLTOZS ADATELEMZS

3.2. bra: Hat budai kerlet kt sztenderdizlt vltoz terben


Mivel a szmtsok csak az egyszer lnc s a teljes lnc esetn kvethetk szemmel
is, ez utbbi eljrst mutatjuk be.
Euklideszi tvolsgok ngyzeit szmolva a hat kerlet kztt, a tvolsgmtrixban
kiemelve lthatk az sszevonskor szmolt tvolsgok. (3.4. tblzat)
Az els lps minden eljrsnl azonos, a minimlis tvolsg kt pont kerl
sszevonsra. Ezt pldnkban a III. s a XI. kerlet kztt ltjuk: 0, 411.
A msodik lps sorn azt nzzk, hogy III. s XI. kerlet egytt milyen tvol van a
tbbiektl. Most a legnagyobb tvolsgok - hiszen ez a legtvolabbi szomszd elv
nven is ismert - legkisebbikt keressk: ez a II. kerlet lenne: 2,096 tvolsgra a
XI.-tl (mivel 0,691 tvolsgot rt el a III. tl). De mgsem itt trtnik sszevons,
hiszen a XII. s a XXII. kerlet kztti tvolsg kisebb: 0,454.

KLASZTERELEMZS

59

3.4. tblzat: A hat kerletre pronknt mrt euklideszi tvolsgok ngyzete


Proximity Matrix
Squared Euclidean Distance

Case
Budapest
01. ker.
Budapest
22. ker.
Budapest
12. ker.
Budapest
02. ker.
Budapest
03. ker.
Budapest
11. ker.

Budapest

Budapest

Budapest

Budapest

Budapest

Budapest

01. ker.

22. ker.

12. ker.

02. ker.

03. ker.

11. ker.

,000

,502

1,637

5,119

9,066

13,335

,502

,000

,454

2,543

5,345

8,713

1,637

,454

,000

,993

3,207

5,888

5,119

2,543

,993

,000

,691

2,096

9,066

5,345

3,207

,691

,000

,411

13,335

8,713

5,888

2,096

,411

,000

This is a dissimilarity matrix

A harmadik lpsben arrl kell dntennk, hogy a mr meglv kt klaszternk (2-2


elemmel) milyen tvol van egymstl s a tovbbi kt egyedli kerlettl. Itt a
kvetkez szmok legkisebbikt vlasztjuk:
o

(III+XI) II: 2,096

(III+XI) I: 13,335

(III+XI) (XII+XXII): 8,713

(XII+XXII) II: 2,543

(XII+XXII) I: 1,637

A negyedik lpsben ismt a kt klaszternk s a mg egyedl ll II. kerlet kztti


maximlis tvolsgokat vesszk szemgyre, de a legkisebb tvolsgot vlasztjuk:
o

(III+XI) II: 2,096

(XII+XXII+I) II: 2,543

Az tdik lps az utols, mivel hat kerlet van a pldban. Az eddigi lpsek miatt
itt mr csak a kt klaszter kztti tvolsg meghatrozsa maradt htra. Nem volt
extrm helyzet kerlet, amelyik eddig nem kapcsoldott sehov.
o

(III+XI+II) (XII+XXII+I): 13,335

60

TBBVLTOZS ADATELEMZS

Az sszevons menett a 3.5. tblzat s a 3.3. bra is mutatja. Mivel az utols


lpsben nagyot n a klaszterek kztti bels tvolsg, rdemes kt klasztert
megklnbztetni.
3.5. tblzat: A hat kerlet sszevonsa 5 lpsben
Agglomeration Schedule
Stage Cluster First
Cluster Combined
Stage

Cluster 1

Appears

Cluster 2

Coefficients

Cluster 1

Next

Cluster 2

Stage

11

,411

22

12

,454

12

1,637

2,096

13,335

3.3. bra: A hat kerlet kapcsoldsa alapjn kt klaszterbe sorolhat

KLASZTERELEMZS

61

3.2. Nem-hierarchikus klaszterezs


A nem-hierarchikus mdszerek kzl a leggyakrabban alkalmazott s a
hierarchikus klaszterezshez a leghasonlbbak a diszjunkt klasztereket elllt
partcionl mdszerek. A klnbz eljrsok ltalnos menete a kvetkez:

a kezdeti klaszterek kialaktsa, s az egyedek 37 sztosztsa az euklideszi


tvolsg 38 szerinti legkzelebbi kezd klaszterbe,

j klaszterkzppontok szmtsa,

az egyedek tsorolsa a legkzelebbi kzpponthoz.

Az iterci, a klaszterek kztti mozgs addig folytatdik, amg vltoznak a


kzppontok.
Az els s a msodik lps vgrehajtsa tbbflekppen trtnhet, ezrt tbb
eljrsvltozat ismert.
A kezdeti klaszterek kialaktst a csoportok k szmnak a megadsval kezdjk. A
megfelel k megvlasztsa szakmai tapasztalaton vagy korbbi statisztikai
elemzsen (pl. hierarchikus klaszterezsen) alapulhat. Az SPSS-ben a MacQueen
fle k-kzppont klaszterezs 39 vgezhet.

A k-kzppont klaszterezs rtelmezse kt f krdst vet fel.


1.

A csoportszm megfelel-e? Az egyedek arnyos sztosztsa a klaszterek


kztt nem kvetelmny, de a nagy arnytalansg fontos informcit
hordoz. Az egyelem klaszterek a kilg, a tbbiektl nagyon eltr
tulajdonsg egyedek ltre vagy tl magas csoportszmra
figyelmeztetnek. A nagy elemszm pedig azt jelzi, hogy rdemes a
csoportszm nvelsvel megismtelni a klaszterezst.
A klaszterkzppontok s a kztk lev euklideszi tvolsgok ellltsa is
segti az rtelmezst s a klaszterek megklnbztetst. Ezt
kiegszthetjk azzal, hogy az egyes egyedeknek a sajt klaszterk
kzppontjtl mrt tvolsgt is meghatrozzuk. A tvolsgok alapjn
dnthetnk az egyes csoportok sztvgsrl vagy sszevonsrl, azaz a k
nvelsrl vagy cskkentsrl.

2.

37

A vltozk szignifikns szerepet jtszanak-e az osztlyozsban? Az


egyedek osztlyozsn tl vizsglhat az is, hogy a figyelembe vett p
vltoz mindegyike jelents szerepet jtszott-e a klaszterek

Itt csak a megfigyelsek klaszterekbe sorolsa lehetsges. A vltozk csoportostsa nem


vlaszthat.
38
Ebben a Quick-cluster-nek is nevezett eljrsban tvolsgmrtk sem vlaszthat.
39
A kzppontok vltozsa itt kvethet:
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html

62

TBBVLTOZS ADATELEMZS

megklnbztetsben. Az egyes klaszterek varianciit kiszmolva a


csoportok alakjt hasonlthatjuk ssze, mivel az azonos varianciakovariancia mtrix azonos alakot jelez. A szrselemzs (F-prba) 40
segtsgvel kivlaszthatjuk a csoportokat elklnt vltozkat, s gy akr
dimenzicskkentst is vgrehajthatunk a kvetkez lpsben.
Ezekre az rtelmezsi krdsekre rszben vlaszt kaphatunk, ha elksztjk a
klaszterknyk brzolshoz szksges szmtsokat:
a) Elszr k=2 belltssal klaszterelemzst ksztnk, s a szrsfelbont
(ANOVA) tblzatban ellenrizzk a vltozk megklnbztet erejt.
i.

Ha a vltozra vonatkoz parcilis F statisztika alacsony, azaz az


empirikus szignifikancia szint meghaladja a 0,05-t, akkor a vltoz
elhagysval megismteljk a futtatst.

ii.

Ha minden vltoz megklnbztet ereje elgsges, azaz az


empirikus szignifikancia szintek kisebbek, mint 0,05-t, akkor
elmentjk a klaszterazonostkat.

iii.

Az elmentett klaszterazonostkat kategriakpz vltozknt


hasznlva a szignifikns vltozkra szrsfelbontst vgznk. Az
ANOVA tblzatbl rendre sszegezzk a vltozkra szmolt kls
eltrsek ngyzetsszegt, majd a teljes eltrsek ngyzetsszegt,
s a kt sszeg hnyadost kpezzk. gy megkapjuk a
klaszterezssel megmagyarzhat eltrsek hnyadt.

b) Elvgezzk k=3,4,5-re az elz lpssorozatot. A maximlis


lpsszm/klaszterszm egy hvelykujj szably 41 szerint a mintamret (n) felnek a
gyke, azaz k n 2 .
c) Az ANOVA tblzatbl k=2,3,4.re kpzett hnyadosokat brzoljuk, s
megllaptjuk, hogy a k szm mentn meddig emelkednek 42 hatrozottan a
megmagyarzott eltrsek.

3.3. A klaszterelemzs eredmnynek rtkelse


A klaszterez eljrsok nagyon npszerek, sokfle terleten alkalmazzk az
ismeretlen adatstruktrk feltrsra. Ennek rszben az az oka, hogy sem a
hierarchikus, sem a nemhierarchikus klaszterezshez nem tartoznak matematikai
elfelttelek. Ugyanakkor nem rendelhet hozz clfggvny sem, amivel az
Csak ler s nem tesztknt val alkalmazsrl van sz, mert a matematikai elfelttelek
(normlis eloszls s azonos csoport-variancik) teljeslst nem vizsgljuk.
41
Ezt a gyakorlati szablyt fell kell brlnunk akkor, ha sok egyedi megfigyelsnk van,
amelyek 1-1 elem klasztereket alkotnak.
42
Ha a monoton nveked rtkek sorban a nvekeds lelassul, akkor nem rdemes tbb
klasztert kpezni.
40

KLASZTERELEMZS

63

osztlyozs jsga mrhet lenne. Ezrt, mieltt a szmtgpes megvalstsra


trnk, sszefoglaljuk a klaszterezssel kapcsolatos legfontosabb megllaptsokat
s kvetelmnyeket, amelyek tmpontot jelenthetnek a kapott eredmnyek
rtkelsben.

Nyilvnval kvnalom, hogy a klaszterezs eredmnye fggetlen legyen a


megfigyelsek sorrendjtl.

Ezt a kvetelmnyt nem teljesti az SPSS Quick-cluster eljrsa. A


Kerletek2010.sav megadott adatllomnyon elvgezhet az ellenrzs. Ha k=3
belltssal sztenderdizlt vltozk terben klasztereznk, akkor ms s ms
eredmnyt kapunk, ha az abc-ben felsorolt megfigyelseket klaszterezzk, vagy ha
az adatllomny vltozi kzl brmelyik szerint nvekv sorrendbe rendezzk a
klaszterezs eltt az adatokat. Eltrseket tapasztalunk a hrom kezdpontban, a
magpont megvlasztsa teht rzkeny az adatok sorrendjre. De eltr a vgs
feloszts s a klaszterek elemszma is!

Jl definiltak legyenek a klaszterek abban az rtelemben, hogy azonos


megfigyelt adatokbl azonos felosztst kapjunk. Ha vannak egyenl
tvolsg illetve hasonlsgi rtkek, akkor az eljrs nknyesen vlaszt
kzlk, s emiatt ez a tulajdonsg tbb eljrsnl nem teljesl.

A folytonossg kvetelmnye az, hogy az adatokban bekvetkez kis


vltozsok kis vltozst eredmnyezzenek a felosztsban.

A stabilits kvetelmnye azt jelenti, hogy ha egy egyedet elvesznk vagy


hozzadunk a megfigyelsekhez, akkor az osztlyozsban nagyon kis
vltozs kvetkezzen be. Ez egy lncban sszekt kapcsot kpez pont
esetben nem teljesl. A stabilitsi kvetelmny rsznek tekinthet az az
elvrs is, hogy ha egy klaszter minden egyedt (hierarchikus esetben a
dendrogram egy gt) kihagyjuk, akkor a tbbi elem tagozdsa invarins
legyen erre a vltoztatsra.

Gyakori kvetelmny, hogy az osztlyozs eredmnye invarins legyen a


klnbzsgek monoton transzformcijra. Itt emltjk meg az adatok
lineris transzformcijra val invariancia kvetelmnyt is, amely
pldul a sztenderdizlt adatok hasznlatt teszi lehetv. Ha a vektorok
hajlsszgnek koszinuszbl szmtunk tvolsgot, akkor a pontok kztti
tvolsg nem arnyosan vltozik.

A klaszterek rvnyessge (validitsa) ngy kritrium alapjn vizsglhat.


Kls kvetelmnyknt rtelmezhet az, ha ismert csoportokba tartoz
egyedekbl vesznk mintt, s arra vgezzk el a klaszterezst. Bels
kvetelmnynek tekinthetk azok a mutatk, amelyekkel az eredeti s a
szrmaztatott tvolsgok illeszkedst mrjk. Harmadik megkzeltst
jelent a megismtelhetsg kritriuma, amelynek lnyege a kettosztott
megfigyelsek klaszterezse s a felosztsok sszevetse. A klaszterek
rvnyessgnek relatv kritriuma az adatmtrix tbb eljrs szerinti

64

TBBVLTOZS ADATELEMZS

klaszterezst, s a felosztsok kztti egyezs mrst fogalmazza meg, de


csak jl elklnl s gmb alak struktrk esetben tekinthetjk az
egyez felosztsokat gy, mint amelyek a termszetes csoportok ltt
igazoljk.

A robusztussg kvetelmnye a kilg pontok hatsnak cskkentst


jelenti. Ha tbb nem tipikus, tvoli pont van a mintban, akkor ezek
jelentsen befolysolhatjk a felosztst olyan eljrsok esetben, amelyek a
bels eltrs-ngyzetsszeget minimalizljk. Ilyenkor a csoportokon belli
azonos kovariancia-struktra feltevse tves lehet, pedig az optimalizl
eljrsok csak azonos alak csoportok feltrsra alkalmasak.

A klaszterelemz mdszerek s a szmtgpes eljrsvltozataik alkalmazsval


kapott csoportostsok rtelmezse s rtkelse nagy szakmai felkszltsget s
krltekintst ignyel. rdemes ms sokvltozs mdszereket, pldul
sokdimenzis sklzst (8. fejezet) s diszkriminancia analzist (7. fejezet) is
vgezni, hogy a minta szerkezetrl megbzhat megllaptsokat fogalmazhassunk
meg.

3.4. A megvalsts lpsei az SPSS-ben


Az ANALYZE/CLASSIFY ton elindulva a hierarchikus s a nem-hierarchikus
mdszerek kzl kell elszr vlasztanunk. A struktrafeltrs logikja miatt a
hierarchikus klaszterezs eljrsaival kezdjk a futtatst.

3.4.1. Hierarchikus klaszterezs


Elszr azokat a vltozkat kell kivlasztani, amelyeket csoportostunk, vagy
amelyek terben csoportostjuk a megfigyelseket. A LABEL-ben cimkt,
azonostt rendelhetnk a megfigyelsekhez.
Ezt kveten 4 parancsgomb alatt trulnak fel a vlasztsi lehetsgek.
1) STATISTICS/Statisztikk:
i.

Az sszevons menett mutatja az Agglomeration schedule. Ha krjk,


akkor lthat, hogy az sszekapcsolskor mennyi volt az egyedek kztti
tvolsg. Ebbl szrevehet az inverzi fellpse.

ii.

Az indul tvolsgi vagy hasonlsgi mtrixot Proximity matrix nven


lthatjuk.

iii.

Ha van elkpzelsnk a bels tagozdsrl, akkor a Solution-ben


adhatjuk meg a konkrt szmot. Berhat egyetlen szm: Single(=k),
vagy egy tartomny: Range (2 s n-1 kztt), de resen hagyva is
elkszl a klaszterezs.

2) PLOTS/brk:

KLASZTERELEMZS

65

A kapcsolds szintjt s menett mutat dendrogram krhet 43 braknt.


Az bra csak kisebb feladatokra ltvnyos, 50-nl tbb megfigyelsre egy
kpernyn nem tekinthet t.
3) METHODS/Mdszerek: Itt 7 eljrsbl vlaszthatunk, s tovbbi fontos
belltsokat tehetnk meg.
3a) Az eljrsok

tlagos lnc a csoportok kztt 44 (ez az alaprtelmezs az SPSS-ben)

tlagos lnc a csoportokon bell 45

Legkzelebbi szomszd vagy egyszer lnc

Legtvolabbi szomszd vagy teljes lnc

Centroid eljrs

Medin eljrs

Ward eljrsa

3b) Tvolsgi vagy hasonlsgi mrtk vlasztsa


Itt nylik md a mrsi skla figyelembe vtelvel a tvolsgi vagy a hasonlsgi
mrtket megjellsre, s a klnbz mrtkegysgek miatt indokolt
sztenderdizlsra:

Measure: Interval, Counts, Binary

Standardize: 7 flekppen szrhet ki a mrtkegysg.

4) SAVE/Ments: Elmenthetjk azt az egy vagy tbbfle felosztst, amit az


indulskor az 1) lps szerint iii.-ben megadtunk.

3.4.2. Nem-hierarchikus klaszterezs, k-kzppont eljrs


Ekkor a klaszterek szmt (k) szakmai ismeretek vagy a hierarchikus klaszterek
brja alapjn elre meg kell adni.
A futtats belltsa:
1.

Vltozk kivlasztsa

2.

Label: megnevezsek feltntetse

3.

Number of clusters: klaszterek szma (default=2)

Icicle nev diagramot is kaphatunk, de a kpernyn s nyomtatsban is ttekinthetbb a


dendrogram.
44
Az sszevonand n s m elem csoportokra nxm tvolsg tlagt szmolja.
45
Az n s az m elem csoportok tvolsgainak tlagt az elemek egyestse utn (n+m)(n+m)
elemre szmolja.
43

66

TBBVLTOZS ADATELEMZS

4.

Method/Mdszer ktfle lehet:


a.

Iterate and classify= iterci sorn a besorolt elemekre j


klaszterkzppontot szmol, jra besorolja a mintaelemeket

b. Classify only: a kezdeti kzppontokhoz val kzelsg szerint


sztosztja a mintt, nem keres j magpontokat.
5.

Iterate/Iterci: Ha krnk itercit, azaz a 4.a. szerint haladunk, akkor mg


tovbbi kt lehetsget knl fel az SPSS. Itt vlaszthat a folyton vltoz
tlag: Use running mean
a.

Default = nem krjk. Ekkor az sszes elem sztosztsa utn


szmol klaszter kzppontokat.

b.

Ha krjk, akkor minden egyes elem besorolsa utn kiszmolja a


klaszterek centrumait, mieltt a tovbbi elemek osztlyozsra sor
kerl.

6.

Save/Ments: Cluster membership = a klaszter azonost szmokat s


Distance from cluster center = a klaszterkzpponttl mrt tvolsgokat
hozzrendeli minden egyes megfigyelshez.

7.

Options/Lehetsgek: Itt tovbbi fontos statisztikkat kapunk.


a.

A kezdeti (Initial) klaszter-kzppontokat felsorolja.

b.

Krsre megkapjuk vltoznknt a klaszterek kztti s a


klaszteren belli eltrsngyzetsszegek hnyadost is tartalmaz
ANOVA tblt az F-teszttel. A magas F rtk (alacsony
szignifikancia szint mellett) parcilisan jelzi az egyes vltozk
megklnbztet erejt. Itt az F-prbt nem egy nullhipotzis
ellenrzsre hasznljuk. (Nem gy rtelmezzk, mint a
szrselemzsnl, ahol a nullhipotzis az lenne, hogy a
csoporttlagok kztt nincs klnbsg.)

c.

Minden elemre kirathatjuk a kpernyre annak a klaszternek a


szmt, ahov besorolst nyert.

d.

Megkapjuk a monitoron az euklideszi tvolsgot minden


megfigyels s a sajt kzppontja kztt, tovbb a kzppontok
kztt is.

3.5. Teleplsek klaszterezse


E fejezet clja az elmleti tuds elmlytse s tapasztalatszerzs a gyakorlati
megvalstsban. Ezrt a knyvhz tartoz adatllomnyok kzl az 50 telepls
(23 budapesti kerlet s 27 krnyez telepls) 2010-es adatait hasznlva a
szmtsok elvgzse utn vlaszoljon a kvetkez krdsekre. A sajt eredmnyeit
vesse ssze a kzlt megoldssal.

KLASZTERELEMZS

67

1) krds: Hny csoportot/dimenzit alkotnak a vltozk?


A megolds lpsei:
A sztenderdizlt vltozkat hierarchikus klaszterezssel vizsgljuk, tbb
dendrogramot ksztnk. Tbb intervallum sklra alkalmas tvolsgmrszm
kivlasztsa is indokolt. A binris vltozkat kln kell elemezni, hiszen
egyidejleg nem lehet ktfle tvolsgmrtket vlasztani.
2) krds: Hogyan tagoldnak a teleplsek? Valban elvlik egymstl a 23
kerlet s a tbbi Budapest krnyki telepls? Milyen klaszterszmot
rdemes felttelezni?
A megolds lpsei:
A sztenderdizlt vltozk terben hierarchikus klaszterezssel vizsgljuk a
teleplseket, ismt tbb eljrst alkalmazunk, tbb dendrogramot ksztnk. Tbb
intervallum sklra alkalmas tvolsgmrszm kivlasztsa is indokolt.
3) krds: Ha k=2 belltssal kszt k-kzp klaszterezst, akkor a telepls
tpussal azonosnak tekinthet feloszts addik?
A megolds lpsei:
Az elzetesen sztenderdizlt vltozk terben k=2 klaszterezssel besoroljuk a
teleplseket. Megvizsgljuk az ANOVA tblzatbeli F-teszt s p szignifikancia
szint alapjn, hogy minden vltoznak van-e megklnbztet ereje. A nemszignifikns vltozkat elhagyva megismteljk a klaszterezst, s elmentjk a
klaszter-azonostkat. Vgl kereszttblzatban sszevetjk a telepls jellege s a
klaszterazonostk alapjn kapott besorolst.
4) krds: Hny klasztert rdemes megklnbztetni?
A megolds lpsei:
Klaszterknyk keresse a 3.2. alfejezetben lertak szerint.

Az eredmnyek rszletes bemutatsa


1) krds eredmnyei: Hny csoportot/dimenzit alkot a 16 vltoz?
A ler statisztikk 3.6. tblzatbl 46 lthat, hogy a relatv szrs (Szrs/tlag)
sehol sem ri el a kettt, teht kilg, nagyon extrm rtket mutat teleplsek
nincsenek. A vltozk nagy rsze pozitv ferdesg, csak 5 vltoz tekinthet
szimmetrikus eloszlsnak. Hrom vltoz ersen cscsos, a tbbi alakja nem
szignifiknsan tr el a haranggrbtl.

Helytakarkossg miatt trltk a 3. tblbl, hogy sszesen 50 megfigyelsbl szmoltuk


minden vltoz statisztikai mutatit, egyiknl sincs hinyz rtk.

46

68

TBBVLTOZS ADATELEMZS
3.6. tblzat: Ler statisztikai mutatk rtkei

KLASZTERELEMZS

69

Az elkszt lps, a vltozk sztenderdizlsa utn is tbb dntsi pontunk van.


a) A vltozkat a szmtsok elvgzse eltt s a hierarchikus klaszterezsen bell is
sztenderdizlhatjuk.
Ez csak akkor vltoztatja meg az eredmnyeket, ha vannak hinyz adatok.
Az elzetes sztenderdizlsban minden vltozra felhasznljuk az sszes
elrhet adatot, azaz klnbz megfigyelsszm lehetsges. Mg a bels
sztenderdizls sorn a kzs, hinytalan adatllomny kerl
felhasznlsra.
b) Az elemzsben szerepl vltozk kztt tvolsgot s hasonlsgot is mrhetnk.
Ettl fggen eltr sszevonsi adatokat kapunk. Az Agglomeration Schedule a
3.7. tblzatban azonos sorrendben s 15 lpsben kapcsoldik ssze a 16 vltoz a
ngyzetes euklideszi (nvekv) tvolsg s a cskken hasonlsgot jelz
korrelcis egytthat alapjn.
Az 1. szm vltoz, a Terlet mrszm elklnl a tbbi vltoztl, csak az utols
hrom lpsben kapcsoldik a tbbiekhez.
c) Az sszevonsi struktrt mutat dendrogramon mindig 25 a maximlis tvolsg,
brmilyen mutatt s eljrst vlasztunk. Itt az tlagos lnc elv klaszterezs
brjt 47 mutatjuk be, behzva a 40%-os tvolsgi szintvonalat. A 3.4. bra azt jelzi,
hogy kt nagyobb vltozcsoportunk van, s kt vltoz (Terlet s llskeresk
arnya) tvol van / nem korrell a tbbiekkel s egymssal sem.
Az els nagy klaszterben 10 vltozt tallunk, amelyek a teleplseken mrt
ltszmot, mretet mutatnak. Mg a msodik klaszterben ngy olyan vltoz van,
amelyek ltszmarnyos mutatk.
A 16 vltoz teht nem kpezhet le 2 dimenziba a kt kilg, magasabb
tvolsgnl kapcsold vltoz miatt, de a tbbi 14 vltoz hatrozottan kt
csoportba klnthet el 48.

47

Ezen az adatllomnyon azonos az bra, ha a tvolsg- s a hasonlsgmrtket


vltoztatjuk, vagy ha elzetesen sztenderdizljuk az adatokat. A msodik esetben minden
vltoz z-score-ja szerepel feliratknt.
48
Ez hasznos informcit jelent a ksbbi faktorelemzshez (6. fejezet).

70

TBBVLTOZS ADATELEMZS
3.7. tblzat: Az sszevons lpsei
Agglomeration Schedule

Cluster Combined

Stage

Sq. Euc.

Stage Cluster

Distance

First Appears

Cluster

Cluster

Coefficient

Cluster

Cluster

Next

Correlation

Stage

Coefficients

,947

,990

1,970

,980

4,078

,958

13

14

5,874

,940

6,697

10

,932

12

15

8,304

,915

11

9,116

,907

11,276

10

,885

12

13

12,077

15

,877

10

14,156

11

,856

11

22,933

10

12

,766

12

10

31,518

11

14

,678

13

16

87,459

14

,108

14

94,310

13

12

15

,038

15

12

132,195

14

-,349

c) Az sszevonsi struktrt mutat dendrogramon mindig 25 a maximlis tvolsg,


brmilyen mutatt s eljrst vlasztunk. Itt az tlagos lnc elv klaszterezs
brjt 49 mutatjuk be, behzva a 40%-os tvolsgi szintvonalat. A 3.4. bra azt jelzi,
hogy kt nagyobb vltozcsoportunk van, s kt vltoz (Terlet s llskeresk
arnya) tvol van / nem korrell a tbbiekkel s egymssal sem.

49

Ezen az adatllomnyon azonos az bra, ha a tvolsg- s a hasonlsgmrtket


vltoztatjuk, vagy ha elzetesen sztenderdizljuk az adatokat. A msodik esetben minden
vltoz z-score-ja szerepel feliratknt.

KLASZTERELEMZS

71

Az els nagy klaszterben 10 vltozt tallunk, amelyek a teleplseken mrt


ltszmot, mretet mutatnak. Mg a msodik klaszterben ngy olyan vltoz van,
amelyek ltszmarnyos mutatk.
A 16 vltoz teht nem kpezhet le 2 dimenziba a kt kilg, magasabb
tvolsgnl kapcsold vltoz miatt, de a tbbi 14 vltoz hatrozottan kt
csoportba klnthet el 50.

3.4. bra: A vltozk sszekapcsoldsa az tlagos tvolsgok alapjn


Gondoljunk arra is, hogy ha kihagyjuk a Terlet s llskeresk arnya vltozkat,
akkor a tbbi 14 vltoz kztti tvolsg fogja hasonlan kitlteni a dendrogramon a
helyet, mert a maximlis tvolsg e kt csoport kztt lthat.
Msodik dendrogramknt a sztenderdizlt vltozkra Ward eljrssal kpzett
klasztereket mutatjuk be. A vltozk klaszterezdse hasonl, teht stabilan
elvlnak az eredeti s az egy fre vettett mutatk. Mivel a Ward eljrs a bels
50

Ez hasznos informcit jelent a ksbbi faktorelemzshez (6. fejezet).

72

TBBVLTOZS ADATELEMZS

eltrsek ngyzetsszegt minimalizlja, itt a maximlis rtke 451,676, ez tartozik


a 25 tvolsgszinthez a 3.5. brn.

3.5. bra: A vltozk sszekapcsoldsa az eltrs-ngyzetsszegek alapjn


2) krds eredmnyei: Hogyan tagoldnak a teleplsek? Valban elvlik egymstl
a 23 kerlet s a tbbi 27 Budapest krnyki telepls? Milyen klaszterszmot
rdemes felttelezni?
A klaszterezshez nem tartozik hvelykujj szably, hogy hny vltozt s hny
megfigyelst clszer hasznlni, ezrt elkszthetjk a teljes 16 dimenzis
vltoztrben kpzett telepls-dendrogramot. Az euklideszi tvolsg ngyzetre az
tlagos lnc elv sszekapcsols (3.6. bra) inkbb 3 klasztert mutat, mint kettt.
Egyrszt hatrozottan elklnl a fvros XI. s XIII. kerlete, msrszt a fvroson
kvli teleplseket s a tbbi kerletet is rdemes megbontani. A 10, mint vgsi
szint nem elrs, most tlsgosan nagy s heterogn klasztert jelentene, ha egytt
vizsglnnk a 48 teleplst. Ezrt a 9-es szint alatt olvassuk le a klaszterszmot,
pldnkban a hrmat.

KLASZTERELEMZS

73

Ellenrzst jelent a msik tvolsgi mutat vagy a msik klaszterez eljrs


alkalmazsa. A Ward elv mentn kpzett telepls-klaszterek (3.7. bra)
egyrtelmen 2 csoportot mutatnak, s itt mr les a budapesti kerlet nem fvros
kettvls. Ha azonban kisebb bels eltrseket engednk meg, azaz homognebb
klasztereket keresnk, akkor (8-as vgsi szinten) hrom klaszter klnbztethet
meg. gy ngy (nagy) budapesti kerlet elklnl a fvros tbbi rsztl.
Ha a legtvolabbi szomszd elvet vlasztjuk, akkor is 3 klaszter lthat a
dendrogramon, de a XI. s XIII. kerlet elvllsa mellett nem a fvros tbbi
telepls a metszs alapja, hanem tovbbi 2-5 kisebb, de vegyes klasztert kapunk.
Nem rejtjk vka al azt, hogy a vlasztsi dntsek eredmnyre gyakorolt hatsa
risi. Ha pldul az euklideszi tvolsg (ngyzete) helyett csak abszolt rtkes
eltrst vlasztunk, azaz a nagy eltrseket nem slyozottan vesszk figyelembe,
akkor teljesen megvltozik az bra.
Az elemz felelssge teht risi, hogy hnyfle szmtst kszt, s vgl melyik
megoldst tekinti a tovbbi elemzshez j alapnak. A hierarchikus klaszterezssel
teht csak egy feltevst kapunk a klaszterszmra, amit elmenthetnk, s ez alapjn
tovbb vizsgldunk. Most az tlagos lnc elv 3 klasztert s a Ward mdszer 2-3
klasztert is elmentjk.

74

TBBVLTOZS ADATELEMZS

3.6. bra: A teleplsek sszevonsa tlagos lnc elven

KLASZTERELEMZS

3.7. bra: A teleplsek sszevonsa Ward mdszervel

75

76

TBBVLTOZS ADATELEMZS

3) krds eredmnyei: Ha k=2 belltssal kszt k-kzp klaszterezst, akkor a


telepls tpussal azonosnak tekinthet feloszts addik?
Az elzetesen sztenderdizlt vltozk terben k=2 klaszterezssel besoroljuk a
teleplseket. A magpontokhoz val besorols 9 itercis lpsben lezrul, s az
ANOVA tblzatbeli F-teszt s p szignifikancia szint alapjn kt vltoznak nem
szignifikns a megklnbztet ereje. Ezrt a Terlet (p=0,233) s az llskeresk
arnya (p=0,555) elhagysval 14 vltoz terben megismteljk a 8 lpses
klaszterezst, s mivel minden vltoz megklnbztet ervel rendelkezik,
elmentjk a klaszter-azonostkat.
A szrsfelbontst mutat ANOVA tblzat (3.8. tblzat) megadsa csak ler
clokat szolgl, a klaszterkpzsben nem kerl sor hipotzisvizsglatra. Mivel nem
ttelezzk fel, hogy a csoporttlagok megegyeznek, nem is vizsgljuk az F-teszt
elfeltteleinek 51 teljeslst. Az azonban kiolvashat a 3.6. tblzatbl, hogy a
legersebben megklnbztet vltozk a Npessgszm (F=117,476), majd a
Laksllomny (F=110,563), tovbb hasonl ert kpvisel az nkormnyzati
bevtel (F=96,613) s az llskeresk szma (F=95,990).

Teht nem kell ellenrizni a vltozk szerinti normlis eloszlst s a


csoportonknti azonos variancit.
51

KLASZTERELEMZS

77

3.8. tblzat: A vltozk klaszterek kztti s klaszteren belli eltrsngyzetsszegei


ANOVA
Cluster

Error

Mean
Square

Mean
df

Square

df

Sig.

Zscore(Npessgszm)

34,786

,296

48

117,476

,000

Zscore(Odavndorls)

16,659

,674

48

24,726

,000

Zscore(Elvndorls)

25,157

,497

48

50,646

,000

Zscore(llandodavndorls)

17,241

,662

48

26,059

,000

Zscore(llandelvndorls)

26,362

,472

48

55,895

,000

Zscore(nkormnyzatibev)

32,736

,339

48

96,613

,000

Zscore(Vendglthely)

28,776

,421

48

68,297

,000

Zscore(Laksllomny)

34,167

,309

48

110,563

,000

Zscore(ptettlaksok)

8,563

,842

48

10,165

,003

Zscore(llskeresk)

32,666

,340

48

95,990

,000

Zscore(Odavanperfo)

18,797

,629

48

29,873

,000

Zscore(Elvanperfo)

25,881

,482

48

53,733

,000

Zscore(llElvanperfo)

22,046

,562

48

39,260

,000

Zscore(llodavanperfo)

22,298

,556

48

40,084

,000

The F tests should be used only for descriptive purposes because the clusters have been
chosen to maximize the differences among cases in different clusters. The observed
significance levels are not corrected for this and thus cannot be interpreted as tests of the
hypothesis that the cluster means are equal.

A feloszts szerint az 1. klaszterbe tartoz 28 telepls kisebb npessg, mint az


tlag 52, kevesebb ott a laks, a bevtel, a vendgl, tovbb abszolt szmban az
tlagnl kisebb ott a vndorls, de a kisebb ltszmra vettve arnyaiban tlag feletti
az oda- s elvndorls. (3.9. tblzat)
A 2. klaszterbe a tbbi 22 telepls kerlt, amelyek az els 10 vltoz szerint az
tlagnl nagyobbak, mg az utols 4 vltoz szerint az tlagnl kisebb rtkekkel
brnak.

A sztenderdizlt vltozk hasznlata azrt is elnys, mert gy az eljel mutatja, hogy a


zrus tlaghoz kpest milyen tulajdonsggal rendelkeznek a klaszterek.

52

78

TBBVLTOZS ADATELEMZS
3.9. tblzat: A klaszterkzppontok vltoznknt szmtott rtkei
Final Cluster Centers
Cluster
1

Zscore(Npessgszm)

-,73935

,94100

Zscore(Odavndorls)

-,51165

,65120

Zscore(Elvndorls)

-,62875

,80023

Zscore(llandodavndorls)

-,52051

,66247

Zscore(llandelvndorls)

-,64363

,81916

Zscore(nkormnyzatibev)

-,71723

,91284

Zscore(Vendglthely)

-,67245

,85585

Zscore(Laksllomny)

-,73274

,93258

Zscore(ptettlaksok)

-,36683

,46688

Zscore(llskeresk)

-,71646

,91186

Zscore(Odavanperfo)

,54349

-,69172

Zscore(Elvanperfo)

,63773

-,81165

Zscore(llElvanperfo)

,58859

-,74912

Zscore(llodavanperfo)

,59195

-,75339

A krdsre vlaszolni tudunk, ha kereszttblzatban sszevetjk a telepls jellege


s a klaszterazonostk alapjn kapott besorolst. Az agglomercibl a 2.
klaszterbe, a nagyok kz sorolt telepls rd, mg a fvrosi kerletek kzl
kett kerlt az 1. klaszterbe: az I. s a XXIII. kerlet, amelyek valban mind a 10
mretmutat szerint kisebbek, mint a Budapest tbbi kerlete. (3.10. tblzat)
A ktfle felosztsra a fggetlensgi hipotzist elvetjk (khi-ngyzet teszt rtke
38,681, p=0,000) s az asszocici a Phi s a Cramer V mutatra azonosan 53 nagyon
szoros: 0,880 (p=0,000)

53

A 2x2 tblzat szabadsgi foka 1, ezrt egyezik meg itt a kt mutat.

KLASZTERELEMZS

79

3.10. tblzat: A teleplsek s a klasztertagok kereszttblja


Kerlet * Cluster Number of Case Crosstabulation
Count
Cluster Number of Case
1
Kerlet

Agglomerci
Kerlet

Total

Total

26

27

21

23

28

22

50

Mg egy ellenrzsi lehetsget rdemes hasznlni arra, hogy valban stabil-e a kt


klaszteres feloszts. A teleplsekre elmenthet, hogy mekkora a sajt
klaszterkzppontjuktl mrt tvolsguk. Ezeket pedig dobozdiagramon (3.8. bra)
brzolva ltjuk, hogy a kt klaszter kzel azonos bels homogenitssal br, hiszen
azonos mretek a dobozok s kzel azonos a tvolsgok medin vonala. Az eltrs
csak annyi, hogy a 2. klaszterbe tartoz XI. s XIII. kerletek tvolabb vannak a
kzpponttl. Ha kettrl hromra, ngyre vagy tre emeljk a klaszterszmot,
akkor is e kerletek alkotnak nll klasztert. (Hrom klaszter esetn mg a XIV.
kerlet csatlakozik hozzjuk.) Ilyen dobozdiagramot rdemes a klaszterek szerinti
bontsban az eredeti vltozkra is kszteni. Akkor vilgosan lthat, hogy az
ANOVA tblzat szerint szignifikns vltozk dobozai eltr magassgban vannak.

3.8. bra: A kt klaszterben mrt bels tvolsgok

80

TBBVLTOZS ADATELEMZS

4) krds eredmnyei: Hny klasztert rdemes megklnbztetni?


Az n=50 elemszm miatt maximum 5 klasztert rdemes ellltani. A k=3,4,5
futtatsokat a 3) lps szerinti belltsokkal megismteljk, s az eredmnyeket
elmentjk.
Ezt kveti a csoporttlagok sszehasonltsa az egy-utas ANOVA tblk
alapjn. Azrt nem tbbvltozs (MANOVA) eljrst alkalmazunk, mert
rdemes megnzni minden vltoz parcilis hozzjrulst a csoportok kztti
klnbsghez.
A kls klaszterek kztti eltrsek ngyzetsszege s a teljes a minta
egszre mrt eltrsek ngyzetsszege a klaszterek ltal megmagyarzott
eltrsek hnyadt adja meg. Ez a mrszm csak kln szmtssal, pldul
EXCEL-ben kpezhet, ezrt az SPSS output tblkra kattintva EXPORT
menpontsal kimsoljuk az ANOVA tblkat. Az sszegzsek utn elkszthet
a klaszterknyk bra, amely mutatja, hogy tovbbi klaszterek ellltsval
mennyivel nvelhet a magyarzott eltrsek hnyada. (3.9. bra)
Kt klaszter kpzsvel a klnbsgek 50%-t, hrom klaszterrel pedig 64%-t
tudjuk megmagyarzni. A tovbbi klaszterek ellltsa mr kisebb arny s
mrtk nvekedst eredmnyez, ezrt a hromklaszteres megoldst fogadjuk
el.
Klaszterknyk

magyarzott eltrsek ngyzetsszege

0,80
0,765

0,75
0,714

0,70
0,65

0,648

0,60
0,55
0,505

0,50
0,45
2

klaszterek szma

3.9. bra: A klaszterszmok s a magyarzott eltrsek kapcsolata


sszegzsl rdemes figyelni arra, hogy a klaszterek ltalban nem
rangsorolhatk. A 3.11. tblzatban megmutatjuk a hrom klaszterre kapott
kzppontokat. Lthat, hogy a 10 mret-mutat alapjn 2-1-3 a sorrend, azaz
2. klaszter (XI, XIII, XIV. kerlet) a legnagyobb, ezt kveti az 1. klaszter (21

KLASZTERELEMZS

81

tag, benne rd s hsz fvrosi kerlet), vgl a 3. klaszterben (26 telepls)


vannak a legkisebb tlagok. Mg a ngy ltszmarnyos mutatra a 3-2-1
sorrend addik, br a rendezettsg rtelme krdses, hiszen az oda- s
elvndorls hasonl rtkprokat jelez.
3.11. tblzat: A hromklaszteres felbonts kzppontjai
Final Cluster Centers
Cluster
1

Zscore(Npessgszm)

,61404

2,22201

-,75234

Zscore(Odavndorls)

,19085

3,01267

-,50176

Zscore(Elvndorls)

,41749

2,44990

-,61989

Zscore(llandodavndorls)

,23395

2,73049

-,50401

Zscore(llandelvndorls)

,47605

2,17202

-,63512

Zscore(nkormnyzatibev)

,63625

1,99471

-,74405

Zscore(Vendglthely)

,59034

1,87814

-,69352

Zscore(Laksllomny)

,57831

2,51209

-,75695

Zscore(ptettlaksok)

,02224

2,89130

-,35158

Zscore(llskeresk)

,66578

1,68841

-,73256

Zscore(Odavanperfo)

-,90322

,51612

,66998

Zscore(Elvanperfo)

-,86323

-,54159

,75971

Zscore(llElvanperfo)

-,75900

-,74313

,69879

Zscore(llodavanperfo)

-,82118

-,33622

,70206

4.Tbbvltozs
regressziszmts

54

Az eljrs alapgondolata ismers mindenkinek, aki mr tanult statisztikt. Mgis


rdemes egy fejezetnyit foglalkozni a regressziszmtssal, mert a cikkek,
tanulmnyok hasznljk az eljrst, s a knyv tovbbi fejezeteiben is tbbszr
visszautalunk erre a megkzeltsre.
Tbbvltozs lineris regresszis modellt runk fel akkor, ha tbb fggetlen
magyarz vltoz lineris kombincijval becsljk a magyarzni kvnt y
vltozt. A regresszis becsls elvgzse s az eredmnyek rtkelse szmos
dntst ignyel. Tekintsk t elszr ezeket a fbb dntsi pontokat.
a)

Az adatok kzvetlenl alkalmasak regresszis modell illesztsre vagy


adatelksztst kell vgeznnk? A 4.1. alfejezet s a 4.2.1. alfejezet ad
betekintst a rszletekbe.

A magyarz vltoz normlis eloszls-e, s ha nem, akkor


milyen (pldul logaritmus) adat-transzformci indokolt?

A fggetlen vltozk relatv szrsaira teljesl-e a kisebb, mint 2


felttel? Ha nem, akkor vannak-e extrm rtk, kihagyhat
megfigyelsek?

A pontdiagram alapjn az y-x prok lineris kapcsolata fennll-e?


Ha nem, akkor linearizl transzformci vgezhet-e?

A fggetlen vltozk kztti pronknti korrelcik gyengk-e?


Ha nem akkor szakmai vagy statisztikai szempontok alapjn
vlogatjuk ki a modell magyarz vltozit?

b) Az illeszts menete, a vltozk kztti szelekci vgrehajtsa. A 4.2.2., a


4.2.4. s a 4.2.5. alfejezetek mutatjk az eljrs lpseit.

54

Melyek a statisztikai rtelemben legersebb magyarz ervel br


vltozk? Mely tesztek tmasztjk al a vltozszelekcit?

Ltezik-e lineris modell, vagy minden becslt egytthat


nullnak tekinthet?

Milyen tesztekkel s hogyan minsthet a modell egsze?

A regressziszmts alapmodelljt s az egytthatk becslst szolgltat legkisebb


ngyzetek mdszert ismertnek ttelezzk fel.

TBBVLTOZS REGRESSZISZMTS
c)

83

A magyarz vltozk kztti kapcsolatrendszer megfelel-e? A 4.2.3. s a


4.2.6. alfejezeteket tartalmaznak tmutatst erre a krdsre.

Milyen mutatkra tmaszkodhatunk annak mrsekor, hogy tlzott


multikollinearits fellpett-e?

Mely vltozk elhagysval kszblhet ki a multikollinearits?

d) Modell diagnosztika, hibatagok viselkedse, kiugr pontok kezelse. A


4.2.7. alfejezet hasznos az albbi krdsek megvlaszolsakor.

Megfelel magyarz erej modellt kaptunk-e?

A hibatagok normlis eloszlsak-e?

A hibatagok szrsa azonos-e, nem lpett fel heteroszkedaszticits?

Vannak-e nagyon ers hatst gyakorl megfigyelsek a mintban?


Ezek elhagysa indokolt-e?

4.1. Az adatok ttekintse, elzetes megfontolsok


Az indul adatok kztt szerepl vltozkat intervallum vagy arny skln mrjk,
s felttelezzk, hogy az n szm megfigyels homogn sokasgbl szrmazik. Az y
fgg vltoz normlis elosztst kvet n elem oszlopvektor. A p darab magyarz
vltozt s a konstanshoz tartoz egyeseket az n(p+1) mret X mtrix tartalmazza.
A magyarz vltozk kztt ktrtk, dummy vltozk is szerepelhetnek.
A regressziszmts kt legfbb lpse az egytthatk becslse s a regresszis
modell tesztelse. De sok egyszer numerikus s grafikus vizsglati lpst
megtehetnk a becsls s a tesztels eltt. A ferdesg s cscsossg mellett a relatv
szrs kiszmtsa kpet ad az y vltozrl. Grafikus mdszerekkel, pldul 2-3
dimenzis pontdiagram ksztsvel mr a regresszis modell fellltsa eltt
meggyzdhetnk arrl, hogy kzelten teljeslnek-e az elfelttelek, hasznlhat
lesz-e a regresszis modell. Mivel grafikus bra magasabb dimenziban nem
kszthet, ezek a lpsek nem helyettestik a modell jsgt vizsgl teszteket, de a
teljesen hasznavehetetlen szmtsok megelzsre alkalmasak.
Az y s egy-egy x vltoz pontdiagramjn lthatv tehetnk sok fontos rszletet.
Ebben az alfejezetben 55 a Kerletek2010.sav adatllomnyt hasznljuk. A 4.1. bra
Budapest 23 kerletnek s az agglomerci tovbbi 27 teleplsnek
npessgszmt s az nkormnyzati bevtel nagysgt mutatja. Ez az bra alkalmas
arra, hogy ellenrizzk a 4.1. tblzatban szerepl kvetelmnyeket. rdemes
tovbbi lehetsges magyarz vltozkra is brt kszteni a modell illesztse eltt.

55

A kerletek adatainak tovbbi elemzse a 4.2.10-ben szerepel.

84

TBBVLTOZS ADATELEMZS

4.1. bra: Kilg pontok hatsa a regresszis egyenesre


A 4.1. brn lthat kilg pontok szerepeltetse az adatok kztt meredekebb
regresszis egyenest eredmnyezne. Ha mindkt vltoz mentn kilg
megfigyelst tallunk, annak ketts hatsa lehet:

Ha a megfigyelt lineris tendencia mentn de a tbbiektl tvolabb van


egy pont, akkor szerepeltetse a mintban felersti a modell jsgt.

Ha nem a megfigyelt lineris tendencia mentn tallunk tvolabbi pontot,


akkor a pont elhagysa javtja az illeszkedst, figyelembe vtele pedig nem
lineris modellt ignyel.

TBBVLTOZS REGRESSZISZMTS

85

4.1. tblzat: Mikor alkalmasak az adatok lineris regresszis modell illesztsre?


Elmleti kvetelmnyek

Kvetkeztets a pontdiagram alapjn

Dnts

Lineris-e a kapcsolat, jogos-e a


lineris modell illesztse, vagy
ms fggvnytpust clszer
felttelezni?

A npessgszm s az nkormnyzati
bevtel egyttes nvekedse, lineris
kapcsolata fennll.

Az x nvekedsvel az y adatok
szrsa vltozatlan marad-e, a
hibatag konstans szrsa
felttelezhet-e?

A npessg nvekedsvel az
nkormnyzati bevtelek szrsa
enyhn nvekedik, br a kisebb
lakossg mellett is van kt helyen
jelentsebb eltrs az ltalnos
tendencitl.

Vannak-e kilg pontok, s


milyen az elhelyezkedsk? Egy
vagy mindkt dimenziban
kilgnak-e?

Budapest V. kerlete s Budars


npessgszma alapjn inkbb kicsik,
mg a bevtelk jval magasabb, teht
az egyik dimenziban kilg
megfigyelsek.

Homogn-e a minta, vagy


almintk lthatk, amelyekben
ms-ms tendencia rvnyesl a
vltozk kztt?

Az adatok homogenitsa megfelel,


nem mutatnak a fvrosi kerletek
ms tendencit, mint a krnykbeli
teleplsek.

Az egyes x pontokhoz tartoz y


rtkek normlis eloszlst 56
kvetnek-e, a tesztek
elvgezhetek lesznek-e?

Ez csak hisztogramon lthat, vagy a


ferdesg s cscsossg mutatkkal
rhat le. Statisztikailag elfogadhat a
feltevs.

Ha sszegezzk dntseinket amiket termszetesen a tovbbi magyarz


vltozkra is elvgeztnk , akkor mr csak a magyarz vltozk egyms kztti
korrelltsgt kell megvizsglnunk, hogy vlasztani tudjunk a modellpts kt tja
kztt:
I) Megerst szemllet: A szakmai tudsunk alapjn elre rgztett magyarz
vltozk krt egyszerre, egy lpsben vonjuk be a modellbe. gy bekerlhet a
modellbe statisztikai rtelemben nem szignifikns magyarz vltoz is. Ekkor
a modell utlagos rtkelsvel gyzdnk meg arrl, hogy elfogadhat-e a
modell egsze, s minden vltoz szignifikns szerepet jtszik-e a becslsben.
II) Feltr szemllet: A lehetsges magyarz vltozk halmazt megadva
lpsenknti regresszis eljrssal minden lpsben egy-egy vltozt vonunk

56

A normalits a regresszis egytthatk becslshez nem szksges, csak akkor kell


feltteleznnk, ha t-prbt vgznk, s konfidencia intervallumot runk fel.

86

TBBVLTOZS ADATELEMZS
be 57 a modellbe, s a bevont vltozk elhagyhatsgt is lpsenknt
ellenrizzk. gy olyan modell addik, ami statisztikai rtelemben a lehet
legjobb, de elfordulhat, hogy szakmailag nehezebben rtelmezhet.

A ktfle megvalsts szmtsi lpsei nem trnek el rdemben. Minden illesztett


modell jsgt ngy f lpsben rtkelhetjk:
a)

Parcilisan vizsgljuk egy-egy magyarz vltoz hatst/erejt t-prbval.

b) Vizsgljuk azt, hogy az sszes magyarz vltoz egyttesen szignifikns


kapcsolatban van-e az eredmnyvltozval, ezrt mrjk az R2 s a
korriglt R2 rtkt, valamint elvgezzk az F-prbt.
c)

A hibatagok megfelel viselkedst ellenrizzk.

d) A megfigyelseknek a becslsre gyakorolt egyedi hatst vizsglni kell.


Az eddig ismertetett dntsi pontokat a 4.2. tblzatban foglaljuk ssze.
4.2. tblzat: A regresszis modellek s tesztek ttekintse
Regresszis
modell

I) megerst

II) feltr

Vltozk
bevonsa

egyszerre, egy lpsben

szelektlva

a) Vltozk
ereje

minden vltozt tesztelni kell (tprba), s a vltozk kztt lehet


multikollinearits

minden bevont vltoz


szignifikns (de a
konstans nem mindig!)

b) Modell
egsze

az R2 s a korriglt R2, valamint az Fprba alapjn minstjk

az adott vltozkrbl
ez a legjobb lineris
modell, de ez elg je?

c) Hibatagok

normlis eloszlst s homoszkedasztikus jellegt ellenrizni kell

azonos az I) modellel

d) Egyedi
megfigye-lsek
hatsa

a tlzott tttel-hatst mrni, vizsglni


kell, s a zavar pontokat elhagyni

azonos az I) modellel

A vltozk lpsenknti bevonsa mellett van a teljes modellbl indul, a vltozkat


lpsenknt kihagy vltozat is, ezekkel majd a megvalstsi rszben foglalkozunk.

57

TBBVLTOZS REGRESSZISZMTS

87

4.2. A regresszi matematikai httere


A tbbvltozs lineris modell mtrix-egyenlete:

y = X + , ahol

(4.1)

az y n elem vektor, X mtrixnak n sora s (p+1) oszlopa van, az ismeretlen


egytthatk vektora (p+1) elem, az hibatag n elem.
A modell alkalmazsnak felttelei:

A hibatag normlis eloszls, vrhat rtke zrus, variancija konstans, s


a hibatagok nem autokorrelltak.

A magyarz vltozk linerisan fggetlenek, rtkk mrsi hibt nem


tartalmaz.

A megfigyelsek szma s a magyarz vltozk szma kztt fennll,


hogy n>5p.

E felttelek teljeslse esetn a (p+1) regresszis egytthat legkisebb


ngyzetes becslse:

= ( X T X ) 1 X T y

(4.2)

A megolds elllthat, ha az inverz ltezik, azaz ha X rangja (p+1).


58

A reziduumok variancija:

2 =

T
n p 1

, ahol

= yy= yX

(4.3)

A modellben lev szrsngyzet felbontsa


Az egytthatk becslt rtkt a tovbbiakban b-vel, s a becslshez tartoz
reziduumokat e-vel jelljk:

e = y Xb .
A teljes eltrsek ngyzetsszege (SST: Sum of Square of Total) az egyvltozs
modellhez hasonl alak, ez az y vltoz szrsngyzetnek n-szerese:

Az inverz ltezik, ha X oszlopvektorai linerisan fggetlenek. A gyakorlatban elfordul,


hogy valamelyik vltoz kifejezhet a tbbi lineris kombincijaknt, vagy ersen
korrellnak egymssal. Ebben az esetben multikollinearits lp fel, s ekkor lpsenknti
regresszit clszer vgezni.
58

88

TBBVLTOZS ADATELEMZS
n

(y
SST=

i =1

y) 2 = yT y + n y

(4.4)

Az SST az y vltoz megfigyelt rtkeibl kiszmthat, de most az a clunk, hogy


kt rszre bontsuk 59: SST=SSR+SSE

Az x magyarz vltozk ltal a regresszis modellben megmagyarzott hnyad


(SSR: Sum of Square of Regression) a lehet legnagyobb legyen.

A meg nem magyarzott rsz, az n. hibahats (SSE: Sum of Square of Error)


pedig minl kisebb legyen.

A hiba-variancia (s2) az SSE jells eltrs-ngyzetsszegbl osztssal kaphat


meg:
SSE=eTe=
2

yi yi = y

i =1
n


y y

y = ( y Xb )T ( y Xb )
, s

s 2 = (e T e) /(n p 1)

(4.5)
A regresszis egytthatk szrsngyzete a hibavariancia (4.5) segtsgvel
hatrozhat meg. Egy b regresszis egytthat variancija az (XTX)-1 megfelel
diagonlis elembl addik:
Var(bj)=s2 diagj{(XTX)-1}

(4.6)

A regresszis eltrs-ngyzetsszeg nagysga klnbsgknt is megkaphat:


n

SSR = SST-SSE =

( y
i =1

y )2 = y T Xb n y

(4.7)

Az egyenletek felrsa utn kvetkezik a tesztels, azaz annak eldntse, hogy


eredmnyes volt-e a modell illesztse. Ennek eldntshez azt a nullhipotzist
teszteljk, hogy a bj meredeksgek mind zrussal egyenlk, azaz nincs rdemi
magyarz ereje a modellnek. A tesztelshez felrt szrsfelbont (ANOVA)
tblzat (4.3. tblzat) tartalmazza az eddig ismertetett eltrs-ngyzetsszeg
tagokon tl az tlagos ngyzetsszegeket (MS), valamint az F-prba rtkt.
Azzal, hogy az egytthatk legkisebb ngyzetes becslse sorn az SSE-t
minimalizljuk, egyttal az SSR-t maximalizljuk. Az tlagos ngyzetsszegek
arnya az F-hnyados is nagy lesz, ha van lineris regresszis sszefggs a
Az itt alkalmazott jells - br igen elterjedt - csak az egyik lehetsg. Lehet a Sum of
Square kt rsze Explained s Residual, akkor pp fordtva van a tartalmuk, mint ahogy
itt szerepel.

59

TBBVLTOZS REGRESSZISZMTS

89

magyarz vltozk s az eredmnyvltoz kztt. Ezt a prbafggvnyhez tartoz


szignifikancia szint jelzi.
4.3. tblzat: Szrsngyzet felbontsa s tesztelse
A variancia

Eltrs

Szabadsg tlagos

F-hnyados

forrsa

ngyzetsszeg

fok

ngyzetsszeg

Regresszi

SSR

MSR=SSR/p

Hibatag

SSE

n-p-1

MSE=SSE/(n-p-1)

Teljes

SST=SSR+SSE n-1

F=MSR/MSE

4.3. A vltozk kztti korrelci mrse s szerepe a regresszis


modellben
A megfigyelsek halmazt s a vltozk krt is szakmai megfontolsok alapjn
vlasztjuk ki, mgis elfordulhat, hogy

tl sok magyarz vltoznk van,

a magyarz vltozk nem fggetlenek,

a vltozk nem linerisan kapcsoldnak a fgg vltozhoz.

A korrelcis egytthat (4.8) szerinti kplete centrozott adatokra egyszerbb


alakot lt, s gy kzvetlenl lthat, hogy a kt vltoz kztt az n-dimenzis
trben bezrt szg koszinuszval azonos rtket ad:
n

r ( x, y ) =

( xi x)( yi y)
i =1

( xi x ) 2 ( y i y ) 2
i =1

i =1

x y
i =1

x y
2
i

=
2
i

xT y
= cos
x y
(4.8)

A fgg s a p szm magyarz vltoz kztti pronknti korrelcit tartalmaz


(p+1)x(p+1) mret R korrelcis mtrixbl a szignifikancia szintek alapjn kpet
kapunk a multikollinearits mrtkrl. A korrelcis mtrix szimmetrikus, a

90

TBBVLTOZS ADATELEMZS

ftljban egyesek llnak. A mtrixban tallhat brmely r korrelcis


egytthathoz tartoz szignifikanica szint a t-prba alapjn llapthat meg, ahol

t=

r n2
1 r 2

(4.9)

Ez a t-teszt (n-2) szabadsgfok Student-eloszlst kvet.

4.4. rdemes-e tbb vltozt egyidejleg bevonni a regresszis


modellbe?
Tbbvltozs modellt csak akkor rdemes becslni, ha ez rdemben javtja az
illeszkedst az egy magyarz vltozhoz kpest. Dntsnkhz globlis mutatkat
s parcilis teszteket hasznlhatunk.
Elszr a modell egszt minst hrom globlis mutatt tekintjk t:
a) determincis egytthat s korriglt vltozata
b) a modell sztenderd hibja
c) a lineris modell ltt ellenrz F-teszt
a) Legelterjedtebb a determincis egytthat (a tbbszrs korrelci ngyzete 60)
mellett ennek korriglt (adjusztlt) vltozata az illeszkeds jsgnak
mrszmaknt:

R 2 = SSR / SST = 1 SSE / SST ezrt 0 R 2 1

Radj

SSE / (n p 1)
p (1 R 2 )
= 1
=R
SST / (n 1)
n p 1
2

(4.10)

ahol p a modellben szerepl fggetlen vltozk szma.


A korrekci azrt szksges, mert tbb vltoz bevonsval R2 n, s tl optimista
kpet mutat a modell illeszkedsrl. Az R2 s a korriglt vltozata is szzalkosan
rtelmezhet. Mindkett azt mri, hogy a modellbe bevont magyarz vltozk az
eredmnyvltoz variancijnak hny szzalkt magyarzzk meg. E
mutatszmokhoz teszt nem kapcsoldik.
b) A regresszis modell sztenderd hibja a (4.3) ngyzetgyknek mintabeli
becslse.

s=

60

SSE
1
=
( yi yi ) 2

n p 1
n p 1 i =1

(4.11)

Csak ktvltozs modellben rvnyes az, hogy a determincis egytthat a kznsges


korrelcis egytthat ngyzete. rdemes elolvasni Hunyadi Lszl: A determincis
egytthatrl cm cikkt, mely a Statisztikai Szemle 2000. szeptemberi szmban jelent
meg. (78. vf. 9. sz. 753-765. oldal)

TBBVLTOZS REGRESSZISZMTS

91

Hvelykujj szablyknt rdemes megnzni, hogy s kisebb-e, mint egy-egy


magyarz vltoz szrsa. Ha nem kisebb, akkor a modell illesztse nem r annyit
sem, mintha a fgg vltoz tlagt tekintennk becslsnek.
c) A variancia-analzis azt a nullhipotzist teszteli, hogy a bj meredeksgek mind
zrussal egyenlk (csak a konstans klnbzik szignifiknsan nulltl), mg az
alternatv hipotzis szerint van zrustl klnbz bj. A nullhipotzis elfogadsa azt
jelenti, hogy az adott vltozkkal felrt regresszis modell nem alkalmas y
becslsre. Ha elvetjk a nullhipotzist, abbl mg nem kvetkeztethetnk arra,
hogy j becslst tudunk adni a fgg vltozra, mert lehetnek a modellben nem
szignifikns paramter magyarz vltozk. Az ANOVA tblbl szmolt
prbafggvnyt globlis F-prbnak nevezzk.

A modell parcilis vizsglata a regresszis egytthatk egyenknti tesztelse tprbval trtnik. A nullhipotzis szerint H 0 : j = 0 s a ktoldali alternatv
hipotzis:

H1 : j 0 .

A tesztfggvny Student-eloszlst kvet, kplete

t=

bj
sb j

(4.12)

ahol sbj az (4.5) szerinti becslt variancia gyke. A t-prba szabadsgfoka n-j-1, ahol
j azt jelzi, hogy a j-edik vltozt vontuk be a modellbe. A t-eloszls segtsgvel (1) valsznsgi szint konfidencia intervallum is felrhat az elmleti j
paramterre:

b j t / 2,( n j 1) sb j

(4.13)

A sztenderdizlt regresszis egytthatk szmtsa a (4.14) kplettel 61 trtnik,


ezekre kln tesztet nem kell vgezni.

beta j = b j

sx j
sy

(4.14)

A sztenderdizlt bta nem azonos az elmleti modell egytthatjval. rtke a


szrsok arnytl fggen kisebb vagy nagyobb is lehet, mint a becslt b
egytthat. Az abszolt rtkben legnagyobb rtk vltozt tekinthetjk a modell
legfontosabb magyarz vltozjnak.
Kzvetlen, kzvetett s teljes hats (kitekints)
A regresszis egytthatk rtelmezsekor fontos hangslyozni, hogy a magyarz
vltozk fggetlensgt feltteleztk a becsls sorn. A modellben a b0 konstans azt
61

Ha a modellben egyetlen x magyarz vltoz van, akkor beta= r, ahol r a kznsges


korrelcis egytthat.

92

TBBVLTOZS ADATELEMZS

az alaprtket adja meg, amit y akkor vesz fel, ha minden xj rtke nulla. A bj
egytthat pedig azt a kzvetlen hatst mri, hogy mennyivel vltozik y, ha xj egy
egysggel n, mikzben a tbbi magyarz vltoz rtke vltozatlan.
Ha a magyarz vltozk lineris fggetlensge nem teljesl, akkor y s xj kztt a
teljes hatst (byj) a kzvetlen hats (bj) s az xj-vel korrell (pl. xk) magyarz
vltoz(ko)n keresztl megvalsul kzvetett hatsok egytt adjk.
gy byj =bj + bk*bjk, ahol bjk az xknak mint magyarz vltoznak az xjre, mint
fgg vltozra felrt regresszis egytthatja. A direkt s az indirekt hatsok
feltrsa t-elemzssel 62 valsthat meg.

4.5. A vltoz szelekcit megvalst lpsenknti regresszi


A lpsenknti regresszi 4 eljrssal vgezhet el, de hromnak
kzs jellemzje az, hogy egy lpsben egyetlen vltoz bevonsrl
vagy elhagysrl dntnk. A dnts alapja a parcilis F-prba:

R 2 RO2 n p 1

Fp =
1 R2
q

(4.15)

ahol R2 az aktulis, p magyarz vltozs becsls, RO2 pedig az elz modell


determincis egytthatja, q pedig az adott lpsben bevont vltozk szma
(ltalban q=1).
Az F-hnyados szabadsgfoka a szmllban q s a nevezben (n-p-1).
A t-prba ngyzete megegyezik ezzel a parcilis F-teszttel, amelyet azrt
szmtunk, hogy mrjk az ppen bevont xj vltoz magyarzerejnek
szignifikancijt.
Az jabb vltozk bevonsval R2 monoton n a differencia cskkense mellett.
gy eldntend krds, hogy szignifiknsan n-e a determincis hnyados az
adott vltoz(k) bevonsval. A belptets s kihagys kritriuma F rgztett
nagysga, vagy az F-hez kapcsold szignifikancia szint megvlasztsa lehet.
Ha jabb magyarz vltozkat vonunk be a modellbe, akkor az ANOVA
tblzatban SSE cskken s SSR n. Az tlagos ngyzetsszegek (MS)
vltozsnak irnya mr nem egyrtelm, mert a nevezk is vltoznak, ezrt F
rtknek alakulsrl biztosat nem llthatunk.
Ha rgztett valsznsgi szinthez tartoz F-rtk mellett (4.15)-bl kifejezzk
az R2 vltozst, akkor a (4.16) dntsi kritriumhoz jutunk. Bevonsra rdemes a
vltoz, ha

62

Angol neve Path analysis, az SPSS-ben nem szerepel.

TBBVLTOZS REGRESSZISZMTS
R 2 RO2 >

q
(1 R 2 ) F ,q ,( n p 1)
n p 1

93
(4.16)

A lpsek sorn meghatrozsra kerlnek itt eljel nlkl a parcilis korrelcik


is:

R parc =

R 2 RO2
1 RO2

(4.17)

A szmll gykt rszkorrelcinak nevezzk (Part correlation). Ha az jonnan


belp vltoz valban korrellatlan a modellbe mr bevont vltozkkal, akkor a
rszkorrelci jelentsen n a vizsglt lpsben.
A lpsenknti modellezs vltozatai:

Forward szelekci: minden lpsben azt a magyarz vltozt vonjuk be,


amelyiknek a parcilis F-tesztjhez a legkisebb p valsznsg tartozik. A
bevonsi folyamat addig folytatdik, amg ez a p az elre rgztett
maximum (PIN) alatt marad, vagy minden vltoz bevonsra kerlt.

Backward eliminci: az indul lpsben az sszes vltoz a modellben


van, s lpsenknt azt az egyet hagyjuk ki, amelyiknek a legkisebb a
parcilis korrelcija. Ekkor a parcilis F-teszthez a maximlis p
valsznsg tartozik. Lell a kikszbls, ha p kisebb, mint a kszb
(POUT), vagy nincs mr vltoz a modellben.

Stepwise mdszer: a forward eljrst gy mdostjuk, hogy minden


lpsben ellenrizzk a modellbe korbban bevont vltozk p
valsznsgt, s ha p>POUT, akkor a vltozt kihagyjuk a modellbl.
Nem kerlnk vgtelen ciklusba, ha PINPOUT. Szoksos bellts:
PIN=0,05 s POUT=0,10.

Remove eljrs: belpteti az sszes vltozt (mint az Enter mdszer),


majd elhagyja egyszerre az sszes vltozt, s sszehasonltsknt csak a
konstans tagot tartalmaz modell eredmnyeit kzli.

4.6. A magyarz vltozk kztti korrelci, a multikollinearits


A magyarz vltozk fggetlensgre vonatkoz elvrst akkor is megsrthetjk,
ha lpsenknti szelekcit vgznk, mert a bevonsnl a modell magyarz erejnek
javulsn van a hangsly. Ezt a kzvetett hatsok mg fokozzk is. Ezrt a
lpsenknti regresszis modellezsnl klnsen indokolt a modellbe bevont
magyarz vltozk kztti korrelci, a multikollinearits mrse, melyre ngy
mrszmot ismertetnk.
a)

A tolerancia mrtk annak a tbbszrs determincis egytthatnak a


komplementere, amely azt mri, hogy az i-edik magyarz vltozt az

94

TBBVLTOZS ADATELEMZS
sszes tbbi x milyen szorosan hatrozza meg:

Tol = 1 Ri2 . A kicsi

(nullhoz kzeli) tolerancia jelenti azt, hogy kzel fggvnyszer a


kapcsolat a magyarz vltozk kztt.
b) A

variancia

infll

faktor

(VIF)

tolerancia

reciproka:

VIFi = 1 /(1 R ) . Ezrt ha a magyarz vltozk kztt szoros


2
i

kapcsolat van, a VIF vgtelen nagy lehet. Ha a vltozk ortogonlisak,


akkor a VIF egysgnyi. A VIFi egyttal a sztenderdizlt magyarz
T

vltozkbl kpzett ( X X ) mtrix i-edik diagonlis eleme. Ez a kplet


szerepel (4.5)-ben a regresszis egytthatk szrsngyzetnek
becslsekor. Ezrt multikollinearits fellpsekor n a VIF, s emiatt nagy
lesz a Var(b), tovbb szles lesz az egytthat konfidencia intervalluma. A
VIF-hez kritikus kszb nem adhat, de hvelykujj szably szerint 2-ig
elfogadhat, 5-ig trhet, t felett pedig veszlyes.

Tolerancia s VIF

A kt mutat ellenttes alakulst mutatja a 4.2. bra.


10
9
8
7
6
5
4
3
2
1
0

Tolerancia
VIF

0,2

0,4

0,6

0,8

Determincis egytthat

4.2. bra: A multikollinearits kt mrszmnak alakulsa


c)

Az (XTX) centrozatlan, de a szrssal leosztott 63 adatokbl kpzett


szorzatmtrix sajtrtkeit (i) ellltva s nagysg szerint rendezve
kondcis index (CI) kpezhet:

CI i = max / i , ahol i=1,,(p+1)

63

Ilyen mtrix ftljban egyesek llnak.

TBBVLTOZS REGRESSZISZMTS

95

Ha a magyarz vltozk kztt szoros korrelci van, akkor a maximlis


sajtrtk nagy, a tbbi lambda gyorsan cskken, ezrt a kondcis index is
nagy. Hvelykujj szably, hogy 1-5 kztt gyenge, 5-10 kztt zavar a
multikollinearits. Ha 10 feletti az index, akkor komoly kollinearits ll
fenn. Ha sok sajtrtk kzel nulla, akkor az adatokban bekvetkez kis
vltozsok nagy vltozst idznek el a becslt egytthatkban.
A nagy sajtrtkek szma azt jelzi, hogy hny dimenzis trben
jelenthetk meg a fggetlen vltozk. A fkomponens elemzs, amelyet
egy ksbbi fejezet ismertet, ilyen adathalmazok elemzsre alkalmas.
d) Variancia hnyadot szmthatunk minden regresszis egytthatra (a
konstansot is belertve), hogy a regresszis egytthatk varianciit a
sajtrtkek (s az ltaluk jelzett merleges tengelyek) kztt sztosszuk.
Egy-egy egytthat oszlopnak sszege teht egysgnyi.
Soronknt vizsglva a variancia hnyadot, multikollinearitsi problmra
utal, ha egy-egy nagy kondcis index sorban tbb regresszis
egytthatnak magas a variancia hnyada.

4.7. Az egyedi megfigyelsek hatsa a becslsre


Eddig az X mtrix oszlopaira, a vltozk szerepre koncentrltunk. Most a sorokat
vizsgljuk, az egyes megfigyelsek fontossgt, befolyst mrjk. Az angolul
leverage-knt megjelen fogalom tttelhatst jelent. Ezzel a mrszmmal
azonosthatk az extrm helyzet megfigyelsek is. A hibatagokat is
megfigyelsenknt vizsgljuk, valamint tvolsgot is mrhetnk, mieltt extrm
helyzetnek minstnk egy megfigyelst.

4.7.1. A becslst befolysol pontok feltrsa


A becslst befolysol pontok feltrshoz a (4.2)-ben felrt becslegyenlet

B =( X T X ) 1 X T y
mindkt oldalt szorozzuk balrl X mtrixszal. Ekkor azonossgot kapunk, ahol H
(nxn)-es mtrix a lekpezs 64 mtrixa.

X B = y = X ( X T X ) 1 X T y = Hy

64

H mtrix angol neve hat matrix.

(4.18)

96

TBBVLTOZS ADATELEMZS

A (4.18)-bl lthat, hogy H kzvetlen kapcsolatot teremt a fgg vltoz

megfigyelt rtkei (y) s becslt rtkei ( yi ) kztt.


A H mtrix segtsgvel a hibatagok vektora

e = y y = y Hy = ( E H ) y ,

(4.19)

ahol E az egysgmtrix, s gy az eltrs-ngyzetsszegek is felrhatk:


2

SSE = y T ( E H ) y

SSR = y T Hy n y .

H mtrix szimmetrikus, diagonlis elemei (jellje hii ) azt a hatst fejezik ki, amit az
i-edik megfigyels (X mtrix i-edik sora) gyakorol az sszes magyarz vltozn
keresztl a regresszis becslsre.

hii = xiT ( X T X ) 1 xi
n

Megmutathat, hogy

h
i =1

ii

(4.20)

= p + 1 , hiszen ennyi az X oszlopainak szma, s

1 hii 1 / n . Egy megfigyels tttel hatsa tlagos, ha rtke (p+1)/n, s


befolysol, jelents megfigyelst jelez, ha az tlag ktszerest meghaladja, azaz
hii 2( p + 1) / n .
Knnyebb az rtelmezs, ha a h-bl a minimlis 1/n rtket levonjuk, s az orighoz
tolt hatst (centered leverage) vizsgljuk:

hii

1
n

(4.21)

Mivel gy 0 s (n-1)/n kztti rtket kaphatunk, gyakorlati szably adhat a


(h 1/n) eltolssal kapott mrtkre:

0,2 alatti rtk mellett a megfigyelsek bevonhatk a becslsbe

0,2 s 0,5 kztt kockzatos a becsls elvgzse

0,5 felett kerlend a megfigyelsek bevonsa a regresszis becslsbe.

Az SPSS kziknyv ltal javasolt msik szably szerint p>6 s (n-p)>12 esetn 3p/n
a bevonsi kszb. Ha a megfigyelsek szma s a magyarz vltozk szma
kztti n>5p ajnlst is figyelembe vesszk, akkor 3/5=0,6 feletti rtket elr
megfigyelst semmikppen nem vesznk figyelembe a regresszis modell
becslsekor.

TBBVLTOZS REGRESSZISZMTS

97

Minden megfigyelt rtk h sllyal befolysolja a becslst:

yi = b0 + b1 xi1 + b2 xi 2 + ... + b p xip = hij y j , ahol hij = xiT ( X T X ) 1 x j .


j =1

A legkisebb ngyzetes becsls nagyon rzkeny az extrm (xi, yi) megfigyelsprokra. Ha a megfigyelt y rtk extrm, s/vagy az x rtkektl fgg h sly nagy,
akkor ers hatst gyakorolnak a becslsre. Egyszerbb a hatsok rtelmezse, ha az
X mtrixban a fggetlen vltozk tlagtl vett eltrsei, a centrozott adatok vannak.
Ekkor egy magyarz vltoz esetn h azt fejezik ki, hogy az x vltoz egy-egy

1
megfigyelt rtke milyen tvol van az tlagtl: hii = +
n

(x x )
(x x )
2

j =1

4.7.2. Hibatagok ellltsa s elemzse


A hibatagok, vagy elterjedt szval rezidulisok vizsglata nagyon szertegaz
terlet. Az elvrsok kztt szerepel, hogy normlis eloszlst kvetnek, fggetlenek
s lland a szrsuk.

Hisztogramot rdemes kszteni, melyrl a rezidulisok eloszlsa lthat,


s a normlis eloszlstl val eltrs grafikusan megjelenthet. A
rezidulisok brit az eredmnyek bemutatsnl tekintjk t.

A QQ plot is a hibatagok normlis eloszlstl val eltrst mutatja.

Ha a hibatagokat az y adatok mentn brzoljuk, akkor a szrsok


homoszkedasztikus jellege is szemlltethet.

Az egyik legismertebb teszt a Durbin-Watson statisztika, amely a hibatagok


autokorrellatlansgt teszteli, ezrt idsoros adatok esetben clszer
rtelmezni, keresztmetszeti elemzsben nincs ltjogosultsga.

Mivel a megfigyelt s a becslt rtkek eltrse tbbflekppen mrhet, tbbfle


rezidulis szmthat s elemezhet. A kznsges rezidulisok ( ei

= yi y i )

mellett szmolhat gy is hibatag, ha egy-egy megfigyelst kihagyunk. Az i-edik


megfigyels (x,y) koordintinak elhagysval nyert becsls s az gy szmtott

rezidulis 65 indexben szerepel a kihagyott elem:

e(i )i = yi y (i )i .

Ha az i-edik megfigyels ersen befolysolja a becslst, akkor a kt hibatag nagyon


eltr. A kt rezidulis kztt a hats (hii) rtke teremt kapcsolatot:

65

Az egy megfigyels trlse, kihagysa utn szmtott hibatag angol neve deleted residual.
Hunyadi-Mundrucz-Vita: Statisztika c. knyve sorelhagysos mdszert emlt.

98

TBBVLTOZS ADATELEMZS
e(i )i = ei /(1 hii )

(4.22)

e(i )i ei

de nagymret, homogn mintban egy-egy


,
megfigyels kihagysa miatt a ktfle rezidulis nem trhet el jelentsen egymstl.
Mg a rezidulisok ngyzetsszege=SSE, addig a trlsek utn becslt rezidulisok
Mivel h nem-negatv,

ngyzetsszege 66 PRESS=

e
i =1

2
(i )i

. A kt sszeg hnyadosa (PRESS/SSE) jelzi,

hogy mennyire rzkeny a regresszis becsls a kihagyott megfigyelsekre. Ha sok


s/vagy nagyon tvoli (outlier) pont volt a mintban, akkor a PRESS/SSE arny
jval nagyobb, mint egy.
A rezidulisok nagysgnak megtlst segti a sztenderdizls. A kznsges
rezidulisokat osztva a (4.4) gykvel, az s szrssal, sztenderdizlt hibatagokat
kapunk:

zi = ei / s
Mivel

regresszis

(4.23)
becslsbl

szrmaz

hibatagok

variancija

torztott,

Var (ei ) = (1 hii ), a zi szrsngyzete nem egysgnyi. Az egysgnyi


2

variancit biztostja, ha a (4.24) szerint sztenderdizljuk a hibatagokat. Az gy kapott


rezidulisok abszolt rtkben nagyobbak lesznek (4.23)-beli prjaiknl:

ri = ei / s 1 hii

(4.24)

A (4.24)-ben a sztenderdizlshoz hasznlt s szrs nem fggetlen az ei hibatagtl,


ezrt ezt szoktk belsleg studentizlt rezidulisnak is nevezni, megklnbztetve a
kihagyssal szmolt, klsleg studentizlt rezidulistl, titl, amelynek eloszlsa
Student eloszlst kvet:

ti = ei / s(i ) 1 hii

(4.25)

Ez a (4.25)-ben szmolt t-statisztika mri az ei ben azt, hogy y mennyire tr el a


becslstl, s hii ben pedig azt, hogy az x-ek hatsa milyen jelents. Ha gyantjuk,
hogy valamelyik megfigyels nagyon rendhagy, akkor az erre kiszmolt t-rtket
sszevethetjk a Student eloszls kritikus rtkvel. A Student-eloszls
szabadsgfoka (n-p-2). Nagy megfigyelsszm mellett normlis eloszls
alkalmazhat.
Az ttekinthetsg rdekben a 4.4. tblzatban foglaljuk ssze a rezidulisok
tartalmt, kplett s az SPSS-ben szerepl rvid elnevezst.

66

A sorkihagysokkal szmolt eltrs-ngyzetsszegek angol neve: Predicted Residual Sum


of Squares= PRESS.

TBBVLTOZS REGRESSZISZMTS

99

4.4. tblzat: Hibatagok vltozatai


A rezidulis tartalma, (angol neve), betjele

Kpletnek
szma

SPSS-neve

Kznsges rezidulis (unstandardized): e

(4.19)

res

Az i-edik megfigyels kihagysval szmtott


rezidulis (deleted): e(i)

(4.22)

dre

Sztenderdizlt kznsges rezidulis: z

(4.23)

zre

Studentizlt rezidulis, megfigyels kihagyva,


szrs a teljes mintbl (studentized): r

(4.24)

sre

Studentizlt rezidulis, a szrs is kihagyssal


szmolva (studentized deleted): t

(4.25)

sdr

4.7.3. A becslst befolysol tvoli pontok feltrsa, kihagysi dnts


Mahalanobis tvolsg alapjn kivlaszthatjuk azokat a potencilis megfigyelseket,
amelyek kilgnak (outliernek) tekinthetk. A Mahalanobis tvolsg dM
ktflekppen is kiszmthat.

a) dM =(n-1)(hii 1/n),

(4.26)

b) d M2 = ( y( i ) y )T S 1 ( y (i ) y ) , ahol S a vltozk kovariancia 67


mtrixa.
Cook javasolta a D-statisztika szmtst, amelyben az i-edik megfigyelssel s e
pont kihagysval ksztett lineris regresszis becslseket vetjk ssze az i-edik
n

pontban: Di

= ( y ( i )i y i )2 /( p + 1 )s 2
i =1

A Cook-fle D egyszerbben kiszmthat a (studentizlt) rezidulis s a hatsmrtk felhasznlsval:

ei2 hii
hii
Di =
= ri 2
2
2
( p + 1) s (1 hii )
( p + 1)(1 hii )

(4.27)

Hvelykujj-szably alapjn az egynl nagyobb Di t ad megfigyelsekre kell


odafigyelni.
67

Ha a vltozk korrellatlanok, akkor megegyezik az euklideszi tvolsggal.

100

TBBVLTOZS ADATELEMZS

A diagnosztikt segt tovbbi mrtkek a regresszis egytthatkat s a becslt


rtkeket vetik ssze, mrve azok vltozst, ha egy-egy megfigyelst kihagyunk.
68

DfBeta mutatval a j-edik regresszis egytthat


edik megfigyelst elhagyjuk:

69

rzkenysgt mrjk, ha az i-

DfBeta ji = (b j b(i ) j ) / c jj s(i )

(4.28)

ahol cjj az egytthat szrstl fgg korrekcis tnyez, ngyzete az (XTX)-1


diagonlisban tallhat. Figyelmet rdemel az i-edik megfigyels, ha (4.28)
abszolt rtke meghaladja a

2 / n kszbszmot.

A sztenderdizlt vltozatot a regresszis egytthat sztenderd hibjval trtn


oszts utn kapjuk, s az eljelet is figyelembe vesszk: StDfBetai =DfBetai /sb .
Cook D mutatjhoz hasonlan a becslt rtkeket hasonltja ssze a DfFits mrtk,
amelyben a (24)-beli r helyett (4.25) szerinti t szerepel. A DfFits egyestve mutatja
azt a hatst, amit az i-edik megfigyels kihagysa gyakorol az egyes regresszis
egytthatkra, b0ra, b1-re, stb.:

DfFitsi = yi y(i )i

Mivel az eltrst itt sem emeljk ngyzetre, DfFits eljelt is vizsglhatjuk. Az


sszehasonlthatsg rdekben (4.29) szerint sztenderdizljuk az eltrseket, s az
abszolt rtkben

2 p / n -nl nagyobbakat kiemelten kezeljk:

StDfFitsi = yi y( i ) i / s( i ) hii = ti ii

1 hii

1/ 2

(4.29)

Vgl a kovariancia-hnyados mutatval zrjuk a megfigyelsek hatsnak


vizsglatt. Az adatokbl becslt kovariancia mtrixot (S) is kpezhetjk az i-edik
megfigyels kihagysa utn (S(i) ). Ezek determinnsainak hnyadosa:

CovRatio =

S (i )
S

(n p) p
[(n p 1) + ti ]p (1 hii )

(4.30)

Ha a kovariancia-hnyados rtke ~1, akkor nem jelents az i-edik eset hatsa.


Az sszetevket vizsglva megllapthat 70, hogy

68

CovRatio 1 3 p / n.

A Df rvidts a differencira utal.


A konstans tag, b0 is vizsglhat gy.
70
Belsey, Kuh s Welsch 1980-ban adtk meg a fels hatrt.
69

TBBVLTOZS REGRESSZISZMTS

101

Egyszerbb alakot kapunk, ha egyetlen magyarz vltoznk van. Ekkor azokra a


megfigyelsekre kell klnsen figyelnnk, amelyek kovariancia-hnyadosa
nagyobb, mint (1+3/n) vagy kisebb, mint (1-3/n).

4.8. A megvalsts lpsei az SPSS-ben


Az ANALYZE/REGRESSION/LINEAR utat kvetve a nyit oldalon elszr

a fgg (dependent) vltozt s

a fggetlen (independents) vltozkat kell megadni.

A mdszer alaprtelmezs szerint Enter, vagyis minden fggetlen vltozt bevon az


eljrs. Mintapldnkban lpsenknt felptett (stepwise) modellt ismertetnk. A
npessgnvekeds becslshez 6 magyarz vltozt jelltnk ki.

Megadhat mg selection vltoz, amellyel almintt kpznk, ezzel most


nem lnk.

Cmkzzk az orszgok nevvel az eseteket a case label-ben.

Az outputok listja a kvetkez 4 gomb mgtt trul fel: Statistics, Plots, Save,
Options.
A bellts menete s az eredmnyek sorrendje jelentsen eltr. Elszr azt tekintjk
t, hogy mit rdemes krni, majd azt, hogy mit hogyan rtelmeznk.

I.

Statistics

A regresszis egytthatk becslse mellett konfidencia intervallumot s


kovariancia mtrixot krhetnk.

A modell illeszkedst, az R2 vltozst, ler statisztikt (tlag, szrs,


megfigyelsek szma), parcilis korrelcit s multikollinearitsi
mrtkeket vlaszthatunk.

A rezidulis a Durbin-Watson tesztet s esetenknti diagnosztikt


krhetnk. Ha az n nagy, rdemes csak az outlier eseteket kiratni, amelyek
az tlagtl 2-3 szrsnyi tvolsgra vannak.

II.

Plots

III.

Save

A regresszis becsls sszevethet a rezidulisok klnbz fajtival. A


rezidulisok normlis eloszlsrl a hisztogram s a normlis eloszlstl val
eltrs ad kpet.

Ez a gomb t csoportba sorolva ajnlja fel az elmenthet eredmnyeket.

102

TBBVLTOZS ADATELEMZS

1.
2.
3.
4.
5.

Becslt rtkek (kznsges, sztenderdizlt s korriglt becsls, valamint a


becsls sztenderd hibja minden egyes megfigyelsre kln-kln)
Rezidulisok (kznsges, sztenderdizlt, studentizlt, kihagyott s
kihagyva studentizlt)
Tvolsgok egyenknt mrve: Mahalanobis, Cook-D s az tttel-hats
rtkek
A befolyst mr statisztikk (DfBeta s DfFit sztenderdizlva is,
kovariancia hnyados)
Konfidencia intervallum a regresszis becsls minden pontjra az tlaghoz
s egy egyedi ponthoz kpest, vlaszthat megbzhatsgi szinten.

IV.

Options

A belptets az F-hez tartoz valsznsg (alaprtk: Entry: 0,05,


Removal: 0,10) vagy az F teszt rtknek kivlasztsval szablyozhat.

Alaprtelmezs szerint van konstans tag a modellben, de itt kihagyhat.

A hinyz rtkek pronknti vagy soronknti kihagyst, estleg az


tlaggal val helyettestst krhetjk.

4.9. A szmtsi eredmnyek bemutatsa


A npessg nvekedsi temt (y) becsljk az SPSS-ben elrhet World95.sav
adatllomny alapjn. Az egyes tblk angol s magyar nevnek megadsa utn
rviden rtkeljk a rszeredmnyeket.
Descriptive statistics a ler statisztikk kzl a vltozk tlagt s szrst,
valamint a megfigyelsek szmt kapjuk meg. 109 orszg adatai kztt sokszor
hinyzik a napi kalria-bevitelt mr vltoz. Ilyen esetben az alaprtelmezs
szerint a regresszis becsls az egsz sort kihagyja (listwise), ezrt 75 adatbl
szmolt statisztikkat kapunk. (4.5. tblzat) Az eredmnyek kzl AIDS-esek
szmnak relatv szrsa 71 tbb mint 4, ez tlzott mrtk heterogenitst 72 jelent, a
modellbe bevonni nem clszer.

Szrs/tlag= relatv szrs, a kettnl nem nagyobb rtk a kedvez. Az tlag eljeltl
eltekintnk.
72
Nincs npessgre vettve az adat, s az USA kiugran magas betegszma megnveli a
szrst.
71

TBBVLTOZS REGRESSZISZMTS

103

4.5. tblzat: Ler statisztikk


Descriptive Statistics
Std.
Deviation

Mean
Population increase (%
per year))
Average female life
expectancy
Average male life
expectancy
Infant mortality (deaths
per 1000 live births)
Gross domestic
product / capita
Daily calorie intake
Aids cases

1,821

1,143

75

68,81

11,41

75

63,88

10,11

75

47,021

38,731

75

5853,16

7149,52

75

2753,83
11067,40

567,83
48111,34

75
75

Correlations: a fgg s a magyarz vltozkra pronknti korrelcik,


szignifikancia szintek s a minta mrete szerepel a tblzatban. A multikollinearits
mr itt szlelhet, egyes magyarz vltozk kztt szinte fggvnyszer kapcsolat
van. Az AIDS vltoz nem korrell szignifiknsan a npessgnvekedssel,
bevonsra nem kerlhet. (4.6. tblzat)
4. 6. tblzat: Korrelcis mtrix
Correlations

Population increase (%
per year))
Average female life
expectancy
Average male life
expectancy
Infant mortality (deaths
per 1000 live births)
Gross domestic
product / capita
Daily calorie intake
Aids cases

Population
increase
(% per
year))

Average
female life
expectancy

Average
male life
expectancy

Infant
mortality
(deaths
per 1000
live births)

1,000

-,582

-,529

,617

-,665

-,609

-,582

1,000

,989

-,962

,675

,775

-,529

,989

1,000

-,946

,657

,765

,617

-,962

-,946

1,000

-,690

-,777

-,665

,675

,657

-,690

1,000

,751

-,609
-,094

,775
,044

,765
,032

-,777
-,075

,751
,285

1,000
,167

Gross
domestic
product /
capita

Daily
calorie
intake

Bevont s kihagyott vltozk lpsenknti felsorolsa: a 2. lpsben bevont


csecsemhalandsgot az 5. lpsben eltvoltja a stepwise eljrs.

104

TBBVLTOZS ADATELEMZS

A Model Summary tblzatban (4.7. tblzat) a tbbszrs korrelci s


determincis egytthat, a korriglt R2, a regresszis modell standard hibja
szerepel lpsenknt. Mivel az tdik lpsben redukltuk a modellt, az sszes
mutat cskkent. A Durbin-Watson tesztet nem rtelmezzk.
4.7. tblzat: A vltozsok kvetse
Model Summary

Model
1
2
3
4
5

R
,665
,700
,722
,752
,745

R
Square
,443
,491
,521
,565
,555

Adjusted
R Square
,435
,476
,501
,540
,536

Std. Error of
the
Estimate
,859
,827
,808
,775
,779

R Square
Change
,443
,048
,031
,044
-,010

Change Statistics
F
df1
df2
Change
73
58,006
1
1
72
6,751
71
1
4,558
70
7,015
1
72
1,640
1

Sig. F
Change
,000
,011
,036
,010
,204

Durbin Watson

1,887

Az R2 vltozst az elz s az adott lpsbeli mrtk klnbsge adja, a vltozs


jelentsgt az F-teszt alapjn tlhetjk meg.
Az F-prba vltozsnak
szignifikancijt is F-teszt mri.
Az ANOVA tblzat is lpsenknt kszl. Az MSR, az MSE s az F-hnyados az
els ngy lpesben fokozatosan cskken, majd az tdik lpsben a redundns
vltoz elhagysa utn mindhrom magasabb lesz. (4.8. tblzat)

TBBVLTOZS REGRESSZISZMTS

105

4.8. tblzat: Szrsngyzet felbontsa lpsenknt


ANOVA
Model
1

Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total

Sum of
Squares
42,832
53,904
96,737
47,453
49,283
96,737
50,426
46,310
96,737
54,644
42,092
96,737
53,658
43,079
96,737

df
1
73
74
2
72
74
3
71
74
4
70
74
3
71
74

Mean
Square
42,832
,738

F
58,006

Sig.
,000

23,727
,684

34,663

,000

16,809
,652

25,770

,000

13,661
,601

22,719

,000

17,886
,607

29,479

,000

A regresszis egytthatk becslse az elemzs clja.


Az egytthatkat sztenderd hibikkal osztva a t-teszt rtkt kapjuk. A lpsenknti
eljrs hatsra csak a nulltl szignifiknsan klnbz egytthatj vltozk
maradnak a modellben. Ha az indul adatokat sztenderdizljuk, akkor egybl
sztenderdizlt egytthatkat, btkat kapunk, amelyek az x 1%-os vltozsnak y-ra
gyakorolt hatst fejezik ki.
A tblzatban szerepl zero-order korrelcik az adott x s az y kztti kznsges
Pearson korrelcik. A parcilis korrelcik (4.19) a mr bevont magyarz
vltozk hatst szrik ki, ezrt alacsony rtkk (pldul a 4. lpsben a ni
vrhat lettartam bevonsa utn a csecsemhalandsg) multikollinearitsra utal. A
rsz-korrelci a parcilis korrelci szmllja.
A kollinearitsi statisztika kt mutatt ad. A tolerancia=1- Ri 2, azaz az i-edik
vltoznak az sszes tbbi magyarz vltozval val determincis
egytthatjnak komplementere. rtke 1, ha egy magyarz vltoz van, utna
egyre cskken. Mr a 3. lpsben ers multikollinearits van, amint azt a korrelcis
mtrixnl is szleltk.
A VIF a tolerancia reciproka. A 4. lpstl az egymssal szorosan korrell frfi s
ni vrhat lettartam egytt szerepel a vgs modellben, ezrt a VIF tl magas, kt
vltozra is t felett van. (4.9. tblzat) Ezek alapjn a modell alkalmazsa
megkrdjelezhet.

106

TBBVLTOZS ADATELEMZS
4.9. tblzat: A regresszis modell egytthati

TBBVLTOZS REGRESSZISZMTS

107

Az ves npessg nvekedst becsl egyenletben a konstans (3,331) mellett a


GDP/f s a frfi valamint a ni vrhat lettartam szerepel. Ez a hrom magyarz
vltoz egymssal is szorosan korrell a tolerancia alacsony, a VIF pedig tl
magas ezrt a modellben gondok lesznek. A sztenderdizlt regresszis egytthatk
alapjn a ni vrhat lettartam hatsa a legersebb, mivel a -2,203 abszolt
rtkben meghaladja a msik kt btt.
A modellben nem szerepl vltozk listjbl a kvetkez lpst lehet
megllaptani. A (k+1) lpsben az a vltoz kerl bevonsra, amelynek a
legnagyobb (s mg szignifikns) a t-tesztje. (4.10. tblzat)
A sajtrtkek s a kondcis indexek a 4.11. tblzatban tallhatk. Lthat, hogy
minden lpsben egy nagy 73 sajtrtk van, ami arra utal, hogy maximum kt
fggetlen dimenzi van, amibe a magyarz vltozk tmrthetk. A kondcis
index mr a 3. lpsben meghaladja a veszlyes szintet, a 30-t. A regresszis
egytthatk varianciinak sztosztsa nem sikerlt, mr a msodik lps magas
variancia hnyadot jelez. (A szmok szzalkosan rtelmezhetk.) A magyarz
vltozk mgtt azonos sajtrtk hzdik meg, ezrt tmrthetk, egymstl nem
fggetlenek. Ilyen esetben rdemes fkomponens vagy faktor ellltsra gondolni.

Az egysgnyinl nagyobb sajtrtk szmt nagynak. Errl rszletes magyarzatot a


fkomponensek ismertetsekor adunk.
73

108

TBBVLTOZS ADATELEMZS
4.10. tblzat: A mg be nem vont vltozk statisztiki

4.11. tblzat: Sajtrtkek s variancia hnyadok

110

TBBVLTOZS ADATELEMZS

A rezidulisok statisztiki
Elszr kt orszgot ltunk a 4.12. tblzatban, amelyek sztenderdizlt rezidulisa
kvl esnek a (-3;+3) intervallumon. Mindkettnek pozitv eljele van, azaz a modell
alulbecsli a megfigyelt rtket. Fellbecsls negatv rezidulis esetn fordul el.
4.12. tblzat: Kilg megfigyelsek
a
Casewise Diagno stics

Case Number
80
87

COUNT RY
Kuwait
U.Arab
Em.

Std.
Residual
4,497

Population
increase
(% per
year))
5,2

Predicted
Value
1,737

Residual
3,503

4,348

4,8

1,413

3,387

a. Dependent Variable: Population increase (% per year))

A tovbbi (4.22)-(4.25) kpletek szerint szmtott rezidulisokat megfigyelsenknt


az adatllomnyhoz csatolja az SPSS, mg a fbb statisztikai jellemzket
sszefoglal tblba rendezve kapjuk meg. (4.13. tblzat)
4.13. tblzat: A rezidulisok statisztiki
a
Resid uals Statistics

Minimum
,149
-1,964

Predicted Value
Std. Predicted Value
Standard Error of
,106
Predicted Value
Adjusted Predicted Value 9,415E-02
Residual
-1,936
Std. Residual
-2,485
Stud. Residual
-2,450
Deleted Residual
-1,936
Stud. Deleted Residual
-2,452
Mahal. Distance
,375
Cook's Distance
,000
Centered Leverage Value
,005

Mean
1,753
-,079

Std.
Deviation
,812
,954

,348

,178

5,001E-02

109

3,544
3,503
4,497
4,572
3,620
5,404
13,787
,196
,186

1,756
-7,10E-02
-,091
-,089
-7,33E-02
-,083
3,095
,014
,042

,818
,850
1,091
1,095
,873
1,134
2,367
,029
,032

109
109
109
109
109
109
109
109
109

Maxim um
3,544
2,023

N
109
109

a. Dependent Variable: Population increase (% per year))

Itt megllapthat, hogy a klnbz rezidulisok mindegyike inkbb jobbra ferde,


mint szimmetrikus, hisz a rezidulisok tlagai a minimum s a maximum kztt nem
kzpen vannak. A rezidulisok az adatllomnyban egyenknt is megrzsre
kerlnek, s rszletesen rtkelhetk a klnbz hibatagok. Minden hiba-szmtsi
md mellett a 4.12. tblzatban ltott kt megfigyels, a 80. Kuwait s a 87.
Egyeslt Arab Emirtusok lg ki a megfigyelsek kzl. Ezen orszgok illeszkedse

TBBVLTOZS REGRESSZISZMTS

111

is gyenge. A (4.29) kplet szerinti StDfFits rtkeket gy kapjuk meg, ha az


orighoz igaztott hats-rtkekhez hozzadjuk az 1/n=1/75 szmot.
Az orighoz tolt hats (leverage) maximlis mrtke alatta marad az vatossgra
int 0,2 kszbnek. A maximlis rtket Brazlia ri el, ezrt a (26) sszefggs
alapjn a Mahalanobis tvolsg maximuma (13,787) is Brazlihoz tartozik.
Lettorszg (11,5) s Ukrajna (9,5) tvolsgai szintn nagyok. Ugyanakkor a Cookfle tvolsg sehol sem haladja meg az egyet, ezrt igazi outliereket nem tudunk
azonostani.
A kovariancia hnyados ersen ingadozik az egy krl, tbbszr kilp abbl a
svbl, amit az 13p/n kplet megad. (4.3. bra) Nagyobb a kovariancia mtrix
determinnsa, ha Brazlit vagy Lettorszgot hagyjuk ki (1,2 feletti hnyadosok).
Cskken a determinns, ha Kuvait vagy az Egyeslt Arab Emirtusok marad ki (0,4
alatti CR).
1,4

1,2

1,0

,8

,6

,4

,2
-1

P o p u la t io n in c r e a s e (% p e r y e a r) )

4.3. bra: Kovariancia hnyados

Rezidulisok bri
a) A rezidulisok statisztikibl lttuk, hogy a 80. s 87. orszgok rontjk az
illeszkedst. A 4.4/a. brn mg e kt orszg rezidulisai is szerepelnek, mg a 4.4/b
hisztogram a kihagysukkal kszlt regresszis modell sztenderdizlt hibatagjait
mutatja.

112

TBBVLTOZS ADATELEMZS
Histogram

Histogram

Population increase (% per year))

Population increase (% per year))


16

30

14
12

20

10
8
6

Frequency

Frequency

10
Std. Dev = 1,09
Mean = -,09
N = 109,00

Std. Dev = 1,06

Mean = -,12

N = 107,00

50
2,
00
2,
50
1,
00
1,
0
,5
00
0,
0
-,5 0
,0
-1 0
,5
-1 0
,0
-2 0
,5
-2

50
4,
50
3,
50
2,

50
1,

0
,5

0
-,5
0
,5
-1
0
,5
-2

Regression Standardized Residual

Standardized Residual

4.4/a. bra 109 orszg hibatagjai

4.4/b. bra: 107 orszg hibatagjai

b) Normlis valsznsg brja: Ha a rezidulisok normlis eloszlst kvetnek, a


pontok a 45 fokos egyenes mentn helyezkednek el. A sztenderdizlt rezidulisokat
s a normlis eloszls felttelezsvel vrt hibatagokat jelz pontok a 4.5. brn nem
esnek az egyenesre, de nincs is markns eltrs kztk.
ltalban elmondhat, hogy az egyenes alatti vagy feletti pontok a szimmetria
hinyt jelzik. Az egyenes elejnl vagy vgnl lv nhny tvoli pont kilg
megfigyelsekre utalna. Ha a pontsorozat tvolodik, akkor lapult vagy cscsos az
eloszls.
Normal Prob.Plot Stand.Residu
Population increase (% per yea
1,00

Expected Cum Prob

,75

,50

,25

0,00
0,00

,25

,50

,75

1,00

Observed Cum Prob

4.5. bra: A sztenderd rezidulisok normlis eloszlsnak grafikus vizsglata


c) Szoks az is, hogy a vzszintes tengelyen y-t vagy valamelyik x vltozt, a
fggleges tengelyen a rezidulist tntetjk fel. A nulla krli, nem nvekv,
fggvnykapcsolatot nem mutat rezidulisok a lineris modell megbzhatsgt

TBBVLTOZS REGRESSZISZMTS

113

tmasztjk al. A 4.6. brn a 80. s 87. orszgok a nagy rezidulisok miatt kln
llnak, s a hibatagok nvekednek 74.
4

Unstandardized Residual

-1

-2
-1

Population increase (% per year))

4.6. bra: A fgg vltoz mentn nvekv rezidulisok


Az tlag krli s az egyedi megfigyelsekhez tartoz 95%-os megbzhatsgi
szint konfidencia svok is brzolhatk a Graphs/Line/Multiple belltssal.
Nagyon sok orszg megfigyelt npessgnvekedse esik kvl az als s a fels
becslt rtken.
A fggetlen vltozk kzl kettt kivlasztva mutatjuk be a hibatagok
viselkedst. A 4.7. brn a GDP/f vltozra cskken, a frfiak vrhat
lettartamra vettve nvekv rezidulisokat ltunk.

74

Ilyenkor adat-transzformcit ajnlott alkalmazni, pl. y vagy x, esetleg mindkett

logaritmust clszer venni.

114

TBBVLTOZS ADATELEMZS
4

Unstandardized Residual

-1

-2
-10000

10000

20000

30000

70

80

Gross domestic product / capita


4

Unstandardized Residual

-1

-2
40

50

60

Average male life expectancy

4.7. bra: A magyarz vltozk s a rezidulisok


d) A Studentizlt sorkihagyssal szmolt rezidulisokat az y tengelyen, a
standardizlt becslt rtkeket az x tengelyen brzolva a modell rvnyessge
jl szemlltethet. A normalits teljeslse esetn a rezidulisok 95%-a (-2;+2)
kz esik. A 4.8. brn felfel nagyon kilg (80, 87) orszgokat mr
azonostottuk. Lefel haladva kicsivel (2) alatt talljuk balrl jobbra haladva
Bulgrit, Romnit s Knt, ahol jval kevesebb gyerek szletik, mint
amennyit a modell alapjn vrunk. ppen 5 kilg orszg fr bele szz krli
minta esetn a 95%-os tartomnyba.
Itt a minta mrete s a hinyz adatok kezelse kapcsn fontos technikai
megjegyzst kell tennnk:
- 109 orszg van a World95.sav-ban. De csak 75 orszgnak van teljes adatsora a
regresszis modellben felsorolt fgg s magyarz (1+6) vltozra. Ezrt a
tblk egy rszben, pldul a 7. s 8. tblzatban n=75-bl szmolt
szabadsgfok szerepel.

TBBVLTOZS REGRESSZISZMTS

115

- A vltozszelekcit kveten azonban kimarad az a hrom magyarz


vltoz, amelyeknek 34 orszgra hinyzik rtke. gy a felptett regresszis
modellt mr 109 orszg adataibl becslte az SPSS. Rezidulist is 109 orszgra
szmol s brzol a szmtgp.
6

Studentized Deleted Residual

-2

-4
-3

-2

-1

Standardized Predicted Value

4.8. bra: Melyik orszgok nlkl lenne nagyon ms a regresszis egyenes?

4.10. sszefoglals: A bemutatott modell illeszkedsnek minstse


Az adathalmaz kivlasztott vltozin szinte a regressziszmts sszes
gyengjt sikerlt bemutatni, mikzben a 4 magyarz vltozval ksztett
lpsenknti modell minden teszten tment. Mgis felmerltek az albbi
problmk:

a megfigyelsek halmaza nem homogn,

a magyarz vltozk nem fggetlenek,

a determincis egytthat nem elg magas,

a rezidulisok kvl esnek a kedvez tartomnyon, s szrsuk nem


konstans.

Mit lehet tenni a modell javtsa rdekben?


Ezek a problmk nem egymstl fggetlenl jelentkeznek. Ha kihagyjuk
pldul a kt outlier orszgot (80 s 87), akkor az R2 0,54-rl 0,64-re n.
De a gyenge modell legfbb oka az, hogy a lineris modell felttelezse nem
llja meg a helyt. A fgg vltoz s a magyarz vltozk kapcsolata nem
rhat le lineris fggvnnyel, amint ezt a 4.9. bra mutatja. Az els hrom
magyarz vltoz szoros lineris kapcsolatban van, ami ers

116

TBBVLTOZS ADATELEMZS
multikollinearitst okoz, a GDP hatsa viszont nem lineris. A lpsenknti
regresszi a megadott vltozk kzl ksztette el a lehet legjobb becslst, ami
szakmai rtelemben nem j, tovbbi elemzsekre nem alkalmas.

Female life

Male life ex

Infant mortality

GDP/c

Population incr.

4.9. bra: Vltoz-prok pontdiagramja


A vltoz-transzformcikra s a nemlineris regresszira itt nem trnk ki, mivel a
jegyzetben ismertetsre kerl tbbi sokvltozs eljrs megalapozshoz a lineris
regresszis modell szksges.

4.11. nll elemzsi feladatok


Vlaszoljon az albbi krdsekre s a Kerletek2010.sav adatllomnybl szmolva
ellenrizze az elgondolsait.
1. feladat
Legyen a fggvltoz az nkormnyzati bevtel.
Kvnalom, hogy normlis eloszls legyen? igen/nem
Milyen mdon ellenrizhet, hogy teljesl-e a normalits?
a) Grafikusan:
b) Numerikusan:

TBBVLTOZS REGRESSZISZMTS

117

2. feladat
A magyarz vltozk kz vlasztand a kvetkez 7 vltoz:
Npessgszm
Odavndorls
Elvndorls
Vendglthely
Laksllomny
ptett laksok
llskeresk
a) A relatv szrsok kett alatt vannak?
b)A magyarz vltozk kztti korrelcik szignifiknsak?
c) A STEPWISE eljrs fontos? Igen/nem
3. feladat
Elemezze egytt, egy regresszis modellben az 50 teleplst az 1. s a 2. feladat
vltozi alapjn.
a) Hny magyarz vltoz kerlt bevonsra?
b) Milyen a modell illeszkedse?
c) A rezidulisok viselkedse megfelel-e?
d) Vannak-e kilg kerletek/teleplsek az adatok kztt?
e) A kerlet sttusz vltoz dummy-knt szerepelhet-e a modellben? Igen/nem
Bevonsra kerl? Igen/nem
HOMOGN az adathalmaz, kzs tendencia jellemz a ktfle teleplsre?
Igen/nem
4. feladat
Kln illesztend lineris regresszis modell a 23 kerletre s a tbbi 27
falura/vrosra.
a) Ms magyarz vltozk kerlnek be a kt modellbe?
b) Melyik modell illeszkedik jobban?
c) Melyek a kilg kerletek/teleplsek az adatok kztt?
5. feladat
a) Hogyan lehet csak konstansban eltr modellt illeszteni kt almintra?
b) Ha magas a kondcis index, akkor a regresszis modell helyett melyik mdszer
alkalmazsa lehet indokolt?

4.12. Megoldsok
1. feladat
A fggvltoz (nkormnyzati bevtel) normlis eloszlsa elvrs. A normalits
ellenrizhet grafikusan s numerikusan is.
a) Grafikusan kt lehetsg is addik:
i) Hisztogram

118

TBBVLTOZS ADATELEMZS

ii) QQ plot: a 45 fokos egyenestl a kisebb rtkeknl tapasztalunk eltrst, azaz a


kis nkormnyzati bevtellel rendelkez teleplsek gyakoribbak, mint a normlis
eloszls szerint vrt elforduls.

b) Numerikusan tbb adatot nzhetnk:


i) ferdesg 0,417 2*0,337 s cscsossg -1,0022*0,662 mrszmok konfidencia
intervallumai tartalmazzk a nullt, az eltrs nem szignifikns
ii) Kolmogorov-Szmirnov vagy Shapiro-Wilk teszt (ppen n=50 a megfigyelsek
szma)
Tests of Normality

Kolmogorov-Smirnova
nkormnyzatibev

Statistic
,132

df
50

Sig.
Statistic
,029
,916

Shapiro-Wilk
df
50

Sig.
,002

a. Lilliefors Significance Correction

Mindkt tesztre 5%-os szignifikancia szinten elvethet a normlis eloszls.


Teljesl a normalits? Nem egyrtelm a vlasz! De a ferdesg s cscsossg
rtkekre tekintettel elksztjk a regresszis becslst.
Figyelem! rdemes kiprblni a kvetkezket, br egyik rvn sem kapunk a tesztek
szerint normlis eloszlst:
- az nkormnyzati bevtel logaritmusa normlis eloszls-e
- az egy fre jut nkormnyzati bevtel eloszlsa milyen?
- az egy fre jut nkormnyzati bevtel logaritmusa milyen alak?
2. feladat

TBBVLTOZS REGRESSZISZMTS

119

a) A relatv szrsok (szrs/tlag hnyadosok) kzl nhny meghaladja az egyet,


de a kettt egyik sem kzelti meg. Teht a vltozk mentn a minta nem heterogn.
b) A 7 magyarz vltozk kztti pronknti korrelci mind szignifikns s
pozitv. A legkisebb r=0,629 (ptett laksok s vendglthely), a legnagyobb
r=0,980 ( npessg szm s laksllomny)
c) A Stepwise eljrs fontos, mert nagyon jelents multikollinearits ll fenn.
3. feladat
Lineris regresszis modellben az 50 telepls adatai alapjn az nkormnyzati
bevtel becslsre
a) 4 lpsben 3 magyarz vltozt von be, de csak kettt tart bent.
1. lps: az nkormnyzati bevtellel legersebben korrell laksllomny
bevonsa
2. lps: a vendglthely vltoz bevonsa
3. lps: npessgszm bevonsa
4. lps: a npessg s a laks vltozk ers korrelcija miatt laksllomny
vltoz kihagysa
Itt fontos figyelni arra, hogy ez a legjobb regresszis modell, ami a korltoz
feltteleket figyelembe vve felpthet. De vajon a kivlasztott kt vltoz helyett
mind a ht magyarz vltoz fkomponensbe tmrtve, egyetlen faktorknt nem
ad-e j, hasznlhat becslst az nkormnyzati bevtelre? Az nkormnyzati bevtel
s a 7 vltozbl (83%-ot megrz) faktor kztti korrelci= 0,899.
b) A modell illeszkedse nagyon j, a korriglt R-ngyzet 0,858.
- Az F-tesztek minden lpsben altmasztjk a lineris modell ltt.
- A kt vltoz tolerancia rtke 0,379, s a variancia infll faktor 2,641, ami nem
tl magas. (Kt magyarz vltoz esetn indokolt, hogy kzs a Tol s a VIF rtk,
hisz egymst magyarzzk.)
- A kondcis index 5,222 rtke sem jelez a kt vltoz s a konstans kztt tlzott
erej kapcsolatot.
c) A rezidulisok eloszlsa a hisztogramon normlishoz kzeli alak.

120

TBBVLTOZS ADATELEMZS

3.feladat tblzata

2. feladat tblzata

TBBVLTOZS REGRESSZISZMTS

121

A pontok szrsa enyhe nvekedst mutat, a nagyobb nkormnyzati bevtelhez


kicsit magasabb sztenderdizlt rezidlisok tartoznak (R-ngyzet=0,137). Csak
Budars (3,546) s az V. kerlet esik kvl a [-2;+2] intervallumon, mg a XI.
kerlet a hatr kzelben van.

122

TBBVLTOZS ADATELEMZS

d) Vannak-e kilg kerletek/teleplsek az adatok kztt?


- Itt a sztenderd rezidulisok brja alapjn Budars s az V. kerlet emlthet.
Mindkettnek alulbecsli az nkormnyzati bevtelt a modell.
- Az egyedi tttel hatsok s a Cook-tvolsg terben vizsglva egyedl az V.
kerlet kerl a kritikus rtkeken kvlre.

rdemes tgondolni, hogy Budars s Budapest V. kerlet miben trnek el s miben


hasonltanak:
- A rezidulisaik nagyok, 2-4 kztti rtkk azt jelzi, hogy jelentsen
alulbecslte a modell az ott mrt nkormnyzati bevteleket. Itt ms magyarz
vltozk figyelembe vtele is indokolt lenne.
- Az tttel hatsa egyiknek sem ri el a 0,5-t, teht egyik elhagysa sem
indokolt. De a 0,2 s 0,5 kztti rtk arra utal, hogy a V. kerlet a becslsre ersen
hat.
- a Cook-tvolsg csak az V. kerletre magas. Ha elhagynnk az V.
kerletet a regresszis becsls sorn, akkor a 49 pontbl ksztett regresszis becsls
jelentsen eltrne az 50 pontbl szmolt modelltl.
e) A kerlet sttusz vltoz dummy-knt szerepelhetne a modellben, de nincs
szignifikns szerepe, ezrt nem kerlt bevonsra. Ez azt is jelenti, hogy a kerletekre
s az agglomerci teleplseire nem egymssal prhuzamos modell illeszkedik.
Az adatllomny kt rsze homogn, kzs lineris tendencia jellemzi a hrom
vltoz kapcsolatt, amint ezt a 3D-s pontdiagram is mutatja.

TBBVLTOZS REGRESSZISZMTS

123

4. feladat
Ha kln illesztnk lineris regresszis modellt a 23 kerletre s a tbbi 27
falura/vrosra, nagyon eltr regresszis modelleket kapunk. A szmtsokat kt
ron vgezhetjk el:
i) A regresszis modellezsen bell Selection: Kerlet=1 (majd 0) belltssal
futtatva mind a kivlasztott, mind a msik almintra elkszl a becsls, s mindkt
rszre megkapjuk a fbb statisztikai jellemzket.
ii) Ha elre leszrjk az egyik almintt, s csak ezt hasznljuk a regresszis
blokkban, akkor a msik almintra nem kapunk semmilyen eredmnyt.
Most az i) szerint jrtunk el, s kt rszmodell eredmnyeit vetjk ssze az a) b)
c) krdsek mentn.

124

a) c)
krdsek
magyarz

TBBVLTOZS ADATELEMZS

Kerleti adatok
sajt modellje

Kerleti adatok
agglomercira

Agglomercis
adatok sajt
modellje

Agglomercis
adatok kerletre

laksllomny

laksllomny

Odavndorls

Odavndorls

ptettlaksok

ptettlaksok

Elvndorls

Elvndorls

vltoz(k)

modell

Tbbszrs

Tbbszrs

Tbbszrs

Tbbszrs

illeszkedse

R=0,851

R=0,854 (!)

R=0,939

R=0,522

kilg

V. kerlet

Budars

nincs

13 kerlet

teleplsek

A kilg kerletek/teleplsek az adatok kztt nemcsak a felsorolsbl, hanem a


sztenderd rezidulisok brjrl is lthat. Itt csak a kerleti adatok modelljbl
szmolt rezidulisokat mutatjuk be, de mindkt almintra. Lthat, hogy az
agglomerci teleplseire hatrozottan nvekednek a rezidulisok, teht ott tovbbi
magyarz vltozk bevonsa indokolt. Ez teljesl is, hisz az agglomercira
illesztett modellben 3 magyarz vltoz szerepel. Ugyanakkor 3 hrom vltozs
modellben a vndorlsi mutatk VIF-rtke 40 feletti s a kondcis index 26,687, a
multikollinearits teht tl ersen van jelen. Mindent sszevetve a kt alminta
egyttes kezelsvel statisztikai rtelemben jobb modellt kaptunk.

TBBVLTOZS REGRESSZISZMTS

125

5. feladat
a) Csak konstansban eltr modellt illeszteni kt almintra gy lehet, hogy az
almintt azonost dummy (d= 0 vagy 1) vltozt a modellbe bevonjuk. gy
y = b0 + b x + b2 d az alapmodell lesz, ha d=0. Mg d=1-re b2vel magasabb vagy
alacsonyabb rtket becslnk b2 eljeltl fggen.
b) Ha magas a kondcis index, akkor a regresszis modell helyett faktor (vagy
fkomponens) elemzs alkalmazsa indokolt. De legynk tudatban annak, hogy ez
is a vltozk szoros lineris kapcsolatra pt. Nem lineris kapcsolat esetn elzetes
linearizl transzformci indokolt.

5. Logisztikus regresszi
A lineris regresszi trgyalsa sorn ppen csak utaltunk a nemlineris regresszira. Mi ennek az oka? Az, hogy a nemlineris jelleg szmtalan fggvnyformt takar.
Tovbbi mdszertani elgazst jelent az, amikor az y fgg vltoz nem folytonos,
hanem kt vagy tbb kategrival rendelkez vltoz. Ha ilyen elemzsi feladat
addik, akkor hasznlhatjuk a kereszttblt, vagy a kereszttblra illeszthet
loglineris modellt 75. Ez ppgy, mint a lineris regressziszmts is az
ltalnostott lineris modell csald (GLM) specilis esete.
Ebben a fejezetben egy tovbbi GLM modellt, a logisztikus regresszis modellcsald legegyszerbb modelljt, a binris logisztikus regresszit, az un. logit modellt
trgyaljuk. A mdszer fontossgt, alkalmazhatsgt az utbbi vekben megjelent
szmos cikk 76 is bizonytja.
A logisztikus regresszi alkalmazsi cljt tekintve az osztlyoz eljrsok 77 kz
sorolhat,
mert akkor hasznlhatjuk, ha elre definilt, egymst klcsnsen kizr csoportok
egyikbe soroljuk be a megfigyelseket a magyarz vltozkbl nyert informci
alapjn. Ha az eredmnyvltoznak tbb lehetsges kimenete van, akkor
multinomilis logisztikus regresszirl beszlnk. A logit modell akkor

75

Ezt rszletesen trgyalja: Fsts-Kovcs-Meszna-Simonn (2004): Alakfelismers c.


knyve.
76
Hunyadi Lszl: A logisztikus fggvny s a logisztikus eloszls, Statisztikai Szemle
2004.10-11.
Hajdu Ott: A csdesemnyek logit-regresszijnak kismints problmi Statisztikai Szemle,
2004. 4. .
Flp Pter: A binris logit modellek hasznlatnak s tesztelsnek eszkzei, Statisztikai
Szemle 2002. 3.
Bartus Tams: Logisztikus regresszis eredmnyek, Statisztikai Szemle 2003. 4.
Gray R.-Kovcs E.: Az ltalnostott lineris modell s biztostsi alkalmazsai, Statisztikai
Szemle, 2001. 8.sz.
77

A klasszifikcis mdszerek kzl foglalkozik ez a knyv a Klaszterelemzssel (3. fejezet)


s a Diszkriminancia elemzssel (7. fejezet). Klaszterelemzst akkor vgznk, ha ismeretlen
kategria hatrok mellett trjuk fel a bels struktrt. A diszkriminancia elemzs a logisztikus
regresszihoz hasonl feladatok megoldsra szmos elfeltevs teljeslse esetn
alkalmazhat. A logisztikus regresszival vgzett diszkriminlst akkor rdemes vlasztani,
ha a vltozk egyttes eloszlsa nem tekinthet normlisnak, s a variancia-kovariancia
mtrixok nem egyenlk.

LOGISZTIKUS REGRESSZI

127

alkalmazhat, ha az eredmnyvltoznak csak kt, egymst klcsnsen kizr


kategrija van.

5.1. A logit modell s az indul adatok


Az eredmnyvltoz, Y (response, fgg vltoz) 0-1 rtk binris vltoz, amely
tbbek kztt azt fejezheti ki, hogy

a hitelt felvev gyfl csdbe jutott vagy trleszt,


az gyfl felmondta-e a szerzdst, azaz lemorzsoldott vagy elfizet
maradt,
a pciens felgygyult vagy nem lte tl a balesetet,
egy jtkterembe belp szemly kockztatott vagy nem jtszott stb.

A magyarz vltozk kztt lehetnek nominlis, ordinlis vagy magasabb


(intervallum s arny) skln mrt vltoz k is. A nominlis vagy ordinlis szinten
mrt x vltozk lehetsges rtkei (szintjei) kzl egyet (ltalban az elst vagy az
utolst) rgztjk, ezekhez viszonytva becsljk a fgg vltozra gyakorolt hatst.
A magyarz vltozk szintjeinek kombincit is rgzthetjk (Pl. 1500 cm3 alatti
autt vezet frfi), ezek a kovarinsok.
Az y eredmnyvltoz kategriinak bekvetkezse (pl. y=1, a csd elfordulsa) az
x magyarz vltozkbl (jvedelem, letkor, eladsodottsg) nem becslhet a
hagyomnyos legkisebb ngyzetek mdszervel az y = 0 + x lineris regresszis
modellel az albbi okok miatt:
A dichotom y nem normlis eloszls, hanem Bernoulli B(1,p) eloszlst kvet. Az
y=1 bekvetkezsnek a valsznsge p. Vrhat rtke: E(y)=P(y=1)=p s
variancija: Var(y)=p(1-p). gy a variancia a p valsznsgtl fgg, nem konstans.
A magyarz x vltoz egy egysgnyi vltozsa nem a teljes tartomnyon
eredmnyez azonos vltozst y rtkben.
A lineris regresszival becslt rtk nem felttlenl esik a [0;1] intervallumba,
pedig az y=1 bekvetkezsnek valsznsget becsljk.
Az emltett problmk megoldsa rdekben a Cox 78 (1970) ltal javasolt logit
transzformcit alkalmazunk, hogy a becslt p rtk a [0;1] tartomnyban maradjon,
s ne nvekedjen/cskkenjen a szleken tl gyorsan, gy, mint ahogy ez a lineris
regresszival trtn becslsnl elfordul.
A logit transzformci azt jelenti, hogy a fgg vltoz helyett a hitel vissza nem
fizets valsznsgnek (p) s a trleszts valsznsgnek (1-p) hnyadost
logaritmljuk, s erre illesztnk (5.1) szerint (itt egyvltozs) lineris modellt:
Cox D.R. 1966-ban rt elszr a logisztikus kvalitatv fgg vltozk elemzsrl. 1970ben pedig Analysis of binary data cmen knyvet is publiklt a tmban.
78

128

TBBVLTOZS ADATELEMZS

p
= log it ( p) = 0 + 1 x
log
1 p
,

(5.1)

ahol p/(1-p) az odds 79, s ennek logaritmusa, azaz az esly logaritmusa a logit.

5.2. A logit modell paramtereinek becslse


Az (5.1) egyenletben hrom ismeretlen van: p, 0 s 1 .
Hogyan becsljk annak valsznsgt, hogy az gyfl hitelkpes, s a modell
alapjn inkbb a hitelkpesek csoportjba soroljuk-e? ltalnosan megfogalmazva
az Y kimenet elrejelzse, azaz az gyfl klasszifikcija hogyan vgezhet el?
Mivel az y eloszlsa ismert, esetnkben Bernoulli eloszls, a mintbl a
legvalszerbb Maximum Likelihood (ML) becslst ksztjk el.
Els lpsben tekintsnk el az x adatoktl, mg csak az y=1 s az y=0
bekvetkezsek gyakorisgt ismerjk. Likelihood fggvnyt runk fel (5.2) szerint
a B(1,p) eloszls vltozra:
n

L( p ) = ( p ) yi ( 1 p )( 1 yi )
i =1

(5.2)

Ennek logaritmust derivljuk p szerint:


n

i =1

i =1

ln L = yi ln p + ( 1 yi ) ln( 1 p )

d ln L
=
dp

y (1 y ) = 0
i

1 p

Mivel az n szm megfigyelsbl k esetben y=1 s (n-k) esetben y=0 kvetkezett be,
az sszegzsben y=k s (1-y)=n-k rhat. Ekkor k/p=(n-k)/(1-p), amit rendezve
k=np addik, azaz a relatv gyakorisggal trtn becsls formuljt kaptuk:
^

p =

k
n

(5.3)

Ha teht x magyarz vltozt nem vonunk be a modellbe, a kockzat (csd) becslt


valsznsge pldul n=25 s k=15 esetn P(y=1)=15/25=0,6 lesz. A klasszifikcit
gy vgezzk, hogy akire ennl nagyobb valsznsget becslnk, azt a
79
Az odds a sztr szerint valsznsg, de ez a fordts nem helyes, mert a kt
valsznsg hnyadosa egynl nagyobb is lehet. A tovbbiakban az odds szt hasznljuk,
vagy eslynek fordtjuk.

LOGISZTIKUS REGRESSZI

129

kockzatosak kz soroljuk, mg a 0,6 alatti rtkek a msik kategriba 80


kerlnek.
Ezt az eredmnyt gy is rtelmezhetjk, hogy minden egyes x rtkhez (pl.
letkorhoz, jvedelmi kategrihoz, eladsodottsgi rthoz) egyetlen kzs pi =
valsznsg tartozik.
Ez a feltevs a gyakorlatban ltalban nem igaz. A pi valsznsg vltozik, ha az xi
magyarz vltozk rtkeit figyelembe vesszk. Tipikus pldaknt emlthet a
hallozsi (qx) vagy az letben maradsi (px) valsznsg. Mindkett fgg az
letkortl, letmdtl, vagyoni helyzettl stb.
Ha a bekvetkezsi valsznsg becslshez a magyarz vltzkat is bevonjuk a
logit modellbe, az ML becsls jval komplikltabb vlik.
Az eslyek logaritmusa, a log-odds lesz az x magyarz vltozk lineris
fggvnye:

p
ln(odds ) = ln
1 p
= log it ( p ) = 0 + 1 x1 + ... + p x p

(5.4)
vagy

p
T x
= exp( 0 + 1 x1 + ... + p x p ) = e
odds =
1 p
(5.5)
Ebbl kapjuk a becslt feltteles valsznsget:

p
T x
p
e
(1 p )
=
p=
=
T x
1 p + p
1+ e
1+ p
(1 p )

(5.6)

A regresszis paramterek becslshez az (5.7) szerinti likelihood fggvnyt rjuk


fel, s az (5.6) szerinti becslst behelyettestve kapjuk (5.8)-at:
n

L( b0 ,b1 ,...,b p ) = ( pib ) yi ( 1 pib )( 1 yi )


i =1

80

(5.7)

Ez a k/n rtk lehet belltva cut-value, azaz dntsi kszbrtknek a


futtatsban. A szmtgp alapbelltsban ez .

130

TBBVLTOZS ADATELEMZS

exp( b j xij )

j
L( b ) =
1 + exp( b j xij

yi

)
1 + exp( b j xij

j

1 yi

(5.8)

Ha csak egyetlen x vltoznk van, akkor kt paramtert (b0 s b1) becslnk. Mivel a
b becslsekre nincsen explicit formula, a szmtgp szmos b0 s b1 rtkprt
behelyettest, hogy megtallja azt az rtkprt, amelyre az L(b) a maximumt
felveszi. Ez az iteratv Newton-Raphson eljrs.
A becslt b paramterek felhasznlsval (5.9) egyenletbl (5.10) szerint kapunk
becslst p-re:
^

log it ( p i ) = b 0 + b 1 xi
^

p =

(5.9)

1
1+ e

( b0 +b1x )

(5.10)

Ha x=0, akkor (5.11)-bl belthat, hogy a becslt rtk 0 s 1 kztt van:


^

p=

1
1
1 + e b0

(5.11)

A logisztikus grbe nyjtott S-alakjt a b1 eljele hatrozza meg. Ha b1>0, akkor


emelked az S-grbe, s a b1 a nvekeds sebessgt fejezi ki. Ez a hats parcilis s
additv.
rtelmezni az exp(b1) kifejezst szoktuk, ami azt mutatja meg, hogy az x egy
egysgnyi nvekedse hnyszorosra vltoztatja meg az eslyt, az odds-t. Ez a hats
parcilis s multiplikatv, amint ezt (5.12) mutatja.

p
x
1
odds =
1 p
= exp( 0 + 1 ( x1 + 1) + ... + p x p ) = e e

(5.12)
Ha b1>0, akkor exp(b1)>1, az esly nvekedik, mg b1<0 esetben exp(b1)<1, ami
cskkenti az eslyt. Ha b1=0, akkor az eslyhnyados rtke 1, vagyis x vltozsval
arnyosan vltozik az odds.
A b1 kzvetlen rtelme az eslyhnyados logaritmushoz kapcsolhat:
p ( x + 1)

p ( x + 1)
p( x)
(1 p ( x + 1))

log
= log 1 p ( x + 1) log 1 p ( x) = (b0 + b1 ( x + 1) ) (b0 + b1 x) = b1
p( x)

(1 p ( x))

LOGISZTIKUS REGRESSZI

131

Ha b1>0, akkor a hnyados is nagyobb egynl, az x nvekedsnl jobban n az


esly. Mg ha b1<0, akkor az eslyhnyados kisebb egynl, az x nvekedshez
cskken esly tartozik.
Tovbbi rdekes krds, hogy milyen x rtk mellett addik valsznsg, azaz
mikor lesz teljesen bizonytalan a helyzet (s hasznlhatatlan a modell)?
^

p=

1
1+ e

( b0 +b1x

=1/2, ha

e ( b0 + b1 x ) =1

Az egyenlsg akkor teljesl, ha a kitev nulla. Ez kt esetben llhat fenn, ha x= b0/b1, vagy ha b0=b1=0.
A statisztikai becslst ltalban kveti a konfidencia intervallumok felrsa,
nullhipotzisek fellltsa s tesztelse.
Az (1-) megbzhatsgi szinthez tartoz konfidencia intervallumokat tbb
magyarz vltozt tartalmaz logit modell egytthatira rjuk fel. Az xj egysgnyi
vltozsnak hatsa kt alakban is vizsglhat:
a) a logit vltozsra:
b) az odds-ra pedig: e

b j z / 2 se(b j )
b j z / 2 se(b j )

(5.13)

Mivel az rtelmezsben is kitntetett szerepe van exp(b)-nek, a konfidencia


intervallumot 81 is (5.13) szerint rdemes vizsglni. Ha az intervallum tartalmazza az
egyet, akkor az x vltoz hatsa nem szignifikns.
A logit modellben az egytthatkra felrt nullhipotzist parcilisan teszteljk. A
regresszis modellhez hasonlan H0: j =0 hipotzist vizsgljuk. Nagy mintra a
z=bj/se(bj) hnyados sztenderd normlis eloszlst kvet. Itt egy- s ktoldali
alternatv hipotzist is vizsglhatunk.
Csak ktoldali alternatv hipotzist (Halt: j 0) tesztelhetnk a Wald-statisztikval
(W), ahol: W=z2 , s ez 1 szabadsgi fok khi-ngyzet eloszlst kvet.
Ha z s W nagy s mellette az empirikus szignifikancia szint p <0,05, akkor xj
hatsa szignifikns, H0-t elvetjk.

5.3. A logit modell illeszkedsnek jsga


A modell jsga tbb tnyez egyttes elemzse alapjn llapthat meg. Elszr
parcilisan vizsgljuk a modellt. A tves besorolsnl megkapjuk a rezidulisokat. A
rezidulis az eredeti y=1 esemny p valsznsge s a becslt pb eltrse: ex = p-pb.

81

Az SPSS outputjban ezt kln kell krni.

132

TBBVLTOZS ADATELEMZS

Az (5.14) szerinti sztenderdizlt rezidulisok

p pb

ez =

p b (1 pb ) / n

(5.14)

nagy megfigyelsszm (n>30) mellett sztenderd normlis eloszlst kvetnek,


ngyzetsszegk khi-ngyzet eloszls lesz.
A modell egszt tbb mrszmmal is tudjuk minsteni. A globlis minstshez a
klasszikus illeszkedsvizsglatot a Pearson-fle khi-ngyzet teszt-fggvnnyel
vgezhetjk el.
Az illeszkeds vizsglat tovbbi mrszmai kzl a Lagrange-multipliktor (score)
a Pearsonfle khi-ngyzet elv alapjn szmolhat, a megfigyelt (f) s a vrt (np)
gyakorisgok sztenderdizlt eltrs-ngyzetsszege:

( fx

nx p xb )
nx p xb (1 p xb )
2

(5.15)

Ha egy kovarins vltoz kategriira nem teljesl az, hogy a becslt gyakorisgok
nagysga legalbb t, akkor Hosmer-Lemeshow tesztet kell alkalmazni, hogy
megllaptsuk, szignifikns-e a megfigyelt s a vrt gyakorisgok eltrse. A
szmtgp akkor is elvgzi ezt a homogenitsvizsglatot, ha kell szm
megfigyels esik egy-egy kategriba, ezrt rviden ttekintjk a HosmerLemeshow teszt lpseit.
A binris (y) vltozra s a becslt (p) valsznsgekre 2xg mret kereszttblt
ksztnk. ltalban g=10 sort, azaz deciliseket hatrozunk meg.
A becslt valsznsgeket nvekv sorrendbe rendezzk s decilisekre bontjuk.
sszegket decilisenknt osztjuk a decilis elemszmval (s~n/10).
A msodik tag komplementert vesszk minden decilisre: 1-p/s.
Megfigyelt (M) s vrt (V) gyakorisgok eltrst ngyzetre emeljk, s a nevezben
a msodik tag komplementere is szerepel:

2 = ( M V ) / (V ( 1 p / s )
2

A fenti sszeg khi-ngyzet eloszlst kvet. A teszt kritikus rtke g-2 szabadsgi fok
mellett addik. A szmtgp az empirikus szignifikancia szint megadsval segti a
dntst. Ha ez kisebb, mint 0,05, akkor elvetjk a homogenitst.
A likelihood arny elven trtn tesztels azrt fontos, mert hierarchikus modellekre
is jl hasznlhat. Az (5.16) szerint ez azt fejezi ki, hogy egy x magyarz vltoz
bevonsa javt-e az illeszkedsen ahhoz kpest, ha csak a konstans szerepel a
modellben:

LOGISZTIKUS REGRESSZI
Lb
LR = 2 ln 0
Lb
1

133

(5.16)

A szmllban szerepelhet az indul modell, a nevezben pedig az jabb x vltozk


bevonsval kszlt bvtett modell.
Ebbl szmolhat tbbfle R2 mutatszm is, az egyiket McFadden javasolta:
^

ln L(b) (k + 1)
R = 1
ln L(0)
,
2

(5.17)

ahol (k+1) az sszes becslt b paramterek szma, L(0) pedig a null-modell. Ez a


mrszm a likelihood fggvnyben bekvetkezett vltozst mri, ezrt kzvetlen
a lineris regresszis szrsngyzet felbontshoz hasonl rtelme nincsen.

5.4. A logit modell illesztse az SPSS-ben


Az ltalnostott lineris modellek tbbsge, kztk a logit modell is tbb tvonalon
rhet el az SPSS-ben. A logit modell becslsnek most azt a vltozatt ismertetjk,
amelyet a regresszis modellezsen bell tallhat.
Regression /Binary Logistic vlasztst kveten elszr a fgg s a magyarz
vltozkat jelljk ki.
Dependents: y vltoz megadsa (a 0-1 rtkpr hozzrendelst az elemz dnti el,
a becsls az y=1-re kszl)
Covariates: x-ek listja, itt a vltozk kztti interakci is megadhat
Method:

Enter eljrs: a felsorolt x vltozk mindegyikt egyszerre lpteti be a logit


modellbe,
Forward (Conditional, LR s Wald vltozatok): lpsrl lpesre
szignifikns vltozkkal bvti a modellt
Backward (Conditional, LR s Wald vltozatok): lpsrl lpesre szkti a
modellt, ha nem szignifikns minden megadott x vltoz.
A lpsenknt vlaszt eljrsokon belli tovbbi hrom lehetsg kzl
vlaszthatunk:

A Wald teszt rtke szerinti szignifikns vltoz belptetse (vagy a nem


szignifikns x kihagysa).
A likelihood arny (LR) legnagyobb vltozst eredmnyez vltoz
bevonsa/kihagysa, ahol a maximum likelihood elven becslt
paramterekkel szmolt LR=-2[lnL(reduklt)-lnL(teli)] khi-ngyzet
eloszlst kvet, s a szabadsgi foka a kt modell vltozszma kztt mrt

134

TBBVLTOZS ADATELEMZS
klnbsg.
A feltteles (Conditional) statisztika alapjn trtn vlaszts is LR alapon
trtnik. De itt a reduklt modellben az egytthatk kztti kovariancikat
is felhasznl feltteles becslssel szmoldnak az egytthatk.

Hrom tovbbi belltsi lehetsg knlkozik mg:


a) A Categorical gomb alatt a magyarz vltozk, a kovarinsok szintjei kzl
vlaszthatunk referencia kategrit: az els vagy az utols kategrihoz
viszonythatjuk a tbbi kategrinak a bekvetkezsi valsznsgre gyakorolt
hatst.
b) A Save gomb a Regresszi elemzs (4) fejezetben trgyalt opcikhoz nagyon
hasonl mentseket tesz lehetv:
Elmenthetjk a becslt valsznsget, s a javasolt csoportba sorolst (Predicted
probability, Group membership)
Az egyes vltozknak a modellre gyakorolt hatst (Influence) a Cook mrtk, a
Leverage values s a DfBeta(s) adja meg, mindhrom elmenthet.
A rezidulisok vizsglatra pedig t vltozatban kerlhet sor, mert a sztenderdizlt
s nem-sztenderdizlt rezidulisok mellett menthet a Studentizlt rezidulis, a logit
rezidulis s a deviancia mrtke is.
c) Az Option megnyomsval szmos tovbbi rszeredmny llthat el. A
klasszifikcit mutat bra, az illeszkeds jsgnak mutati, azok a kilg rtkek,
amelyek rezidulisai 2 szrsnyinl nagyobbak, a modellbeli vltozk kztti
korrelcik krhetk. Az iterci belltott maximlis lpsszma 20, de ez
vltoztathat. Az exp()-ra becslt konfidencia intervallum megbzhatsgi szintje
is eltrhet az alaprtelmezsben vlaszthat 95%-tl. A b0 konstans is vlaszthat
vagy kihagyhat a modellbl. Tovbb itt tallhat a dnts kritikus rtke, a
klasszifikcis pont (cutoff)=0,5-re, mint alaprtkre belltva. Ezt akkor
hasznljuk, ha a vletlenre bzzuk a besorolst, nincs elztes ismeretnk a csoportba
tartozsrl, vagy egyforma valsznsggel eshetnek a megfigyelsek az egyik vagy
a msik kategriba. Az rtket a relatv gyakorisgok ismeretben
megvltoztathatjuk, s ezzel az osztlyozst befolysolni tudjuk. A logit modell
alkalmazsakor visszatrnk a klasszifikcis pont rtknek megadsra.

5.5. LOGIT modell illesztse


Clunk a sikeres repls 82 valsznsgnek becslse a kls hmrsklet
ismeretben. 23 adatpr ll rendelkezsnkre: a kls hmrsklet Celciusban s a
sikeres visszatrs vagy a kudarc tnye. A 23 replsbl 7 vgzdtt kudarccal,
82
Az elemzs a replsi kudarc egyik okaknt az alacsony hmrskletet trta fel. De
termszetesen a vizsglat clja lehet az is, hogy mekkora hmrsklet mellett lehet kellen
magas valsznsggel szmtani a sikeres visszatrsre.

LOGISZTIKUS REGRESSZI

135

ebbl a becslt valsznsg: 7/23= 0,304. Az 5.1. bra alapjn ez azonban nem
konstans valsznsg, mert a hmrsklet emelkedsvel cskkenni ltszik a
kudarc. A logit modell illesztsvel a becsls sorn felhasznljuk a hmrskleti
adatokat, s teszteljk a modell erejt.
1, 2

1, 0

,8

,6

,4

FAILURE

,2

0, 0

-, 2
10

12

14

16

18

20

22

24

26

28

CELCIUS

5.1. bra: A sikeres s kudarcos felszllsok a hmrsklet fggvnyben


A 0. lpsnek nevezi a program azt, amikor mg csak az 5.1. tblzatban lthat
becslt konstans van a modellben, ekkor a valsznsget (5.11) szerint kapjuk meg:
^

p=

1
= 0 ,3043
1 + e 0.827
, ami ppen megegyezik a k/n=7/23 relatv

gyakorisggal.
5.1. tblzat: A logit modellbeli konstans s a Wald teszt
V aria ble s in the Equati on

S tep 0

Const ant

B
-, 827

S .E .
,453

W al d
3,328

df
1

S ig.
,068

E xp(B )
,438

A konstans szerepe a logit modellben a Wald teszt alapjn 5%-os valsznsgi


szinten nem szignifikns.
Ebben a lpsben az esly, azaz a p/(1-p) hnyados ppen exp(-0.827)=0,438, ami
termszetesen megegyezik 7/16-dal. A likelihood fggvny (5.8) szerint a
7

1
0 ,438

1 + 0 ,438 1 + 0 ,438

konstanssal is felrhat: L(0)=

16

=7,268*10-7 .

Ennek logaritmust (lnL= -14,134), majd (-2)-szerest vesszk, mert ez kvet khingyzet eloszlst.

136

TBBVLTOZS ADATELEMZS

Az 5.2. tblzatban hromlpses iterci utn -2lnL=28,267 tallhat. Ehhez az


rtkhez viszonytjuk a logit modell illeszkedsnek javulst a tovbbi lpsekben.
5.2. tblzat: 3 lpses iterci a konstans becslsre
a ,b , c
I te r a ti o n H i sto
ry

-2 L og
l i k e l i ho o d
2 8 , 27 7
2 8 , 26 7
2 8 , 26 7

It e rat i o n
1
S tep
0
2
3

C o e ffi c i en t s
C o n s t an t
-, 7 8 3
-, 8 2 6
-, 8 2 7

a . C o n s t an t i s i nc l u de d i n t he m o de l .
b . In it i a l -2 L o g L ik e l ih o o d : 28 , 2 6 7
c . E s t i m at i o n t e rm i n a t ed a t i t e rat i o n n um
p a ram e t e r e s t i m a t es c h a ng e d by l e s s

Az 5.3. tblzat szerinti Score is khi-ngyzet eloszlst kvet s szignifikns


nagysg, ez jelzi szmunkra, hogy tallhat mg a logit modellbe be nem vont, de
bevonhat (szignifikns hats) vltoz, ezrt folytatjuk az eljrst.
5.3. tblzat: A kvetkez lpsben bevonhat vltoz
V ar iab le s no t i n the Equ a tio n

S tep 0

V ari ables
Overal l S tatis tic s

S core
7,231
7,231

CELCIUS

df
1
1

S ig.
,007
,007

Az 5.4. tblzatban a Newton-Raphson iterci 4 lpse sorn becslt bo s b1


egytthatk lthatk. Megllapthatjuk azt is, hogy x bevonsval ntt a likelihood
fggvny rtke, mert itt a -2loglikelihood= 20,315, s ez az indul 28,267-hez
kpest 7,952-vel kisebb.
5.4. tblzat: Az illeszkeds javulsa
I te r a t io n

It e r a ti on
1
S t ep
1
2
3
4

H i stoar,b
y , c, d

-2 Log
li k e li h o o d
21, 185
20, 359
20, 315
20, 315

C o e ffi ci e n ts
Cons t ant
C E L C IU S
4, 834
- ,2 6 9
6, 896
- ,3 8 0
7, 559
- ,4 1 5
7, 613
- ,4 1 8

a . M e th o d : E n t e r
b . C o n s t a n t is

in c l u d e d i n t h e m o d e l.

c . In i ti a l -2 L o g L i k e li h o o d : 2 8 ,2 6 7
d . E s t im a ti o n t e rm in a t e d a t it e ra t io n n u m b e r 4 b e c a
lo g - li k e li h o o d d e c r e a s e d b y le s s th a n ,0 1 0 p e rc e

LOGISZTIKUS REGRESSZI

137

Az 5.5. tblzatban az iterci negyedik lpsnek loglikelihoodja (LL) mellett kt


tovbbi mutatt tallunk. Ezek a regresszi szmtsbl ismert determincis
egytthathoz hasonl tartalmak. A szakknyvekben szerepl McFadden-fle R2
mutatt (5.17) az output nem tartalmazza. A szakirodalomban 83 szmos szerz v a
pszeudo-mutatk direkt rtelmezstl, fleg tbb modell kztti vlasztsra lehet
ezeket hasznlni.
5.5.tblzat: A modell determincis egytthati
Model Summary
Step
1

-2 Log
likelihood
20,315

Cox & Snell


R Square
,292

Nagelkerke
R Square
,413

Cox s Snell (5.18) mutatja kzvetlenl a likelihoodbl szmolhat, s eszerint


mintegy 30%-ban hatrozza meg a hmrsklet a replsi kudarc eslyt:
RCox

L( 0 )

= 1
L( 1 )

2/ n

(5.18)

Cox-Snell mutatjt a maximlis rtkkel leosztja Nagelkerke. Az gy szmolt


(5.19) egytthat mindig magasabb rtket ad. Itt 41,3%-os determinltsgot jelez:

2
RN2 = RCox
/ 1 L( 0 )2 / n

(5.19)

A becslt egytthatk outputja eltt kapjuk meg az osztlyozs jsgt, vagyis azt,
hogy a hmrskletet figyelembe vve a replsek 87%-t helyesen osztlyozza a
modell, amint ezt az 5.6. tblzat mutatja. Az sszestett szzalkot is befolysolja,
de klnsen az egyes kategrikhoz helyesen besorolt megfigyelsek arnya
rzkeny a kszbszm (cut value) belltsra.

Szmos frumon vitatjk, hogy pszeudo-mutatk egyltalban rtelmezhetk-e, nem jobb-e


a megfigyelt s a vrt gyakorisgokat sszevet Hosmer-Lemeshow teszt alkalmazsa.
http://stats.stackexchange.com/questions/3559/which-pseudo-r2-measure-is-the-one-to-reportfor-logistic-regression-cox-s
83

138

TBBVLTOZS ADATELEMZS
5.6. tblzat: Klasszifikcis tblzat
Cla ssifica tio n Ta bale
P redic ted

S tep 1

Obs erved
F AILURE

F AILURE
s uc cess
failure
16
0
3
4

s uc cess
failure

Overall P ercentage

P ercentage
Correc t
100,0
57,1
87,0

a. The cut value is , 500

A logit modell egytthati s a tesztek az 5.7. tblzatban tallhatk. Az additv


hatst kifejez b1 = -0,481 negatv, teht a hmrsklet nvekedsvel cskken a
kudarc logitja. A multiplikatv hatst kifejez exp(b1)=0,658 pedig azt jelzi, hogy 1
Celsius foknyi hmrsklet-emelkeds 0,658 szorosra vltoztatja a kudarc eslyt.
95%-os szignifikancia szinten 0,449 s 0,965 kztti ez a hats, teht biztosan
cskken a kudarc eslye. A hmrskletet mr vltoz teht a modellben
szignifikns.
5.7. tblzat: A logit modell egytthati
V ari ables in the Equa tion

Satep
1

CELCIUS
Cons tant

B
-, 418
7, 613

S .E.
,195
3, 933

W ald
4, 601
3, 747

df
1
1

S ig.
,032
,053

E xp(B)
,658
2025,098

95,0% C.I.for E XP (B )
Lower
Upper
,965
,449

a. V ariable(s ) entered on s tep 1: CELCIUS .

A modell alapjn a becslt valsznsg: P(y=1)= 1/(1+exp(-7,613+0,418x)


Ha x= 20, akkor p=0,3221-t kapunk. Ezek a becslt valsznsgek elmenthetk, s
a rezidulisok is kiszmthatk. Pldnkban a 18. megfigyels sztenderd rezidulisa
kvl esik a (-2+2) tartomnyon (5.8. tblzat), mert a magas hmrsklet miatt
alacsony valsznsget (0,086) becslt a modell, de ez kudarcos repls volt.
5.8. tblzat: Az outlier megfigyelsek listja
b
Casew ise List

Cas e
18

S elect ed
a
S tat us
S

Obs erved
FAILURE
f**

P redic ted
,086

P redic ted
Group
s

Tem porary Variable


Res id
ZResid
,914
3,269

a. S = Selected, U = Unselected cases, and ** = Misc las sified c as es .


b. Cas es with st udentiz ed residuals greater than 2,000 are list ed.

LOGISZTIKUS REGRESSZI

139

Vgl a becslt valsznsgeket pontdiagramon (5.2. bra) brzolva mutatjuk be a


logit modell egyik eredmnyt: 0,6 s 1 kztti valsznsggel kudarcra
szmthatunk, ha 18 Celsius fok alatti a hmrsklet, mg melegebb idben a kudarc
valsznsge gyorsan de nem linerisan cskken.
1,0

,8

Predicted probability

,6

,4

FAILURE

,2

f ailure
success

0,0
10

12

14

16

18

20

22

24

26

28

CELCIUS

5.2. bra: A hmrsklet s a becslt valsznsgek

5.6. Mintamodell a lemorzsoldsra


A Telco.sav adatllomny lemorzsoldsi (churn) adatait Logit modellel vizsgljuk.
Elszr a mlt havi adatokbl (Frequency funkcival) a lemorzsolds gyakorisgt
llaptjuk meg, amit az 5.9. tblzat mutat.
5.9. tblzat: Lemorzsoldott gyfelek szma s gyakorisga
Churn within last month
Frequency

Valid

Percent

Valid Percent

Cumulative
Percent

No

726

72,6

72,6

72,6

Yes

274

27,4

27,4

100,0

Total

1000

100,0

100,0

A binris logisztikus regressziban fgg vltoz a churn, kovarinsok pedig az


gyfelek szemlyi adatai. Az albbi bellts (PASTE menpont-sorozat) mellett
illesztjk a LOGIT modellt:
LOGISTIC REGRESSION VARIABLES churn
/METHOD=FSTEP(WALD) tenure marital income gender longmon age
address employ
/CONTRAST (marital)=Indicator
/CONTRAST (gender)=Indicator
/SAVE=PRED PGROUP COOK LEVER DEV
/PRINT=GOODFIT CI(95)
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.28).

140

TBBVLTOZS ADATELEMZS
A mdszer kivlasztsnl felttelezzk, hogy az gyfelek adatai
korrellnak egymssal, ezrt a 8 vltoz kztt szelekcit krnk, a
belptets a Wald teszt alapjn trtnik.
Az gyfl csaldi llapota s a neme kategria vltozk, ezeket belltjuk,
s az utols kategrit, mint referencit adjuk meg. gy az 5.10. tblzat
szerint a frfi s a nem hzas szerepelhetne ha szignifikns hatsa
lenne a bevont vltozk kztt.
5.10. tblzat: Kategria vltozk kdolsa s modellbeli szerepe
Categorical Variables Codings
Frequency

Parameter coding
(1)

Male

483

1,000

Female

517

,000

Unmarried

505

1,000

Married

495

,000

Gender

Marital status

Az elmentsi lehetsgek kzl tbbet is kivlasztunk: (5.6)


alapjn a becslt valsznsg mell a trlsi kategrit, egyedi
megfigyelsek hatst (leverage s Cook tvolsg), majd a
deviancit is krjk.
Az egytthatk becslse mell az (5.13) szerint a 95%-os
konfidencia intervallumot is krjk.
A besorolsi szintet (cut-value) 0,5 helyett 0,28-ra lltjuk.

Az eredmnytblk egy rszt rvid rtkelssel egytt mutatjuk be.


a) A 8 vltoz kzl hrom kerlt bevonsra, s gy a modell magyarz ereje
az (5.19) kplet szerint 23%-os, gyenge-kzepes.
Model Summary
Step

-2 Log likelihood

Cox & Snell R


Square

Nagelkerke R
Square

1020,513a

,143

,206

1004,542

,156

,226

1000,758

,159

,231

LOGISZTIKUS REGRESSZI

141

b) A klasszifikcis tbla a harmadik lpsben 66%-os arnyban ismeri fel a


marad gyfeleket, s 73,4%-ban a lemorzsoldkat. sszessgben 68%os az eredetivel megegyez, sikeres besorols.
Classification Tablea
Observed

Predicted
Churn within last month
No

Yes

Percentage
Correct

No

478

248

65,8

Yes

74

200

73,0

Churn within last month


Step 1
Overall Percentage

67,8
No

475

251

65,4

Yes

72

202

73,7

Churn within last month


Step 2
Overall Percentage

67,7
No

479

247

66,0

Yes

73

201

73,4

Churn within last month


Step 3
Overall Percentage

68,0

a. The cut value is ,280

c) A hrom lpsben bevont vltozkhoz a becslt egytthatk, azok


sztenderd hibi s a Wald tesztek (szabadsgi fokkal s szignifikancia
szinttel egytt) kvetik egymst a Variables int he Equation tblzatban.
Az Exp(B) oszlopra irnytsuk figyelmnket, hogy a hatsok irnyt s
mrtkt is rtkelni tudjuk.
A magasabb jvedelem valamelyest emeli a trls eslyt (1,002). mg a
szerzds tartama (tenure) 0,962-szeresre, a munkahelyen ledolgozott id
hossza pedig 0,949-szeresre cskkentik a lemorzsoldst.

142

TBBVLTOZS ADATELEMZS

LOGISZTIKUS REGRESSZI

143

nll munkra javasolt feladatok:


Az letkor, a lakhelyen tlttt id s a munkahelyen tlttt id fkomponenst
ellltva s elmentve kapott PCA-Score szerepeltethet a LOGIT modellben az
eredeti hrom vltoz helyett.
1/a) Vesse ssze ennek a Logit modellnek az eredmnyeit a fentebb bemutatott
rszeredmnyekkel.
1/b) ROC grbe segtsgvel mutassa meg, hogy a besorols pontossga mennyire
tr el.
Megolds:
1/a) A fkomponens jl rtelmezhet, 70 % feletti informcisrtst jelez.
Magasabb score 0,532 s 0,814 kztti mrtkben cskkenti a trls eslyt. A
jvedelem adat gy nem kerlt be a modellb, ami a kvetkez oldalon lthat.
1/b) A kt modell AUC rtke 3 ezrelknyi eltrst mutat, a ROC grbk szinte
egybeesnek.
Area Under the Curve
Test Result Variable(s)

Area

Predicted (PCA) probability

,755

Predicted probability

,758

The test result variable(s): Predicted


probability has at least one tie between the
positive actual state group and the negative
actual state group. Statistics may be biased.

144

TBBVLTOZS ADATELEMZS

LOGISZTIKUS REGRESSZI

145

Tovbbi feladat:
Ms vltozk bevonsval keressen magasabb R-ngyzetet elr, s pontosabb
besorolst ad modellt.

5.7. A modellvlaszts grafikus eszkze


Mivel a szmtgpes statisztikban is az angol nyelv dominl, szmos olyan
mdszer s teszt van, ami eredeti angol nevn vlt ismertt. Ilyen a kezdetben jelek
felismersre alkalmazott ROC-grbe 84 (Receiver Operating Curve) s AUC mrtk
(AUC=Area Under the Curve) is, amelyek alkalmasak arra, hogy tbb logit modell
kzl a legjobb felismer kpessgt ki tudjuk vlasztani.
Kezdetben egy 2x2-es kereszttblba rendezzk adatainkat. gy sszevethet a
kezdeti s a modell ltal adott besorols. A jellst nehezti, hogy nem egyrtelm,
mi szmt j vagy rossz megfigyelsnek. Ha a szerzds elmenpontt, trlst vagy
gyfl lemorzsoldst elemezzk, akkor ez zleti szempontbl nem kedvez, de
ennek becslsre irnyul a modell. Ezrt a tblzatban az 1 s a 0 kdokat is
feltntettk alhzand, hogy az 1 jelek helyes besorolsa, azonostsa a logit
modell clja. A dntsek mellett zrjelben az elfordulsok szmt is megadjuk.
sszesen a+b+c+d=n megfigyelst sorolunk be.

Tnyleges/Dnts

J, befogadott (1)

Rossz, elutastott (0)

J, kedvez (1)

Helyes dnts (a)

Tves dnts (b)

Rossz (0)

Tves dnts (c)

Helyes dnts (d)

A ROC-grbe kt tengelyn a fenti ngy cellbl kt arnyszmot ksztnk s


vetnk ssze.

Az y tengelyen d/(c+d) arny jelenik meg, ami a teszt rzkenysgt mri.


Itt az elutastott d szm rossz/csds gyfelek arnya az sszes
rossz/csds arnyban lthat.
Az x tengelyen b/(a+b) arny lthat. Ez az elutastott b szm jkat az
sszes jgyfl arnyban mri. Ezt tves riasztsnak is nevezzk.

A dntsi tblt a logit modell alapjn kapjuk meg, ami a dntsi rtk (cut-value)
belltstl fggen ms s ms lesz. A ROC-grbe egy-egy pontja azt mutatja

84

Trtnelmi rdekessg, hogy a jelfelismers a II. vilghbor idejn Pearl Harbor 1941-es
megtmadst kveten vlt szksgess. A radarok hasznlatnak clja az ellensges
replk s a sajt replgpek ltal adott jelek megklnbztetse volt. A ROC-grbe
szlesebb kr alkalmazsa az 1970-es vek ta jellemz: kockzatcskkentsre, orvosi
tesztek rtelmezsre is hasznlni kezdtk.

146

TBBVLTOZS ADATELEMZS

meg, hogy bizonyos dntsi rtkhez milyen x=b/(a+b) s y=d/(c+d) szmprok


tartoznak.
Mivel a logit modellben nemcsak folytonos, hanem kategria-vltozk is
szerepelhetnek, a ROC-grbe emelkedse sem folytonos, szakadsok is lehetnek
benne.
A 45 fokos egyenesen az elutastott rosszak arnya (y) pp megegyezik az elutastott
jk arnyval (x), ez a modell hasznlhatatlansgt fejezi ki.
A ROC-grbe annl jobb modellt jelez, minl gyorsabban s minl magasabbra
emelkedik a 45 fokos egyenes fel. A grbe alatti terlet nagysgt a trapezoidokbl
szmolt AUC-mrtk adja meg. Ennek maximlis rtke=1.
Tbb modell kztti vlasztsra kivlan alkalmas az AUC mrtk. Hvelykujjszably szerint az albbi kategrikkal jellemezhetk a logit modellek:

0,90-1 = kivl

0,80-0,90 = j

0,70-0,80 = kzepes

0,60-0,70 = gyenge

0,50-0,60 = nem alkalmas a modell a megklnbztetsre.

A grbt s a grbe alatti terletet az 5.8. alfejezet pldjn mutatjuk be.


A statisztikban hasznlt els s msodfaj hiba tartalmilag kapcsoldik a ROCgrbhez, de a ROC-grbe s az AUC mrtk sszetettebb informcit adnak, br
valsznsgi szint nem tartozik hozzjuk. Emlkeztetl az elsfaj hiba alfa=c/n,
rosszat befogadunk, mg a msodfaj hiba bta=b/n, jt elutastunk (~ x tengely).

5.8. Tovbbi logisztikus modellek


Ha a fgg vltoznak kettnl tbb kategrija van, akkor kt utat kvethetnk:
a) Visszavezetjk a feladatot ktkategrisra gy, hogy
i) Egy kategrit megtartunk, a tbbieket sszevonjuk.
ii) A k szm kategria miatt (k-1) dummy vltozt vezetnk be, s k-1
logit modellt illesztnk
b) Multinomilis modellt illesztnk gy, hogy az egyik kategrit referencia
kategrinak vlasztjuk, s a tbbi (k-1) kategrival minden egyes fggetlen
vltozra sszehasonltjuk. Egy-egy megfigyelst a legnagyobb valsznsg
kategriba sorol az eljrs.

LOGISZTIKUS REGRESSZI

147

Alkalmazsi elfeltevse a multinomilis logisztikus regresszinak sincs, se a


fggetlen vltozk normlis eloszlsa, se a szrsngyzetek egyezse nem
szksges.
Gyakorlati felttel az, hogy a megfigyelsek szma tzszerese legyen a vltozk
szmnak, azaz n >10 p.
A Probit modellt is megemltjk ebben a rszben, br ez tovbbra is ktrtk fgg
vltozt becsl. A nevt a probability+unit szavak sszekapcsolsbl kapta, s az
y=1 rtk valsznsge normlis eloszlst felttelezve hatrozhat meg.

P( Y = 1 X ) = ( X ' )
A modellben az x vltozk hatst kifejez egytthatk maximum likelihood
elven becslhetk.

6. Faktorelemzs
A faktorelemzs hrom esetben kiemelten hasznos mdszer. Ezek rvid bemutatsa
mellett pldkkal is igyeksznk az olvas figyelmt megragadni.
a)

Ltens vltoz ellltsa

Komplex problmk elemzse a clunk, amikor a vizsglni kvnt jelensg(ek)


kzvetlenl nem is mrhet(k). A megfigyelt, mrhet vltozkbl lltjuk el a
ltens (nem megfigyelhet) vltozkat, amelyeket faktoroknak neveznk. Ilyen
faktor lehet pldul a gazdasgi vagy trsadalmi fejlettsg, a jlt, a teleplsek
vagy a piacok fejlettsge, egy mret vagy egy indexszm, ami tbb
mutatszmbl keverhet ki. Ha egy faktor az eredmny, akkor
rangsorolhatjuk is a megfigyelseinket.
b) Dimenzicskkents
Az sszes informci lehet legnagyobb hnyadnak megrzse mellett
keressk a minimlis dimenziszmot, s azokat a faktorokat, amelyek mr
egymsra merleges tengelyeket adnak meg. gy akr grafikusan is lthatv
tehetjk a homogn adathalmazt alkot megfigyelseink szerkezett ebben a
reduklt dimenzij trben.
c) Fggetlen komponensek ellltsa
Mivel a gazdasgi s trsadalmi vltozk tbbsge ersen korrellt, tbb
egymssal klcsns kapcsolatban ll vltoz egyidej figyelembevtele
nem lehetsges olyan mdszerek alkalmazsakor, amikor a vltozk
fggetlensge alapfelttel. A vltozk kzl nhnynak a kivlasztsa helyett
kpezzk az egymsra merleges helyzet faktorokat, amelyek fggetlen
vltozkknt hasznlhatk pldul egy regresszis modellben.
A faktorelemzs tbb mdszer sszefoglal 85 neve. Kzlk a kt legismertebbet
trgyaljuk rszletesebben:

Fkomponens-elemzs (Principal Component Analysis=PCA)

Faktorelemzs (Principal Axis Factoring=PAF)

Egy-egy vltoz szrsngyzetnek felbontsakor hrom sszetevt klnbztetnk


meg: Teljes variancia = Kzs variancia + Egyedi variancia + Hiba variancia

85

A faktorelemzst sszefoglalan hasznljuk, ahogy a regressziszmtst is emltjk, de


mindig pontostani kell, hogy milyen modellrl van sz.

FAKTORELEMZS

149

A kt mdszer dnten ebben a felbontsban klnbzik, mert

Fkomponenseket ksztnk, ha a kzs s egyedi variancit egytt


magyarzzuk, s csak a hibatagtl vonatkoztatunk el. Ekkor a p szm
egymssal korrell vltoz kztti kapcsolatrendszert vizsgljuk feltr
szemlletben, s egymssal korrellatlan vltozkk transzformljuk az
eredeti vltozkat, de a vltozk kztt ok-okozati kapcsolatot nem
tteleznk fel. A vltozk lineris kapcsolataira ptve keressk az elre
ltalban meg nem hatrozott szm ortogonlis tengelyt.

Faktorelemzst vgznk, ha csak a kzs variancit modellezzk. Ilyen


alkalmazsok sorn statisztikai modell hzdik meg a vltozk
kapcsolatrendszere mgtt, teht megerst elemzst vgznk. A httrben
meghzd faktor hatsaknt alakul a megfigyelt vltozk rtke gy,
ahogy az adatllomnyban lthat.

A mdszercsald tovbbi eljrsairl is rszletesen r Fsts-Kovcs-MesznaSimonn (2004): Alakfelismers cm knyve.


Bevezet pldaknt a fvros kerleteit s a krnyez teleplseket 86 kvnjuk
sszehasonltani az letminsg szempontjbl Az 50 megfigyelshez
rendelkezsnkre ll szmos vltoz, amelyek egymssal korrellnak. Az adatokban
mrethats van: ahol tbb a npessg, ott tbb a laks, de ahov tbben
vndorolnak, ott tbb az jonnan ptett laks is. Ezek a hatsok klcsnsek, teht
az ok-okozati irny nem mindig nyilvnval. Az elemzs clja most nem egy
kiemelt vltoz megmagyarzsa a tbbivel, mint a regresszis modellben, hanem
azt keressk, hogy hny dimenziban lehet lerni az letminsget, mint ltens
vltozt. 87

6.1. A fkomponenselemzs
Az eljrs alapgondolata az, hogy az egymssal pronknt linerisan korrell
vltozk egyttesbl ortogonlis transzformci rvn ellltjuk a korrellatlan
fkomponenseket gy, hogy az els nhny komponens lerja a vltozk sszes
szrsngyzetnek elg nagy hnyadt, s gy alacsonyabb dimenziba kpezhetjk
le megfigyelseinket. Ha az indul vltozk kztti korrelcik gyengk, akkor az
eredeti vltozkkal tbb-kevsb megegyez szm s tartalm komponenseket
kapunk.

86
87

A Kerletek.sav adatbzist hasznljuk ebben a fejezetben.


A plda eredmnyeit a 6.1.3. alfejezetben kvetheti az olvas.

150

TBBVLTOZS ADATELEMZS

6.1.1. A fkomponens elemzs matematikai httere


Indul adatainkat az X mtrixba rendezzk, ahol a sorokban n megfigyels, az
oszlopokban p vltoz tallhat. Hvelykujj-szablyknt javasolhat, hogy n 5p
teljesljn.
A fkomponensek ngy tulajdonsggal rhatk le. Egyszerbb a felrs, ha
feltesszk, hogy a p db vltoz centrozott, az eredeti adatok helyett az tlagtl val
eltrst hasznljuk.
1) Az y fkomponensek a mrt x vltozk lineris kombincii, gy az n-elem
fkomponensek felrhatk:

y1 = X a1 , y 2 = X a 2 ,..., y p = X a p , vagy mtrix alakban:

Y = X A , ahol az A (pxp)-s.
2) A lineris kombinci egytthatinak ngyzetsszege minden fkomponensre
egy legyen, az elsre gy rhat fel:

a1 a1 = 1
T

3) A fkomponensek variancija monoton cskken: Var (y1)Var(y2)...Var(yp)0


s a variancia:
T
1 T
1
X
T
T X
T
a1 = a1 S a1 max ,
Var ( y1 ) = y1 y1 = ( X a1 ) ( X a1 ) = a1
n
n
n
ahol
S: a megfigyelt vltozk pxp-s mret kovariancia mtrixa. Ha feltesszk azt is,
hogy a vltozk standardizltak, akkor S helyett R korrelcis mtrix szerepel.
4) A fkomponensek pronknt korrellatlanok: r(y1, y2)=0
A tovbbiakban az R korrelcis mtrixbl indulunk ki.
A 2) s a 3) tulajdonsg egytt feltteles szlsrtk feladatot ad, ennek megoldst
a Lagrange multipliktorok mdszervel vgezzk.

L = a 1 R a 1 1 ( a 1 a 1 1 ) max
T

(6.1)

A parcilis derivltat egyenlv tesszk nullval:

L
a 1

= 2 R a 1 2 1 a 1 = 0

Egyszerstve s rendezve 1 sajtrtk s a1 sajtvektor egyenletrendszerhez


jutunk:

R a 1 = 1 a 1
s (R 1 E )a 1 = 0

(6.2)

FAKTORELEMZS

151

A homogn egyenletrendszernek csak a nem-trivilis (a0) megoldst keressk.


Ekkor a mtrix determinnsa zrus:

R 1E = 0

(6.3)

A pxp mret mtrix determinnsnak kifejtsvel megkapjuk a p-ed fok polinom


gykeit, a sajtrtkeket, amelyek monoton cskken sorrendbe rakhatk. Mivel R
mtrix szimmetrikus s pozitv definit mtrix 88, a legkisebb sajtrtk is nemnegatv:
1 2 p 0
A sajtrtkek szorzata a mtrix determinnst adja. Minl kzelebb vannak a
legkisebb sajtrtkek a nullhoz, annl kzelebb van a determinns rtke is a
nullhoz.
A sajtrtkek sszege a mtrix nyoma, ezrt a korrelcis mtrix felbontsakor
p

i =1

= p

(6.4)
p

A kovariancia mtrixra i = 12 + ... + 2p teljesl. Ha a vltozk klnbz


i =1

mrtkegysgek voltak, akkor nincs rtelme a variancikat sszeadni. Ilyenkor


fontos, hogy az adatokat elzetesen sztenderdizljuk, vagy a korrelcis mtrix
felbontst vgezzk el. Ha korrelcis mtrix dekompozcijt vgezzk, akkor a
sajtrtkek s a sajtvektorok eltrnek a kovariancia mtrix felbontsval kapott
eredmnyektl. A kt vltozat eredmnyei egymsbl kzvetlenl nem llthatk
el. Ha mgis kovariancia mtrixbl dolgozunk, akkor az albbiakat tartsuk szem
eltt:
Jl rtelmezhetk a komponensek, ha

Mirt fontos ez?


A skla vltozsval vltozik a

Minden vltoz azonos mrtkegysg.

fkomponens.
A nagy szrs vltoz dominlja a

A vltozk variancija kzel azonos.

fkomponenst.

Mivel R (s S) szimmetrikus, pozitv definit mtrixok, a sajtrtkeik nemnegatvok.


A klnbz sajtrtkekhez tartoz a1,..., ap sajtvektorok pedig ortogonlisak, s a
2) felttel miatt egysgnyi hosszak 89.

88

Az S kovariancia mtrix is szimmetrikus s pozitv definit, ennek S sajtrtkei is


nemnegatvok.
89
A normltsg miatt csak egy elemzsen bell hasonlthatak ssze a sajtvektorok elemei.

152

TBBVLTOZS ADATELEMZS

Ha balrl szorozzuk az a vektorral a (6.2) egyenletrendszert, akkor lthat, hogy a 3)


tulajdonsg alapjn a fkomponens szrsngyzete a sajtrtk:

R a1 = a1

/*a1T

a1 R a1 = 1 a1 a1 = 1
T

(6.5)
p

Egy fkomponens relatv fontossgt a

j / k hnyados

mutatja, szzzal

k =1

szorozva szzalkos formban adhat meg a fkomponens ltal hordozott sszinformci.


A j-edik sajtrtkhez a homogn egyenletrendszer megoldsa 90 adja a j-edik
sajtvektort, s ezzel elllthat a j-edik fkomponens. A fkomponensek
korrellatlansgt a sajtvektorok ortogonalitsa biztostja.
A sajtvektorok A mtrixval felrhat az sszes megfigyels szrmaztatott
koordintja: Y=XA
A fkomponens rtke (score) az i-edik megfigyels elhelyezkedst mutatja a jedik fkomponens tengelyen:

yij = a j x i
T

(6.6)

sszehasonlthat sajtvektorokat (c =component loading-ot, slyt) kapunk, ha az R


(vagy S) mtrix nem egysgnyi hossz sajtvektorait ellltjuk:

c j = j a j , amelyre c j = c j c j = j a j a j = j
T

vagy mskppen

c
i =1

2
ij

= j

(6.7)

A cij jelentse: az i-edik vltoz s a j-edik komponens 91 kztti korrelci,


amelyben a (6.2) mtrix-alakjt hasznljuk fel:

90
A sajtvektorok eljele tetszleges, mert a homogn lineris egyenletrendszer
megoldsakor van szabad ismeretlen.
91
A korrelci szmtsakor osztunk az Y komponensek szrsval, azaz a sajtrtkek
gykvel.
A diagonlis mtrix, ftljban a sajtrtkek szerepelnek. Az X-beli vltozk
sztenderdizltak, szrsuk egysgnyi.

FAKTORELEMZS

153

cov( x , y )
1 T
1 / 2
1 / 2
1 / 2
1/ 2
= cov( X ,Y )
= X ( X A
) = R A
= A = C
sx s y
n
A C mtrix minden eleme korrelcis egytthat, de a C nem korrelcis mtrix,
corr( X ,Y ) =

mivel a ftljban az egyesek helyett az azonos index vltoz s komponens kzti


korrelcis egytthat szerepel, s a mtrix nem szimmetrikus. (6.7) szerint az
oszlopelemek ngyzetsszege a sajtrtket adja. Egy-egy sor elemeinek
ngyzetsszege a vltoznak a fkomponensek ltal megmagyarzott variancija,
azaz a kommunalits:
p

c
j =1

2
ij

= hi2 = 1

(6.8)

Fontos kapcsolat van R s C kztt:


R= CCT =AAT,

(6.9)

azaz a vltozk pronknti korrelciit tkletesen reprodukljk a vltozk s a


fkomponensek korrelciinak szorzatai, valamint a sajtvektorok s sajtrtkek
mtrixai. A (6.9)-et gy is megkapjuk, ha (6.2)-t mtrix alakban felrjuk, s jobbrl
szorozzuk:

R A = A

/*AT

Mivel az ortogonlis mtrix transzponltja megegyezik az inverzvel, a szorzs utn


p

R = A A = i a i a i
T

(6.10

i =1

teljes reprodukcit kapunk, ha az sszes vltoz mentn p-ig sszegznk.


A ktfle input mtrixot s a sajtvektorok hosszt tekintve a C mtrix elemei
ngyflk:
Input mtrix / Sajtvektor hossza:

aT a=1

aT a=

R korrelcis mtrix

cij=aijj

cij=aij

S kovariancia mtrix

cij=aijj/i

cij=aij/i

A korrellatlan komponenseket teht az eljrs vgn megkapjuk, de hogyan


valsulhat meg msik clunk, a dimenzicskkents?
Ha a legkisebb sajtrtk(ek) nagysga zrus, akkor a hozz(juk) tartoz
sajtvektort, s gy a fkomponenst sem lltjuk el. ltalban azonban csak

154

TBBVLTOZS ADATELEMZS

kzeltik a -k a nullt, s ilyenkor felvetdik a krds, hogy hny fkomponens


kell?
Mivel a variancik monoton cskkenek, az els k darab komponens nagyobb
hnyadot kpvisel az sszvariancibl, mint brmely msik k darab komponens.
Ezrt az utols (p-k) komponens figyelmen kvl hagysrl dnthetnk gy, hogy

megadjuk elre a k szmot,

az egynl nagyobb sajtrtkeket vesszk,

meghatrozzuk azt a szzalkot, amennyi informcit meg akarunk rizni.

Dntsnknek termszetesen kvetkezmnyei lesznek. A vltozk s


fkomponensek korrelciit tartalmaz C mtrix mrete nem p*p, hanem p*k lesz, a
(6.8) szerinti kommunalitsok kisebbek lesznek, mint egy, illetve a (6.9) s a (6.10)
szerinti tkletes reprodukls sem valsul meg.
Ha az egynl kisebb sajtrtket elhagyjuk, az A mtrixnak is p-nl kevesebb
oszlopa van. Az sszegzs i=1-tl k-ig (kp) megy, ami nem reproduklja teljesen a
korrelcis mtrixot. A reduklt korrelcis mtrix:

R = i a i a i

(6.11)

i =1

6.1.2. A megvalsts lpsei az SPSS-ben


Az Analyze/Dimension Reduction/Factor lpsekkel lehet a mdszerek kzl
vlasztani s fkomponens-elemzst vgezni. 92
A vltozk kivlasztsval kezdjk gy, hogy trekedjnk az n>5p szably
betartsra.
A Selection> menpontsal egy kategriavltoz kijellsvel almintt adhatunk
meg. Ez akkor hasznos, ha azt felttelezzk, hogy az almintkban ms
faktorstruktra jellemz. Az SPSS ilyenkor az alminta adatait hasznlva kszti el a
becslst a teljes mintra.
A) Descriptives, azaz ler statisztikk
E funkci alatt szmos fontos elkszt eredmny szerepel. A 6.1. tblzatban
sszefoglaljuk, hogy mit s mirt krnk, majd az egyes eredmnyek ellltshoz
szksges kpleteket (zrjelben a sorszmuk) ismertetjk.

92

A belltsokat az output tblk sorrendjben ismertetjk.

FAKTORELEMZS

155
6.1. tblzat: PCA ler statisztikk

Vlaszthat rszeredmnyek

rtelmezsk

Egyvltozs ler statisztikk

A vltozk eredeti tlaga s szrsa. A magas


relatv szrsra figyelni kell, hiszen homogn
adathalmazbl dolgozunk.

Korrelcis mtrix, szignifikancia szintek Vltozk kztti lineris kapcsolatok


s a mtrix determinnsa
szignifiknsak-e? Egyhez kzeli determinns
gyenge pronknti korrelcikat jelez. |R|0
esetn szorosak a korrelcik.
Korrelcis mtrix inverze

Parcilis 93 s tbbszrs 94 korrelci mrse

Kaiser-Meyer-Olkin mrtk (12)

Ha kisebb, mint 1/2, a minta nem alkalmas


fkomponens-elemzsre. 0,5-0,7 kztt gyenge,
0,7-0,8 kztt kzepes, 0,8 felett j a PCA

Anti-Image korrelcis mtrix ftlja


(13)

MSA 95 mrtkek vltoznknt, az 1-hez kzeli


rtk a kedvez

Anti-Image korr. mtrix tbbi eleme

A parcilis korrelcik (-1)-szeresei

Bartlett-teszt (gmblysgi)

H0 :R=E, a vltozk fggetlensge elvethet-e (a


tbbdimenzis normalitst felttelezi)

khi prba (14)

A Kaiser-Meyer-Olkin mrtk szmtsakor az egsz minta megfelelsgt (MSA:


Measure of Sampling Adequacy) vizsgljuk. A szmllban a kznsges
korrelcik ngyzeteinek sszege szerepel, kivve a ftlbeli egyeseket. A
nevezben pedig ehhez mg hozzaddnak a parcilis korrelcik ngyzetei. (A
szmllban p(p-1)/2 tag, a nevezben p(p-1) tag szerepel.)
KMO=

r
i j

ij

r
i j

ij

+ pij

(6.12)

i j

A KMO mrtk 0 s 1 kztt lehet. Ha a KMO=1, akkor a parcilis korrelcik


nullk.
93

A parcilis korrelci az inverz mtrix ftlbeli elemeibl is meghatrozhat. Ha az els

kt vltoz kapcsolatbl p-2 vltoz hatst kiszrjk:

r1234... p = q12

q11 q 22

, ahol

q az inverz mtrix megfelel eleme. Ha nem zavar, akkor a rszletes kirs helyett pij
szerepel.
94
Egy tbbszrs korrelci rtke az inverz mtrix azonos index elembl meghatrozhat:

R123... p = 1 1 q11
95

, s a mutat mindig pozitv.

MSA: Measure of Sampling Adequacy.

156

TBBVLTOZS ADATELEMZS

Az Anti-Image korrelcis mtrix (AIC) ftljban a vltoznknt kiszmolt KMO


rtkek llnak. A mutat az i-edik vltozra:
MSAi =

r
i j

2
ij

r
i j

2
ij

+ pij2

(6.3)

i j

A mutat nagy rtke fontos vltozt s kzs faktor ltt jelzi. Ha kicsi (0,5 alatti)
valamely MSA, akkor a vltoz kihagysval javthat a modell.
Az AIC ftln kvli elemei a parcilis korrelcik (-1)-szeresei. J a faktormodell,
ersek a kzs faktorok, ha a parcilis korrelcik nullhoz kzeliek. Ez azt jelenti,
hogy az egyedi faktorok kztti korrelci is kzel nulla.
Hvelykujj szably szerint minsthetjk az eredmnyt, ahogy a 6.2. tblzat jelzi.
6.2. tblzat: A minta megfelelsgnek rtkelse KMO s MSA mrtkek alapjn
KMO s MSA

Minsts (s teend)

rtke
0,9 felett

Kivl, mert kicsik a parcilis korrelcik

0,8-0,9

0,7-0,8

kzepes

0,5 felett

megfelel

=0,5

Ha a korrelcis mtrix elemeinek ngyzetsszege egyenl a


parcilis korrelcik ngyzetsszegvel. Az alkalmazs krdses.

0,5 alatt

Elfogadhatatlan a mdszer alkalmazsa, mert

nem elg szorosak a lineris korrelcik

tl magasak a parcilis korrelcik

(MSA 0,5 alatt: az adott vltozt ki kell hagyni. )

A KMO=0,5 addhat gy, hogy megkrdjelezhet az alkalmazs:

Ha sszesen kt vltozra prblunk fkomponens illeszteni. Ekkor a


parcilis korrelciban nincs kiszrhet vltoz.

Gpi bellts miatt (hogy elkerljk a nullval val osztst) is kaphatunk


ilyen rtket, ha a korrelcis mtrix egysgmtrix.

FAKTORELEMZS

157

A Bartlett-teszt alapfeltevse az, hogy tbbvltozs normlis eloszls


sokasgbl 96 vettk a mintt, s az eredeti vltozk fggetlenek, azaz az R=E. Ezt
likelihood-arny teszttel vizsgljuk, ahol |R|=i , s H0: R=E.

2 = a log R

, ahol a = n-1-(2p+5)/6 s a szabadsgi fok= p(p-1)/2

(6.14)

Fkomponens-elemzs csak akkor vgezhet, ha elvetjk a nullhipotzist, azaz nem


tekinthetk fggetlennek a vltozk.
Itt kapjuk meg a kezdeti megoldst. Az eredeti vltozk egysgnyi szrsngyzete
mellett a fkomponens-elemzssel kapott (6.8) szerinti h kommunalitsok llnak. Az
i-edik vltoz variancijnak a kzs faktorok egytt ekkora hnyadt magyarzzk.
Fels hatrt csak akkor ri el, ha mind a p db komponenst ellltjuk:

hi2 = cij 1
2

Az outputok kztt kapjuk meg a (6.9) szerint szmolt reproduklt korrelcis


mtrixot. Ennek ftljban a kommunalitsok (a kzs faktorok ltal magyarzott
variancia) tallhatk.
B) Az Extraction blokkban vlasztunk faktorelemz eljrst.
A fkomponens elemzs (PCA) az alapmdszer, s az egynl nagyobb
sajtrtkekhez (Kaiser kritrium) tartoz sajtvektorokat lltja el, ha nem krnk
k szm faktort. Itt krhet a Scree plot 97 bra is. Ez megmutatja, hogy a
sajtrtkek nagysga hogyan cskken. A hirtelen cskkens utn megllunk, a
tovbbi komponensek elhanyagolhat mrtkben javtjk a modell illeszkedst. A
kis sajtrtk a vletlen hibt mri, nem egy ltens kzs komponens variancija. Ha
a vltozk gyengn korrellnak, akkor nem cskken meredeken a Scree plot, nem
cskken a dimenzi.
C) A Rotation blokkban rotlt megoldst 98 llthatunk el, ha egynl tbb
faktorunk 99 van.
A faktorok elforgatsa trtnhet gy, hogy a forgats utn is merlegesek maradnak,
s gy is, hogy a faktorok korrelltak lesznek. Az ortogonlis forgats biztostja azt,
hogy a faktorok ltal nyjtott informci nem redundns, de a vizsglt jelensgek
faktorai lehetnek egymssal sszefggek is.

96

Mivel tbbdimenzis normalitsi teszt nincs, legalbb nagy minta lljon


rendelkezsnkre!

97
A Scree plot vzszintes tengelyn a faktorok szma, fggleges tengelyn pedig a
sajtrtkek lthatk.
98
A rotci jelentsgt mutatja be Hajdu Ott cikke a Statisztikai Szemle 2004. X-XI. dupla
szmban.
99
A rotls a PAF eljrs kzs faktorainak rtelmezsekor nagyon fontos.

158

TBBVLTOZS ADATELEMZS

Az ortogonlis forgats egyik vltozata a Kaiser ltal javasolt Varimax eljrs. A


kommunalitsok s a magyarzott sszvariancia nem vltozik, de a sajtrtkek
igen. A nagy loadingok ngyzetei egyhez, a kicsik nullhoz kzeliek lesznek a
forgats utn. Ha B=AT, ahol T a transzformci ortogonlis mtrixa, a Varimax
kritrium felrhat:

V =
q =1

p
p 2
4
b jq b jq / p

j =1
j =1
p

max , s k a faktorok szma, kp.

(6.15)
A ferdeszg (Oblique) forgatst a Direct Oblimin eljrs vgzi. Ekkor a
fkomponensek kztti korrelcik mtrixa nem lesz egysgmtrix, s nem adhat
meg az, hogy egyes vltozk szrsngyzetnek mekkora hnyadt kpviseli egyegy faktor.
Ebben a rszben krhet a Loading plot, amely a vltozkat brzolja a faktorok
terben.
D) Tovbbi eredmnyeket kapunk a Factor Scores blokkban.
A score egytthat-vektor p elem, a sajtrtk gykbl s a hozztartoz
sajtvektorbl szmolhat, minden vltozhoz kirathat:

(6.16)

Az adatllomnyban jelenik meg a faktor score egytthat mtrixa, amely mentse


sorn hrom eljrs 100 kzl vlaszthatunk. Ha regresszis becslssel kszl,
rtelmezse is a standardizlt regresszis egytthatkhoz hasonl. Ezek adjk a
reduklt dimenzij trben az eredeti megfigyelsek sztenderdizlt koordintit,
azaz minden oszlop tlaga 0 s szrsa egysgnyi. A regresszis becsls:R-1C,
akkor kszthet el, ha ltezik a korrelcis mtrix inverze. A (6.9) s (6.10)
egyenletek alapjn belthat, hogy R-1C= A-1/2
A faktor score mtrix (n*k) mret, s elemei: Yz= XA-1/2, azaz Y fkomponensek
sztenderdizlt rtkeit tartalmazzk.

100

Bartlett eljrst s Anderson-Rubin becslst is vlaszthatunk, amelyek a

sajtrtkek s a sajtvektorok felhasznlsval adjk meg az eredmnyt.

FAKTORELEMZS

159

E) Az Options-ban a hinyz adatok kezelst, adott szint alatti kis korrelcik


kihagyst, s a tbbiek nagysg szerinti rendezst vlaszthatjuk.

6.1.3. A PCA eredmnyek bemutatsa s rtelmezse


Budapest 23 kerlete s a fvrost krlvev 27 telepls 2010-es adataira vgznk
fkomponens elemzst. (Kerletek2010.sav)
Az els szakaszban csak ngy vltozt hasznlunk. Azt vizsgljuk, hogy a
laknpessgre vettett oda- s elvndorlst mr ngy vltoz milyen
hatkonysggal srthet-e egyetlen vndorls komponensbe?
Krds: Javul vagy romlik a modell illeszkedse, ha nem ltszmra vettett
mutatkat hasznlunk, hanem a vndorlst ler eredeti abszolt szmokat?
Vlasz: A mrethats miatt ersebbek a korrelcik, gy az eredeti vltozk jobban
srthetk egy fkomponensbe. De ne ldozzuk fel a korrekt alkalmazst ennek
rdekben.
Mivel a kerletek s az agglomerci teleplsei eltr vltoz-struktrt is
mutathatnak, rdemes a relatv szrst ellenrizni a 6.3. tblzatban. Egyik
szrs/tlag hnyados sem kzelti meg a kettt, mint kritikus rtket 101.
6.3. tblzat: A ngy vltoz statisztikai jellemzi
Descriptive Statistics
Mean

Std. Deviation

Analysis N

Odavanperfo

,043197

,0152623

50

Elvanperfo

,034468

,0109296

50

llElvanperfo

,020327

,0074053

50

llodavanperfo

,025357

,0124537

50

A vltozk mrtkegysgei nem klnbznek, de nagysgrendi eltrsek lehetnek,


ezrt a 6.4. tblzatban megadott korrelcis mtrixbl indulunk. Minden
korrelcis egytthat szignifikns, nem ltunk blokkokat a vltozk kztt. Ebbl
felttelezhet, hogy a ngy vltozbl egy fkomponens fog kpzdni. A mtrix
nullhoz kzeli (0,002) determinnsbl sejthet, hogy a sajtrtkek hatrozottan
cskken sorozatot alkotnak.

101

Lehet szigorbb (pl. 0,7) kritikus rtket is vlasztani, itt ez is teljesl.

160

TBBVLTOZS ADATELEMZS
6.4. tblzat: Az eredeti vltozk korrelcis mtrixa
Correlation Matrixa

Correlation

Sig. (1-tailed)

Odavanp

Elvan

erfo

perfo

Odavanperfo

llElvan llodavanp
perfo

erfo

1,000

,877

,838

,915

Elvanperfo

,877

1,000

,940

,884

llElvanperfo

,838

,940

1,000

,908

llodavanperfo

,915

,884

,908

1,000

,000

,000

,000

,000

,000

Odavanperfo
Elvanperfo

,000

llElvanperfo

,000

,000

llodavanperfo

,000

,000

,000
,000

a. Determinant = ,002

A Kaiser-Meyer-Olkin (KMO) teszt 0,746-os rtke alapjn adataink alkalmasak


fkomponens elemzsre, s a Barlett-fle khi-ngyzet teszt alapjn minden szoksos
szignifikancia szinten elvetjk a vltozk fggetlensgnek hipotzist. (6.5/a.
tblzat)
6.5/a. tblzat: PCA alkalmazhatsgi tesztek
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity

Approx. Chi-Square
df
Sig.

,746
280,951
6
,000

A vltozk egyedi alkalmassgt a 6.5/b. tblzat als mtrix ftlja adja meg. Az
egyedi MSA rtkek a KMO krl ingadoznak, egyik vltoz kihagysa sem
indokolt, mindegyik meghaladja a 0,5 kszbt. A ftln kvl a parcilis
korrelcik (-1)-szeresei kaptak helyet.

FAKTORELEMZS

161

6.5/b. tblzat: A vltozk egyedi alkalmassgnak mrse


Anti-image Matrices
Odavanp
Anti-image Covariance

Anti-image Correlation

Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo

erfo
,127
-,049
,032
-,073
,752a
-,466
,316
-,667

Elvan

llElvan

llodava

perfo
,032
-,062
,080
-,048
,316
-,737
,718a
-,551

nperfo
-,073
,015
-,048
,093
-,667
,170
-,551
,758a

perfo
-,049
,087
-,062
,015
-,466
,755a
-,737
,170

a. Measures of Sampling Adequacy(MSA)

Ha sztenderdizlt adatokkal dolgozunk, akkor kezdetben minden vltoz


szrsngyzete egysgnyi (Initial), s ebbl az egynl nagyobb variancij, fontos
fkomponens(ek) bizonyos hnyadot magyarz(nak) (Extraction), amint ezt a 6.6.
tblzat mutatja. Ha a magyarzott hnyad tlsgosan alacsony lenne 102, akkor a
vltozt clszer lenne kihagyni a futtatsbl. Pldnkban mind a ngy vltoz
esetben 90% kzeli vagy ezt meghalad a megrztt informci. A ngy
kommunalits sszege pedig 3,6 felett van, ami elre jelzi, hogy a teljes megrztt
informci is 90% felett lesz.
6.6. tblzat: A teljes variancia megrztt hnyada
Communalities
Initial

102

Extraction

Odavanperfo

1,000

,894

Elvanperfo

1,000

,931

llElvanperfo

1,000

,923

llodavanperfo

1,000

,933

Ha a kommunalits kisebb, mint 0,25, akkor a vltoz egyetlen faktorral sem korrell
kzepesen, mert 0,52 = 0,25. A kommunalits tbbszrs determincis egytthatknt
rtelmezhet.

162

TBBVLTOZS ADATELEMZS

A megmagyarzott variancia hnyada 3,861/4= 92%, gy a ngydimenzis trbl


kpzett egyetlen komponenssel csak 8%-t vesztjk el az eredeti informcibl.
(6.7. tblzat) A msodik komponens jval kevesebb informcit hordoz, mint egy
eredeti vltoz, mivel variancija (0,183) kisebb, mint egy. Ha ilyen ers az egyetlen
komponens, amit ellltunk, akkor ffaktornak is szoks nevezni az eredmnyt.
6.7. tblzat: A fkomponensek sajtrtkei s relatv fontossguk
Total Variance Explained
Extraction Sums of Squared
Initial Eigenvalues

Component

Total

Loadings

% of

Cumulative

Variance

3,681

92,036

92,036

,183

4,576

96,612

,098

2,448

99,060

,038

,940

100,000

Total
3,681

% of

Cumulative

Variance

92,036

92,036

Extraction Method: Principal Component Analysis.

A sajtrtkek monoton cskken sorozatt mutatja a 6.1. bra. Ha a msodik, s a


tovbbi komponensek cskkense nem elg hatrozott, akkor az SPSS-ben a
fkomponensek kvnt szmt belltva megismteljk a futtatst.

6.1. bra: A sajtrtkek sorozata

FAKTORELEMZS

163

Az rtelmezs szempontjbl a komponens mtrix (6.8. tblzat) az egyik


legfontosabb eredmny. Ez tartalmazza a vltozk s a fkomponens kztti
korrelcikat, azaz a C mtrix els oszlopt. Minden vltoz szorosan s pozitv
eljellel korrell a komponenssel. Ez azt jelenti, hogy a komponens alapjn a
laknpessgre vettett magasabb oda- s elvndorlsi adatokkal rendelkez
kerletek s agglomercis teleplsek magasabb koordintval rendelkeznek.
(Nehezebb lenne rtelmezni a ktplus, pozitv s negatv korrelcikat is
tartalmaz komponens jelentst.)
6.8. tblzat: A vltozk s a fkomponens kztti korrelcik
Component Matrixa
Component
1
Odavanperfo

,946

Elvanperfo

,965

llElvanperfo

,961

llodavanperfo

,966

Extraction Method: Principal Component Analysis.


a. 1 components extracted.

A PCA clja az, hogy az eredeti vltozk kztti korrelcikat jl megrz, de


kevesebb szm komponenst lltson el. Ezrt nemcsak a fkomponens(ek)
nagysgt figyeljk, hanem az R reproduklsnak mrtkt is. A 6.9. tblzat
ftljban a 6.6. tblzatban szerepl kommunalitsokat ltjuk, a ftln kvl
pedig a (6.11) szerint szmolt reproduklt korrelcik tallhatk. A 6.4. tblzatbeli
eredeti korrelcik s a 6.9. tblzat fels fele kztti eltrseket rezidulisknt adja
meg a 6.9. tblzat als rsze.
A rezidulisok kztt abszolt rtkben a legnagyobb a -0,070, amely arra utal,
hogy az odavndorls/f s az lland elvndorls/f kztt mrt (0,838) korrelcit
a fkomponens alapjn nmileg fellbecsljk (0,909). Ez az egyetlen korrelci,
ahol a becslsi hiba meghaladja a 0,05-t. (Ezt a b. jel megjegyzs is rgzti.)

164

TBBVLTOZS ADATELEMZS
6.9. tblzat: A korrelcik becslt rtkei s a hibatagok
Reproduced Correlations

Reproduced
Correlation

Residualb

Odavanp

Elvanp

erfo

erfo

llElvan llodavanp
perfo

erfo

Odavanperfo

,894

,912

,909

,914

Elvanperfo

,912

,931a

,927

,932

,928

llElvanperfo

,909

,927

,923

llodavanperfo

,914

,932

,928

,933a

-,035

-,070

,002

,013

-,048

Odavanperfo
Elvanperfo

-,035

llElvanperfo

-,070

,013

llodavanperfo

,002

-,048

-,021
-,021

Extraction Method: Principal Component Analysis.


a. Reproduced communalities
b. Residuals are computed between observed and reproduced correlations. There are 1 (16,0%)
nonredundant residuals with absolute values greater than 0.05.

A faktortrbeli brhoz ismernnk kell a telepls-score-okat. Ezeket a


fkomponens(ek)re, mint tengely(ek)re vonatkoz koordintkat a (6.16) szerint
szmolt sztenderdizlt regresszis egytthatkat (6.10. tblzat) hasznlva lltjuk
el. Ha egy-egy telepls ngy vltozra megfigyelt rtkeit behelyettestjk az els
oszlop alapjn felrhat regresszis egyenletbe, akkor megkapjuk az adott kerlet
vagy telepls koordintjt az els fkomponens terben.
6.10. tblzat: A fkomponens egytthatk regresszis becslse
Component Score Coefficient Matrix
Component
1
Odavanperfo

,257

Elvanperfo

,262

llElvanperfo

,261

llodavanperfo

,262

Extraction Method: Principal Component Analysis.


Component Scores.

FAKTORELEMZS

165

Mivel a fkomponens tlaga zrus, a pozitv koordintk nyitott teleplst


jeleznek, ahol oda- s elvndorls is jellemz, mg a negatv rtkek a laknpessg
arnyban zrtabb teleplsekhez tartoznak.
sszegezve a szmtsokat egy nagyon ers vndorlsi komponenst kaptunk, amely
az informci 92%-t megrzi. A fvrosi kerletek s a Budapest kzeli
teleplsek rszletes vndorlsi adatai helyett ez az egyetlen adatsor is hasznlhat a
tovbbiakban.

6.2. A faktorelemz mdszercsald tovbbi eljrsai


Ha az Analyze/Dimension Reduction/Factor ton elindulunk, az Extraction
rszben vlaszthatunk msik eljrst.
Eddig az alapvltozatot, a fkomponens elemzst (PCA) ismertk meg. Ekkor azt
ttelezzk fel, hogy a korrelcis mtrixot tkletesen reproduklni tudjuk az R=
AAT =CCT szorzattal, ha a vltozkkal megegyez szm fkomponenst lltunk
el, azaz Y=XA, ahol Y s X (nxp)-s mtrixok, A, s C pedig (pxp) mretek.
A tkletes reprodukci nem kizrlagos cl, s nem is mindig relis elvrs. Ha
csak nhny kzs faktort tteleznk fel, amelyekkel lerhatk a vltozk, akkor
ms eljrst vlasztunk.
Legkisebb ngyzetek mdszernek (LKNM) slyozatlan s slyozott vltozatt
hasznlhatjuk, ha a faktorok szma adott, s keressk azt a faktorstruktrt, amely
minimalizlja a megfigyelt s a reproduklt korrelcis mtrixok kzti p(p-1) eltrs
ngyzetsszegt. Csak a diagonlis elemeken kvli eltrseket mrjk. A slyozott
LKNM-ben a korrelcikat a vltozk egyedisgnek 103 reciprokval slyozzuk.
Maximum Likelihood (ML) faktoreljrst vlaszthatunk, ha a vltozk
tbbdimenzis normlis eloszlst kvetnek, s a megfigyelt korrelcis mtrix a
populci korrelcis mtrixnak legvalszerbb becslse. Itt is az egyedisg
reciprokval slyozunk, s itercival kapjuk a megoldst. Adott k faktorszm
mellett tesztelni kell az illeszkeds jsgt. A k-faktoros modell jsgt mr

statisztika (kplete: n ln R / R ) nagy minta esetben khi-ngyzet eloszlst kvet.


J az illeszkeds, ha a prbafggvny szignifikancia szintje magas. A 0,05 alatti
alacsony szignifikancia szint esetn (k+1) faktorra megismteljk a futtatst. A
faktorok szma nem haladhatja meg azt a legnagyobb egsz szmot, amire teljesl a
kvetkez egyenltlensg: k<1/2(2p+1-(8p+1)1/2
Principal-axis factoring (PAF): Ffaktor mdszer a fkomponens elemzshez
hasonl elvet kvet, de az indul korrelcis mtrix diagonlisaiban ll egyeseket a
becslt kommunalitsokkal cserli ki. Ezt a reduklt korrelcis mtrixot veti al
sajtrtk-sajtvektor felbontsnak. A kvnt szm faktor ellltsa utn becsli a
103

Egyedisg=1-kommunalits

166

TBBVLTOZS ADATELEMZS

faktormtrixban a loading slyokat, ebbl jrabecsli a kommunalitsokat, s az


iterci addig folytatdik, mg kt egymst kvet eredmny mr csak minimlisan
tr el. Ezen eljrs sorn tbb matematikai problma vetdik fel, melyeket a modell
ismertetse sorn trgyalunk.

6.2.1. A faktorelemzs modellje


A centrozott (tlagtl val eltrssel megadott) megfigyelsek mtrixa felrhat a
kzs faktorok lineris kombincija s az egyedi faktorok sszegeknt:
X=FLT+H, melyben

(6.17)

X mrete (nxp), ahol n a megfigyelsi egysgek s p a vltozk szma

F (nxk)-s, ahol k a kzs faktorok szma (k< p)

L (pxk)-s, a faktorslyok mtrixa (loading)

H (nxp)-s egyedi faktor, hibatag mtrix.

Feltevsek:

- A faktorok linerisan fggetlenek:


FTF/n=E, ahol E egy (kxk)-s egysgmtrix

(6.18)
T

A kzs faktor s a hibatag korrellatlan: F H=H F=0

(6.19)

A hibatagok fggetlenek, azaz variancia-kovariancia mtrixuk (pxp)-s


(6.20)
diagonlis mtrix: HTH/n=U2

A megfigyelt vltozk korrelcis mtrixt (6.17) alapjn felbontjuk, s a (6.18)(6.20) feltevseket felhasznlva a faktorelemzs alapegyenlett kapjuk:
R= XTX/n= 1/n(FLT+H)T( FLT+H) = LLT+ U2

(6.21)

Ha a korrelcis mtrix diagonlis elemeibl levonjuk a hibatagok varianciit, a


vltozknak a kzs faktorok ltal magyarzott rszt, a kommunalitsokat kapjuk.
Az U2 ismeretben az R-U2 reduklt korrelcis mtrix sajtrtk-sajtvektor
felbontst kell elvgezni:
Rred = LLT

(6.22)

A hibatagok variancija (U ftlja) ltalban nem ismert, rtkt a tbbszrs


korrelcis egytthat komplementereknt becsljk, vagy a kommunalitsbl
2

szmoljuk:

ui2 = 1 hi2

(6.23)

Mivel ltalban a kommunalitsokat sem ismerjk, alaprtelmezs szerint a


tbbszrs korrelcis egytthat ngyzete adja a kommunalits becslst.
Hasznlhat a PCA futtatsval kapott kommunalits is, vagy a korrelcis
mtrixban szerepl maximlis pronknti korrelcis egytthat abszolt rtke.
A (6.22)-ben felrt reduklt korrelcis mtrix sajtrtk-sajtvektor felbontsakor:

FAKTORELEMZS

167

Rred =LLT=VVT

(6.24)

rhat fel, melyben a V a sajtvektorok mtrixa, pedig a sajtrtkek diagonlis


mtrixa, s gy L=V1/2 ll fenn.
A faktorok forgatsa (rotcija)
Legyen T az ortogonlis transzformci mtrixa, melyre TTT=TTT =E.
Az L faktorsly mtrixot brmelyik eljrssal (PCA, PAF, ML,) lltottuk el, a
rotls hatsra: L*=LT lesz. De Rred=LLT= LTTTLT =L*L*T fennll, azaz a
reduklt korrelcis mtrix s ftljban a kommunalitsok vltozatlanok
maradnak.
Ktdimenzis trben az ra jrsval egyez forgatst eredmnyez az albbi
transzformcis mtrix:

cos
T =

sin

sin
cos

A fkomponens elemzstl eltren a faktorelemzsnek nem mindig van megfelel


megoldsa, mert a reduklt korrelcis mtrix nem pozitv definit.
Csak a pozitv definit mtrixra teljesl az, hogy minden sajtrtk nemnegatv. Ezrt a faktorelemzsben a sajtrtkek kztt negatvok is
lehetnek, ezek pedig nem megfelel megoldsok, mert a sajtrtkek a
faktorok varianciit fejezik ki, amelyek biztosan nem-negatv rtkek.
Tovbbi problmt okoz az, hogy ha vannak negatv sajtrtkek is, akkor
az els nhny nagy pozitv sajtrtk sszege nagyobb lehet, mint a
reduklt mtrix nyoma, azaz a diagonlis elemek sszege. Ilyen esetben
gy tnhet, hogy a dimenzicskkents utn megrztt informci
meghaladja a 100%-ot.
Problmt okozhat az is, ha a (6.21) alapegyenlet megoldsa sorn kapott
eredmny nem teljesti a vltoz s a faktor kzti kapcsolat szorossgt
mr korrelcis egytthatkkal szembeni elvrsokat, s/vagy a hibatag
variancijra negatv rtk addik.
Az emltett problmk elfordulst kis mintapldn mutatjuk be.
Hrom vltoznk korrelcis mtrixa legyen a kvetkez:

0.9

0.7

R= 0.9

0.4

0.7
0.4
1

s k=1 faktort tteleznk fel, azaz az F mtrix (nx1)-s vektor, az L pedig 3


elem vektor.

168

TBBVLTOZS ADATELEMZS
A megfigyelsek (nx3)-s mret X mtrixa teht oszloponknt gy rhat fel:
Xi1 = l1 Fi + hi1 , ahol i=1,,n
Xi2 = l2 Fi + hi2
Xi3 = l3 Fi + hi3
A loadingok s a hibatagok a (6.21) alapegyenlet rtelmben egyenlk a
korrelcis mtrix elemeivel az albbiak szerint:

1 = l12 + u12

0,9 = l1l 2
1= l +u
2
2

0,7 = l1l 3
2

0,4 = l 2 l 3
1 = l 32 + u 2 3

Ha a 0,7 s 0,4 korrelcis egytthatkra felrt egyenleteket elosztjuk


egymssal, akkor l3 kiesik, s pldul l2 kifejezhet: l 2 = 4 / 7l1
Ezt behelyettestve

0,9 = l1l 2 = 4 / 7l12 s innen l12 = 1,575


Gykvons utn

l1 = 1,255

Egyik rtk sem megfelel, mivel l1 az (egysgnyi szrs) vltoz s a (szintn


egysgnyi szrs) faktor kztti korrelcit mri, s a korrelci maximuma 1.
A ftlban pedig az els hibatag szrsngyzetre negatv szm (1-1,575 = 0,575) addik, s ez sem megfelel rtk. Ltezik teht megolds, de a kapott
eredmny nem fogadhat el. Vals mret feladatok esetben halmozottan
jelentkezhetnek a problmk, ezrt csak stabil, jl felptett modell birtokban
javasolhat a ffaktorok ellltsa.

6.2.2. A PAF eredmnyek bemutatsa s rtelmezse


Az orszgok politikai, gazdasgi s pnzgyi kockzatt tbb szakrt klnbz
mdon s eltr gyakorisggal mri, de felttelezhetjk, hogy ltezik a httrben egy
kzs orszg-kockzat faktor, s a publiklt kockzati mrtkek ennek a hatst
tkrzik. Ezt az elmleti megfontolst szem eltt tartva vgznk ffaktor elemzst a
Vilgbank ltal kzztett hrom kockzati mrszmra. Mindhrom kockzati
mrtk 0 s 100 kztt mr, a nagyobb rtk jelenti a kisebb kockzatot.
Az Investmentclimate.sav adatok hrom vltozjra Dimension Reduction/
Extraction/ Principal axis factoring vlasztssal faktort lltunk el. A tbbi bellts
a PCA futtatssal megegyezik, egy faktor esetben rotls nem vgezhet.

FAKTORELEMZS

169

A ler statisztikk (6.11. tblzat) szerint a sok tnyezbl slyozottan ksztett


(kompozit) mutat tlaga magasabb, szrsa kisebb, mint a nemzetkzi bankok s a
gazdasgi elemzk szakrti vlemnyt tkrz kt mrszm.
6.11. tblzat: tlagok s szrsok
Descriptive Statistics
Std.
Deviation

Analysis N

74,365

11,355

31

64,610

26,538

31

68,597

24,109

31

Mean
Composite ICRG risk
rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)

A mutatk kztt nagyon szoros, 0,9 feletti a pronknti korrelci, ezrt


megalapozottnak tnik felttelezsnk, hogy kzs faktor ltezik. (6.12. tblzat)
6.12. tblzat: Korrelcis mtrix
Correlation Matrixa

Correlation

Sig. (1-tailed)

Composite ICRG risk


rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)
Composite ICRG risk
rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)

Composite
ICRG risk
rating

Institutional
Investor
credit rating

Country credit
worthiness
rating
(Euromoney)

1,000

,921

,925

,921

1,000

,992

,925

,992

1,000

,000

,000

,000
,000

,000
,000

a. Determinant = 2,398E-03

A tesztek (6.13. tblzat) is azt bizonytjk, hogy adataink alkalmasak ltens vltoz
ellltsra. Ez a rsz megegyezik a PCA s a PAF eljrsoknl.

170

TBBVLTOZS ADATELEMZS
6.13. tblzat: Alkalmassgi tesztek
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Bartlett's Test of
Sphericity

,739

Approx. Chi-Square
df
Sig.

169,936
3
,000

A kzs faktor ltal magyarzott variancia hnyadt mutat kommunalitsok (6.14.


tblzat) els oszlopa a PCA eredmnyt mutatja, msodik oszlopa pedig a
ffaktorhoz tartoz kommunalitst.
6.14. tblzat: PCA s PAF kommunalitsok
Communalities
Initial
Composite ICRG risk
rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)

Extraction

,856

,860

,983

,988

,984

,994

Extraction Method: Principal Axis Factoring.

A 6.15. tblzat alapjn a reduklt korrelcis mtrix sajtrtke s relatv


fontossga (2,842 s 94,7%) valamivel kisebb, mint az eredeti korrelcis mtrix
dekompozcijbl kapott sajtrtk ( 2,892).
6.15. tblzat: PCA s PAF sajtrtkek
Total Variance Explained

Factor
1
2
3

Initial Eigenvalues
% of
Cumulativ
Total
Variance
e%
2,892
96,403
96,403
9,959E-02
3,320
99,723
8,325E-03
,277
100,000

Extraction Sums of Squared


Loadings
% of
Cumulativ
Total
Variance
e%
2,842
94,734
94,734

Extraction M ethod: Principal Axis Factoring.

A PCA komponens mtrixa (C) helyett itt L faktormtrixot (6.16. tblzat) ad az


eljrs, amelybl lthat, hogy a ffaktor s mindhrom vltoz kztt nagyon
szoros pozitv korrelci van.

FAKTORELEMZS

171
6.16. tblzat: Ffaktor slyok
F ac to r M atra
ix
F ac tor
1

C om p os ite I CR G ris k
rati ng
Ins tit utio nal Inv esto r cre d
rati ng
C oun try c redi t w orthi nes
rati ng (E u rom o ney )

,92 7
,99 4
,99 7

E xt racti on M eth od: Pri nc ipal A xi s F a cto


a. 1 f acto rs e xtra cted . 4 i terat ions req

A faktor score-ok regresszis becslsben (6.17/a. s 6.17/ b. tblzat) viszont


jelentsen eltrnek az egytthatk, br mindkt szmts a sztenderdizlt regresszis
egytthat (bta) rtkeket adja.
6.17./a tblzat: PAF eljrssal szmolt sztenderdizlt regresszis egytthatk
F actor Scor e Coefficient Matrix
F actor
1
Com posite ICRG ri sk
rating
Institutional Investor credit
rating
Country credit worthi ness
rating (Eurom oney)

,026
,308
,668

Extraction M ethod: Principal A xis Factor

6.17./b tblzat: PCA eljrssal szmolt sztenderdizlt regresszis egytthatk


Component Score Coefficient Matrix
Compone
nt
1
Composite ICRG risk
rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)

,334
,342
,342

Extraction Method: Principal Component Analysis.

172

TBBVLTOZS ADATELEMZS

Az eredeti korrelcik ellltsa a ffaktorral nagyon jl sikerlt, a ftln kvli


rezidulisok zrusnak tekinthetk a 6.18. tblzat alapjn. Meggyzdtnk teht
arrl, hogy egy ffaktort felttelez modellnk jl illeszkedik a mrt vltozkhoz,
teht a kockzati faktor alkalmas arra, hogy az orszgokat kockzat szerint
rangsoroljuk, csoportostsuk.
Felvetdik azonban a krds, hogy mennyire ms a PAF s a PCA eredmnye?
Mivel a vltozk kztti korrelcik nagyon szorosak voltak, s a 6.14. valamint a
6.6. tblzat alapjn a kt eljrs eredmnyei nem trnek el jelentsen, nem
meglep, hogy a PCA s a PAF koordintk kztti determincis egytthat
0,9861. A koordintk egyezst a 6.2. bra mutatja. Tkletes egybeesst a 45o
egyenes pontjai mutatnak. Nagyobb eltrst csak Trkorszg score-jai kztt
tallunk, mivel a PAF (-0,69) jelentsen fellbecsli a fkomponens (-1,01)
koordintt.

FAKTORELEMZS

173

6.18. tblzat: Az eredeti korrelcik ellltsa a ffaktorral


Reproduced Correlations

Composite
ICRG risk
rating
Reproduced Correlation

Residuala

Composite ICRG risk


rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)
Composite ICRG risk
rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)

Institution
al Investor
credit
rating

Country
credit
worthines
s rating
(Euromon
ey)

,922

,925

,860

,922

,988

,991

,925

,991

,994

,000

,000

,000

,000

,000

,000

Extraction M ethod: Principal Axis Factoring.


a. Residuals are computed between observed and reproduced correlations. There are 0
(,0%) nonredundant residuals with absolute values > 0.05.
b. Reproduced communalities

1,5
1,0
,5

PAFrisk

0,0
-,5
-1,0
-1,5
-2,0
-2,5
-2,5

-2,0

-1,5

-1,0

-,5

0,0

,5

1,0

1,5

PCArisk

6.2. bra: PCA s PAF koordintk pontdiagramja

174

TBBVLTOZS ADATELEMZS

6.3. A faktorelemzs tovbbi kihvsai


Nem clunk a tisztelt olvas megtvesztse. Nem kapunk mindig egyetlen s fleg
jl rtelmezhet faktort/fkomponenst a futtats vgn. Most a gyakorlatban
elfordul nehzsgekre is mutatunk pldt gy, hogy a fejezet elejn feltett
krdsre keressk a vlaszt, azaz a teleplsek letminsgt mrjk.

6.3.1. Abszolt s relatv mutatk elemzse


A Kerletek2010.sav adatllomnyban a tnyleges vndorlsi adatok, mint abszolt
szmok mellett a laknpessgre vettett relatv mutatk is szerepelnek. Melyiket
rdemes az elemzsbe bevonni? Ezen szakmai krds mell tovbbi statisztikai
rszkrdsek is feltehetk:
a) Melyik vltozkrre kapunk jobban illeszked faktormodellt?
b) Mely rszeredmnyek vltoznak, ha egyik vagy msik vltozcsoportot vonjuk
be?
c) Egy kzs modellben elemezzk a vltozkat, vagy kt faktor-futtatst
ksztsnk?
Ksztsk el s ellenrizzk eredmnyeinket ngy vltozatban: csak az abszolt
(A10) vltozkra, az abszolt mellett relatv (AR10) mutatk felhasznlsval,
valamint kln vltozkrre (K6, K4) futtats esetn. A vltozk listja a 6.19.
tblzatban szerepel.
A tovbbiakban csak nhny rszeredmnyt emelnk ki. rdemes a ngy vltozatot
nllan elkszteni s tanulmnyozni.
6.19. tblzat: A vltozk szerepe a ngy klnbz modellben
Vltozk s modellek

A modell illeszkedse, fbb kvetkeztetsek

(A10) n=50 s p=10

KMO mrtk: 0,850

Npessgszm

Legkisebb kommunalits: ptett laksok (0,587)

Odavndorls

Egy feletti sajtrtk s %: 8,454 (84,54%)

Elvndorls

Az 1. komponens tartalma: eleve nagy mret s


vndorlsban is kiemelked telepls

llandodavndorls
llandelvndorls
nkormnyzatibev
Vendglthely
Laksllomny
ptettlaksok
llskeresk

A 2. komponens: nincs
sszestett minsts: jl rtelmezhet modell

FAKTORELEMZS
(AR10) n=50 s p=10

175
KMO mrtk: 0,828

Npessgszm

Legkisebb kommunalits: ptett laksok (0,756)

nkormnyzatibev

Egy feletti sajtrtk s %: 6,8 (68%) s 2,045


(20,45%)

Vendglthely
Laksllomny
ptettlaksok
llskeresk

Az 1. komponens tartalma: mret s letfelttelek


A 2. komponens tartalma: vndorls
sszestett minsts: rotls utn jl rtelmezhet
modell (ezt rszletesen is bemutatjuk az 5.3.2.-ben)

Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo

(K6) n=50 s p=6

KMO mrtk: 0,822

Npessgszm

Legkisebb kommunalits: ptett laksok (0,558)

nkormnyzatibev

Egy feletti sajtrtk s %: 4,965 (82,75%)

Vendglthely

Az 1. komponens tartalma: mret s letfelttelek

Laksllomny

sszestett minsts: jl rtelmezhet modell

ptettlaksok
llskeresk
(K4) n=50 s p=4

KMO mrtk:0,746

Odavanperfo

Legkisebb kommunalits: odavndorls/f (0,894)

Elvanperfo

Egy feletti sajtrtk s %: 3,681 (92%)

llElvanperfo

Az 1. komponens tartalma: vndorls

llodavanperfo

sszestett minsts: jl rtelmezhet modell

Vajon mirt van az, hogy hromszor egy faktoros, s egyszer kt faktoros eredmny
addott? Mibl ered ez a klnbsg?
Ismt a mrethatsra emlkeztetnk. A mutatk tbbsge egymssal egyttmozog,
ers a multikollinearits, ezrt az (A10) modell KMO-ja a legmagasabb. Ha az egyik
mutat nagyobb rtket r el, akkor a msik is magasabb. De a msodik modellben,
az (AR10)-ben relatv mutatk is szerepelnek, s ezek klnlnek el a tbbi
vltoztl. Ez azzal magyarzhat, hogy a ltszmhoz viszonytott vndorls
msknt alakulhat, mint a vndorls nmagban.

176

TBBVLTOZS ADATELEMZS

Hasonlt lehet tapasztalni vllalati adatok elemzse esetn is. Ms lesz a


komponensek tartalma s rtelme, ha az rbevtel, az eredmny, stb. mutatkat
sszesen rtkben hasznljuk, vagy ezeket egy fre vettjk.

6.3.2. Ktdimenzis megolds rtelmezse, brzolsa


Az elemzsek sorn az a gyakoribb, hogy nem sikerl egyetlen faktorba tmrteni
az sszes vltozt, hanem tbb, egynl nagyobb sajtrtk addik. Ez nem von le
semmit az eredmnyek erejbl, st lehetsget teremt kt vagy hromdimenzis
brk ksztsre, a megfigyelsek szerkezetnek feltrsra.
A PCA/PAF futtatsok els nhny tblzata (ler statisztika, korrelci, KMO,
Bartlett teszt, anti-image korrelcik, kommunalitsok) nem tr el az eddig
bemutatott output tblktl, ezrt ezeket itt nem kzljk. Csak az jabb
eredmnyek rtkel bemutatsra treksznk. Kt tengelyre mr rotls is krhet,
s ez a 6.20. tblzatban lthat jabb eredmnyeket ad.
6.20. tblzat: Eredeti sajtrtkek s rotlt megolds

Component
1
2
3
4
5
6
7
8
9
10

Total
6,800
2,045
,391
,313
,140
,101
,092
,079
,029
,010

Initial Eigenvalues
% of
Cumulative
Variance
%
67,999
67,999
20,453
88,452
3,915
92,367
3,126
95,492
1,401
96,894
1,009
97,902
,918
98,820
,788
99,608
,295
99,903
,097
100,000

Rotation Sums of Squared Loadings


% of
Cumulative
Total
Variance
%
4,774
47,738
47,738
4,071
40,714
88,452

A 10 vltozbl kinyert 88%-nyi sszes informci nem nhet meg a rotls sorn,
de a tengelyek kztti sztoszts 68+20 szzalkrl indulva 48+40%-ra, azaz
jelentsen megvltozik. (Kivteles esetekben a msodik komponens sajtrtke
rotls utn meghaladhatja az elst!)
A rotls a faktorok rtelmezsben, a vltozk tengelyekhez rendelsben, a tiszta
struktra kialaktsban segt. A komponens mtrix C rotls eltti (6.21. tblzat)
s utni (6.23. tblzat) elemeit, valamint a kt brt (6.3/a. s 6.3/b.) is bemutatjuk,
hogy e mvelet hatst rzkeltetni tudjuk.
Az els pillantsra rtelmezhetetlen komponens mtrixot ltunk a 6.21 tblzatban.
Szinte minden vltoz kzepes vagy ers korrelcit mutat mindkt faktorral, az
ptett laksok s az odavndorls/f mutatk kzel azonosan korrellnak mindkt
tengellyel, teht mintha kzpen, a 45 s a 135 fokos egyenes mentn lennnek. (Ezt
megersti a 6.3/a. bra)

FAKTORELEMZS

177
6.21. tblzat: Eredeti komponens mtrix
Component Matrixa
Component
1

Npessgszm

,916

,307

nkormnyzatibev

,896

,269

Vendglthely

,830

,306

Laksllomny

,921

,327

ptettlaksok

,558

,666

llskeresk

,883

,251

Odavanperfo

-,689

,683

Elvanperfo

-,834

,479

llElvanperfo

-,833

,455

llodavanperfo

-,815

,519

Extraction Method: Principal Component Analysis.


a. 2 components extracted.

6.3/a. bra: 10 vltoz lekpezse kt dimenziba

178

TBBVLTOZS ADATELEMZS
6.22. tblzat: A forgats mrtke
Component Transformation Matrix
Component

,758

-,653

,653

,758

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.

A variancia maximlizl rotci (6.22. tblzat) megtallja azt a 40 fok 104 kzeli
szget, amivel a kis slyok mg kisebbek, a nagyok pedig mg nagyobbak lesznek,
s kialakul egy rtelmezhetbb struktra a 6.21/b tblzatban s a 6.3/b. brn.
6.23. tblzat: Rotlt komponens mtrix
Rotated Component Matrixa
Component
1

104

Npessgszm

,895

-,365

nkormnyzatibev

,854

-,381

Vendglthely

,829

-,310

Laksllomny

,911

-,354

ptettlaksok

,858

,140

llskeresk

,833

-,386

Odavanperfo

-,076

,967

Elvanperfo

-,320

,907

llElvanperfo

-,334

,888

llodavanperfo

-,278

,925

Mivel cos=0,758, a szg 40-41 fok kztt van.

FAKTORELEMZS

179

6.3/b. bra: 10 vltoz lekpezse rotlt tengelyekre


A vltozk elhelyezkedse alapjn a sknegyedeket is jellemezni tudjuk a 6.4. brn,
ahol a teleplsek szerkezete lthat. Emlkezznk r, hogy 10 vltozbl
kiindulva, 88%-os informcisrts utn kaptuk a ktdimenzis vetletet!

6.4. bra: 50 telepls 2 dimenzis faktortrben

180

TBBVLTOZS ADATELEMZS

Az els tengely sztvlasztja a fvrost (tlag felettiek) s az agglomercit (tlag


alattiak). Ez felveti azt a krdst, hogy a kt almintra vajon kln elemzst kell-e
vgezni? A vlaszt az alfejezet vgn adjuk meg.
Az els sknegyedben csak fvrosi kerletek vannak, ezek az tlagnl nagyobb
mretek (ltszm, laks) s jobb letfelttelt jelentenek, hisz tbb a vendgl s
magasabb az nkormnyzati bevtel. Ezek vndorlsi mutatk szerint is vonz
clpontok. Balra fent a XI. s XIII. kerletet ltjuk. (A III., IX. s XIV. kerletek
tallhatk mg itt.)
Alattuk, a negyedik sknegyedben vannak Budapest tovbbi kerletei. Ezek kisebb
mretek, s nem jellemz rjuk nagy vndorls. Legalul van az I. s a XXIII.
kerlet.
A msodik sknegyedben a kisebb, de vonz clpontok kztt Budajen s Disd,
mellettk vannak tlag kzeli mrettel s jelents vndorlssal: rd, Budars s
Dunakeszi.
Az orighoz legkzelebbi pontunk, amely mindkt faktor szerint tlagos rtk:
Vc.
A harmadik sknegyed a kisebb s zrtabb teleplseket, falvakat foglalja magban.
Ide tartoz pontknt Szob emlthet.
Kzs modell teht a megolds vagy a kt vltozhalmaz kln srtst clszer
megprblni? Ezzel vlaszolunk az 6.3.1. b) s c) krdsekre is.
Elszr tekintsnk r ismt a 6.3/a s a 6.3/b brkra. A rotlssal nem sikerlt
teljesen tiszta struktrt kapni, hiszen a 6.23. tblzat komponens mtrixban mg
tbb kzepes korrelci lthat. Nem teljesl az az elvrs, hogy egy-egy vltoz
csak egy komponenssel korrell.
Ha kt szmtssorozatot vgznk, s a 6.3.1-ben vzolt (K6) valamint (K4)
elemzseket egymstl elhatrolva vgezzk el, akkor az ellltott fkomponensek
merlegessge nem lesz elvrt. A K6=mret s a K4=vndorls faktorok kztti
korrelci -0,552 lesz, teht valban nem merlegesek egymsra. A 6.5. bra
mutatja a kln becslt score-ok terben a megfigyelt kerleteket s teleplseket.
Hrom fontos megjegyzst rdemes tgondolni:
-

A fvrosi kerletek rtkei pozitv korrelcit mutatnak: a nagyobb


mret kerletekben nagyobb vndorlst jeleznek az adatok. (Rngyzet=0,420)

Az agglomerciban viszont nem korrell a kt komponens egymssal. (Rngyzet=0,002)

Az 50 megfigyelsre teht gy addik negatv korrelci, hogy a kt


almintban pozitv korrelci, valamint korrellatlansg tapasztalhat.

FAKTORELEMZS

6.5. bra: 50 telepls 2 kln becslt faktor terben

181

182

TBBVLTOZS ADATELEMZS

Ha ilyen eredmnyeket tapasztalunk, akkor nem rdemes erltetni az sszes vltoz


egy modellben val srtst. St azt is meg kell fontolni, hogy a kt almintra
jellemz komponenseket kln lltsuk el.
Amikor arrl dntnk, hogy a teljes mintra vagy kln fvrosra s kln
agglomercira kszljn a modell, akkor jabb korltba tkzhetnk. Az almintk
hasznlata kisebb elemszmokat eredmnyez. Ha 23 s 27 a megfigyelsek szma,
akkor az n>5p hvelykujj szably miatt csak 4-5 vltoz egyidej hasznlata
clszer.
A szmtsok kt ton vgezhetk el:
1) Elre leszrjk az adatokat a SELECT menpontban, s csak az egyik felt
hasznljuk. Ilyenkor csak a vizsglt almintra kapjuk meg a faktor-score-okat.
2) A faktor-futtatson bell hasznljuk szelekcis vltoznak a kerlet nev
dummy vltozt, ami a kerletekre=1, klnben=0. gy a teljes adatllomnyra
elkszl a faktor-score-ok becslse. Vgl a kt futtats eredmnye numerikusan s
grafikusan vethet ssze.

6.4. Idsorok faktorelemzse


Az t tzsdeindex elemzst mr az 1. fejezetben megkezdtk, most folytatjuk. Nem
a valsgtl elrugaszkodott az a felttelezs, hogy ezek viselkedse az idben
egyttmozog, mg akkor is, ha nem tudjuk, hogy melyik okozza a msik vltozst.
Inkbb az a jogos feltevs, hogy a htterben egy meg nem figyelhet faktor
nevezhetjk vilg-kockzatnak, tzsdei bizonytalansgnak hzdik meg. Ennek a
ltens tnyeznek a feltrsa elvgezhet faktorelemzssel. A fejezetben ismertetett
lpsek a kznsges, s nem a dinamikus faktorelemzst 105 kvetik.

6.4.1. Differencik faktorelemzse


Az Indexek.sav adatllomnyban a tzsdeindexekbl kpzett differencik mr
stacionris viselkedsek, ezrt alkalmasak lehetnek fkomponens(ek) ellltsra.
Ugyanakkor a differencik relatv szrsa tl magas, a lineris korrelcik (6.24.
tblzat) pedig nem elg szorosak, ami megkrdjelezi a homogn adatllomny
mgtt meghzd kzs faktor feltevsnk teljeslst. rdemes szrevenni, hogy
New York differencia-adatai kevsb korrellnak a tbbi tzsdvel. Ebbl szmtani
lehet arra, hogy gyengbb lesz az informci-srts.

105

A dinamikus faktorelemzs eljrst Bnkvi Gyrgy Veliczky Jzsef Ziermann Margit


dolgoztk ki 40 vvel ezeltt, s mutattk be szmos rsukban. Szmtgpes vltozata nem
rsze a statisztikai programcsomagoknak.

FAKTORELEMZS

183
6.24. tblzat: Korrelcis egytthatk
Correlation Matrixa

Correlation

Sig. (1-tailed)

DBUX
DUKX
DDJI
DDAX
DNKY
DBUX
DUKX
DDJI
DDAX
DNKY

DBUX
1,000
,486
,280
,468
,282
,000
,000
,000
,000

DUKX
,486
1,000
,477
,796
,284
,000
,000
,000
,000

DDJI
,280
,477
1,000
,542
,102
,000
,000
,000
,000

DDAX
,468
,796
,542
1,000
,270
,000
,000
,000

DNKY
,282
,284
,102
,270
1,000
,000
,000
,000
,000

,000

A KMO mutat rtke az outputban:0,751, ami kzepes modellt jelez, de a DNKY


(New Yorki tzsde) kommunalitsa a 6.25. tblzat szerint nagyon alacsony, a
vltoz elhagysa megfontoland. A gyenge korrelci s az alacsony kommunalits
a nem lineris kapcsolatbl addhat. Ha jelentsge miatt nem az elhagys mellett
dntnk, akkor a msodik faktort rdemes ellltani, amiben klnvlik New York,
hiszen a 6.26. tblzat sajtrtkei kzl a msodik nagyon kzel van egyhez, s
kzel 19 szzalkkal emeli az sszesen megrztt informcit.
6.25. tblzat: A differencia-vltozkbl megrztt informci

DBUX
DUKX
DDJI
DDAX
DNKY

Communalities
Initial
Extraction
1,000
,470
1,000
,776
1,000
,454
1,000
,794
1,000
,198

Extraction Method: Principal Component


Analysis.

184

TBBVLTOZS ADATELEMZS
6.26. tblzat: 5 indexbl 1 vagy 2 komponens kpezhet
Total Variance Explained
Initial Eigenvalues

Component

Total

Extraction Sums of Squared Loadings

% of

Cumulative

Variance

2,691

53,830

53,830

,944

18,881

72,711

,651

13,029

85,740

,514

10,280

96,020

,199

3,980

100,000

Total
2,691

% of

Cumulative

Variance

53,830

53,830

Extraction Method: Principal Component Analysis.

6.4.2. Tzsdehnyadosok faktorelemzse


Az Indexek.sav adatllomnyban a tzsdeindexekbl kpzett hnyadosak is
szerepelnek, ezek is stacionrius viselkedsek, ezrt alkalmasak lehetnek
fkomponens(ek) ellltsra.
A hnyadosok (rtk) relatv szrsai nagyon kicsik, mind az t 0,1 alatti (6.27.
tblzat), a lineris korrelcik (6.28. tblzat) pedig kicsit vltoztak: nhol nttek,
nhol cskkentek. A KMO=0,754 hajsznyit javult, s ha kt komponenst krnk
(6.29. tblzat), akkor minden kommunalits megfelel (6.30. tblzat)
6.27. tblzat: A relatv szrsok ellenrzse
Descriptive Statistics
Mean

Std. Deviation

Analysis N

RBUX

1,0006

,01703

2753

RUKX

1,0000

,01330

2753

RDJI

1,0001

,01299

2753

RDAX

1,0002

,01669

2753

RNKY

1,0000

,01594

2753

FAKTORELEMZS

185

6.28. tblzat: A tzsdehnyadosok kztti korrelcik


Correlation Matrixa
Correlation

Sig. (1-tailed)

RBUX
1,000
,506
,299
,468
,301

RBUX
RUKX
RDJI
RDAX
RNKY
RBUX
RUKX
RDJI
RDAX
RNKY

RUKX
,506
1,000
,488
,790
,295
,000

,000
,000
,000
,000

RDJI
,299
,488
1,000
,573
,119
,000
,000

,000
,000
,000

,000
,000

RDAX
,468
,790
,573
1,000
,260
,000
,000
,000

RNKY
,301
,295
,119
,260
1,000
,000
,000
,000
,000

,000

a. Determinant = ,161

6.29. tblzat: A msodik komponens ellltsa megfontoland

1
2
3
4
5

Initial Eigenvalues
Original and Rotation Sums of Squared
% of
Cumulative
% of
% of
Cumulative
Total Variance
%
Total Variance Total Variance
%
2,732
54,639
54,639 2,732
54,639 2,358
47,156
47,156
,939
18,790
18,790 1,314
26,272
73,429 ,939
73,429
,634
12,680
86,109
,494
9,882
95,991
,200
4,009
100,000

6.30. tblzat: Kt komponens mellett a kommunalitsok megfelelek

RBUX
RUKX
RDJI
RDAX

Communalities
Initial
Extraction
1,000
,545
1,000

,782

1,000

,672

1,000

,821

1,000
,851
RNKY
Extraction Method: Principal
Component Analysis.

A kt komponens tartalmt a rotls utn a 6.31. tblzatban s a 6.6. brn


megvizsglva szrevehetjk a budapesti tzsde pp kzpen van, egyrszt

186

TBBVLTOZS ADATELEMZS

egyttmozog az angol-nmet-japn tzsdkkel az 1. komponens pozitv korrelcii


alapjn, msrszt ersebben egyttmozog az amerikai adatokkal, mint brmelyik
msik nagy tzsde.
6.31. tblzat: Rotlt tzsdehnyados komponensek

RBUX
RUKX
RDJI
RDAX
RNKY

Rotated Component Matrixa


Component
1
,506
,820
,817
,872
,034

2
,538
,331
-,073
,244
,922

Extraction Method: Principal Component Analysis.


Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.

6.6. bra: Tzsdeindex hnyadosok faktortrben


Utols megfontolsknt gondoljuk t a kzs faktor feltevst s a PAF
faktorbellts alkalmazst. A kt faktor ltal megrztt sszes informci 53%-ra
esik vissza, mg a PCA 73,4%-ot jelzett a 6.27. tblzatban.
Mivel a kezdeti kommunalitsok (6.32. tblzat) az alacsony eredeti korrelcik
miatt kicsik, sszessgben is gyenge eredmnyeket kapunk.

FAKTORELEMZS

187

6.32. tblzat: A faktormodell kommunalitsai

RBUX
RUKX
RDJI
RDAX
RNKY

Communalities
Initial
Extraction
,293
,412
,654
,737
,334
,378
,675
,877
,121
,252

Extraction Method: Principal Axis


Factoring.

A New Yorki tzsde rta elhagysa az elemzsbl statisztikailag hatrozottan


javasolhat, de emellett a nmet s a magyar kommunalits is alacsony. A
rtavltozk mgtt a vizsglt 11 vben nem hzdott meg 1-2 kzs faktor.

7. Diszkriminancia elemzs
7.1. A diszkriminanciaelemz eljrs alapgondolata
Megfigyelseink sok esetben nem homognek, s mr elzetesen csoportokba
sorolva llnak rendelkezsnkre a vltozk mentn mrt rtkek. A csoportosts
szempontjai lehetnek a jvedelmi viszonyok vagy a fizetkpessg ppgy, mint az
iskolai vgzettsg, fldrajzi, terleti elv vagy ms szakmai megfontolsok.
Statisztikai megfontolsokbl a mintn belli eltrsek cskkentse rdekben
statisztika eljrsok alkalmazsval (pl. klaszterelemzssel) is csoportosthatjuk az
egyedeket.
Most azt vizsgljuk, hogy melyik vltoz milyen szerepet jtszik az adott, ismert
csoportostsban. Clunk az, hogy a megfigyelt p szm vltoz olyan lineris
kombinciit lltsuk el, amelyek a lehet legjobban elklntik a g szm
osztlyba tagolt mintt. Ha ez(ek) a diszkriminl fggvny(ek) nem kpes(ek) az
elre megadott feloszts teljes reproduklsra, akkor az eljrs megadja a
fggvny(ek) alapjn javasolt csoportostst.

7.2. A diszkriminancia elemzs alkalmazsnak felttelei


A lineris dntsi fggvnyt kt elfeltevs mellett keressk:
1.

a vltozk tbbvltozs normlis eloszlst kvetnek, s

2.

minden csoportnak azonos a kovariancia mtrixa.


Mivel a szmtsi lpsek sorba tbbvltozs normalitsi teszt 106 nincs
beptve, e felttel teljeslsrl csak hozzvetlegesen gyzdhetnk meg. A
vltozkra kln-kln grafikus vagy numerikus normalitsvizsglatot vgezve
feltrhatjuk azokat a vltozkat, amelyek eloszlsa ersen eltr a normlistl.
Ha vltoz-transzformcival sem tudjuk biztostani a normlis eloszlst, akkor
biztosan el kell vetnnk az egyttes normlis eloszls feltevst. E mgtt az a
valsznsgszmtsi ttel hzdik meg, hogy a tbbvltozs normlis eloszls
peremeloszlsai biztosan normlis eloszlst kvetnek, de a ttel nem
megfordthat.

A csoport kovariancikat a Box-fle M s ennek F-eloszls transzformltja teszteli.


Ez a teszt rzkeny a normalitstl val eltrsre, ezrt egyenltlennek tlhetnk
kicsit eltr kovariancia mtrixokat akkor, ha a normalitsi feltevs nem helytll.
Mivel az M kiszmtsban a kovariancik eltrst a csoportok mretvel
106

Az SPSS-ben nem szerepel olyan statisztikai prba, amellyel a tbbvltozs normalits


tesztelhet.

190

TBBVLTOZS ADATELEMZS

slyozzuk, kis eltrsek is szignifiknsnak tnnek, ha nagy a csoport mrete 107. Kis
mret csoportokra a lineris diszkriminl fggvny alkalmazhat akkor is, ha a
kovariancia mtrixok kiss eltrek. Ha a kovariancia mtrixok nem egyenlk de a
minta elg nagy akkor kvadratikus diszkriminancia fggvny alkalmazsa
ajnlhat. Ilyen vlasztst az SPSS nem tesz lehetv.
Ha csak kt osztlyunk van, azaz dichotom vltozval rhat le a csoportosts,
akkor a logisztikus regresszi alkalmazsa clravezet. E mdszernl ugyanis
kevesebb elfeltevst kell figyelembe vennnk. Ezt a mdszert az 5. fejezet
ismerteti.
Vegyes mrsi sklj adatok elemzsre szmos nemparametrikus mdszer ll
rendelkezsre, ilyenkor nem clszer diszkriminancia elemzst vgezni. Problmt
okoz az, hogy diszkrt vltozkra normlis eloszlst tteleznk fel, vagy az, hogy
ordinlis skln mrt vltozkra kovariancia nem szmthat.
Az indul adatok:
Ismerjk p szm vltoz terben a legalbb intervallum szinten mrt adatokat, s
egy tovbbi oszlopban szerepel a csoportostst megad nominlis vltoz. A
csoportok elemszma eltr lehet.
A matematikai httr:
Az ismert csoportostsbl kiindulva a tbbvltozs szrselemzs alapgondolatt
kvetjk. Elfeltevseink:

A csoportbeli megfigyelsek fggetlenek s vletlen mintbl szrmaznak.

A fggetlen vltozk tbbdimenzis normlis eloszlst kvetnek minden


csoportban.

A variancia-kovariancia mtrixok azonosak minden csoportban.

A ftlagtl mrt teljes eltrsek ngyzetsszege kt rszre bonthat: a csoportok


kztti s a csoporton belli eltrsek ngyzetsszegre 108.

T = K + B , ahol T = X T X ,

(7.1)

ha centrozott adataink vannak, azaz X elemei mr a ftlagtl val eltrseket


tartalmazzk.
g

X mtrix (nxp) mret, ahol a g csoport elemszmai eltrek lehetnek:

n
i =1

107

= n.

Ha minden csoport elemszma kzel azonosan nagy, akkor ennek nincs torzt hatsa. A
sly szerepe akkor fontos, ha vegyesen vannak nagyon nagy s nagyon kismret
csoportjaink.
108
Ha tbbvltozs elemzst vgznk, akkor tlagvektorok s eltrs ngyzetsszeg mtrixok
rhatk fel, mretk (pxp).

DISZKRIMINANCIA ELEMZS

191

A B mtrixban az sszes megfigyelsre sszegezzk a csoporttlagoktl val


ngyzetes eltrseket. Alternatv szmtsa a csoport-kovariancia mtrixok 109 (S)
slyozott sszege:
g

B = (ni 1) S i

(7.2)

i =1

A megfigyelt vltozk lineris kombincijaknt lltjuk el a diszkriminl


fggvnyt, ahol a c egytthatk a fkomponens elemzshez hasonlan
normalizltak 110:

y = Xc s c T c = 1

(7.3)

Klnbz c egytthat vektorokhoz teht klnbz diszkriminl fggvnyek


tartoznak. Az y vektor rtkei nem megfigyeltek, de a centrozs miatt az tlaga
zrus, variancija 111 pedig (7.3) s 7.1) felhasznlsval a kls s a bels eltrs
ngyzetsszeg mtrixokbl llthat el:

y T y = ( Xc) T ( Xc) = c T X T Xc = c T Tc = c T ( K + B)c = c T Kc + c T Bc

(7.4)

Most nem egyszeren az y variancia maximalizlsa a clunk. Feladatunk olyan c


egytthat becslse, amely mellett a csoportok a lehet legjobban klnbznek
egymstl, s a bels eltrsek kicsik, azaz a kls eltrsek maximumt s a bels
eltrsek minimumt egyszerre keressk, a hnyadosukat maximalizljuk:

c T Kc
max
c T Bc

(7.5.a)

Mindkt oldal logaritmust vesszk, s c szerint derivljuk, a derivlt zrus helyt


keressk:

ln = ln(c T Kc) ln(c T Bc)


2 Kc
2 Bc
ln
T
=0
= T
T
c
c Kc c Bc

109

A tbbvltozs variancia-elemzsben a csoportok variancia-kovariancia mtrixnak


egyezst ttelezzk fel. Ezek sszege is invertlhat, ha egy csoport S mtrixa invertlhat.
Problma csak akkor lp fel, ha az elemzsbe bevont vltozk kztt nagyon szoros a
korrelci.
110
A gyakorlatban a csoport kovariancik slyozott tlagt is figyelembe vesszk:

cT S p c = 1

ptllagos felttelt alkalmazunk. Ha a vltozk minden csoportban

korrellatlanok s egysgnyi szrsak, akkor (7.3) szerint szmolunk, mert S=E.


111
Itt mg csak a szmllt rjuk fel, nem osztjuk (n-1)-vel.

192

TBBVLTOZS ADATELEMZS
T

Az egyenletet c Kc -vel vgig szorozzuk, s (7.5.a) alapjn -t behelyettestjk, c-t


kiemeljk, gy sajtrtk-sajtvektor egyenletrendszert kapunk:

Kc Bc = 0
(7.5.b)

( B 1 K E )c = 0

A megoldst megkapjuk, ha ltezik a B-1 , azaz a B rangja p. A K mtrix rangja =


min (g-1;p), ezrt a szorzatuk sem lehet ennl tbb. Ha (g-1) kisebb, mint p, akkor
(g-1) klnbz sajtrtket kapunk. Ha p a kisebb, akkor p szm eltr sajtrtk
s hozztartoz sajtvektor hatrozhat meg. Teht a diszkriminl fggvnyek
szmnak fels korltja a (g1) s a p kzl a kisebb rtk.
A j-edik diszkriminl fggvny a j sajtrtkhez 112 tartoz sajtvektorral rhat
fel: y j = Xc j . Ezeket a sztenderdizlatlan egytthatkat hasznlva a szrmaztatott,
(itt hasznlt elnevezssel) kanonikus trbe kpezzk le az eredetileg p dimenziban
megfigyelt pontokat.
A j-edik fggvny egytthatit ltalban sztenderdizljuk, azaz szrsval osztjuk.
gy a vltozk hatsnak erssge sszehasonlthatv vlik. (Hasonl okbl
szmtjuk ki a regresszis modellnl a b mellett a bta egytthatkat is.)
Az egyes diszkriminl fggvnyek erejt a j sajtrtkek fejezik ki. Ha a
sajtrtkek sszegvel osztjuk a j-t, akkor az adott fggvny sztvlaszt erejt
szzalkban fejezzk ki. Brmely msik c egytthat vektor kevsb klnti el a
csoportokat, mint a maximlis (els) sajtrtkhez tartoz c1.
A diszkriminl fggvnyek egyttes sztvlaszt erejt a sajtrtkekbl (7.6)
szerint szmtott Wilks lambdnak nevezett mutat mri, amely megegyezik a
bels s teljes eltrs ngyzetsszeg mtrixok determinnsainak arnyval. Mivel a
nagy j sajtrtkek jelzik az ers diszkriminl fggvnyt, a Wilks-lambda kicsi
rtke utal szignifikns fggvny(ek)re:

B
1
=
T
j =1 1 + j
k

(7.6)

Azt, hogy hny fggvny mentn van szignifikns klnbsg a csoportok kztt,
szksges-e mind a k kiszmthat fggvny az elklntshez, Bartlett nyomn khingyzet prbval teszteljk. Wilks lambdjt (7.7) szerint khi-ngyzet eloszlsv
transzformljuk. A nullhipotzis szerint a diszkriminl fggvny(ek) hatsa nem
szignifikns.

2 = ( n 1

112

g+p
) ln
2

Itt nem jelent kivlasztsi szablyt az, hogy a sajtrtkek egynl nagyobbak-e.

(7.7)

DISZKRIMINANCIA ELEMZS

193

a szabadsgfoka: (p-r)(g-r-1), ahol r a kihagyott fggvnyek szma.


Az y rtkek alapjn tvolsgot szmthatunk egy j, korbban nem osztlyozott
pont s a csoport tlagok kztt, hogy az j megfigyelst a hozz leghasonlbbakkal
egy osztlyba soroljuk.

7.3. A diszkriminancia elemzs szmtsi lpsei


A diszkriminancia elemzst elzetesen mr csoportokba sorolt adatokra vgezzk,
mgis a csoportost eljrsok blokkjban tallhat ez az eljrs.
ANALYSE/CLASSIFY/DISCRIMINANT lpseket kvetve a nyit oldalon a
kvetkezket talljuk:
Grouping Variable: kategria vltoz megadsa
Define Range: a legkisebb s legnagyobb vizsgland kategrit jelezzk.
Pl. 5 fok osztlyozs esetn min=3 s max=5 kijellsvel csak a kzepes vagy
annl jobb rdemjegy dikokat csoportostjuk.
Independents: azok a vltozk kerlnek ide, amelyek kombincija elllthatja a
dntsi fggvnyt.

Enter: ha minden vltozt bevonunk a dntsi fggvnybe

Stepwise, ha csak a szignifikns vltozkat kvnjuk szerepeltetni. (Ha a


vltozk korrellnak egymssal, ezt rdemes vlasztani.)

Statistics gombra kattintva a ler statisztikk kzl vlaszthatunk:

Means (a vltozk tlagai)

Anova (egy-egy vltoz F-tesztje)

Box M mutat (a csoportok kovariancia-mtrixainak egyezst


mri)

A fggvnyegytthatk:

Fisher flk (kzvetlenl az osztlyozst segtik), vagy

Standardizlatlanok (a dntsi fggvnyeknek az eredeti trben val


brzolshoz s a csoportok kzppontjainak meghatrozshoz
hasznlhatk)

A mtrixok kztt pedig

Csoporton belli korrelcik

Csoporton belli kovariancik

Csoportok kzti kovariancik

194

TBBVLTOZS ADATELEMZS

Teljes kovariancia

megvizsglsra van lehetsg.

Enter independents together vlasztsa esetn mdszert nem vlaszthatunk, a


Method gomb nem aktv. Ha a vltozkat lpsenknt vonjuk be a dntsi
fggvnybe, amint ezt a kvetkez alfejezet ismerteti, akkor a belpsi kritrium
kivlasztsval mdszert is vlasztunk.
A Select>> gomb segtsgvel egy jabb vltoz kijellsvel almintt
vlaszthatunk ki, s csak erre kszl a diszkriminancia elemzs.
Classify gombra kattintva

a priorok rtkrl dnthetnk. Alaprtelmezs szerint a csoportok mrete


egyenl, de vlaszthatjuk azt is, hogy a tnyleges mintanagysg alapjn
becsljk a csoportok valsznsgt.

Kovariancia mtrix: alaprtelmezs szerint a vltozk kovariancia mtrixait


a csoportokon bell szmoljuk (Within-groups). A msik lehetsg
(Separate-groups) nem a vltoz, hanem a diszkriminl fggvnyek
kovariancia mtrixait szmolja. Ha a fggvnyek szma kisebb, mint a
vltozk, akkor eltr a kt eredmny.

Display: itt adjuk meg azt, hogy mit krnk outputknt. Az sszegz
eredmnyek mellett ha nem tl nagy a minta , rdemes esetenknt
vizsglni a besorolst. Egy-egy elem kihagysval (n-1) megfigyelsre
elvgezve az osztlyozst szrevehetjk az eredmnyre jelents befolyst
gyakorol megfigyelseket.
o Casewise result
o Summary Table
o Leave-one-out-classification
Plots:
o Combined groups: egy brn mutatja az sszes csoport
kzppontjait s elemeit. (neve: All-groups scatterplot) 1
fggvny esetn hisztogramot rajzol.
o Separate groups: ahny csoport, annyi kln bra kszl. 1
fggvny esetn vltoznknt hisztogramot rajzol.
o Territorial map: a szrmaztatott trbeli trkpen szerepelnek a
csoporttlagok, a csoportokat jelz szmokbl kpzett vonalak
pedig elhatroljk a trrszeket egymstl. Csak kt vagy tbb
fggvny esetn kszthet.

DISZKRIMINANCIA ELEMZS

195

A Save utasts zrja a sort.


o Predicted group membership vlasztssal az j besorolst mentjk
el.
o Discriminant scores: Ez adja meg a becslt rtket a dntsi
fggvnyek terben (ha alacsonyabb dimenziba jutottunk, akkor
ez nagyon hasznos, pldul brzolhatv vlnak a
megfigyelsek).
o Probability of group membership: a posteriorokat mutatja.

7.4. Az eredmnyek rszletezse, rtelmezse


A grafikus szemlltetst is lehetv tev kis pldval kezdjk ezt az alfejezetet.
A hrom csoportba sorolt, csoportonknt 3-3 megfigyelsnket kvnjuk kt
dimenziban sztvlasztani, ezrt kt diszkriminl fggvnyt keresnk.
Indul adataink brjn (7.1. bra) lthat, hogy a msodik vltoz mentn jval
nagyobb az adatok ingadozsa (a terjedelem 10 egysg), mg az elsn az tlagok
egymshoz kzelibbek (itt 4 egysg a terjedelem).
7
2
6
1
5
2
4
1
3
2

X2

2
1
1
3
0
-1
3
-2
-3
3
-4
-5
-5

-4

-3

-2

-1

X1

7.1. bra: Hrom csoport, kilenc pont


A pontok koordinti:
Csoport

X1

-2

-1

-1

X2

-2

-4

196

TBBVLTOZS ADATELEMZS

Az SPSS eredmnylistjnak rendjt kvetve haladunk. A 7.1. bra pontjaira


egyttesen (Total) ksztett alapstatisztikkat, valamint a csoportonknt s
vltoznknt szmtott tlagokat s szrsokat mutatja a 7.1. tblzat.
7.1. tblzat: Vltoznknti tlagok s szrsok
Group Statistics

CSOPORT
1

X1
X2
X1
X2
X1
X2
X1
X2

2
3
Total

Mean
-1,00
3,00
1,00
4,00
,00
-2,00
,00
1,67

Std.
Deviation
1,00
2,00
1,00
2,00
1,00
2,00
1,22
3,28

Valid N
(listwise)
Unweight
ed
3
3
3
3
3
3
9
9

A csoporttlagok vltoznknti egyezsnek tesztjt bemutat 7.2. tblzatban


Wilks-lambda elnevezs szerepel. Ez nem azonos sem a (7.5)-ben, sem a (7.6)-ban
szerepl lambda mrtkkel.
7.2. tblzat: Wilks 1. lambda mutatja
Tests of Equality of Group Means

X1
X2

Wilks'
Lambda
,500
,279

F
3,000
7,750

df1

df2
2
2

6
6

Sig.
,125
,022

Itt az egyes vltozkra kln-kln szmoljuk ki klasszikus, egyvltozs statisztikai


rtelemben azt, hogy a csoporton belli eltrsek ngyzetsszege (SSB) hogyan
arnylik a teljes eltrs ngyzetsszeghez (SST), az arny SSB/SST=lambda. Az
eltrsek nagysgt az egyvltozs F-teszttel vizsgljuk:

F ( xi ) =

1 lambda n g SSK /( g 1 ) ,

=
lambda
g 1 SSB /( n g )

ahol a szmll szabadsgfoka (g-1), a nevez pedig (n-g).

DISZKRIMINANCIA ELEMZS

197

Pldnkban csak a msodik vltoz szerint klnbznek szignifiknsan a


csoportok 113, az els mentn a csoporttlagok nem klnlnek el statisztikai
rtelemben (F(x1)= 3 s p1 =0,125 >0,05).
A 7.3. tblzatban szerepl egyestett (pooled) kovariancia mtrixot (7.2) szerint
szorozva a B bels eltrsek ngyzetsszeg-mtrixt kapjuk, s ez a 7.4. tblzat
csoportonknt adott kovariancia mtrixaibl kiszmthat. Az egyestett korrelci a
csoportonknt szmtott korrelcik elemszmmal slyozott tlaga. ltalban nem
egyezik 114 meg a teljes korrelcis mtrix elemeivel, amelyet gy szmtunk, hogy
az n elemet egyetlen homogn mintnak tekintjk.
7.3. tblzat: A bels kovariancia mtrix elemei
a
Pooled Within-Groups M atrices

Covariance
Correlati on

X1
X2
X1
X2

X1
1,000
-,333
1,000
-,167

X2
-,333
4,000
-,167
1,000

a. The covariance matrix has 6 degrees of freedom

A 7.4. tblzatban lthat, hogy az 1. s 2. csoport kovariancia mtrixbeli elemei,


azaz a kovariancia-struktrjuk teljesen megegyez, mg a 3. csoport eltr.
7.4. tblzat: A csoportok kovariancia mtrixai s a teljes kovariancia mtrix
C o va ria n ce M a tr iace s
CS O PO R T
1
X1
X2
2
X1
X2
3
X1
X2
T ot al
X1
X2

X1
1 ,0 00
-1 ,0 00
1 ,0 00
-1 ,0 00
1 ,0 00
1 ,0 00
1 ,5 00
,1 2 5

X2
-1 ,0 00
4 ,0 00
-1 ,0 00
4 ,0 00
1 ,0 00
4 ,0 00
,1 2 5
1 0, 75 0

a . T he t ot al c ov a ri an c e m at rix h a s 8 d eg re

113

Erre utalt x2 jval nagyobb terjedelme is.


Kpzeljnk el kt vltoz mentn 3 csoportot gy, hogy a csoportok elemei kis krket
formznak, a csoporton bell szinte nincs korrelci. A 3 csoport rtkei viszont mindkt
vltoz szerint nvekednek, ezrt a 3 csoport a 45 fokos egyenes mentn helyezkedik el.
Ekkor a teljes mintra szmtott korrelci egyhez kzeli lesz.
114

198

TBBVLTOZS ADATELEMZS

A 7.5. tblzatban a szrselemzs gondolatmenett kvetve a csoport kovariancik


azonossgt teszteljk, amihez elszr a csoport kovariancia mtrixok
determinnsnak logaritmust vesszk. Pldnkban az els csoportban

1 1
= 3 , ebbl ln3=1,0986, az egyestett (poolozott) kovariancira
1 4

S1 =
pedig:

Sp =

1/ 3

1/ 3

8
= 3 , ennek termszetes alap logaritmusa 1,358.
9

7.5. tblzat: Csoport kovariancik determinnsainak logaritmusa


Log Determinants

CSOPORT
1
2
3
Pooled within-groups

Rank
2
2
2
2

Log
Determin
ant
1,099
1,099
1,099
1,358

The ranks and natural logarithms of determinants


printed are those of the group covariance matrices.

A 7.6. tblzatban Box M-mutatjt szmtjuk. M kis rtke jelenti a kovariancia


mtrixok j egyezst, ezt F-teszttel ellenrizzk.
g

M = [ S k

( nk 1) / 2

]/ S

( n g ) / 2

,ahol

k =1

S = (nk 1) S k /(n g )
k =1

n = nk
k =1

F = 2b ln M , ahol b az adott feladatra jellemz szorzszm 115.

115

A b rtke megtallhat pl Jobson: Applied Multivariate Data Analysis c. knyvnek 221.


oldaln. A vltozk s a csoportok szma, az egyes csoportokban tallhat elemek
slyozottan, klnbz hatvnyokon figyelembe vve biztostjk azt, hogy M transzformlt
rtke F-eloszlst kvessen. Ezek a kpletek adjk a szabadsgfokokat is.

DISZKRIMINANCIA ELEMZS

199

7.6. tblzat: Box-M s F-teszt a csoport kovariancik egyezsre


Test Results
Box's M
F

Approx.
df1
df2
Sig.

1,557
,133
6
897,231
,992

Tests null hypothesis of equal population covariance matrices.

Mivel az F=0,133 s a szignifikancia szint 0,992, a minta nem mond ellent a


nullhipotzisnek, a csoport kovariancik nem trnek el jelentsen.
A 7.1.-7.6. tblzatokbl a diszkriminancia elemzs korrekt vgrehajtshoz
szksges elkszt lpseket s teszteket ismertk meg. Ezek alapjn
mintafeladatunk alkalmas a diszkriminl fggvny(ek) ellltsra.
Elszr a (7.5.b)-ben szerepl (B-1 K) mtrix j sajtrtkeit s azok relatv
fontossgt kapjuk meg a 7.7. tblzatban. Az els fggvnyhez tartozik a
legnagyobb csoportok kztti vltozkonysg, ezrt sztvlaszt ereje mindig
magasabb, mint a tovbbi fggvnyek. Mivel (g-1)=2 s p=2, kt sajtrtk van, 2
diszkriminl fggvny llthat el, s az els fggvny 76%-t magyarzza a
kls eltrseknek ( 2,867/(2,867+0,904)=0,76 ).
7.7. tblzat: A diszkriminl fggvny jellemzi
Summary of Canonical Discriminant Functions
Eigenvalues
Function
1
2

Eigenvalue
2,867a
,904a

% of
Variance
76,0
24,0

Cumulativ
e%
76,0
100,0

Canonical
Correlation
,861
,689

a. First 2 canonical discriminant functions were used in the


analysis.

A 7.7. tblzat utols oszlopban a kanonikus korrelci azt mri, hogy milyen
szoros az asszocici a kapott diszkriminancia rtkek (mint fgg vltozk) s a
csoportok kztt. Kiszmtsa s rtelmezse megegyezik az ANOVA-bl ismert
eta-ngyzet mutat gykvel, ahol eta-ngyzet a csoportok kztti s a teljes eltrs
ngyzetsszegek hnyadosa. Itt azt mri, hogy a diszkriminl score-ok
vltozkonysgt milyen arnyban magyarzza a csoportbesorols. Kzvetlen

200

TBBVLTOZS ADATELEMZS

sszefggs ll fenn eta-ngyzet s a dntsi fggvny j sajtrtke kztt:

2j =

j
,
1+ j

pldnkban (0,861)2 =0,74=2,867/3,867 s (0,689)2 =0,47=0,904/1,904.


A 7.8. tblzatban msodszor tallkozunk az outputban Wilks lambdval. Ezzel itt a
fggvnyek (s nem az eredeti vltozk) hatst mrjk (7.6) szerint. Lambda ()
rtke alacsony, ha a 7.7. tblzatban van nagy sajtrtk, ami azonos azzal, hogy a
bels eltrsek kicsik a teljes eltrsekhez kpest. Ha az elhagyott fggvnyek
szma, r=0, akkor a min(p, g-1) korlt ltal meghatrozott sszes fggvnyt
felhasznljuk a csoportok sztvlasztshoz.
Az els kt fggvny ltal meg nem magyarzott heterogenits 0,136, mert
1
1
2 fggvny =

= 0,136
1 + 2,867 1 + 0,904
1
1. fggvnynlkl =
= 0,525
1 + 0,904
7.8. tblzat: Szignifikns fggvnyek kivlasztsa
Wilks' Lambda
Test of Function(s)
1 through 2
2

Wilks'
Lambda
,136
,525

Chi-squar
e
10,982
3,543

df
4
1

Sig.
,027
,060

Pldnkban a (7.7) szerint felrt els khi-ngyzet rtke magas (valsznsge


kisebb, mint 0,05), arra utal, hogy szksges k-r=2 fggvnyt hasznlni a csoportok
elklntshez. Az els diszkriminl fggvny elhagysa utn a tbbi (esetnkben
a msodik) fggvny nem szignifikns rszt magyarzza a csoportok kzti
eltrsnek.

2 = (9 1

2+3
) ln 0,136 = 10,98 szabadsgfoka: (2-0)(3-0-1)=4
2

2 = (9 1

2+3
) ln 0,525 = 3,543 szabadsgfoka: (2-1)(3-1-1)=1
2

A dntsi fggvny rtelmezse szempontjbl az egyik legfontosabb eredmnyt a


7.9. tblzatban talljuk. Mivel a sajtvektorok nagysga fgg az eredeti vltozk
szrstl, a teljes mintban mrt szrssal sztenderdizlt vltozkbl (is) szmtunk
diszkriminl egytthatkat. Ezeket a regresszis bthoz hasonlan rtelmezzk,

DISZKRIMINANCIA ELEMZS

201

ezrt mondhatjuk, hogy az els fggvnyben a msodik vltoz hatsa ersebb, mint
az els vltoz, mg a msodik fggvnyben fordtott a helyzet.
7.9. tblzat: Sztenderdizlt diszkriminancia egytthatk
Standardized Canonical Discriminant Function Coefficients
Function
1
X1
X2

2
,386
,989

,938
-,224

x
x
y1 = 0,386 1 + 0,989 2
s2
s1

x
x
y 2 = 0,938 1 0,224 2
s
s2
1
Pldnkban s1 = 1,5 =1,2247 s s 2 = 10,75 = 3,2404 .
A vltozknak a diszkriminl fggvnyhez val hozzjrulst a sztenderdizlt
egytthatk mellett korrelcival is kifejezhetjk. A 7.10. tblzat elemei a
fkomponens elemzsnl megismert struktra mtrixhoz hasonlan a vltozk s a
dntsi fggvnyek kztti korrelcis egytthatk.
7.10. tblzat: Vltozk s fggvnyek korrelcii
Structure M atrix
Function
1
X2
X1

,925*
,221

2
-,380
,975*

Pooled within-groups correlations between discriminating


variables and standardized canonical dis crim inant function
Variables ordered by absolute size of correlation within fun
*. Largest absolute correlation between each variable a
any discrim inant function

A struktra mtrixbl leolvashatjuk, hogy az els fggvny mentn nvekv rtkek


tartoznak azokhoz a megfigyelsekhez, amelyeknek mindkt koordintja
nvekszik, s x2vel a kapcsolat nagyon szoros. A msodik tengely mentn elrt
rtket viszont cskkenti az, ha x2 magas, de x1 hatsa ers, pozitv.
A 7.11/a. tblzatban szerepl sztenderdizlatlan egytthatkbl rjuk fel a dntsi
fggvnyt, s a konstans segtsgvel brzolhatjuk is a diszkriminl fggvnyeket
az eredeti trben.

202

TBBVLTOZS ADATELEMZS
0,386x1 +0,495x2 0,824 = 0
0,938x1 0,112x2 +0,187 = 0

Az brzols termszetesen csak azrt lehetsges, mert az eredeti feladat


ktdimenzis.
7.11/a. tblzat: Nem sztenderdizlt diszkriminancia egytthatk
Can on ical D iscr imin ant F un ctio n Coeffic
F uncti on
1
X1
X2
(Constant)

,386
,495
-,824

,938
-,112
,187

Unstandardized coefficients

A 7.11.a tblzat eredmnyei klnbznek, ha az indulskor sztenderdizljuk a


vltozkat (7.11/b. tblzat), de 7.11/a s 7.11/b elemei a teljes szrsok
segtsgvel egymsbl szrmaztathatk. Az els oszlopban pldul: 0,472=
(0,386)(1,5)1/2 s 1,622=(0,495)(10,75) 1/2, ahol 1,5 s 10,75 a vltozk variancii.

7.11/b. tblzat: Sztenderdizlt vltozkbl szmolt nem sztenderdizlt egytthatk


Can onical Discriminant Function Co efficient
Function
1
Zscore(X1)
Zscore(X2)
(Constant)

,472
1,622
,000

2
1,149
-,367
,000

Unstandardized coefficients

Ha a kanonikus trben brzolni kvnjuk megfigyelseinket, akkor a


sztenderdizlatlan sajtvektorokra van szksgnk. A sajtvektorok fontos
tulajdonsga, hogy eljelk nknyes. Erre a tnyre az rtelmezskor kell klnsen
figyelni.
A sztenderdizlatlan egytthatkkal szmtjuk ki a csoportok centroidjainak (vagy
brmely ms egyednek) a koordintit a szrmaztatott, kanonikus trben (7.12.
tblzat).

DISZKRIMINANCIA ELEMZS

203

Pldnkban az els csoport tlagpontja (-1,+3), ezt mindkt diszkriminl


fggvnybe behelyettestve kapjuk a centrum j koordintit:
0,386(-1) +0,495(3) 0,824 = 0,274
0,938(-1) 0,112(3) +0,187 = -1,087
7.12. tblzat: Csoportkzppontok a kanonikus trben
Functions at Group Centroids
Function
CSOPORT
1
2
3

1
,274
1,540
-1,813

2
-1,087
,677
,410

Unstandardized canonical discriminant


functions evaluated at group means

A csoporttlagok tlaga zrus a diszkriminl trben. A tengelyek mentn mrt


szrs pedig a megfelel sajtrtkek gyke, ezrt az els tengely mentn jobban
szrdnak a pontok, mint a fggleges tengely mentn.
Fontos hangslyozni, hogy ltalban dimenzicskkentst is vgrehajtunk a
diszkriminancia elemzssel ha p>(g-1), mivel az eredeti p dimenzis adathalmazt k
(ahol k min(p, g-1)) dimenzis trbe kpezzk le. A sajtvektorokkal ellltott
diszkriminl tengelyek ortogonlisak.
Egy j megfigyels csoportba sorolshoz kiszmtjuk a diszkriminl score-okat
(yij) a 7.11/a. tblzat egytthatibl, s a 7.12. tblzatbeli csoporttlag score-ktl
(y0j) mrt ngyzetes euklideszi tvolsgok legkisebbike hatrozza meg a besorolst:

min ( y 0 j y ij ) 2 , ahol i=1,,g.


i
j =1

Az output rszeknt megkapjuk a kanonikus trbeli brt (territorial map), ahol az


tlagok krl a csoportok elemei is lthatk. (7.2. bra)
Mivel ktdimenzis volt az eredeti feladat, a 7.1. s a 7.2. bra sszevetsbl
lthat, hogy a csoportok ms-ms sk negyedben vannak, mint az eredeti brn, ami
a lineris kombinciban szerepl egytthatk nagysgnak s eljelnek a
kvetkezmnye.

204

TBBVLTOZS ADATELEMZS
C ano nical D iscri m i nant F unct ions
2

2
3

C SO P OR T

-1

Function 2

G rou p Ce nt
3

-2

2
-3

1
-4

-3

-2

-1

F u n ctio n 1

7.2. bra: Pontok a kanonikus trben


Az osztlyozs jsgnak megtlsben tbb rszeredmny segt.
Elszr a megfigyelsek eredeti, a csoportostssal megadott, a priori eloszlst
kzli a 7.13. tblzat. Mivel a hrom csoport azonos mret volt, minden csoport
priorja P(Gi)= ni /n= 3/9. A futtats sorn a prior a minta empirikus eloszlst kveti,
vagy a csoportok egyenl valsznsgt P(Gi)= (1/g) ttelezzk fel.
7.13. tblzat: Klasszifikcis statisztika
Prior Probabilities for Groups

CSOPORT
1
2
3
Total

Prior
,333
,333
,333
1,000

Cases Used in
Analysis
Unweight
ed
Weighted
3
3,000
3
3,000
3
3,000
9
9,000

A korbban megismert sztenderdizlt s sztenderdizlatlan kanonikus egytthatk


mellett a Fisher, R.A. ltal javasolt lineris diszkriminl fggvnyek szerepelnek a
7.14. tblzatban. Ezek a csoportonknt meghatrozott egytthatk alkalmasak arra,
hogy kzvetlenl az eredeti trben elvgezzk az osztlyozst. Abba a csoportra
soroljuk a vizsglt egyedet, amelyikre a legnagyobb diszkriminl rtk addik. Ez

DISZKRIMINANCIA ELEMZS

205

a dntsi szably nem csak a szmtsokban figyelembe vett pontokra mkdik,


hanem j, eddig nem ismert megfigyels utlagos osztlyozsra is alkalmas. A
gyakorlatban pl. banki gyfelek hitelminstsre hasznlhat a lineris
diszkriminl fggvny. Elnye, hogy minden eredeti vltozt figyelembe vesz,
nem reduklja a dimenzit, s nem eredmnyez nehezen rtelmezhet reduklt
trbeli tengelyeket.
A Fisher-fle a egytthatvektorok szmtshoz a csoport tlagvektorok kztti
eltrseket s a csoportokon belli kovariancia mtrixokat hasznljuk. Ezt a
fggvnyt akkor alkalmazhatjuk, ha teljesl a normalitsi feltevs. Kt csoport
esetn: a = S p 1 x1 x 2

7.14. tblzat: Fisher dntsi fggvnye


Classification Function Coefficients

X1
X2
(Constant)

1
-,771
,686
-2,513

CSOPORT
2
1,371
1,114
-4,013

3
-,171
-,514
-1,613

Fisher's linear discriminant functions

Ha a harmadik csoportba sorolt (0,0) pontot vesszk, akkor ppen a konstansok


adjk a Fisher-fggvny rtkt, s valban a harmadik csoportban kapjuk a
legnagyobb rtket, a (-1,613)-t.
Ha egy j pontot vizsglunk, amelynek koordinti (2,3), akkor az 1. csoportra
1,997, a msodikra 2,071, s a harmadikra 3,497 addik. A fggvny alapjn a
(2,3) pontot a 2. csoportba soroljuk.
A kanonikus fggvny s a lineris diszkriminl fggvny alapjn ksztett
osztlyozs eredmnye megegyezik, ha az sszes kanonikus fggvnyt ellltjuk s
felhasznljuk.
A 7.15. tblzat minden megfigyelsre kzli az elzetes s a javasolt besorolst,
feltteles valsznsget s posteriort ad. Az eljrs a Bayes-ttelen alapul, ahol
annak valsznsge, hogy a D diszkriminancia score-ral rendelkez egyed az i-edik
csoportba tartozik:
P (Gi D ) =

P ( D Gi ) P (Gi )
g

P( D G ) P(G )
i =1

Minden egyed abba a csoportba soroldik t, ahol a legnagyobb a posterior


valsznsg.
Van a tblzatban egy ngyzetes Mahalanobis tvolsg oszlop is, amely a
csoportkzpponttl mrt ngyzetes eltrs a bels kovariancik kiszrse utn,

206

TBBVLTOZS ADATELEMZS

valamint olvashatk a kanonikus diszkriminl fggvny(ek) mentn mrt score


rtkek. Ez utbbiak a szrmaztatott trbeli koordintk, amiket a 7.2. brn lttunk.
A 7.15. tblzat als fele azt az osztlyozst mutatja, ahol az adott egyed
kihagysval (n-1) elemre kszlt a diszkriminancia fggvny. gy kt pont
besorolsnak megvltoztatsra tesz javaslatot az eljrs. Az 1. csoport 2.
pontjnak eredeti koordinti (0;3), s ez tnyleg kzelebb van a 2. csoport (1;2)
pontjhoz (d2=2), mint az 1. csoportbeli msik kt ponthoz. Hasonlan ellenrizhet
a (0;6) pont 1. csoportba val tsorolsra tett javaslat.

DISZKRIMINANCIA ELEMZS
15. tblzat: Megfigyelsenknti eredmnyek

207

208

TBBVLTOZS ADATELEMZS

Az osztlyozs jsgt sszefoglalan a 7.16. tblzat minsti. Az eredeti s a


javasolt besorols szerint egyez elemek szma s arnya szerepel csoportonknt a
tblzatban, majd ezek tlagaknt az egsz osztlyozst minst egyetlen szzalk
szerepel a tblzat alatt. A tblzat als fele az egy-egy elem kihagysval kszlt
(cross-validated) osztlyozs jsgt mutatja.
7.16. tblzat: Az osztlyozs eredmnye
Classification Resultsb,c

Original

Count

Cross-validateda

Count

CSOPORT
1
2
3
1
2
3
1
2
3
1
2
3

Predicted Group Membership


1
2
3
3
0
0
0
3
0
0
0
3
100,0
,0
,0
,0
100,0
,0
,0
,0
100,0
2
1
0
1
2
0
0
0
3
33,3
,0
66,7
,0
33,3
66,7
,0
,0
100,0

Total
3
3
3
100,0
100,0
100,0
3
3
3
100,0
100,0
100,0

a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 100,0% of original grouped cases correctly classified.
c. 77,8% of cross-validated grouped cases correctly classified.

Eddig csak azzal foglalkoztunk, hogy az sszes megfigyelt vltoz egyidej


bevonsval ksztsnk dntsi fggvnyt. Az elemzsek sorn gyakran elfordul
az, hogy tbb vltozt tartunk rdemesnek arra, hogy a diszkriminl fggvnyben
szerepeljen, mint ahnynak szignifikns szerepe van a csoportok elvlasztsban. A
tbbvltozs regresszi-szmtshoz hasonlan itt is a lpsenknti vltoz bevons
elvt kvethetjk, ha a Stepwise mdszert vlasztjuk.

7.5. A vltozk lpsenknti bevonsval vgzett diszkriminancia


elemzs
Az SPSS 5 kritriumot knl fel, ha a vltozkat lpsenknt (stepwise) kvnjuk
bevonni a diszkriminl fggvny ellltsba. Ezek a kritriumok nem
rangsorolhatk, nincsen kzttk egy, amelyik minden adathalmaz esetn megadja a
legjobb sztvlaszt fggvnyt. Mind az t eljrs abbl indul ki, hogy elszr azt a
vltozt kell bevonni, amelyik mentn a csoporttlagok a leginkbb klnbznek.

DISZKRIMINANCIA ELEMZS

209

Ezt kveten lpsenknt egy tovbbi vltoz bevonsra vagy elhagysra kerl
sor, amelyek kivlasztsa az albbi elvek szerint trtnik.
1.

Wilks lambda elve: A (7.6) szerint a vltozkra kiszmtott lambda s


transzformltja, (1-lambda)/lambda alkalmas arra is, hogy egy tovbbi
vltoz bevonsa utni vltozs jelentsgt mrje. Mivel a kis lambda s a
nagy F rtk arra utal, hogy a vltoz mentn jelentsen klnbznek az
tlagok, most a p vltozs modell utn a (p+1) vltozs dntsi fggvny
diszkriminl erejt mrjk:

Fchange =

n g p 1 p +1 / p

g 1
p +1 / p

Ha F nagy (a szignifikancia szintje <0,05), akkor a bvtst rdemes vgrehajtani,


mert a bels, nem magyarzott eltrsek jelentsen cskkennek az j vltoz
bevonsval. A modellben szerepl vltozt kihagyjuk, ha az adott lpsben az F a
kihagysi kszb al esik. A szelekci szablyozhat, mert alaprtelmezs szerint az
F belpsi s kihagysi kszbrtke rgztett 116. Ettl eltrhetnk, s vlaszthatjuk
bevonsi szignifikancia szintnek a 0,05-t, kihagysi kszbnek pedig a 0,10-t.
A Mahalanobis-fle ltalnostott tvolsg kzponti szerepet jtszik a tovbbi ngy
kritriumban.
2.

A Mahalanobis tvolsgot maximalizl vltozt vonjuk be minden


lpsben a dntsi fggvnybe. Azt a vltozt keressk, amely mentn a
kt legkzelebbi csoport (A s B) kzppontjnak tvolsga a legnagyobb:
p

2
AB

= (n g ) wij ( xiA xiB )( x jA x jB ) , ahol a kpletben szerepl


i =1 j =1

w a csoportokon belli kovariancia mtrix inverznek megfelel eleme, p a


modellbeli vltozk szma.
A Mahalanobis tvolsg, mint vltoz szelekcis kritrium alkalmazsa a
kvetkez lpseket jelenti:
a)

Mind a g(g-1)/2 csoport-prra p-dimenziban Mahalanobis tvolsgot


szmolunk.

b) Kivlasztjuk a kt legkzelebbi csoportot 117, azaz a minimlis D2


rtket.

116
Az F-eloszls kritikus rtkt a szmll (g-1) s a nevez (n-g) szabadsgi foka is
meghatrozza, ezrt a tblzatban tbb helyen tallhat 5%- mellett 3,8 krli rtk, pl. (g1)=4 s (n-g)=8, vagy g-1=2 s n-g=13. Nagyobb megfigyelsszm mellett cskken a kritikus
F-rtk.
117
Kt csoport esetben ez a lps kimarad.

210

TBBVLTOZS ADATELEMZS
c)

3.

A D2ben szerepl sszeadand ngyzetsszegek (i=j) kzl


kivlasztjuk a maximlisat. Ez lesz a kvetkez lpsben bevonand
vltoz indexe.

Ha a legkisebb F arny elv alapjn vlasztjuk ki a dntsi fggvny


kvetkez vltozjt, akkor a Mahalanobis tvolsgot a csoportok
elemszmval slyozzuk:

F=

(n 1 p)n A n B
2
D AB
p (n 2)(n A + n B )

Az a vltoz kerl bevonsra, amelyik a legnagyobb - csoportok kzti - F


rtket adja. Mivel itt az A s B csoport mrett 118 is figyelembe vesszk, a 2.
s a 3. kritrium alapjn eltr vltozt vonhatunk be egy adott lpsben a
diszkriminl fggvnybe.
4.

A Rao-fle V mutat 119 is a Mahalanobis tvolsgbl indul ki, de itt egyegy csoport tlagt viszonytjuk a ftlaghoz minden egyes modellbeli
vltoz mentn. Minl inkbb eltrnek csoporttlagok s a ftlag, annl
nagyobb Rao V-je.
p

i =1

j =1

k =1

V = ( n g ) wij ( x ik x i )( x jk x j )

A maximlis V-t kivlasztva azonostjuk a legersebben megklnbztet vltozt.


Mivel Rao V-mutatja kzeltleg p(g-1) szabadsgfok khi-ngyzet eloszlst
kvet, egy vltoz bevonsa utn a V vltozsa is khi-ngyzet eloszls. gy
tesztelhetjk, hogy a modell bvtse szignifikns vltozst okozott-e. Egy vltoz
bevonsa rvn cskkenhet is Rao V-je. Ezt megakadlyozand megadhatunk egy
minimlis V-t (VIN), aminek az alaprtke 0.
5.

118

A meg nem magyarzott variancia sszege (Sum of unexplained


variance, minimlis variancia), mint szelekcis elv kzvetlen kapcsolatban
ll a Mahalanobis tvolsggal.

Az (nAnB)/(nA + nB) maximumt akkor veszi fel, ha nA = nB . A slyozs miatt ms (AB)


csoportra kapjuk a legkisebb F rtket, mintha a mrettl fggetlenl vlasztjuk ki a
legkzelebbinek tlt kt csoportot. Az els vltoz kivlasztsakor p=1, ezrt (n-1-1)/(n-2) ki
is esik a kpletbl.
119
Ms nven is emlti a szakirodalom: Lawley-Hotelling trace, azaz L-H nyoma.

DISZKRIMINANCIA ELEMZS

211

Kt csoport sztvlasztsa gy is felfoghat, hogy 0 s 1 rtkkel kdolt dummy


vltozra, mint fgg vltozra illesztett tbbvltozs regresszi. A meg nem
magyarzott variancit minimalizl vltozt keressk, amit a tbbvltozs
regressszis modellben (1-R2 ) mr.
Belthat, hogy a Mahalanobis tvolsg s a determincis egytthat arnyos
egymssal, R2 = cD2 , ahol c konstans.

7.6. Plda a szelekcis kritriumok alkalmazsra


Vlasszuk ki a Knyszerrtkests.sav adatllomnyt, amely 5 negyedvre
(2011. IV. s 2012. I.-IV. negyedv kztt) Budapest s a megyk bontsban
rszletezi az adatokat. Keressk meg azokat a diszkriminl fggvnyeket,
amelyek a negyedvek mentn a lehet legjobban elklntik a megyket. (Itt
most minden csoportban, azaz negyedvente azonos szm megfigyelsnk
van, de az azonos csoportmret nem elvrs a diszkriminancia elemzs
alkalmazsa sorn. )
A futtats belltsa:

Csoportost vltoz: negyedev (1;5)

Fggetlen vltozk: x1: Kvta alapja (db), x2: Kvta alapjn kijellhet
maximum (db), x3: Knyszerrtkestsre kijellt (db), x4:
Kvtakihasznltsg (%)

Stepwise mdszer, az 5 elv egyms utni alkalmazsa

Az eredmnyek rszletezse eltt tekintsk t a ler statisztikk kzl az Explore


ban ellltott Boxplot brkat kt vltozra.
A 7.3. brn lthat, hogy a kezdeti idszaknl jval magasabb volt 2012. els
felben a kihasznltsg, mg az v msodik felben alacsonyabb szzalkok
jellemzek. Az eltrsek miatt ez a vltoz megklnbztet ert mutat.
A 7.4. brn a maximlis laksszmok dobozdiagramjai lthatak. A negyedvek
eltrse csekly, ezrt ez a vltoz vrhatan nem kerl bevonsra, nem fog
szerepelni a diszkriminl fggvnyben.

212

TBBVLTOZS ADATELEMZS

7.3.bra: A kvtakihasznltsg alakulsa az t negyedvben

DISZKRIMINANCIA ELEMZS

7.4. bra: A kvta alapjn kijellhet maximumok az t negyedvben

213

214

TBBVLTOZS ADATELEMZS

A vltozk egyedi megklnbztet szereprl a 7.17. tblzat statisztiki alapjn


dntnk. A kvta kihasznltsg vltozra az tlagok egyezst elvetjk az F-prba
alapjn. (p=0,000).
7.17. tblzat: Csoporttlagok egyezsnek tesztjei 5 negyedvre
Tests of Equality of Group Means
Wilks' Lambda
Kvta alapja
Kvta alapjn kijellhet
maximum
Knyszerrtkestsre
kijellt
Kvtakihasznltsg

df1

df2

Sig.

,992

,180

95

,948

,942

1,461

95

,220

,942

1,457

95

,221

,388 37,478

95

,000

Ezen a ponton szmos elemzi krds fogalmazdik meg.

Mivel t csoportunk s 4 vltoznk van, a (g-1)=4 lesz a dntsi fggvny


szmt meghatroz fels korlt.

Mely vltozkat s milyen sllyal vonjuk be a diszkriminlsba?

Tnylegesen hny dntsi fggvny kpezhet?

Milyen sikeres lesz a negyedvek elklntse?

A lpsenknti bevlogats tbb szelekcis elv szerint kszthet el. Az els sikeres,
a feltteleknek eleget tev s statisztikailag jl rtelmezhet megolds megtallsa
azonban tbb elkszt lpst ignyel. A lpsek megadsa mellett kitrnk arra,
hogy milyen felttelek nem teljeslse tette szksgess az jabb lpseket. (Ez
termszetesen nem jelenti azt, hogy mindig ilyen s ilyen sorrendben vgrehajtott korrekcikra van szksg.)
1) Az eredeti vltozkat s t negyedvet hasznlva keressk a diszkriminl
fggvnyt. Ekkor a magas M rtk s az alacsony szignifikancia szint (0,000)
miatt a kovariancia mtrixok egyezsnek hipotzist el kell vetnnk.
Test Results
Box's M
F

Approx.
df1
df2
Sig.

324,382
7,359
40
19908,088
,000

DISZKRIMINANCIA ELEMZS

215

2) Az els hrom eredeti vltoz logaritmust s a kihasznltsgi rtt, valamint


t negyedvet hasznlva keressk a diszkriminl fggvnyt. A vltozk
logaritmust vve a pozitv ferdesg vltozk jobban kzeltik a normlis
eloszlst. Pldaknt a pozitv ferdesg kvta alapot s termszetes alap
logaritmlt rtkeit mutatjuk be a 7.5/a s 7.5/b. brn.

7.5/a. bra: A kvta alapja vltoz gyakorisga

7.5/b. bra: A kvta alapja vltozlogaritmusnak gyakorisgi brja

216

TBBVLTOZS ADATELEMZS
Ezzel a vltozkrrel a kovariancia mtrixok eltrse kisebb mrtk, a Boxfle M rtke hatodra cskkent, de mg elvetjk az egyezsket (szignifikancia
szint 0,002<0,05).
Test Results
Box's M
53,537
Approx.
2,076
df1
24
F
df2
24918,584
Sig.
,002

3) Az els hrom eredeti vltoz logaritmust s a kihasznltsgi rtt, valamint


a 2012. v ngy negyedvt hasznlva keressk a diszkriminl fggvnyt.
Ezt a lpst az indokolja, hogy a 2011. v negyedik negyedvre szmolt
kovariancia mtrix trt el leginkbb a tbbitl, mert Budapest 2011. IV.
negyedvei adata a 7.6. bra szerint tvol van a tbbi ponttl.

7.6. bra: t negyedv adatai kt vltoz terben


A 2011. IV. negyedvi adatok nlkl az F teszt 0,819 rtke s a hozz tartoz
0,598-as szignifikancia szint alapjn a kovariancia mtrixok egyezsnek hipotzise
nem vethet el.

DISZKRIMINANCIA ELEMZS

217
Test Results

Box's M

7,743
,819
9
66191,846
,598

Approx.
df1
df2
Sig.

A Wilks lambda rtk alapjn 2 vltoz kerlt be a diszkriminl fggvnybe. Az


eredmnyek bemutatsa s rtelmezse az SPSS-ben kzlt sorrendet kveti.
A 7.18. tblzatban a 2012. vi ngy negyedves csoportosts mellett lthat a
vltozkra kln-kln szmolt tlagok F tesztje. A csoporttlagok egyezst csak a
kvtakihasznltsg vltoz esetben vethetjk el.
7.18. tblzat: Csoporttlagok egyezsnek tesztjei 4 negyedvre
Tests of Equality of Group Means
Wilks' Lambda

df1

df2

Sig.

Kvtakihasznltsg

,335

50,215

76

,000

lnkvalap

,987

,330

76

,803

lnkvmax

,986

,365

76

,778

lnkenyszer

,982

,459

76

,711

A kovariancia mtrixok egyezsnek F tesztjt ellenrizve s a nullhipotzist


elfogadva a diszkriminl fggvnybe bevont vltozkat adja meg a 7.19. tblzat.
7.19. tblzat: A Wilks lambda elv alapjn bevlasztott kt vltoz

Variables Entered/Removed
Step

Entered

a,b,c,d

Wilks' Lambda
Statistic

df1

df2

df3

Exact F
Statistic

1
2

Kvtakihasznlt
sg
lnkvalap

df1

df2

Sig.

,335

3 76,000

50,215

76,000

,000

,146

3 76,000

40,383

150,000

,000

At each step, the variable that minimizes the overall Wilks' Lambda is entered.

Ebbl a kt vltozbl kpezhet kt diszkriminl fggvny, amelyek kzl az


elsnek nagyon magas (0,924) a kanonikus korrelcija, azaz a negyedvek ltal
alkotott csoportok s a dntsi fggvny mentn felvett rtkek kztt ers
asszocicis kapcsolat van a 7.20. tblzat alapjn.

218

TBBVLTOZS ADATELEMZS
7.20. tblzat: A kt fggvny s a 4 negyedv kztti kanonikus korrelci
Eigenvalues

Function

Eigenvalue

% of Variance

Cumulative %

Canonical
Correlation

1
2

5,808

99,9

99,9

,924

,005

,1

100,0

,068

a. First 2 canonical discriminant functions were used in the analysis.

A kt diszkriminl fggvny egyttesen szignifiknsan (khi-ngyzet teszt


szignifikancia szintje=0,000) megklnbzteti a ngy negyedvre megfigyelt
adatokat, de a msodik fggvny nmagban nem szignifikns (szig=0,839) rszt
magyarzza a csoportok kztti eltrseknek.
7.21. tblzat: Fggvnyek szignifikns szerepnek tesztelse
Wilks' Lambda
Test of Function(s)

Wilks' Lambda

Chi-square

df

Sig.

1 through 2

,146

146,130

,000

,995

,351

,839

A fggvnyek szmt megismerve a tartalmt is megkapjuk, ha a 7.22., 7.23. s


7.24. tblzatokat ttekintjk.
A 7.22. tblzat Struktra mtrix nevet viseli, mert az sszes vltoz s a kt
fggvny kztti korrelcis egytthatkat tartalmazza. Az els fggvnnyel
pozitvan korrell a kvta kihasznlsa, mg a msodik fggvnyt dnten a
kvtalap logaritmusa hatrozza meg. A lpsenknti kivlaszts nem engedi a nem
szignifikns, a bevont vltozkkal is korrell vltozk (a knyszer s a maximum)
szerepeltetst a dntsi fggvnyben.

DISZKRIMINANCIA ELEMZS

219

7.22. tblzat: A vltozk s a fggvnyek kztti korrelcis egytthatk


Structure Matrix
Function
1
lnkvalap

-,038

,999

,048

,997

-,053

,996

,584

,812

lnkenyszer
b

lnkvmax

Kvtakihasznltsg

Pooled
within-groups
correlations
between
discriminating variables and standardized canonical
discriminant functions
Variables ordered by absolute size of correlation
within function.
*. Largest absolute correlation between each
variable and any discriminant function
b. This variable not used in the analysis.

A diszkriminl fggvnyt kt alakban: sztenderdizlt s sztenderdizlatlan


egytthatkkal felrva is megkapjuk. A regresszis btkhoz hasonl tartalm a
sztenderdizlt egytthat (7.23. tblzat) azt jelzi, hogy az els fggvny mentn
nvekv rtk koordintk tartoznak a magas kvtakihasznltsghoz s az
alacsonyabb kvtaalaphoz. A msodik fggvny pedig a magas kvtaalapra ad
magas koordintt.
7.23. tblzat: A sztenderdizlt egytthatk rtkei
Standardized Canonical Discriminant
Function Coefficients
Function
1
Kvtakihasznltsg
lnkvalap

1,627

,062

-1,322

,950

A 7.24. tblzatban az eredeti vltozk terben is brzolhat sztenderdizlatlan dntsi fggvny egytthati kaptak helyet. Ezekbe a fggvnyekbe behelyettestve
a negyedveket jellemz tlagokat kapjuk a 7.25. tblzatban lthat centrum,
azaz tlagpontokat.

220

TBBVLTOZS ADATELEMZS
7.24. tblzat: A kt dntsi fggvny egytthati
Canonical Discriminant Function
Coefficients
Function
1

Kvtakihasznltsg

29,786

1,135

lnkvalap

-2,570

1,847

-,309

-16,455

(Constant)
Unstandardized coefficients

7.25. tblzat: A ngy negyedv kzppontjai a kanonikus dntsi trben


Functions at Group Centroids
Negyedv

Function
1

2012. I. negyedv

2,263

-,092

2012. II. negyedv

2,414

,085

2012. III. negyedv

-2,035

,035

2012. IV. negyedv

-2,642

-,028

Unstandardized canonical discriminant functions


evaluated at group means

A 7.7. brn lthat, hogy az els diszkriminl fggvny mentn


jelentsebb a megyk szrdsa, mint a fggleges tengelyen. Azt is
leolvashatjuk a 7.25. tblzat s a 7.7. bra alapjn, hogy az
tlagpontok nem klnlnek el marknsan a ngy negyedvre. Ezrt
rdemes az osztlyoz mtrix alapjn (7.26. tblzat) az elklnts
sikert ellenrizni, amely nem ri el a 60 szzalkot. Az els s a
msodik negyedv, valamint a harmadik s a negyedik negyedv nem
klnthet el marknsan, hiszen ezeken bell a nagyobb
laksllomnnyal rendelkez fvros s Pest megye msknt
viselkedik, mint a kisebb megyk.

DISZKRIMINANCIA ELEMZS

221

7.7. bra: A negyedvek elklnlse a ktdimenzis kanonikus trben


7.26. tblzat: Az eredeti s a dntsi fggvny szerinti besorols osztlyoz
mtrixa
a,c

Negyed v

Megyk db

Szzalk

Classification Results
Predicted Group Membership
2012. I.
2012. II.
2012. III.
negyedv
negyedv
negyedv
10
10
0
8
12
0
0
0
14
0
0
9
50,0
50,0
,0
40,0
60,0
,0
,0
,0
70,0
,0
,0
45,0

a. 58,8% of original grouped cases correctly classified.


c. 51,3% of cross-validated grouped cases correctly classified.

Total
2012. IV.
negyedv
0
0
6
11
,0
,0
30,0
55,0

20
20
20
20
100,0
100,0
100,0
100,0

222

TBBVLTOZS ADATELEMZS

Az t lehetsges kritriumot egyms utn lefuttatva nem egybehangz 120 eredmnyt


kapunk. Mind az t esetben kt vltoz kerl be a fggvnybe, de nem ugyanaz a
kt vltoz!
Vessk ssze a 7.27. tblzatban azt, hogy az egyes lpsekben melyek a
kivlasztott vltozk s mennyire sikeres a dntsi fggvnnyel az osztlyozs.
7.27. tblzat: A szelekcis kritriumok hatsa az eredmnyekre

1. lps
2. lps

Wilks lambda
(min)
kvtakihasznltsg
lnkvtaalap

azonosan 58,8%
besorolt

Minimlis
Variancia
kvtakihasznltsg
lnkvtaalap

Mahalanobis
tvolsg(max)
kvtakihasznltsg
lnknyszer

F hnyados
(max)
kvtakihasznltsg
lnknyszer

Rao - V

58,8%

60%

60%

58,8%

kvtakihasznltsg
lnkvtaalap

7.7. Egyni munkra javasolt tovbbi feladatok


1) A
Knyszerrtkests.sav
adatokra
lefuttatva
a
lpsenknti
diszkriminancia elemzs 5 vltozatt, mely tovbbi - rszeredmnyek
klnbznek, melyek egyeznek meg?
Megolds:
2 fle eredmny addik, melyek a 7.27. tblzat szerint klnbznek:

Box-M s F teszt

fggvnyek egytthati

centrumpontok

2) Ksztse el a dntsi fggvnybe bevont vltozk terben a pontdiagramot,


s szerkessze bele a nem sztenderdizlt egytthatkkal a dntsi
egyeneseket.

120

Egyes adatllomnyokra az t vltozszelekcis elv azonos eredmnyt ad. Most


tapasztaltunk nmi eltrst.

8. Sokdimenzis sklzs
8.1. Az eljrs alapgondolata
A sokdimenzis sklzs (Multidimensional Scaling=MDS) a feltr mdszerek
csaldjba tartozik. Geometriai htterben az a feltevs ll, hogy a trben minden
megfigyelsnek megfelel egy pont, s a hasonlbb pontok kzelebb vannak
egymshoz. Az MDS alkalmazsakor nem fogalmazunk meg sztochasztikus
modellt, nem tteleznk fel oksgi kapcsolatot, nem lltunk fel tesztelend
hipotzist. A sklzssal az adatok kztt mrt klnbzsgekbl nyernk
informcit, szrmaztatunk koordintkat a sklatrkpen. Majd a szrmaztatott
koordintk
kztti
tvolsgokat
sszevetjk
az
eredetileg
ismert
klnbzsgekkel, s treksznk az eltrsek minimalizlsra. Az MDS elemzs
clja hasonl ahhoz, amit a fkomponens elemzsnl tznk ki: az objektumok
kztti eltrseket megrizve cskkentjk a tr dimenzijt, objektv sklt hozunk
ltre egy reduklt dimenzij trben.
Az indul adatok
A mtrixok szma s a mrsi skla szerint tbb modell ltezik.

Az (nxp) mret mtrixba rendezett adatok mrsi sklja lehet intervallum


szint, ismerhetjk a kategria gyakorisgokat, s binris vltozval
mrhetjk a tulajdonsggal rendelkezst vagy nem rendelkezst. Ekkor az
adatok mrsi skljnak megfelel hasonlsgi vagy tvolsg mrszmot
vlasztva hasonltjuk ssze pronknt az n szm megfigyelst vagy a p
darab vltozt.

Az eredeti adatok ismerete nlkl is rendelkezsnkre llhat egy (nxn) vagy


egy (pxp) mret hasonlsgi vagy tvolsgmtrix 121. A hasonlsgi s
tvolsg mrszmokat rszletesen a 3. klaszter-fejezet ismerteti.

Klnbz idpontokban, eltr krlmnyek kztt vagy ms szemlyek,


csoportok ltal mrt hasonlsgok, tvolsgok mtrixaibl is vgezhetnk
sklzst. Ekkor az egyni klnbsgek feltrst vgezzk el.

A matematikai httr
A megfigyelt klnbzsgekbl MDS trbeli koordintkat szrmaztatunk, s a
koordintk kztt euklideszi tvolsgot szmtunk. Ismert, hogy n pont kztti
eltrseket (n-1) dimenziban tkletesen tudunk brzolni. A sklzs clja az,

121

Ha nem fontos a hasonlsg s a tvolsg megklnbztetse, akkor ltalnosan


klnbzsgi mtrixot emltnk.

224

TBBVLTOZS ADATELEMZS

hogy alacsonyabb dimenzij trben jelentse meg a pontokat, s feltrja a


termszetes csoportokat, mintabeli struktrkat 122.
A sklz mdszerek kt f tpust klnbztetjk meg.

Klasszikus (vagy metrikus) sklzsrl beszlnk akkor, ha a f


koordintkat 123 keressk, s az indul klnbzsgeket euklideszi
tvolsggal mrjk. A metrikus modellben lineris fggvnykapcsolat van
a klnbzsgek () s a sklatrkpen mrt tvolsgok (d) kztt, s a
modell intervallum szint: d=a+b vagy arny sklj, ha a=0 a lineris
fggvnyben.

A modell lehet nem-metrikus 124, ha a sklatrkpen a tvolsgok (d)


ordinlisan (pl. monoton fggvnnyel) kapcsoldnak az eredeti
klnbzsgekhez (). Nem-metrikus modellt clszer hasznlni, ha az
eredeti adatok ordinlisak, pl. rangszmok.

8.2. Koordintk meghatrozsa klasszikus sklzssal


Induljunk ki az alapesetbl, X mtrix tartalmazza az n pont koordintit a p
dimenzis trben. A levezetst egyszersti, ha bevezetjk az (nxn)-s mret 125 B
mtrixot, amelynek elemei a pontok kzti szorzatok:
p

brs = x rj x sj

ahol r, s = 1,,n

(8.1)

j =1

A ngyzetes euklideszi tvolsgok D2 mtrixnak ltalnos eleme felrhat (8.1)


felhasznlsval:
2

d rs2 = (x rj x sj ) = brr + bss 2brs


p

(8.2)

j =1

Miutn X-bl knnyen felrhat D, vizsgljuk meg a fordtott problmt. Tegyk fel,
hogy ismerjk a tvolsgok ngyzeteit, de nem ismertek a koordintk. Kt lpsben
oldjuk meg a feladatot, elszr B-t becsljk, majd B=XXT szorzatt bontjuk.

122

Hasonl a clja a klaszterelemzsnek is.


A metrikus sklzs atyja Torgerson (1952, 1958). Gower a principal coordinates
analysis elnevezst javasolta erre a modellre, de rvidtse, a PCA nem klnbzik a
fkomponens elemzstl, ezrt inkbb a metrikus sklzs terjedt el.
124
Kruskal (1964) dolgozta ki a nem-metrikus eljrst, amit ordinlis sklzs nven is emlt
a szakirodalom.
125
Az eljrs matematikai lpseinek ismertetse sorn az n megfigyelst jelentjk meg
ltalban p-nl alacsonyabb dimenziban. A p vltoz sklzsa hasonl lpsek
alkalmazsval vgezhet el.
123

SOKDIMENZIS SKLZS

225

Ahhoz, hogy egyrtelm megoldst kapjunk, fel kell tteleznnk, hogy a


n

koordintk tlaga 0, azaz

x
r =1

rj

= 0 minden j-re. Ez az egyszersts azt

eredmnyezi, hogy a (8.1)-ben megadott brs sor- s oszlopsszegei is nullk lesznek.


Ezt felhasznlva, s (8.2)-t sszegezve a sorindex, az oszlopindex, majd mindkett
szerint kifejezhetjk brst a tvolsgmtrix elemeibl az albbiak szerint:
n

d
r =1

2
rs

= tr ( B ) + nbss ,ebbl

bss = d rs2 / n tr ( B ) / n = d r2 tr ( B ) / n
(8.3)

d
s =1
n

2
rs

= nbrr + tr ( B ) ,s brr = d rs2 / n tr ( B ) / n = d 2s tr ( B ) / n

d
r =1 s =1

2
rs

(8.4)
(8.5)

= 2 ntr( B )

ahol tr(B) a B mtrix ftlbeli elemeinek sszege, azaz a mtrix nyoma, az


indexben szerepl pontok pedig a sor- s oszloptvolsgok tlagra utalnak.
Ha (2)-bl kifejezzk brs t:

brs =

1
(brr + bss d rs2 )
2

s behelyettestjk (8.3)-(8.5) talaktott alakjait:

brs =

1 2
1 2
(d r + d 2s d 2 d rs2 ) =
(d rs d r2 d 2s + d 2 )
2
2

(8.6)

A koordintk szrmaztatsnak els lpsben (8.6) szerint ketts centrozst


vgeztnk. Most a B mtrix sajtrtk-sajtvektor dekompozcijval folytatjuk az
eljrst.
Ha (8.6)-ban ngyzetes euklideszi tvolsgok vannak, akkor belthat, hogy B
mtrix szimmetrikus, pozitv definit mtrix, amelynek a rangja k. gy B-nek van k
darab pozitv sajtrtke, melyek nagysg szerint sorba rendezhetek
(12...k>0). Diagonlis mtrixuk jele . A hozzjuk tartoz egysgnyi hossz
sajtvektorok (v1,vk) is kiszmthatk, s (nxk)-s mtrixuk V. A tovbbi (n-k)
sajtrtk zrus, ezrt k dimenzis trben kapjuk meg a megoldst. Teht B mtrix
felbontsval megkapjuk a keresett koordintkat:
B = V VT = XXT , ahol X=V1/2.

(8.7)

226

TBBVLTOZS ADATELEMZS

Megjegyzsek a klasszikus sklzs eredmnyeinek rtelmezshez

Ha k<p, akkor az eredeti trnl alacsonyabb dimenzij trben jelentjk


meg a megfigyelt pontokat.

Mivel a sajtvektorok eljele tetszleges, a szrmaztatott koordintk


rtelmezse nem mindig esik egybe az eredeti vltozk ternek irnyaival.
(Pldul ktdimenzis trben nem vrjuk el, hogy az els sk negyedben
legyenek a mindkt tulajdonsg szerint jobb megfigyelsek.)

A koordinta tengelyek nem is azonosthatk kzvetlenl az eredeti


vltozkkal.
Tbbvltozs regresszi-szmts vgezhet annak
megllaptsra, hogy melyik vltoz milyen ers hatst gyakorol egy-egy
tengelyen mrt koordintkra.

Ha a B mtrix (8.6) szerinti ellltskor nem az euklideszi tvolsgok


ngyzeteit ismerjk, akkor B nem pozitv szemidefinit, s nem k, hanem n
darab sajtrtke lesz, melyek kztt lesz legalbb egy zrus 126, s lehetnek
negatvok is. gy nem egyrtelm, hogy hny nagy sajtrtk van, s hny
dimenziban kell kiszmtani a koordintkat. Ilyenkor az javasolhat,
hogy annyi kis pozitv sajtrtket hagyjunk el, hogy sszegk
megegyezzen a negatv sajtrtkek sszegvel. gy a megmarad nagy
sajtrtkek sszege egyenl lesz a mtrix nyomval.

Br a klasszikus sklzs robusztus az euklideszi tvolsgtl val eltrsre,


nagy eltr tvolsg mrtkek hasznlata nem ajnlott. Ilyen esetekre nagy
negatv sajtrtk, vagy sok kzepes mret pozitv sajtrtk figyelmezteti
az alkalmazt.

A metrikus sklzs s a fkomponens elemzs eredmnyei kztt kzvetlen


kapcsolat van, ha a korrelcis mtrix felbontst s az egysgnyi variancit
eredmnyez sztenderdizlt euklideszi tvolsgok sklzst vetjk ssze. Ha az
(nxp)-s X mtrix elemei az tlagtl val eltrsek, s X rangja k<min(n;p), akkor az
XTX s az XXT szorzatmtrixok sajtrtkei megegyeznek, sajtvektoraik viszont
klnbz elemszmak. Ha a normalizlt sajtvektorokat 127 hasonltjuk ssze,
akkor egymsbl kzvetlenl elllthat eredmnyeket kapunk. Az i-edik
megfigyelsre vonatkoz fkomponensek score-ok (Xai) ngyzetsszege ppgy i ,
mint a sklzssal kapott koordintk ngyzeteinek sszege. A (8.8)-ban felrt
egyenlsgben a sajtvektorok nknyes eljeltl eltekintnk:

i v i = X ai

(8.8)

Ha az eredmnyek azonosak, akkor mikor alkalmazzuk a fkomponens elemzst, s


mikor a sklzst? Fkomponens elemzst clszer vgezni, ha az indul

126
127

Lesz zrus sajtrtk, mivel B minden sorban az elemek sszege nulla.


A komponensek ngyzetsszege =1.

SOKDIMENZIS SKLZS

227

adatmtrixban n>5p, mert ekkor a (p*p) mret XTX dekompozcija jelent kisebb
feladatot.

8.3. Ordinlis sklzs


Egyes tudomnyterleteken, klnsen a pszicholgiban elfordul az, hogy a
klnbzsgek szmszer rtke kevsb fontos, mint a klnbzsgek sorrendje.
Ilyenkor az eredeti adatok helyett csak a rangszmokat hasznljuk, s arra
treksznk, hogy az n pont kztt szrmaztatott tvolsgok (kzelsgek, angolul
proximities=p*) 2-3 dimenziban 128 j egyezst mutassanak a klnbzsgekkel.
Ez a kvetelmny nem elgsges ahhoz, hogy egyrtelm megoldst kapjunk, ezrt
feltesszk, hogy pontjaink az orig krl helyezkednek el, s az origtl mrt
tvolsgok ngyzetgyke egysgnyi.
A nem-metrikus sklzs itercival vgezhet. Feltteleznk egy kezdeti
konfigurcit a p* dimenzis trben, e koordintkbl a pont-prokra szrmaztatott
euklideszi tvolsgot (drs) szmolunk, s ezeket sszevetjk a megfigyelt
klnbzsgekkel (rs). Ha a tvolsgok sorrendje megegyezik a klnbzsgek
sorrendjvel, akkor megfelel kezdeti konfigurcit talltunk. A tkletes egyezs
ritkn rhet el, csak gyenge monotonitst kvetelnk meg, azaz a klnbzsgek
azonossgt nem, csak a tvolsgok egyezst engedjk meg:

ha rs<tu , akkor d rs d tu lljon fenn.


A d becslt rtkt monoton regresszival lltjuk el. Ennek sorn az egymssal
megegyez klnbzsgekre ltalban nem tesznk kln kiktst, mert az egyez
klnbzsgekhez egyez tvolsgok megkvetelse konvergencia problmt
okozhat. Monoton regresszi alkalmazst mutatja a 8.1. tblzat s a 8.1. bra.
8.1. tblzat: A klnbzsgek rangsorhoz illeszked tvolsgok becslse
monoton regresszival
Klnbzsg

Tvolsg

Becslt tv.

128

Itt a tnyleges dimenziszm nem ismert. A keresett dimenziszmot az illeszkeds


alapjn prblgatssal llaptjuk meg. Egyes szakterleteken, pl. az archeolgiban egy
dimenzis eredmnyt, azaz idbeli sorrendet hatroznak meg sklzssal.

228

TBBVLTOZS ADATELEMZS

tvolsgok

Monoton regresszi
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
8.1. bra: A klnbzsgek rangsorhoz illeszked tvolsgok

Ha nvekv klnbzsghez kisebb szrmaztatott tvolsg tartozna, akkor a


monoton regresszi vzszintes grbe lesz, mert a becslshez a tvolsgok tlagt
vesszk. A gyakorlatban elfordul, hogy csak tbb lpssel biztosthat a gyenge
monotonits.
A kezdeti konfigurci megfelel, ha az abbl szmtott s a becslt tvolsgok
eltrse kicsi. Az illeszkedsnek jsgt a Kruskal ltal javasolt clfggvnnyel, a
Stress 129-fggvnnyel mrjk:

S = ( d rs d rs ) 2 / d rs2
r <s

r <s

1/ 2

(8.9)

Az S a [0;1] tartomnyon vesz fel rtkeket, s Kruskal vlemnye szerint S<0,05 j


illeszkedst, S>0,20 gyenge illeszkedst jelent. Az illeszkeds jsgnak
megtlsekor ne felejtsk el azt, hogy n s p* is befolysolja az S rtkt. Tbb
pont vagy kevesebb dimenzi esetn nyilvn magasabb normalizlt rezidulis eltrs
ngyzetsszeg addik.
A nem-metrikus sklzssal elrt megolds ltalban csak loklis minimumot
szolgltat, s nem mindig konvergl. Tbb kezdeti konfigurcit 130 rdemes
kiprblni a kivlasztott p* dimenziban, s a dimenziszm vltoztatsa mellett
rdemes figyelni az S vltozst. Ha a dimenziszm fggvnyben felrajzoljuk az S
alakulst, akkor ltjuk, hogy milyen jelents a Stress cskkense a magasabb
dimenziban.

129
130

STRESS= Standardized Residual Sum of Squares


Ilyen kezdeti konfigurcinak vlaszthatjuk a metrikus sklzssal kapott koordintkat is.

SOKDIMENZIS SKLZS

229

sszefoglalva megllapthatjuk, hogy a metrikus s az ordinlis sklzs hasonl


eredmnyre vezet, ha euklideszi tvolsgokbl indulunk ki, de nem euklideszi
tvolsgnl csak a nem-metrikus sklzs alkalmazsa javasolhat.

8.4. A megvalsts lpsei az SPSS 131-ben


Az MDS trbeli koordintk kiszmtsa s az brzols az
ANALYSE/SCALE/MULTIDIMENSIONAL
vgezhet el.

SCALING

lpseket

kvetve

A nyit oldalon elszr azt kell megadni, hogy 1) az input tvolsgmtrix, vagy 2)
az (nxp)-s X megfigyelsi mtrixbl szmtjuk a tvolsgot:
1) Data are distances
Ha tvolsgmtrixbl indulunk, akkor a mtrix alakjrl is informcit kell adnunk,
mert a tvolsgmtrix lehet

Ngyzetes, szimmetrikus. Ekkor a sorokban s az oszlopokban ugyanazok


vannak felsorolva, s klnbzsgk az sszevets sorrendjtl
fggetlenl azonos. Ez a leggyakoribb tvolsgrtelmezs.

Ngyzetes, aszimmetrikus. A sorokban s az oszlopokban most is


ugyanazok vannak felsorolva, de klnbzsgk mrtke ms az als s a
fels hromszgben (pl. kilomterben s mrfldben is megadjuk kt-kt
vros tvolsgt).

Hromszg (Rectangular) alak. Ilyen mtrixunk van, ha az egyik csoport


minden eleme azonos tvolsgra van a msik csoport elemeitl, s a
csoporton belli tvolsgokrl nincs informcink. Formailag az X (nxp)
adatmtrix is ilyennek tekinthet, mivel n ltalban nem egyezik meg p-vel.

2) Create distances from data


Ebben az esetben a listbl kivlasztjuk a vltozkat.
a) Elszr arrl kell dntennk, hogy a megfigyelsek (n darab) vagy a
vltozk (p darab) kztti klnbsget mrjk, mert az els esetben (nxn), a
msodikban (pxp, ahol p>3) lesz a tvolsgmtrix mrete.
b) A vltozk mrsi skljt is meg kell adni, vegyes skla vlasztsa nem
lehetsges.

Intervallum skln hat tvolsgmrtk 132 vlaszthat, alaprtelmezs


az euklideszi tvolsg. Vlaszthat ngyzetes euklideszi, Csebisev,
city-blokk, Minkowski vagy customized tavolsg.

Az SPSS ksbbi vltozatai ltalban knyelmesebbek, tbb lehetsget ajnlanak fel.


gy tapasztaltam, hogy az MDS-ben ez nem sikerlt.
131

230

TBBVLTOZS ADATELEMZS

Gyakorisgokra kt mrszmot tallunk. A fggetlensg felttelezse


melletti khi-ngyzet s a phi-ngyzet szmthat.

Binris skln hat mrtket knl a program. Ezek rszhalmazt


kpezik a klaszterezsnl megismert mrtkeknek.

c) Sztenderdizlhatjuk az adatokat a vltozk szerint (alaprtelmezs) vagy az


egyes eseteken bell hatfle rtelemben.
A sztenderdizlssal kaphatunk

0 vrhat rtk s 1 szrs z vltozt,

(-1,+1) tartomnyon mozg rtkeket, ha a terjedelemmel osztunk,

(0,1) kztt vltoz rtket, ha a minimumot vonjuk le minden rtkbl, s


a terjedelemmel osztunk,

egysgnyi kiterjeds relatv rtket, ha a maximlis rtkkel osztunk,

egysgnyi vrhat rtk vltozt, ha az tlaggal osztunk (Ha az tlag


zrus, minden megfigyelshez egyet hozzadunk.),

egysgnyi szrs vltozt, ha a szrssal osztunk.

A Model menpont vezet el a modellvlasztshoz, ahol elszr a modell mrsi


szintjt adjuk meg.
a) Level of Measurement

Ordinlis szinten mrt adatokra a Kruskal-fle nem-metrikus sklzst


hajtjuk vgre monoton transzformcival.

Intervallum vagy arnysklt vlasztva metrikus sklzst vgznk.

b) A sklz modellek msik lehetsges csoportostsa attl fgg, hogy hny


mtrixunk van.

Euklideszi tvolsg modellt vlasztunk, ha egyetlen mtrixunk van. Ekkor


klasszikus sklzst (KMDS) hajtunk vgre, amely lehet metrikus s nemmetrikus is.

Ha tbb - azonos mret - mtrixunk van, amelyek az egyni


klnbsgeket 133 rjk le, akkor INDSCAL eljrst vgznk.

A tvolsgmrtkeket a klaszterelemzsnl rszletesen trgyaltuk. Emlkeztetl: a


customized tvolsg a koordinta eltrseket p-edik hatvnyra emeli, majd ezek sszegbl redik gykt von. A p s r megfelel megvlasztsval a tbbi tvolsgot megkaphatjuk,
kivve a Csebisev mrtket, amely a maximlis koordinta-eltrssel egyenl.
133
Az egyni klnbsgek eredhetnek abbl, hogy klnbz idpontokban, klnbz
felttelek kztt mrnk valamit, vagy klnbz vgzettsg emberek vlemnyt
132

SOKDIMENZIS SKLZS

231

c) A tvolsgmtrix egyes elemeinek rtelme fgghet attl, hogy a mtrix mely


rszben tallhat. Errl adunk informcit, ha a Conditionality 3 lehetsge
kzl vlasztunk.

Matrix: szimmetrikus tvolsgmtrix, ez az alaprtelmezs. Az eltrsek


azonos mrsi skln kerltek szmszerstsre.

Row: a sorokban pldul klnbz szakrtket sorolunk fel, akiknek a


szubjektv tletei alapjn mrjk egyes termkek hasonlsgt, s
felttelezzk, hogy a szakrtk eltr sklt hasznlnak. (Aszimmetrikus s
hromszg mtrixokra hasznlhat.)

Unconditional: akkor hasznljuk, ha tbb azonos mret mtrixunk van.


gy pldul hrom-utas faktorelemzst is vgrehajthatunk, ha intervallum
vagy arny skln mrt adatok tvolsgt szmtjuk.

d) A modellspecifikci negyedik fontos lpse a dimenziszm


meghatrozsa. Minimum (1 az alaprtk) s maximum (6) adhat meg. E kt
rtkre s kztk minden egsz szmra megkapjuk az eredmnytblkat.
Opcik a sklzsban
Az opcik kztt brkat vlaszthatunk, s konvergencia kritriumot llthatunk be.
a) brk:

Group plots: egy kzs trben brzolja a pontokat a kiszmtott


koordintk alapjn. Annyi bra kszl, amennyi a tr dimenzijnak
mrtke a megadott minimum s maximum kztt. Egyttal kapunk egy
pontdiagramot is, amely az eredeti tvolsgok (x tengely) s az MDS
trbeli tvolsgok (y tengely) illeszkedst mutatja.

Individual subject plot, szimmetrikus tvolsgmtrixra krhet.

Adatmtrix megjellse esetn az indul s a sklzssal kapott


tvolsgmtrixot ltjuk kinyomtatva. Ezek illeszkedst mutatja a
pontdiagram.

Modell s sszegzs: az eredmnyt befolysol belltsokrl ad


sszefoglalt. Akkor clszer hasznlni, ha tbb futtats kszl, s gy
ltjuk, hogy miben klnbznek egymstl.

b) Hrom kritrium belltst vltoztathatjuk meg. Az a kvetelmny lltja


le az itercit, amelyik elszr teljesl.

S-stress konvergencia: Lell az itercis eljrs, ha a clfggvny (S-stress)


vltozsa kisebb, mint 0,001. Kisebb szmmal pontosabb megoldst

krdezzk, stb. Az Individual Differences Scaling rvidtsbl ered az eljrs INDSCAL


elnevezse.

232

TBBVLTOZS ADATELEMZS
kapunk, nagyobb rtk megadsval rvidebb a szmtsi id. Zrus
megadsval 30 itercis lpst hajt vgre az SPSS.

Minimum S-stress: lell a program, ha (az alaprtelmezs szerint) 0,005


alatti S clfggvny-rtket kapunk. Gyakorlati szably, hogy kivl az
illeszkeds, ha S kisebb, mint 0,05. Ez vagy egy nagyobb rtk kevesebb
itercit ignyel. Brmely 0 s 1 kzti szm megadhat.

Maximlis iterci szm: 30 az alaprtk, de nvelhet.

Alapbellts szerint a nullnl kisebb tvolsgokat hinyz adatknt kezeli az


SPSS.

8.5. Az eredmnyek rszletezse, rtelmezse


Budapest 23 kerletnek vizt jellemeztk 4 vltoz mentn, s euklideszi
tvolsgot szmtottunk a sztenderdizlt vltozkra. 2 s 3 dimenzis megoldst is
krtnk az sszehasonlts rdekben.
Mivel magasabb dimenziban tkletesebb az illeszkeds, mindig a maximlis
dimenziszmhoz tartoz megoldst kapjuk meg elszr. Mivel az output nem
tagolt, szmokkal trdelve, szakaszosan fznk megjegyzseket az eredmnyekhez.
1) A hromdimenzis megolds
Az iterci a 3. lpsben lell, mert a clfggvny cskkense kisebb, mint egy ezred.
Iteration history for the 3 dimensional solution (in squared distances)
Young's S-stress formula 1 is used.
Iteration S-stress
Improvement
1
,04234
2
,03342
,00892
3
,03308
,00034
Iterations stopped because
S-stress improvement is less than ,001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = ,02618
RSQ = ,99630
Az illeszkeds hrom dimenziban kivl, S=0,02618 kisebb, mint 0,05. Az adatok
s a tvolsgok megfelelst mr R2 nagyon magas: 0,9963

SOKDIMENZIS SKLZS

233

2) A koordintk
A vetleteket megkapjuk hrom dimenziban, de sajnos kzvetlenl a ments
nem lehetsges.
Configuration derived in 3 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1
2
3
Number
Name
1
1,2151 1,1148 ,2766
2
,3576 ,8341 1,2442
3
1,7544 -,3214 -,1385
4
,9237 -1,0688 -,2229
5
,6276 2,9403 ,0390
6
1,0598 -,6098 -,7026
7
,6630 -,8249 -,2454
8
-,3203 -1,5557 1,2401
9
-,8091 -,9016 1,2216
10
1,1973 ,0522 -1,0767
11
-,4442 1,1190 -,6994
12
,6089 1,2245 ,8052
13
,6436 -,1807 ,0765
14
,5090 -,3929 ,6542
15
,6622 -,6255 -,1427
16
,9285 -,8751 -,1241
17
,5104 -,0429 ,0703
18
,0396 -,0856 -,2694
19
-,8464 -,7769 -1,1336
20
-1,4968 1,1220 -,4716
21
-1,9283 ,0073 -,5381
22
-2,8726 ,1205 ,6089
23
-2,9831 -,2731 -,4715

234

TBBVLTOZS ADATELEMZS

3) Az iterci lpsei
A ktdimenzis iterci is a harmadik lpsben ll meg.
Iteration history for the 2 dimensional solution (in squared distances)
Young's S-stress formula 1 is used.
Iteration
1
2
3

S-stress
,16331
,14217
,14173

Improvement
,02114
,00044

Iterations stopped because


S-stress improvement is less than ,001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix Stress = ,12402
RSQ = ,93216
Az illeszkeds a dimenzicskkens miatt romlott, S=0,124 rtke 0,10 s 0,15 kz
esik, itt kzepes illeszkedsrl beszlnk. A tvolsgok determinltsga 93,2%.
4) A ktdimenzis koordintk
Ezek termszetesen nem egyeznek meg a hromdimenzis megolds els kt
tengelyre vonatkoz koordintkkal.
Stimulus Coordinates
Dimension 1
2
1
VAR1
1,0377 ,9246
2
VAR2
,3620 1,0082
3
VAR3
1,4920 -,2629
4
VAR4
,8007 -,8864
5
VAR5
,5252 2,5081
6
VAR6
,9701 -,5448
7
VAR7
,5713 -,6737
8
VAR8
-,2607 -1,5925
9
VAR9
-,8046 -1,0084
10
VAR10
1,2050 ,0636
11
VAR11
-,4095 1,0159
12
VAR12
,5454 1,1262
13
VAR13
,5318 -,1242

SOKDIMENZIS SKLZS
14
15
16
17
18
19
20
21
22
23

VAR14
VAR15
VAR16
VAR17
VAR18
VAR19
VAR20
VAR21
VAR22
VAR23

,4737
,5610
,7986
,4160
,0301
-,8319
-1,2869
-1,6589
-2,4946
-2,5737

235

-,3509
-,4893
-,7019
-,0153
-,0453
-,8313
,9575
,0195
,1221
-,2187

5) Csoporttrbeli bra
Dimenzinknt kapjuk a csoporttrbeli brkat. Itt csak a ktdimenzis trkpet
mutatjuk be. Feliratozst nem lehet vlasztani, a megfigyelseket mindig
sorszmokkal azonostjuk (8.2. bra).

Derived Stimulus Configuration


Euclidean distance model
3
case 5
2
case 20

1
case 22
case 23

Dimension 2

case 12
case 2
case 1

case 11

case 21

case 19
case 9

case 10
case
case 18
case1713
case 3
case 14
case 15
case 6
case
7
case 16
case 4

-1
case 8
-2
-3

-2

-1

Dimension 1

8.2. bra: MDS trkp kt dimenziban

6) Az eredeti s a szmtott tvolsgok egyezsnek pontdiagramja

236

TBBVLTOZS ADATELEMZS

Az brn is lthat, hogy nem tkletes az illeszkeds, mert eredetileg relatve tvol
lev pont-pr (disparits=2) nagyon kzel kerlt a sklatrkpen (distance= 0,1). A
hromdimenzis megolds pontdiagramjn a tvolsg-prok szinte tkletesen a 45
fokos egyenesen fekszenek. (8.3. bra)

Scatterplot of Linear Fit


Euclidean distance model
5

Distances

0
-1

Disparities

8.3. bra: Az eredeti s a szmtott tvolsgok egyezse

8.6. Az egyni klnbsgek sklzsa (INDSCAL)


Az MDS alkalmazsnak klnsen fontos esete az, amikor tbb idpontra
vonatkoz megfigyelsnk van, vagy klnbz krlmnyek 134 kztt gyjtttnk
adatokat, vagy tbb egyn vlemnyt ismerjk.
Ha az n szm megfigyelst a p vltoz terben tbb idpontban mrtnk, akkor 3
dimenzis adattmbnk van, amelyben az ltalnos elem xivt , ahol i=1,,n a
megfigyelsek indexe, v=1,,p a vltozk azonostja, s t=1,,T az idpontokat
jelzi. Ha nem az idbeni klnbsgek a dntek, hanem a megfigyels krlmnyei,
vagy az egyni vlekedsek, akkor ezt a k index jelzi az xivk jellsben, ahol
k=1,,K.
Most is addhat olyan feladat, amelyben a megfigyelsek, vagy a p szm vltoz
kapcsolatrendszert, a kztk lev tvolsg vagy hasonlsg alapjn vizsgljuk,
Fizikai ksrleteknl ilyen pl. a hmrsklet vltoztatsa, egy kezels vagy beavatkozs
eltt s utn val mrs, a biztostsmatematikban a technikai kamatlb klnbz mrtke
mellett elvgzett szmtsok.

134

SOKDIMENZIS SKLZS

237

teht (nxn) vagy (pxp) mret klnbzsgi mtrixbl ll rendelkezsnkre tbb,


amelyeket klnbz idpontokban, klnbz felttelek teljeslse mellett
gyjtttnk. Input mtrixunk teht hromdimenzis. ltalnos eleme ijk , ahol i s j
az sszehasonltott eseteket vagy vltozkat, k pedig a mtrix harmadik dimenzijt,
az egynt, az idt vagy a krlmnyt jelli.
Az idpontok vagy a krnyezet vltozsa ltalban befolysolja a vltozk vagy
megfigyelsek kapcsolatrendszert, s ez a hats gy jelenik meg, mintha az egyes
idpontokban ms s ms slyt rendelnnk a kzs MDS trkp koordintihoz. Ezt
a slyozott euklideszi modellt nevezzk az egyni klnbsgek sklzsnak, ahol a
klnbzsgek stabilitst vizsglhatjuk gy, hogy az ismtlden megfigyelt
mtrixokra az egyni klnbsgeket feltr INDSCAL eljrst alkalmazzuk.
A szmtsok sorn ellltjuk a kzs dimenzis trben az MDS koordintkat,
amelyek azt a helyzetet tkrzik, amikor az ismtlden rendelkezsre ll mtrixok
szisztematikusan nem klnbznek. Az egyedi y koordintk kztt kznsges
euklideszi tvolsgot szmtunk, s ezen tvolsgok (monoton vagy lineris)
fggvnyei az eredeti klnbzsgek:

ijk = f (d ijk ), ahol

d ijk

r
2
= ( y iks y jks )

s =1

1/ 2

A kzs tr felttelezsre tett hipotzist ellenrizzk azzal, hogy az egyes


idpontok vagy krlmnyek kztt mrt adatokban rejl egyedisget kifejezzk, s
mint az MDS tengelyekre vonatkoz slyokat szmszerstjk.
Az egyedi terek (y) s a csoport tr (x) kztt az egyedi slyok teremtenek
kapcsolatot:

y iks = wks xik

y jks = wks x jk ,

ezrt a kzs trben mrt tvolsg a slyozott kzs koordintkbl is elllthat:

d ijk

r
2
= wks (xis x js )
s =1

1/ 2

A w sly teht a k-adik egynre (idpontra vagy krlmnyre) s az MDS


koordintra vonatkoz, 0 s 1 kztti szm. A sly ngyzete az s-edik dimenzi
fontossgt fejezi ki. A slyok sor-ngyzetsszege determincis egytthatknt
rtelmezhet, s a k-adik egyn tvolsgai s klnbzsgei kzti megfelels
mrtkt fejezi ki.
r

w
s =1

2
ks

= Rk2

Minden egyn slyai egy (rxr) mret diagonlis Wk mtrixba rendezhetk.

238

TBBVLTOZS ADATELEMZS

8.7. Az INDSCAL megvalstsa az SPSS-ben


A futtats belltsa megegyezik az alapbelltssal, kt kiegsztssel:

a Modell gomb alatt kell jelezni, hogy tbb azonos mret mtrixunk van,
ezrt egyni klnbsgeket sklzunk,

tovbb az Opcik rszben az brknl krjk az Individual subject plot


brt 135.

Az eredmnyek ttekintse kzben rszletezzk az illeszkeds jsgnak mutatit.


A WORLD95 adatokat futtatjuk, 4 vltoz hasonlsgt trjuk fel INDSCAL-lal,
gy, hogy a rgi vltoz 6 kategrijt hasznljuk.
Vltozink: rstuds, vrosi npessg arnya, frfi s ni vrhat lettartam. A
vltozkat sztenderdizljuk, euklideszi tvolsgot szmolunk, s 2 dimenzis
megoldst krnk.
Az eredmnyek rszletezse, rtelmezse
Az eredmnyeket a klasszikus MDS-hez hasonl szerkezetben kapjuk, ezrt most is
tagoljuk.
1) A clfggvny vltozsa az iterci sorn
Young's S-stress formula 1 is used.
Iteration S-stress
Improvement
0
,17198
1
,15957
2
,15683
,00274
3
,15654
,00029
Iterations stopped because S-stress improvement is less than ,001000
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
Matrix
1
3
5

Stress
RSQ
,214
,803
,044
,988
,076
,970

Matrix Stress
RSQ
2
,146
,935
4
,134
,934
6
,234
,699

Averaged (rms) over matrices

135

Az SPSS az egyedi tereket nem rajzolja le.

SOKDIMENZIS SKLZS
Stress = ,15664

239

RSQ = ,88810

Az illeszkeds jsgra adott korbbi minstst itt nem alkalmazzuk, mert a kzs
trben nem vrunk el az egyes rgiktl j illeszkedst. Hrom lps utn mr nem
javul jelentsen az illeszkeds. Rginknt nzve a 3. trsgben kivl, az 5.
trsgben j az illeszkeds.
A vgs Stress (0,15664) nem a rgis clfggvnyek tlaga, az R-ngyzet (0,8881)
viszont az egyes csoportok mrszmainak egyszer szmtani tlaga, teht a 89%
azt jelenti, hogy tlagosan j az illeszkeds.
2) Koordintk a kzs trben
Configuration derived in 2 dimensions
Stimulus Coordinates
Dimension
Stimulus
1
2
1
URBAN
-1,0130 -1,4641
2
LIFEEXPF
,9989 ,2403
3
LIFEEXPM 1,0010 -,1126
4
LITERACY -,9869 1,3364
Ezek alapjn kszl el a kzs trben az bra, amelybl az egyedi slyok gykvel
szorozva az egyedi terekben a vltozk brzolhatk.
3) Az egyedi slyok s a weirdness (W) index
Subject Weights
Subject Weirdness Dim 1 Dim 2
1
,6807 ,8741 ,1980
2
,9029 ,9649 ,0652
3
,7561 ,2130 ,9709
4
,0843 ,7641 ,5914
5
,7032 ,2554 ,9510
6
,0709 ,6557 ,5184
Overall importance of each dimension:

,4699

,4182

Az egyedi slyok ngyzetgykvel szorozzuk a kzs koordintkat az egyes


dimenzikban. A szmokbl lthat, hogy a 2. rgi (Kzp-Kelet Eurpa) adja az
els tengelynek a maximlis slyt, az 5. rgi (Kzel-Kelet) pedig a legkisebbet. A
msodik tengely fontossgt a 3. s az 5. rgi hangslyozza magas sllyal.
Az egyes dimenzik ltalnos fontossga megegyezik a dimenzi slyok
ngyzetsszegnek egy csoportra es tlagval:

w
k =1

2
k1

/6

w
k =1

2
k2

/6

240

TBBVLTOZS ADATELEMZS

A szmtsok termszetbl addik, hogy az els dimenzi fontosabb (0,4699), mint


a msodik (0,4182).
A dimenzi-slyok eltt ll W-indexek 0 s 1 kztt vehetnek fel rtket.
rtelmezskhz rvid tmutatst is ad az output. A minimumot akkor kapja az
egyn (esetnkben egy rgi), ha a slyai az tlagos slyokkal arnyosak. Most a
6. rgi a legkisebb index (0,07), ami arra utal, hogy itt szoksos, tlagos a
vltozk kapcsolatrendszere. (A 45o egyeneshez kzel fekszik a slyt jelz pont.)
A maximumhoz kzeli index azt jelzi, hogy az adott rgi slyarnya nagyon
szokatlan, az tlagtl ersen eltr. Egy az index, ha csak egyetlen tengelyre
vonatkozik nagy sly, a tbbi tengelyhez kicsi slyt rendel az egyn. Pldaknt a 2.
rgi emlthet.
A slyok ternek rtelmezse figyelmet ignyel. Itt nem a slyok kzti tvolsg,
hanem az origbl a slyt jell ponthoz hzott vektorok kztt bezrt szgeket
rtelmezzk. Ha kicsi a bezrt szg kt sly-vektor kztt, akkor mondhatjuk, hogy
a kt egyn hasonlan slyozza a dimenzikat. A 45oegyeneshez kzeli vektor
tipikus, az attl tvoli vektor sajtos slyt jelez.
A W-index kiszmtshoz a sly-vektort normalizljuk 136:

wksn = wks / wks s egysgnyi hossz, vele linerisan sszefgg vektort


k =1

lltunk el:

v ks = wksn / ( wksn ) 2
s =1

1/ 2

Az egyni sly-vektor s a 45o egyenes ltal bezrt szg radinja kiszmthat, ha


figyelembe vesszk, hogy a maximlis szg radinja a dimenziszmbl hatrozhat
meg: cos-1 (r -1/2 ).
A W-index (WI) kplete:

WI = (cos 1 r 1 / 2

] v
r

s =1

ks

) /(cos 1 ( r 1 / 2 ))

4) Az egyedi hatsok lineris mrtke: Flattened Weights


Mivel az egyedi slyok kztti szgek rtelmezhetk, nem a slyok koordinti,
ezrt a szgekbl jra pontokat szrmaztatunk, hogy a kztk lthat tvolsgokat
rtelmezni tudjuk. Ezeket a laptott slyokat (r-1) dimenziba val vettssel
kapjuk, s az egynekre is (r-1) dimenziban jelennek meg. Az j slyok linerisan
rtelmezhetk, s sszegk minden tengelyre zrus. Pldnkban a kt dimenzis
sly-trben mindkt tengellyel 45o szget bezr egyenest hzunk, s erre vettjk a
136

A normalizlt slyokat nem kapjuk meg, de az index kiszmtshoz elvgzi az SPSS a


szmtst.

SOKDIMENZIS SKLZS

241

rgik slyait. Az tlagos sly rgi most nulla-kzeli F-slyt kap, az els tengelyt
preferlkhoz nagy pozitv, a msodik tengelyt kiemelkhz pedig nagy negatv
slyt rendel az eljrs.
5) brk az INDSCAL-ban
a) Csoport trben lthatk a vltozk (8.4. bra) vagy a megfigyelsek.

D erived Stim ulus C onfiguration


Individual dif ferences (weighted) E
1,5

people who rea d (% )

1,0

,5

avera ge fema le li fe
avera ge mal e life ex

0,0

Dimension 2

-,5

-1,0
-1,5

people living i n cit

-1,5

-1,0

-,5

0,0

D im ensio n 1

8.4. bra: A vltozk kzelsge

,5

1,0

1,5

242
b)

TBBVLTOZS ADATELEMZS
A

eltren

rgik

slyozzk

az

egyes

tengelyeket

(8.5.

bra).

D e r ive d Subj e ct W e i ghts


In divid ua l d iff e re nc e s ( w e ight e d)
3

1,0

,8
4

,6

Dimension 2

,4
1
,2
2
0,0
,2

,4

,6

,8

1,0

D i m e n sio n 1

8.5. bra: A rgik tengely-slyai


c)

A klnbzsgek s a tvolsgok lineris illeszkedst mutat bra


megegyezik a klasszikus MDS brval, ezrt kln nem kzljk.

d) A lineris slyok brja egy dimenziban a 8.6. brn lthat.

F lattened S ubject Weights


Ind ivid ual differences (w eighted)
1,8
1,5

1,3
1,0

,8
,5

4
6

,3
0,0

Variable 1

-,3
-,5
-,8
-1, 0
-1, 3
-1, 5
-,6

5
3
-,4

-,2

-,0

,2

O ne Dimens ional Plot

8.6. bra: A tengely-slyok egy dimenzis vetletei

,4

,6

SOKDIMENZIS SKLZS

243

A 4. s a 6. rgi lineris (Flattened) jelzszmai az orig kzelben egymsra


esnek, mert slyaik nagyon kzel kerletek az egy dimenziba trtn vetts sorn
egymshoz.

8.8 nll elemzsi feladatok


A Knyszerrtkests.sav adattblzat alkalmas az egyni klnbsgek
megjelentsre, akr a negyedvek, akr a terleti klnbsgek szerint bontjuk meg
a mintt.
1) Mutassa meg, hogy idben azaz az t negyedv szerinti bontsban vizsglva
az egyni klnbsget, eltr-e a ngy vltoz
a.

x1: Kvta alapja (db),

b.

x2: Kvta alapjn kijellhet maximum (db),

c.

x3: Knyszerrtkestsre kijellt (db),

d.

x4: Kvtakihasznltsg (%) kztti kapcsolatrendszer.

2) A regionlis klnbsgek statisztikai jelentsgt is feltrhatja az MDS


eljrssal, ha a megyk szerint mri a ngy vltoz
a.

x1: Kvta alapja (db),

b.

x2: Kvta alapjn kijellhet maximum (db),

c.

x3: Knyszerrtkestsre kijellt (db),

d.

x4: Kvtakihasznltsg (%) terben az egyni klnbsgeket.

Forrsok
Carol Alexander (2007): Market Models, A Guide to Financial Data Analysis, John
Wiley&Sons, Ltd
Chatfield, C. And Collins, A. J. (2000): Introduction to Multivariate Analysis,
Chapman & Hall/CRC, Boca Raton st al., (Reprint, First edition 1980)
Csendes Tibor (2001): Bevezets a szmtgpes statisztikba, Novadat, Szeged
Fsts Lszl Meszna Gyrgy Simonn Mosolyg Nra (1997): Trstatisztika,
Aula Kiad, Budapest
Fsts Lszl Kovcs Erzsbet Meszna Gyrgy Simonn Mosolyg Nra
(2004, 2007): Alakfelismers. Sokvltozs statisztikai modellezs a
trsadalomtudomnyokban jMandtum Kiad, Budapest
Green, Samuel B. Salkind, Neil J. Akey Theresa M. (2000): Using SPSS for
WINDOWS. Analyzing and Understanding Data, Prentice Hall International (UK)
Ltd, London (Second Edition)
Hajdu Ott (2003): Tbbvltozs statisztikai szmtsok, KSH, Budapest
Horvai Gyrgy (2001): Sokvltozs adatelemzs (Kemometria), Nemzeti
Tanknyvkiad, Bp.
Hunyadi Lszl (2001): Statisztikai kvetkeztetselmlet kzgazdszoknak, KSH,
Budapest
Hunyadi Lszl Mundrucz Gyrgy Vita Lszl (1997): Statisztika, AULA
Kiad, Budapest (II. kiads)
Jobson, J. D. (1992): Applied Multivariate Data Analysis, Volume I & II, SpringerVerlag, New York et al. (Second Edition)
Johnson, Dallas E. (1998): Applied Multivariate Methods for Data Analysts, Duxury
Press, Pacific Grow (California)

FORRSOK

245

Ketskemty Lszl Izs Lajos Knyves Tth Eld (2011): Bevezets az IBM
SPSS Statistics programrendszerbe, 3. kiads, Artria Stdi Kft, Budapest
Krzanowski, W. J. (2000): Principles of Multivariate Analysis. A Users
Perspective, Oxford University Press, Oxford (Revised Edition)
Maindonald, J.-Braun, W. J. (2008): Data Analysis and Graphics. Using R- an
Example-Based Approach, 2nd Edition, Cambridge Press
Norusis Maria, J. [SPSS Inc.] (1994): SPSS Professional Statistics 6.1., SPSS Inc.,
Chicago
SPSS Inc. (1998): SPSS Base 8.0. Applications Guide, SPPS Inc., Chicago
Szkelyi Mria Barna Ildik (2002): Tllkszlet az SPSS-hez. Tbbvltozs
elemzsi technikkrl trsadalomkutatk szmra, Typotex Kiad, Bp.

You might also like