14 KOVACS E Tobbvalt Adatelemzes

TBBVLTOZS ADATELEMZS
Jegyzetek s pldatrak a matematika egyetemi oktatshoz

sorozat
Algoritmuselmlet
Algoritmusok bonyolultsga
Analitikus mdszerek a pnzgyben s a kzgazdasgtanban
Analzis feladatgyjtemny I
Analzis feladatgyjtemny II
Bevezets az analzisbe
Complexity of Algorithms
Differential Geometry
Diszkrt matematikai feladatok
Diszkrt optimalizls
Geometria
Igazsgos elosztsok
Introductory Course in Analysis
Mathematical Analysis Exercises I
Mathematical Analysis Problems and Exercises II
Mrtkelmlet s dinamikus programozs
Numerikus funkcionlanalzis
Opercikutats
Opercikutatsi pldatr
Parcilis differencilegyenletek
Pldatr az analzishez
Pnzgyi matematika
Szimmetrikus struktrk
Tbbvltozs adatelemzs
Variciszmts s optimlis irnyts
Kovcs Erzsbet
TBBVLTOZS
ADATELEMZS
Budapesti Corvinus Egyetem

Typotex
2014
c 20142019, Dr. Kovcs Erzsbet, Budapesti Corvinus Egyetem, Operci

kutats s Akturiustudomnyok tanszk
Lektorlta: goston Andrea

ISBN 978 963 279 243 9
Kszlt a Typotex Kiad (http://www.typotex.hu) gondozsban
Felels vezet: Votisky Zsuzsa
Mszaki szerkeszt: Hajabcs Enik
Kszlt a TMOP-4.1.2-08/2/A/KMR-2009-0045 szm,
Jegyzetek s pldatrak a matematika egyetemi oktatshoz cm projekt
keretben.
KULCSSZAVAK: Adatelemzs, tbbvltozs matematikai statisztika, trsadalmi s gazdasgi adatok elemzse, SPSS alkalmazsok, elemi statisztikk,
statisztikai tblk, kereszttbla, tanul algoritmusok, klaszterelemzs, regressziszmts, logisztikus regresszi, fkomponens elemzs, faktoranalzis,
diszkriminanciaanalzis, tbbdimenzis sklzs, sajtrtk-sajtvektor feladatok megoldsa.
SSZEFOGLALS: A kzgazdasgi kpzsben a Tbbvltozs adatelemzs
s a Tbbvltozs statisztikai modellezs c. trgyak hallgatinak kszlt jegyzet az elemzsi mdszerek matematikai httrnek s az alkalmazs elfeltteleinek bemutatsa utn az SPSS-ben elvgezhet elemzs technikjt s
a mintapldk eredmnyeinek rtelmezst trgyalja. Az alapok ismertetse
sorn kitrnk az adatok elksztsre is. Vals gazdasgi, pnzgyi s
demogrfiai adatok elemzse mellett egyszer szmpldkkal is illusztrljuk
az elemzsi munka buktatit. Az elemi statisztikai mdszereket kveten ismertetjk a statisztikai tblzs lehetsgeit, majd sorba vesszk a pnzgyi terleten hasznlt legfontosabb tbbvltozs adatelemz mdszereket: a
klaszterezst, a lineris s logisztikus regresszi elemzst, a diszkriminanciaanalzist, a faktorok keresst s a tbbdimenzis sklzst lehetsgeit.
A tananyaghoz kapcsold adattblk letlthetk innen:
https://www.typotex.hu/index.php?page=ELTE%20TTK
Tartalom
Bevezets............................................................................................... i
1. Ler s feltr adatelemzs .......................................................... 2
1.1. A vltozk mrsi sklja ................................................................... 2
1.2. Ler statisztikk kivlasztsa az adatok mrsi sklja alapjn ........ 4
1.3. Ler statisztikk kiszmtsa s rtelmezse ..................................... 8
1.4. Az extrm pontok s az almintk statisztikai elemzse .................... 13
1.5. A normalitsvizsglat numerikus s grafikus mdszerei .................. 19
1.5.1. Kolmogorov-Szmirnov prba
19
1.5.2. Shapiro-Wilk W mutat
20
1.5.3. Grafikus normalits vizsglat
21
1.6. Idsoros adatok statisztikai elemzse ............................................... 24
2. Kategrik s kereszttblk elemzse ........................................ 30
2.1. Kategrik ellltsa ....................................................................... 30

2.2. Kereszttbla ksztse s elemzse ................................................... 35
2.2.1. Matematikai-statisztikai httr
35
2.2.2. Kereszttbla elemzs megvalstsa az SPSS-ben:
37
2.2.3. 1. mintaplda
41
2.2.4. 2. mintaplda
43
3. Klaszterelemzs ............................................................................ 49
A klaszterez eljrsok csoportostsa
49
3.1. Hierarchikus klaszterezs ................................................................. 50
3.1.1. Tvolsgi s hasonlsgi mrtkek
51
3.1.2. sszevon eljrsok
55
3.1.3. Dendrogramok rtkelse, sszehasonltsa
56
3.1.4. Az sszevon algoritmus lpseinek kvetse egy mintapldn... 57
3.2. Nem-hierarchikus klaszterezs ......................................................... 61
A k-kzppont klaszterezs rtelmezse kt f krdst vet fel.............. 61
3.3. A klaszterelemzs eredmnynek rtkelse .................................... 62
3.4. A megvalsts lpsei az SPSS-ben ................................................ 64
3.4.1. Hierarchikus klaszterezs
64
3.4.2. Nem-hierarchikus klaszterezs, k-kzppont eljrs
65
3.5. Teleplsek klaszterezse ................................................................. 66
4.Tbbvltozs regressziszmts ................................................. 82
4.1. Az adatok ttekintse, elzetes megfontolsok ................................ 83

4.2. A regresszi matematikai httere...................................................... 87
4.3. A vltozk kztti korrelci mrse s szerepe a regresszis
modellben ................................................................................................ 89
4.4. rdemes-e tbb vltozt egyidejleg bevonni a regresszis
modellbe?................................................................................................. 90
4.5. A vltoz szelekcit megvalst lpsenknti regresszi ............... 92
4.6. A magyarz vltozk kztti korrelci, a multikollinearits ........ 93
4.7. Az egyedi megfigyelsek hatsa a becslsre .................................... 95
4.7.1. A becslst befolysol pontok feltrsa
95
4.7.2. Hibatagok ellltsa s elemzse
97
4.7.3. A becslst befolysol tvoli pontok feltrsa, kihagysi dnts99
4.8. A megvalsts lpsei az SPSS-ben .............................................. 101
4.9. A szmtsi eredmnyek bemutatsa .............................................. 102
4.10. sszefoglals: A bemutatott modell illeszkedsnek minstse . 115
4.11. nll elemzsi feladatok............................................................. 116
4.12. Megoldsok................................................................................... 117
5. Logisztikus regresszi ................................................................ 126

5.1. A logit modell s az indul adatok ................................................. 127
5.2. A logit modell paramtereinek becslse ......................................... 128
5.3. A logit modell illeszkedsnek jsga ............................................ 131
5.4. A logit modell illesztse az SPSS-ben ............................................ 133
5.5. LOGIT modell illesztse................................................................. 134
5.6. Mintamodell a lemorzsoldsra ...................................................... 139
5.7. A modellvlaszts grafikus eszkze ............................................... 145
5.8. Tovbbi logisztikus modellek ......................................................... 146
6. Faktorelemzs ............................................................................. 148

6.1. A fkomponenselemzs .................................................................. 149
6.1.1. A fkomponens elemzs matematikai httere
150
6.1.2. A megvalsts lpsei az SPSS-ben
154
6.1.3. A PCA eredmnyek bemutatsa s rtelmezse
159
6.2. A faktorelemz mdszercsald tovbbi eljrsai............................ 165
6.2.1. A faktorelemzs modellje
166
6.2.2. A PAF eredmnyek bemutatsa s rtelmezse
168
6.3. A faktorelemzs tovbbi kihvsai.................................................. 174
6.3.1. Abszolt s relatv mutatk elemzse
174
6.3.2. Ktdimenzis megolds rtelmezse, brzolsa
176
ii
6.4. Idsorok faktorelemzse ................................................................. 182

6.4.1. Differencik faktorelemzse
182
6.4.2. Tzsdehnyadosok faktorelemzse
184
7. Diszkriminancia elemzs ............................................................ 189

7.1. A diszkriminanciaelemz eljrs alapgondolata............................. 189
7.2. A diszkriminancia elemzs alkalmazsnak felttelei .................... 189
7.3. A diszkriminancia elemzs szmtsi lpsei ................................. 193
7.4. Az eredmnyek rszletezse, rtelmezse ...................................... 195
7.5. A vltozk lpsenknti bevonsval vgzett diszkriminancia
elemzs .................................................................................................. 208
7.6. Plda a szelekcis kritriumok alkalmazsra ................................ 211
7.7. Egyni munkra javasolt tovbbi feladatok .................................... 222
8. Sokdimenzis sklzs ............................................................... 223

8.1. Az eljrs alapgondolata ................................................................. 223
8.2. Koordintk meghatrozsa klasszikus sklzssal........................ 224
8.3. Ordinlis sklzs ........................................................................... 227
8.4. A megvalsts lpsei az SPSS-ben .............................................. 229
8.5. Az eredmnyek rszletezse, rtelmezse ...................................... 232
8.6. Az egyni klnbsgek sklzsa (INDSCAL) .............................. 236
8.7. Az INDSCAL megvalstsa az SPSS-ben .................................... 238
8.8 nll elemzsi feladatok................................................................ 243
Forrsok........................................................................................... 244
iii
Bevezets
A jegyzet a Tbbvltozs adatelemzs s a Tbbvltozs statisztikai modellezs
cm trgyak hallgati szmra kszlt, s a flves kurzus sorn trgyalt fbb
mdszereket ismerteti.
Adatokkal minden szakember tallkozik, s az adatokbl kinyerhet informci
rtke felbecslhetetlen. A szemlyi szmtgpek elterjedsvel npszerv vltak
a tbbvltozs statisztikai mdszerek, kzlk is elssorban a feltr elemzsek. A
statisztikai szoftverek knnyen s gyorsan vgzik el a krt elemzst, a megfelel
adatok kivlasztsa, a korrekt alkalmazs, valamint az eredmnyek rtelmezse, a
kvetkeztetsek levonsa idt s odafigyelst ignyel. Nem haszontalan Winston
Churchill egy mondst idzni:
The only statistics you can trust are those you falsified yourself.
A jegyzet nyolc fejezete hrmas tagols:
a matematikai httr bemutatsa, az alkalmazs elfelttelei,
az SPSS-ben elvgezhet elemzs technikja s
a mintaplda eredmnyeinek rtelmezse kvetik egymst.
A matematikai alapok ismertetse sorn kitrnk az adatok elksztsre is. Az

SPSS 20.0 vltozatn alapul az elemzsi lehetsgek bemutatsa, s a futtats
belltsa mellett egy-egy mintaplda eredmnytblit is megadjuk. A jegyzetben
vals gazdasgi, pnzgyi s demogrfiai adatok elemzse mellett egyszer
szmpldk is szerepelnek, amelyek az elemzsi buktatkra hvjk fel a figyelmet.
Az elemzsi lncok lehetsge, a mdszerek kombinlt alkalmazsa terjedelmi
okokbl nem kerlt be az rott anyagba.
Az elz flvekben sok hallgatval dolgoztam egytt a trgyak keretben.
rdekldsk, sszegyjttt adataik s elemzseik sokat segtettek abban, hogy
elkszljn a jegyzet. Nv szerint is ksznm goston Kolosnak, Csicsman
Jzsefnek s Kovcs Eszternek, hogy figyelmesen elolvastk, javt tleteikkel
gazdagtottk az anyagot. Minden, a szvegben maradt esetleges hiba s
pontatlansg arra vr, hogy a kurzus hallgati jelezzk nekem!
A lektor munkjt s a TMOP ltal nyjtott tmogatst kln is ksznm.
Budapest, 2013. szeptember
Kovcs Erzsbet
1. Ler s feltr adatelemzs

A tbbvltozs adatelemzs alapja az adat, ami a szmtgpes elemzs rdekben
mtrixba rendezett. Szoksos elrendezse szerint soraiban talljuk a megfigyelseket, s az oszlopok tartalmazzk a megfigyelseken mrt vltozkat. Ezrt a
tbbvltozs adatelemzs mdszerei kztti vlaszts eltt clszer az adattbla
tartalmt, kitltttsgt ttekinteni.
Kezd lpsknt a bevont vltozkat egyenknt vizsgljuk meg. Szksg lehet a
mrsi sklk belltsra, st nha a sklk transzformcijra, az eloszlsokra
vonatkoz elfeltevsek ellenrzsre.
A vltozk jellemzinek feltrsa mellett a megfigyelt rtkekre is fordtsunk
figyelmet. A hinyz adatok ptlsa, a kilg egyedek feltrsa, esetleg kiszrse is
az elemzs elkszt szakaszban trtnik. A megfigyelt rtkek csoportokra
bontsa, valamely kategria szerinti almintk vizsglata is ebben a szakaszban
vgezhet el. Az alapos, krltekint ler s feltr elemzssel a tbbvltozs
adatelemz munknk sikert alapozzuk meg.
1.1. A vltozk mrsi sklja

Az adatok szerzse, gyjtse tbb mdon trtnhet, ezrt nem mindig mi hatrozzuk
meg a vltozk mrsi skljt. De az elemzsek megkezdse eltt t kell tekinteni,
hogy melyik vltoz milyen skln van mrve, hiszen statisztikai mutatszmokat is
a mrsi szint szerint kell vlasztani.
Elmleti megfontolsok alapjn ngyfle mrsi szintet 1 klnbztetnk meg,
amelyeket az egyszerbbtl a bonyolultabbak fel haladva ismertetnk. Kvalitatv
(minsgi) sklnak nevezzk sszefoglalan a nominlis s az ordinlis sklkat.
Kvantitatv (mennyisgi) skla az intervallum s az arnyskla.
Nominlis skln mrnk, ha csak megklnbztetst jeleznek a szmok

vagy a betk. Ilyenkor ltalban nem is egyrtelm, hogy egy-egy
kategrit mivel jellnk. A nominlis skln bell megklnbztetnk
ktrtk (dichotom) s tbb kategribl ll vltozkat.
o
A frfi-n megklnbztetsre a 0-1, az 1-2, de az F-N is teljesen

megfelel.
Ugyangy pldul a budapesti kerleteket is azonosthatjuk arab

vagy rmai szmokkal is. Ilyenkor az egyms utni szmok nem
adnak informcit arrl, hogy melyik kerlet jobb vagy rosszabb,
st a szomszdos szmok sem jelentenek hasonlsgot.
Tovbbi pldk tallhatk itt: http://en.wikipedia.org/wiki/Level_of_measurement
LER S FELTR ADATELEMZS

o
Az irnytszmok, a telefonszmok, rendszmok stb. mind

nominlis szinten mrt adatok.
Ordinlis skln mrt adat mr preferencit is jelez. Kt megfigyels

esetn az egyenl, (leg)nagyobb vagy (leg)kisebb informcit is ltjuk a
vltozkhoz rendelt szmokbl. A szmok kztti klnbsg azonban nem
rtelmezhet. Itt is hasznlhatunk ktrtk (dichotom) s tbb
kategribl ll vltozkat. Ktrtk ordinlis vltoz mutatja pl. a
megfelelt-nem felelt meg, az igaz-hamis, egszsges-beteg kategrikat.
Tbb kategrira szmos plda adhat.
o
Az letkorokat gyakran tves korcsoportokban hasznljuk, ha a

tnyleges kor ismerete nem ad tbb informcit, vagy tl kevs
megfigyelsnk van egyedi adatok elemzshez.
A teleplseket megadhatjuk gy, hogy 1=500 f alatti falu,

2=500-1000 f kztti falu, 3=1000-2000 kztti telepls, s gy
tovbb. A laknpessg ltszma szerinti kategrikat hasznljuk
a tnyleges ltszm megadsa/ismerete nlkl.
A jvedelemsvok, a gpjrmvek teljestmny kategorik is

ordinlis adatot jelentenek, hiszen a szmok kztt aritmetikai
mvelet nem rtelmezhet.
Betkkel megadott ordinlis sklt is ismernk, pl. klfldi

egyetemeken A-F kztt osztlyoznak, vagy az orszgkockzatra,
tzsdei cgek minstsre is gondolhatunk.
A krdves vizsglatokban leggyakrabban pratlan (5,7,..) fok

ordinlis skln lehet a vlaszokat megadni. Ilyenkor a szmok
mellett szvegesen is szerepel a vlasz: 1: teljesen nem rt egyet,
2: nem rt egyet, 3: nincs vlemnye, 4: egyetrt, 5: teljesen
egyetrt.
Intervallum skln mrt adatok kztt mr eltrst is szmolunk s

rtelmeznk. Az intervallum hossza a kt megfigyels kztti eltrst
tkrzi.
o
Ha az idjrst Celsiusban mrjk, akkor az tlaghmrsklet

vltozst jellemezni tudjuk.
A fizetsek vagy a hitelsszegek ismeretben az tlagos rtkek s

az tlagtl val eltrsek kiszmtsa mellett akr a kt vltoz
kztti kapcsolatot is jellemezni tudjuk.
Az egyetemi vizsgadolgozatok pontozsa is intervallum szint

adatot jelent. Ebbl kategria hatrokat kijellve ordinlis szinten
mrt osztlyzatot kpeznk.
Tbb minst cg 0-100 kztti pontszmmal, azaz intervallum

skln rtkeli az orszgkockzatot.
Az arnyskla specilis intervallumskla, amelyen mrt adatok kztt

kitntetett nulla pont is van, s kt megfigyels arnya is rtelmezhet,
nemcsak a klnbsgk.
o
A testmagassg s a testsly egyarnt arnyskln mrt vltozk.
Az letkor is arnyskln mrhet, hiszen a szlets pillanathoz

nulla letv tartozik.
A Kelvin fokban mrt hmrskletnek is van abszolt nulla foka,

ez a -273.15 Celsius.
Napokban, hnapokban, vekben mrt tartamokat (befektets,

hitel, letbiztosts jellemzsre) is arnyskln mrnk.
Ha csak egy-egy vltozt elemznk, akkor is fontos a mrsi szint pontos ismerete.
A mrsi szintnek megfelel ler statisztikai mutatk kivlasztshoz az 1.2.
alfejezet ad tmutatst.
A tbbvltozs elemzsek tbbsgkben azonos mrsi sklt ignyelnek. Ennek
rdekben gyakran skla-transzformcit hajtunk vgre, ami fel- s lertkels is
lehet. Magasabb szint sklra ttrni csak tbblet informci birtokban lehet.
A skla lertkelse, a klnbsgek helyett kategrik kialaktsa sokszor hasznosan
tmrti az informcit. A kategria kpzs hatkony mdjt a 2 fejezet ismerteti.
A knyv tovbbi fejezeteiben bemutatunk majd ms skla-transzformcis
lehetsgeket is.
1.2. Ler statisztikk kivlasztsa az adatok mrsi sklja alapjn

Ler statisztikt ksztnk, ha nem lltunk fel s tesztelnk hipotzis(eke)t, csak a
vltozk s a megfigyelsek jellemzse a clunk. Leggyakrabban kzponti rtket
vagy szrdsi jellemzt szmtunk, az eloszls alakjt mutatjuk be numerikus
s/vagy grafikus eszkzkkel. Vizsglhatjuk a teljes adatllomnyt egytt, vagy
rszekre tagolva is.
Az SPSS-ben az Analyze/Descriptive Statistics menpont alatt tallunk hrom
eljrst, amelyek tbb mutat:
A Frequencies funkci vlasztsval a nominlis s ordinlis vltozk

kategriihoz tartoz gyakorisgok listzsa vlik lehetv. Tovbb
gyakorisgokat s relatv gyakorisgokat is megad brkat is kszthetnk
itt. Emellett tetszleges skln mrt adatokat is elemezhetnk, mert
minden statisztikai mutatt felajnl ez a menpont is vlasztsi
lehetsgknt.
A Descriptive funkci az intervallum vagy arny sklj vltozk

lersra, jellemzsre csak numerikus statisztikkat szmol. Itt krhetjk
s menthetjk el a vltozk sztenderdizlt rtkeit.
Az Explore 2 funkcit vlasztjuk, ha almintkat is feltteleznk, vagy egy

kategriakpz nominlis/ordinlis vltoz szerint tagoljuk a
megfigyelseket, s intervallum vagy arnyskln mrt vltoz(k)ra ler
statisztikt ksztnk. A feltrs elnevezs arra utal, hogy ez az elemzs
megelzi pl. a kt minta tlagnak egyezsre vonatkoz hipotzis
megfogalmazst, a normalitsi teszt elvgzst, stb.
Mindegyik eljrs megengedi, hogy egyszerre tbb vltozt vlasszunk ki, s ezek
mindegyikre elvgzi az sszes ltalunk krt mveletet. Ezrt clszer egyszerre
csak azonos mrsi szint vltozkat felsorolni, gy csak a szakmailag korrekt
eredmnyeket lltjuk el.
Az 1.1. tblzatban sszefoglaljuk azt, hogy melyik SPSS menpontban tallhatk
meg a ler statisztika eszkzei a mrsi sklk szerinti bontsban. A magasabb
szint mrsi sklkon az elz sklkhoz rendelt eljrsok mindig alkalmazhatk.
D jelli a Descriptive, F a Frequency s E az Explore funkcit.
1.1. tblzat: Elemzsi clokat megvalst funkcik
Cl / Skla
Nominlis
Kzponti
tendencia
Mdusz F, E
Szrds
Eloszls numerikus
Ordinlis
Intervallum/arny
Mdusz F,E
Medin F, E
Minimum,
Maximum F,D,E
Terjedelem F,D,E
tlag F,D,E
Gyakorisg,
relatv gyakorisg
Interkvartilis
F
terjedelem E
Szrs, variancia,
sztenderd hiba F,D,E
Ferdesg,
cscsossg F,D,E
Normalitsi teszt E
Eloszls grafikus
Gyakorisgra
oszlop- s
krdiagram F
Stem&leaf E
Hisztogram F, E
boxplot E
A legfontosabb ler statisztikai mutatkat rviden ttekintjk, s a kpleteket is

megadjuk.
Az Explore nemcsak almintk sszehasonltsra alkalmas. Egyetlen homogn

minta esetben a Descriptive-vel azonos eredmnyeket ad, tovbb nyesett
tlagot is szmol.
Mean: szmtani tlag,
x=
1 n
xi , ahol n a megfigyelsek szma
n i =1
(1.1)
Az elmleti vrhat rtk (m) ltalban nem ismert. rtkt az (1.1) szerint
szmtott mintabeli tlaggal ( x ) helyettestjk.
Range: terjedelem= maximum-minimum
Variance: szrsngyzet, a sokasgban: 2 , ennek mintabeli becslse s2 s gyke

a szrs, s. A szrs angol neve standard deviation, rviden: Std. dev.
s2 =
( x
x )2
(1.2)
n 1
Std.Error: az tlag sztenderd hibja:
vagy becslse
(1.3)
n
1
(xi m )3
Skewness: ferdesgi mrtk, kplete: 1 = n

3
A ferdesg negatv rtke balra hosszan elnyl eloszlst, a pozitv rtke pedig
jobbra elnyl eloszlst jelez. Ha nulla kzeli a mutat, akkor szimmetrikus az
eloszls. (De itt ne csak a normlis eloszlsra gondoljunk, mert az U alak
eloszls is szimmetrikus.)
A ferdesg variancija =
6 n(n 1)
. E variancia gyke: SE ( 1 )
(n 2 )(n + 1)(n + 3)
szerepel standard error elnevezssel az eredmnyeket bemutat 1.2. tblban.
A ferdesg torztatlan becslse
1 =
n xi x
(n 1)(n 2)s 3
(1.4)
A nullhipotzis szerint a ferdesg=0. A ferdesgi mutat s a sztenderd hiba

hnyadost hasonltjuk az (n-1) szabadsgi fok Student eloszls kritikus
rtkhez.
A ferdesghez tartoz t-teszt kplete: t = 1
SE ( 1 )
(1.5)
1
(xi m )4
Kurtosis: cscsossg, mrszma: 2 = n

, rtke sztenderd normlis
4
eloszls esetben = 3. Ezt levonva kzvetlenl (2 - 3) alakban kapjuk a mutatt

az SPSS-ben. Ms gpi programok ezt kurtosis excess nven adjk meg.
A cscsossg variancija =
)[ ( )]
4 n 2 1 SE 1
(n 3)(n + 5 )
. E variancia gyke szerepel
standard error elnevezssel az 1.2. tblzatban.

A cscsossgi mutat torztatlan becslse:
n(n + 1) xi x 3(n 1) xi x
4
(n 1)(n 2 )(n 3)s 4
)]
2 2
(1.6)
A cscsossgi mutat s a sztenderd hiba (SE ( 2 )) hnyadost hasonltjuk az (n1) szabadsgi fok Student eloszls kritikus rtkhez. A cscsossgi mutathoz
tartoz t-prba kplete: t = 2
SE ( 2 )
(1.7)
A pozitv cscsossg a normlis eloszls srsgfggvnynl hosszabb, vastagabb

farok rszt, a kzponti rtk krli tmrlst vagy mindkettt jelezheti. A negatv
rtk lapult eloszlsra utal, amelynek a haranggrbnl rvidebb, vkonyabb farok
rsze van, s kzpen sem srsdnek a megfigyelsek.
A lapultsg minimlis rtke 2, mert a ferdesg s a cscsossg mrtke kztt
fennll a kvetkez egyenltlensg: cscsossg (ferdesg2 2)
A ferdesg csak az egyik oldalon, a cscsossg a mindkt oldalon elfordul extrm
rtkek elfordulst jelezheti. Az extrm, outlier megfigyelsek nagy hatssal
lehetnek az tlagra s a szrsra, ezrt rdemes grafikusan (pldul hisztogramon) is
megnzni a vltozk alakjt.
A mintatlag ferdesge: 1 / n s cscsossga: 2 / n . A mintanagysg
nvelsvel cskken a ferdesg, s mg gyorsabban cskken a cscsossg.
Van nhny egyszer, de hasznos nagysgrendi sszefggs a ler statisztikk
kztt, amire itt felhvjuk a figyelmet.
Szimmetrikus eloszls esetn az tlag=medin=mdusz, mg eltrsk

ferde eloszlsra utal.
Pozitv ferdesg az eloszls, ha mdusz<medin<tlag, s negatv
ferdesg, ha tlag<medin<mdusz ll fenn.
A medin kevsb rzkeny az adathinyra s a szls rtkekre, mint
az tlag.
A terjedelem kzeltleg a szrs ngyszerese.
Az SPSS nem szmol relatv szrst, amely a szrs s az tlag hnyadosa. A

Csebisev egyenltlensgen alapul hvelykujj szably alapjn magas a szrs, ha ez
az arny meghaladja a kettt. Ez arra utal, hogy az adatrendszerben tbb alminta
lehet, ezek feltrst grafikus mdszerekkel rdemes elvgezni.
A pnzgyi adatokban ltalban a szrs a kockzat mrtke, a biztostsban pedig a
relatv szrs mri a kockzatot. A relatv szrs alkalmazst indokolja az is, hogy
gy a klnbz mrtkegysget kikszbljk, teht pl. klnbz valutanemben
kifejezett vltozk szrsa is gy vethet ssze.
Ha egy vltoznak nagy a szrsa, akkor ez a vltoz mentn megvalsthat
nagyobb szeparcis kpessget jelzi. Az alacsony szrs az tlag krl
koncentrld (ltalban cscsos eloszls) megfigyelsekre utal.
A Descriptive a sztenderdizlt z-score vltozk elmentst is lehetv teszi.
A zrus tlag s egysgnyi szrs j vltoz ferdesge s cscsossga nem
vltozik meg.
zx =
xx
s
(1.8)
Normlis eloszls (s/vagy nagy minta) esetn a kzponti hatreloszls ttel alapjn
a sztenderdizlt vltoz z x =
pedig
xm
standard normlis eloszls lesz, kis mintra
s/ n
(n-1) szabadsgfok Student t-eloszlst kvet.
Tbb rv szl a vltozk sztenderdizlsa mellett. A mrtkegysg kikszblse,

az ismert tlag s szrs klnsen akkor hasznos, ha tbbvltozs elemzst
vgznk, azaz egyszerre tbb vltozt hasznlunk.
A fejezet vgn vjuk az olvast attl, hogy brmely programcsomagot
mechanikusan alkalmazzon. A szrs mintbl trtn becslsekor az SPSS-ben (n1) szerepel a nevezben, akr kicsi a minta, akr nagy. A cscsossgi mutatbl
elzetes figyelmeztets nlkl levonja az SPSS a sztenderd normlis eloszlsra
jellemz hrmat. Az R-ben pedig a >range(x) menpont nem a terjedelmet adja meg,
hanem a minimum s a maximum rtkeket rja ki egyms mell.
1.3. Ler statisztikk kiszmtsa s rtelmezse

A szmtsi eredmnyeket a megismtelhetsg rdekben az SPSS mintapldk
kztt tallhat World95.sav adathalmazon mutatjuk be, amely 109 orszg adatait
tartalmazza. Az els lpsben a frfiak s nk vrhat lettartamra kszltek
szmtsok. Ezek az informcik a befektetsi dntsek, pl. az letjradk s
klnsen a nyugdj szmtshoz fontosak. Br nem szerepel az adat nevben, ezek
a szletskor vrhat lettartamok, s a kt nemre szmolt tlagok kztt a vilg
minden orszgban eltrs van. Az 1.2. tblzatban a Frequency-ben ksztett

rszeredmnyek lthatk.
Hinyz adat nincs erre a kt vltozra, a medin termszetesen megegyezik az
50%-os percentilissel, s figyelmeztetst kapunk, hogy tbb mdusz a nk vrhat
lettartamt mr vltoz. A negatv ferdesg a hisztogramon (1.1. bra) is lthat,
teht a magasabb vrhat lettartam rtkek a gyakoribbak. Az (1.4) szerinti
ferdesgre szmolt (1.5)-beli t-teszt rtke -5 krli, azaz minden szoksos
szignifikancia szint mellett elvethet, hogy szimmetrikus az eloszls, hisz rtke
nem nulla. A cscsossg/lapultsg rtke nem tr el szignifiknsan a zrustl,
mindkt nemre a t-teszt kisebb, mint egy. Nem koncentrldnak teht tlzottan a
vrhat lettartamok az tlag krl. Az lettartamok sszege (Sum) nem hordoz
lnyegi informcit.
A percentilisek s a kvartilisek alapjn megllapthat az lettartam eloszlsok tbb
jellemzje. rdekes az, hogy a legalacsonyabb letkilts 10 szzalknyi
npessgnl 2 vnyi lettartam eltrst kaptunk, mg a legfels 10 %-ban mr 6 v a
nk javra a klnbsg.
1.2. tblzat: Frequency-ben ellltott eredmnyek
Statistics
Valid
Missing
Mean
Std. Error of Mean
Median
Mode
Std. Deviation
Variance
Skewness
Std. Error of Skewness
Kurtosis
Std. Error of Kurtosis
Range
Minimum
Maximum
Sum
Percentiles
10
20
25
30
40
50
60
70
75
80
90
Average
female life
expectancy
109
0
70,16
1,01
74,00
75a
10,57
111,76
-1,109
,231
,213
,459
39
43
82
7647
52,00
59,00
66,50
68,00
70,00
74,00
76,00
78,00
78,00
79,00
80,00
a. Multiple modes exist. The smallest value is shown
Average
male life
expectancy
109
0
64,92
,89
67,00
73
9,27
85,98
-1,080
,231
,336
,459
35
41
76
7076
50,00
57,00
61,00
63,00
65,00
67,00
69,00
71,00
72,50
73,00
74,00
10
Average male life expectancy

20
Frequency
10
Std. Dev = 9,27

Mean = 64,9
N = 109,00
0
40,0
42,5
45,0 47,5
50,0 52,5
55,0
57,5 60,0
62,5 65,0
67,5 70,0
72,5
75,0
1.1. bra: Hisztogram s a normlis eloszls srsgfggvnye

Az 1.3. tblzatban a Descriptive-ben ellltott valamennyi rszeredmnyt
bemutatjuk. rtkeik termszetesen megegyeznek azokkal, amiket a Frequency-ben
kaptunk, csak elrendezsk ms. Itt is tbb vltoz krhet egyszerre, de statisztikai
sszehasonltst most sem vgznk.
Azt a szembetn klnbsget, ami a frfiak s a nk vrhat lettartama kztt
lthat, a konfidencia intervallumok sszevetsvel vagy t-prbval lehet tesztelni.
1.3. tblzat: Ler statisztikk
Descriptive Statistics
N
Range
Minimum
Maximum
Sum
Mean
Std. Deviation
Variance
Skewness
Kurtosis
Statistic
Statistic
Statistic
Statistic
Statistic
Statistic
Std. Error
Statistic
Statistic
Statistic
Std. Error
Statistic
Std. Error
Average female
life expectancy
109
39
43
82
7647
70,16
1,01
10,57
111,762
-1,109
,231
,213
,459
Average male
life expectancy
109
35
41
76
7076
64,92
,89
9,27
85,984
-1,080
,231
,336
,459
Valid N (listwise)
109
11
Az (1.8) szerinti sztenderdizls nem csak a mrtkegysg kiszrse miatt hasznos,

hanem az sszehasonltst is segti. A pozitv rtkek tlag feletti, a negatvok pedig
tlag alatti eredeti rtket jeleznek. Ezeket kt vagy tbb vltoz mentn egyszerre
is lthatv tudjuk tenni egy pontdiagramon (Scatter plot), ahogy ezt az 1.2. bra
mutatja. Mivel behztuk az tlagokat jelz koordinta tengelyeket, a ngy sk
negyedben jl tudjuk jellemezni az orszgokat. Az els sk negyedben a mindkt
vltoz szerint tlag feletti rtkkel rendelkez orszgokat ltjuk. Magyarorszg s a
szomszdos orszgok a harmadik negyedben helyezkednek el, azaz az egy fre jut
GDP s a npessg nvekedse szerint is tlag alatti rtkek jellemeztk trsgnket
1995-ben.
Az is szembetn az 1.2. brn, hogy negatv eljel, br nem teljesen lineris a kt
vltoz kapcsolata, s kevs olyan orszg van, ahol mindkt vltoz az tlag felett
van.
rdemes figyelni arra is, hogy az eredeti adatokban a GDP/f vltoz terjedelme s
szrsa jval nagyobb, mint a npessg nvekeds szzalkos adatnak terjedelme.
A sztenderdizlt vltozk terben a terjedelem ppen fordtott nagysgot mutat,
mikzben mindkt tlag 0 s a szrsok egysgnyiek, ahogy ez az 1.4. tblzatban
lthat.
1.4. tblzat: Az eredeti s a sztenderdizlt vltozk jellemzi
Std.
N
Population increase (% per
109
Minimum Maximum
-,3
Mean
Deviation
5,2
1,682
1,1976
2,97072
,000
1,000
year))
Zscore: Population increase
109 -1,65535
(% per year))
Gross domestic product /
109
122
23474
5859,98
6479,836
109
-,88551
2,71828
,000
1,000
capita
Zscore: Gross domestic
product / capita
Valid N (listwise)
109
12
1.2.bra: Orszgok a sztenderdizlt vltozk terben
13
Hzi feladat: Bizonytand

a)
Az eredeti s a sztenderdizlt vltozk ferdesge s cscsossga

megegyezik.
b)
Normlis eloszls alapsokasg esetben az s s a

fggetlenek, ezrt korrelcijuk zrus.
c)
Tetszleges eloszls esetn az s s a

korrelci=
2 +2
n xm
n x m kt tag kztti
, ez a normalitstl val eltrst is jelzi.
1.4. Az extrm pontok s az almintk statisztikai elemzse

Kt vltoz statisztikai jellemzinek sszevetse, az egyedi, extrm rtkek
azonostsa s az adatllomnyban lev almintk, kategriavltozk (factor) mentn
kpzett csoportok vizsglata az Explore menpontban vgezhet el. Az itt ellltott
(az 1.2. s 1.3. tblzattal megegyez) eredmnyeket nem mutatjuk be ismt, csak
azokat, amiket tbbletknt kapunk.
a) Konfidencia intervallum (1-) megbzhatsgi szinten:
x t / 2 ,( n 1 )
s
n
kplettel szmolhat. A megbzhatsgi intervallum szlessgt a sztenderd hiba

mellett a t-statisztika is befolysolja. A megfigyelsszm nvekedsvel cskken
mind a sztenderd hiba, mind a t-rtk, teht nagyobb mintban szkebb
intervallumot kaphatunk.
A nk vrhat lettartamra az als s fels hatr: 68,15-72,16 v, a frfiak adataira
63,16-66,68 v addik. A kt intervallum nem fedi t egymst, ezrt a megfelel
tesztek elvgzse nlkl 3 is mondhatjuk, hogy jelents, statisztikailag szignifikns
az eltrs.
b) Trimmed mean, azaz nyesett tlag: a nagysg szerint sorba rendezett
megfigyelsek kzps 90 szzalkra szmtott tlag. A rendezett minta kt vgn
5-5%-ot elhagyunk. Szimmetrikus eloszls esetn a kznsges s a nyesett tlag
megegyezik. Nem normlis eloszls s extrm rtkek elfordulsa esetn az gy
szmtott tlag rtelmezse javasolt. A vrhat lettartam adatokra a frfiak esetben
65,59, a nknl 70,96 a nyesett tlag. Mindkt eloszls ersen balra ferde, ezrt a
nyesett tlag nagyobb, mint a kznsges szmtani tlag.
A nyesett tlag szmtsnak kt vltozata van:
gy a tesztels elfeltteleit sem kell ellenrizni. A normlis eloszls pldul a ferdesg

miatt nem ll fenn.
14
Ha a nyess sorn (0,05n) egsz, akkor ennyi megfigyelst hagyunk el, s a

fennmarad rtkek egyszer sszege a nyesett tlag szmllja. A
nevezben pedig (0,9n) ll.
Ha (0,05n) nem egsz szm, akkor k s (k+1) egszek kz esik. Az els k

s az utols k darab megfigyelst elhagyja a gp, a (k+1)-edik elem s az
(n-k)-adik elem slya pedig a zrjelben ll kt tag minimuma lesz:
min(k+1-0,05n; 0,05n-k) a szmtani tlag szmtsakor. A kztes
megfigyelsek slya egy.
c) A centrumtl tvoli megfigyelsek slyozsa M-esztimtorok alkalmazsval is

trtnhet. (Nem elhagyjuk a tvoli rtkeket, hanem cskken slyt adunk nekik.)
Az M-esztimtorok rvn becslt korriglt tlagokltalban az tlag s a medin
kz esnek, nem rangsorolhatk, nem mondhat meg, hogy melyik a jobb.
Az esztimtorok kpzse a helyzeti kzp (T) becslse utn kvetkezik. A helyzeti
kzepet az albbi egyenlet megoldsval kapjuk:
k
f (
i =1
xi T
) = 0 , ahol fi a gyakorisg, s szrs s pratlan fggvny.
s
Az egyenlet msik alakja:

k
( u )
xi T xi T

= 0 , ahol( u ) =
s s
u
f
i =1
A gyakorisgokkal szorzunk, hogy T kifejezhet legyen:

k
xi xi T
T
s
f s
i =1
f
s
xi T
=0
s
trendezve T az x adatok slyozott tlaga:
Tk +1 =
xi Tk
)
s
x Tk
f i ( i
)
s
f x (
i
Ltjuk, hogy T csak itercival adhat meg, a Tk+1 kifejezhet a Tk bl. T0-t
nem adja meg az SPSS lersa, de ez az rtk ltalban a medin.
Az iterci lell, ha
i) Tk +1 Tk 0 ,005
ii) k>30.
Tk +1 + Tk
vagy
2
15
A helyzeti kzptl val eltrsbl rezidulist kapunk. A rezidulis szmllja a

medintl val eltrs, mg a nevezje a minta medinjtl val abszolt
rtkes eltrsek medinja.
ui =
xi T
xi Medin( x )
=
s
Medin xi Medin( x )
Az (u) fggvny - mint sly - a rezidulis nagysghoz kapcsoldik. Az

SPSS-ben a sly megvlasztsra elrhet c1)-c4) eljrs a kidolgozirl kapta
a nevt.
c1) Huber esztimtorban:
1,
ha ui 1,339
ha ui > 1,339
(1,339 / ui ) sgn(ui ),
(ui ) =
Itt 1,339-tl vltoz eljellel cskken, eltte pedig 1 a sly.

c2) Tukey kt slyt hasznl. A 4,685-nl nagyobb abszolt rtk,
sztenderdizlt rezidulisra 0 slyt ad, a kisebbekre pedig a centrumtl val
tvolsggal fordtott arnyos a sly.
( u i ) = 1 (
ui 2
) , ha u i 4 ,685 ,
4 ,685
0 klnben
c3) Hampel slyfggvnye 4 szakaszbl ll:
( ui )
= 1, ha az ui1,7
a)
A sly
b)
( u i ) =
1,7
sgn( u i ) , ha a 1,7<ui 3,4
ui
c)
( u i ) =
1,7 8 ,5 u i
sgn( u i ) , ha a 3,4<ui8,5
u i 8 ,5 3 ,4
d) Ha pedig az ui >8,5 akkor a sly = 0.

c4) Andrews szinusz fggvnyt javasolt, ebben nincs trs.
A sly
( u i ) =
ui
1,34
) , ha ui1,34* (~4,2).
sin(
1,34
ui
16
1.5. tblzat: A korriglt tlagok szmtsa

M-Estimators
Huber's Ma
Estimator
Average female
Tukey's
Biweight
Hampel's Mb
Estimator
Andrews'
Wave
73,06
74,51
73,09
74,55
66,85
67,30
66,44
67,33
life expectancy
Average male life
expectancy
a. The weighting constant is 1,339.

b. The weighting constant is 4,685.
c. The weighting constants are 1,700, 3,400, and 8,500
d. The weighting constant is 1,340*pi.
A negatv ferdesg miatt mindkt vltozra mind a ngyfle korriglt tlag

meghaladja a szmtani tlagot, st a nyesett tlagot is. A nk vrhat lettartamnak
minden M-esztimtora magasabb a 95%-os konfidencia intervallum fels hatrnl,
mg a frfiakra szmolt Hampel-fle rtk beleesik a konfidencia intervallumba.
Az lettartambecsls pontossga azrt kiemelten fontos, mert a fejlett orszgokban
ez a mutat folyamatosan emelkedik. Kt megllaptst tehetnk ebben a
szakaszban:
-
rdemes vrl vre friss adatokat gyjtve megismtelni a szmtsokat.

Clszer a fejlett s a fejld orszgokat kln csoportban vizsglni, hogy
homognebb almintink legyenek.
d) Interquartile range: interkvartilis (bels) terjedelem, a fels kvartilis (75%) s

az als kvartilis (25%) kzti klnbsg: IQR=Q3 Q1 , s ez a doboz diagram (boxplot) doboznak magassgt adja meg.
A vrhat lettartamokra 1.3. brn lthat a kzs doboz-diagram, eredeti nevn
Box-plot. A doboz kzepn lev vonal a medin, a dobozban a megfigyelsek 50%a tallhat. A doboz alja: az els kvartilis: Q1 , teteje a fels kvartilis: Q3.
Felfel s lefel addig hzzuk a vonalat, amg az albbi kett kzl az els
bekvetkezik:

-
elrjk a tnyleges maximumot vagy minimumot,
fel/lemrjk az interkvartilis terjedelem 1,5-szerest.
17
A fenti tartomnyon kvl es megfigyels outlier (jele: o).

A kilg (Outlier) pontok tartomnya:
alul: Q1 3IQR; Q1 1,5IQR
fell: Q3 +1,5IQR; Q3 +3IQR
A hromszoros interkvartilis terjedelemnl tvolabbi megfigyelsek az extrm
pontok (jelk:*):
alul: x Q1 3IQR
fell: x Q3 +3IQR
Br az lettartam kvartilisek eltrek, klnbsgnk mindkt nemre 12 v, ezrt a
dobozok magassga azonos. Az eloszlsok ferdk, ezrt a vonalkk hossza felfel s
lefel eltr. Az outlier orszgok szmmal vagy nvvel rathatk ki. Itt csak lefel
vannak kilg nagyon alacsony vrhat lettartam orszgok melyeket az
orszgnv-cmkk azonostanak. Az 1.3. brba behztuk a frfi medin letkort (67
v). Szembetn, hogy a nk als kvartilise is a frfi-medin vonal felett van. Azaz
az orszgok 75%-ban tovbb lnek a nk 67 vnl, mg a frfiaknl csak 50% ez az
arny.
1.3. bra: Doboz diagram 2 vltozra
18
e) Az extrm rtkek listja minden vltozra az 5 legnagyobb s az 5 legkisebb

megfigyelst sorolja fel akkor is, ha ezek nem valban kilg pontok. Az extrm
listt ssze kell vetni a box-plottal vagy a stem&leaf brval, hogy a tnyleges bels
tvolsgokrl meggyzdhessnk.
f) A Stem&leaf bra a gyakorisgokat adja meg, s felsorolja az egyes
osztlyokban 4 elfordul rtkeket. A megfigyelt rtk utols szmjegye a levl
(leaf). Errl az brrl pldul azonnal megllapthat, hogy a 75 ves kor mellett a
nk msik mdusza a 78, mert mindkett 9-9 orszgban fordul el. (1.4. bra)
Nagyobb minta esetben egy-egy levlke tbb (egymshoz kzeli) esetet jelkpez. A
minimum vagy maximum eltti szakadst, s a terjedelmen belli res kategrikat
is lthatjuk egy ilyen brn. is lthatjuk egy ilyen brn.
Average female life expectancy Stem-and-Leaf Plot
Frequency
Stem &
9 Extremes
Leaf
(=<50)
5 .
223
5 .
455
5 .
77
5 .
88889
6 .
6 .
455
6 .
677777
6 .
8888899
7 .
000001
7 .
222333
14
7 .
44444555555555
11
7 .
66666777777
16
7 .
8888888889999999
14
8 .
00000001111111
8 .
222
Stem width:
Each leaf:
10
1 case(s)
1.4. bra: Stem-and-leaf gyakorisgi bra

4
Ordinlis skln mrt adatok is megjelenthetk gy.
19
Hzi feladat: Bizonytandak az albbi lltsok:
A nyess hatsra a vltoz szrsa biztosan cskken.

A nyess utn az tlag lehet azonos, kisebb, st nagyobb is, mint az eredeti
adatok tlaga.
1.5. A normalitsvizsglat numerikus s grafikus mdszerei

A normalits vizsglatnak kt mutatszmt, a ferdesg s a cscsossg
mrszmait mr ismertettk az 1.2. alfejezetben. Mindkettre nullhipotzist
lltottunk fel, s t-teszttel vizsgltuk a normlis eloszlstl val eltrs mrtkt.
Br az SPSS nem szmolja, a ferdesg s cscsossg rszeredmnyeinek
ismeretben knnyen meghatrozhat Jarque-Bera normalits tesztje 5, ha a
mintbl becslt ferdesg (4) s cscsossg (6) ngyzeteit sszegezzk az albbiak
szerint, ahol n a minta mrete:
JB =
n 2 1 2
1 + 2
6
4
A JB teszt hasznlata csak nagy minta 6 esetn ajnlott, s a JB rtkt a khi-ngyzet

eloszlssal vetjk egybe. A teszt szabadsgi foka kett, hisz kt ngyzetszmot
adunk ssze.
Eredmnyeink alapjn (JB_frfi= 21,702 s JB_n=22,549) mindkt vltozra el
kell vetni a normalitsi feltevst, hiszen a khi-ngyzet kritikus rtke 5,99 (ha a
szabadsgi fok=2 s p=0,05)
Ha a minta elg nagy, akkor 2 prbt vgezhetnk annak a hipotzisnek a
tesztelsre, hogy a vltoz normlis eloszlst kvet. Az SPSS kt normalits tesztet
szmol a ler statisztikk kztt. A Shapiro-Wilks tesztet rtkeljk n<50-re,
nagyobb mintra a Kolmogorov-Szmirnow teszt szmtott rtke alapjn
kvetkeztetnk.
1.5.1. Kolmogorov-Szmirnov prba

Itt az empirikus eloszls fggvny s a normlis eloszls sszevetst gy vgezzk,
hogy a sokasgi vrhat rtket s a szrst is a mintbl becsljk. Ezt a vltozatot
Lilliefors 1967-ben javasolta.
Az
adatokat
standardizljuk: z (i )
5
nagysg
szerint
sorba
rendezzk,
majd
= x(i ) x s . Ehhez a z-hez tartoz sztenderd normlis
konometribl is ismert lehet a JB teszt: Jarque, Carlos M. s Bera, Anil K. (1980).

"Efficient tests for normality, homoscedasticity and serial independence of regression
residuals". Economics Letters 6 (3): 255259.
6
Mivel 109 adatbl dolgozunk, alkalmazhat a J-B teszt.
20
eloszls fggvnyrtke: (z (i)). Az empirikus eloszlsfggvny lpcss fggvny,

0 s 1 kztt i/n rtket vesz fel.
gy Di=i/n-(z
(i))eltrsek
maximuma, max Di lesz a teszt fggvny rtke.

i
Szabadsgi foka n, azaz a megfigyelsek szma.

A nem-parametrikus 7 prbk blokkjban is kszthet egymints K-S teszt, de ott a
max Di helyett
i
n max Di addik.
i
1.5.2. Shapiro-Wilk W mutat

Az SPSS ltal kzlt msik tesztet Shapiro s Wilk publiklta 8 1965-ben. Itt is a
nvekv sorba rendezett x(i) adatokbl indulunk ki. A W mutat szmlljban lev
slyokat (a vektor) a sorba rendezett adatok tlaga (m vektor) s kovariancia mtrixa
(V) alapjn hatrozzuk meg. A teszt szabadsgi foka a megfigyelsek szma.
1.6. tblzat: Normalits prbk

Tests of Normality
a
Kolmogorov-Smirnov
Statistic
df
Sig.
Shapiro-Wilk
Statistic
df
Sig.
Average female life

expectancy
,174
109
,000
,860
109
,000
Average male life

expectancy
,164
109
,000
,882
109
,000
a. Lilliefors Significance Correction
A nem-parametrikus prbk nem valamely eloszlst jellemz paramter becslt rtkt

tesztelik.
8
Shapiro, S. S.- Wilk, M. B. (1965). "An analysis of variance test for normality (complete
samples)". Biometrika 52 (3-4): 591611. A Biometrika folyirat nagyon sok, statisztikai
szempontbl jelents rst jelentetett meg. Az ELTE Knyvtrban olvashatk is a rgi
jsgok.
7
21
Az 1.6. tblzat alapjn mindkt vltozra elvetjk a normalitsi feltevst 9, mert a

K-S teszt empirikus szignifikancia szintje mindkt vltozra kisebb, mint 0,05.
1.5.3. Grafikus normalits vizsglat

Grafikus normalits vizsglatot 10 is kapunk az Explore-bl Q-Q plot nven. Ez a
kvantilisek 11 brja, innen kapta nevt, azaz a Q-Q-t. Ha a vzszintes tengelyen az
letkort, a fgglegesen pedig a sztenderd normlis eloszls u vltozjt brzoljuk,
akkor az
xx x x
) = transzformci utn a normlis eloszls
u = 1 (
s s s
vltoz rtkei a 45 fokos egyenes mentn helyezkednek el, vagy az tl krl

vletlenszeren szrdnak.
Ha a normalitsi feltevs helyes, csak a paramterekben tvedtnk, akkor az egyenes
helyzete ms lesz.
Ha a normalits nem teljesl, amint ez az 1.5. brn is lthat, akkor a pontok
szisztematikusan trnek el az egyenestl.
A frfiak vrhat lettartama a tesztek alapjn sem kvetett normlis eloszlst.
Nagyon alacsony tlagletkorban jval tbb orszgban halnak meg, mint ami a
normlis eloszls alapjn vrhat lenne. 60 krli vrhat lettartamot kevesebb
orszgban ltunk, s 75 fltt ismt magasabb a megfigyelt, mint a vrt gyakorisg.
A Q-Q brhoz megkapjuk a felttelezett s a megfigyelt eloszls eltrst mutat
vltozatot is, melynek neve: Detrended Q-Q, s a 1.6. brn lthat.
Az 1.1.brn a hisztogramot ltva biztosak lehettnk a dntsben, szinte felesleges volt a

teszt.
10
Ajnlott olvasmny a tmhoz Hunyadi Lszl cikke a 2002. januri Statisztikai
Szemlben.
11
A kvantilisek kztt a legismertebbek a msodrend kvantilis= medin, a
negyedrend=kvartilisek, a tized-rendek, azaz a decilisek, s a szzadrendek, a
percentilisek.
22
1.5. bra: Grafikus normalits vizsglat Q-Q brn
1.
6. bra: A normlis eloszlstl val eltrs brja
23
Ha az a clunk, hogy normlis eloszlsv transzformljunk egy ferde eloszls

vltozt, akkor tbb lehetsg kzl vlaszthatunk.
Szba jhet a szls, extrm rtkek elhagysa. Ez akkor igazn hasznos,

ha kevs ilyen adatunk van, s ezek tvol vannak a megfigyelsek
tbbsgtl.
A pozitv ferdesg mutatk logaritmlsa vagy az adatokbl val

gykvons ajnlott, ez legtbbszr hatkonyan orvosolja a problmt.
A pnzgyi mutatk, a biztostsi sszegek s ms jvedelem-adatok eredenden

pozitv ferdesgek, mert a kisebb rtkek elfordulsa gyakoribb. A szls rtkek
elhagysa alapos megfontolst ignyel a pnzgyi elemzsekben. Egy klnsen
nagy sszeg hitelt felvev ads vagy egy hatalmas krt bejelent biztostott
adatainak elhagysa az egsz szmts rtelmt megkrdjelezheti!
A Transform / Compute Variable menpontban megtalljuk az aritmetikai
fggvnyek kztt mind a tzes alap, mind a termszetes alap logaritmust.
A WORLD95.sav-ban szerepl mutatk kzl egy fre jut GDP pozitv ferdesg
(1,146, s st. hibja 0,231) ezrt transzformljuk. A GDP/f tzes-alap logaritmust
tartalmazza az adatllomny, ezrt most az e-alap logaritmust, az ln(gdp)-t
ksztjk el. Ha sszevetjk a kt transzformlt vltozt, akkor mindkett a
szimmetrikushoz kzelebbi eloszlst kvet, ferdesgk azonosan -0,243 s a
sztenderd hiba 0,231.
A K-S teszt alapjn mr nincs elegend bizonytkunk arra, hogy a normalitst 5%os valsznsgi szinten elvessk a 1.7. tblzat szerint, mg a kismints W mutat
tovbbra is elvetn a normalitsi feltevst.
1.7. tblzat: A logaritmls hatsa a tesztekre
Tests of Normality
Kolmogorov-Smirnova
Statistic
df
Sig.
Shapiro-Wilk
Statistic
df
Sig.
Gross domestic product / capita
,204
109
,000
,800
109
,000
Log (base 10) of GDP_CAP
,085
109
,053
,950
109
,000
Lngdp (base e)
,085
109
,053
,950
109
,000
24
Hzi feladat: Bizonytand, hogy az x adatsorra ksztett log10(x) s az ln x tlaga

s szrsa eltr, de a kt adatsor ferdesge s cscsossga megegyez lesz.
1.6. Idsoros adatok statisztikai elemzse

Az adatelksztshez tartoz lps az idsoros adatok differencijnak kpzse is.
A pnzgyi letben szmos idsor, pl. hozam, rfolyam adat gylik, de az idbeli
egymsutnisg miatt nem tekinthetk fggetlen megfigyelseknek, s nem
stacionriusak. A differencia kpzsvel kikszbljk ezeket, s gy ler
statisztikai elemzseket vgezhetnk, korrelcit szmolhatunk, s a pronknti
lineris korrelcin alapul tovbbi modelleket illeszthetnk.
Az adatokat az importls utn SPSS llomnyknt 12 elmenthetjk. A vltozk
mrsi skljt rdemes ellenrizni, mert nem mindig sikerl tkletesen az tvitel.
A szmtsokat az Indexek.xls adatllomny megnyitsval s importlsval
vgezhetjk el. Ebben 1999.01.07. s 2009.12.31. kztt htkznapokon t tzsdei
index rtkeit ltjuk. A megfigyelsek szma 2753, de mivel ezek egymst kvet
napok mrt adatai, ezrt nem vletlenszer s egymstl nem fggetlen
megfigyelseink vannak.
Az adatsorok egymstl eltr alakulst jl mutatja a Multiple Line Chart, ahol az
egyedi rtkeket vlasztva (Values of individual cases) kaphatjuk meg a 1.7. brt.
A legnagyobb hullmzst a BUX mutatja, mg az angol (UKX) s a nmet (DAX)
indexek els ltsra is egyttmozognak, azaz kointegrltak 13.
12
Az SPSS egy munkalapos Excel llomnyt tud kzvetlenl beolvasni, ha az els sorban a
vltozk rvid neve ll. (A nv legyen maximum 8 alfanumerikus karakter hossz, clszer
kezet nlkli, angol betket hasznlni, specilis karakterek nlkl.)
13
Kt idsort kointegrltnak neveznk, ha egytt mozognak az idben, de ok-okozati
kapcsolatot nem tteleznk fel kzttk. konometria knyvek rszletesen foglalkoznak
ezzel a mdszerrel.
25
1.7. bra: Az eredeti 5 tzsdeindex 11 ves adatsorai

De most nem kzvetlenl az idsorok viselkedst elemezzk. Clunk az egymst
kvet napokra kpzett klnbsgek elemzse. Ezek mr stacionriusok, ahogy az
1.8. bra mutatja.
1.8. bra: Az 5 tzsdeindex els differenciinak idsora
26
rdekes krds, hogy az egyes napok szerint klnbznek-e a differencik. Ezt

rszben a panel brkon tekinthetjk meg (1.9. bra), rszben az Explore-ban
factor=napok belltssal szmolhatjuk ki, s dobozdiagramon brzolhatjuk. (1.10.
bra) Az adott nap differencija az jelenti, hogy az elz naprl erre tlpve hogyan
vltoztak az indexek. Teht a htfi differencia a htf-pntek klnbsget mri.
1.9. bra: A differencik napok szerint bontott idsorai

Az 1.10. brn a dobozdiagramok egyms mellett mutatjk a napokra vonatkoz
magyar adatokat. Az t doboz kzepn a medin vonalat ltjuk, ami ltalban nem
zrus. Lthat, hogy a dobozok magassga kicsi, azaz a vltozsok 50%-a nem volt
jelents.
27
1.10. bra: A magyar differencik dobozdiagramjai naponknt

A magyar s a nmet adatokbl kpzett differencikra szmolt eredmnyek egy
rszt a Report belltssal tmrebb formban tartalmazza az 1.8. s az 1.9.
tblzat. A napok kztti tlagok eltrse mellett a relatv szrsok hatalmas rtkei
rdemelnek figyelmet. A szrs/tlag rtkek a szzat is meghaladjk a magyar
keddi adatokra! A magyar adatok nagyobb terjedelmhez nagyobb szrs is tartozik
A vltozsok tlaga szerdnknt a magyar s a nmet adatokra negatv, teht keddrl
szerdra inkbb volt cskkens, mint nvekeds. Ez a fekete szerda 14 megllapts
mind az t orszgra rvnyes. A japn s az amerikai tlagos differencia emellett
mg pnteken, az angol tlag pedig kedden negatv.
14
2008. oktber 15-re volt minden orszgban nagy ess, kivve Japnt. Ott msnap, oktber
16-n rtk el a vltozsok mlypontjt.
28
1.8. tblzat: BUX index els differencinak statisztikai mutati napok szerint
Case Summaries
DBUX
napszma
Mean
Minimum
Maximum
Std. Deviation
htf
525
21,8571
-1165,00
1203,00
250,27327
kedd
559
2,3971
-1067,00
1049,00
241,33509
szerda
559
-13,1878
-1953,00
1654,00
275,93169
cstrtk
557
3,4147
-1381,00
800,00
250,26170
pntek
552
12,8786
-834,00
1598,00
240,67750
Total
2752
5,2522
-1953,00
1654,00
252,15855
1.9. tblzat: DAX index els differencinak statisztikai mutati napok szerint
Case Summaries
DDAX
napszma
Mean
Minimum
Maximum
Std. Deviation
htf
525
2,0229
-524,00
518,00
90,73243
kedd
559
,2755
-396,00
488,00
80,41003
szerda
559
-4,2934
-337,00
298,00
79,56389
cstrtk
557
1,3591
-353,00
382,00
80,53497
pntek
552
1,9221
-343,00
327,00
78,76485
Total
2752
,2304
-524,00
518,00
81,99164
Az 1.11. bra a napokra szmtott tlagokat s az 1.12. bra a napokra kpzett

szrsokat mutatja orszgonknt. Ezek az brk Multiple line, Summaries of
separate variables belltssal kszltek, ahol a kategria tengelyt a napok jelentik.
Az angol s a nmet tzsdei adatok nullhoz kzeli tlagos vltozsa s legkisebb
szrsa a legszembetnbb a kt brn.
29
1.11. bra: Az t index vltozsainak tlaga a 11 v sorn
1.12. bra: Az t index vltozsainak szrsa a 11 v adataibl

Hzi feladat:
A 1.8. s a 1.9. tblzat eredmnyeit rdemes ellltani s ttekinteni az amerikai,
az angol s a japn adatokra is
2. Kategrik s kereszttblk
elemzse
Ha vizsglt adathalmazunkban tbb vltoz van, felttelezhet, hogy vannak
kzttk fggetlen vltoz-prok, s vannak olyanok is, amelyek hatnak egymsra
vagy klcsns kapcsolatban llnak egymssal. A kapcsolat ltnek s erssgnek
feltrsra tbb mdszer ll rendelkezsnkre, melyek kzl a mrsi sklk
ismeretben vlaszthatunk. A legegyszerbb eljrsok a kvetkezk:
Kt nominlis, kt ordinlis vagy vegyes (nominlis s ordinlis) skln

mrt vltozkra vonatkoz megfigyelseket kereszttblba rendezzk, s
fggetlensgi hipotzist fogalmazunk meg.
Ordinlis sklj vltozkra (Spearman) rangkorrelcit szmolunk.

Intervallum (vagy arny) skln mrt vltozk kztti lineris kapcsolatot
korrelcival mrjk.
Kettnl tbb vltoz kapcsolatrendszernek vizsglatra a ksbbi fejezetekben
szerepl mdszerek alkalmazhatk.
2.1. Kategrik ellltsa

A gazdasgi-pnzgyi elemzsek tbbsgben sok adatbl kiindulva kpezhet
kategria vagy index, aminek az rtelmezse knnyebb, mint az eredeti adatok
minstse. Ilyen pldul az orszg-kockzati besorols, ahol a besorolsi kategria
vltozsa, pldul egy leminsts bejelentse a rszletek kzlse s ismerete
nlkl is informcit ad egy orszgrl.
A banki s biztosti gyakorlatban is sok olyan adat ll az elemz rendelkezsre,
amelyet csoportostva, kategorizlva rdemes felhasznlni. Pldaknt a kvetkezk
emlthetk:
A hiteltrlesztsben ksedelmes gyfelek besorolsa a legalbb 30, 60 s

90 napos ksedelmi kategriba.
A biztostsban a kockzatelbrls folyamata, melynek binris kimenetele

az gyfl kockzatnak vllalsa vagy elmenponta, vllalskor pedig
esetleg magasabb djosztsba sorols.
A gpjrm felelssgbiztostsban a bnusz-mlusz rendszer fokozatai.
KATEGRIK S KERESZTTBLK ELEMZSE
31
A testtmeg index (BMI) arny skln szmthat, hisz kplete = testsly

(kg)/ magassg (mter)2, mgis rtkelse 4 kategriba 15 sorolva trtnik:
Sovny, ha BMI < 18,5
Norml testalkat 18,5 - 24,9 kztt
Tlslyos 25 - 29,9 kztt
Ersen testes, tlslyos, ha BMI > 30.
Az gyfelek tovbbi ismert tulajdonsgai kapcsolatban llhatnak a kategriabesorolssal. Elemezni rdemes pldul azt, hogy az egyn neme, letkora, csaldi
llapota, jvedelme, a gpjrm tpusa kzl melyik s milyen hats. Itt azonban
felmerl az eltr mrsi sklk problmja, tovbb az, hogy elegend
megfigyelsnk van-e.
Az letkor vagy a jvedelem mrse intervallum skln trtnik, de egy-egy
letkorhoz vagy jvedelem szinthez nem felttlenl tartozik sok egyn. Ezrt
statisztikailag indokolt a sklkat transzformlni, s ordinlis mrsi szint
kategrikba sorolni az ilyen vltozkat. A tovbbiakban a kategrikat hasznlva a
kereszttblkat lehet elemezni.
A skla-transzformci ebben az esetben a skla lertkelst jelenti, azaz
informcit vesztnk.
Eredeti s j skla
neve
Nominlis
Ordinlis
Ordinlis
Szls rtkek
sszevonsa, kzps
megtartsa
Kevesebb kategria kpzse
Intervallum vagy
arny
Az tlagos s az tlagtl
eltr rtkek
kategorizlsa
Az tlagos s az tlagtl felfel

valamint lefel eltr
megfigyelsek osztlyba sorolsa
Az rtkek s a kategrik sszevonsra nemcsak a skla vltoztatsa miatt kerl

sor. Szksg lehet erre, akkor is, ha egy-egy osztlyba kevs megfigyels kerlt.
Erre az SPSS/Transform/Recode into Different Variables hasznlata ajnlhat, hogy
az eredeti adatok is megmaradjanak.
A kategorizls/diszkretizls szmos mdon elvgezhet. Szakmai megfontolsok
alapjn s az eloszlst megvizsglva rdemes vlasztani az albbiak kzl.
15
Kerektst alkalmazunk, amikor a legkzelebbi egsz szmot tartjuk meg:

az letkort is csak vekben mrjk, a jvedelmet 1000-re, szzezerre
kerektve adjuk meg.
Sportolk, idsebbek rtkelsre ms hatrok alkalmazhatak.
32
Egyenl hossz kategrikat kpznk, pl. 5 ves letkor tartomnyokba

soroljuk az embereket, vllalkozsokat.
Egyenl gyakorisg csoportokat hozunk ltre, pl. kettosztjuk a

medinnl, 10 csoportot kpznk a decilisek mentn vagy 4 csoportot a
kvartilisek szerint.
Osztlyozssal, amikor a kategriahatrokat elre kijelljk. (Ilyen a

dolgozatok pontozst kveten megllaptott rdemjegy is.)
Elzetes kategria hatrok kijellse nlkl, a tbb dimenziban

leghasonlbb
megfigyelsek
csoportba
sorolsval,
amit
klaszterelemzssel 16 kszthetnk el.
Mieltt az eljrsrl dntnk, rdemes megvizsglni az adatok lehetsges tagolst.
Ehhez felhasznlhatjuk az SPSS/ Transform/Visual binning menpontjt, amely
grafikus s numerikus megkzeltst is alkalmazva tbbfle felosztst tud
megjelenteni.
a) Egyenl hossz intervallumokat krve az albbiak kzl 2 rtket kell berni:

-
Els metszspont
Metszspontok szma
- Intervallum hossza
b) Egyenl percentilisekre bontst krve az egyik rtket kell megadni:
-
Metszspontok szma (3 metszspontra 25%-os feloszts addik)
Intervallum hossza (20% megadsa 4 metszspontot ad!)
c) Az tlag s a szrs alapjn az tlag krl 1, 2 vagy 3-szoros szrsnyi

intervallumokat vlaszthatunk, ha az elzetesen brzolt adatok hisztogramja
normlis eloszlshoz hasonl kpet mutat.
Ha megnyitjuk a Program Files\SPSS\tutorial\samplefiles\autoaccidents.sav
adatokat, s az 500 gyfl letkor megoszlst oszlopdiagramon 17 brzoljuk, akkor
a 2.1. brn lthat, hogy rdemes a 22-68 v kztti vezetket kevesebb korkategriba sorolni, mert egy-egy letkorhoz statisztikai szempontbl kevs
ember tartozik.
16
A klaszterelemzs mdszercsaldot a 3. fejezetben mutatjuk be.

Pldnkban az oszlopdiagram nem egyezik meg a hisztogrammal. A hisztogram nulla
elfordulst jelezne 63 vnl s 65-67 v kztt, mivel nincs ezekhez az letvekhez tartoz
gyfl. Az oszlopdiagram csak a megfigyelt rtkeket tkrzi.
17
33
2.1. bra: A vezetk letkornak oszlopdiagramja

Arra rdemes figyelni, hogy ha egyenl hossz intervallumokat ksztnk, akkor a
kzps kategriban nagyon sok egyn lesz, a szlskben pedig nagyon kevs.
Minl cscsosabb az eloszls, annl erteljesebben jelentkezik ez a problma.
A statisztikai megfontolsok (legalbb 5-10 megfigyels essen egy intervallumba)
mell rtelmezsi szempontokat is rdemes figyelembe venni. Ha ltalban 10 ves
intervallumokban kzlnek adatokat, akkor ksztsnk mi is ilyen felosztst. A
kezd rtket megadva s 4 kategrit krve a Paste gombbal az albbi Syntax
utastst lltjuk el:
* Visual Binning.
*age.
RECODE age (MISSING=COPY) (LO THRU 28.0=1) (LO THRU 38.0=2)
(LO THRU 48.0=3) (LO THRU 58.0=4) (LO
THRU HI=5) (ELSE=SYSMIS) INTO age10.
VARIABLE LABELS age10 'Age of insured (Binned)'.
FORMATS age10 (F5.0).
VALUE LABELS age10 1 '<= 28' 2 '29 - 38' 3 '39 - 48' 4 '49 - 58' 5 '59+'.
VARIABLE LEVEL age10 (ORDINAL).
EXECUTE.
34
rdemes binris kategorizlst alkalmazni a balesetek szmra, gy a

balesetmentesen vezetket elvlasztjuk a balesetet szenvedktl. Ezt az
SPSS/Transform/Recode into Different Variables funkcijval kapjuk: a nullk
megmaradnak, a tbbi rtk 1 lesz. (A cmkbe berhatjuk, hogy egy vagy tbb.)
Vgl pedig kereszttblban ellenrizzk, hogy mind az 500 megfigyels tkdolsa
megtrtnt, s nem vesztettnk adatot.
RECODE accident (0=0) (ELSE=1) INTO accid.
EXECUTE.
accid
one or more
zero accident
Number of accidents past 5
years
Total
accident
Total
122
122
139
139
107
107
63
63
39
39
19
19
122
378
500
A csoportok kialaktsa utn kereszttblban vizsgljuk a balesetek szma s a

vezet letkor-csoportja kztti kapcsolatot. Az elkszt lpsek utn tekintsk t
a kereszttbla elemzs mdszertant.
35
2.2. Kereszttbla ksztse s elemzse

Ebben a fejezetben a nominlis s/vagy ordinlis skln mrt vltozkra 18 felrhat
kombincis tblkkal foglalkozunk, s a vltozk kztti kapcsolatot mrjk.
2.2.1. Matematikai-statisztikai httr

A kereszttbla elemzsekor a kt vltoz kztti fggetlensg hipotzist vizsgljuk,
s a fggetlensg elvetsekor az asszocicis kapcsolat erssgt mrjk. A
vltozk kztti kapcsolatrendszerre azonban szmos ms hipotzis is felrhat.
a)
Kt nominlis vagy ordinlis mrsi szint vltoz esetn kereszttblba

rendezzk az egyttes elfordulsuk gyakorisgait:
Vltozk B1 B2 .. Bc sszesen
A1
f11 f12
f1c m1
A2
f21 f22
m2
Ar
fij
fr1
mi
frc mr
sszesen n1 n2 nj
nc n
Ktdimenzis tblra t modell illeszthet.

b) A tblban a vrt gyakorisgok (F) alakulsra felrhat modellek kzl a
legegyszerbb a minimlis vagy null-modell. Ekkor a tbla minden
celljban egyenl gyakorisgot tteleznk fel, az sszes megfigyelst
sztosztjuk az sszes cella (rc) kztt:
Fij = n / rc
(2.1)
1.Plda: Vrt gyakorisgok a null-modellben

A tblban a megfigyelt peremgyakorisgok szerepelnek, amelyek nem
felttlenl egyeznek meg a vrt gyakorisgok sor- s oszlopsszegeivel.
Vltozk B1
B3
sszes
A1
100/6 100/6 100/6
60
A2
100/6 100/6 100/6
40
sszes
18
B2
10
50
40
100
Nominlis s intervallum vltozk kztti kapcsolat vizsglatra pldul a

szrselemzs alkalmazhat.
36
c)
Felttelezhetjk, hogy a vrt gyakorisgokra csak az egyik vltoz hat. Az

elsrend hats egyik modelljben csak a sorvltoz hat, az adott kategria
sszes gyakorisgt egyenletesen sztosztjuk az oszlopok kztt, mert az
oszlopvalsznsg konstans. Ekkor
(2.2)
Fij =mi /c
2. Plda: Sorhats modelljben vrt gyakorisgok

Vltozk B1
B2
B3
sszes
A1
60/3 60/3 60/3
60
A2
40/3 40/3 40/3
40
sszes
10
50
40
100
d) Elsrend modellt az oszlopvltoz hatsra is felrhatunk, az oszlop

sszes gyakorisgt egyenlen elosztjuk a sorok kztt. Ekkor a
(2.3)
sorvalsznsg konstans, s a vrt gyakorisg: Fij = nj /r
3. Plda: Oszlophats modelljben vrt gyakorisgok
Vltozk B1
B3
sszes
A1
10/2 50/2 40/2
60
A2
10/2 50/2 40/2
40
sszes
e)
B2
10
50
40
100
Elsrend modellt illesztnk akkor is, ha sor- s oszlopvltozk egymstl

fggetlen hatst ttelezznk fel. Ekkor a fggetlensg modelljt rjuk fel,
amelyben a sor s az oszlop sszegeket is figyelembe vesszk a vrt
gyakorisg becslsekor:
(2.4)
Fij = mi nj /n
4. Plda: Fggetlensgi modell vrt gyakorisgai

Vltozk B1
B3
sszes
A1
60*10/100 60*50/100 60*40/100
60
A2
40*10/100 40*50/100 40*40/100
40
sszes
f)
B2
10
50
40
100
Az egyes vltozk egyedi hatsa mellett klcsnhatsuk, azaz msodrend

hats is szerepel a teltett modellben. Ez a modell teljesen a megfigyelt
(2.5)
gyakorisgok alapjn becsli a vrt elfordulsokat: Fij = f ij
Ez utbbi esetben tkletes az illeszkeds, az elbbiekben viszont mrni kell a

megfigyelt s a vrt gyakorisgok eltrst. Az t modell tovbb vizsglhat
37
loglineris modellezssel. Ez az eljrs terjedelmi korltok miatt nem szerepel a

jegyzetben.
A fggetlensg felttelezse mellett elfordul eltrsek mrtkt a Pearson ltal
javasolt khi-ngyzet prbval (2.6), likelihood arny teszttel (2.7) vagy lineris
asszocicis teszttel (2.8) mrjk.
=
2
i =1 j =1
( f ij mi n j / n) 2
mi n j / n
, szabadsgfok: (r-1)(c-1)
Likelihood arny teszt: L(f)= 2
f ij
f
i =1 j =1
ij
ln
mi n j / n
(2.6)
, sz.fok: (r-1)(c-1)
(2.7)
Lineris asszocici tesztje 19
2 = ( n 1 )r 2 ,
(2.8)
ahol r a lineris korrelci. A teszt szabadsgi foka 1.

Ha a fggetlensg hipotzist elvetjk, akkor mrni kell az asszocici szorossgt.
Erre szmos mutatszm ltezik, kzlk a szakmai felttelezsek s a mrsi skla
alapjn vlasztunk. Az asszocicis mrszmok ismertetst az SPSS-ben elrhet
csoportostsban mutatjuk be.
2.2.2. Kereszttbla elemzs megvalstsa az SPSS-ben:

A ler statisztikk kztt talljuk a kereszttbla elemzst annak ellenre, hogy itt
mr hipotzisvizsglatot 20 vgznk.
Analyze/Descriptive/Crosstabs vlaszts utn a kvetkez belltsokat tehetjk:
1.
Sor- s oszlopvltoz kijellse 21 az elemzs clja szerint.
2.
Layer: rtegekre, alcsoportokra bonthat a kereszttbla, gy vizsgljuk a 2

vltoz fggst, az eredmnyeket is gy bontva kapjuk.
Ez a lineris asszocici Mantel-Haenszel-fle tesztje.

Az eloszlsmentes vagy ms nven nem paramteres tesztek csaldjba tartozik a khingyzet prba.
21
Csak nomilis s/vagy ordinlis vltozkat vlasztunk. Intervallum/arny sklj vltozk
elzetesen kategrikra bontandk a Recode menponttal.
19
20
38
A Crosstab men STATISTICS opci hasznlata

A) Nominlis vltozkra szmthat hrom khi-ngyzet alap asszocicis
mrszm (2.9)-(2.11), melyek szimmetrikusak s 0-1 kztt mrnek:
Phi =(2/n)1/2
(2.9)
A (2.9) mutat rtelmezst nehezti, hogy a khi-ngyzet vrhat rtke a

szabadsgfok (variancija pedig annak ktszerese), ezrt kevs megfigyels esetn
Phi >1 is elfordulhat.
Cramer-V =
n( q 1 )
1/ 2
(2.10)
Ahol a (2.10) nevezje az aszimptotikus sztenderd hiba: ASE(V)=

(n(q-1))-1/2 s V/ASE(V)~N(0,1). A (2.10)-ben q=min(r,c).
Kontingencia egytthat CC = ( 2/(n+ 2))1/2
PRE 22-alap
Nominlis vltozkra
vlaszthatunk:
nem-szimmetrikus
(2.11)
mrszmokat
is
A Guttman ltal javasolt Lambda mutatnak hrom vltozata van:

1. ha B oszlopkategria ismert s az A vltoz i. sorba esst becsljk, akkor
max f
a b =
ij
max mi
(2.12)
n max mi
2 ha a sor szerinti besorols ismert, akkor
b a =
3.
max f
ij
max n j
(2.13)
n max n j
szimmetrikus mutat:
max f
j
ij
max mi + max f ij max n j

i
2n max mi max n j
(2.14)
Goodman-Kruskal tau mrtknek is 3 vltozata van, itt csak egyet runk fel, amely
azt mri, hogy a hibavalsznsg relatv cskkense mekkora, ha a sorvltoz
szerinti kategria ismert.
22
PRE: Proportional Reduction of Errors= relatv hibacskkens= (hiba1 hiba2 )/hiba1 .
b a =
39
n f ij2 / mi n 2j
i
n n
2
(2.15)
2
j
Bizonytalansgi (Uncertainty) egytthat (Likelihood-arny teszten alapul)

sor/oszlop mutat, PRE elven mr:
r
UC =
f
i =1 j =1
log(m i n j / nf ij )
ij
(2.16)
m
i =1
log(mi / n)
A kt utbbi mutatszm a G-K tau (2.15) s az UC (2.16) rtke aszimptotikusan

konvergl az (r-1)(c-1) szabadsgi fok khi-ngyzet eloszlshoz. Szlsrtkk:
0, ha az oszlop szerinti kategria ismeretben nem cskken a sorvariancia
1, ha az oszlop szerinti kategria ismeretben teljesen lecskken a

sor-variancia
B) Az ordinlis vltozkra alkalmas mrtkek nemcsak szorossgot, hanem irnyt is

mrnek, ezrt rtkk -1 s 1 kztt lehet.
Gamma (Goodman-Kruskal) =(P-Q)/(P+Q)
r
ahol
P = f ij S ij s Q =
i =1 j =1
(2.17)
f
i =1 j =1
ij
Dij , tovbb
S az egyezen rendezett megfigyelsek szma, azaz vagy i>k s j>l, vagy

i<k s j<l teljesl egyszerre. Az f12 hz kpest (+) jelli az ilyen cellkat az
albbi kis tblban.
D az eltren rendezett prok szma, vagy i>k s j<l, vagy i<k s j>l, ezeket
f12 hz kpest (-) jelli az albbi tblban:
f12
-
+ +
+ +
+ +
A Somers-fle d mutatnak 3 vltozata 23 van, ezek az i=k s a j=l egyezseket is

figyelembe veszik.
23
A Goodman-Kkruskal tau s a Somers d mutatk nevezi megegyeznek.
40
Ha az oszlopban van a fgg vltoz: dB/A= (P-Q)/Dr , ahol Dr = n 2
2
i
Ha a sorban van a fgg vltoz: dA/B= (P-Q)/Dc , ahol Dc = n 2
2
j
Ha szimmetrikus a kt vltoz: d =
PQ
1 / 2( Dr + Dc )
(2.18)
A Kendall-fle tau-b a mrtani tlaggal osztja az eltrst:
b =
PQ
(2.19)
D r Dc
Sztenderd hibja: ASE(b)={(4n+10)/9(n2 n)}1/2 .

Kendall tau-c
c =
q( P Q )
, ahol q=min (r,c)
n2( q 1)
(2.20)
C) Tovbbi mutatk:
Kappa: (Cohen mutatja) ngyzetes tblra, csak a diagonlis elemeket hasznlja,
pozitv rtke kt dntshoz vlemnye kztti egyezst mri.
K=
n f ii mi ni
i
(2.21 )
n mi ni
2
Kockzat (Risk): 2x2 tblra szmolhat, ha nincs res cella. Az els oszlopba
sorols relatv kockzata (f11(f21+f22))/(f21 (f11 +f12 )) mellett a msodik oszlopba
sorols relatv kockzata is szmolhat, s a kett hnyadosaknt az eslyhnyadost
R=(f11 f22 /f12 f21) is becsli. Konfidencia-intervallumot is kapunk mindhromra. Az
eslyhnyadosra az als s fels hatr:
R exp( z1 / 2 ); R exp(+ z1 / 2 ) ahol
1
1
1
1
=
+
+
+
f11 f12 f 21 f 22
1/ 2
McNemar teszt: csak ngyzetes tblra alkalmazhat. Ismtelt mrsre a vltozst

teszteli (before-after, initial-final hatsok), a diagonlison kvli elemekre pl:
(2.22)
MC=f 12-f 21
Nagy mintra
=
2
( f 12 f 21 1) 2
f 12 + f 21
s df=1
Cohran s Mantel-Haenszel statisztika: csak binris vltozkra alkalmazhat

(dichotom factor, dichotom response) egy vagy tbb kontrolvltoz esetn. Ha
41
logisztikus regressziban alkalmazzuk, akkor azt teszteli, hogy az oszlopvltoznak

(kezelsnek) nincs hatsa:
log
p ij
1 p ij
= + i + j ,
s a nullhipotzis szerint a j index oszlopvltozk megegyeznek.
Korrelcis egytthatt is szmolhatunk a kereszttbla elemzse sorn, amit

kivlasztva egyttal a Spearman-fle rangkorrelcit (s mindkett t-tesztjt) is
megkapjuk.
Az eta mutat is krhet, ha a nominlis vltoznak, mint szempontnak a

hatst mrjk az intervallum szinten mrt vltozra.
A kereszttbla elemzsben a tesztek nagy mintra alkalmazhatk, aszimptotikusan

kvetik a felttelezett eloszlst. Exact teszt szmolhat az SPSS-ben binomilis,
Poisson vagy hipergeometriai eloszls felttelezse mellett, ha a megfigyelsek
szma nem tbb mint 20-30, s a vltozknak hromnl nincs tbb kategrijuk.
Vgl grafikus brzolst is vlaszthatunk a kereszttblban vizsglt sszefggs
szemlltetsre.
Kombinlt oszlopdiagramot krhetnk Clustered bar chart nven. A sorok
szmval megegyez beosztst ltunk a vzszintes tengelyen, s mindegyiknl annyi
oszlop szerepel, ahny kategrija van az oszlopvltoznak. Az oszlopok magassga
az egyttes gyakorisg, ami a fggleges tengelyen jelenik meg.
2.2.3. 1. mintaplda
Az USA 242 felsoktatsi intzmnyt az iskola jellege valamint a tulajdonos
alapjn rendeztk, s a kt ismrv kztti fggetlensg hipotzist teszteljk.
A kereszttblban nincs res cella, s teljesl az, hogy cellnknt minimum 5
megfigyelst vrunk. A cellkban a megfigyelt gyakorisgok mellett krhetjk a vrt
gyakorisgok, a szzalkok (sor-, oszlop-, teljes) s a rezidulisok (kznsges s
sztenderdizlt eltrsek) feltntetst.
Milyen tulajdon? * iskola tpusa Crosstabulation
Count
Milyen
tulajdon?
Total
llami
magn
egyhzi
iskola tpusa
fiskola
egyetem
6
86
33
37
53
27
92
150
Total
92
70
80
242
42
A fggetlensg hipotzist minden valsznsgi szint mellett elvethetjk, hiszen a

khi-ngyzet tesztnl p<0,05 teljesl:
Chi-Square Tests
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value
68,264a
77,976
65,552
2
2
Asymp.
Sig.
(2-sided)
,000
,000
,000
df
242
a. 0 cells (,0%) have expected count less than 5. The

minimum expected count is 26,61.
Az eredmnyek kztt szerepl lineris asszocicis mrtk (linear-by-linear)

akkor rtelmezhet, ha a sor- s oszlopvltozk termszetes mdon rendezettek.
Ekkor a sorokhoz ui s az oszlopokhoz vj tetszleges szmokat rendelve, s a
gyakorisgokkal slyozva: LL =
u v
i
f ij addik. Az sszeget sztenderdizlva
khi-ngyzet eloszls statisztikt kapunk. A nullhipotzis azt mondja ki, hogy nincs
sor-oszlop interakci. Pldnkban a kategrik rendezettsge nem teljesl, ezrt nem
rtelmezzk.
A tulajdonos vltoz nominlis, az iskola tpusa ordinlis. Vegyes kapcsolatra
az SPSS-ben nincs kln mrszm, ezrt a nominlis vltozkra javasolt mrtket
vlasztjuk. Egyes szakmkban kialakult hagyomnya van annak, hogy melyik
mrszmot hasznljk.
Ha azt gondoljuk, hogy a kt vltoz kztt klcsns kapcsolat van, akkor a
szimmetrikus mutatk kzl kell vlasztanuk. sszehasonltani kt kereszttblt
csak azonos asszocicis mrtk alapjn lehet. A mrszmok rtke ltalban
klnbz. Pldnkban a hrom szimmetrikus kapcsolat-mrtk kzl kett
egybeesik, mert az iskolatpus vltoznak kt kategrija van, s ezrt a Cramer Vben q-1=min(r,c)-1=1 kerl a nevezbe. A (10) szerint szmolva a szignifikancia
szint lnyegben nulla, kzepesen szoros a kapcsolatot a kt vltoz kztt.
Symmetric Measures
Nominal by
Nominal
N of Valid Cases
Phi
Cramer's V
Contingency Coefficient
Value
,531
,531
,469
242
Approx.
Sig.
,000
,000
,000
43
A ktfle oksgi irnyt felttelez mrtkek kzrefogjk a szimmetrikus mrtket.

Mindig szakmai megfontols alapjn vlasztunk, nem a nagyobb szmot
rtelmezzk! Ha nem szimmetrikus kapcsolatot tteleznk fel, akkor feltevssel kell
lnnk arra, hogy melyik a fgg vltoz, s azt a sort kell rtkelnnk az output
tblban.
Gondolhatjuk azt, hogy a tulajdonos dnti el, hogy egyetemet vagy fiskolt alapt,
teht a tpus a fgg vltoz. De az az rvels is helyes lehet, hogy a mr mkd
iskolt veszi/kapja meg a tulajdonos, teht fordtott is lehet az oksgi kapcsolat.
Directional Measures
Nominal
by
Nominal
Lambda
Goodman
and
Kruskal tau
Uncertainty
Coefficient
Symmetric
Milyen tulajdon?
Dependent
iskola tpusa Dependent
Milyen tulajdon?
Dependent
Symmetric
Milyen tulajdon?
Dependent
Value
,302
Asymp.
Std. Error
,055
Approx.
T
4,889
Approx.
Sig.
,000
,313
,042
6,655
,000
,283
,082
2,959
,003
,152
,029
,282
,183
,048
,035
5,225
,000
,000
,147
,028
5,225
,000
,243
,046
5,225
,000
,000
A kombinlt oszlopdiagram szemllteti, hogy az llam dnten egyetemeket

finanszroz, mg az egyhzak inkbb fiskolkat mkdtetnek.
100
80
60
40
iskola tpusa
Count
20
fi sk ola
egy etem
0
l lami
magn
egy hzi
Milyen tulajdon?
2.2.4. 2. mintaplda
Ha van egy feltevsnk, pldul az, hogy a fiatalabb frfiak s a kzpkor nk
okoznak autvezets kzben tbb balesetet (lsd a Pontdiagramot a 2. brn), akkor
ennek tesztelshez a kategorizlt letkor vltozt s a nemet is figyelembe vesszk.
Ismt a Program Files\SPSS\tutorial\sample files\autoaccidents.sav adatokat
hasznljuk.
44
2. bra: Az letkor, a nem s a balesetek szma

Tbbfle hipotzist fogalmazhatunk meg s tesztelhetnk, ha az autoaccident.sav
llomnyhoz megnyitjuk az Analyze/Descriptive Statistics/Crosstabs ot.
a) A balesetek szma s a nemek kztti fggetlensgt vizsgljuk elszr. A
nominlis vltozkra elrhet asszocicis mutatkat krjk, hisz az gyfl neme
nominlis vltoz.
Az els Pearson-fle khi-ngyzet teszt rtke 16,584 (az empirikus szignifikancia
p=0,02), teht elvethetjk a fggetlensget, de a tblzat aljn figyelmeztetst
tallunk: 4 cellban a vrt gyakorisgok nem rik el az tt. Ez a 6 s 7 balesetet
okozk alacsony szma miatt kvetkezett be. Ilyenkor az 5 vagy tbb baleset
sszevonsa, az 5+ kategria kialaktsa segt. A tbbi rtket vltoztats nlkl
tmsoljuk. Az j vltoz neve acc6, hogy emlkezznk a kategrik szmra.
45
Sex of insured * acc6 Crosstabulation

Count
acc6
0
Sex of insured
5-6-7
Total
Male
46
69
54
38
23
20
250
Female
76
70
53
25
16
10
250
122
139
107
63
39
30
500
Total
A vrt gyakorisgok mr minden cellban kell szmban vannak, s a

fggetlensget a szoksos 5%-os valsznsgi szinten elvethetjk, hisz
p=0,012<0,05.
Chi-Square Tests
Asymp. Sig. (2Value
df
sided)
Pearson Chi-Square
14,666a
,012
Likelihood Ratio
14,833
,011
Linear-by-Linear Association
12,990
,000
N of Valid Cases
a.
500
0 cells (,0%) have expected count less than 5. The minimum expected count
is 15,00.
Ha azt gondoljuk, hogy a vezet neme befolysolja a balesetek szmt, akkor az

acc6 Dependent sorokat olvassuk. A Lambda mutat nem tmasztja al lltsunkat,
mert rtke statisztikailag nullnak tekinthet. A vezet nemnek ismeretbl alig
2%-nyi informcit szerznk a balesetek szmra.
46
.Directional Measures
Asymp.
Std.
Value
Nomi-
Lambda
Error
Approx.
a
Approx.
Sig.
Symmetric
,061
,032
1,814
,070
nal by
Sex of insured
,124
,060
1,926
,054
Nomi-
Dependent
nal
acc6 Dependent
,017
,033
,497
,619
Goodman and
Sex of insured
,029
,015
,012c
Kruskal tau
Dependent
acc6 Dependent
,006
,003
,009c
Uncertainty
Symmetric
,013
,006
1,950
,011d
Coefficient
Sex of insured
,021
,011
1,950
,011d
,009
,005
1,950
,011d
Dependent
acc6 Dependent
a. Not assuming the null hypothesis.
b. Using the asymptotic standard error assuming the null hypothesis.
c. Based on chi-square approximation
d. Likelihood ratio chi-square probability.
A vezetk nemt a balesetmentes-balesetes kettssggel is sszevethetjk. A

fggetlensget elvetjk, mertekkor a khi-ngyzet 9,758 (p=0,002), s a relatv
kockzatot is mrjk.
Sex of insured * accid Crosstabulation
accident
zero accident
Sex of insured
Total
one or more
Total
Male
46
204
250
Female
76
174
250
122
378
500
47
Annak relatv kockzata, hogy egy gyfelet balesetmentesnek minstnk, 0,605. A

balesetet okoz kategriba sorols relatv kockzata 1,172. Ezek hnyadosa
megadja az eslyhnyadost (odds ratio), a 0,516-t, ami a gyakorisgokbl
kzvetlenl is szmolhat: (46*174)/(76*204). Erre kapunk egy krli
konfidencia intervallumot. Teht a vezet neme a krokozsra nincs rdemi hatssal.
Risk Estimate
95% Confidence Interval
Value
Lower
Upper
Odds Ratio for Sex of insured

(Male / Female)
,516
,340
,784
For cohort accid = zero

accident
,605
,439
,835
1,172
1,060
1,297
For cohort accid = one or more

accident
N of Valid Cases
500
b) A balesetek szma s az letkor-kategrik kapcsolatra ksztett kereszttblban

nincs elegend bizonytk a fggetlensg hipotzisnek elvetsre. Ezt llaptjuk
meg akkor is, ha a binris balesetvltozra s a 10 vnyi hossz letkorkategrikra szmolunk. A khi-ngyzet rtke 1,58 (p=0,812). A fggetlensg
elvetsekor nem rtelmezzk az asszocicis mrszmokat, hiszen azok rtke
nem klnbzik szignifiknsan a nulltl.
c) A vezet neme vltoz rtegkpz (Layer) lehet, amit berva a kt nemre s a
teljes mintra is kereszttblt szmol a program. Kln tudunk teht dnteni a
frfiak s a nk csoportjban arrl, hogy az letkor s a baleset okozsa 24 kztt
van-e kapcsolat.
gy a hrom tblra egyszerre ltjuk, hogy a balesetmentes-balesetet okoz s az 5
letkor kategria kztti fggetlensg hipotzist egyik esetben sem vethetjk el. A
szabadsgi fok mindhrom esetben (5-1)(2-1)=4. Az 59 v feletti vezetk szma
24
A biztostk egy idszakban meglepve tapasztaltk, hogy a 45-50 ves nk nevn lev
autkra milyen sok krbejelents rkezik. Az ok termszetesen nem a nk roml vezetsi
rutinja, hanem az, hogy ppen felntt, jogostvnyt szerzett a fi, aki az anyja kocsijt kri
klcsn. (Azta a biztosts megktsekor jelezni kell, ha tbb szemly vezeti az autt.) A
plda tanulsga, hogy nagyon vatosan kell a kereszttblban a kategria vltozkat
megvlasztani. Nem a tulajdonos, hanem a hasznl neme s letkora a fontos, ha ezt is
rgzti a biztost adatbzisa.
48
kicsi, ezrt a tblzat aljn zenet figyelmeztet, hogy a vrt gyakorisg 5 alatt
maradt.
Chi-Square Tests
Sex of insured
Male
Female
Asymp. Sig.
(2-sided)
df
Pearson Chi-Square
2,880a
,578
Likelihood Ratio
3,040
,551
,000
,992
N of Valid Cases
250
2,606b
,626
2,511
,643
,000
,998
N of Valid Cases
250
Pearson Chi-Square
Likelihood Ratio
Total
Value
Pearson Chi-Square
1,580c
,812
Likelihood Ratio
1,573
,814
,002
,966
N of Valid Cases
500
a. 2 cells (20,0%) have expected count less than 5. The minimum expected count is 1,66.
b. 1 cells (10,0%) have expected count less than 5. The minimum expected count is 2,43.
c. 1 cells (10,0%) have expected count less than 5. The minimum expected count is 4,15.
3. Klaszterelemzs
A klaszterez eljrsok csoportostsa
Az osztlyoz eljrsok csaldjnak egyik gba sorolhat a klaszterelemzs, amely
tbbfle mdszer s konkrt eljrs sszefoglal neve. Alapgondolata az, hogy elre
nem ismert besorols esetben is feltrhat a halmazon bell egymshoz leginkbb
hasonl (kzeli) egyedek csoportja. Egyed alatt rthetjk a megfigyelsi egysget
vagy a vltozt, mindkettre vgezhet osztlyozs.
A klaszterez mdszerek kt f csoportja:
a hierarchikus osztlyozs s
a nemhierarchikus osztlyozs.
A hierarchikus osztlyozs kt megkzeltssel vgezhet.

Az sszevon (agglomeratv) hierarchikus eljrs kezdetben mind az n elemet kln
osztlynak tekinti, majd lpsenknt egy-egy sszekapcsolst vgez. sszesen (n-1)
lpsben 25 elvgzi azt az sszevons-sorozatot, amely vgl egyest minden egyedet.
Ez a folyamat grafikusan kt dimenziban megjelenthet. Ha az adott lpsben
mr k csoport van, akkor a kvetkez sszekapcsolst maximum k(k-1)/2 tvolsg
sszehasonltsval lehet kivlasztani. A konkrt sszevons 7 eljrsvltozattal
valsthat meg az SPSS-ben.
A feloszt (divizv) hierarchikus eljrs minden egyes lpsben valamilyen
dntsi kritrium alapjn kettosztja a megfigyelseket, gy az eljrs (2n-1-1)
feloszts megvizsglsa utn fejezdik be. A magas lpsszm miatt ezt az eljrst a
gyakorlatban nem alkalmazzk.
A nemhierarchikus osztlyozs a tmakr szakmai ismerete alapjn elre adott k
szm osztlyra bontja a mintt. Az n szm elem k nem res csoportba
k
1 k
(1) k j j n
k! j =1
j flekppen sorolhat be. A kplet alapjn n=8 megfigyelst
k=2 csoportba (1/2)(-2+28) = 127 vltozatban lehet besorolni.
Ha a struktra feltrsnak kezdetn a csoportok szmt nem ismerjk, akkor
minden 1 k n szmra el kellene vgezni a felosztst, hogy a k elfogadhat rtkt
megtalljuk. Nagymret feladatok esetben ez az t jrhatatlan, ezrt ilyenkor a
k
25
n 2
hvelykujj szablyt kvetjk. Hasznos lehet a hierarchikus klaszterezs
Ha p szm vltozra vgznk sszevonst, akkor (p-1) lesz a lpsek szma.
50
sszevon vltozatt elvgezve, struktrafeltr elemzst ksztve tjkozdnunk

a klaszterszmrl, br nagy elemszm esetben nem kapunk ttekinthet kpet.
A kvetkezkben a legismertebb, szmtgpes algoritmussal is rendelkez
klaszterez eljrsokat mutatjuk be. A tmakr ttekintst segti az elemzs dntsi
pontjainak elzetes ttekintse:
Ha az adatok elzetes csoportostsa nem ismert, akkor 3.1. fejezet szerint jrhatunk
el.
-
A tvolsgi vagy hasonlsgi mrszmok kztti tjkozdst segti a

3.1.1. alfejezet.
Az sszevon eljrs kivlasztsakor a 3.1.2. alfejezet ad tmutatst.
Ha a minta szerkezett tanulmnyozzuk, akkor 3.1.3. alfejezet segt.
A szmtgpes futtats lpseit a 3.4.1. alfejezet mutatja be.
Ha a megfigyelsekbl kpezhet klaszterek szmra feltevssel lnk, akkor a 3.2.

fejezetet kvethetjk.
-
A szmtgpes megvalsts lpseit a 3.4.2. alfejezet mutatja be.
3.1. Hierarchikus klaszterezs

A hierarchikus mdszerek legfbb sajtossga az, hogy a csoportostshoz nem kell
megadni a mintban ltez (vagy felttelezett) csoportok szmt.
ltalban 3 lpst 26 hajtunk vgre:
Az indul adatokbl 27 hasonlsgi vagy tvolsg-mtrixot kszthetnk.
rtelmezzk az egyedek s a csoportok egymshoz val kzelsgt.
brzoljuk az sszevonsi folyamatot.
E hrom lps sorn szmos rszdntst hozzunk, amelyek kvetkeztben eltr

eredmnyeket kaphatunk. Az egyedek kzti tvolsgot szmos mrszmmal
mrhetjk, kzlk pldul a mrsi skla alapjn vlaszthatunk. A mr egy
klaszterbe sorolt egyedek tvolsgt a tbbi egyedtl (vagy klasztertl)
szrmaztatott tvolsggal mrjk, amely szintn tbbflekppen rtelmezhet. Ezrt
fontos, hogy a lehetsgeket ttekintsk, s az adatrendszer sajtossgainak
leginkbb megfelel tvolsgmrtket s sszevon eljrst megtalljuk.
26
A lpsek megegyeznek akr eseteket, akr vltozkat osztlyozunk. Ezrt ezt a

szempontot csak akkor emltjk, ha szksges.
27
Az is elfordulhat, hogy ez a lps kimarad, mert inputknt mr a tvolsgi vagy a
hasonlsgi mtrixot ismerjk.
KLASZTERELEMZS
51
3.1.1. Tvolsgi s hasonlsgi mrtkek

Az elemzs clja alapjn vlasztunk, hogy tvolsgot vagy hasonlsgot szmolunk.
De azt, hogy a kt f csoporton bell melyik mrszmmal dolgozunk, az adatok
mrsi sklja alapjn kell eldnteni. A rszletes ismertets eltt az 3.1. tblzatban
sszefoglaljuk az egyes mrsi szintekre alkalmazhat mutatk nevt vagy
kpletszmt.
3.1. tblzat: Mrsi szintek szerinti mutatszmok kpletei
Mrsi szint / Mutat
Tvolsgi mutat
kplete
Hasonlsgi mutat kplete
Nominlis vagy ordinlis

skln mrt vltozk
Khi-ngyzet s Phi mutat (2.

fejezet)
Intervallum vagy arny

skln mrt vltozk
(3.1) (3.4)
Pearson-korrelci, bezrt szg

koszinusza (4. fejezet)
Binris skln mrt vltozk
(3.5) (3.10)
(3.11) (3.14)
Intervallum skln mrt adatok kztt mrt tvolsg
Az SPSS alaprtelmezsben a ngyzetes euklideszi tvolsgot javasolja, amely az i

s a k egyedek kztt (3.1) szerint szmolhat, ahol j index jelzi az egyedeket
vagy a vltozkat:
d ik = ( xij x kj ) 2
2
(3.1)
A Csebisev metrika csak a legnagyobb eltrst mri: d ik
= max xij x kj
(3.2)
Mg a city-block (vagy Manhattan) metrika sszegzi az eltrseket 28:
d ik = xij x kj
(3.3)
Ngyszer-ngy 29 tvolsg nven eltr hatvnykitevt s gykt vlaszthatunk:
A vltozk elzetes sztenderdizlsa nagyon fontos azrt, hogy ne klnbz

mrtkegysgben mrt eltrseket adjunk ssze.
29
A customized lefordtva felltztetett lenne. Mivel a p s az r 1-4 kztt vltozhat,
ezrt 4*4 mutatknt emltjk.
28
52
d ik = xij x kj
j
1/ r
(3.4)
ami p = r esetn megegyezik a Minkowski metrikval.

A hasonlsg mrsre a kt vektor ltal bezrt szg koszinuszt s a Pearson-fle
korrelcis egytthatt vlaszthatjuk.
Nominlis vagy ordinlis skln mrt adatok (Counts)
Alaprtelmezs szerint a kereszttblknl szoksos khi-ngyzetet vagy a Phingyzetet kapjuk, amelyek esetekre is s vltozkra is szmolhatk, s hasonlsgot
2 ( x, y ) =
i
(xi E ( xi ) )2 +
E ( xi )
( yi E ( yi ) )2
E ( yi )
PHI 2 =
mrnek. A khi-ngyzet mutat nagyon rzkeny a minta nagysgra, n-re.

A khi-ngyzet kpletben a vrhat rtk a fggetlensg felttelezse melletti
gyakorisgknt hatrozhat meg x-re s y-ra.
Binris vltozk 30
Mestersgesen is kpezhetnk binris vltozkat, ha csak a tulajdonsggal

rendelkezs vagy nem rendelkezs a fontos. Azt, hogy kt egyed (X s Y) mennyire
hasonlt, a tulajdonsgok egyttes elfordulsnak gyakorisgt tartalmaz
kereszttblbl olvassuk ki. (3.2. tblzat)
3.2. tblzat: Egyttes gyakorisgok
X/Y
(1)
(0)
sszesen
(1)
a+b
(0)
c+d
sszesen a+c b+d a+b+c+d
Ha sszesen p (=a+b+c+d) tulajdonsg alapjn hasonltjuk ssze X s Y egyedet,

akkor b esetben csak X-re, s c esetben csak Y-ra voltak jellemzk a vizsglt
ismrvek. Ezek felhasznlsval szmos tvolsgmrszm kpezhet, itt az SPSS
30
Nincs ltalnosan ismert magyar neve egyik mrtknek sem, ezrt itt is az angol elnevezs
szerepel. Az SPSS 27 tvolsgi s hasonlsgi mrszmot knl fel binris vltozkra, ugyan
mindre nem trnk ki, de a felsoroltakat klaszterezzk is.
KLASZTERELEMZS
53
ltal felajnlottak kzl hatot mutatunk be. Egymssal nem sszehasonlthatak,

mert a fels hatruk klnbz, br mindegyiknek zrus 31 a minimuma.
Euklideszi:
d = b + c (ngyzete az alaprtelmezs) (max: p)
Size difference:
d=
Pattern difference
Variance:
d=
(b c )2
(a + b + c + d )2
d=
(max:1)
(3.6)
(a + b + c + d )2 , (max: )
(3.7)
(bc )
(b + c )
4(a + b + c + d )
(max: )
(a + b + c + d )(b + c ) (b c )2 , (max: 1)
(a + b + c + d )2
(b + c ) , (max: 1)
Lance-Williams: d =
(2a + b + c )
Shape:
(3.5)
d=
(3.8)
(3.9)
(3.10)
A hasonlsg mrse sok binris asszocicis mutatval valsthat meg. Ezek

csoportosthatk aszerint, hogy a 0-0 rtkpr (d gyakorisg) elfordulst
szerepeltetik-e a szmllban s/vagy a nevezben. A slyozs szerint is vannak
klnbz mrtkek: egyenl slyt vagy dupla slyt kaphatnak a prok. A mutatk
egy rsze 0 s 1 kztt mr, itt az 1 jelzi a maximlis hasonlsgot. De vannak
olyanok is, amelyek fels hatra a vgtelen.
Simple matching:
a+d
a+b+c+d
Jaccard:
a
a+b+c
Dice:
2a
2a + b + c
(max:1)
(3.11)
(max:1)
(3.12)
(max:1)
(3.13)
31
Zrus addhat akkor is, ha b=c=0, vagyis tnyleg nem klnbznek, de gy is, pl. (3.6)ban, ha b=c, s egyik sem 0. Kln problma az, hogy a d szm mit jelent. Attl, hogy
egyformn nem rendelkeznek a vizsglt tulajdonsgokkal, mg nem biztos, hogy hasonlak.
54
Sokal-Sneath 3. mutatja:
a+d
b+c
(max: )
(3.14)
A binris mutatk eltrseit s egymshoz viszonytott helyzett a fejezet

tmakrhez igazodva a hierarchikus klaszterezs Ward 32 elv sszevon
eljrsval kszlt n. dendrogramon 33 szemlltetjk a 3.1. brn.
Az adattblt a knyvhz is csatoljuk, gy a szmtsokat ellenrizni lehet.
Vilgosan elvlik az els blokkban a ngy hasonlsgi mutat, majd egy klasztert
alkot a hat tvolsgi mrszm. Az egyes mutatcsoportokon bell is lthatunk
tagozdst. A (3.9) kplettel megadhat Shape mutat sszetettsge miatt csak az
utols eltti lpsben csatlakozik a tvolsg-mrszmok csoportjhoz.
Termszetesen ez az eredmny is fgg attl, hogy milyen adatok alapjn s milyen
eljrssal hasonltjuk ssze a mutatkat. Itt binris vltozkkal jellemeztk az egyes
mrszmok tartalmt, felptst.
3.1. bra: Binris mutatk klaszterezse hasonlsguk alapjn
32
33
A Ward elv lnyegt a kvetkez alfejezet ismerteti.

Az bra tulajdonsgait a 3.1.3. alfejezet ismerteti.
KLASZTERELEMZS
55
3.1.2. sszevon eljrsok

Az SPSS-ben ht agglomeratv eljrs tallhat, melyek lnyegben hat megfontols
szerint mrik a csoportok kztti tvolsgot. Lance s Williams (1966) megmutatta,
hogy e klnbzsgek ellenre a klaszterek tvolsga a (3.15) kzs kplettel
rhat fel. A kpletben szerepl:
D(IJ,K)=I D(I,K)+J D(J,K)+ D(I,J)+ D(I,K)-D(J,K) (3.15)
Az sszevons kezdetn D(I,J) kt eredeti megfigyels kztti minimlis tvolsg.
Az I s a J egynek vagy klaszterek sszevonsa mr megtrtnt, most a K (egyn
vagy csoport) hozzkapcsolst vizsgljuk. A tovbbi lpsekben az , ,
paramterek, mint slyok megvlasztsval brmelyik sszevon eljrs
elvgezhet. A 3.3. tblzatban az egyes hierarchikus sszevon eljrsok s a
tvolsg-paramterek megfeleltetse lthat.
3.3. tblzat: Tvolsgok slyozsa 34 Lance-Williams egytthatkkal
Eljrs
1.Egyszer
lnc
1/2
1/2
-1/2
2.Teljes lnc
1/2
1/2
1/2
3.tlagos
lnc
nI /(nI +nJ )
nJ /(nI +nJ )
4. Centroid
nI /(nI +nJ )
nJ /(nI +nJ )
-IJ
5. Medin
1/2
1/2
-1/4
(nJ +nK )/(nI +nJ +nK)
-nK /(nI +nJ +nK)
6. Ward
(nI +nK )/(nI +nJ +nK)
Ez a kzs gykr a hierarchikus eljrsok egyik szp tulajdonsga, de ez okozza

az alkalmazsok sorn a legnagyobb nehzsget, mert az eltr eljrsok 35 eltr
felosztst, s gy eltr dendrogramot eredmnyeznek. Ezrt tbb vltozatban
clszer elvgezni a klaszterezst. gy, ha a klnbz eljrsokbl egymssal
sszhangban lev felosztsok addnak, akkor stabilabb a kapott feloszts. Mivel a
hierarchikus mdszereknl a korbban besorolt elemek thelyezse nem valsthat
meg, a kezdeti lpsek dnt jelentsgek.
Ms szerzk (pl. Krzanowski (2000)) amellett rvelnek, hogy a csoportostand
elemek termszett tanulmnyozva elre kell mdszert vlasztani. Ezzel elkerlhet
a sok flsleges futtats, valamint az, hogy az elzetes elvrsainknak legjobban
megfelel eredmnyt vlasztjuk. Mindkt megkzelts megfontoland, ezrt a
34
A slyok az tlagos lnc, a centroid s a Ward eljrsnl a klaszterek tagszmtl fggnek

Emlkeztetnk arra, hogy a sokfle hasonlsgi s tvolsgmrtk kztti vlaszts
lehetsge mg tovbbi klaszter-kombincikat eredmnyezhet.
35
56
mdszervlaszts megknnytse rdekben
klaszterez eljrsok fbb jellemzit.
tekintsk
rszletesebben
Ha a klasztereljrsok matematikai tulajdonsgait tekintjk, akkor fontos

megjegyezni, hogy az egyedek kztti tvolsgok monoton transzformcijra csak
az egyszer lnc s a teljes lnc mdszerek invarinsak 36.
A klaszterek geometriai alakja eltr az egyes eljrsoknl. Az egyszer lnc
mdszer jellemzje a lnchats, vagyis bizonyos elemeket kzbees elemek
lncolata rvn kapcsol ssze. A kzs klaszterbe kerlshez elegend az is, ha a
csoport egyetlen tagjhoz hasonlt a vizsglt egyed, gy az eljrs trsszehz
hats. A lnchats rvnyes a medin mdszernl is, ahol az utoljra kapcsold
pontnak dnt hatsa lehet a klaszterezs tovbbi menetre.
Viszonylag zrt, gmbly klasztereket kapunk, ha a teljes lnc, az tlagos lnc
vagy a centroid mdszerekkel vgezzk az osztlyozst. Ekkor egy-egy klaszter
elemei egymshoz nagyon kzeliek. A legtvolabbi szomszd elv alapjn inkbb j
klaszterek kpzdnek egy-egy kvetkez lpsben, nem a meglevk csoportokhoz
kapcsoldnak az jabb egyedek. Ezt trtgt hatsnak nevezi a szakirodalom, mg
az tlagos lnc elv trkonzervl hatsnak tekinthet. A teljes lnc mdszer
egyenl tmrj, a Ward mdszer pedig egyenl elemszm klaszterek
kialaktsra trekszik.
Ha az adatok klaszterezdse nem egyrtelm, akkor a centroid s a medin
mdszer alkalmazsa sorn problmt okozhat az inverzi elfordulsa. Ekkor az
sszevons ksbbi lpsben megtrik a monoton nvekeds, s kisebb tvolsg
addik, mint a korbbi szintek klaszterei kztt mrt legkisebb tvolsg.
Tovbbi br a klaszterezsben nem lnyegi problmt okoz az, ha a tvolsgi
vagy a hasonlsgi mtrixban megegyez elemek vannak. Ekkor klnsen az
sszevons elejn tbbfle feloszts addhat, s ez az rtelmezst nehezti.
3.1.3. Dendrogramok rtkelse, sszehasonltsa

A hierarchikus sszevon eljrsok kzs tulajdonsga, hogy az n szm egyedet
(n-1) lpsben sszevonjk egyetlen egy csoportba. Az sszevonsi folyamat
brzolsa dendrogramon trtnik. Ez egy ktdimenzis bra, melynek specilis
szerkezete van. Az egyik tengelyen az sszevont elemeket ltjuk, a msikon pedig
azt a tvolsgrtket, amelynl az sszevons megtrtnt. Kezdetben (0 tvolsgi
szinten) minden megfigyels egyedl van, a vgn (ltalban 25 maximlis
tvolsgrtkre tsklzva) mr minden pont egyetlen csoportban van. Ha tbbfle
tvolsgmrtkkel s/vagy eltr eljrsokkal is elvgezzk a klaszterezst, akkor
nagy valsznsggel klnbz dendrogramokat kapunk, amelyek hasonlsgt
meg kell vizsglni.
Pldul a tvolsgok logaritmust vve eltr feloszts s eltr dendrogram addik, ha

nem a legkzelebbi vagy a legtvolabbi szomszd elvet kvetjk.
36
KLASZTERELEMZS
57
Az sszevonsi folyamatot tkrzi maga a dendrogram, de tovbbi elemzst ignyel

a megfelel klaszterszm leolvassa. Ehhez az sszevons rendjt s
tvolsgszintjeit mutat tblzat ad informcit.
Kt dendrogramot sszehasonlthatunk gy is, hogy az sszekapcsoldsokat vetjk egybe. Az n(n-1)/2 pontprra meghatrozzuk, hogy az egyes
dendrogramokban hnyadik sszekapcsolds utn kerltek egy csoportba,
s a kt sszevonsi adatsorra korrelcit szmtunk.
Elemzi szoks a 40%-os tvolsgszint (10-es rescaled distance) alatti

csoportok szmt leolvasni, s ezt elmenteni. gy kt sszevon eljrs
eredmnye kereszttblzatban is sszevethet. Mivel a klaszter-azonostk
nominlis vltozk, a 2. fejezetben bemutatott asszocicis mrszmokkal
mrhetjk a felosztsok hasonlsgt.
Fontos azonban megjegyezni, hogy brmilyen gondosan vlasztottunk

tvolsgmrtket s klaszterez eljrst, brhogyan hasonltottuk ssze a
dendrogramokat, nem kapunk vgleges vlaszt arra a krdsre, hogy hny
csoportba sorolhat a vizsglt adathalmaz. A struktrafeltrs ezen eljrsa csak
exploratv clra alkalmas, az bra alapjn hipotzis fogalmazhat meg a
mintabeli csoportok szmra. Tovbb hatkonyan segti a dendrogram az
extrm rtkek feltrst, hiszen a magas tvolsg szinten s/vagy az
sszekapcsolds ksbbi szakaszban lthat megfigyelsek egyedi jellege
szembetn. Ismt emlkeztetjk az olvast arra, hogy a vltozkat is lehet
klaszterezni, s az sszekapcsoldsukat dendrogramon brzolni. Ekkor a
vltoz-frtkbl a dimenzicskkents lehetsges mrtkrl kapunk
statisztikai kpet.
Ha szakmai ismeretek alapjn elre tudjuk, hogy hny csoport van a vizsglt
mintban, akkor ne alkalmazzuk az agglomeratv eljrsokat, mert azok nem
alkalmasak egy vrt feloszts reproduklsra. Ilyen feladatok megoldsra
vlaszthatjuk a nem-hierarchikus klaszterezst, vagy a konkrt cltl fggen
szmos ms sokvltozs statisztikai eljrst.
3.1.4. Az sszevon algoritmus lpseinek kvetse egy mintapldn

Hat budai kerletet mutatunk be kt vltoz terben (3.2. bra), hogy egyszeren,
akr kzi szmolssal is ellenrizni tudjuk a klaszterezs folyamatt. Az brrl
leolvashat, hogy hrom kerlet (II., III. s XI.) mindkt vltoz szerint tlag feletti
rtkekkel rendelkezik, mg a msik hrom tlag alatti rtkeket r el.
58
3.2. bra: Hat budai kerlet kt sztenderdizlt vltoz terben

Mivel a szmtsok csak az egyszer lnc s a teljes lnc esetn kvethetk szemmel
is, ez utbbi eljrst mutatjuk be.
Euklideszi tvolsgok ngyzeit szmolva a hat kerlet kztt, a tvolsgmtrixban
kiemelve lthatk az sszevonskor szmolt tvolsgok. (3.4. tblzat)
Az els lps minden eljrsnl azonos, a minimlis tvolsg kt pont kerl
sszevonsra. Ezt pldnkban a III. s a XI. kerlet kztt ltjuk: 0, 411.
A msodik lps sorn azt nzzk, hogy III. s XI. kerlet egytt milyen tvol van a
tbbiektl. Most a legnagyobb tvolsgok - hiszen ez a legtvolabbi szomszd elv
nven is ismert - legkisebbikt keressk: ez a II. kerlet lenne: 2,096 tvolsgra a
XI.-tl (mivel 0,691 tvolsgot rt el a III. tl). De mgsem itt trtnik sszevons,
hiszen a XII. s a XXII. kerlet kztti tvolsg kisebb: 0,454.
KLASZTERELEMZS
59
3.4. tblzat: A hat kerletre pronknt mrt euklideszi tvolsgok ngyzete

Proximity Matrix
Squared Euclidean Distance
Case
Budapest
01. ker.
Budapest
22. ker.
Budapest
12. ker.
Budapest
02. ker.
Budapest
03. ker.
Budapest
11. ker.
Budapest
Budapest
Budapest
Budapest
Budapest
Budapest
01. ker.
22. ker.
12. ker.
02. ker.
03. ker.
11. ker.
,000
,502
1,637
5,119
9,066
13,335
,502
,000
,454
2,543
5,345
8,713
1,637
,454
,000
,993
3,207
5,888
5,119
2,543
,993
,000
,691
2,096
9,066
5,345
3,207
,691
,000
,411
13,335
8,713
5,888
2,096
,411
,000
This is a dissimilarity matrix
A harmadik lpsben arrl kell dntennk, hogy a mr meglv kt klaszternk (2-2

elemmel) milyen tvol van egymstl s a tovbbi kt egyedli kerlettl. Itt a
kvetkez szmok legkisebbikt vlasztjuk:
o
(III+XI) II: 2,096
(III+XI) I: 13,335
(III+XI) (XII+XXII): 8,713
(XII+XXII) II: 2,543
(XII+XXII) I: 1,637
A negyedik lpsben ismt a kt klaszternk s a mg egyedl ll II. kerlet kztti

maximlis tvolsgokat vesszk szemgyre, de a legkisebb tvolsgot vlasztjuk:
o
(III+XI) II: 2,096
(XII+XXII+I) II: 2,543
Az tdik lps az utols, mivel hat kerlet van a pldban. Az eddigi lpsek miatt
itt mr csak a kt klaszter kztti tvolsg meghatrozsa maradt htra. Nem volt
extrm helyzet kerlet, amelyik eddig nem kapcsoldott sehov.
o
(III+XI+II) (XII+XXII+I): 13,335
60
Az sszevons menett a 3.5. tblzat s a 3.3. bra is mutatja. Mivel az utols

lpsben nagyot n a klaszterek kztti bels tvolsg, rdemes kt klasztert
megklnbztetni.
3.5. tblzat: A hat kerlet sszevonsa 5 lpsben
Agglomeration Schedule
Stage Cluster First
Cluster Combined
Stage
Cluster 1
Appears
Cluster 2
Coefficients
Cluster 1
Next
Cluster 2
Stage
11
,411
22
12
,454
12
1,637
2,096
13,335
3.3. bra: A hat kerlet kapcsoldsa alapjn kt klaszterbe sorolhat
KLASZTERELEMZS
61
3.2. Nem-hierarchikus klaszterezs

A nem-hierarchikus mdszerek kzl a leggyakrabban alkalmazott s a
hierarchikus klaszterezshez a leghasonlbbak a diszjunkt klasztereket elllt
partcionl mdszerek. A klnbz eljrsok ltalnos menete a kvetkez:
a kezdeti klaszterek kialaktsa, s az egyedek 37 sztosztsa az euklideszi

tvolsg 38 szerinti legkzelebbi kezd klaszterbe,
j klaszterkzppontok szmtsa,
az egyedek tsorolsa a legkzelebbi kzpponthoz.
Az iterci, a klaszterek kztti mozgs addig folytatdik, amg vltoznak a

kzppontok.
Az els s a msodik lps vgrehajtsa tbbflekppen trtnhet, ezrt tbb
eljrsvltozat ismert.
A kezdeti klaszterek kialaktst a csoportok k szmnak a megadsval kezdjk. A
megfelel k megvlasztsa szakmai tapasztalaton vagy korbbi statisztikai
elemzsen (pl. hierarchikus klaszterezsen) alapulhat. Az SPSS-ben a MacQueen
fle k-kzppont klaszterezs 39 vgezhet.
A k-kzppont klaszterezs rtelmezse kt f krdst vet fel.

1.
A csoportszm megfelel-e? Az egyedek arnyos sztosztsa a klaszterek

kztt nem kvetelmny, de a nagy arnytalansg fontos informcit
hordoz. Az egyelem klaszterek a kilg, a tbbiektl nagyon eltr
tulajdonsg egyedek ltre vagy tl magas csoportszmra
figyelmeztetnek. A nagy elemszm pedig azt jelzi, hogy rdemes a
csoportszm nvelsvel megismtelni a klaszterezst.
A klaszterkzppontok s a kztk lev euklideszi tvolsgok ellltsa is
segti az rtelmezst s a klaszterek megklnbztetst. Ezt
kiegszthetjk azzal, hogy az egyes egyedeknek a sajt klaszterk
kzppontjtl mrt tvolsgt is meghatrozzuk. A tvolsgok alapjn
dnthetnk az egyes csoportok sztvgsrl vagy sszevonsrl, azaz a k
nvelsrl vagy cskkentsrl.
2.
37
A vltozk szignifikns szerepet jtszanak-e az osztlyozsban? Az

egyedek osztlyozsn tl vizsglhat az is, hogy a figyelembe vett p
vltoz mindegyike jelents szerepet jtszott-e a klaszterek
Itt csak a megfigyelsek klaszterekbe sorolsa lehetsges. A vltozk csoportostsa nem

vlaszthat.
38
Ebben a Quick-cluster-nek is nevezett eljrsban tvolsgmrtk sem vlaszthat.
39
A kzppontok vltozsa itt kvethet:
http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html
62
megklnbztetsben. Az egyes klaszterek varianciit kiszmolva a

csoportok alakjt hasonlthatjuk ssze, mivel az azonos varianciakovariancia mtrix azonos alakot jelez. A szrselemzs (F-prba) 40
segtsgvel kivlaszthatjuk a csoportokat elklnt vltozkat, s gy akr
dimenzicskkentst is vgrehajthatunk a kvetkez lpsben.
Ezekre az rtelmezsi krdsekre rszben vlaszt kaphatunk, ha elksztjk a
klaszterknyk brzolshoz szksges szmtsokat:
a) Elszr k=2 belltssal klaszterelemzst ksztnk, s a szrsfelbont
(ANOVA) tblzatban ellenrizzk a vltozk megklnbztet erejt.
i.
Ha a vltozra vonatkoz parcilis F statisztika alacsony, azaz az

empirikus szignifikancia szint meghaladja a 0,05-t, akkor a vltoz
elhagysval megismteljk a futtatst.
ii.
Ha minden vltoz megklnbztet ereje elgsges, azaz az

empirikus szignifikancia szintek kisebbek, mint 0,05-t, akkor
elmentjk a klaszterazonostkat.
iii.
Az elmentett klaszterazonostkat kategriakpz vltozknt

hasznlva a szignifikns vltozkra szrsfelbontst vgznk. Az
ANOVA tblzatbl rendre sszegezzk a vltozkra szmolt kls
eltrsek ngyzetsszegt, majd a teljes eltrsek ngyzetsszegt,
s a kt sszeg hnyadost kpezzk. gy megkapjuk a
klaszterezssel megmagyarzhat eltrsek hnyadt.
b) Elvgezzk k=3,4,5-re az elz lpssorozatot. A maximlis

lpsszm/klaszterszm egy hvelykujj szably 41 szerint a mintamret (n) felnek a
gyke, azaz k n 2 .
c) Az ANOVA tblzatbl k=2,3,4.re kpzett hnyadosokat brzoljuk, s
megllaptjuk, hogy a k szm mentn meddig emelkednek 42 hatrozottan a
megmagyarzott eltrsek.
3.3. A klaszterelemzs eredmnynek rtkelse

A klaszterez eljrsok nagyon npszerek, sokfle terleten alkalmazzk az
ismeretlen adatstruktrk feltrsra. Ennek rszben az az oka, hogy sem a
hierarchikus, sem a nemhierarchikus klaszterezshez nem tartoznak matematikai
elfelttelek. Ugyanakkor nem rendelhet hozz clfggvny sem, amivel az
Csak ler s nem tesztknt val alkalmazsrl van sz, mert a matematikai elfelttelek
(normlis eloszls s azonos csoport-variancik) teljeslst nem vizsgljuk.
41
Ezt a gyakorlati szablyt fell kell brlnunk akkor, ha sok egyedi megfigyelsnk van,
amelyek 1-1 elem klasztereket alkotnak.
42
Ha a monoton nveked rtkek sorban a nvekeds lelassul, akkor nem rdemes tbb
klasztert kpezni.
40
KLASZTERELEMZS
63
osztlyozs jsga mrhet lenne. Ezrt, mieltt a szmtgpes megvalstsra

trnk, sszefoglaljuk a klaszterezssel kapcsolatos legfontosabb megllaptsokat
s kvetelmnyeket, amelyek tmpontot jelenthetnek a kapott eredmnyek
rtkelsben.
Nyilvnval kvnalom, hogy a klaszterezs eredmnye fggetlen legyen a

megfigyelsek sorrendjtl.
Ezt a kvetelmnyt nem teljesti az SPSS Quick-cluster eljrsa. A

Kerletek2010.sav megadott adatllomnyon elvgezhet az ellenrzs. Ha k=3
belltssal sztenderdizlt vltozk terben klasztereznk, akkor ms s ms
eredmnyt kapunk, ha az abc-ben felsorolt megfigyelseket klaszterezzk, vagy ha
az adatllomny vltozi kzl brmelyik szerint nvekv sorrendbe rendezzk a
klaszterezs eltt az adatokat. Eltrseket tapasztalunk a hrom kezdpontban, a
magpont megvlasztsa teht rzkeny az adatok sorrendjre. De eltr a vgs
feloszts s a klaszterek elemszma is!
Jl definiltak legyenek a klaszterek abban az rtelemben, hogy azonos

megfigyelt adatokbl azonos felosztst kapjunk. Ha vannak egyenl
tvolsg illetve hasonlsgi rtkek, akkor az eljrs nknyesen vlaszt
kzlk, s emiatt ez a tulajdonsg tbb eljrsnl nem teljesl.
A folytonossg kvetelmnye az, hogy az adatokban bekvetkez kis

vltozsok kis vltozst eredmnyezzenek a felosztsban.
A stabilits kvetelmnye azt jelenti, hogy ha egy egyedet elvesznk vagy

hozzadunk a megfigyelsekhez, akkor az osztlyozsban nagyon kis
vltozs kvetkezzen be. Ez egy lncban sszekt kapcsot kpez pont
esetben nem teljesl. A stabilitsi kvetelmny rsznek tekinthet az az
elvrs is, hogy ha egy klaszter minden egyedt (hierarchikus esetben a
dendrogram egy gt) kihagyjuk, akkor a tbbi elem tagozdsa invarins
legyen erre a vltoztatsra.
Gyakori kvetelmny, hogy az osztlyozs eredmnye invarins legyen a

klnbzsgek monoton transzformcijra. Itt emltjk meg az adatok
lineris transzformcijra val invariancia kvetelmnyt is, amely
pldul a sztenderdizlt adatok hasznlatt teszi lehetv. Ha a vektorok
hajlsszgnek koszinuszbl szmtunk tvolsgot, akkor a pontok kztti
tvolsg nem arnyosan vltozik.
A klaszterek rvnyessge (validitsa) ngy kritrium alapjn vizsglhat.

Kls kvetelmnyknt rtelmezhet az, ha ismert csoportokba tartoz
egyedekbl vesznk mintt, s arra vgezzk el a klaszterezst. Bels
kvetelmnynek tekinthetk azok a mutatk, amelyekkel az eredeti s a
szrmaztatott tvolsgok illeszkedst mrjk. Harmadik megkzeltst
jelent a megismtelhetsg kritriuma, amelynek lnyege a kettosztott
megfigyelsek klaszterezse s a felosztsok sszevetse. A klaszterek
rvnyessgnek relatv kritriuma az adatmtrix tbb eljrs szerinti
64
klaszterezst, s a felosztsok kztti egyezs mrst fogalmazza meg, de

csak jl elklnl s gmb alak struktrk esetben tekinthetjk az
egyez felosztsokat gy, mint amelyek a termszetes csoportok ltt
igazoljk.
A robusztussg kvetelmnye a kilg pontok hatsnak cskkentst

jelenti. Ha tbb nem tipikus, tvoli pont van a mintban, akkor ezek
jelentsen befolysolhatjk a felosztst olyan eljrsok esetben, amelyek a
bels eltrs-ngyzetsszeget minimalizljk. Ilyenkor a csoportokon belli
azonos kovariancia-struktra feltevse tves lehet, pedig az optimalizl
eljrsok csak azonos alak csoportok feltrsra alkalmasak.
A klaszterelemz mdszerek s a szmtgpes eljrsvltozataik alkalmazsval

kapott csoportostsok rtelmezse s rtkelse nagy szakmai felkszltsget s
krltekintst ignyel. rdemes ms sokvltozs mdszereket, pldul
sokdimenzis sklzst (8. fejezet) s diszkriminancia analzist (7. fejezet) is
vgezni, hogy a minta szerkezetrl megbzhat megllaptsokat fogalmazhassunk
meg.
3.4. A megvalsts lpsei az SPSS-ben

Az ANALYZE/CLASSIFY ton elindulva a hierarchikus s a nem-hierarchikus
mdszerek kzl kell elszr vlasztanunk. A struktrafeltrs logikja miatt a
hierarchikus klaszterezs eljrsaival kezdjk a futtatst.
3.4.1. Hierarchikus klaszterezs

Elszr azokat a vltozkat kell kivlasztani, amelyeket csoportostunk, vagy
amelyek terben csoportostjuk a megfigyelseket. A LABEL-ben cimkt,
azonostt rendelhetnk a megfigyelsekhez.
Ezt kveten 4 parancsgomb alatt trulnak fel a vlasztsi lehetsgek.
1) STATISTICS/Statisztikk:
i.
Az sszevons menett mutatja az Agglomeration schedule. Ha krjk,

akkor lthat, hogy az sszekapcsolskor mennyi volt az egyedek kztti
tvolsg. Ebbl szrevehet az inverzi fellpse.
ii.
Az indul tvolsgi vagy hasonlsgi mtrixot Proximity matrix nven

lthatjuk.
iii.
Ha van elkpzelsnk a bels tagozdsrl, akkor a Solution-ben

adhatjuk meg a konkrt szmot. Berhat egyetlen szm: Single(=k),
vagy egy tartomny: Range (2 s n-1 kztt), de resen hagyva is
elkszl a klaszterezs.
2) PLOTS/brk:
KLASZTERELEMZS
65
A kapcsolds szintjt s menett mutat dendrogram krhet 43 braknt.

Az bra csak kisebb feladatokra ltvnyos, 50-nl tbb megfigyelsre egy
kpernyn nem tekinthet t.
3) METHODS/Mdszerek: Itt 7 eljrsbl vlaszthatunk, s tovbbi fontos
belltsokat tehetnk meg.
3a) Az eljrsok
tlagos lnc a csoportok kztt 44 (ez az alaprtelmezs az SPSS-ben)
tlagos lnc a csoportokon bell 45
Legkzelebbi szomszd vagy egyszer lnc
Legtvolabbi szomszd vagy teljes lnc
Centroid eljrs
Medin eljrs
Ward eljrsa
3b) Tvolsgi vagy hasonlsgi mrtk vlasztsa

Itt nylik md a mrsi skla figyelembe vtelvel a tvolsgi vagy a hasonlsgi
mrtket megjellsre, s a klnbz mrtkegysgek miatt indokolt
sztenderdizlsra:
Measure: Interval, Counts, Binary
Standardize: 7 flekppen szrhet ki a mrtkegysg.
4) SAVE/Ments: Elmenthetjk azt az egy vagy tbbfle felosztst, amit az

indulskor az 1) lps szerint iii.-ben megadtunk.
3.4.2. Nem-hierarchikus klaszterezs, k-kzppont eljrs

Ekkor a klaszterek szmt (k) szakmai ismeretek vagy a hierarchikus klaszterek
brja alapjn elre meg kell adni.
A futtats belltsa:
1.
Vltozk kivlasztsa
2.
Label: megnevezsek feltntetse
3.
Number of clusters: klaszterek szma (default=2)
Icicle nev diagramot is kaphatunk, de a kpernyn s nyomtatsban is ttekinthetbb a

dendrogram.
44
Az sszevonand n s m elem csoportokra nxm tvolsg tlagt szmolja.
45
Az n s az m elem csoportok tvolsgainak tlagt az elemek egyestse utn (n+m)(n+m)
elemre szmolja.
43
66
4.
Method/Mdszer ktfle lehet:

a.
Iterate and classify= iterci sorn a besorolt elemekre j

klaszterkzppontot szmol, jra besorolja a mintaelemeket
b. Classify only: a kezdeti kzppontokhoz val kzelsg szerint

sztosztja a mintt, nem keres j magpontokat.
5.
Iterate/Iterci: Ha krnk itercit, azaz a 4.a. szerint haladunk, akkor mg

tovbbi kt lehetsget knl fel az SPSS. Itt vlaszthat a folyton vltoz
tlag: Use running mean
a.
Default = nem krjk. Ekkor az sszes elem sztosztsa utn

szmol klaszter kzppontokat.
b.
Ha krjk, akkor minden egyes elem besorolsa utn kiszmolja a

klaszterek centrumait, mieltt a tovbbi elemek osztlyozsra sor
kerl.
6.
Save/Ments: Cluster membership = a klaszter azonost szmokat s

Distance from cluster center = a klaszterkzpponttl mrt tvolsgokat
hozzrendeli minden egyes megfigyelshez.
7.
Options/Lehetsgek: Itt tovbbi fontos statisztikkat kapunk.

a.
A kezdeti (Initial) klaszter-kzppontokat felsorolja.
b.
Krsre megkapjuk vltoznknt a klaszterek kztti s a

klaszteren belli eltrsngyzetsszegek hnyadost is tartalmaz
ANOVA tblt az F-teszttel. A magas F rtk (alacsony
szignifikancia szint mellett) parcilisan jelzi az egyes vltozk
megklnbztet erejt. Itt az F-prbt nem egy nullhipotzis
ellenrzsre hasznljuk. (Nem gy rtelmezzk, mint a
szrselemzsnl, ahol a nullhipotzis az lenne, hogy a
csoporttlagok kztt nincs klnbsg.)
c.
Minden elemre kirathatjuk a kpernyre annak a klaszternek a

szmt, ahov besorolst nyert.
d.
Megkapjuk a monitoron az euklideszi tvolsgot minden

megfigyels s a sajt kzppontja kztt, tovbb a kzppontok
kztt is.
3.5. Teleplsek klaszterezse

E fejezet clja az elmleti tuds elmlytse s tapasztalatszerzs a gyakorlati
megvalstsban. Ezrt a knyvhz tartoz adatllomnyok kzl az 50 telepls
(23 budapesti kerlet s 27 krnyez telepls) 2010-es adatait hasznlva a
szmtsok elvgzse utn vlaszoljon a kvetkez krdsekre. A sajt eredmnyeit
vesse ssze a kzlt megoldssal.
KLASZTERELEMZS
67
1) krds: Hny csoportot/dimenzit alkotnak a vltozk?

A megolds lpsei:
A sztenderdizlt vltozkat hierarchikus klaszterezssel vizsgljuk, tbb
dendrogramot ksztnk. Tbb intervallum sklra alkalmas tvolsgmrszm
kivlasztsa is indokolt. A binris vltozkat kln kell elemezni, hiszen
egyidejleg nem lehet ktfle tvolsgmrtket vlasztani.
2) krds: Hogyan tagoldnak a teleplsek? Valban elvlik egymstl a 23
kerlet s a tbbi Budapest krnyki telepls? Milyen klaszterszmot
rdemes felttelezni?
A megolds lpsei:
A sztenderdizlt vltozk terben hierarchikus klaszterezssel vizsgljuk a
teleplseket, ismt tbb eljrst alkalmazunk, tbb dendrogramot ksztnk. Tbb
intervallum sklra alkalmas tvolsgmrszm kivlasztsa is indokolt.
3) krds: Ha k=2 belltssal kszt k-kzp klaszterezst, akkor a telepls
tpussal azonosnak tekinthet feloszts addik?
A megolds lpsei:
Az elzetesen sztenderdizlt vltozk terben k=2 klaszterezssel besoroljuk a
teleplseket. Megvizsgljuk az ANOVA tblzatbeli F-teszt s p szignifikancia
szint alapjn, hogy minden vltoznak van-e megklnbztet ereje. A nemszignifikns vltozkat elhagyva megismteljk a klaszterezst, s elmentjk a
klaszter-azonostkat. Vgl kereszttblzatban sszevetjk a telepls jellege s a
klaszterazonostk alapjn kapott besorolst.
4) krds: Hny klasztert rdemes megklnbztetni?
A megolds lpsei:
Klaszterknyk keresse a 3.2. alfejezetben lertak szerint.
Az eredmnyek rszletes bemutatsa

1) krds eredmnyei: Hny csoportot/dimenzit alkot a 16 vltoz?
A ler statisztikk 3.6. tblzatbl 46 lthat, hogy a relatv szrs (Szrs/tlag)
sehol sem ri el a kettt, teht kilg, nagyon extrm rtket mutat teleplsek
nincsenek. A vltozk nagy rsze pozitv ferdesg, csak 5 vltoz tekinthet
szimmetrikus eloszlsnak. Hrom vltoz ersen cscsos, a tbbi alakja nem
szignifiknsan tr el a haranggrbtl.
Helytakarkossg miatt trltk a 3. tblbl, hogy sszesen 50 megfigyelsbl szmoltuk

minden vltoz statisztikai mutatit, egyiknl sincs hinyz rtk.
46
68
3.6. tblzat: Ler statisztikai mutatk rtkei
KLASZTERELEMZS
69
Az elkszt lps, a vltozk sztenderdizlsa utn is tbb dntsi pontunk van.

a) A vltozkat a szmtsok elvgzse eltt s a hierarchikus klaszterezsen bell is
sztenderdizlhatjuk.
Ez csak akkor vltoztatja meg az eredmnyeket, ha vannak hinyz adatok.
Az elzetes sztenderdizlsban minden vltozra felhasznljuk az sszes
elrhet adatot, azaz klnbz megfigyelsszm lehetsges. Mg a bels
sztenderdizls sorn a kzs, hinytalan adatllomny kerl
felhasznlsra.
b) Az elemzsben szerepl vltozk kztt tvolsgot s hasonlsgot is mrhetnk.
Ettl fggen eltr sszevonsi adatokat kapunk. Az Agglomeration Schedule a
3.7. tblzatban azonos sorrendben s 15 lpsben kapcsoldik ssze a 16 vltoz a
ngyzetes euklideszi (nvekv) tvolsg s a cskken hasonlsgot jelz
korrelcis egytthat alapjn.
Az 1. szm vltoz, a Terlet mrszm elklnl a tbbi vltoztl, csak az utols
hrom lpsben kapcsoldik a tbbiekhez.
c) Az sszevonsi struktrt mutat dendrogramon mindig 25 a maximlis tvolsg,
brmilyen mutatt s eljrst vlasztunk. Itt az tlagos lnc elv klaszterezs
brjt 47 mutatjuk be, behzva a 40%-os tvolsgi szintvonalat. A 3.4. bra azt jelzi,
hogy kt nagyobb vltozcsoportunk van, s kt vltoz (Terlet s llskeresk
arnya) tvol van / nem korrell a tbbiekkel s egymssal sem.
Az els nagy klaszterben 10 vltozt tallunk, amelyek a teleplseken mrt
ltszmot, mretet mutatnak. Mg a msodik klaszterben ngy olyan vltoz van,
amelyek ltszmarnyos mutatk.
A 16 vltoz teht nem kpezhet le 2 dimenziba a kt kilg, magasabb
tvolsgnl kapcsold vltoz miatt, de a tbbi 14 vltoz hatrozottan kt
csoportba klnthet el 48.
47
Ezen az adatllomnyon azonos az bra, ha a tvolsg- s a hasonlsgmrtket

vltoztatjuk, vagy ha elzetesen sztenderdizljuk az adatokat. A msodik esetben minden
vltoz z-score-ja szerepel feliratknt.
48
Ez hasznos informcit jelent a ksbbi faktorelemzshez (6. fejezet).
70
3.7. tblzat: Az sszevons lpsei
Agglomeration Schedule
Cluster Combined
Stage
Sq. Euc.
Stage Cluster
Distance
First Appears
Cluster
Cluster
Coefficient
Cluster
Cluster
Next
Correlation
Stage
Coefficients
,947
,990
1,970
,980
4,078
,958
13
14
5,874
,940
6,697
10
,932
12
15
8,304
,915
11
9,116
,907
11,276
10
,885
12
13
12,077
15
,877
10
14,156
11
,856
11
22,933
10
12
,766
12
10
31,518
11
14
,678
13
16
87,459
14
,108
14
94,310
13
12
15
,038
15
12
132,195
14
-,349
c) Az sszevonsi struktrt mutat dendrogramon mindig 25 a maximlis tvolsg,

brmilyen mutatt s eljrst vlasztunk. Itt az tlagos lnc elv klaszterezs
brjt 49 mutatjuk be, behzva a 40%-os tvolsgi szintvonalat. A 3.4. bra azt jelzi,
hogy kt nagyobb vltozcsoportunk van, s kt vltoz (Terlet s llskeresk
arnya) tvol van / nem korrell a tbbiekkel s egymssal sem.
49
Ezen az adatllomnyon azonos az bra, ha a tvolsg- s a hasonlsgmrtket

vltoztatjuk, vagy ha elzetesen sztenderdizljuk az adatokat. A msodik esetben minden
vltoz z-score-ja szerepel feliratknt.
KLASZTERELEMZS
71
Az els nagy klaszterben 10 vltozt tallunk, amelyek a teleplseken mrt

ltszmot, mretet mutatnak. Mg a msodik klaszterben ngy olyan vltoz van,
amelyek ltszmarnyos mutatk.
A 16 vltoz teht nem kpezhet le 2 dimenziba a kt kilg, magasabb
tvolsgnl kapcsold vltoz miatt, de a tbbi 14 vltoz hatrozottan kt
csoportba klnthet el 50.
3.4. bra: A vltozk sszekapcsoldsa az tlagos tvolsgok alapjn

Gondoljunk arra is, hogy ha kihagyjuk a Terlet s llskeresk arnya vltozkat,
akkor a tbbi 14 vltoz kztti tvolsg fogja hasonlan kitlteni a dendrogramon a
helyet, mert a maximlis tvolsg e kt csoport kztt lthat.
Msodik dendrogramknt a sztenderdizlt vltozkra Ward eljrssal kpzett
klasztereket mutatjuk be. A vltozk klaszterezdse hasonl, teht stabilan
elvlnak az eredeti s az egy fre vettett mutatk. Mivel a Ward eljrs a bels
50
Ez hasznos informcit jelent a ksbbi faktorelemzshez (6. fejezet).
72
eltrsek ngyzetsszegt minimalizlja, itt a maximlis rtke 451,676, ez tartozik

a 25 tvolsgszinthez a 3.5. brn.
3.5. bra: A vltozk sszekapcsoldsa az eltrs-ngyzetsszegek alapjn

2) krds eredmnyei: Hogyan tagoldnak a teleplsek? Valban elvlik egymstl
a 23 kerlet s a tbbi 27 Budapest krnyki telepls? Milyen klaszterszmot
rdemes felttelezni?
A klaszterezshez nem tartozik hvelykujj szably, hogy hny vltozt s hny
megfigyelst clszer hasznlni, ezrt elkszthetjk a teljes 16 dimenzis
vltoztrben kpzett telepls-dendrogramot. Az euklideszi tvolsg ngyzetre az
tlagos lnc elv sszekapcsols (3.6. bra) inkbb 3 klasztert mutat, mint kettt.
Egyrszt hatrozottan elklnl a fvros XI. s XIII. kerlete, msrszt a fvroson
kvli teleplseket s a tbbi kerletet is rdemes megbontani. A 10, mint vgsi
szint nem elrs, most tlsgosan nagy s heterogn klasztert jelentene, ha egytt
vizsglnnk a 48 teleplst. Ezrt a 9-es szint alatt olvassuk le a klaszterszmot,
pldnkban a hrmat.
KLASZTERELEMZS
73
Ellenrzst jelent a msik tvolsgi mutat vagy a msik klaszterez eljrs

alkalmazsa. A Ward elv mentn kpzett telepls-klaszterek (3.7. bra)
egyrtelmen 2 csoportot mutatnak, s itt mr les a budapesti kerlet nem fvros
kettvls. Ha azonban kisebb bels eltrseket engednk meg, azaz homognebb
klasztereket keresnk, akkor (8-as vgsi szinten) hrom klaszter klnbztethet
meg. gy ngy (nagy) budapesti kerlet elklnl a fvros tbbi rsztl.
Ha a legtvolabbi szomszd elvet vlasztjuk, akkor is 3 klaszter lthat a
dendrogramon, de a XI. s XIII. kerlet elvllsa mellett nem a fvros tbbi
telepls a metszs alapja, hanem tovbbi 2-5 kisebb, de vegyes klasztert kapunk.
Nem rejtjk vka al azt, hogy a vlasztsi dntsek eredmnyre gyakorolt hatsa
risi. Ha pldul az euklideszi tvolsg (ngyzete) helyett csak abszolt rtkes
eltrst vlasztunk, azaz a nagy eltrseket nem slyozottan vesszk figyelembe,
akkor teljesen megvltozik az bra.
Az elemz felelssge teht risi, hogy hnyfle szmtst kszt, s vgl melyik
megoldst tekinti a tovbbi elemzshez j alapnak. A hierarchikus klaszterezssel
teht csak egy feltevst kapunk a klaszterszmra, amit elmenthetnk, s ez alapjn
tovbb vizsgldunk. Most az tlagos lnc elv 3 klasztert s a Ward mdszer 2-3
klasztert is elmentjk.
74
3.6. bra: A teleplsek sszevonsa tlagos lnc elven
KLASZTERELEMZS
3.7. bra: A teleplsek sszevonsa Ward mdszervel
75
76
3) krds eredmnyei: Ha k=2 belltssal kszt k-kzp klaszterezst, akkor a

telepls tpussal azonosnak tekinthet feloszts addik?
Az elzetesen sztenderdizlt vltozk terben k=2 klaszterezssel besoroljuk a
teleplseket. A magpontokhoz val besorols 9 itercis lpsben lezrul, s az
ANOVA tblzatbeli F-teszt s p szignifikancia szint alapjn kt vltoznak nem
szignifikns a megklnbztet ereje. Ezrt a Terlet (p=0,233) s az llskeresk
arnya (p=0,555) elhagysval 14 vltoz terben megismteljk a 8 lpses
klaszterezst, s mivel minden vltoz megklnbztet ervel rendelkezik,
elmentjk a klaszter-azonostkat.
A szrsfelbontst mutat ANOVA tblzat (3.8. tblzat) megadsa csak ler
clokat szolgl, a klaszterkpzsben nem kerl sor hipotzisvizsglatra. Mivel nem
ttelezzk fel, hogy a csoporttlagok megegyeznek, nem is vizsgljuk az F-teszt
elfeltteleinek 51 teljeslst. Az azonban kiolvashat a 3.6. tblzatbl, hogy a
legersebben megklnbztet vltozk a Npessgszm (F=117,476), majd a
Laksllomny (F=110,563), tovbb hasonl ert kpvisel az nkormnyzati
bevtel (F=96,613) s az llskeresk szma (F=95,990).
Teht nem kell ellenrizni a vltozk szerinti normlis eloszlst s a

csoportonknti azonos variancit.
51
KLASZTERELEMZS
77
3.8. tblzat: A vltozk klaszterek kztti s klaszteren belli eltrsngyzetsszegei

ANOVA
Cluster
Error
Mean
Square
Mean
df
Square
df
Sig.
Zscore(Npessgszm)
34,786
,296
48
117,476
,000
Zscore(Odavndorls)
16,659
,674
48
24,726
,000
Zscore(Elvndorls)
25,157
,497
48
50,646
,000
Zscore(llandodavndorls)
17,241
,662
48
26,059
,000
Zscore(llandelvndorls)
26,362
,472
48
55,895
,000
Zscore(nkormnyzatibev)
32,736
,339
48
96,613
,000
Zscore(Vendglthely)
28,776
,421
48
68,297
,000
Zscore(Laksllomny)
34,167
,309
48
110,563
,000
Zscore(ptettlaksok)
8,563
,842
48
10,165
,003
Zscore(llskeresk)
32,666
,340
48
95,990
,000
Zscore(Odavanperfo)
18,797
,629
48
29,873
,000
Zscore(Elvanperfo)
25,881
,482
48
53,733
,000
Zscore(llElvanperfo)
22,046
,562
48
39,260
,000
Zscore(llodavanperfo)
22,298
,556
48
40,084
,000
The F tests should be used only for descriptive purposes because the clusters have been
chosen to maximize the differences among cases in different clusters. The observed
significance levels are not corrected for this and thus cannot be interpreted as tests of the
hypothesis that the cluster means are equal.
A feloszts szerint az 1. klaszterbe tartoz 28 telepls kisebb npessg, mint az

tlag 52, kevesebb ott a laks, a bevtel, a vendgl, tovbb abszolt szmban az
tlagnl kisebb ott a vndorls, de a kisebb ltszmra vettve arnyaiban tlag feletti
az oda- s elvndorls. (3.9. tblzat)
A 2. klaszterbe a tbbi 22 telepls kerlt, amelyek az els 10 vltoz szerint az
tlagnl nagyobbak, mg az utols 4 vltoz szerint az tlagnl kisebb rtkekkel
brnak.
A sztenderdizlt vltozk hasznlata azrt is elnys, mert gy az eljel mutatja, hogy a

zrus tlaghoz kpest milyen tulajdonsggal rendelkeznek a klaszterek.
52
78
3.9. tblzat: A klaszterkzppontok vltoznknt szmtott rtkei
Final Cluster Centers
Cluster
1
Zscore(Npessgszm)
-,73935
,94100
Zscore(Odavndorls)
-,51165
,65120
Zscore(Elvndorls)
-,62875
,80023
-,52051
,66247
-,64363
,81916
-,71723
,91284
Zscore(Vendglthely)
-,67245
,85585
Zscore(Laksllomny)
-,73274
,93258
Zscore(ptettlaksok)
-,36683
,46688
Zscore(llskeresk)
-,71646
,91186
Zscore(Odavanperfo)
,54349
-,69172
Zscore(Elvanperfo)
,63773
-,81165
,58859
-,74912
,59195
-,75339
A krdsre vlaszolni tudunk, ha kereszttblzatban sszevetjk a telepls jellege

s a klaszterazonostk alapjn kapott besorolst. Az agglomercibl a 2.
klaszterbe, a nagyok kz sorolt telepls rd, mg a fvrosi kerletek kzl
kett kerlt az 1. klaszterbe: az I. s a XXIII. kerlet, amelyek valban mind a 10
mretmutat szerint kisebbek, mint a Budapest tbbi kerlete. (3.10. tblzat)
A ktfle felosztsra a fggetlensgi hipotzist elvetjk (khi-ngyzet teszt rtke
38,681, p=0,000) s az asszocici a Phi s a Cramer V mutatra azonosan 53 nagyon
szoros: 0,880 (p=0,000)
53
A 2x2 tblzat szabadsgi foka 1, ezrt egyezik meg itt a kt mutat.
KLASZTERELEMZS
79
3.10. tblzat: A teleplsek s a klasztertagok kereszttblja

Kerlet * Cluster Number of Case Crosstabulation
Count
Cluster Number of Case
1
Kerlet
Agglomerci
Kerlet
Total
Total
26
27
21
23
28
22
50
Mg egy ellenrzsi lehetsget rdemes hasznlni arra, hogy valban stabil-e a kt

klaszteres feloszts. A teleplsekre elmenthet, hogy mekkora a sajt
klaszterkzppontjuktl mrt tvolsguk. Ezeket pedig dobozdiagramon (3.8. bra)
brzolva ltjuk, hogy a kt klaszter kzel azonos bels homogenitssal br, hiszen
azonos mretek a dobozok s kzel azonos a tvolsgok medin vonala. Az eltrs
csak annyi, hogy a 2. klaszterbe tartoz XI. s XIII. kerletek tvolabb vannak a
kzpponttl. Ha kettrl hromra, ngyre vagy tre emeljk a klaszterszmot,
akkor is e kerletek alkotnak nll klasztert. (Hrom klaszter esetn mg a XIV.
kerlet csatlakozik hozzjuk.) Ilyen dobozdiagramot rdemes a klaszterek szerinti
bontsban az eredeti vltozkra is kszteni. Akkor vilgosan lthat, hogy az
ANOVA tblzat szerint szignifikns vltozk dobozai eltr magassgban vannak.
3.8. bra: A kt klaszterben mrt bels tvolsgok
80
4) krds eredmnyei: Hny klasztert rdemes megklnbztetni?

Az n=50 elemszm miatt maximum 5 klasztert rdemes ellltani. A k=3,4,5
futtatsokat a 3) lps szerinti belltsokkal megismteljk, s az eredmnyeket
elmentjk.
Ezt kveti a csoporttlagok sszehasonltsa az egy-utas ANOVA tblk
alapjn. Azrt nem tbbvltozs (MANOVA) eljrst alkalmazunk, mert
rdemes megnzni minden vltoz parcilis hozzjrulst a csoportok kztti
klnbsghez.
A kls klaszterek kztti eltrsek ngyzetsszege s a teljes a minta
egszre mrt eltrsek ngyzetsszege a klaszterek ltal megmagyarzott
eltrsek hnyadt adja meg. Ez a mrszm csak kln szmtssal, pldul
EXCEL-ben kpezhet, ezrt az SPSS output tblkra kattintva EXPORT
menpontsal kimsoljuk az ANOVA tblkat. Az sszegzsek utn elkszthet
a klaszterknyk bra, amely mutatja, hogy tovbbi klaszterek ellltsval
mennyivel nvelhet a magyarzott eltrsek hnyada. (3.9. bra)
Kt klaszter kpzsvel a klnbsgek 50%-t, hrom klaszterrel pedig 64%-t
tudjuk megmagyarzni. A tovbbi klaszterek ellltsa mr kisebb arny s
mrtk nvekedst eredmnyez, ezrt a hromklaszteres megoldst fogadjuk
el.
Klaszterknyk
magyarzott eltrsek ngyzetsszege
0,80
0,765
0,75
0,714
0,70
0,65
0,648
0,60
0,55
0,505
0,50
0,45
2
klaszterek szma
3.9. bra: A klaszterszmok s a magyarzott eltrsek kapcsolata

sszegzsl rdemes figyelni arra, hogy a klaszterek ltalban nem
rangsorolhatk. A 3.11. tblzatban megmutatjuk a hrom klaszterre kapott
kzppontokat. Lthat, hogy a 10 mret-mutat alapjn 2-1-3 a sorrend, azaz
2. klaszter (XI, XIII, XIV. kerlet) a legnagyobb, ezt kveti az 1. klaszter (21
KLASZTERELEMZS
81
tag, benne rd s hsz fvrosi kerlet), vgl a 3. klaszterben (26 telepls)

vannak a legkisebb tlagok. Mg a ngy ltszmarnyos mutatra a 3-2-1
sorrend addik, br a rendezettsg rtelme krdses, hiszen az oda- s
elvndorls hasonl rtkprokat jelez.
3.11. tblzat: A hromklaszteres felbonts kzppontjai
Final Cluster Centers
Cluster
1
Zscore(Npessgszm)
,61404
2,22201
-,75234
Zscore(Odavndorls)
,19085
3,01267
-,50176
Zscore(Elvndorls)
,41749
2,44990
-,61989
,23395
2,73049
-,50401
,47605
2,17202
-,63512
,63625
1,99471
-,74405
Zscore(Vendglthely)
,59034
1,87814
-,69352
Zscore(Laksllomny)
,57831
2,51209
-,75695
Zscore(ptettlaksok)
,02224
2,89130
-,35158
Zscore(llskeresk)
,66578
1,68841
-,73256
Zscore(Odavanperfo)
-,90322
,51612
,66998
Zscore(Elvanperfo)
-,86323
-,54159
,75971
-,75900
-,74313
,69879
-,82118
-,33622
,70206
4.Tbbvltozs
regressziszmts
54
Az eljrs alapgondolata ismers mindenkinek, aki mr tanult statisztikt. Mgis

rdemes egy fejezetnyit foglalkozni a regressziszmtssal, mert a cikkek,
tanulmnyok hasznljk az eljrst, s a knyv tovbbi fejezeteiben is tbbszr
visszautalunk erre a megkzeltsre.
Tbbvltozs lineris regresszis modellt runk fel akkor, ha tbb fggetlen
magyarz vltoz lineris kombincijval becsljk a magyarzni kvnt y
vltozt. A regresszis becsls elvgzse s az eredmnyek rtkelse szmos
dntst ignyel. Tekintsk t elszr ezeket a fbb dntsi pontokat.
a)
Az adatok kzvetlenl alkalmasak regresszis modell illesztsre vagy

adatelksztst kell vgeznnk? A 4.1. alfejezet s a 4.2.1. alfejezet ad
betekintst a rszletekbe.
A magyarz vltoz normlis eloszls-e, s ha nem, akkor

milyen (pldul logaritmus) adat-transzformci indokolt?
A fggetlen vltozk relatv szrsaira teljesl-e a kisebb, mint 2

felttel? Ha nem, akkor vannak-e extrm rtk, kihagyhat
megfigyelsek?
A pontdiagram alapjn az y-x prok lineris kapcsolata fennll-e?

Ha nem, akkor linearizl transzformci vgezhet-e?
A fggetlen vltozk kztti pronknti korrelcik gyengk-e?

Ha nem akkor szakmai vagy statisztikai szempontok alapjn
vlogatjuk ki a modell magyarz vltozit?
b) Az illeszts menete, a vltozk kztti szelekci vgrehajtsa. A 4.2.2., a

4.2.4. s a 4.2.5. alfejezetek mutatjk az eljrs lpseit.
54
Melyek a statisztikai rtelemben legersebb magyarz ervel br

vltozk? Mely tesztek tmasztjk al a vltozszelekcit?
Ltezik-e lineris modell, vagy minden becslt egytthat

nullnak tekinthet?
Milyen tesztekkel s hogyan minsthet a modell egsze?
A regressziszmts alapmodelljt s az egytthatk becslst szolgltat legkisebb

ngyzetek mdszert ismertnek ttelezzk fel.
TBBVLTOZS REGRESSZISZMTS
c)
83
A magyarz vltozk kztti kapcsolatrendszer megfelel-e? A 4.2.3. s a

4.2.6. alfejezeteket tartalmaznak tmutatst erre a krdsre.
Milyen mutatkra tmaszkodhatunk annak mrsekor, hogy tlzott

multikollinearits fellpett-e?
Mely vltozk elhagysval kszblhet ki a multikollinearits?
d) Modell diagnosztika, hibatagok viselkedse, kiugr pontok kezelse. A

4.2.7. alfejezet hasznos az albbi krdsek megvlaszolsakor.
Megfelel magyarz erej modellt kaptunk-e?
A hibatagok normlis eloszlsak-e?
A hibatagok szrsa azonos-e, nem lpett fel heteroszkedaszticits?
Vannak-e nagyon ers hatst gyakorl megfigyelsek a mintban?

Ezek elhagysa indokolt-e?
4.1. Az adatok ttekintse, elzetes megfontolsok

Az indul adatok kztt szerepl vltozkat intervallum vagy arny skln mrjk,
s felttelezzk, hogy az n szm megfigyels homogn sokasgbl szrmazik. Az y
fgg vltoz normlis elosztst kvet n elem oszlopvektor. A p darab magyarz
vltozt s a konstanshoz tartoz egyeseket az n(p+1) mret X mtrix tartalmazza.
A magyarz vltozk kztt ktrtk, dummy vltozk is szerepelhetnek.
A regressziszmts kt legfbb lpse az egytthatk becslse s a regresszis
modell tesztelse. De sok egyszer numerikus s grafikus vizsglati lpst
megtehetnk a becsls s a tesztels eltt. A ferdesg s cscsossg mellett a relatv
szrs kiszmtsa kpet ad az y vltozrl. Grafikus mdszerekkel, pldul 2-3
dimenzis pontdiagram ksztsvel mr a regresszis modell fellltsa eltt
meggyzdhetnk arrl, hogy kzelten teljeslnek-e az elfelttelek, hasznlhat
lesz-e a regresszis modell. Mivel grafikus bra magasabb dimenziban nem
kszthet, ezek a lpsek nem helyettestik a modell jsgt vizsgl teszteket, de a
teljesen hasznavehetetlen szmtsok megelzsre alkalmasak.
Az y s egy-egy x vltoz pontdiagramjn lthatv tehetnk sok fontos rszletet.
Ebben az alfejezetben 55 a Kerletek2010.sav adatllomnyt hasznljuk. A 4.1. bra
Budapest 23 kerletnek s az agglomerci tovbbi 27 teleplsnek
npessgszmt s az nkormnyzati bevtel nagysgt mutatja. Ez az bra alkalmas
arra, hogy ellenrizzk a 4.1. tblzatban szerepl kvetelmnyeket. rdemes
tovbbi lehetsges magyarz vltozkra is brt kszteni a modell illesztse eltt.
55
A kerletek adatainak tovbbi elemzse a 4.2.10-ben szerepel.
84
4.1. bra: Kilg pontok hatsa a regresszis egyenesre

A 4.1. brn lthat kilg pontok szerepeltetse az adatok kztt meredekebb
regresszis egyenest eredmnyezne. Ha mindkt vltoz mentn kilg
megfigyelst tallunk, annak ketts hatsa lehet:
Ha a megfigyelt lineris tendencia mentn de a tbbiektl tvolabb van

egy pont, akkor szerepeltetse a mintban felersti a modell jsgt.
Ha nem a megfigyelt lineris tendencia mentn tallunk tvolabbi pontot,

akkor a pont elhagysa javtja az illeszkedst, figyelembe vtele pedig nem
lineris modellt ignyel.
85
4.1. tblzat: Mikor alkalmasak az adatok lineris regresszis modell illesztsre?

Elmleti kvetelmnyek
Kvetkeztets a pontdiagram alapjn
Dnts
Lineris-e a kapcsolat, jogos-e a

lineris modell illesztse, vagy
ms fggvnytpust clszer
felttelezni?
A npessgszm s az nkormnyzati
bevtel egyttes nvekedse, lineris
kapcsolata fennll.
Az x nvekedsvel az y adatok
szrsa vltozatlan marad-e, a
hibatag konstans szrsa
felttelezhet-e?
A npessg nvekedsvel az
nkormnyzati bevtelek szrsa
enyhn nvekedik, br a kisebb
lakossg mellett is van kt helyen
jelentsebb eltrs az ltalnos
tendencitl.
Vannak-e kilg pontok, s

milyen az elhelyezkedsk? Egy
vagy mindkt dimenziban
kilgnak-e?
Budapest V. kerlete s Budars

npessgszma alapjn inkbb kicsik,
mg a bevtelk jval magasabb, teht
az egyik dimenziban kilg
megfigyelsek.
Homogn-e a minta, vagy

almintk lthatk, amelyekben
ms-ms tendencia rvnyesl a
vltozk kztt?
Az adatok homogenitsa megfelel,

nem mutatnak a fvrosi kerletek
ms tendencit, mint a krnykbeli
teleplsek.
Az egyes x pontokhoz tartoz y

rtkek normlis eloszlst 56
kvetnek-e, a tesztek
elvgezhetek lesznek-e?
Ez csak hisztogramon lthat, vagy a

ferdesg s cscsossg mutatkkal
rhat le. Statisztikailag elfogadhat a
feltevs.
Ha sszegezzk dntseinket amiket termszetesen a tovbbi magyarz

vltozkra is elvgeztnk , akkor mr csak a magyarz vltozk egyms kztti
korrelltsgt kell megvizsglnunk, hogy vlasztani tudjunk a modellpts kt tja
kztt:
I) Megerst szemllet: A szakmai tudsunk alapjn elre rgztett magyarz
vltozk krt egyszerre, egy lpsben vonjuk be a modellbe. gy bekerlhet a
modellbe statisztikai rtelemben nem szignifikns magyarz vltoz is. Ekkor
a modell utlagos rtkelsvel gyzdnk meg arrl, hogy elfogadhat-e a
modell egsze, s minden vltoz szignifikns szerepet jtszik-e a becslsben.
II) Feltr szemllet: A lehetsges magyarz vltozk halmazt megadva
lpsenknti regresszis eljrssal minden lpsben egy-egy vltozt vonunk
56
A normalits a regresszis egytthatk becslshez nem szksges, csak akkor kell

feltteleznnk, ha t-prbt vgznk, s konfidencia intervallumot runk fel.
86
be 57 a modellbe, s a bevont vltozk elhagyhatsgt is lpsenknt
ellenrizzk. gy olyan modell addik, ami statisztikai rtelemben a lehet
legjobb, de elfordulhat, hogy szakmailag nehezebben rtelmezhet.
A ktfle megvalsts szmtsi lpsei nem trnek el rdemben. Minden illesztett

modell jsgt ngy f lpsben rtkelhetjk:
a)
Parcilisan vizsgljuk egy-egy magyarz vltoz hatst/erejt t-prbval.
b) Vizsgljuk azt, hogy az sszes magyarz vltoz egyttesen szignifikns

kapcsolatban van-e az eredmnyvltozval, ezrt mrjk az R2 s a
korriglt R2 rtkt, valamint elvgezzk az F-prbt.
c)
A hibatagok megfelel viselkedst ellenrizzk.
d) A megfigyelseknek a becslsre gyakorolt egyedi hatst vizsglni kell.

Az eddig ismertetett dntsi pontokat a 4.2. tblzatban foglaljuk ssze.
4.2. tblzat: A regresszis modellek s tesztek ttekintse
Regresszis
modell
I) megerst
II) feltr
Vltozk
bevonsa
egyszerre, egy lpsben
szelektlva
a) Vltozk
ereje
minden vltozt tesztelni kell (tprba), s a vltozk kztt lehet

multikollinearits
minden bevont vltoz

szignifikns (de a
konstans nem mindig!)
b) Modell
egsze
az R2 s a korriglt R2, valamint az Fprba alapjn minstjk
az adott vltozkrbl
ez a legjobb lineris
modell, de ez elg je?
c) Hibatagok
normlis eloszlst s homoszkedasztikus jellegt ellenrizni kell
azonos az I) modellel
d) Egyedi
megfigye-lsek
hatsa
a tlzott tttel-hatst mrni, vizsglni

kell, s a zavar pontokat elhagyni
azonos az I) modellel
A vltozk lpsenknti bevonsa mellett van a teljes modellbl indul, a vltozkat

lpsenknt kihagy vltozat is, ezekkel majd a megvalstsi rszben foglalkozunk.
57
87
4.2. A regresszi matematikai httere

A tbbvltozs lineris modell mtrix-egyenlete:
y = X + , ahol
(4.1)
az y n elem vektor, X mtrixnak n sora s (p+1) oszlopa van, az ismeretlen

egytthatk vektora (p+1) elem, az hibatag n elem.
A modell alkalmazsnak felttelei:
A hibatag normlis eloszls, vrhat rtke zrus, variancija konstans, s

a hibatagok nem autokorrelltak.
A magyarz vltozk linerisan fggetlenek, rtkk mrsi hibt nem

tartalmaz.
A megfigyelsek szma s a magyarz vltozk szma kztt fennll,

hogy n>5p.
E felttelek teljeslse esetn a (p+1) regresszis egytthat legkisebb

ngyzetes becslse:
= ( X T X ) 1 X T y
(4.2)
A megolds elllthat, ha az inverz ltezik, azaz ha X rangja (p+1).

58
A reziduumok variancija:
2 =
T
n p 1
, ahol
= yy= yX
(4.3)
A modellben lev szrsngyzet felbontsa

Az egytthatk becslt rtkt a tovbbiakban b-vel, s a becslshez tartoz
reziduumokat e-vel jelljk:
e = y Xb .
A teljes eltrsek ngyzetsszege (SST: Sum of Square of Total) az egyvltozs
modellhez hasonl alak, ez az y vltoz szrsngyzetnek n-szerese:
Az inverz ltezik, ha X oszlopvektorai linerisan fggetlenek. A gyakorlatban elfordul,

hogy valamelyik vltoz kifejezhet a tbbi lineris kombincijaknt, vagy ersen
korrellnak egymssal. Ebben az esetben multikollinearits lp fel, s ekkor lpsenknti
regresszit clszer vgezni.
58
88
n
(y
SST=
i =1
y) 2 = yT y + n y
(4.4)
Az SST az y vltoz megfigyelt rtkeibl kiszmthat, de most az a clunk, hogy

kt rszre bontsuk 59: SST=SSR+SSE
Az x magyarz vltozk ltal a regresszis modellben megmagyarzott hnyad

(SSR: Sum of Square of Regression) a lehet legnagyobb legyen.
A meg nem magyarzott rsz, az n. hibahats (SSE: Sum of Square of Error)

pedig minl kisebb legyen.
A hiba-variancia (s2) az SSE jells eltrs-ngyzetsszegbl osztssal kaphat

meg:
SSE=eTe=
2
yi yi = y
i =1
n

y y

y = ( y Xb )T ( y Xb )
, s
s 2 = (e T e) /(n p 1)
(4.5)
A regresszis egytthatk szrsngyzete a hibavariancia (4.5) segtsgvel
hatrozhat meg. Egy b regresszis egytthat variancija az (XTX)-1 megfelel
diagonlis elembl addik:
Var(bj)=s2 diagj{(XTX)-1}
(4.6)
A regresszis eltrs-ngyzetsszeg nagysga klnbsgknt is megkaphat:

n
SSR = SST-SSE =
( y
i =1
y )2 = y T Xb n y
(4.7)
Az egyenletek felrsa utn kvetkezik a tesztels, azaz annak eldntse, hogy

eredmnyes volt-e a modell illesztse. Ennek eldntshez azt a nullhipotzist
teszteljk, hogy a bj meredeksgek mind zrussal egyenlk, azaz nincs rdemi
magyarz ereje a modellnek. A tesztelshez felrt szrsfelbont (ANOVA)
tblzat (4.3. tblzat) tartalmazza az eddig ismertetett eltrs-ngyzetsszeg
tagokon tl az tlagos ngyzetsszegeket (MS), valamint az F-prba rtkt.
Azzal, hogy az egytthatk legkisebb ngyzetes becslse sorn az SSE-t
minimalizljuk, egyttal az SSR-t maximalizljuk. Az tlagos ngyzetsszegek
arnya az F-hnyados is nagy lesz, ha van lineris regresszis sszefggs a
Az itt alkalmazott jells - br igen elterjedt - csak az egyik lehetsg. Lehet a Sum of
Square kt rsze Explained s Residual, akkor pp fordtva van a tartalmuk, mint ahogy
itt szerepel.
59
89
magyarz vltozk s az eredmnyvltoz kztt. Ezt a prbafggvnyhez tartoz

szignifikancia szint jelzi.
4.3. tblzat: Szrsngyzet felbontsa s tesztelse
A variancia
Eltrs
Szabadsg tlagos
F-hnyados
forrsa
ngyzetsszeg
fok
ngyzetsszeg
Regresszi
SSR
MSR=SSR/p
Hibatag
SSE
n-p-1
MSE=SSE/(n-p-1)
Teljes
SST=SSR+SSE n-1
F=MSR/MSE
4.3. A vltozk kztti korrelci mrse s szerepe a regresszis

modellben
A megfigyelsek halmazt s a vltozk krt is szakmai megfontolsok alapjn
vlasztjuk ki, mgis elfordulhat, hogy
tl sok magyarz vltoznk van,
a magyarz vltozk nem fggetlenek,
a vltozk nem linerisan kapcsoldnak a fgg vltozhoz.
A korrelcis egytthat (4.8) szerinti kplete centrozott adatokra egyszerbb

alakot lt, s gy kzvetlenl lthat, hogy a kt vltoz kztt az n-dimenzis
trben bezrt szg koszinuszval azonos rtket ad:
n
r ( x, y ) =
( xi x)( yi y)
i =1
( xi x ) 2 ( y i y ) 2
i =1
i =1
x y
i =1
x y
2
i
=
2
i
xT y
= cos
x y
(4.8)
A fgg s a p szm magyarz vltoz kztti pronknti korrelcit tartalmaz

(p+1)x(p+1) mret R korrelcis mtrixbl a szignifikancia szintek alapjn kpet
kapunk a multikollinearits mrtkrl. A korrelcis mtrix szimmetrikus, a
90
ftljban egyesek llnak. A mtrixban tallhat brmely r korrelcis

egytthathoz tartoz szignifikanica szint a t-prba alapjn llapthat meg, ahol
t=
r n2
1 r 2
(4.9)
Ez a t-teszt (n-2) szabadsgfok Student-eloszlst kvet.
4.4. rdemes-e tbb vltozt egyidejleg bevonni a regresszis

modellbe?
Tbbvltozs modellt csak akkor rdemes becslni, ha ez rdemben javtja az
illeszkedst az egy magyarz vltozhoz kpest. Dntsnkhz globlis mutatkat
s parcilis teszteket hasznlhatunk.
Elszr a modell egszt minst hrom globlis mutatt tekintjk t:
a) determincis egytthat s korriglt vltozata
b) a modell sztenderd hibja
c) a lineris modell ltt ellenrz F-teszt
a) Legelterjedtebb a determincis egytthat (a tbbszrs korrelci ngyzete 60)
mellett ennek korriglt (adjusztlt) vltozata az illeszkeds jsgnak
mrszmaknt:
R 2 = SSR / SST = 1 SSE / SST ezrt 0 R 2 1
Radj
SSE / (n p 1)
p (1 R 2 )
= 1
=R
SST / (n 1)
n p 1
2
(4.10)
ahol p a modellben szerepl fggetlen vltozk szma.

A korrekci azrt szksges, mert tbb vltoz bevonsval R2 n, s tl optimista
kpet mutat a modell illeszkedsrl. Az R2 s a korriglt vltozata is szzalkosan
rtelmezhet. Mindkett azt mri, hogy a modellbe bevont magyarz vltozk az
eredmnyvltoz variancijnak hny szzalkt magyarzzk meg. E
mutatszmokhoz teszt nem kapcsoldik.
b) A regresszis modell sztenderd hibja a (4.3) ngyzetgyknek mintabeli
becslse.
s=
60
SSE
1
=
( yi yi ) 2
n p 1
n p 1 i =1
(4.11)
Csak ktvltozs modellben rvnyes az, hogy a determincis egytthat a kznsges

korrelcis egytthat ngyzete. rdemes elolvasni Hunyadi Lszl: A determincis
egytthatrl cm cikkt, mely a Statisztikai Szemle 2000. szeptemberi szmban jelent
meg. (78. vf. 9. sz. 753-765. oldal)
91
Hvelykujj szablyknt rdemes megnzni, hogy s kisebb-e, mint egy-egy

magyarz vltoz szrsa. Ha nem kisebb, akkor a modell illesztse nem r annyit
sem, mintha a fgg vltoz tlagt tekintennk becslsnek.
c) A variancia-analzis azt a nullhipotzist teszteli, hogy a bj meredeksgek mind
zrussal egyenlk (csak a konstans klnbzik szignifiknsan nulltl), mg az
alternatv hipotzis szerint van zrustl klnbz bj. A nullhipotzis elfogadsa azt
jelenti, hogy az adott vltozkkal felrt regresszis modell nem alkalmas y
becslsre. Ha elvetjk a nullhipotzist, abbl mg nem kvetkeztethetnk arra,
hogy j becslst tudunk adni a fgg vltozra, mert lehetnek a modellben nem
szignifikns paramter magyarz vltozk. Az ANOVA tblbl szmolt
prbafggvnyt globlis F-prbnak nevezzk.
A modell parcilis vizsglata a regresszis egytthatk egyenknti tesztelse tprbval trtnik. A nullhipotzis szerint H 0 : j = 0 s a ktoldali alternatv
hipotzis:
H1 : j 0 .
A tesztfggvny Student-eloszlst kvet, kplete
t=
bj
sb j
(4.12)
ahol sbj az (4.5) szerinti becslt variancia gyke. A t-prba szabadsgfoka n-j-1, ahol
j azt jelzi, hogy a j-edik vltozt vontuk be a modellbe. A t-eloszls segtsgvel (1) valsznsgi szint konfidencia intervallum is felrhat az elmleti j
paramterre:
b j t / 2,( n j 1) sb j
(4.13)
A sztenderdizlt regresszis egytthatk szmtsa a (4.14) kplettel 61 trtnik,

ezekre kln tesztet nem kell vgezni.
beta j = b j
sx j
sy
(4.14)
A sztenderdizlt bta nem azonos az elmleti modell egytthatjval. rtke a

szrsok arnytl fggen kisebb vagy nagyobb is lehet, mint a becslt b
egytthat. Az abszolt rtkben legnagyobb rtk vltozt tekinthetjk a modell
legfontosabb magyarz vltozjnak.
Kzvetlen, kzvetett s teljes hats (kitekints)
A regresszis egytthatk rtelmezsekor fontos hangslyozni, hogy a magyarz
vltozk fggetlensgt feltteleztk a becsls sorn. A modellben a b0 konstans azt
61
Ha a modellben egyetlen x magyarz vltoz van, akkor beta= r, ahol r a kznsges

korrelcis egytthat.
92
az alaprtket adja meg, amit y akkor vesz fel, ha minden xj rtke nulla. A bj
egytthat pedig azt a kzvetlen hatst mri, hogy mennyivel vltozik y, ha xj egy
egysggel n, mikzben a tbbi magyarz vltoz rtke vltozatlan.
Ha a magyarz vltozk lineris fggetlensge nem teljesl, akkor y s xj kztt a
teljes hatst (byj) a kzvetlen hats (bj) s az xj-vel korrell (pl. xk) magyarz
vltoz(ko)n keresztl megvalsul kzvetett hatsok egytt adjk.
gy byj =bj + bk*bjk, ahol bjk az xknak mint magyarz vltoznak az xjre, mint
fgg vltozra felrt regresszis egytthatja. A direkt s az indirekt hatsok
feltrsa t-elemzssel 62 valsthat meg.
4.5. A vltoz szelekcit megvalst lpsenknti regresszi

A lpsenknti regresszi 4 eljrssal vgezhet el, de hromnak
kzs jellemzje az, hogy egy lpsben egyetlen vltoz bevonsrl
vagy elhagysrl dntnk. A dnts alapja a parcilis F-prba:
R 2 RO2 n p 1
Fp =
1 R2
q
(4.15)
ahol R2 az aktulis, p magyarz vltozs becsls, RO2 pedig az elz modell

determincis egytthatja, q pedig az adott lpsben bevont vltozk szma
(ltalban q=1).
Az F-hnyados szabadsgfoka a szmllban q s a nevezben (n-p-1).
A t-prba ngyzete megegyezik ezzel a parcilis F-teszttel, amelyet azrt
szmtunk, hogy mrjk az ppen bevont xj vltoz magyarzerejnek
szignifikancijt.
Az jabb vltozk bevonsval R2 monoton n a differencia cskkense mellett.
gy eldntend krds, hogy szignifiknsan n-e a determincis hnyados az
adott vltoz(k) bevonsval. A belptets s kihagys kritriuma F rgztett
nagysga, vagy az F-hez kapcsold szignifikancia szint megvlasztsa lehet.
Ha jabb magyarz vltozkat vonunk be a modellbe, akkor az ANOVA
tblzatban SSE cskken s SSR n. Az tlagos ngyzetsszegek (MS)
vltozsnak irnya mr nem egyrtelm, mert a nevezk is vltoznak, ezrt F
rtknek alakulsrl biztosat nem llthatunk.
Ha rgztett valsznsgi szinthez tartoz F-rtk mellett (4.15)-bl kifejezzk
az R2 vltozst, akkor a (4.16) dntsi kritriumhoz jutunk. Bevonsra rdemes a
vltoz, ha
62
Angol neve Path analysis, az SPSS-ben nem szerepel.
R 2 RO2 >
q
(1 R 2 ) F ,q ,( n p 1)
n p 1
93
(4.16)
A lpsek sorn meghatrozsra kerlnek itt eljel nlkl a parcilis korrelcik

is:
R parc =
R 2 RO2
1 RO2
(4.17)
A szmll gykt rszkorrelcinak nevezzk (Part correlation). Ha az jonnan

belp vltoz valban korrellatlan a modellbe mr bevont vltozkkal, akkor a
rszkorrelci jelentsen n a vizsglt lpsben.
A lpsenknti modellezs vltozatai:
Forward szelekci: minden lpsben azt a magyarz vltozt vonjuk be,

amelyiknek a parcilis F-tesztjhez a legkisebb p valsznsg tartozik. A
bevonsi folyamat addig folytatdik, amg ez a p az elre rgztett
maximum (PIN) alatt marad, vagy minden vltoz bevonsra kerlt.
Backward eliminci: az indul lpsben az sszes vltoz a modellben

van, s lpsenknt azt az egyet hagyjuk ki, amelyiknek a legkisebb a
parcilis korrelcija. Ekkor a parcilis F-teszthez a maximlis p
valsznsg tartozik. Lell a kikszbls, ha p kisebb, mint a kszb
(POUT), vagy nincs mr vltoz a modellben.
Stepwise mdszer: a forward eljrst gy mdostjuk, hogy minden

lpsben ellenrizzk a modellbe korbban bevont vltozk p
valsznsgt, s ha p>POUT, akkor a vltozt kihagyjuk a modellbl.
Nem kerlnk vgtelen ciklusba, ha PINPOUT. Szoksos bellts:
PIN=0,05 s POUT=0,10.
Remove eljrs: belpteti az sszes vltozt (mint az Enter mdszer),

majd elhagyja egyszerre az sszes vltozt, s sszehasonltsknt csak a
konstans tagot tartalmaz modell eredmnyeit kzli.
4.6. A magyarz vltozk kztti korrelci, a multikollinearits

A magyarz vltozk fggetlensgre vonatkoz elvrst akkor is megsrthetjk,
ha lpsenknti szelekcit vgznk, mert a bevonsnl a modell magyarz erejnek
javulsn van a hangsly. Ezt a kzvetett hatsok mg fokozzk is. Ezrt a
lpsenknti regresszis modellezsnl klnsen indokolt a modellbe bevont
magyarz vltozk kztti korrelci, a multikollinearits mrse, melyre ngy
mrszmot ismertetnk.
a)
A tolerancia mrtk annak a tbbszrs determincis egytthatnak a

komplementere, amely azt mri, hogy az i-edik magyarz vltozt az
94
sszes tbbi x milyen szorosan hatrozza meg:
Tol = 1 Ri2 . A kicsi
(nullhoz kzeli) tolerancia jelenti azt, hogy kzel fggvnyszer a

kapcsolat a magyarz vltozk kztt.
b) A
variancia
infll
faktor
(VIF)
tolerancia
reciproka:
VIFi = 1 /(1 R ) . Ezrt ha a magyarz vltozk kztt szoros

2
i
kapcsolat van, a VIF vgtelen nagy lehet. Ha a vltozk ortogonlisak,

akkor a VIF egysgnyi. A VIFi egyttal a sztenderdizlt magyarz
T
vltozkbl kpzett ( X X ) mtrix i-edik diagonlis eleme. Ez a kplet

szerepel (4.5)-ben a regresszis egytthatk szrsngyzetnek
becslsekor. Ezrt multikollinearits fellpsekor n a VIF, s emiatt nagy
lesz a Var(b), tovbb szles lesz az egytthat konfidencia intervalluma. A
VIF-hez kritikus kszb nem adhat, de hvelykujj szably szerint 2-ig
elfogadhat, 5-ig trhet, t felett pedig veszlyes.
Tolerancia s VIF
A kt mutat ellenttes alakulst mutatja a 4.2. bra.

10
9
8
7
6
5
4
3
2
1
0
Tolerancia
VIF
0,2
0,4
0,6
0,8
Determincis egytthat
4.2. bra: A multikollinearits kt mrszmnak alakulsa

c)
Az (XTX) centrozatlan, de a szrssal leosztott 63 adatokbl kpzett

szorzatmtrix sajtrtkeit (i) ellltva s nagysg szerint rendezve
kondcis index (CI) kpezhet:
CI i = max / i , ahol i=1,,(p+1)
63
Ilyen mtrix ftljban egyesek llnak.
95
Ha a magyarz vltozk kztt szoros korrelci van, akkor a maximlis

sajtrtk nagy, a tbbi lambda gyorsan cskken, ezrt a kondcis index is
nagy. Hvelykujj szably, hogy 1-5 kztt gyenge, 5-10 kztt zavar a
multikollinearits. Ha 10 feletti az index, akkor komoly kollinearits ll
fenn. Ha sok sajtrtk kzel nulla, akkor az adatokban bekvetkez kis
vltozsok nagy vltozst idznek el a becslt egytthatkban.
A nagy sajtrtkek szma azt jelzi, hogy hny dimenzis trben
jelenthetk meg a fggetlen vltozk. A fkomponens elemzs, amelyet
egy ksbbi fejezet ismertet, ilyen adathalmazok elemzsre alkalmas.
d) Variancia hnyadot szmthatunk minden regresszis egytthatra (a
konstansot is belertve), hogy a regresszis egytthatk varianciit a
sajtrtkek (s az ltaluk jelzett merleges tengelyek) kztt sztosszuk.
Egy-egy egytthat oszlopnak sszege teht egysgnyi.
Soronknt vizsglva a variancia hnyadot, multikollinearitsi problmra
utal, ha egy-egy nagy kondcis index sorban tbb regresszis
egytthatnak magas a variancia hnyada.
4.7. Az egyedi megfigyelsek hatsa a becslsre

Eddig az X mtrix oszlopaira, a vltozk szerepre koncentrltunk. Most a sorokat
vizsgljuk, az egyes megfigyelsek fontossgt, befolyst mrjk. Az angolul
leverage-knt megjelen fogalom tttelhatst jelent. Ezzel a mrszmmal
azonosthatk az extrm helyzet megfigyelsek is. A hibatagokat is
megfigyelsenknt vizsgljuk, valamint tvolsgot is mrhetnk, mieltt extrm
helyzetnek minstnk egy megfigyelst.
4.7.1. A becslst befolysol pontok feltrsa

A becslst befolysol pontok feltrshoz a (4.2)-ben felrt becslegyenlet
B =( X T X ) 1 X T y
mindkt oldalt szorozzuk balrl X mtrixszal. Ekkor azonossgot kapunk, ahol H
(nxn)-es mtrix a lekpezs 64 mtrixa.
X B = y = X ( X T X ) 1 X T y = Hy
64
H mtrix angol neve hat matrix.
(4.18)
96
A (4.18)-bl lthat, hogy H kzvetlen kapcsolatot teremt a fgg vltoz
megfigyelt rtkei (y) s becslt rtkei ( yi ) kztt.

A H mtrix segtsgvel a hibatagok vektora
e = y y = y Hy = ( E H ) y ,
(4.19)
ahol E az egysgmtrix, s gy az eltrs-ngyzetsszegek is felrhatk:

2
SSE = y T ( E H ) y
SSR = y T Hy n y .
H mtrix szimmetrikus, diagonlis elemei (jellje hii ) azt a hatst fejezik ki, amit az
i-edik megfigyels (X mtrix i-edik sora) gyakorol az sszes magyarz vltozn
keresztl a regresszis becslsre.
hii = xiT ( X T X ) 1 xi
n
Megmutathat, hogy
h
i =1
ii
(4.20)
= p + 1 , hiszen ennyi az X oszlopainak szma, s
1 hii 1 / n . Egy megfigyels tttel hatsa tlagos, ha rtke (p+1)/n, s

befolysol, jelents megfigyelst jelez, ha az tlag ktszerest meghaladja, azaz
hii 2( p + 1) / n .
Knnyebb az rtelmezs, ha a h-bl a minimlis 1/n rtket levonjuk, s az orighoz
tolt hatst (centered leverage) vizsgljuk:
hii
1
n
(4.21)
Mivel gy 0 s (n-1)/n kztti rtket kaphatunk, gyakorlati szably adhat a

(h 1/n) eltolssal kapott mrtkre:
0,2 alatti rtk mellett a megfigyelsek bevonhatk a becslsbe
0,2 s 0,5 kztt kockzatos a becsls elvgzse
0,5 felett kerlend a megfigyelsek bevonsa a regresszis becslsbe.
Az SPSS kziknyv ltal javasolt msik szably szerint p>6 s (n-p)>12 esetn 3p/n
a bevonsi kszb. Ha a megfigyelsek szma s a magyarz vltozk szma
kztti n>5p ajnlst is figyelembe vesszk, akkor 3/5=0,6 feletti rtket elr
megfigyelst semmikppen nem vesznk figyelembe a regresszis modell
becslsekor.
97
Minden megfigyelt rtk h sllyal befolysolja a becslst:
yi = b0 + b1 xi1 + b2 xi 2 + ... + b p xip = hij y j , ahol hij = xiT ( X T X ) 1 x j .

j =1
A legkisebb ngyzetes becsls nagyon rzkeny az extrm (xi, yi) megfigyelsprokra. Ha a megfigyelt y rtk extrm, s/vagy az x rtkektl fgg h sly nagy,
akkor ers hatst gyakorolnak a becslsre. Egyszerbb a hatsok rtelmezse, ha az
X mtrixban a fggetlen vltozk tlagtl vett eltrsei, a centrozott adatok vannak.
Ekkor egy magyarz vltoz esetn h azt fejezik ki, hogy az x vltoz egy-egy
1
megfigyelt rtke milyen tvol van az tlagtl: hii = +
n
(x x )
(x x )
2
j =1
4.7.2. Hibatagok ellltsa s elemzse

A hibatagok, vagy elterjedt szval rezidulisok vizsglata nagyon szertegaz
terlet. Az elvrsok kztt szerepel, hogy normlis eloszlst kvetnek, fggetlenek
s lland a szrsuk.
Hisztogramot rdemes kszteni, melyrl a rezidulisok eloszlsa lthat,

s a normlis eloszlstl val eltrs grafikusan megjelenthet. A
rezidulisok brit az eredmnyek bemutatsnl tekintjk t.
A QQ plot is a hibatagok normlis eloszlstl val eltrst mutatja.
Ha a hibatagokat az y adatok mentn brzoljuk, akkor a szrsok

homoszkedasztikus jellege is szemlltethet.
Az egyik legismertebb teszt a Durbin-Watson statisztika, amely a hibatagok

autokorrellatlansgt teszteli, ezrt idsoros adatok esetben clszer
rtelmezni, keresztmetszeti elemzsben nincs ltjogosultsga.
Mivel a megfigyelt s a becslt rtkek eltrse tbbflekppen mrhet, tbbfle

rezidulis szmthat s elemezhet. A kznsges rezidulisok ( ei
= yi y i )
mellett szmolhat gy is hibatag, ha egy-egy megfigyelst kihagyunk. Az i-edik

megfigyels (x,y) koordintinak elhagysval nyert becsls s az gy szmtott
rezidulis 65 indexben szerepel a kihagyott elem:
e(i )i = yi y (i )i .
Ha az i-edik megfigyels ersen befolysolja a becslst, akkor a kt hibatag nagyon

eltr. A kt rezidulis kztt a hats (hii) rtke teremt kapcsolatot:
65
Az egy megfigyels trlse, kihagysa utn szmtott hibatag angol neve deleted residual.
Hunyadi-Mundrucz-Vita: Statisztika c. knyve sorelhagysos mdszert emlt.
98
e(i )i = ei /(1 hii )
(4.22)
e(i )i ei
de nagymret, homogn mintban egy-egy

,
megfigyels kihagysa miatt a ktfle rezidulis nem trhet el jelentsen egymstl.
Mg a rezidulisok ngyzetsszege=SSE, addig a trlsek utn becslt rezidulisok
Mivel h nem-negatv,
ngyzetsszege 66 PRESS=
e
i =1
2
(i )i
. A kt sszeg hnyadosa (PRESS/SSE) jelzi,
hogy mennyire rzkeny a regresszis becsls a kihagyott megfigyelsekre. Ha sok

s/vagy nagyon tvoli (outlier) pont volt a mintban, akkor a PRESS/SSE arny
jval nagyobb, mint egy.
A rezidulisok nagysgnak megtlst segti a sztenderdizls. A kznsges
rezidulisokat osztva a (4.4) gykvel, az s szrssal, sztenderdizlt hibatagokat
kapunk:
zi = ei / s
Mivel
regresszis
(4.23)
becslsbl
szrmaz
hibatagok
variancija
torztott,
Var (ei ) = (1 hii ), a zi szrsngyzete nem egysgnyi. Az egysgnyi

2
variancit biztostja, ha a (4.24) szerint sztenderdizljuk a hibatagokat. Az gy kapott

rezidulisok abszolt rtkben nagyobbak lesznek (4.23)-beli prjaiknl:
ri = ei / s 1 hii
(4.24)
A (4.24)-ben a sztenderdizlshoz hasznlt s szrs nem fggetlen az ei hibatagtl,

ezrt ezt szoktk belsleg studentizlt rezidulisnak is nevezni, megklnbztetve a
kihagyssal szmolt, klsleg studentizlt rezidulistl, titl, amelynek eloszlsa
Student eloszlst kvet:
ti = ei / s(i ) 1 hii
(4.25)
Ez a (4.25)-ben szmolt t-statisztika mri az ei ben azt, hogy y mennyire tr el a

becslstl, s hii ben pedig azt, hogy az x-ek hatsa milyen jelents. Ha gyantjuk,
hogy valamelyik megfigyels nagyon rendhagy, akkor az erre kiszmolt t-rtket
sszevethetjk a Student eloszls kritikus rtkvel. A Student-eloszls
szabadsgfoka (n-p-2). Nagy megfigyelsszm mellett normlis eloszls
alkalmazhat.
Az ttekinthetsg rdekben a 4.4. tblzatban foglaljuk ssze a rezidulisok
tartalmt, kplett s az SPSS-ben szerepl rvid elnevezst.
66
A sorkihagysokkal szmolt eltrs-ngyzetsszegek angol neve: Predicted Residual Sum

of Squares= PRESS.
99
4.4. tblzat: Hibatagok vltozatai

A rezidulis tartalma, (angol neve), betjele
Kpletnek
szma
SPSS-neve
Kznsges rezidulis (unstandardized): e
(4.19)
res
Az i-edik megfigyels kihagysval szmtott

rezidulis (deleted): e(i)
(4.22)
dre
Sztenderdizlt kznsges rezidulis: z
(4.23)
zre
Studentizlt rezidulis, megfigyels kihagyva,

szrs a teljes mintbl (studentized): r
(4.24)
sre
Studentizlt rezidulis, a szrs is kihagyssal

szmolva (studentized deleted): t
(4.25)
sdr
4.7.3. A becslst befolysol tvoli pontok feltrsa, kihagysi dnts

Mahalanobis tvolsg alapjn kivlaszthatjuk azokat a potencilis megfigyelseket,
amelyek kilgnak (outliernek) tekinthetk. A Mahalanobis tvolsg dM
ktflekppen is kiszmthat.
a) dM =(n-1)(hii 1/n),
(4.26)
b) d M2 = ( y( i ) y )T S 1 ( y (i ) y ) , ahol S a vltozk kovariancia 67

mtrixa.
Cook javasolta a D-statisztika szmtst, amelyben az i-edik megfigyelssel s e
pont kihagysval ksztett lineris regresszis becslseket vetjk ssze az i-edik
n
pontban: Di
= ( y ( i )i y i )2 /( p + 1 )s 2
i =1
A Cook-fle D egyszerbben kiszmthat a (studentizlt) rezidulis s a hatsmrtk felhasznlsval:
ei2 hii
hii
Di =
= ri 2
2
2
( p + 1) s (1 hii )
( p + 1)(1 hii )
(4.27)
Hvelykujj-szably alapjn az egynl nagyobb Di t ad megfigyelsekre kell

odafigyelni.
67
Ha a vltozk korrellatlanok, akkor megegyezik az euklideszi tvolsggal.
100
A diagnosztikt segt tovbbi mrtkek a regresszis egytthatkat s a becslt

rtkeket vetik ssze, mrve azok vltozst, ha egy-egy megfigyelst kihagyunk.
68
DfBeta mutatval a j-edik regresszis egytthat

edik megfigyelst elhagyjuk:
69
rzkenysgt mrjk, ha az i-
DfBeta ji = (b j b(i ) j ) / c jj s(i )
(4.28)
ahol cjj az egytthat szrstl fgg korrekcis tnyez, ngyzete az (XTX)-1

diagonlisban tallhat. Figyelmet rdemel az i-edik megfigyels, ha (4.28)
abszolt rtke meghaladja a
2 / n kszbszmot.
A sztenderdizlt vltozatot a regresszis egytthat sztenderd hibjval trtn

oszts utn kapjuk, s az eljelet is figyelembe vesszk: StDfBetai =DfBetai /sb .
Cook D mutatjhoz hasonlan a becslt rtkeket hasonltja ssze a DfFits mrtk,
amelyben a (24)-beli r helyett (4.25) szerinti t szerepel. A DfFits egyestve mutatja
azt a hatst, amit az i-edik megfigyels kihagysa gyakorol az egyes regresszis
egytthatkra, b0ra, b1-re, stb.:
DfFitsi = yi y(i )i
Mivel az eltrst itt sem emeljk ngyzetre, DfFits eljelt is vizsglhatjuk. Az

sszehasonlthatsg rdekben (4.29) szerint sztenderdizljuk az eltrseket, s az
abszolt rtkben
2 p / n -nl nagyobbakat kiemelten kezeljk:
StDfFitsi = yi y( i ) i / s( i ) hii = ti ii
1 hii
1/ 2
(4.29)
Vgl a kovariancia-hnyados mutatval zrjuk a megfigyelsek hatsnak

vizsglatt. Az adatokbl becslt kovariancia mtrixot (S) is kpezhetjk az i-edik
megfigyels kihagysa utn (S(i) ). Ezek determinnsainak hnyadosa:
CovRatio =
S (i )
S
(n p) p
[(n p 1) + ti ]p (1 hii )
(4.30)
Ha a kovariancia-hnyados rtke ~1, akkor nem jelents az i-edik eset hatsa.

Az sszetevket vizsglva megllapthat 70, hogy
68
CovRatio 1 3 p / n.
A Df rvidts a differencira utal.

A konstans tag, b0 is vizsglhat gy.
70
Belsey, Kuh s Welsch 1980-ban adtk meg a fels hatrt.
69
101
Egyszerbb alakot kapunk, ha egyetlen magyarz vltoznk van. Ekkor azokra a

megfigyelsekre kell klnsen figyelnnk, amelyek kovariancia-hnyadosa
nagyobb, mint (1+3/n) vagy kisebb, mint (1-3/n).
4.8. A megvalsts lpsei az SPSS-ben

Az ANALYZE/REGRESSION/LINEAR utat kvetve a nyit oldalon elszr
a fgg (dependent) vltozt s
a fggetlen (independents) vltozkat kell megadni.
A mdszer alaprtelmezs szerint Enter, vagyis minden fggetlen vltozt bevon az

eljrs. Mintapldnkban lpsenknt felptett (stepwise) modellt ismertetnk. A
npessgnvekeds becslshez 6 magyarz vltozt jelltnk ki.
Megadhat mg selection vltoz, amellyel almintt kpznk, ezzel most

nem lnk.
Cmkzzk az orszgok nevvel az eseteket a case label-ben.
Az outputok listja a kvetkez 4 gomb mgtt trul fel: Statistics, Plots, Save,
Options.
A bellts menete s az eredmnyek sorrendje jelentsen eltr. Elszr azt tekintjk
t, hogy mit rdemes krni, majd azt, hogy mit hogyan rtelmeznk.
I.
Statistics
A regresszis egytthatk becslse mellett konfidencia intervallumot s

kovariancia mtrixot krhetnk.
A modell illeszkedst, az R2 vltozst, ler statisztikt (tlag, szrs,

megfigyelsek szma), parcilis korrelcit s multikollinearitsi
mrtkeket vlaszthatunk.
A rezidulis a Durbin-Watson tesztet s esetenknti diagnosztikt

krhetnk. Ha az n nagy, rdemes csak az outlier eseteket kiratni, amelyek
az tlagtl 2-3 szrsnyi tvolsgra vannak.
II.
Plots
III.
Save
A regresszis becsls sszevethet a rezidulisok klnbz fajtival. A

rezidulisok normlis eloszlsrl a hisztogram s a normlis eloszlstl val
eltrs ad kpet.
Ez a gomb t csoportba sorolva ajnlja fel az elmenthet eredmnyeket.
102
1.
2.
3.
4.
5.
Becslt rtkek (kznsges, sztenderdizlt s korriglt becsls, valamint a

becsls sztenderd hibja minden egyes megfigyelsre kln-kln)
Rezidulisok (kznsges, sztenderdizlt, studentizlt, kihagyott s
kihagyva studentizlt)
Tvolsgok egyenknt mrve: Mahalanobis, Cook-D s az tttel-hats
rtkek
A befolyst mr statisztikk (DfBeta s DfFit sztenderdizlva is,
kovariancia hnyados)
Konfidencia intervallum a regresszis becsls minden pontjra az tlaghoz
s egy egyedi ponthoz kpest, vlaszthat megbzhatsgi szinten.
IV.
Options
A belptets az F-hez tartoz valsznsg (alaprtk: Entry: 0,05,

Removal: 0,10) vagy az F teszt rtknek kivlasztsval szablyozhat.
Alaprtelmezs szerint van konstans tag a modellben, de itt kihagyhat.
A hinyz rtkek pronknti vagy soronknti kihagyst, estleg az

tlaggal val helyettestst krhetjk.
4.9. A szmtsi eredmnyek bemutatsa

A npessg nvekedsi temt (y) becsljk az SPSS-ben elrhet World95.sav
adatllomny alapjn. Az egyes tblk angol s magyar nevnek megadsa utn
rviden rtkeljk a rszeredmnyeket.
Descriptive statistics a ler statisztikk kzl a vltozk tlagt s szrst,
valamint a megfigyelsek szmt kapjuk meg. 109 orszg adatai kztt sokszor
hinyzik a napi kalria-bevitelt mr vltoz. Ilyen esetben az alaprtelmezs
szerint a regresszis becsls az egsz sort kihagyja (listwise), ezrt 75 adatbl
szmolt statisztikkat kapunk. (4.5. tblzat) Az eredmnyek kzl AIDS-esek
szmnak relatv szrsa 71 tbb mint 4, ez tlzott mrtk heterogenitst 72 jelent, a
modellbe bevonni nem clszer.
Szrs/tlag= relatv szrs, a kettnl nem nagyobb rtk a kedvez. Az tlag eljeltl
eltekintnk.
72
Nincs npessgre vettve az adat, s az USA kiugran magas betegszma megnveli a
szrst.
71
103
4.5. tblzat: Ler statisztikk

Std.
Deviation
Mean
Population increase (%
per year))
Average female life
expectancy
Average male life
expectancy
Infant mortality (deaths
per 1000 live births)
Gross domestic
product / capita
Daily calorie intake
Aids cases
1,821
1,143
75
68,81
11,41
75
63,88
10,11
75
47,021
38,731
75
5853,16
7149,52
75
2753,83
11067,40
567,83
48111,34
75
75
Correlations: a fgg s a magyarz vltozkra pronknti korrelcik,

szignifikancia szintek s a minta mrete szerepel a tblzatban. A multikollinearits
mr itt szlelhet, egyes magyarz vltozk kztt szinte fggvnyszer kapcsolat
van. Az AIDS vltoz nem korrell szignifiknsan a npessgnvekedssel,
bevonsra nem kerlhet. (4.6. tblzat)
4. 6. tblzat: Korrelcis mtrix
Correlations
Population increase (%
per year))
Average female life
expectancy
Average male life
expectancy
Infant mortality (deaths
per 1000 live births)
Gross domestic
product / capita
Daily calorie intake
Aids cases
Population
increase
(% per
year))
Average
female life
expectancy
Average
male life
expectancy
Infant
mortality
(deaths
per 1000
live births)
1,000
-,582
-,529
,617
-,665
-,609
-,582
1,000
,989
-,962
,675
,775
-,529
,989
1,000
-,946
,657
,765
,617
-,962
-,946
1,000
-,690
-,777
-,665
,675
,657
-,690
1,000
,751
-,609
-,094
,775
,044
,765
,032
-,777
-,075
,751
,285
1,000
,167
Gross
domestic
product /
capita
Daily
calorie
intake
Bevont s kihagyott vltozk lpsenknti felsorolsa: a 2. lpsben bevont

csecsemhalandsgot az 5. lpsben eltvoltja a stepwise eljrs.
104
A Model Summary tblzatban (4.7. tblzat) a tbbszrs korrelci s

determincis egytthat, a korriglt R2, a regresszis modell standard hibja
szerepel lpsenknt. Mivel az tdik lpsben redukltuk a modellt, az sszes
mutat cskkent. A Durbin-Watson tesztet nem rtelmezzk.
4.7. tblzat: A vltozsok kvetse
Model Summary
Model
1
2
3
4
5
R
,665
,700
,722
,752
,745
R
Square
,443
,491
,521
,565
,555
Adjusted
R Square
,435
,476
,501
,540
,536
Std. Error of
the
Estimate
,859
,827
,808
,775
,779
R Square
Change
,443
,048
,031
,044
-,010
Change Statistics
F
df1
df2
Change
73
58,006
1
1
72
6,751
71
1
4,558
70
7,015
1
72
1,640
1
Sig. F
Change
,000
,011
,036
,010
,204
Durbin Watson
1,887
Az R2 vltozst az elz s az adott lpsbeli mrtk klnbsge adja, a vltozs

jelentsgt az F-teszt alapjn tlhetjk meg.
Az F-prba vltozsnak
szignifikancijt is F-teszt mri.
Az ANOVA tblzat is lpsenknt kszl. Az MSR, az MSE s az F-hnyados az
els ngy lpesben fokozatosan cskken, majd az tdik lpsben a redundns
vltoz elhagysa utn mindhrom magasabb lesz. (4.8. tblzat)
105
4.8. tblzat: Szrsngyzet felbontsa lpsenknt

ANOVA
Model
1
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Regression
Residual
Total
Sum of
Squares
42,832
53,904
96,737
47,453
49,283
96,737
50,426
46,310
96,737
54,644
42,092
96,737
53,658
43,079
96,737
df
1
73
74
2
72
74
3
71
74
4
70
74
3
71
74
Mean
Square
42,832
,738
F
58,006
Sig.
,000
23,727
,684
34,663
,000
16,809
,652
25,770
,000
13,661
,601
22,719
,000
17,886
,607
29,479
,000
A regresszis egytthatk becslse az elemzs clja.

Az egytthatkat sztenderd hibikkal osztva a t-teszt rtkt kapjuk. A lpsenknti
eljrs hatsra csak a nulltl szignifiknsan klnbz egytthatj vltozk
maradnak a modellben. Ha az indul adatokat sztenderdizljuk, akkor egybl
sztenderdizlt egytthatkat, btkat kapunk, amelyek az x 1%-os vltozsnak y-ra
gyakorolt hatst fejezik ki.
A tblzatban szerepl zero-order korrelcik az adott x s az y kztti kznsges
Pearson korrelcik. A parcilis korrelcik (4.19) a mr bevont magyarz
vltozk hatst szrik ki, ezrt alacsony rtkk (pldul a 4. lpsben a ni
vrhat lettartam bevonsa utn a csecsemhalandsg) multikollinearitsra utal. A
rsz-korrelci a parcilis korrelci szmllja.
A kollinearitsi statisztika kt mutatt ad. A tolerancia=1- Ri 2, azaz az i-edik
vltoznak az sszes tbbi magyarz vltozval val determincis
egytthatjnak komplementere. rtke 1, ha egy magyarz vltoz van, utna
egyre cskken. Mr a 3. lpsben ers multikollinearits van, amint azt a korrelcis
mtrixnl is szleltk.
A VIF a tolerancia reciproka. A 4. lpstl az egymssal szorosan korrell frfi s
ni vrhat lettartam egytt szerepel a vgs modellben, ezrt a VIF tl magas, kt
vltozra is t felett van. (4.9. tblzat) Ezek alapjn a modell alkalmazsa
megkrdjelezhet.
106
4.9. tblzat: A regresszis modell egytthati
107
Az ves npessg nvekedst becsl egyenletben a konstans (3,331) mellett a

GDP/f s a frfi valamint a ni vrhat lettartam szerepel. Ez a hrom magyarz
vltoz egymssal is szorosan korrell a tolerancia alacsony, a VIF pedig tl
magas ezrt a modellben gondok lesznek. A sztenderdizlt regresszis egytthatk
alapjn a ni vrhat lettartam hatsa a legersebb, mivel a -2,203 abszolt
rtkben meghaladja a msik kt btt.
A modellben nem szerepl vltozk listjbl a kvetkez lpst lehet
megllaptani. A (k+1) lpsben az a vltoz kerl bevonsra, amelynek a
legnagyobb (s mg szignifikns) a t-tesztje. (4.10. tblzat)
A sajtrtkek s a kondcis indexek a 4.11. tblzatban tallhatk. Lthat, hogy
minden lpsben egy nagy 73 sajtrtk van, ami arra utal, hogy maximum kt
fggetlen dimenzi van, amibe a magyarz vltozk tmrthetk. A kondcis
index mr a 3. lpsben meghaladja a veszlyes szintet, a 30-t. A regresszis
egytthatk varianciinak sztosztsa nem sikerlt, mr a msodik lps magas
variancia hnyadot jelez. (A szmok szzalkosan rtelmezhetk.) A magyarz
vltozk mgtt azonos sajtrtk hzdik meg, ezrt tmrthetk, egymstl nem
fggetlenek. Ilyen esetben rdemes fkomponens vagy faktor ellltsra gondolni.
Az egysgnyinl nagyobb sajtrtk szmt nagynak. Errl rszletes magyarzatot a

fkomponensek ismertetsekor adunk.
73
108
4.10. tblzat: A mg be nem vont vltozk statisztiki
4.11. tblzat: Sajtrtkek s variancia hnyadok
110
A rezidulisok statisztiki
Elszr kt orszgot ltunk a 4.12. tblzatban, amelyek sztenderdizlt rezidulisa
kvl esnek a (-3;+3) intervallumon. Mindkettnek pozitv eljele van, azaz a modell
alulbecsli a megfigyelt rtket. Fellbecsls negatv rezidulis esetn fordul el.
4.12. tblzat: Kilg megfigyelsek
a
Casewise Diagno stics
Case Number
80
87
COUNT RY
Kuwait
U.Arab
Em.
Std.
Residual
4,497
Population
increase
(% per
year))
5,2
Predicted
Value
1,737
Residual
3,503
4,348
4,8
1,413
3,387
a. Dependent Variable: Population increase (% per year))
A tovbbi (4.22)-(4.25) kpletek szerint szmtott rezidulisokat megfigyelsenknt

az adatllomnyhoz csatolja az SPSS, mg a fbb statisztikai jellemzket
sszefoglal tblba rendezve kapjuk meg. (4.13. tblzat)
4.13. tblzat: A rezidulisok statisztiki
a
Resid uals Statistics
Minimum
,149
-1,964
Predicted Value
Std. Predicted Value
Standard Error of
,106
Predicted Value
Adjusted Predicted Value 9,415E-02
Residual
-1,936
Std. Residual
-2,485
Stud. Residual
-2,450
Deleted Residual
-1,936
Stud. Deleted Residual
-2,452
Mahal. Distance
,375
Cook's Distance
,000
Centered Leverage Value
,005
Mean
1,753
-,079
Std.
Deviation
,812
,954
,348
,178
5,001E-02
109
3,544
3,503
4,497
4,572
3,620
5,404
13,787
,196
,186
1,756
-7,10E-02
-,091
-,089
-7,33E-02
-,083
3,095
,014
,042
,818
,850
1,091
1,095
,873
1,134
2,367
,029
,032
109
109
109
109
109
109
109
109
109
Maxim um
3,544
2,023
N
109
109
a. Dependent Variable: Population increase (% per year))
Itt megllapthat, hogy a klnbz rezidulisok mindegyike inkbb jobbra ferde,

mint szimmetrikus, hisz a rezidulisok tlagai a minimum s a maximum kztt nem
kzpen vannak. A rezidulisok az adatllomnyban egyenknt is megrzsre
kerlnek, s rszletesen rtkelhetk a klnbz hibatagok. Minden hiba-szmtsi
md mellett a 4.12. tblzatban ltott kt megfigyels, a 80. Kuwait s a 87.
Egyeslt Arab Emirtusok lg ki a megfigyelsek kzl. Ezen orszgok illeszkedse
111
is gyenge. A (4.29) kplet szerinti StDfFits rtkeket gy kapjuk meg, ha az

orighoz igaztott hats-rtkekhez hozzadjuk az 1/n=1/75 szmot.
Az orighoz tolt hats (leverage) maximlis mrtke alatta marad az vatossgra
int 0,2 kszbnek. A maximlis rtket Brazlia ri el, ezrt a (26) sszefggs
alapjn a Mahalanobis tvolsg maximuma (13,787) is Brazlihoz tartozik.
Lettorszg (11,5) s Ukrajna (9,5) tvolsgai szintn nagyok. Ugyanakkor a Cookfle tvolsg sehol sem haladja meg az egyet, ezrt igazi outliereket nem tudunk
azonostani.
A kovariancia hnyados ersen ingadozik az egy krl, tbbszr kilp abbl a
svbl, amit az 13p/n kplet megad. (4.3. bra) Nagyobb a kovariancia mtrix
determinnsa, ha Brazlit vagy Lettorszgot hagyjuk ki (1,2 feletti hnyadosok).
Cskken a determinns, ha Kuvait vagy az Egyeslt Arab Emirtusok marad ki (0,4
alatti CR).
1,4
1,2
1,0
,8
,6
,4
,2
-1
P o p u la t io n in c r e a s e (% p e r y e a r) )
4.3. bra: Kovariancia hnyados
Rezidulisok bri
a) A rezidulisok statisztikibl lttuk, hogy a 80. s 87. orszgok rontjk az
illeszkedst. A 4.4/a. brn mg e kt orszg rezidulisai is szerepelnek, mg a 4.4/b
hisztogram a kihagysukkal kszlt regresszis modell sztenderdizlt hibatagjait
mutatja.
112
Histogram
Histogram
Population increase (% per year))

16
30
14
12
20
10
8
6
Frequency
Frequency
10
Std. Dev = 1,09
Mean = -,09
N = 109,00
Std. Dev = 1,06
Mean = -,12
N = 107,00
50
2,
00
2,
50
1,
00
1,
0
,5
00
0,
0
-,5 0
,0
-1 0
,5
-1 0
,0
-2 0
,5
-2
50
4,
50
3,
50
2,
50
1,
0
,5
0
-,5
0
,5
-1
0
,5
-2
Regression Standardized Residual
Standardized Residual
4.4/a. bra 109 orszg hibatagjai
4.4/b. bra: 107 orszg hibatagjai
b) Normlis valsznsg brja: Ha a rezidulisok normlis eloszlst kvetnek, a

pontok a 45 fokos egyenes mentn helyezkednek el. A sztenderdizlt rezidulisokat
s a normlis eloszls felttelezsvel vrt hibatagokat jelz pontok a 4.5. brn nem
esnek az egyenesre, de nincs is markns eltrs kztk.
ltalban elmondhat, hogy az egyenes alatti vagy feletti pontok a szimmetria
hinyt jelzik. Az egyenes elejnl vagy vgnl lv nhny tvoli pont kilg
megfigyelsekre utalna. Ha a pontsorozat tvolodik, akkor lapult vagy cscsos az
eloszls.
Normal Prob.Plot Stand.Residu
Population increase (% per yea
1,00
Expected Cum Prob
,75
,50
,25
0,00
0,00
,25
,50
,75
1,00
Observed Cum Prob
4.5. bra: A sztenderd rezidulisok normlis eloszlsnak grafikus vizsglata

c) Szoks az is, hogy a vzszintes tengelyen y-t vagy valamelyik x vltozt, a
fggleges tengelyen a rezidulist tntetjk fel. A nulla krli, nem nvekv,
fggvnykapcsolatot nem mutat rezidulisok a lineris modell megbzhatsgt
113
tmasztjk al. A 4.6. brn a 80. s 87. orszgok a nagy rezidulisok miatt kln
llnak, s a hibatagok nvekednek 74.
4
Unstandardized Residual
-1
-2
-1
4.6. bra: A fgg vltoz mentn nvekv rezidulisok

Az tlag krli s az egyedi megfigyelsekhez tartoz 95%-os megbzhatsgi
szint konfidencia svok is brzolhatk a Graphs/Line/Multiple belltssal.
Nagyon sok orszg megfigyelt npessgnvekedse esik kvl az als s a fels
becslt rtken.
A fggetlen vltozk kzl kettt kivlasztva mutatjuk be a hibatagok
viselkedst. A 4.7. brn a GDP/f vltozra cskken, a frfiak vrhat
lettartamra vettve nvekv rezidulisokat ltunk.
74
Ilyenkor adat-transzformcit ajnlott alkalmazni, pl. y vagy x, esetleg mindkett
logaritmust clszer venni.
114
4
-1
-2
-10000
10000
20000
30000
70
80
Gross domestic product / capita

4
-1
-2
40
50
60
4.7. bra: A magyarz vltozk s a rezidulisok

d) A Studentizlt sorkihagyssal szmolt rezidulisokat az y tengelyen, a
standardizlt becslt rtkeket az x tengelyen brzolva a modell rvnyessge
jl szemlltethet. A normalits teljeslse esetn a rezidulisok 95%-a (-2;+2)
kz esik. A 4.8. brn felfel nagyon kilg (80, 87) orszgokat mr
azonostottuk. Lefel haladva kicsivel (2) alatt talljuk balrl jobbra haladva
Bulgrit, Romnit s Knt, ahol jval kevesebb gyerek szletik, mint
amennyit a modell alapjn vrunk. ppen 5 kilg orszg fr bele szz krli
minta esetn a 95%-os tartomnyba.
Itt a minta mrete s a hinyz adatok kezelse kapcsn fontos technikai
megjegyzst kell tennnk:
- 109 orszg van a World95.sav-ban. De csak 75 orszgnak van teljes adatsora a
regresszis modellben felsorolt fgg s magyarz (1+6) vltozra. Ezrt a
tblk egy rszben, pldul a 7. s 8. tblzatban n=75-bl szmolt
szabadsgfok szerepel.
115
- A vltozszelekcit kveten azonban kimarad az a hrom magyarz

vltoz, amelyeknek 34 orszgra hinyzik rtke. gy a felptett regresszis
modellt mr 109 orszg adataibl becslte az SPSS. Rezidulist is 109 orszgra
szmol s brzol a szmtgp.
6
Studentized Deleted Residual
-2
-4
-3
-2
-1
Standardized Predicted Value
4.8. bra: Melyik orszgok nlkl lenne nagyon ms a regresszis egyenes?
4.10. sszefoglals: A bemutatott modell illeszkedsnek minstse

Az adathalmaz kivlasztott vltozin szinte a regressziszmts sszes
gyengjt sikerlt bemutatni, mikzben a 4 magyarz vltozval ksztett
lpsenknti modell minden teszten tment. Mgis felmerltek az albbi
problmk:
a megfigyelsek halmaza nem homogn,
a magyarz vltozk nem fggetlenek,
a determincis egytthat nem elg magas,
a rezidulisok kvl esnek a kedvez tartomnyon, s szrsuk nem

konstans.
Mit lehet tenni a modell javtsa rdekben?

Ezek a problmk nem egymstl fggetlenl jelentkeznek. Ha kihagyjuk
pldul a kt outlier orszgot (80 s 87), akkor az R2 0,54-rl 0,64-re n.
De a gyenge modell legfbb oka az, hogy a lineris modell felttelezse nem
llja meg a helyt. A fgg vltoz s a magyarz vltozk kapcsolata nem
rhat le lineris fggvnnyel, amint ezt a 4.9. bra mutatja. Az els hrom
magyarz vltoz szoros lineris kapcsolatban van, ami ers
116
multikollinearitst okoz, a GDP hatsa viszont nem lineris. A lpsenknti
regresszi a megadott vltozk kzl ksztette el a lehet legjobb becslst, ami
szakmai rtelemben nem j, tovbbi elemzsekre nem alkalmas.
Female life
Male life ex
Infant mortality
GDP/c
Population incr.
4.9. bra: Vltoz-prok pontdiagramja

A vltoz-transzformcikra s a nemlineris regresszira itt nem trnk ki, mivel a
jegyzetben ismertetsre kerl tbbi sokvltozs eljrs megalapozshoz a lineris
regresszis modell szksges.
4.11. nll elemzsi feladatok

Vlaszoljon az albbi krdsekre s a Kerletek2010.sav adatllomnybl szmolva
ellenrizze az elgondolsait.
1. feladat
Legyen a fggvltoz az nkormnyzati bevtel.
Kvnalom, hogy normlis eloszls legyen? igen/nem
Milyen mdon ellenrizhet, hogy teljesl-e a normalits?
a) Grafikusan:
b) Numerikusan:
117
2. feladat
A magyarz vltozk kz vlasztand a kvetkez 7 vltoz:
Npessgszm
Odavndorls
Elvndorls
Vendglthely
Laksllomny
ptett laksok
llskeresk
a) A relatv szrsok kett alatt vannak?
b)A magyarz vltozk kztti korrelcik szignifiknsak?
c) A STEPWISE eljrs fontos? Igen/nem
3. feladat
Elemezze egytt, egy regresszis modellben az 50 teleplst az 1. s a 2. feladat
vltozi alapjn.
a) Hny magyarz vltoz kerlt bevonsra?
b) Milyen a modell illeszkedse?
c) A rezidulisok viselkedse megfelel-e?
d) Vannak-e kilg kerletek/teleplsek az adatok kztt?
e) A kerlet sttusz vltoz dummy-knt szerepelhet-e a modellben? Igen/nem
Bevonsra kerl? Igen/nem
HOMOGN az adathalmaz, kzs tendencia jellemz a ktfle teleplsre?
Igen/nem
4. feladat
Kln illesztend lineris regresszis modell a 23 kerletre s a tbbi 27
falura/vrosra.
a) Ms magyarz vltozk kerlnek be a kt modellbe?
b) Melyik modell illeszkedik jobban?
c) Melyek a kilg kerletek/teleplsek az adatok kztt?
5. feladat
a) Hogyan lehet csak konstansban eltr modellt illeszteni kt almintra?
b) Ha magas a kondcis index, akkor a regresszis modell helyett melyik mdszer
alkalmazsa lehet indokolt?
4.12. Megoldsok
1. feladat
A fggvltoz (nkormnyzati bevtel) normlis eloszlsa elvrs. A normalits
ellenrizhet grafikusan s numerikusan is.
a) Grafikusan kt lehetsg is addik:
i) Hisztogram
118
ii) QQ plot: a 45 fokos egyenestl a kisebb rtkeknl tapasztalunk eltrst, azaz a

kis nkormnyzati bevtellel rendelkez teleplsek gyakoribbak, mint a normlis
eloszls szerint vrt elforduls.
b) Numerikusan tbb adatot nzhetnk:

i) ferdesg 0,417 2*0,337 s cscsossg -1,0022*0,662 mrszmok konfidencia
intervallumai tartalmazzk a nullt, az eltrs nem szignifikns
ii) Kolmogorov-Szmirnov vagy Shapiro-Wilk teszt (ppen n=50 a megfigyelsek
szma)
Tests of Normality
Kolmogorov-Smirnova
nkormnyzatibev
Statistic
,132
df
50
Sig.
Statistic
,029
,916
Shapiro-Wilk
df
50
Sig.
,002
Mindkt tesztre 5%-os szignifikancia szinten elvethet a normlis eloszls.

Teljesl a normalits? Nem egyrtelm a vlasz! De a ferdesg s cscsossg
rtkekre tekintettel elksztjk a regresszis becslst.
Figyelem! rdemes kiprblni a kvetkezket, br egyik rvn sem kapunk a tesztek
szerint normlis eloszlst:
- az nkormnyzati bevtel logaritmusa normlis eloszls-e
- az egy fre jut nkormnyzati bevtel eloszlsa milyen?
- az egy fre jut nkormnyzati bevtel logaritmusa milyen alak?
2. feladat
119
a) A relatv szrsok (szrs/tlag hnyadosok) kzl nhny meghaladja az egyet,

de a kettt egyik sem kzelti meg. Teht a vltozk mentn a minta nem heterogn.
b) A 7 magyarz vltozk kztti pronknti korrelci mind szignifikns s
pozitv. A legkisebb r=0,629 (ptett laksok s vendglthely), a legnagyobb
r=0,980 ( npessg szm s laksllomny)
c) A Stepwise eljrs fontos, mert nagyon jelents multikollinearits ll fenn.
3. feladat
Lineris regresszis modellben az 50 telepls adatai alapjn az nkormnyzati
bevtel becslsre
a) 4 lpsben 3 magyarz vltozt von be, de csak kettt tart bent.
1. lps: az nkormnyzati bevtellel legersebben korrell laksllomny
bevonsa
2. lps: a vendglthely vltoz bevonsa
3. lps: npessgszm bevonsa
4. lps: a npessg s a laks vltozk ers korrelcija miatt laksllomny
vltoz kihagysa
Itt fontos figyelni arra, hogy ez a legjobb regresszis modell, ami a korltoz
feltteleket figyelembe vve felpthet. De vajon a kivlasztott kt vltoz helyett
mind a ht magyarz vltoz fkomponensbe tmrtve, egyetlen faktorknt nem
ad-e j, hasznlhat becslst az nkormnyzati bevtelre? Az nkormnyzati bevtel
s a 7 vltozbl (83%-ot megrz) faktor kztti korrelci= 0,899.
b) A modell illeszkedse nagyon j, a korriglt R-ngyzet 0,858.
- Az F-tesztek minden lpsben altmasztjk a lineris modell ltt.
- A kt vltoz tolerancia rtke 0,379, s a variancia infll faktor 2,641, ami nem
tl magas. (Kt magyarz vltoz esetn indokolt, hogy kzs a Tol s a VIF rtk,
hisz egymst magyarzzk.)
- A kondcis index 5,222 rtke sem jelez a kt vltoz s a konstans kztt tlzott
erej kapcsolatot.
c) A rezidulisok eloszlsa a hisztogramon normlishoz kzeli alak.
120
3.feladat tblzata
2. feladat tblzata
121
A pontok szrsa enyhe nvekedst mutat, a nagyobb nkormnyzati bevtelhez

kicsit magasabb sztenderdizlt rezidlisok tartoznak (R-ngyzet=0,137). Csak
Budars (3,546) s az V. kerlet esik kvl a [-2;+2] intervallumon, mg a XI.
kerlet a hatr kzelben van.
122
d) Vannak-e kilg kerletek/teleplsek az adatok kztt?

- Itt a sztenderd rezidulisok brja alapjn Budars s az V. kerlet emlthet.
Mindkettnek alulbecsli az nkormnyzati bevtelt a modell.
- Az egyedi tttel hatsok s a Cook-tvolsg terben vizsglva egyedl az V.
kerlet kerl a kritikus rtkeken kvlre.
rdemes tgondolni, hogy Budars s Budapest V. kerlet miben trnek el s miben

hasonltanak:
- A rezidulisaik nagyok, 2-4 kztti rtkk azt jelzi, hogy jelentsen
alulbecslte a modell az ott mrt nkormnyzati bevteleket. Itt ms magyarz
vltozk figyelembe vtele is indokolt lenne.
- Az tttel hatsa egyiknek sem ri el a 0,5-t, teht egyik elhagysa sem
indokolt. De a 0,2 s 0,5 kztti rtk arra utal, hogy a V. kerlet a becslsre ersen
hat.
- a Cook-tvolsg csak az V. kerletre magas. Ha elhagynnk az V.
kerletet a regresszis becsls sorn, akkor a 49 pontbl ksztett regresszis becsls
jelentsen eltrne az 50 pontbl szmolt modelltl.
e) A kerlet sttusz vltoz dummy-knt szerepelhetne a modellben, de nincs
szignifikns szerepe, ezrt nem kerlt bevonsra. Ez azt is jelenti, hogy a kerletekre
s az agglomerci teleplseire nem egymssal prhuzamos modell illeszkedik.
Az adatllomny kt rsze homogn, kzs lineris tendencia jellemzi a hrom
vltoz kapcsolatt, amint ezt a 3D-s pontdiagram is mutatja.
123
4. feladat
Ha kln illesztnk lineris regresszis modellt a 23 kerletre s a tbbi 27
falura/vrosra, nagyon eltr regresszis modelleket kapunk. A szmtsokat kt
ron vgezhetjk el:
i) A regresszis modellezsen bell Selection: Kerlet=1 (majd 0) belltssal
futtatva mind a kivlasztott, mind a msik almintra elkszl a becsls, s mindkt
rszre megkapjuk a fbb statisztikai jellemzket.
ii) Ha elre leszrjk az egyik almintt, s csak ezt hasznljuk a regresszis
blokkban, akkor a msik almintra nem kapunk semmilyen eredmnyt.
Most az i) szerint jrtunk el, s kt rszmodell eredmnyeit vetjk ssze az a) b)
c) krdsek mentn.
124
a) c)
krdsek
magyarz
Kerleti adatok
sajt modellje
Kerleti adatok
agglomercira
Agglomercis
adatok sajt
modellje
Agglomercis
adatok kerletre
laksllomny
laksllomny
Odavndorls
Odavndorls
ptettlaksok
ptettlaksok
Elvndorls
Elvndorls
vltoz(k)
modell
Tbbszrs
Tbbszrs
Tbbszrs
Tbbszrs
illeszkedse
R=0,851
R=0,854 (!)
R=0,939
R=0,522
kilg
V. kerlet
Budars
nincs
13 kerlet
teleplsek
A kilg kerletek/teleplsek az adatok kztt nemcsak a felsorolsbl, hanem a

sztenderd rezidulisok brjrl is lthat. Itt csak a kerleti adatok modelljbl
szmolt rezidulisokat mutatjuk be, de mindkt almintra. Lthat, hogy az
agglomerci teleplseire hatrozottan nvekednek a rezidulisok, teht ott tovbbi
magyarz vltozk bevonsa indokolt. Ez teljesl is, hisz az agglomercira
illesztett modellben 3 magyarz vltoz szerepel. Ugyanakkor 3 hrom vltozs
modellben a vndorlsi mutatk VIF-rtke 40 feletti s a kondcis index 26,687, a
multikollinearits teht tl ersen van jelen. Mindent sszevetve a kt alminta
egyttes kezelsvel statisztikai rtelemben jobb modellt kaptunk.
125
5. feladat
a) Csak konstansban eltr modellt illeszteni kt almintra gy lehet, hogy az
almintt azonost dummy (d= 0 vagy 1) vltozt a modellbe bevonjuk. gy
y = b0 + b x + b2 d az alapmodell lesz, ha d=0. Mg d=1-re b2vel magasabb vagy
alacsonyabb rtket becslnk b2 eljeltl fggen.
b) Ha magas a kondcis index, akkor a regresszis modell helyett faktor (vagy
fkomponens) elemzs alkalmazsa indokolt. De legynk tudatban annak, hogy ez
is a vltozk szoros lineris kapcsolatra pt. Nem lineris kapcsolat esetn elzetes
linearizl transzformci indokolt.
5. Logisztikus regresszi
A lineris regresszi trgyalsa sorn ppen csak utaltunk a nemlineris regresszira. Mi ennek az oka? Az, hogy a nemlineris jelleg szmtalan fggvnyformt takar.
Tovbbi mdszertani elgazst jelent az, amikor az y fgg vltoz nem folytonos,
hanem kt vagy tbb kategrival rendelkez vltoz. Ha ilyen elemzsi feladat
addik, akkor hasznlhatjuk a kereszttblt, vagy a kereszttblra illeszthet
loglineris modellt 75. Ez ppgy, mint a lineris regressziszmts is az
ltalnostott lineris modell csald (GLM) specilis esete.
Ebben a fejezetben egy tovbbi GLM modellt, a logisztikus regresszis modellcsald legegyszerbb modelljt, a binris logisztikus regresszit, az un. logit modellt
trgyaljuk. A mdszer fontossgt, alkalmazhatsgt az utbbi vekben megjelent
szmos cikk 76 is bizonytja.
A logisztikus regresszi alkalmazsi cljt tekintve az osztlyoz eljrsok 77 kz
sorolhat,
mert akkor hasznlhatjuk, ha elre definilt, egymst klcsnsen kizr csoportok
egyikbe soroljuk be a megfigyelseket a magyarz vltozkbl nyert informci
alapjn. Ha az eredmnyvltoznak tbb lehetsges kimenete van, akkor
multinomilis logisztikus regresszirl beszlnk. A logit modell akkor
75
Ezt rszletesen trgyalja: Fsts-Kovcs-Meszna-Simonn (2004): Alakfelismers c.

knyve.
76
Hunyadi Lszl: A logisztikus fggvny s a logisztikus eloszls, Statisztikai Szemle
2004.10-11.
Hajdu Ott: A csdesemnyek logit-regresszijnak kismints problmi Statisztikai Szemle,
2004. 4. .
Flp Pter: A binris logit modellek hasznlatnak s tesztelsnek eszkzei, Statisztikai
Szemle 2002. 3.
Bartus Tams: Logisztikus regresszis eredmnyek, Statisztikai Szemle 2003. 4.
Gray R.-Kovcs E.: Az ltalnostott lineris modell s biztostsi alkalmazsai, Statisztikai
Szemle, 2001. 8.sz.
77
A klasszifikcis mdszerek kzl foglalkozik ez a knyv a Klaszterelemzssel (3. fejezet)

s a Diszkriminancia elemzssel (7. fejezet). Klaszterelemzst akkor vgznk, ha ismeretlen
kategria hatrok mellett trjuk fel a bels struktrt. A diszkriminancia elemzs a logisztikus
regresszihoz hasonl feladatok megoldsra szmos elfeltevs teljeslse esetn
alkalmazhat. A logisztikus regresszival vgzett diszkriminlst akkor rdemes vlasztani,
ha a vltozk egyttes eloszlsa nem tekinthet normlisnak, s a variancia-kovariancia
mtrixok nem egyenlk.
LOGISZTIKUS REGRESSZI
127
alkalmazhat, ha az eredmnyvltoznak csak kt, egymst klcsnsen kizr

kategrija van.
5.1. A logit modell s az indul adatok

Az eredmnyvltoz, Y (response, fgg vltoz) 0-1 rtk binris vltoz, amely
tbbek kztt azt fejezheti ki, hogy
a hitelt felvev gyfl csdbe jutott vagy trleszt,

az gyfl felmondta-e a szerzdst, azaz lemorzsoldott vagy elfizet
maradt,
a pciens felgygyult vagy nem lte tl a balesetet,
egy jtkterembe belp szemly kockztatott vagy nem jtszott stb.
A magyarz vltozk kztt lehetnek nominlis, ordinlis vagy magasabb

(intervallum s arny) skln mrt vltoz k is. A nominlis vagy ordinlis szinten
mrt x vltozk lehetsges rtkei (szintjei) kzl egyet (ltalban az elst vagy az
utolst) rgztjk, ezekhez viszonytva becsljk a fgg vltozra gyakorolt hatst.
A magyarz vltozk szintjeinek kombincit is rgzthetjk (Pl. 1500 cm3 alatti
autt vezet frfi), ezek a kovarinsok.
Az y eredmnyvltoz kategriinak bekvetkezse (pl. y=1, a csd elfordulsa) az
x magyarz vltozkbl (jvedelem, letkor, eladsodottsg) nem becslhet a
hagyomnyos legkisebb ngyzetek mdszervel az y = 0 + x lineris regresszis
modellel az albbi okok miatt:
A dichotom y nem normlis eloszls, hanem Bernoulli B(1,p) eloszlst kvet. Az
y=1 bekvetkezsnek a valsznsge p. Vrhat rtke: E(y)=P(y=1)=p s
variancija: Var(y)=p(1-p). gy a variancia a p valsznsgtl fgg, nem konstans.
A magyarz x vltoz egy egysgnyi vltozsa nem a teljes tartomnyon
eredmnyez azonos vltozst y rtkben.
A lineris regresszival becslt rtk nem felttlenl esik a [0;1] intervallumba,
pedig az y=1 bekvetkezsnek valsznsget becsljk.
Az emltett problmk megoldsa rdekben a Cox 78 (1970) ltal javasolt logit
transzformcit alkalmazunk, hogy a becslt p rtk a [0;1] tartomnyban maradjon,
s ne nvekedjen/cskkenjen a szleken tl gyorsan, gy, mint ahogy ez a lineris
regresszival trtn becslsnl elfordul.
A logit transzformci azt jelenti, hogy a fgg vltoz helyett a hitel vissza nem
fizets valsznsgnek (p) s a trleszts valsznsgnek (1-p) hnyadost
logaritmljuk, s erre illesztnk (5.1) szerint (itt egyvltozs) lineris modellt:
Cox D.R. 1966-ban rt elszr a logisztikus kvalitatv fgg vltozk elemzsrl. 1970ben pedig Analysis of binary data cmen knyvet is publiklt a tmban.
78
128
p
= log it ( p) = 0 + 1 x
log
1 p
,
(5.1)
ahol p/(1-p) az odds 79, s ennek logaritmusa, azaz az esly logaritmusa a logit.
5.2. A logit modell paramtereinek becslse

Az (5.1) egyenletben hrom ismeretlen van: p, 0 s 1 .
Hogyan becsljk annak valsznsgt, hogy az gyfl hitelkpes, s a modell
alapjn inkbb a hitelkpesek csoportjba soroljuk-e? ltalnosan megfogalmazva
az Y kimenet elrejelzse, azaz az gyfl klasszifikcija hogyan vgezhet el?
Mivel az y eloszlsa ismert, esetnkben Bernoulli eloszls, a mintbl a
legvalszerbb Maximum Likelihood (ML) becslst ksztjk el.
Els lpsben tekintsnk el az x adatoktl, mg csak az y=1 s az y=0
bekvetkezsek gyakorisgt ismerjk. Likelihood fggvnyt runk fel (5.2) szerint
a B(1,p) eloszls vltozra:
n
L( p ) = ( p ) yi ( 1 p )( 1 yi )
i =1
(5.2)
Ennek logaritmust derivljuk p szerint:

n
i =1
i =1
ln L = yi ln p + ( 1 yi ) ln( 1 p )
d ln L
=
dp
y (1 y ) = 0
i
1 p
Mivel az n szm megfigyelsbl k esetben y=1 s (n-k) esetben y=0 kvetkezett be,
az sszegzsben y=k s (1-y)=n-k rhat. Ekkor k/p=(n-k)/(1-p), amit rendezve
k=np addik, azaz a relatv gyakorisggal trtn becsls formuljt kaptuk:
^
p =
k
n
(5.3)
Ha teht x magyarz vltozt nem vonunk be a modellbe, a kockzat (csd) becslt

valsznsge pldul n=25 s k=15 esetn P(y=1)=15/25=0,6 lesz. A klasszifikcit
gy vgezzk, hogy akire ennl nagyobb valsznsget becslnk, azt a
79
Az odds a sztr szerint valsznsg, de ez a fordts nem helyes, mert a kt
valsznsg hnyadosa egynl nagyobb is lehet. A tovbbiakban az odds szt hasznljuk,
vagy eslynek fordtjuk.
129
kockzatosak kz soroljuk, mg a 0,6 alatti rtkek a msik kategriba 80

kerlnek.
Ezt az eredmnyt gy is rtelmezhetjk, hogy minden egyes x rtkhez (pl.
letkorhoz, jvedelmi kategrihoz, eladsodottsgi rthoz) egyetlen kzs pi =
valsznsg tartozik.
Ez a feltevs a gyakorlatban ltalban nem igaz. A pi valsznsg vltozik, ha az xi
magyarz vltozk rtkeit figyelembe vesszk. Tipikus pldaknt emlthet a
hallozsi (qx) vagy az letben maradsi (px) valsznsg. Mindkett fgg az
letkortl, letmdtl, vagyoni helyzettl stb.
Ha a bekvetkezsi valsznsg becslshez a magyarz vltzkat is bevonjuk a
logit modellbe, az ML becsls jval komplikltabb vlik.
Az eslyek logaritmusa, a log-odds lesz az x magyarz vltozk lineris
fggvnye:
p
ln(odds ) = ln
1 p
= log it ( p ) = 0 + 1 x1 + ... + p x p
(5.4)
vagy
p
T x
= exp( 0 + 1 x1 + ... + p x p ) = e
odds =
1 p
(5.5)
Ebbl kapjuk a becslt feltteles valsznsget:
p
T x
p
e
(1 p )
=
p=
=
T x
1 p + p
1+ e
1+ p
(1 p )
(5.6)
A regresszis paramterek becslshez az (5.7) szerinti likelihood fggvnyt rjuk

fel, s az (5.6) szerinti becslst behelyettestve kapjuk (5.8)-at:
n
L( b0 ,b1 ,...,b p ) = ( pib ) yi ( 1 pib )( 1 yi )

i =1
80
(5.7)
Ez a k/n rtk lehet belltva cut-value, azaz dntsi kszbrtknek a

futtatsban. A szmtgp alapbelltsban ez .
130
exp( b j xij )
j
L( b ) =
1 + exp( b j xij
yi
)
1 + exp( b j xij

j

1 yi
(5.8)
Ha csak egyetlen x vltoznk van, akkor kt paramtert (b0 s b1) becslnk. Mivel a
b becslsekre nincsen explicit formula, a szmtgp szmos b0 s b1 rtkprt
behelyettest, hogy megtallja azt az rtkprt, amelyre az L(b) a maximumt
felveszi. Ez az iteratv Newton-Raphson eljrs.
A becslt b paramterek felhasznlsval (5.9) egyenletbl (5.10) szerint kapunk
becslst p-re:
^
log it ( p i ) = b 0 + b 1 xi
^
p =
(5.9)
1
1+ e
( b0 +b1x )
(5.10)
Ha x=0, akkor (5.11)-bl belthat, hogy a becslt rtk 0 s 1 kztt van:

^
p=
1
1
1 + e b0
(5.11)
A logisztikus grbe nyjtott S-alakjt a b1 eljele hatrozza meg. Ha b1>0, akkor

emelked az S-grbe, s a b1 a nvekeds sebessgt fejezi ki. Ez a hats parcilis s
additv.
rtelmezni az exp(b1) kifejezst szoktuk, ami azt mutatja meg, hogy az x egy
egysgnyi nvekedse hnyszorosra vltoztatja meg az eslyt, az odds-t. Ez a hats
parcilis s multiplikatv, amint ezt (5.12) mutatja.
p
x
1
odds =
1 p
= exp( 0 + 1 ( x1 + 1) + ... + p x p ) = e e
(5.12)
Ha b1>0, akkor exp(b1)>1, az esly nvekedik, mg b1<0 esetben exp(b1)<1, ami
cskkenti az eslyt. Ha b1=0, akkor az eslyhnyados rtke 1, vagyis x vltozsval
arnyosan vltozik az odds.
A b1 kzvetlen rtelme az eslyhnyados logaritmushoz kapcsolhat:
p ( x + 1)
p ( x + 1)
p( x)
(1 p ( x + 1))
log
= log 1 p ( x + 1) log 1 p ( x) = (b0 + b1 ( x + 1) ) (b0 + b1 x) = b1
p( x)
(1 p ( x))
131
Ha b1>0, akkor a hnyados is nagyobb egynl, az x nvekedsnl jobban n az

esly. Mg ha b1<0, akkor az eslyhnyados kisebb egynl, az x nvekedshez
cskken esly tartozik.
Tovbbi rdekes krds, hogy milyen x rtk mellett addik valsznsg, azaz
mikor lesz teljesen bizonytalan a helyzet (s hasznlhatatlan a modell)?
^
p=
1
1+ e
( b0 +b1x
=1/2, ha
e ( b0 + b1 x ) =1
Az egyenlsg akkor teljesl, ha a kitev nulla. Ez kt esetben llhat fenn, ha x= b0/b1, vagy ha b0=b1=0.
A statisztikai becslst ltalban kveti a konfidencia intervallumok felrsa,
nullhipotzisek fellltsa s tesztelse.
Az (1-) megbzhatsgi szinthez tartoz konfidencia intervallumokat tbb
magyarz vltozt tartalmaz logit modell egytthatira rjuk fel. Az xj egysgnyi
vltozsnak hatsa kt alakban is vizsglhat:
a) a logit vltozsra:
b) az odds-ra pedig: e
b j z / 2 se(b j )
b j z / 2 se(b j )
(5.13)
Mivel az rtelmezsben is kitntetett szerepe van exp(b)-nek, a konfidencia

intervallumot 81 is (5.13) szerint rdemes vizsglni. Ha az intervallum tartalmazza az
egyet, akkor az x vltoz hatsa nem szignifikns.
A logit modellben az egytthatkra felrt nullhipotzist parcilisan teszteljk. A
regresszis modellhez hasonlan H0: j =0 hipotzist vizsgljuk. Nagy mintra a
z=bj/se(bj) hnyados sztenderd normlis eloszlst kvet. Itt egy- s ktoldali
alternatv hipotzist is vizsglhatunk.
Csak ktoldali alternatv hipotzist (Halt: j 0) tesztelhetnk a Wald-statisztikval
(W), ahol: W=z2 , s ez 1 szabadsgi fok khi-ngyzet eloszlst kvet.
Ha z s W nagy s mellette az empirikus szignifikancia szint p <0,05, akkor xj
hatsa szignifikns, H0-t elvetjk.
5.3. A logit modell illeszkedsnek jsga

A modell jsga tbb tnyez egyttes elemzse alapjn llapthat meg. Elszr
parcilisan vizsgljuk a modellt. A tves besorolsnl megkapjuk a rezidulisokat. A
rezidulis az eredeti y=1 esemny p valsznsge s a becslt pb eltrse: ex = p-pb.
81
Az SPSS outputjban ezt kln kell krni.
132
Az (5.14) szerinti sztenderdizlt rezidulisok
p pb
ez =
p b (1 pb ) / n
(5.14)
nagy megfigyelsszm (n>30) mellett sztenderd normlis eloszlst kvetnek,

ngyzetsszegk khi-ngyzet eloszls lesz.
A modell egszt tbb mrszmmal is tudjuk minsteni. A globlis minstshez a
klasszikus illeszkedsvizsglatot a Pearson-fle khi-ngyzet teszt-fggvnnyel
vgezhetjk el.
Az illeszkeds vizsglat tovbbi mrszmai kzl a Lagrange-multipliktor (score)
a Pearsonfle khi-ngyzet elv alapjn szmolhat, a megfigyelt (f) s a vrt (np)
gyakorisgok sztenderdizlt eltrs-ngyzetsszege:
( fx
nx p xb )
nx p xb (1 p xb )
2
(5.15)
Ha egy kovarins vltoz kategriira nem teljesl az, hogy a becslt gyakorisgok
nagysga legalbb t, akkor Hosmer-Lemeshow tesztet kell alkalmazni, hogy
megllaptsuk, szignifikns-e a megfigyelt s a vrt gyakorisgok eltrse. A
szmtgp akkor is elvgzi ezt a homogenitsvizsglatot, ha kell szm
megfigyels esik egy-egy kategriba, ezrt rviden ttekintjk a HosmerLemeshow teszt lpseit.
A binris (y) vltozra s a becslt (p) valsznsgekre 2xg mret kereszttblt
ksztnk. ltalban g=10 sort, azaz deciliseket hatrozunk meg.
A becslt valsznsgeket nvekv sorrendbe rendezzk s decilisekre bontjuk.
sszegket decilisenknt osztjuk a decilis elemszmval (s~n/10).
A msodik tag komplementert vesszk minden decilisre: 1-p/s.
Megfigyelt (M) s vrt (V) gyakorisgok eltrst ngyzetre emeljk, s a nevezben
a msodik tag komplementere is szerepel:
2 = ( M V ) / (V ( 1 p / s )
2
A fenti sszeg khi-ngyzet eloszlst kvet. A teszt kritikus rtke g-2 szabadsgi fok
mellett addik. A szmtgp az empirikus szignifikancia szint megadsval segti a
dntst. Ha ez kisebb, mint 0,05, akkor elvetjk a homogenitst.
A likelihood arny elven trtn tesztels azrt fontos, mert hierarchikus modellekre
is jl hasznlhat. Az (5.16) szerint ez azt fejezi ki, hogy egy x magyarz vltoz
bevonsa javt-e az illeszkedsen ahhoz kpest, ha csak a konstans szerepel a
modellben:
Lb
LR = 2 ln 0
Lb
1
133
(5.16)
A szmllban szerepelhet az indul modell, a nevezben pedig az jabb x vltozk

bevonsval kszlt bvtett modell.
Ebbl szmolhat tbbfle R2 mutatszm is, az egyiket McFadden javasolta:
^
ln L(b) (k + 1)
R = 1
ln L(0)
,
2
(5.17)
ahol (k+1) az sszes becslt b paramterek szma, L(0) pedig a null-modell. Ez a

mrszm a likelihood fggvnyben bekvetkezett vltozst mri, ezrt kzvetlen
a lineris regresszis szrsngyzet felbontshoz hasonl rtelme nincsen.
5.4. A logit modell illesztse az SPSS-ben

Az ltalnostott lineris modellek tbbsge, kztk a logit modell is tbb tvonalon
rhet el az SPSS-ben. A logit modell becslsnek most azt a vltozatt ismertetjk,
amelyet a regresszis modellezsen bell tallhat.
Regression /Binary Logistic vlasztst kveten elszr a fgg s a magyarz
vltozkat jelljk ki.
Dependents: y vltoz megadsa (a 0-1 rtkpr hozzrendelst az elemz dnti el,
a becsls az y=1-re kszl)
Covariates: x-ek listja, itt a vltozk kztti interakci is megadhat
Method:
Enter eljrs: a felsorolt x vltozk mindegyikt egyszerre lpteti be a logit

modellbe,
Forward (Conditional, LR s Wald vltozatok): lpsrl lpesre
szignifikns vltozkkal bvti a modellt
Backward (Conditional, LR s Wald vltozatok): lpsrl lpesre szkti a
modellt, ha nem szignifikns minden megadott x vltoz.
A lpsenknt vlaszt eljrsokon belli tovbbi hrom lehetsg kzl
vlaszthatunk:
A Wald teszt rtke szerinti szignifikns vltoz belptetse (vagy a nem

szignifikns x kihagysa).
A likelihood arny (LR) legnagyobb vltozst eredmnyez vltoz
bevonsa/kihagysa, ahol a maximum likelihood elven becslt
paramterekkel szmolt LR=-2[lnL(reduklt)-lnL(teli)] khi-ngyzet
eloszlst kvet, s a szabadsgi foka a kt modell vltozszma kztt mrt
134
klnbsg.
A feltteles (Conditional) statisztika alapjn trtn vlaszts is LR alapon
trtnik. De itt a reduklt modellben az egytthatk kztti kovariancikat
is felhasznl feltteles becslssel szmoldnak az egytthatk.
Hrom tovbbi belltsi lehetsg knlkozik mg:

a) A Categorical gomb alatt a magyarz vltozk, a kovarinsok szintjei kzl
vlaszthatunk referencia kategrit: az els vagy az utols kategrihoz
viszonythatjuk a tbbi kategrinak a bekvetkezsi valsznsgre gyakorolt
hatst.
b) A Save gomb a Regresszi elemzs (4) fejezetben trgyalt opcikhoz nagyon
hasonl mentseket tesz lehetv:
Elmenthetjk a becslt valsznsget, s a javasolt csoportba sorolst (Predicted
probability, Group membership)
Az egyes vltozknak a modellre gyakorolt hatst (Influence) a Cook mrtk, a
Leverage values s a DfBeta(s) adja meg, mindhrom elmenthet.
A rezidulisok vizsglatra pedig t vltozatban kerlhet sor, mert a sztenderdizlt
s nem-sztenderdizlt rezidulisok mellett menthet a Studentizlt rezidulis, a logit
rezidulis s a deviancia mrtke is.
c) Az Option megnyomsval szmos tovbbi rszeredmny llthat el. A
klasszifikcit mutat bra, az illeszkeds jsgnak mutati, azok a kilg rtkek,
amelyek rezidulisai 2 szrsnyinl nagyobbak, a modellbeli vltozk kztti
korrelcik krhetk. Az iterci belltott maximlis lpsszma 20, de ez
vltoztathat. Az exp()-ra becslt konfidencia intervallum megbzhatsgi szintje
is eltrhet az alaprtelmezsben vlaszthat 95%-tl. A b0 konstans is vlaszthat
vagy kihagyhat a modellbl. Tovbb itt tallhat a dnts kritikus rtke, a
klasszifikcis pont (cutoff)=0,5-re, mint alaprtkre belltva. Ezt akkor
hasznljuk, ha a vletlenre bzzuk a besorolst, nincs elztes ismeretnk a csoportba
tartozsrl, vagy egyforma valsznsggel eshetnek a megfigyelsek az egyik vagy
a msik kategriba. Az rtket a relatv gyakorisgok ismeretben
megvltoztathatjuk, s ezzel az osztlyozst befolysolni tudjuk. A logit modell
alkalmazsakor visszatrnk a klasszifikcis pont rtknek megadsra.
5.5. LOGIT modell illesztse

Clunk a sikeres repls 82 valsznsgnek becslse a kls hmrsklet
ismeretben. 23 adatpr ll rendelkezsnkre: a kls hmrsklet Celciusban s a
sikeres visszatrs vagy a kudarc tnye. A 23 replsbl 7 vgzdtt kudarccal,
82
Az elemzs a replsi kudarc egyik okaknt az alacsony hmrskletet trta fel. De
termszetesen a vizsglat clja lehet az is, hogy mekkora hmrsklet mellett lehet kellen
magas valsznsggel szmtani a sikeres visszatrsre.
135
ebbl a becslt valsznsg: 7/23= 0,304. Az 5.1. bra alapjn ez azonban nem
konstans valsznsg, mert a hmrsklet emelkedsvel cskkenni ltszik a
kudarc. A logit modell illesztsvel a becsls sorn felhasznljuk a hmrskleti
adatokat, s teszteljk a modell erejt.
1, 2
1, 0
,8
,6
,4
FAILURE
,2
0, 0
-, 2
10
12
14
16
18
20
22
24
26
28
CELCIUS
5.1. bra: A sikeres s kudarcos felszllsok a hmrsklet fggvnyben

A 0. lpsnek nevezi a program azt, amikor mg csak az 5.1. tblzatban lthat
becslt konstans van a modellben, ekkor a valsznsget (5.11) szerint kapjuk meg:
^
p=
1
= 0 ,3043
1 + e 0.827
, ami ppen megegyezik a k/n=7/23 relatv
gyakorisggal.
5.1. tblzat: A logit modellbeli konstans s a Wald teszt
V aria ble s in the Equati on
S tep 0
Const ant
B
-, 827
S .E .
,453
W al d
3,328
df
1
S ig.
,068
E xp(B )
,438
A konstans szerepe a logit modellben a Wald teszt alapjn 5%-os valsznsgi

szinten nem szignifikns.
Ebben a lpsben az esly, azaz a p/(1-p) hnyados ppen exp(-0.827)=0,438, ami
termszetesen megegyezik 7/16-dal. A likelihood fggvny (5.8) szerint a
7
1
0 ,438
1 + 0 ,438 1 + 0 ,438

konstanssal is felrhat: L(0)=
16
=7,268*10-7 .
Ennek logaritmust (lnL= -14,134), majd (-2)-szerest vesszk, mert ez kvet khingyzet eloszlst.
136
Az 5.2. tblzatban hromlpses iterci utn -2lnL=28,267 tallhat. Ehhez az

rtkhez viszonytjuk a logit modell illeszkedsnek javulst a tovbbi lpsekben.
5.2. tblzat: 3 lpses iterci a konstans becslsre
a ,b , c
I te r a ti o n H i sto
ry
-2 L og
l i k e l i ho o d
2 8 , 27 7
2 8 , 26 7
2 8 , 26 7
It e rat i o n
1
S tep
0
2
3
C o e ffi c i en t s
C o n s t an t
-, 7 8 3
-, 8 2 6
-, 8 2 7
a . C o n s t an t i s i nc l u de d i n t he m o de l .
b . In it i a l -2 L o g L ik e l ih o o d : 28 , 2 6 7
c . E s t i m at i o n t e rm i n a t ed a t i t e rat i o n n um
p a ram e t e r e s t i m a t es c h a ng e d by l e s s
Az 5.3. tblzat szerinti Score is khi-ngyzet eloszlst kvet s szignifikns

nagysg, ez jelzi szmunkra, hogy tallhat mg a logit modellbe be nem vont, de
bevonhat (szignifikns hats) vltoz, ezrt folytatjuk az eljrst.
5.3. tblzat: A kvetkez lpsben bevonhat vltoz
V ar iab le s no t i n the Equ a tio n
S tep 0
V ari ables
Overal l S tatis tic s
S core
7,231
7,231
CELCIUS
df
1
1
S ig.
,007
,007
Az 5.4. tblzatban a Newton-Raphson iterci 4 lpse sorn becslt bo s b1

egytthatk lthatk. Megllapthatjuk azt is, hogy x bevonsval ntt a likelihood
fggvny rtke, mert itt a -2loglikelihood= 20,315, s ez az indul 28,267-hez
kpest 7,952-vel kisebb.
5.4. tblzat: Az illeszkeds javulsa
I te r a t io n
It e r a ti on
1
S t ep
1
2
3
4
H i stoar,b
y , c, d
-2 Log
li k e li h o o d
21, 185
20, 359
20, 315
20, 315
C o e ffi ci e n ts
Cons t ant
C E L C IU S
4, 834
- ,2 6 9
6, 896
- ,3 8 0
7, 559
- ,4 1 5
7, 613
- ,4 1 8
a . M e th o d : E n t e r
b . C o n s t a n t is
in c l u d e d i n t h e m o d e l.
c . In i ti a l -2 L o g L i k e li h o o d : 2 8 ,2 6 7
d . E s t im a ti o n t e rm in a t e d a t it e ra t io n n u m b e r 4 b e c a
lo g - li k e li h o o d d e c r e a s e d b y le s s th a n ,0 1 0 p e rc e
137
Az 5.5. tblzatban az iterci negyedik lpsnek loglikelihoodja (LL) mellett kt

tovbbi mutatt tallunk. Ezek a regresszi szmtsbl ismert determincis
egytthathoz hasonl tartalmak. A szakknyvekben szerepl McFadden-fle R2
mutatt (5.17) az output nem tartalmazza. A szakirodalomban 83 szmos szerz v a
pszeudo-mutatk direkt rtelmezstl, fleg tbb modell kztti vlasztsra lehet
ezeket hasznlni.
5.5.tblzat: A modell determincis egytthati
Model Summary
Step
1
-2 Log
likelihood
20,315
Cox & Snell

R Square
,292
Nagelkerke
R Square
,413
Cox s Snell (5.18) mutatja kzvetlenl a likelihoodbl szmolhat, s eszerint

mintegy 30%-ban hatrozza meg a hmrsklet a replsi kudarc eslyt:
RCox
L( 0 )
= 1
L( 1 )
2/ n
(5.18)
Cox-Snell mutatjt a maximlis rtkkel leosztja Nagelkerke. Az gy szmolt

(5.19) egytthat mindig magasabb rtket ad. Itt 41,3%-os determinltsgot jelez:
2
RN2 = RCox
/ 1 L( 0 )2 / n
(5.19)
A becslt egytthatk outputja eltt kapjuk meg az osztlyozs jsgt, vagyis azt,
hogy a hmrskletet figyelembe vve a replsek 87%-t helyesen osztlyozza a
modell, amint ezt az 5.6. tblzat mutatja. Az sszestett szzalkot is befolysolja,
de klnsen az egyes kategrikhoz helyesen besorolt megfigyelsek arnya
rzkeny a kszbszm (cut value) belltsra.
Szmos frumon vitatjk, hogy pszeudo-mutatk egyltalban rtelmezhetk-e, nem jobb-e

a megfigyelt s a vrt gyakorisgokat sszevet Hosmer-Lemeshow teszt alkalmazsa.
http://stats.stackexchange.com/questions/3559/which-pseudo-r2-measure-is-the-one-to-reportfor-logistic-regression-cox-s
83
138
5.6. tblzat: Klasszifikcis tblzat
Cla ssifica tio n Ta bale
P redic ted
S tep 1
Obs erved
F AILURE
F AILURE
s uc cess
failure
16
0
3
4
s uc cess
failure
Overall P ercentage
P ercentage
Correc t
100,0
57,1
87,0
a. The cut value is , 500
A logit modell egytthati s a tesztek az 5.7. tblzatban tallhatk. Az additv

hatst kifejez b1 = -0,481 negatv, teht a hmrsklet nvekedsvel cskken a
kudarc logitja. A multiplikatv hatst kifejez exp(b1)=0,658 pedig azt jelzi, hogy 1
Celsius foknyi hmrsklet-emelkeds 0,658 szorosra vltoztatja a kudarc eslyt.
95%-os szignifikancia szinten 0,449 s 0,965 kztti ez a hats, teht biztosan
cskken a kudarc eslye. A hmrskletet mr vltoz teht a modellben
szignifikns.
5.7. tblzat: A logit modell egytthati
V ari ables in the Equa tion
Satep
1
CELCIUS
Cons tant
B
-, 418
7, 613
S .E.
,195
3, 933
W ald
4, 601
3, 747
df
1
1
S ig.
,032
,053
E xp(B)
,658
2025,098
95,0% C.I.for E XP (B )
Lower
Upper
,965
,449
a. V ariable(s ) entered on s tep 1: CELCIUS .
A modell alapjn a becslt valsznsg: P(y=1)= 1/(1+exp(-7,613+0,418x)

Ha x= 20, akkor p=0,3221-t kapunk. Ezek a becslt valsznsgek elmenthetk, s
a rezidulisok is kiszmthatk. Pldnkban a 18. megfigyels sztenderd rezidulisa
kvl esik a (-2+2) tartomnyon (5.8. tblzat), mert a magas hmrsklet miatt
alacsony valsznsget (0,086) becslt a modell, de ez kudarcos repls volt.
5.8. tblzat: Az outlier megfigyelsek listja
b
Casew ise List
Cas e
18
S elect ed
a
S tat us
S
Obs erved
FAILURE
f**
P redic ted
,086
P redic ted
Group
s
Tem porary Variable

Res id
ZResid
,914
3,269
a. S = Selected, U = Unselected cases, and ** = Misc las sified c as es .

b. Cas es with st udentiz ed residuals greater than 2,000 are list ed.
139
Vgl a becslt valsznsgeket pontdiagramon (5.2. bra) brzolva mutatjuk be a

logit modell egyik eredmnyt: 0,6 s 1 kztti valsznsggel kudarcra
szmthatunk, ha 18 Celsius fok alatti a hmrsklet, mg melegebb idben a kudarc
valsznsge gyorsan de nem linerisan cskken.
1,0
,8
Predicted probability
,6
,4
FAILURE
,2
f ailure
success
0,0
10
12
14
16
18
20
22
24
26
28
CELCIUS
5.2. bra: A hmrsklet s a becslt valsznsgek
5.6. Mintamodell a lemorzsoldsra

A Telco.sav adatllomny lemorzsoldsi (churn) adatait Logit modellel vizsgljuk.
Elszr a mlt havi adatokbl (Frequency funkcival) a lemorzsolds gyakorisgt
llaptjuk meg, amit az 5.9. tblzat mutat.
5.9. tblzat: Lemorzsoldott gyfelek szma s gyakorisga
Churn within last month
Frequency
Valid
Percent
Valid Percent
Cumulative
Percent
No
726
72,6
72,6
72,6
Yes
274
27,4
27,4
100,0
Total
1000
100,0
100,0
A binris logisztikus regressziban fgg vltoz a churn, kovarinsok pedig az

gyfelek szemlyi adatai. Az albbi bellts (PASTE menpont-sorozat) mellett
illesztjk a LOGIT modellt:
LOGISTIC REGRESSION VARIABLES churn
/METHOD=FSTEP(WALD) tenure marital income gender longmon age
address employ
/CONTRAST (marital)=Indicator
/CONTRAST (gender)=Indicator
/SAVE=PRED PGROUP COOK LEVER DEV
/PRINT=GOODFIT CI(95)
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.28).
140
A mdszer kivlasztsnl felttelezzk, hogy az gyfelek adatai
korrellnak egymssal, ezrt a 8 vltoz kztt szelekcit krnk, a
belptets a Wald teszt alapjn trtnik.
Az gyfl csaldi llapota s a neme kategria vltozk, ezeket belltjuk,
s az utols kategrit, mint referencit adjuk meg. gy az 5.10. tblzat
szerint a frfi s a nem hzas szerepelhetne ha szignifikns hatsa
lenne a bevont vltozk kztt.
5.10. tblzat: Kategria vltozk kdolsa s modellbeli szerepe
Categorical Variables Codings
Frequency
Parameter coding
(1)
Male
483
1,000
Female
517
,000
Unmarried
505
1,000
Married
495
,000
Gender
Marital status
Az elmentsi lehetsgek kzl tbbet is kivlasztunk: (5.6)

alapjn a becslt valsznsg mell a trlsi kategrit, egyedi
megfigyelsek hatst (leverage s Cook tvolsg), majd a
deviancit is krjk.
Az egytthatk becslse mell az (5.13) szerint a 95%-os
konfidencia intervallumot is krjk.
A besorolsi szintet (cut-value) 0,5 helyett 0,28-ra lltjuk.
Az eredmnytblk egy rszt rvid rtkelssel egytt mutatjuk be.

a) A 8 vltoz kzl hrom kerlt bevonsra, s gy a modell magyarz ereje
az (5.19) kplet szerint 23%-os, gyenge-kzepes.
Model Summary
Step
-2 Log likelihood
Cox & Snell R

Square
Nagelkerke R
Square
1020,513a
,143
,206
1004,542
,156
,226
1000,758
,159
,231
141
b) A klasszifikcis tbla a harmadik lpsben 66%-os arnyban ismeri fel a

marad gyfeleket, s 73,4%-ban a lemorzsoldkat. sszessgben 68%os az eredetivel megegyez, sikeres besorols.
Classification Tablea
Observed
Predicted
No
Yes
Percentage
Correct
No
478
248
65,8
Yes
74
200
73,0

Step 1
Overall Percentage
67,8
No
475
251
65,4
Yes
72
202
73,7

Step 2
Overall Percentage
67,7
No
479
247
66,0
Yes
73
201
73,4

Step 3
Overall Percentage
68,0
a. The cut value is ,280
c) A hrom lpsben bevont vltozkhoz a becslt egytthatk, azok

sztenderd hibi s a Wald tesztek (szabadsgi fokkal s szignifikancia
szinttel egytt) kvetik egymst a Variables int he Equation tblzatban.
Az Exp(B) oszlopra irnytsuk figyelmnket, hogy a hatsok irnyt s
mrtkt is rtkelni tudjuk.
A magasabb jvedelem valamelyest emeli a trls eslyt (1,002). mg a
szerzds tartama (tenure) 0,962-szeresre, a munkahelyen ledolgozott id
hossza pedig 0,949-szeresre cskkentik a lemorzsoldst.
142
143
nll munkra javasolt feladatok:

Az letkor, a lakhelyen tlttt id s a munkahelyen tlttt id fkomponenst
ellltva s elmentve kapott PCA-Score szerepeltethet a LOGIT modellben az
eredeti hrom vltoz helyett.
1/a) Vesse ssze ennek a Logit modellnek az eredmnyeit a fentebb bemutatott
rszeredmnyekkel.
1/b) ROC grbe segtsgvel mutassa meg, hogy a besorols pontossga mennyire
tr el.
Megolds:
1/a) A fkomponens jl rtelmezhet, 70 % feletti informcisrtst jelez.
Magasabb score 0,532 s 0,814 kztti mrtkben cskkenti a trls eslyt. A
jvedelem adat gy nem kerlt be a modellb, ami a kvetkez oldalon lthat.
1/b) A kt modell AUC rtke 3 ezrelknyi eltrst mutat, a ROC grbk szinte
egybeesnek.
Area Under the Curve
Test Result Variable(s)
Area
Predicted (PCA) probability
,755
Predicted probability
,758
The test result variable(s): Predicted

probability has at least one tie between the
positive actual state group and the negative
actual state group. Statistics may be biased.
144
145
Tovbbi feladat:
Ms vltozk bevonsval keressen magasabb R-ngyzetet elr, s pontosabb
besorolst ad modellt.
5.7. A modellvlaszts grafikus eszkze

Mivel a szmtgpes statisztikban is az angol nyelv dominl, szmos olyan
mdszer s teszt van, ami eredeti angol nevn vlt ismertt. Ilyen a kezdetben jelek
felismersre alkalmazott ROC-grbe 84 (Receiver Operating Curve) s AUC mrtk
(AUC=Area Under the Curve) is, amelyek alkalmasak arra, hogy tbb logit modell
kzl a legjobb felismer kpessgt ki tudjuk vlasztani.
Kezdetben egy 2x2-es kereszttblba rendezzk adatainkat. gy sszevethet a
kezdeti s a modell ltal adott besorols. A jellst nehezti, hogy nem egyrtelm,
mi szmt j vagy rossz megfigyelsnek. Ha a szerzds elmenpontt, trlst vagy
gyfl lemorzsoldst elemezzk, akkor ez zleti szempontbl nem kedvez, de
ennek becslsre irnyul a modell. Ezrt a tblzatban az 1 s a 0 kdokat is
feltntettk alhzand, hogy az 1 jelek helyes besorolsa, azonostsa a logit
modell clja. A dntsek mellett zrjelben az elfordulsok szmt is megadjuk.
sszesen a+b+c+d=n megfigyelst sorolunk be.
Tnyleges/Dnts
J, befogadott (1)
Rossz, elutastott (0)
J, kedvez (1)
Helyes dnts (a)
Tves dnts (b)
Rossz (0)
Tves dnts (c)
Helyes dnts (d)
A ROC-grbe kt tengelyn a fenti ngy cellbl kt arnyszmot ksztnk s

vetnk ssze.
Az y tengelyen d/(c+d) arny jelenik meg, ami a teszt rzkenysgt mri.

Itt az elutastott d szm rossz/csds gyfelek arnya az sszes
rossz/csds arnyban lthat.
Az x tengelyen b/(a+b) arny lthat. Ez az elutastott b szm jkat az
sszes jgyfl arnyban mri. Ezt tves riasztsnak is nevezzk.
A dntsi tblt a logit modell alapjn kapjuk meg, ami a dntsi rtk (cut-value)
belltstl fggen ms s ms lesz. A ROC-grbe egy-egy pontja azt mutatja
84
Trtnelmi rdekessg, hogy a jelfelismers a II. vilghbor idejn Pearl Harbor 1941-es
megtmadst kveten vlt szksgess. A radarok hasznlatnak clja az ellensges
replk s a sajt replgpek ltal adott jelek megklnbztetse volt. A ROC-grbe
szlesebb kr alkalmazsa az 1970-es vek ta jellemz: kockzatcskkentsre, orvosi
tesztek rtelmezsre is hasznlni kezdtk.
146
meg, hogy bizonyos dntsi rtkhez milyen x=b/(a+b) s y=d/(c+d) szmprok

tartoznak.
Mivel a logit modellben nemcsak folytonos, hanem kategria-vltozk is
szerepelhetnek, a ROC-grbe emelkedse sem folytonos, szakadsok is lehetnek
benne.
A 45 fokos egyenesen az elutastott rosszak arnya (y) pp megegyezik az elutastott
jk arnyval (x), ez a modell hasznlhatatlansgt fejezi ki.
A ROC-grbe annl jobb modellt jelez, minl gyorsabban s minl magasabbra
emelkedik a 45 fokos egyenes fel. A grbe alatti terlet nagysgt a trapezoidokbl
szmolt AUC-mrtk adja meg. Ennek maximlis rtke=1.
Tbb modell kztti vlasztsra kivlan alkalmas az AUC mrtk. Hvelykujjszably szerint az albbi kategrikkal jellemezhetk a logit modellek:
0,90-1 = kivl
0,80-0,90 = j
0,70-0,80 = kzepes
0,60-0,70 = gyenge
0,50-0,60 = nem alkalmas a modell a megklnbztetsre.
A grbt s a grbe alatti terletet az 5.8. alfejezet pldjn mutatjuk be.

A statisztikban hasznlt els s msodfaj hiba tartalmilag kapcsoldik a ROCgrbhez, de a ROC-grbe s az AUC mrtk sszetettebb informcit adnak, br
valsznsgi szint nem tartozik hozzjuk. Emlkeztetl az elsfaj hiba alfa=c/n,
rosszat befogadunk, mg a msodfaj hiba bta=b/n, jt elutastunk (~ x tengely).
5.8. Tovbbi logisztikus modellek

Ha a fgg vltoznak kettnl tbb kategrija van, akkor kt utat kvethetnk:
a) Visszavezetjk a feladatot ktkategrisra gy, hogy
i) Egy kategrit megtartunk, a tbbieket sszevonjuk.
ii) A k szm kategria miatt (k-1) dummy vltozt vezetnk be, s k-1
logit modellt illesztnk
b) Multinomilis modellt illesztnk gy, hogy az egyik kategrit referencia
kategrinak vlasztjuk, s a tbbi (k-1) kategrival minden egyes fggetlen
vltozra sszehasonltjuk. Egy-egy megfigyelst a legnagyobb valsznsg
kategriba sorol az eljrs.
147
Alkalmazsi elfeltevse a multinomilis logisztikus regresszinak sincs, se a

fggetlen vltozk normlis eloszlsa, se a szrsngyzetek egyezse nem
szksges.
Gyakorlati felttel az, hogy a megfigyelsek szma tzszerese legyen a vltozk
szmnak, azaz n >10 p.
A Probit modellt is megemltjk ebben a rszben, br ez tovbbra is ktrtk fgg
vltozt becsl. A nevt a probability+unit szavak sszekapcsolsbl kapta, s az
y=1 rtk valsznsge normlis eloszlst felttelezve hatrozhat meg.
P( Y = 1 X ) = ( X ' )
A modellben az x vltozk hatst kifejez egytthatk maximum likelihood
elven becslhetk.
6. Faktorelemzs
A faktorelemzs hrom esetben kiemelten hasznos mdszer. Ezek rvid bemutatsa
mellett pldkkal is igyeksznk az olvas figyelmt megragadni.
a)
Ltens vltoz ellltsa
Komplex problmk elemzse a clunk, amikor a vizsglni kvnt jelensg(ek)

kzvetlenl nem is mrhet(k). A megfigyelt, mrhet vltozkbl lltjuk el a
ltens (nem megfigyelhet) vltozkat, amelyeket faktoroknak neveznk. Ilyen
faktor lehet pldul a gazdasgi vagy trsadalmi fejlettsg, a jlt, a teleplsek
vagy a piacok fejlettsge, egy mret vagy egy indexszm, ami tbb
mutatszmbl keverhet ki. Ha egy faktor az eredmny, akkor
rangsorolhatjuk is a megfigyelseinket.
b) Dimenzicskkents
Az sszes informci lehet legnagyobb hnyadnak megrzse mellett
keressk a minimlis dimenziszmot, s azokat a faktorokat, amelyek mr
egymsra merleges tengelyeket adnak meg. gy akr grafikusan is lthatv
tehetjk a homogn adathalmazt alkot megfigyelseink szerkezett ebben a
reduklt dimenzij trben.
c) Fggetlen komponensek ellltsa
Mivel a gazdasgi s trsadalmi vltozk tbbsge ersen korrellt, tbb
egymssal klcsns kapcsolatban ll vltoz egyidej figyelembevtele
nem lehetsges olyan mdszerek alkalmazsakor, amikor a vltozk
fggetlensge alapfelttel. A vltozk kzl nhnynak a kivlasztsa helyett
kpezzk az egymsra merleges helyzet faktorokat, amelyek fggetlen
vltozkknt hasznlhatk pldul egy regresszis modellben.
A faktorelemzs tbb mdszer sszefoglal 85 neve. Kzlk a kt legismertebbet
trgyaljuk rszletesebben:
Fkomponens-elemzs (Principal Component Analysis=PCA)
Faktorelemzs (Principal Axis Factoring=PAF)
Egy-egy vltoz szrsngyzetnek felbontsakor hrom sszetevt klnbztetnk

meg: Teljes variancia = Kzs variancia + Egyedi variancia + Hiba variancia
85
A faktorelemzst sszefoglalan hasznljuk, ahogy a regressziszmtst is emltjk, de

mindig pontostani kell, hogy milyen modellrl van sz.
FAKTORELEMZS
149
A kt mdszer dnten ebben a felbontsban klnbzik, mert
Fkomponenseket ksztnk, ha a kzs s egyedi variancit egytt

magyarzzuk, s csak a hibatagtl vonatkoztatunk el. Ekkor a p szm
egymssal korrell vltoz kztti kapcsolatrendszert vizsgljuk feltr
szemlletben, s egymssal korrellatlan vltozkk transzformljuk az
eredeti vltozkat, de a vltozk kztt ok-okozati kapcsolatot nem
tteleznk fel. A vltozk lineris kapcsolataira ptve keressk az elre
ltalban meg nem hatrozott szm ortogonlis tengelyt.
Faktorelemzst vgznk, ha csak a kzs variancit modellezzk. Ilyen

alkalmazsok sorn statisztikai modell hzdik meg a vltozk
kapcsolatrendszere mgtt, teht megerst elemzst vgznk. A httrben
meghzd faktor hatsaknt alakul a megfigyelt vltozk rtke gy,
ahogy az adatllomnyban lthat.
A mdszercsald tovbbi eljrsairl is rszletesen r Fsts-Kovcs-MesznaSimonn (2004): Alakfelismers cm knyve.

Bevezet pldaknt a fvros kerleteit s a krnyez teleplseket 86 kvnjuk
sszehasonltani az letminsg szempontjbl Az 50 megfigyelshez
rendelkezsnkre ll szmos vltoz, amelyek egymssal korrellnak. Az adatokban
mrethats van: ahol tbb a npessg, ott tbb a laks, de ahov tbben
vndorolnak, ott tbb az jonnan ptett laks is. Ezek a hatsok klcsnsek, teht
az ok-okozati irny nem mindig nyilvnval. Az elemzs clja most nem egy
kiemelt vltoz megmagyarzsa a tbbivel, mint a regresszis modellben, hanem
azt keressk, hogy hny dimenziban lehet lerni az letminsget, mint ltens
vltozt. 87
6.1. A fkomponenselemzs
Az eljrs alapgondolata az, hogy az egymssal pronknt linerisan korrell
vltozk egyttesbl ortogonlis transzformci rvn ellltjuk a korrellatlan
fkomponenseket gy, hogy az els nhny komponens lerja a vltozk sszes
szrsngyzetnek elg nagy hnyadt, s gy alacsonyabb dimenziba kpezhetjk
le megfigyelseinket. Ha az indul vltozk kztti korrelcik gyengk, akkor az
eredeti vltozkkal tbb-kevsb megegyez szm s tartalm komponenseket
kapunk.
86
87
A Kerletek.sav adatbzist hasznljuk ebben a fejezetben.

A plda eredmnyeit a 6.1.3. alfejezetben kvetheti az olvas.
150
6.1.1. A fkomponens elemzs matematikai httere

Indul adatainkat az X mtrixba rendezzk, ahol a sorokban n megfigyels, az
oszlopokban p vltoz tallhat. Hvelykujj-szablyknt javasolhat, hogy n 5p
teljesljn.
A fkomponensek ngy tulajdonsggal rhatk le. Egyszerbb a felrs, ha
feltesszk, hogy a p db vltoz centrozott, az eredeti adatok helyett az tlagtl val
eltrst hasznljuk.
1) Az y fkomponensek a mrt x vltozk lineris kombincii, gy az n-elem
fkomponensek felrhatk:
y1 = X a1 , y 2 = X a 2 ,..., y p = X a p , vagy mtrix alakban:
Y = X A , ahol az A (pxp)-s.
2) A lineris kombinci egytthatinak ngyzetsszege minden fkomponensre
egy legyen, az elsre gy rhat fel:
a1 a1 = 1
T
3) A fkomponensek variancija monoton cskken: Var (y1)Var(y2)...Var(yp)0

s a variancia:
T
1 T
1
X
T
T X
T
a1 = a1 S a1 max ,
Var ( y1 ) = y1 y1 = ( X a1 ) ( X a1 ) = a1
n
n
n
ahol
S: a megfigyelt vltozk pxp-s mret kovariancia mtrixa. Ha feltesszk azt is,
hogy a vltozk standardizltak, akkor S helyett R korrelcis mtrix szerepel.
4) A fkomponensek pronknt korrellatlanok: r(y1, y2)=0
A tovbbiakban az R korrelcis mtrixbl indulunk ki.
A 2) s a 3) tulajdonsg egytt feltteles szlsrtk feladatot ad, ennek megoldst
a Lagrange multipliktorok mdszervel vgezzk.
L = a 1 R a 1 1 ( a 1 a 1 1 ) max
T
(6.1)
A parcilis derivltat egyenlv tesszk nullval:
L
a 1
= 2 R a 1 2 1 a 1 = 0
Egyszerstve s rendezve 1 sajtrtk s a1 sajtvektor egyenletrendszerhez

jutunk:
R a 1 = 1 a 1
s (R 1 E )a 1 = 0
(6.2)
FAKTORELEMZS
151
A homogn egyenletrendszernek csak a nem-trivilis (a0) megoldst keressk.

Ekkor a mtrix determinnsa zrus:
R 1E = 0
(6.3)
A pxp mret mtrix determinnsnak kifejtsvel megkapjuk a p-ed fok polinom

gykeit, a sajtrtkeket, amelyek monoton cskken sorrendbe rakhatk. Mivel R
mtrix szimmetrikus s pozitv definit mtrix 88, a legkisebb sajtrtk is nemnegatv:
1 2 p 0
A sajtrtkek szorzata a mtrix determinnst adja. Minl kzelebb vannak a
legkisebb sajtrtkek a nullhoz, annl kzelebb van a determinns rtke is a
nullhoz.
A sajtrtkek sszege a mtrix nyoma, ezrt a korrelcis mtrix felbontsakor
p
i =1
= p
(6.4)
p
A kovariancia mtrixra i = 12 + ... + 2p teljesl. Ha a vltozk klnbz

i =1
mrtkegysgek voltak, akkor nincs rtelme a variancikat sszeadni. Ilyenkor

fontos, hogy az adatokat elzetesen sztenderdizljuk, vagy a korrelcis mtrix
felbontst vgezzk el. Ha korrelcis mtrix dekompozcijt vgezzk, akkor a
sajtrtkek s a sajtvektorok eltrnek a kovariancia mtrix felbontsval kapott
eredmnyektl. A kt vltozat eredmnyei egymsbl kzvetlenl nem llthatk
el. Ha mgis kovariancia mtrixbl dolgozunk, akkor az albbiakat tartsuk szem
eltt:
Jl rtelmezhetk a komponensek, ha
Mirt fontos ez?

A skla vltozsval vltozik a
Minden vltoz azonos mrtkegysg.
fkomponens.
A nagy szrs vltoz dominlja a
A vltozk variancija kzel azonos.
fkomponenst.
Mivel R (s S) szimmetrikus, pozitv definit mtrixok, a sajtrtkeik nemnegatvok.

A klnbz sajtrtkekhez tartoz a1,..., ap sajtvektorok pedig ortogonlisak, s a
2) felttel miatt egysgnyi hosszak 89.
88
Az S kovariancia mtrix is szimmetrikus s pozitv definit, ennek S sajtrtkei is

nemnegatvok.
89
A normltsg miatt csak egy elemzsen bell hasonlthatak ssze a sajtvektorok elemei.
152
Ha balrl szorozzuk az a vektorral a (6.2) egyenletrendszert, akkor lthat, hogy a 3)

tulajdonsg alapjn a fkomponens szrsngyzete a sajtrtk:
R a1 = a1
/*a1T
a1 R a1 = 1 a1 a1 = 1
T
(6.5)
p
Egy fkomponens relatv fontossgt a
j / k hnyados
mutatja, szzzal
k =1
szorozva szzalkos formban adhat meg a fkomponens ltal hordozott sszinformci.

A j-edik sajtrtkhez a homogn egyenletrendszer megoldsa 90 adja a j-edik
sajtvektort, s ezzel elllthat a j-edik fkomponens. A fkomponensek
korrellatlansgt a sajtvektorok ortogonalitsa biztostja.
A sajtvektorok A mtrixval felrhat az sszes megfigyels szrmaztatott
koordintja: Y=XA
A fkomponens rtke (score) az i-edik megfigyels elhelyezkedst mutatja a jedik fkomponens tengelyen:
yij = a j x i
T
(6.6)
sszehasonlthat sajtvektorokat (c =component loading-ot, slyt) kapunk, ha az R

(vagy S) mtrix nem egysgnyi hossz sajtvektorait ellltjuk:
c j = j a j , amelyre c j = c j c j = j a j a j = j
T
vagy mskppen
c
i =1
2
ij
= j
(6.7)
A cij jelentse: az i-edik vltoz s a j-edik komponens 91 kztti korrelci,

amelyben a (6.2) mtrix-alakjt hasznljuk fel:
90
A sajtvektorok eljele tetszleges, mert a homogn lineris egyenletrendszer
megoldsakor van szabad ismeretlen.
91
A korrelci szmtsakor osztunk az Y komponensek szrsval, azaz a sajtrtkek
gykvel.
A diagonlis mtrix, ftljban a sajtrtkek szerepelnek. Az X-beli vltozk
sztenderdizltak, szrsuk egysgnyi.
FAKTORELEMZS
153
cov( x , y )
1 T
1 / 2
1 / 2
1 / 2
1/ 2
= cov( X ,Y )
= X ( X A
) = R A
= A = C
sx s y
n
A C mtrix minden eleme korrelcis egytthat, de a C nem korrelcis mtrix,
corr( X ,Y ) =
mivel a ftljban az egyesek helyett az azonos index vltoz s komponens kzti

korrelcis egytthat szerepel, s a mtrix nem szimmetrikus. (6.7) szerint az
oszlopelemek ngyzetsszege a sajtrtket adja. Egy-egy sor elemeinek
ngyzetsszege a vltoznak a fkomponensek ltal megmagyarzott variancija,
azaz a kommunalits:
p
c
j =1
2
ij
= hi2 = 1
(6.8)
Fontos kapcsolat van R s C kztt:

R= CCT =AAT,
(6.9)
azaz a vltozk pronknti korrelciit tkletesen reprodukljk a vltozk s a

fkomponensek korrelciinak szorzatai, valamint a sajtvektorok s sajtrtkek
mtrixai. A (6.9)-et gy is megkapjuk, ha (6.2)-t mtrix alakban felrjuk, s jobbrl
szorozzuk:
R A = A
/*AT
Mivel az ortogonlis mtrix transzponltja megegyezik az inverzvel, a szorzs utn

p
R = A A = i a i a i
T
(6.10
i =1
teljes reprodukcit kapunk, ha az sszes vltoz mentn p-ig sszegznk.

A ktfle input mtrixot s a sajtvektorok hosszt tekintve a C mtrix elemei
ngyflk:
Input mtrix / Sajtvektor hossza:
aT a=1
aT a=
R korrelcis mtrix
cij=aijj
cij=aij
S kovariancia mtrix
cij=aijj/i
cij=aij/i
A korrellatlan komponenseket teht az eljrs vgn megkapjuk, de hogyan

valsulhat meg msik clunk, a dimenzicskkents?
Ha a legkisebb sajtrtk(ek) nagysga zrus, akkor a hozz(juk) tartoz
sajtvektort, s gy a fkomponenst sem lltjuk el. ltalban azonban csak
154
kzeltik a -k a nullt, s ilyenkor felvetdik a krds, hogy hny fkomponens

kell?
Mivel a variancik monoton cskkenek, az els k darab komponens nagyobb
hnyadot kpvisel az sszvariancibl, mint brmely msik k darab komponens.
Ezrt az utols (p-k) komponens figyelmen kvl hagysrl dnthetnk gy, hogy
megadjuk elre a k szmot,
az egynl nagyobb sajtrtkeket vesszk,
meghatrozzuk azt a szzalkot, amennyi informcit meg akarunk rizni.
Dntsnknek termszetesen kvetkezmnyei lesznek. A vltozk s

fkomponensek korrelciit tartalmaz C mtrix mrete nem p*p, hanem p*k lesz, a
(6.8) szerinti kommunalitsok kisebbek lesznek, mint egy, illetve a (6.9) s a (6.10)
szerinti tkletes reprodukls sem valsul meg.
Ha az egynl kisebb sajtrtket elhagyjuk, az A mtrixnak is p-nl kevesebb
oszlopa van. Az sszegzs i=1-tl k-ig (kp) megy, ami nem reproduklja teljesen a
korrelcis mtrixot. A reduklt korrelcis mtrix:
R = i a i a i
(6.11)
i =1
6.1.2. A megvalsts lpsei az SPSS-ben

Az Analyze/Dimension Reduction/Factor lpsekkel lehet a mdszerek kzl
vlasztani s fkomponens-elemzst vgezni. 92
A vltozk kivlasztsval kezdjk gy, hogy trekedjnk az n>5p szably
betartsra.
A Selection> menpontsal egy kategriavltoz kijellsvel almintt adhatunk
meg. Ez akkor hasznos, ha azt felttelezzk, hogy az almintkban ms
faktorstruktra jellemz. Az SPSS ilyenkor az alminta adatait hasznlva kszti el a
becslst a teljes mintra.
A) Descriptives, azaz ler statisztikk
E funkci alatt szmos fontos elkszt eredmny szerepel. A 6.1. tblzatban
sszefoglaljuk, hogy mit s mirt krnk, majd az egyes eredmnyek ellltshoz
szksges kpleteket (zrjelben a sorszmuk) ismertetjk.
92
A belltsokat az output tblk sorrendjben ismertetjk.
FAKTORELEMZS
155
6.1. tblzat: PCA ler statisztikk
Vlaszthat rszeredmnyek
rtelmezsk
Egyvltozs ler statisztikk
A vltozk eredeti tlaga s szrsa. A magas

relatv szrsra figyelni kell, hiszen homogn
adathalmazbl dolgozunk.
Korrelcis mtrix, szignifikancia szintek Vltozk kztti lineris kapcsolatok

s a mtrix determinnsa
szignifiknsak-e? Egyhez kzeli determinns
gyenge pronknti korrelcikat jelez. |R|0
esetn szorosak a korrelcik.
Korrelcis mtrix inverze
Parcilis 93 s tbbszrs 94 korrelci mrse
Kaiser-Meyer-Olkin mrtk (12)
Ha kisebb, mint 1/2, a minta nem alkalmas

fkomponens-elemzsre. 0,5-0,7 kztt gyenge,
0,7-0,8 kztt kzepes, 0,8 felett j a PCA
Anti-Image korrelcis mtrix ftlja

(13)
MSA 95 mrtkek vltoznknt, az 1-hez kzeli

rtk a kedvez
Anti-Image korr. mtrix tbbi eleme
A parcilis korrelcik (-1)-szeresei
Bartlett-teszt (gmblysgi)
H0 :R=E, a vltozk fggetlensge elvethet-e (a

tbbdimenzis normalitst felttelezi)
khi prba (14)
A Kaiser-Meyer-Olkin mrtk szmtsakor az egsz minta megfelelsgt (MSA:

Measure of Sampling Adequacy) vizsgljuk. A szmllban a kznsges
korrelcik ngyzeteinek sszege szerepel, kivve a ftlbeli egyeseket. A
nevezben pedig ehhez mg hozzaddnak a parcilis korrelcik ngyzetei. (A
szmllban p(p-1)/2 tag, a nevezben p(p-1) tag szerepel.)
KMO=
r
i j
ij
r
i j
ij
+ pij
(6.12)
i j
A KMO mrtk 0 s 1 kztt lehet. Ha a KMO=1, akkor a parcilis korrelcik

nullk.
93
A parcilis korrelci az inverz mtrix ftlbeli elemeibl is meghatrozhat. Ha az els
kt vltoz kapcsolatbl p-2 vltoz hatst kiszrjk:
r1234... p = q12
q11 q 22
, ahol
q az inverz mtrix megfelel eleme. Ha nem zavar, akkor a rszletes kirs helyett pij
szerepel.
94
Egy tbbszrs korrelci rtke az inverz mtrix azonos index elembl meghatrozhat:
R123... p = 1 1 q11
95
, s a mutat mindig pozitv.
MSA: Measure of Sampling Adequacy.
156
Az Anti-Image korrelcis mtrix (AIC) ftljban a vltoznknt kiszmolt KMO

rtkek llnak. A mutat az i-edik vltozra:
MSAi =
r
i j
2
ij
r
i j
2
ij
+ pij2
(6.3)
i j
A mutat nagy rtke fontos vltozt s kzs faktor ltt jelzi. Ha kicsi (0,5 alatti)
valamely MSA, akkor a vltoz kihagysval javthat a modell.
Az AIC ftln kvli elemei a parcilis korrelcik (-1)-szeresei. J a faktormodell,
ersek a kzs faktorok, ha a parcilis korrelcik nullhoz kzeliek. Ez azt jelenti,
hogy az egyedi faktorok kztti korrelci is kzel nulla.
Hvelykujj szably szerint minsthetjk az eredmnyt, ahogy a 6.2. tblzat jelzi.
6.2. tblzat: A minta megfelelsgnek rtkelse KMO s MSA mrtkek alapjn
KMO s MSA
Minsts (s teend)
rtke
0,9 felett
Kivl, mert kicsik a parcilis korrelcik
0,8-0,9
0,7-0,8
kzepes
0,5 felett
megfelel
=0,5
Ha a korrelcis mtrix elemeinek ngyzetsszege egyenl a

parcilis korrelcik ngyzetsszegvel. Az alkalmazs krdses.
0,5 alatt
Elfogadhatatlan a mdszer alkalmazsa, mert
nem elg szorosak a lineris korrelcik
tl magasak a parcilis korrelcik
(MSA 0,5 alatt: az adott vltozt ki kell hagyni. )
A KMO=0,5 addhat gy, hogy megkrdjelezhet az alkalmazs:
Ha sszesen kt vltozra prblunk fkomponens illeszteni. Ekkor a

parcilis korrelciban nincs kiszrhet vltoz.
Gpi bellts miatt (hogy elkerljk a nullval val osztst) is kaphatunk

ilyen rtket, ha a korrelcis mtrix egysgmtrix.
FAKTORELEMZS
157
A Bartlett-teszt alapfeltevse az, hogy tbbvltozs normlis eloszls

sokasgbl 96 vettk a mintt, s az eredeti vltozk fggetlenek, azaz az R=E. Ezt
likelihood-arny teszttel vizsgljuk, ahol |R|=i , s H0: R=E.
2 = a log R
, ahol a = n-1-(2p+5)/6 s a szabadsgi fok= p(p-1)/2
(6.14)
Fkomponens-elemzs csak akkor vgezhet, ha elvetjk a nullhipotzist, azaz nem

tekinthetk fggetlennek a vltozk.
Itt kapjuk meg a kezdeti megoldst. Az eredeti vltozk egysgnyi szrsngyzete
mellett a fkomponens-elemzssel kapott (6.8) szerinti h kommunalitsok llnak. Az
i-edik vltoz variancijnak a kzs faktorok egytt ekkora hnyadt magyarzzk.
Fels hatrt csak akkor ri el, ha mind a p db komponenst ellltjuk:
hi2 = cij 1
2
Az outputok kztt kapjuk meg a (6.9) szerint szmolt reproduklt korrelcis

mtrixot. Ennek ftljban a kommunalitsok (a kzs faktorok ltal magyarzott
variancia) tallhatk.
B) Az Extraction blokkban vlasztunk faktorelemz eljrst.
A fkomponens elemzs (PCA) az alapmdszer, s az egynl nagyobb
sajtrtkekhez (Kaiser kritrium) tartoz sajtvektorokat lltja el, ha nem krnk
k szm faktort. Itt krhet a Scree plot 97 bra is. Ez megmutatja, hogy a
sajtrtkek nagysga hogyan cskken. A hirtelen cskkens utn megllunk, a
tovbbi komponensek elhanyagolhat mrtkben javtjk a modell illeszkedst. A
kis sajtrtk a vletlen hibt mri, nem egy ltens kzs komponens variancija. Ha
a vltozk gyengn korrellnak, akkor nem cskken meredeken a Scree plot, nem
cskken a dimenzi.
C) A Rotation blokkban rotlt megoldst 98 llthatunk el, ha egynl tbb
faktorunk 99 van.
A faktorok elforgatsa trtnhet gy, hogy a forgats utn is merlegesek maradnak,
s gy is, hogy a faktorok korrelltak lesznek. Az ortogonlis forgats biztostja azt,
hogy a faktorok ltal nyjtott informci nem redundns, de a vizsglt jelensgek
faktorai lehetnek egymssal sszefggek is.
96
Mivel tbbdimenzis normalitsi teszt nincs, legalbb nagy minta lljon

rendelkezsnkre!
97
A Scree plot vzszintes tengelyn a faktorok szma, fggleges tengelyn pedig a
sajtrtkek lthatk.
98
A rotci jelentsgt mutatja be Hajdu Ott cikke a Statisztikai Szemle 2004. X-XI. dupla
szmban.
99
A rotls a PAF eljrs kzs faktorainak rtelmezsekor nagyon fontos.
158
Az ortogonlis forgats egyik vltozata a Kaiser ltal javasolt Varimax eljrs. A

kommunalitsok s a magyarzott sszvariancia nem vltozik, de a sajtrtkek
igen. A nagy loadingok ngyzetei egyhez, a kicsik nullhoz kzeliek lesznek a
forgats utn. Ha B=AT, ahol T a transzformci ortogonlis mtrixa, a Varimax
kritrium felrhat:
V =
q =1
p
p 2
4
b jq b jq / p
j =1
j =1
p
max , s k a faktorok szma, kp.
(6.15)
A ferdeszg (Oblique) forgatst a Direct Oblimin eljrs vgzi. Ekkor a
fkomponensek kztti korrelcik mtrixa nem lesz egysgmtrix, s nem adhat
meg az, hogy egyes vltozk szrsngyzetnek mekkora hnyadt kpviseli egyegy faktor.
Ebben a rszben krhet a Loading plot, amely a vltozkat brzolja a faktorok
terben.
D) Tovbbi eredmnyeket kapunk a Factor Scores blokkban.
A score egytthat-vektor p elem, a sajtrtk gykbl s a hozztartoz
sajtvektorbl szmolhat, minden vltozhoz kirathat:
(6.16)
Az adatllomnyban jelenik meg a faktor score egytthat mtrixa, amely mentse

sorn hrom eljrs 100 kzl vlaszthatunk. Ha regresszis becslssel kszl,
rtelmezse is a standardizlt regresszis egytthatkhoz hasonl. Ezek adjk a
reduklt dimenzij trben az eredeti megfigyelsek sztenderdizlt koordintit,
azaz minden oszlop tlaga 0 s szrsa egysgnyi. A regresszis becsls:R-1C,
akkor kszthet el, ha ltezik a korrelcis mtrix inverze. A (6.9) s (6.10)
egyenletek alapjn belthat, hogy R-1C= A-1/2
A faktor score mtrix (n*k) mret, s elemei: Yz= XA-1/2, azaz Y fkomponensek
sztenderdizlt rtkeit tartalmazzk.
100
Bartlett eljrst s Anderson-Rubin becslst is vlaszthatunk, amelyek a
sajtrtkek s a sajtvektorok felhasznlsval adjk meg az eredmnyt.
FAKTORELEMZS
159
E) Az Options-ban a hinyz adatok kezelst, adott szint alatti kis korrelcik

kihagyst, s a tbbiek nagysg szerinti rendezst vlaszthatjuk.
6.1.3. A PCA eredmnyek bemutatsa s rtelmezse

Budapest 23 kerlete s a fvrost krlvev 27 telepls 2010-es adataira vgznk
fkomponens elemzst. (Kerletek2010.sav)
Az els szakaszban csak ngy vltozt hasznlunk. Azt vizsgljuk, hogy a
laknpessgre vettett oda- s elvndorlst mr ngy vltoz milyen
hatkonysggal srthet-e egyetlen vndorls komponensbe?
Krds: Javul vagy romlik a modell illeszkedse, ha nem ltszmra vettett
mutatkat hasznlunk, hanem a vndorlst ler eredeti abszolt szmokat?
Vlasz: A mrethats miatt ersebbek a korrelcik, gy az eredeti vltozk jobban
srthetk egy fkomponensbe. De ne ldozzuk fel a korrekt alkalmazst ennek
rdekben.
Mivel a kerletek s az agglomerci teleplsei eltr vltoz-struktrt is
mutathatnak, rdemes a relatv szrst ellenrizni a 6.3. tblzatban. Egyik
szrs/tlag hnyados sem kzelti meg a kettt, mint kritikus rtket 101.
6.3. tblzat: A ngy vltoz statisztikai jellemzi
Mean
Std. Deviation
Analysis N
Odavanperfo
,043197
,0152623
50
Elvanperfo
,034468
,0109296
50
llElvanperfo
,020327
,0074053
50
llodavanperfo
,025357
,0124537
50
A vltozk mrtkegysgei nem klnbznek, de nagysgrendi eltrsek lehetnek,

ezrt a 6.4. tblzatban megadott korrelcis mtrixbl indulunk. Minden
korrelcis egytthat szignifikns, nem ltunk blokkokat a vltozk kztt. Ebbl
felttelezhet, hogy a ngy vltozbl egy fkomponens fog kpzdni. A mtrix
nullhoz kzeli (0,002) determinnsbl sejthet, hogy a sajtrtkek hatrozottan
cskken sorozatot alkotnak.
101
Lehet szigorbb (pl. 0,7) kritikus rtket is vlasztani, itt ez is teljesl.
160
6.4. tblzat: Az eredeti vltozk korrelcis mtrixa
Correlation Matrixa
Correlation
Sig. (1-tailed)
Odavanp
Elvan
erfo
perfo
Odavanperfo
llElvan llodavanp
perfo
erfo
1,000
,877
,838
,915
Elvanperfo
,877
1,000
,940
,884
llElvanperfo
,838
,940
1,000
,908
llodavanperfo
,915
,884
,908
1,000
,000
,000
,000
,000
,000
Odavanperfo
Elvanperfo
,000
llElvanperfo
,000
,000
llodavanperfo
,000
,000
,000
,000
a. Determinant = ,002
A Kaiser-Meyer-Olkin (KMO) teszt 0,746-os rtke alapjn adataink alkalmasak

fkomponens elemzsre, s a Barlett-fle khi-ngyzet teszt alapjn minden szoksos
szignifikancia szinten elvetjk a vltozk fggetlensgnek hipotzist. (6.5/a.
tblzat)
6.5/a. tblzat: PCA alkalmazhatsgi tesztek
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling Adequacy.
Bartlett's Test of Sphericity
Approx. Chi-Square
df
Sig.
,746
280,951
6
,000
A vltozk egyedi alkalmassgt a 6.5/b. tblzat als mtrix ftlja adja meg. Az
egyedi MSA rtkek a KMO krl ingadoznak, egyik vltoz kihagysa sem
indokolt, mindegyik meghaladja a 0,5 kszbt. A ftln kvl a parcilis
korrelcik (-1)-szeresei kaptak helyet.
FAKTORELEMZS
161
6.5/b. tblzat: A vltozk egyedi alkalmassgnak mrse

Anti-image Matrices
Odavanp
Anti-image Covariance
Anti-image Correlation
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
erfo
,127
-,049
,032
-,073
,752a
-,466
,316
-,667
Elvan
llElvan
llodava
perfo
,032
-,062
,080
-,048
,316
-,737
,718a
-,551
nperfo
-,073
,015
-,048
,093
-,667
,170
-,551
,758a
perfo
-,049
,087
-,062
,015
-,466
,755a
-,737
,170
a. Measures of Sampling Adequacy(MSA)
Ha sztenderdizlt adatokkal dolgozunk, akkor kezdetben minden vltoz

szrsngyzete egysgnyi (Initial), s ebbl az egynl nagyobb variancij, fontos
fkomponens(ek) bizonyos hnyadot magyarz(nak) (Extraction), amint ezt a 6.6.
tblzat mutatja. Ha a magyarzott hnyad tlsgosan alacsony lenne 102, akkor a
vltozt clszer lenne kihagyni a futtatsbl. Pldnkban mind a ngy vltoz
esetben 90% kzeli vagy ezt meghalad a megrztt informci. A ngy
kommunalits sszege pedig 3,6 felett van, ami elre jelzi, hogy a teljes megrztt
informci is 90% felett lesz.
6.6. tblzat: A teljes variancia megrztt hnyada
Communalities
Initial
102
Extraction
Odavanperfo
1,000
,894
Elvanperfo
1,000
,931
llElvanperfo
1,000
,923
llodavanperfo
1,000
,933
Ha a kommunalits kisebb, mint 0,25, akkor a vltoz egyetlen faktorral sem korrell
kzepesen, mert 0,52 = 0,25. A kommunalits tbbszrs determincis egytthatknt
rtelmezhet.
162
A megmagyarzott variancia hnyada 3,861/4= 92%, gy a ngydimenzis trbl

kpzett egyetlen komponenssel csak 8%-t vesztjk el az eredeti informcibl.
(6.7. tblzat) A msodik komponens jval kevesebb informcit hordoz, mint egy
eredeti vltoz, mivel variancija (0,183) kisebb, mint egy. Ha ilyen ers az egyetlen
komponens, amit ellltunk, akkor ffaktornak is szoks nevezni az eredmnyt.
6.7. tblzat: A fkomponensek sajtrtkei s relatv fontossguk
Total Variance Explained
Extraction Sums of Squared
Initial Eigenvalues
Component
Total
Loadings
% of
Cumulative
Variance
3,681
92,036
92,036
,183
4,576
96,612
,098
2,448
99,060
,038
,940
100,000
Total
3,681
% of
Cumulative
Variance
92,036
92,036
Extraction Method: Principal Component Analysis.
A sajtrtkek monoton cskken sorozatt mutatja a 6.1. bra. Ha a msodik, s a

tovbbi komponensek cskkense nem elg hatrozott, akkor az SPSS-ben a
fkomponensek kvnt szmt belltva megismteljk a futtatst.
6.1. bra: A sajtrtkek sorozata
FAKTORELEMZS
163
Az rtelmezs szempontjbl a komponens mtrix (6.8. tblzat) az egyik

legfontosabb eredmny. Ez tartalmazza a vltozk s a fkomponens kztti
korrelcikat, azaz a C mtrix els oszlopt. Minden vltoz szorosan s pozitv
eljellel korrell a komponenssel. Ez azt jelenti, hogy a komponens alapjn a
laknpessgre vettett magasabb oda- s elvndorlsi adatokkal rendelkez
kerletek s agglomercis teleplsek magasabb koordintval rendelkeznek.
(Nehezebb lenne rtelmezni a ktplus, pozitv s negatv korrelcikat is
tartalmaz komponens jelentst.)
6.8. tblzat: A vltozk s a fkomponens kztti korrelcik
Component Matrixa
Component
1
Odavanperfo
,946
Elvanperfo
,965
llElvanperfo
,961
llodavanperfo
,966

a. 1 components extracted.
A PCA clja az, hogy az eredeti vltozk kztti korrelcikat jl megrz, de

kevesebb szm komponenst lltson el. Ezrt nemcsak a fkomponens(ek)
nagysgt figyeljk, hanem az R reproduklsnak mrtkt is. A 6.9. tblzat
ftljban a 6.6. tblzatban szerepl kommunalitsokat ltjuk, a ftln kvl
pedig a (6.11) szerint szmolt reproduklt korrelcik tallhatk. A 6.4. tblzatbeli
eredeti korrelcik s a 6.9. tblzat fels fele kztti eltrseket rezidulisknt adja
meg a 6.9. tblzat als rsze.
A rezidulisok kztt abszolt rtkben a legnagyobb a -0,070, amely arra utal,
hogy az odavndorls/f s az lland elvndorls/f kztt mrt (0,838) korrelcit
a fkomponens alapjn nmileg fellbecsljk (0,909). Ez az egyetlen korrelci,
ahol a becslsi hiba meghaladja a 0,05-t. (Ezt a b. jel megjegyzs is rgzti.)
164
6.9. tblzat: A korrelcik becslt rtkei s a hibatagok
Reproduced Correlations
Reproduced
Correlation
Residualb
Odavanp
Elvanp
erfo
erfo
llElvan llodavanp
perfo
erfo
Odavanperfo
,894
,912
,909
,914
Elvanperfo
,912
,931a
,927
,932
,928
llElvanperfo
,909
,927
,923
llodavanperfo
,914
,932
,928
,933a
-,035
-,070
,002
,013
-,048
Odavanperfo
Elvanperfo
-,035
llElvanperfo
-,070
,013
llodavanperfo
,002
-,048
-,021
-,021

a. Reproduced communalities
b. Residuals are computed between observed and reproduced correlations. There are 1 (16,0%)
nonredundant residuals with absolute values greater than 0.05.
A faktortrbeli brhoz ismernnk kell a telepls-score-okat. Ezeket a

fkomponens(ek)re, mint tengely(ek)re vonatkoz koordintkat a (6.16) szerint
szmolt sztenderdizlt regresszis egytthatkat (6.10. tblzat) hasznlva lltjuk
el. Ha egy-egy telepls ngy vltozra megfigyelt rtkeit behelyettestjk az els
oszlop alapjn felrhat regresszis egyenletbe, akkor megkapjuk az adott kerlet
vagy telepls koordintjt az els fkomponens terben.
6.10. tblzat: A fkomponens egytthatk regresszis becslse
Component Score Coefficient Matrix
Component
1
Odavanperfo
,257
Elvanperfo
,262
llElvanperfo
,261
llodavanperfo
,262

Component Scores.
FAKTORELEMZS
165
Mivel a fkomponens tlaga zrus, a pozitv koordintk nyitott teleplst

jeleznek, ahol oda- s elvndorls is jellemz, mg a negatv rtkek a laknpessg
arnyban zrtabb teleplsekhez tartoznak.
sszegezve a szmtsokat egy nagyon ers vndorlsi komponenst kaptunk, amely
az informci 92%-t megrzi. A fvrosi kerletek s a Budapest kzeli
teleplsek rszletes vndorlsi adatai helyett ez az egyetlen adatsor is hasznlhat a
tovbbiakban.
6.2. A faktorelemz mdszercsald tovbbi eljrsai

Ha az Analyze/Dimension Reduction/Factor ton elindulunk, az Extraction
rszben vlaszthatunk msik eljrst.
Eddig az alapvltozatot, a fkomponens elemzst (PCA) ismertk meg. Ekkor azt
ttelezzk fel, hogy a korrelcis mtrixot tkletesen reproduklni tudjuk az R=
AAT =CCT szorzattal, ha a vltozkkal megegyez szm fkomponenst lltunk
el, azaz Y=XA, ahol Y s X (nxp)-s mtrixok, A, s C pedig (pxp) mretek.
A tkletes reprodukci nem kizrlagos cl, s nem is mindig relis elvrs. Ha
csak nhny kzs faktort tteleznk fel, amelyekkel lerhatk a vltozk, akkor
ms eljrst vlasztunk.
Legkisebb ngyzetek mdszernek (LKNM) slyozatlan s slyozott vltozatt
hasznlhatjuk, ha a faktorok szma adott, s keressk azt a faktorstruktrt, amely
minimalizlja a megfigyelt s a reproduklt korrelcis mtrixok kzti p(p-1) eltrs
ngyzetsszegt. Csak a diagonlis elemeken kvli eltrseket mrjk. A slyozott
LKNM-ben a korrelcikat a vltozk egyedisgnek 103 reciprokval slyozzuk.
Maximum Likelihood (ML) faktoreljrst vlaszthatunk, ha a vltozk
tbbdimenzis normlis eloszlst kvetnek, s a megfigyelt korrelcis mtrix a
populci korrelcis mtrixnak legvalszerbb becslse. Itt is az egyedisg
reciprokval slyozunk, s itercival kapjuk a megoldst. Adott k faktorszm
mellett tesztelni kell az illeszkeds jsgt. A k-faktoros modell jsgt mr
statisztika (kplete: n ln R / R ) nagy minta esetben khi-ngyzet eloszlst kvet.

J az illeszkeds, ha a prbafggvny szignifikancia szintje magas. A 0,05 alatti
alacsony szignifikancia szint esetn (k+1) faktorra megismteljk a futtatst. A
faktorok szma nem haladhatja meg azt a legnagyobb egsz szmot, amire teljesl a
kvetkez egyenltlensg: k<1/2(2p+1-(8p+1)1/2
Principal-axis factoring (PAF): Ffaktor mdszer a fkomponens elemzshez
hasonl elvet kvet, de az indul korrelcis mtrix diagonlisaiban ll egyeseket a
becslt kommunalitsokkal cserli ki. Ezt a reduklt korrelcis mtrixot veti al
sajtrtk-sajtvektor felbontsnak. A kvnt szm faktor ellltsa utn becsli a
103
Egyedisg=1-kommunalits
166
faktormtrixban a loading slyokat, ebbl jrabecsli a kommunalitsokat, s az

iterci addig folytatdik, mg kt egymst kvet eredmny mr csak minimlisan
tr el. Ezen eljrs sorn tbb matematikai problma vetdik fel, melyeket a modell
ismertetse sorn trgyalunk.
6.2.1. A faktorelemzs modellje

A centrozott (tlagtl val eltrssel megadott) megfigyelsek mtrixa felrhat a
kzs faktorok lineris kombincija s az egyedi faktorok sszegeknt:
X=FLT+H, melyben
(6.17)
X mrete (nxp), ahol n a megfigyelsi egysgek s p a vltozk szma
F (nxk)-s, ahol k a kzs faktorok szma (k< p)
L (pxk)-s, a faktorslyok mtrixa (loading)
H (nxp)-s egyedi faktor, hibatag mtrix.
Feltevsek:
- A faktorok linerisan fggetlenek:

FTF/n=E, ahol E egy (kxk)-s egysgmtrix
(6.18)
T
A kzs faktor s a hibatag korrellatlan: F H=H F=0
(6.19)
A hibatagok fggetlenek, azaz variancia-kovariancia mtrixuk (pxp)-s

(6.20)
diagonlis mtrix: HTH/n=U2
A megfigyelt vltozk korrelcis mtrixt (6.17) alapjn felbontjuk, s a (6.18)(6.20) feltevseket felhasznlva a faktorelemzs alapegyenlett kapjuk:
R= XTX/n= 1/n(FLT+H)T( FLT+H) = LLT+ U2
(6.21)
Ha a korrelcis mtrix diagonlis elemeibl levonjuk a hibatagok varianciit, a

vltozknak a kzs faktorok ltal magyarzott rszt, a kommunalitsokat kapjuk.
Az U2 ismeretben az R-U2 reduklt korrelcis mtrix sajtrtk-sajtvektor
felbontst kell elvgezni:
Rred = LLT
(6.22)
A hibatagok variancija (U ftlja) ltalban nem ismert, rtkt a tbbszrs

korrelcis egytthat komplementereknt becsljk, vagy a kommunalitsbl
2
szmoljuk:
ui2 = 1 hi2
(6.23)
Mivel ltalban a kommunalitsokat sem ismerjk, alaprtelmezs szerint a

tbbszrs korrelcis egytthat ngyzete adja a kommunalits becslst.
Hasznlhat a PCA futtatsval kapott kommunalits is, vagy a korrelcis
mtrixban szerepl maximlis pronknti korrelcis egytthat abszolt rtke.
A (6.22)-ben felrt reduklt korrelcis mtrix sajtrtk-sajtvektor felbontsakor:
FAKTORELEMZS
167
Rred =LLT=VVT
(6.24)
rhat fel, melyben a V a sajtvektorok mtrixa, pedig a sajtrtkek diagonlis

mtrixa, s gy L=V1/2 ll fenn.
A faktorok forgatsa (rotcija)
Legyen T az ortogonlis transzformci mtrixa, melyre TTT=TTT =E.
Az L faktorsly mtrixot brmelyik eljrssal (PCA, PAF, ML,) lltottuk el, a
rotls hatsra: L*=LT lesz. De Rred=LLT= LTTTLT =L*L*T fennll, azaz a
reduklt korrelcis mtrix s ftljban a kommunalitsok vltozatlanok
maradnak.
Ktdimenzis trben az ra jrsval egyez forgatst eredmnyez az albbi
transzformcis mtrix:
cos
T =
sin
sin
cos
A fkomponens elemzstl eltren a faktorelemzsnek nem mindig van megfelel

megoldsa, mert a reduklt korrelcis mtrix nem pozitv definit.
Csak a pozitv definit mtrixra teljesl az, hogy minden sajtrtk nemnegatv. Ezrt a faktorelemzsben a sajtrtkek kztt negatvok is
lehetnek, ezek pedig nem megfelel megoldsok, mert a sajtrtkek a
faktorok varianciit fejezik ki, amelyek biztosan nem-negatv rtkek.
Tovbbi problmt okoz az, hogy ha vannak negatv sajtrtkek is, akkor
az els nhny nagy pozitv sajtrtk sszege nagyobb lehet, mint a
reduklt mtrix nyoma, azaz a diagonlis elemek sszege. Ilyen esetben
gy tnhet, hogy a dimenzicskkents utn megrztt informci
meghaladja a 100%-ot.
Problmt okozhat az is, ha a (6.21) alapegyenlet megoldsa sorn kapott
eredmny nem teljesti a vltoz s a faktor kzti kapcsolat szorossgt
mr korrelcis egytthatkkal szembeni elvrsokat, s/vagy a hibatag
variancijra negatv rtk addik.
Az emltett problmk elfordulst kis mintapldn mutatjuk be.
Hrom vltoznk korrelcis mtrixa legyen a kvetkez:
0.9
0.7
R= 0.9
0.4
0.7
0.4
1
s k=1 faktort tteleznk fel, azaz az F mtrix (nx1)-s vektor, az L pedig 3

elem vektor.
168
A megfigyelsek (nx3)-s mret X mtrixa teht oszloponknt gy rhat fel:
Xi1 = l1 Fi + hi1 , ahol i=1,,n
Xi2 = l2 Fi + hi2
Xi3 = l3 Fi + hi3
A loadingok s a hibatagok a (6.21) alapegyenlet rtelmben egyenlk a
korrelcis mtrix elemeivel az albbiak szerint:
1 = l12 + u12
0,9 = l1l 2
1= l +u
2
2
0,7 = l1l 3
2
0,4 = l 2 l 3
1 = l 32 + u 2 3
Ha a 0,7 s 0,4 korrelcis egytthatkra felrt egyenleteket elosztjuk

egymssal, akkor l3 kiesik, s pldul l2 kifejezhet: l 2 = 4 / 7l1
Ezt behelyettestve
0,9 = l1l 2 = 4 / 7l12 s innen l12 = 1,575

Gykvons utn
l1 = 1,255
Egyik rtk sem megfelel, mivel l1 az (egysgnyi szrs) vltoz s a (szintn

egysgnyi szrs) faktor kztti korrelcit mri, s a korrelci maximuma 1.
A ftlban pedig az els hibatag szrsngyzetre negatv szm (1-1,575 = 0,575) addik, s ez sem megfelel rtk. Ltezik teht megolds, de a kapott
eredmny nem fogadhat el. Vals mret feladatok esetben halmozottan
jelentkezhetnek a problmk, ezrt csak stabil, jl felptett modell birtokban
javasolhat a ffaktorok ellltsa.
6.2.2. A PAF eredmnyek bemutatsa s rtelmezse

Az orszgok politikai, gazdasgi s pnzgyi kockzatt tbb szakrt klnbz
mdon s eltr gyakorisggal mri, de felttelezhetjk, hogy ltezik a httrben egy
kzs orszg-kockzat faktor, s a publiklt kockzati mrtkek ennek a hatst
tkrzik. Ezt az elmleti megfontolst szem eltt tartva vgznk ffaktor elemzst a
Vilgbank ltal kzztett hrom kockzati mrszmra. Mindhrom kockzati
mrtk 0 s 100 kztt mr, a nagyobb rtk jelenti a kisebb kockzatot.
Az Investmentclimate.sav adatok hrom vltozjra Dimension Reduction/
Extraction/ Principal axis factoring vlasztssal faktort lltunk el. A tbbi bellts
a PCA futtatssal megegyezik, egy faktor esetben rotls nem vgezhet.
FAKTORELEMZS
169
A ler statisztikk (6.11. tblzat) szerint a sok tnyezbl slyozottan ksztett

(kompozit) mutat tlaga magasabb, szrsa kisebb, mint a nemzetkzi bankok s a
gazdasgi elemzk szakrti vlemnyt tkrz kt mrszm.
6.11. tblzat: tlagok s szrsok
Std.
Deviation
Analysis N
74,365
11,355
31
64,610
26,538
31
68,597
24,109
31
Mean
Composite ICRG risk
rating
Institutional Investor credit
rating
Country credit worthiness
rating (Euromoney)
A mutatk kztt nagyon szoros, 0,9 feletti a pronknti korrelci, ezrt

megalapozottnak tnik felttelezsnk, hogy kzs faktor ltezik. (6.12. tblzat)
6.12. tblzat: Korrelcis mtrix
Correlation Matrixa
Correlation
Sig. (1-tailed)
Composite ICRG risk

rating
rating
rating (Euromoney)
Composite ICRG risk
rating
rating
rating (Euromoney)
Composite
ICRG risk
rating
Institutional
Investor
credit rating
Country credit
worthiness
rating
(Euromoney)
1,000
,921
,925
,921
1,000
,992
,925
,992
1,000
,000
,000
,000
,000
,000
,000
a. Determinant = 2,398E-03
A tesztek (6.13. tblzat) is azt bizonytjk, hogy adataink alkalmasak ltens vltoz
ellltsra. Ez a rsz megegyezik a PCA s a PAF eljrsoknl.
170
6.13. tblzat: Alkalmassgi tesztek
KMO and Bartlett's Test
Kaiser-Meyer-Olkin Measure of Sampling
Adequacy.
Bartlett's Test of
Sphericity
,739
Approx. Chi-Square
df
Sig.
169,936
3
,000
A kzs faktor ltal magyarzott variancia hnyadt mutat kommunalitsok (6.14.

tblzat) els oszlopa a PCA eredmnyt mutatja, msodik oszlopa pedig a
ffaktorhoz tartoz kommunalitst.
6.14. tblzat: PCA s PAF kommunalitsok
Communalities
Initial
Composite ICRG risk
rating
rating
rating (Euromoney)
Extraction
,856
,860
,983
,988
,984
,994
Extraction Method: Principal Axis Factoring.
A 6.15. tblzat alapjn a reduklt korrelcis mtrix sajtrtke s relatv

fontossga (2,842 s 94,7%) valamivel kisebb, mint az eredeti korrelcis mtrix
dekompozcijbl kapott sajtrtk ( 2,892).
6.15. tblzat: PCA s PAF sajtrtkek
Factor
1
2
3
Initial Eigenvalues
% of
Cumulativ
Total
Variance
e%
2,892
96,403
96,403
9,959E-02
3,320
99,723
8,325E-03
,277
100,000
Extraction Sums of Squared

Loadings
% of
Cumulativ
Total
Variance
e%
2,842
94,734
94,734
Extraction M ethod: Principal Axis Factoring.
A PCA komponens mtrixa (C) helyett itt L faktormtrixot (6.16. tblzat) ad az

eljrs, amelybl lthat, hogy a ffaktor s mindhrom vltoz kztt nagyon
szoros pozitv korrelci van.
FAKTORELEMZS
171
6.16. tblzat: Ffaktor slyok
F ac to r M atra
ix
F ac tor
1
C om p os ite I CR G ris k
rati ng
Ins tit utio nal Inv esto r cre d
rati ng
C oun try c redi t w orthi nes
rati ng (E u rom o ney )
,92 7
,99 4
,99 7
E xt racti on M eth od: Pri nc ipal A xi s F a cto

a. 1 f acto rs e xtra cted . 4 i terat ions req
A faktor score-ok regresszis becslsben (6.17/a. s 6.17/ b. tblzat) viszont

jelentsen eltrnek az egytthatk, br mindkt szmts a sztenderdizlt regresszis
egytthat (bta) rtkeket adja.
6.17./a tblzat: PAF eljrssal szmolt sztenderdizlt regresszis egytthatk
F actor Scor e Coefficient Matrix
F actor
1
Com posite ICRG ri sk
rating
rating
Country credit worthi ness
rating (Eurom oney)
,026
,308
,668
Extraction M ethod: Principal A xis Factor
6.17./b tblzat: PCA eljrssal szmolt sztenderdizlt regresszis egytthatk

Component Score Coefficient Matrix
Compone
nt
1
Composite ICRG risk
rating
rating
rating (Euromoney)
,334
,342
,342
172
Az eredeti korrelcik ellltsa a ffaktorral nagyon jl sikerlt, a ftln kvli

rezidulisok zrusnak tekinthetk a 6.18. tblzat alapjn. Meggyzdtnk teht
arrl, hogy egy ffaktort felttelez modellnk jl illeszkedik a mrt vltozkhoz,
teht a kockzati faktor alkalmas arra, hogy az orszgokat kockzat szerint
rangsoroljuk, csoportostsuk.
Felvetdik azonban a krds, hogy mennyire ms a PAF s a PCA eredmnye?
Mivel a vltozk kztti korrelcik nagyon szorosak voltak, s a 6.14. valamint a
6.6. tblzat alapjn a kt eljrs eredmnyei nem trnek el jelentsen, nem
meglep, hogy a PCA s a PAF koordintk kztti determincis egytthat
0,9861. A koordintk egyezst a 6.2. bra mutatja. Tkletes egybeesst a 45o
egyenes pontjai mutatnak. Nagyobb eltrst csak Trkorszg score-jai kztt
tallunk, mivel a PAF (-0,69) jelentsen fellbecsli a fkomponens (-1,01)
koordintt.
FAKTORELEMZS
173
6.18. tblzat: Az eredeti korrelcik ellltsa a ffaktorral

Reproduced Correlations
Composite
ICRG risk
rating
Reproduced Correlation
Residuala
Composite ICRG risk

rating
rating
rating (Euromoney)
Composite ICRG risk
rating
rating
rating (Euromoney)
Institution
al Investor
credit
rating
Country
credit
worthines
s rating
(Euromon
ey)
,922
,925
,860
,922
,988
,991
,925
,991
,994
,000
,000
,000
,000
,000
,000
Extraction M ethod: Principal Axis Factoring.

a. Residuals are computed between observed and reproduced correlations. There are 0
(,0%) nonredundant residuals with absolute values > 0.05.
b. Reproduced communalities
1,5
1,0
,5
PAFrisk
0,0
-,5
-1,0
-1,5
-2,0
-2,5
-2,5
-2,0
-1,5
-1,0
-,5
0,0
,5
1,0
1,5
PCArisk
6.2. bra: PCA s PAF koordintk pontdiagramja
174
6.3. A faktorelemzs tovbbi kihvsai

Nem clunk a tisztelt olvas megtvesztse. Nem kapunk mindig egyetlen s fleg
jl rtelmezhet faktort/fkomponenst a futtats vgn. Most a gyakorlatban
elfordul nehzsgekre is mutatunk pldt gy, hogy a fejezet elejn feltett
krdsre keressk a vlaszt, azaz a teleplsek letminsgt mrjk.
6.3.1. Abszolt s relatv mutatk elemzse

A Kerletek2010.sav adatllomnyban a tnyleges vndorlsi adatok, mint abszolt
szmok mellett a laknpessgre vettett relatv mutatk is szerepelnek. Melyiket
rdemes az elemzsbe bevonni? Ezen szakmai krds mell tovbbi statisztikai
rszkrdsek is feltehetk:
a) Melyik vltozkrre kapunk jobban illeszked faktormodellt?
b) Mely rszeredmnyek vltoznak, ha egyik vagy msik vltozcsoportot vonjuk
be?
c) Egy kzs modellben elemezzk a vltozkat, vagy kt faktor-futtatst
ksztsnk?
Ksztsk el s ellenrizzk eredmnyeinket ngy vltozatban: csak az abszolt
(A10) vltozkra, az abszolt mellett relatv (AR10) mutatk felhasznlsval,
valamint kln vltozkrre (K6, K4) futtats esetn. A vltozk listja a 6.19.
tblzatban szerepel.
A tovbbiakban csak nhny rszeredmnyt emelnk ki. rdemes a ngy vltozatot
nllan elkszteni s tanulmnyozni.
6.19. tblzat: A vltozk szerepe a ngy klnbz modellben
Vltozk s modellek
A modell illeszkedse, fbb kvetkeztetsek
(A10) n=50 s p=10
KMO mrtk: 0,850
Npessgszm
Legkisebb kommunalits: ptett laksok (0,587)
Odavndorls
Egy feletti sajtrtk s %: 8,454 (84,54%)
Elvndorls
Az 1. komponens tartalma: eleve nagy mret s

vndorlsban is kiemelked telepls
llandodavndorls
llandelvndorls
nkormnyzatibev
Vendglthely
Laksllomny
ptettlaksok
llskeresk
A 2. komponens: nincs
sszestett minsts: jl rtelmezhet modell
FAKTORELEMZS
(AR10) n=50 s p=10
175
KMO mrtk: 0,828
Npessgszm
nkormnyzatibev
Egy feletti sajtrtk s %: 6,8 (68%) s 2,045

(20,45%)
Vendglthely
Laksllomny
ptettlaksok
llskeresk
Az 1. komponens tartalma: mret s letfelttelek

A 2. komponens tartalma: vndorls
sszestett minsts: rotls utn jl rtelmezhet
modell (ezt rszletesen is bemutatjuk az 5.3.2.-ben)
Odavanperfo
Elvanperfo
llElvanperfo
llodavanperfo
(K6) n=50 s p=6
KMO mrtk: 0,822
Npessgszm
nkormnyzatibev
Egy feletti sajtrtk s %: 4,965 (82,75%)
Vendglthely
Az 1. komponens tartalma: mret s letfelttelek
Laksllomny
ptettlaksok
llskeresk
(K4) n=50 s p=4
KMO mrtk:0,746
Odavanperfo
Legkisebb kommunalits: odavndorls/f (0,894)
Elvanperfo
Egy feletti sajtrtk s %: 3,681 (92%)
llElvanperfo
Az 1. komponens tartalma: vndorls
llodavanperfo
Vajon mirt van az, hogy hromszor egy faktoros, s egyszer kt faktoros eredmny
addott? Mibl ered ez a klnbsg?
Ismt a mrethatsra emlkeztetnk. A mutatk tbbsge egymssal egyttmozog,
ers a multikollinearits, ezrt az (A10) modell KMO-ja a legmagasabb. Ha az egyik
mutat nagyobb rtket r el, akkor a msik is magasabb. De a msodik modellben,
az (AR10)-ben relatv mutatk is szerepelnek, s ezek klnlnek el a tbbi
vltoztl. Ez azzal magyarzhat, hogy a ltszmhoz viszonytott vndorls
msknt alakulhat, mint a vndorls nmagban.
176
Hasonlt lehet tapasztalni vllalati adatok elemzse esetn is. Ms lesz a

komponensek tartalma s rtelme, ha az rbevtel, az eredmny, stb. mutatkat
sszesen rtkben hasznljuk, vagy ezeket egy fre vettjk.
6.3.2. Ktdimenzis megolds rtelmezse, brzolsa

Az elemzsek sorn az a gyakoribb, hogy nem sikerl egyetlen faktorba tmrteni
az sszes vltozt, hanem tbb, egynl nagyobb sajtrtk addik. Ez nem von le
semmit az eredmnyek erejbl, st lehetsget teremt kt vagy hromdimenzis
brk ksztsre, a megfigyelsek szerkezetnek feltrsra.
A PCA/PAF futtatsok els nhny tblzata (ler statisztika, korrelci, KMO,
Bartlett teszt, anti-image korrelcik, kommunalitsok) nem tr el az eddig
bemutatott output tblktl, ezrt ezeket itt nem kzljk. Csak az jabb
eredmnyek rtkel bemutatsra treksznk. Kt tengelyre mr rotls is krhet,
s ez a 6.20. tblzatban lthat jabb eredmnyeket ad.
6.20. tblzat: Eredeti sajtrtkek s rotlt megolds
Component
1
2
3
4
5
6
7
8
9
10
Total
6,800
2,045
,391
,313
,140
,101
,092
,079
,029
,010
Initial Eigenvalues
% of
Cumulative
Variance
%
67,999
67,999
20,453
88,452
3,915
92,367
3,126
95,492
1,401
96,894
1,009
97,902
,918
98,820
,788
99,608
,295
99,903
,097
100,000
Rotation Sums of Squared Loadings

% of
Cumulative
Total
Variance
%
4,774
47,738
47,738
4,071
40,714
88,452
A 10 vltozbl kinyert 88%-nyi sszes informci nem nhet meg a rotls sorn,
de a tengelyek kztti sztoszts 68+20 szzalkrl indulva 48+40%-ra, azaz
jelentsen megvltozik. (Kivteles esetekben a msodik komponens sajtrtke
rotls utn meghaladhatja az elst!)
A rotls a faktorok rtelmezsben, a vltozk tengelyekhez rendelsben, a tiszta
struktra kialaktsban segt. A komponens mtrix C rotls eltti (6.21. tblzat)
s utni (6.23. tblzat) elemeit, valamint a kt brt (6.3/a. s 6.3/b.) is bemutatjuk,
hogy e mvelet hatst rzkeltetni tudjuk.
Az els pillantsra rtelmezhetetlen komponens mtrixot ltunk a 6.21 tblzatban.
Szinte minden vltoz kzepes vagy ers korrelcit mutat mindkt faktorral, az
ptett laksok s az odavndorls/f mutatk kzel azonosan korrellnak mindkt
tengellyel, teht mintha kzpen, a 45 s a 135 fokos egyenes mentn lennnek. (Ezt
megersti a 6.3/a. bra)
FAKTORELEMZS
177
6.21. tblzat: Eredeti komponens mtrix
Component Matrixa
Component
1
Npessgszm
,916
,307
nkormnyzatibev
,896
,269
Vendglthely
,830
,306
Laksllomny
,921
,327
ptettlaksok
,558
,666
llskeresk
,883
,251
Odavanperfo
-,689
,683
Elvanperfo
-,834
,479
llElvanperfo
-,833
,455
llodavanperfo
-,815
,519

a. 2 components extracted.
6.3/a. bra: 10 vltoz lekpezse kt dimenziba
178
6.22. tblzat: A forgats mrtke
Component Transformation Matrix
Component
,758
-,653
,653
,758

Rotation Method: Varimax with Kaiser Normalization.
A variancia maximlizl rotci (6.22. tblzat) megtallja azt a 40 fok 104 kzeli
szget, amivel a kis slyok mg kisebbek, a nagyok pedig mg nagyobbak lesznek,
s kialakul egy rtelmezhetbb struktra a 6.21/b tblzatban s a 6.3/b. brn.
6.23. tblzat: Rotlt komponens mtrix
Rotated Component Matrixa
Component
1
104
Npessgszm
,895
-,365
nkormnyzatibev
,854
-,381
Vendglthely
,829
-,310
Laksllomny
,911
-,354
ptettlaksok
,858
,140
llskeresk
,833
-,386
Odavanperfo
-,076
,967
Elvanperfo
-,320
,907
llElvanperfo
-,334
,888
llodavanperfo
-,278
,925
Mivel cos=0,758, a szg 40-41 fok kztt van.
FAKTORELEMZS
179
6.3/b. bra: 10 vltoz lekpezse rotlt tengelyekre

A vltozk elhelyezkedse alapjn a sknegyedeket is jellemezni tudjuk a 6.4. brn,
ahol a teleplsek szerkezete lthat. Emlkezznk r, hogy 10 vltozbl
kiindulva, 88%-os informcisrts utn kaptuk a ktdimenzis vetletet!
6.4. bra: 50 telepls 2 dimenzis faktortrben
180
Az els tengely sztvlasztja a fvrost (tlag felettiek) s az agglomercit (tlag

alattiak). Ez felveti azt a krdst, hogy a kt almintra vajon kln elemzst kell-e
vgezni? A vlaszt az alfejezet vgn adjuk meg.
Az els sknegyedben csak fvrosi kerletek vannak, ezek az tlagnl nagyobb
mretek (ltszm, laks) s jobb letfelttelt jelentenek, hisz tbb a vendgl s
magasabb az nkormnyzati bevtel. Ezek vndorlsi mutatk szerint is vonz
clpontok. Balra fent a XI. s XIII. kerletet ltjuk. (A III., IX. s XIV. kerletek
tallhatk mg itt.)
Alattuk, a negyedik sknegyedben vannak Budapest tovbbi kerletei. Ezek kisebb
mretek, s nem jellemz rjuk nagy vndorls. Legalul van az I. s a XXIII.
kerlet.
A msodik sknegyedben a kisebb, de vonz clpontok kztt Budajen s Disd,
mellettk vannak tlag kzeli mrettel s jelents vndorlssal: rd, Budars s
Dunakeszi.
Az orighoz legkzelebbi pontunk, amely mindkt faktor szerint tlagos rtk:
Vc.
A harmadik sknegyed a kisebb s zrtabb teleplseket, falvakat foglalja magban.
Ide tartoz pontknt Szob emlthet.
Kzs modell teht a megolds vagy a kt vltozhalmaz kln srtst clszer
megprblni? Ezzel vlaszolunk az 6.3.1. b) s c) krdsekre is.
Elszr tekintsnk r ismt a 6.3/a s a 6.3/b brkra. A rotlssal nem sikerlt
teljesen tiszta struktrt kapni, hiszen a 6.23. tblzat komponens mtrixban mg
tbb kzepes korrelci lthat. Nem teljesl az az elvrs, hogy egy-egy vltoz
csak egy komponenssel korrell.
Ha kt szmtssorozatot vgznk, s a 6.3.1-ben vzolt (K6) valamint (K4)
elemzseket egymstl elhatrolva vgezzk el, akkor az ellltott fkomponensek
merlegessge nem lesz elvrt. A K6=mret s a K4=vndorls faktorok kztti
korrelci -0,552 lesz, teht valban nem merlegesek egymsra. A 6.5. bra
mutatja a kln becslt score-ok terben a megfigyelt kerleteket s teleplseket.
Hrom fontos megjegyzst rdemes tgondolni:
-
A fvrosi kerletek rtkei pozitv korrelcit mutatnak: a nagyobb

mret kerletekben nagyobb vndorlst jeleznek az adatok. (Rngyzet=0,420)
Az agglomerciban viszont nem korrell a kt komponens egymssal. (Rngyzet=0,002)
Az 50 megfigyelsre teht gy addik negatv korrelci, hogy a kt

almintban pozitv korrelci, valamint korrellatlansg tapasztalhat.
FAKTORELEMZS
6.5. bra: 50 telepls 2 kln becslt faktor terben
181
182
Ha ilyen eredmnyeket tapasztalunk, akkor nem rdemes erltetni az sszes vltoz

egy modellben val srtst. St azt is meg kell fontolni, hogy a kt almintra
jellemz komponenseket kln lltsuk el.
Amikor arrl dntnk, hogy a teljes mintra vagy kln fvrosra s kln
agglomercira kszljn a modell, akkor jabb korltba tkzhetnk. Az almintk
hasznlata kisebb elemszmokat eredmnyez. Ha 23 s 27 a megfigyelsek szma,
akkor az n>5p hvelykujj szably miatt csak 4-5 vltoz egyidej hasznlata
clszer.
A szmtsok kt ton vgezhetk el:
1) Elre leszrjk az adatokat a SELECT menpontban, s csak az egyik felt
hasznljuk. Ilyenkor csak a vizsglt almintra kapjuk meg a faktor-score-okat.
2) A faktor-futtatson bell hasznljuk szelekcis vltoznak a kerlet nev
dummy vltozt, ami a kerletekre=1, klnben=0. gy a teljes adatllomnyra
elkszl a faktor-score-ok becslse. Vgl a kt futtats eredmnye numerikusan s
grafikusan vethet ssze.
6.4. Idsorok faktorelemzse

Az t tzsdeindex elemzst mr az 1. fejezetben megkezdtk, most folytatjuk. Nem
a valsgtl elrugaszkodott az a felttelezs, hogy ezek viselkedse az idben
egyttmozog, mg akkor is, ha nem tudjuk, hogy melyik okozza a msik vltozst.
Inkbb az a jogos feltevs, hogy a htterben egy meg nem figyelhet faktor
nevezhetjk vilg-kockzatnak, tzsdei bizonytalansgnak hzdik meg. Ennek a
ltens tnyeznek a feltrsa elvgezhet faktorelemzssel. A fejezetben ismertetett
lpsek a kznsges, s nem a dinamikus faktorelemzst 105 kvetik.
6.4.1. Differencik faktorelemzse

Az Indexek.sav adatllomnyban a tzsdeindexekbl kpzett differencik mr
stacionris viselkedsek, ezrt alkalmasak lehetnek fkomponens(ek) ellltsra.
Ugyanakkor a differencik relatv szrsa tl magas, a lineris korrelcik (6.24.
tblzat) pedig nem elg szorosak, ami megkrdjelezi a homogn adatllomny
mgtt meghzd kzs faktor feltevsnk teljeslst. rdemes szrevenni, hogy
New York differencia-adatai kevsb korrellnak a tbbi tzsdvel. Ebbl szmtani
lehet arra, hogy gyengbb lesz az informci-srts.
105
A dinamikus faktorelemzs eljrst Bnkvi Gyrgy Veliczky Jzsef Ziermann Margit

dolgoztk ki 40 vvel ezeltt, s mutattk be szmos rsukban. Szmtgpes vltozata nem
rsze a statisztikai programcsomagoknak.
FAKTORELEMZS
183
6.24. tblzat: Korrelcis egytthatk
Correlation Matrixa
Correlation
Sig. (1-tailed)
DBUX
DUKX
DDJI
DDAX
DNKY
DBUX
DUKX
DDJI
DDAX
DNKY
DBUX
1,000
,486
,280
,468
,282
,000
,000
,000
,000
DUKX
,486
1,000
,477
,796
,284
,000
,000
,000
,000
DDJI
,280
,477
1,000
,542
,102
,000
,000
,000
,000
DDAX
,468
,796
,542
1,000
,270
,000
,000
,000
DNKY
,282
,284
,102
,270
1,000
,000
,000
,000
,000
,000
A KMO mutat rtke az outputban:0,751, ami kzepes modellt jelez, de a DNKY

(New Yorki tzsde) kommunalitsa a 6.25. tblzat szerint nagyon alacsony, a
vltoz elhagysa megfontoland. A gyenge korrelci s az alacsony kommunalits
a nem lineris kapcsolatbl addhat. Ha jelentsge miatt nem az elhagys mellett
dntnk, akkor a msodik faktort rdemes ellltani, amiben klnvlik New York,
hiszen a 6.26. tblzat sajtrtkei kzl a msodik nagyon kzel van egyhez, s
kzel 19 szzalkkal emeli az sszesen megrztt informcit.
6.25. tblzat: A differencia-vltozkbl megrztt informci
DBUX
DUKX
DDJI
DDAX
DNKY
Communalities
Initial
Extraction
1,000
,470
1,000
,776
1,000
,454
1,000
,794
1,000
,198
Extraction Method: Principal Component

Analysis.
184
6.26. tblzat: 5 indexbl 1 vagy 2 komponens kpezhet
Initial Eigenvalues
Component
Total
Extraction Sums of Squared Loadings
% of
Cumulative
Variance
2,691
53,830
53,830
,944
18,881
72,711
,651
13,029
85,740
,514
10,280
96,020
,199
3,980
100,000
Total
2,691
% of
Cumulative
Variance
53,830
53,830
6.4.2. Tzsdehnyadosok faktorelemzse

Az Indexek.sav adatllomnyban a tzsdeindexekbl kpzett hnyadosak is
szerepelnek, ezek is stacionrius viselkedsek, ezrt alkalmasak lehetnek
fkomponens(ek) ellltsra.
A hnyadosok (rtk) relatv szrsai nagyon kicsik, mind az t 0,1 alatti (6.27.
tblzat), a lineris korrelcik (6.28. tblzat) pedig kicsit vltoztak: nhol nttek,
nhol cskkentek. A KMO=0,754 hajsznyit javult, s ha kt komponenst krnk
(6.29. tblzat), akkor minden kommunalits megfelel (6.30. tblzat)
6.27. tblzat: A relatv szrsok ellenrzse
Mean
Std. Deviation
Analysis N
RBUX
1,0006
,01703
2753
RUKX
1,0000
,01330
2753
RDJI
1,0001
,01299
2753
RDAX
1,0002
,01669
2753
RNKY
1,0000
,01594
2753
FAKTORELEMZS
185
6.28. tblzat: A tzsdehnyadosok kztti korrelcik

Correlation Matrixa
Correlation
Sig. (1-tailed)
RBUX
1,000
,506
,299
,468
,301
RBUX
RUKX
RDJI
RDAX
RNKY
RBUX
RUKX
RDJI
RDAX
RNKY
RUKX
,506
1,000
,488
,790
,295
,000
,000
,000
,000
,000
RDJI
,299
,488
1,000
,573
,119
,000
,000
,000
,000
,000
,000
,000
RDAX
,468
,790
,573
1,000
,260
,000
,000
,000
RNKY
,301
,295
,119
,260
1,000
,000
,000
,000
,000
,000
a. Determinant = ,161
6.29. tblzat: A msodik komponens ellltsa megfontoland
1
2
3
4
5
Initial Eigenvalues
Original and Rotation Sums of Squared
% of
Cumulative
% of
% of
Cumulative
Total Variance
%
Total Variance Total Variance
%
2,732
54,639
54,639 2,732
54,639 2,358
47,156
47,156
,939
18,790
18,790 1,314
26,272
73,429 ,939
73,429
,634
12,680
86,109
,494
9,882
95,991
,200
4,009
100,000
6.30. tblzat: Kt komponens mellett a kommunalitsok megfelelek
RBUX
RUKX
RDJI
RDAX
Communalities
Initial
Extraction
1,000
,545
1,000
,782
1,000
,672
1,000
,821
1,000
,851
RNKY
Extraction Method: Principal
Component Analysis.
A kt komponens tartalmt a rotls utn a 6.31. tblzatban s a 6.6. brn

megvizsglva szrevehetjk a budapesti tzsde pp kzpen van, egyrszt
186
egyttmozog az angol-nmet-japn tzsdkkel az 1. komponens pozitv korrelcii

alapjn, msrszt ersebben egyttmozog az amerikai adatokkal, mint brmelyik
msik nagy tzsde.
6.31. tblzat: Rotlt tzsdehnyados komponensek
RBUX
RUKX
RDJI
RDAX
RNKY
Rotated Component Matrixa

Component
1
,506
,820
,817
,872
,034
2
,538
,331
-,073
,244
,922

Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
6.6. bra: Tzsdeindex hnyadosok faktortrben

Utols megfontolsknt gondoljuk t a kzs faktor feltevst s a PAF
faktorbellts alkalmazst. A kt faktor ltal megrztt sszes informci 53%-ra
esik vissza, mg a PCA 73,4%-ot jelzett a 6.27. tblzatban.
Mivel a kezdeti kommunalitsok (6.32. tblzat) az alacsony eredeti korrelcik
miatt kicsik, sszessgben is gyenge eredmnyeket kapunk.
FAKTORELEMZS
187
6.32. tblzat: A faktormodell kommunalitsai
RBUX
RUKX
RDJI
RDAX
RNKY
Communalities
Initial
Extraction
,293
,412
,654
,737
,334
,378
,675
,877
,121
,252
Extraction Method: Principal Axis

Factoring.
A New Yorki tzsde rta elhagysa az elemzsbl statisztikailag hatrozottan

javasolhat, de emellett a nmet s a magyar kommunalits is alacsony. A
rtavltozk mgtt a vizsglt 11 vben nem hzdott meg 1-2 kzs faktor.
7. Diszkriminancia elemzs
7.1. A diszkriminanciaelemz eljrs alapgondolata
Megfigyelseink sok esetben nem homognek, s mr elzetesen csoportokba
sorolva llnak rendelkezsnkre a vltozk mentn mrt rtkek. A csoportosts
szempontjai lehetnek a jvedelmi viszonyok vagy a fizetkpessg ppgy, mint az
iskolai vgzettsg, fldrajzi, terleti elv vagy ms szakmai megfontolsok.
Statisztikai megfontolsokbl a mintn belli eltrsek cskkentse rdekben
statisztika eljrsok alkalmazsval (pl. klaszterelemzssel) is csoportosthatjuk az
egyedeket.
Most azt vizsgljuk, hogy melyik vltoz milyen szerepet jtszik az adott, ismert
csoportostsban. Clunk az, hogy a megfigyelt p szm vltoz olyan lineris
kombinciit lltsuk el, amelyek a lehet legjobban elklntik a g szm
osztlyba tagolt mintt. Ha ez(ek) a diszkriminl fggvny(ek) nem kpes(ek) az
elre megadott feloszts teljes reproduklsra, akkor az eljrs megadja a
fggvny(ek) alapjn javasolt csoportostst.
7.2. A diszkriminancia elemzs alkalmazsnak felttelei

A lineris dntsi fggvnyt kt elfeltevs mellett keressk:
1.
a vltozk tbbvltozs normlis eloszlst kvetnek, s
2.
minden csoportnak azonos a kovariancia mtrixa.

Mivel a szmtsi lpsek sorba tbbvltozs normalitsi teszt 106 nincs
beptve, e felttel teljeslsrl csak hozzvetlegesen gyzdhetnk meg. A
vltozkra kln-kln grafikus vagy numerikus normalitsvizsglatot vgezve
feltrhatjuk azokat a vltozkat, amelyek eloszlsa ersen eltr a normlistl.
Ha vltoz-transzformcival sem tudjuk biztostani a normlis eloszlst, akkor
biztosan el kell vetnnk az egyttes normlis eloszls feltevst. E mgtt az a
valsznsgszmtsi ttel hzdik meg, hogy a tbbvltozs normlis eloszls
peremeloszlsai biztosan normlis eloszlst kvetnek, de a ttel nem
megfordthat.
A csoport kovariancikat a Box-fle M s ennek F-eloszls transzformltja teszteli.

Ez a teszt rzkeny a normalitstl val eltrsre, ezrt egyenltlennek tlhetnk
kicsit eltr kovariancia mtrixokat akkor, ha a normalitsi feltevs nem helytll.
Mivel az M kiszmtsban a kovariancik eltrst a csoportok mretvel
106
Az SPSS-ben nem szerepel olyan statisztikai prba, amellyel a tbbvltozs normalits

tesztelhet.
190
slyozzuk, kis eltrsek is szignifiknsnak tnnek, ha nagy a csoport mrete 107. Kis
mret csoportokra a lineris diszkriminl fggvny alkalmazhat akkor is, ha a
kovariancia mtrixok kiss eltrek. Ha a kovariancia mtrixok nem egyenlk de a
minta elg nagy akkor kvadratikus diszkriminancia fggvny alkalmazsa
ajnlhat. Ilyen vlasztst az SPSS nem tesz lehetv.
Ha csak kt osztlyunk van, azaz dichotom vltozval rhat le a csoportosts,
akkor a logisztikus regresszi alkalmazsa clravezet. E mdszernl ugyanis
kevesebb elfeltevst kell figyelembe vennnk. Ezt a mdszert az 5. fejezet
ismerteti.
Vegyes mrsi sklj adatok elemzsre szmos nemparametrikus mdszer ll
rendelkezsre, ilyenkor nem clszer diszkriminancia elemzst vgezni. Problmt
okoz az, hogy diszkrt vltozkra normlis eloszlst tteleznk fel, vagy az, hogy
ordinlis skln mrt vltozkra kovariancia nem szmthat.
Az indul adatok:
Ismerjk p szm vltoz terben a legalbb intervallum szinten mrt adatokat, s
egy tovbbi oszlopban szerepel a csoportostst megad nominlis vltoz. A
csoportok elemszma eltr lehet.
A matematikai httr:
Az ismert csoportostsbl kiindulva a tbbvltozs szrselemzs alapgondolatt
kvetjk. Elfeltevseink:
A csoportbeli megfigyelsek fggetlenek s vletlen mintbl szrmaznak.
A fggetlen vltozk tbbdimenzis normlis eloszlst kvetnek minden

csoportban.
A variancia-kovariancia mtrixok azonosak minden csoportban.
A ftlagtl mrt teljes eltrsek ngyzetsszege kt rszre bonthat: a csoportok

kztti s a csoporton belli eltrsek ngyzetsszegre 108.
T = K + B , ahol T = X T X ,
(7.1)
ha centrozott adataink vannak, azaz X elemei mr a ftlagtl val eltrseket

tartalmazzk.
g
X mtrix (nxp) mret, ahol a g csoport elemszmai eltrek lehetnek:
n
i =1
107
= n.
Ha minden csoport elemszma kzel azonosan nagy, akkor ennek nincs torzt hatsa. A
sly szerepe akkor fontos, ha vegyesen vannak nagyon nagy s nagyon kismret
csoportjaink.
108
Ha tbbvltozs elemzst vgznk, akkor tlagvektorok s eltrs ngyzetsszeg mtrixok
rhatk fel, mretk (pxp).
DISZKRIMINANCIA ELEMZS
191
A B mtrixban az sszes megfigyelsre sszegezzk a csoporttlagoktl val

ngyzetes eltrseket. Alternatv szmtsa a csoport-kovariancia mtrixok 109 (S)
slyozott sszege:
g
B = (ni 1) S i
(7.2)
i =1
A megfigyelt vltozk lineris kombincijaknt lltjuk el a diszkriminl

fggvnyt, ahol a c egytthatk a fkomponens elemzshez hasonlan
normalizltak 110:
y = Xc s c T c = 1
(7.3)
Klnbz c egytthat vektorokhoz teht klnbz diszkriminl fggvnyek

tartoznak. Az y vektor rtkei nem megfigyeltek, de a centrozs miatt az tlaga
zrus, variancija 111 pedig (7.3) s 7.1) felhasznlsval a kls s a bels eltrs
ngyzetsszeg mtrixokbl llthat el:
y T y = ( Xc) T ( Xc) = c T X T Xc = c T Tc = c T ( K + B)c = c T Kc + c T Bc
(7.4)
Most nem egyszeren az y variancia maximalizlsa a clunk. Feladatunk olyan c

egytthat becslse, amely mellett a csoportok a lehet legjobban klnbznek
egymstl, s a bels eltrsek kicsik, azaz a kls eltrsek maximumt s a bels
eltrsek minimumt egyszerre keressk, a hnyadosukat maximalizljuk:
c T Kc
max
c T Bc
(7.5.a)
Mindkt oldal logaritmust vesszk, s c szerint derivljuk, a derivlt zrus helyt

keressk:
ln = ln(c T Kc) ln(c T Bc)

2 Kc
2 Bc
ln
T
=0
= T
T
c
c Kc c Bc
109
A tbbvltozs variancia-elemzsben a csoportok variancia-kovariancia mtrixnak

egyezst ttelezzk fel. Ezek sszege is invertlhat, ha egy csoport S mtrixa invertlhat.
Problma csak akkor lp fel, ha az elemzsbe bevont vltozk kztt nagyon szoros a
korrelci.
110
A gyakorlatban a csoport kovariancik slyozott tlagt is figyelembe vesszk:
cT S p c = 1
ptllagos felttelt alkalmazunk. Ha a vltozk minden csoportban
korrellatlanok s egysgnyi szrsak, akkor (7.3) szerint szmolunk, mert S=E.

111
Itt mg csak a szmllt rjuk fel, nem osztjuk (n-1)-vel.
192
T
Az egyenletet c Kc -vel vgig szorozzuk, s (7.5.a) alapjn -t behelyettestjk, c-t

kiemeljk, gy sajtrtk-sajtvektor egyenletrendszert kapunk:
Kc Bc = 0
(7.5.b)
( B 1 K E )c = 0
A megoldst megkapjuk, ha ltezik a B-1 , azaz a B rangja p. A K mtrix rangja =

min (g-1;p), ezrt a szorzatuk sem lehet ennl tbb. Ha (g-1) kisebb, mint p, akkor
(g-1) klnbz sajtrtket kapunk. Ha p a kisebb, akkor p szm eltr sajtrtk
s hozztartoz sajtvektor hatrozhat meg. Teht a diszkriminl fggvnyek
szmnak fels korltja a (g1) s a p kzl a kisebb rtk.
A j-edik diszkriminl fggvny a j sajtrtkhez 112 tartoz sajtvektorral rhat
fel: y j = Xc j . Ezeket a sztenderdizlatlan egytthatkat hasznlva a szrmaztatott,
(itt hasznlt elnevezssel) kanonikus trbe kpezzk le az eredetileg p dimenziban
megfigyelt pontokat.
A j-edik fggvny egytthatit ltalban sztenderdizljuk, azaz szrsval osztjuk.
gy a vltozk hatsnak erssge sszehasonlthatv vlik. (Hasonl okbl
szmtjuk ki a regresszis modellnl a b mellett a bta egytthatkat is.)
Az egyes diszkriminl fggvnyek erejt a j sajtrtkek fejezik ki. Ha a
sajtrtkek sszegvel osztjuk a j-t, akkor az adott fggvny sztvlaszt erejt
szzalkban fejezzk ki. Brmely msik c egytthat vektor kevsb klnti el a
csoportokat, mint a maximlis (els) sajtrtkhez tartoz c1.
A diszkriminl fggvnyek egyttes sztvlaszt erejt a sajtrtkekbl (7.6)
szerint szmtott Wilks lambdnak nevezett mutat mri, amely megegyezik a
bels s teljes eltrs ngyzetsszeg mtrixok determinnsainak arnyval. Mivel a
nagy j sajtrtkek jelzik az ers diszkriminl fggvnyt, a Wilks-lambda kicsi
rtke utal szignifikns fggvny(ek)re:
B
1
=
T
j =1 1 + j
k
(7.6)
Azt, hogy hny fggvny mentn van szignifikns klnbsg a csoportok kztt,
szksges-e mind a k kiszmthat fggvny az elklntshez, Bartlett nyomn khingyzet prbval teszteljk. Wilks lambdjt (7.7) szerint khi-ngyzet eloszlsv
transzformljuk. A nullhipotzis szerint a diszkriminl fggvny(ek) hatsa nem
szignifikns.
2 = ( n 1
112
g+p
) ln
2
Itt nem jelent kivlasztsi szablyt az, hogy a sajtrtkek egynl nagyobbak-e.
(7.7)
193
a szabadsgfoka: (p-r)(g-r-1), ahol r a kihagyott fggvnyek szma.

Az y rtkek alapjn tvolsgot szmthatunk egy j, korbban nem osztlyozott
pont s a csoport tlagok kztt, hogy az j megfigyelst a hozz leghasonlbbakkal
egy osztlyba soroljuk.
7.3. A diszkriminancia elemzs szmtsi lpsei

A diszkriminancia elemzst elzetesen mr csoportokba sorolt adatokra vgezzk,
mgis a csoportost eljrsok blokkjban tallhat ez az eljrs.
ANALYSE/CLASSIFY/DISCRIMINANT lpseket kvetve a nyit oldalon a
kvetkezket talljuk:
Grouping Variable: kategria vltoz megadsa
Define Range: a legkisebb s legnagyobb vizsgland kategrit jelezzk.
Pl. 5 fok osztlyozs esetn min=3 s max=5 kijellsvel csak a kzepes vagy
annl jobb rdemjegy dikokat csoportostjuk.
Independents: azok a vltozk kerlnek ide, amelyek kombincija elllthatja a
dntsi fggvnyt.
Enter: ha minden vltozt bevonunk a dntsi fggvnybe
Stepwise, ha csak a szignifikns vltozkat kvnjuk szerepeltetni. (Ha a

vltozk korrellnak egymssal, ezt rdemes vlasztani.)
Statistics gombra kattintva a ler statisztikk kzl vlaszthatunk:
Means (a vltozk tlagai)
Anova (egy-egy vltoz F-tesztje)
Box M mutat (a csoportok kovariancia-mtrixainak egyezst

mri)
A fggvnyegytthatk:
Fisher flk (kzvetlenl az osztlyozst segtik), vagy
Standardizlatlanok (a dntsi fggvnyeknek az eredeti trben val

brzolshoz s a csoportok kzppontjainak meghatrozshoz
hasznlhatk)
A mtrixok kztt pedig
Csoporton belli korrelcik
Csoporton belli kovariancik
Csoportok kzti kovariancik
194
Teljes kovariancia
megvizsglsra van lehetsg.
Enter independents together vlasztsa esetn mdszert nem vlaszthatunk, a

Method gomb nem aktv. Ha a vltozkat lpsenknt vonjuk be a dntsi
fggvnybe, amint ezt a kvetkez alfejezet ismerteti, akkor a belpsi kritrium
kivlasztsval mdszert is vlasztunk.
A Select>> gomb segtsgvel egy jabb vltoz kijellsvel almintt
vlaszthatunk ki, s csak erre kszl a diszkriminancia elemzs.
Classify gombra kattintva
a priorok rtkrl dnthetnk. Alaprtelmezs szerint a csoportok mrete

egyenl, de vlaszthatjuk azt is, hogy a tnyleges mintanagysg alapjn
becsljk a csoportok valsznsgt.
Kovariancia mtrix: alaprtelmezs szerint a vltozk kovariancia mtrixait

a csoportokon bell szmoljuk (Within-groups). A msik lehetsg
(Separate-groups) nem a vltoz, hanem a diszkriminl fggvnyek
kovariancia mtrixait szmolja. Ha a fggvnyek szma kisebb, mint a
vltozk, akkor eltr a kt eredmny.
Display: itt adjuk meg azt, hogy mit krnk outputknt. Az sszegz
eredmnyek mellett ha nem tl nagy a minta , rdemes esetenknt
vizsglni a besorolst. Egy-egy elem kihagysval (n-1) megfigyelsre
elvgezve az osztlyozst szrevehetjk az eredmnyre jelents befolyst
gyakorol megfigyelseket.
o Casewise result
o Summary Table
o Leave-one-out-classification
Plots:
o Combined groups: egy brn mutatja az sszes csoport
kzppontjait s elemeit. (neve: All-groups scatterplot) 1
fggvny esetn hisztogramot rajzol.
o Separate groups: ahny csoport, annyi kln bra kszl. 1
fggvny esetn vltoznknt hisztogramot rajzol.
o Territorial map: a szrmaztatott trbeli trkpen szerepelnek a
csoporttlagok, a csoportokat jelz szmokbl kpzett vonalak
pedig elhatroljk a trrszeket egymstl. Csak kt vagy tbb
fggvny esetn kszthet.
195
A Save utasts zrja a sort.

o Predicted group membership vlasztssal az j besorolst mentjk
el.
o Discriminant scores: Ez adja meg a becslt rtket a dntsi
fggvnyek terben (ha alacsonyabb dimenziba jutottunk, akkor
ez nagyon hasznos, pldul brzolhatv vlnak a
megfigyelsek).
o Probability of group membership: a posteriorokat mutatja.
7.4. Az eredmnyek rszletezse, rtelmezse

A grafikus szemlltetst is lehetv tev kis pldval kezdjk ezt az alfejezetet.
A hrom csoportba sorolt, csoportonknt 3-3 megfigyelsnket kvnjuk kt
dimenziban sztvlasztani, ezrt kt diszkriminl fggvnyt keresnk.
Indul adataink brjn (7.1. bra) lthat, hogy a msodik vltoz mentn jval
nagyobb az adatok ingadozsa (a terjedelem 10 egysg), mg az elsn az tlagok
egymshoz kzelibbek (itt 4 egysg a terjedelem).
7
2
6
1
5
2
4
1
3
2
X2
2
1
1
3
0
-1
3
-2
-3
3
-4
-5
-5
-4
-3
-2
-1
X1
7.1. bra: Hrom csoport, kilenc pont

A pontok koordinti:
Csoport
X1
-2
-1
-1
X2
-2
-4
196
Az SPSS eredmnylistjnak rendjt kvetve haladunk. A 7.1. bra pontjaira

egyttesen (Total) ksztett alapstatisztikkat, valamint a csoportonknt s
vltoznknt szmtott tlagokat s szrsokat mutatja a 7.1. tblzat.
7.1. tblzat: Vltoznknti tlagok s szrsok
Group Statistics
CSOPORT
1
X1
X2
X1
X2
X1
X2
X1
X2
2
3
Total
Mean
-1,00
3,00
1,00
4,00
,00
-2,00
,00
1,67
Std.
Deviation
1,00
2,00
1,00
2,00
1,00
2,00
1,22
3,28
Valid N
(listwise)
Unweight
ed
3
3
3
3
3
3
9
9
A csoporttlagok vltoznknti egyezsnek tesztjt bemutat 7.2. tblzatban

Wilks-lambda elnevezs szerepel. Ez nem azonos sem a (7.5)-ben, sem a (7.6)-ban
szerepl lambda mrtkkel.
7.2. tblzat: Wilks 1. lambda mutatja
Tests of Equality of Group Means
X1
X2
Wilks'
Lambda
,500
,279
F
3,000
7,750
df1
df2
2
2
6
6
Sig.
,125
,022
Itt az egyes vltozkra kln-kln szmoljuk ki klasszikus, egyvltozs statisztikai

rtelemben azt, hogy a csoporton belli eltrsek ngyzetsszege (SSB) hogyan
arnylik a teljes eltrs ngyzetsszeghez (SST), az arny SSB/SST=lambda. Az
eltrsek nagysgt az egyvltozs F-teszttel vizsgljuk:
F ( xi ) =
1 lambda n g SSK /( g 1 ) ,
=
lambda
g 1 SSB /( n g )
ahol a szmll szabadsgfoka (g-1), a nevez pedig (n-g).
197
Pldnkban csak a msodik vltoz szerint klnbznek szignifiknsan a

csoportok 113, az els mentn a csoporttlagok nem klnlnek el statisztikai
rtelemben (F(x1)= 3 s p1 =0,125 >0,05).
A 7.3. tblzatban szerepl egyestett (pooled) kovariancia mtrixot (7.2) szerint
szorozva a B bels eltrsek ngyzetsszeg-mtrixt kapjuk, s ez a 7.4. tblzat
csoportonknt adott kovariancia mtrixaibl kiszmthat. Az egyestett korrelci a
csoportonknt szmtott korrelcik elemszmmal slyozott tlaga. ltalban nem
egyezik 114 meg a teljes korrelcis mtrix elemeivel, amelyet gy szmtunk, hogy
az n elemet egyetlen homogn mintnak tekintjk.
7.3. tblzat: A bels kovariancia mtrix elemei
a
Pooled Within-Groups M atrices
Covariance
Correlati on
X1
X2
X1
X2
X1
1,000
-,333
1,000
-,167
X2
-,333
4,000
-,167
1,000
a. The covariance matrix has 6 degrees of freedom
A 7.4. tblzatban lthat, hogy az 1. s 2. csoport kovariancia mtrixbeli elemei,

azaz a kovariancia-struktrjuk teljesen megegyez, mg a 3. csoport eltr.
7.4. tblzat: A csoportok kovariancia mtrixai s a teljes kovariancia mtrix
C o va ria n ce M a tr iace s
CS O PO R T
1
X1
X2
2
X1
X2
3
X1
X2
T ot al
X1
X2
X1
1 ,0 00
-1 ,0 00
1 ,0 00
-1 ,0 00
1 ,0 00
1 ,0 00
1 ,5 00
,1 2 5
X2
-1 ,0 00
4 ,0 00
-1 ,0 00
4 ,0 00
1 ,0 00
4 ,0 00
,1 2 5
1 0, 75 0
a . T he t ot al c ov a ri an c e m at rix h a s 8 d eg re
113
Erre utalt x2 jval nagyobb terjedelme is.

Kpzeljnk el kt vltoz mentn 3 csoportot gy, hogy a csoportok elemei kis krket
formznak, a csoporton bell szinte nincs korrelci. A 3 csoport rtkei viszont mindkt
vltoz szerint nvekednek, ezrt a 3 csoport a 45 fokos egyenes mentn helyezkedik el.
Ekkor a teljes mintra szmtott korrelci egyhez kzeli lesz.
114
198
A 7.5. tblzatban a szrselemzs gondolatmenett kvetve a csoport kovariancik

azonossgt teszteljk, amihez elszr a csoport kovariancia mtrixok
determinnsnak logaritmust vesszk. Pldnkban az els csoportban
1 1
= 3 , ebbl ln3=1,0986, az egyestett (poolozott) kovariancira
1 4
S1 =
pedig:
Sp =
1/ 3
1/ 3
8
= 3 , ennek termszetes alap logaritmusa 1,358.
9
7.5. tblzat: Csoport kovariancik determinnsainak logaritmusa

Log Determinants
CSOPORT
1
2
3
Pooled within-groups
Rank
2
2
2
2
Log
Determin
ant
1,099
1,099
1,099
1,358
The ranks and natural logarithms of determinants

printed are those of the group covariance matrices.
A 7.6. tblzatban Box M-mutatjt szmtjuk. M kis rtke jelenti a kovariancia

mtrixok j egyezst, ezt F-teszttel ellenrizzk.
g
M = [ S k
( nk 1) / 2
]/ S
( n g ) / 2
,ahol
k =1
S = (nk 1) S k /(n g )
k =1
n = nk
k =1
F = 2b ln M , ahol b az adott feladatra jellemz szorzszm 115.
115
A b rtke megtallhat pl Jobson: Applied Multivariate Data Analysis c. knyvnek 221.

oldaln. A vltozk s a csoportok szma, az egyes csoportokban tallhat elemek
slyozottan, klnbz hatvnyokon figyelembe vve biztostjk azt, hogy M transzformlt
rtke F-eloszlst kvessen. Ezek a kpletek adjk a szabadsgfokokat is.
199
7.6. tblzat: Box-M s F-teszt a csoport kovariancik egyezsre

Test Results
Box's M
F
Approx.
df1
df2
Sig.
1,557
,133
6
897,231
,992
Tests null hypothesis of equal population covariance matrices.
Mivel az F=0,133 s a szignifikancia szint 0,992, a minta nem mond ellent a

nullhipotzisnek, a csoport kovariancik nem trnek el jelentsen.
A 7.1.-7.6. tblzatokbl a diszkriminancia elemzs korrekt vgrehajtshoz
szksges elkszt lpseket s teszteket ismertk meg. Ezek alapjn
mintafeladatunk alkalmas a diszkriminl fggvny(ek) ellltsra.
Elszr a (7.5.b)-ben szerepl (B-1 K) mtrix j sajtrtkeit s azok relatv
fontossgt kapjuk meg a 7.7. tblzatban. Az els fggvnyhez tartozik a
legnagyobb csoportok kztti vltozkonysg, ezrt sztvlaszt ereje mindig
magasabb, mint a tovbbi fggvnyek. Mivel (g-1)=2 s p=2, kt sajtrtk van, 2
diszkriminl fggvny llthat el, s az els fggvny 76%-t magyarzza a
kls eltrseknek ( 2,867/(2,867+0,904)=0,76 ).
7.7. tblzat: A diszkriminl fggvny jellemzi
Summary of Canonical Discriminant Functions
Eigenvalues
Function
1
2
Eigenvalue
2,867a
,904a
% of
Variance
76,0
24,0
Cumulativ
e%
76,0
100,0
Canonical
Correlation
,861
,689
a. First 2 canonical discriminant functions were used in the

analysis.
A 7.7. tblzat utols oszlopban a kanonikus korrelci azt mri, hogy milyen
szoros az asszocici a kapott diszkriminancia rtkek (mint fgg vltozk) s a
csoportok kztt. Kiszmtsa s rtelmezse megegyezik az ANOVA-bl ismert
eta-ngyzet mutat gykvel, ahol eta-ngyzet a csoportok kztti s a teljes eltrs
ngyzetsszegek hnyadosa. Itt azt mri, hogy a diszkriminl score-ok
vltozkonysgt milyen arnyban magyarzza a csoportbesorols. Kzvetlen
200
sszefggs ll fenn eta-ngyzet s a dntsi fggvny j sajtrtke kztt:
2j =
j
,
1+ j
pldnkban (0,861)2 =0,74=2,867/3,867 s (0,689)2 =0,47=0,904/1,904.

A 7.8. tblzatban msodszor tallkozunk az outputban Wilks lambdval. Ezzel itt a
fggvnyek (s nem az eredeti vltozk) hatst mrjk (7.6) szerint. Lambda ()
rtke alacsony, ha a 7.7. tblzatban van nagy sajtrtk, ami azonos azzal, hogy a
bels eltrsek kicsik a teljes eltrsekhez kpest. Ha az elhagyott fggvnyek
szma, r=0, akkor a min(p, g-1) korlt ltal meghatrozott sszes fggvnyt
felhasznljuk a csoportok sztvlasztshoz.
Az els kt fggvny ltal meg nem magyarzott heterogenits 0,136, mert
1
1
2 fggvny =
= 0,136
1 + 2,867 1 + 0,904
1
1. fggvnynlkl =
= 0,525
1 + 0,904
7.8. tblzat: Szignifikns fggvnyek kivlasztsa
Wilks' Lambda
Test of Function(s)
1 through 2
2
Wilks'
Lambda
,136
,525
Chi-squar
e
10,982
3,543
df
4
1
Sig.
,027
,060
Pldnkban a (7.7) szerint felrt els khi-ngyzet rtke magas (valsznsge

kisebb, mint 0,05), arra utal, hogy szksges k-r=2 fggvnyt hasznlni a csoportok
elklntshez. Az els diszkriminl fggvny elhagysa utn a tbbi (esetnkben
a msodik) fggvny nem szignifikns rszt magyarzza a csoportok kzti
eltrsnek.
2 = (9 1
2+3
) ln 0,136 = 10,98 szabadsgfoka: (2-0)(3-0-1)=4
2
2 = (9 1
2+3
) ln 0,525 = 3,543 szabadsgfoka: (2-1)(3-1-1)=1
2
A dntsi fggvny rtelmezse szempontjbl az egyik legfontosabb eredmnyt a

7.9. tblzatban talljuk. Mivel a sajtvektorok nagysga fgg az eredeti vltozk
szrstl, a teljes mintban mrt szrssal sztenderdizlt vltozkbl (is) szmtunk
diszkriminl egytthatkat. Ezeket a regresszis bthoz hasonlan rtelmezzk,
201
ezrt mondhatjuk, hogy az els fggvnyben a msodik vltoz hatsa ersebb, mint
az els vltoz, mg a msodik fggvnyben fordtott a helyzet.
7.9. tblzat: Sztenderdizlt diszkriminancia egytthatk
Standardized Canonical Discriminant Function Coefficients
Function
1
X1
X2
2
,386
,989
,938
-,224
x
x
y1 = 0,386 1 + 0,989 2
s2
s1
x
x
y 2 = 0,938 1 0,224 2
s
s2
1
Pldnkban s1 = 1,5 =1,2247 s s 2 = 10,75 = 3,2404 .
A vltozknak a diszkriminl fggvnyhez val hozzjrulst a sztenderdizlt
egytthatk mellett korrelcival is kifejezhetjk. A 7.10. tblzat elemei a
fkomponens elemzsnl megismert struktra mtrixhoz hasonlan a vltozk s a
dntsi fggvnyek kztti korrelcis egytthatk.
7.10. tblzat: Vltozk s fggvnyek korrelcii
Structure M atrix
Function
1
X2
X1
,925*
,221
2
-,380
,975*
Pooled within-groups correlations between discriminating

variables and standardized canonical dis crim inant function
Variables ordered by absolute size of correlation within fun
*. Largest absolute correlation between each variable a
any discrim inant function
A struktra mtrixbl leolvashatjuk, hogy az els fggvny mentn nvekv rtkek

tartoznak azokhoz a megfigyelsekhez, amelyeknek mindkt koordintja
nvekszik, s x2vel a kapcsolat nagyon szoros. A msodik tengely mentn elrt
rtket viszont cskkenti az, ha x2 magas, de x1 hatsa ers, pozitv.
A 7.11/a. tblzatban szerepl sztenderdizlatlan egytthatkbl rjuk fel a dntsi
fggvnyt, s a konstans segtsgvel brzolhatjuk is a diszkriminl fggvnyeket
az eredeti trben.
202
0,386x1 +0,495x2 0,824 = 0
0,938x1 0,112x2 +0,187 = 0
Az brzols termszetesen csak azrt lehetsges, mert az eredeti feladat

ktdimenzis.
7.11/a. tblzat: Nem sztenderdizlt diszkriminancia egytthatk
Can on ical D iscr imin ant F un ctio n Coeffic
F uncti on
1
X1
X2
(Constant)
,386
,495
-,824
,938
-,112
,187
Unstandardized coefficients
A 7.11.a tblzat eredmnyei klnbznek, ha az indulskor sztenderdizljuk a

vltozkat (7.11/b. tblzat), de 7.11/a s 7.11/b elemei a teljes szrsok
segtsgvel egymsbl szrmaztathatk. Az els oszlopban pldul: 0,472=
(0,386)(1,5)1/2 s 1,622=(0,495)(10,75) 1/2, ahol 1,5 s 10,75 a vltozk variancii.
7.11/b. tblzat: Sztenderdizlt vltozkbl szmolt nem sztenderdizlt egytthatk

Can onical Discriminant Function Co efficient
Function
1
Zscore(X1)
Zscore(X2)
(Constant)
,472
1,622
,000
2
1,149
-,367
,000
Ha a kanonikus trben brzolni kvnjuk megfigyelseinket, akkor a

sztenderdizlatlan sajtvektorokra van szksgnk. A sajtvektorok fontos
tulajdonsga, hogy eljelk nknyes. Erre a tnyre az rtelmezskor kell klnsen
figyelni.
A sztenderdizlatlan egytthatkkal szmtjuk ki a csoportok centroidjainak (vagy
brmely ms egyednek) a koordintit a szrmaztatott, kanonikus trben (7.12.
tblzat).
203
Pldnkban az els csoport tlagpontja (-1,+3), ezt mindkt diszkriminl

fggvnybe behelyettestve kapjuk a centrum j koordintit:
0,386(-1) +0,495(3) 0,824 = 0,274
0,938(-1) 0,112(3) +0,187 = -1,087
7.12. tblzat: Csoportkzppontok a kanonikus trben
Functions at Group Centroids
Function
CSOPORT
1
2
3
1
,274
1,540
-1,813
2
-1,087
,677
,410
Unstandardized canonical discriminant

functions evaluated at group means
A csoporttlagok tlaga zrus a diszkriminl trben. A tengelyek mentn mrt

szrs pedig a megfelel sajtrtkek gyke, ezrt az els tengely mentn jobban
szrdnak a pontok, mint a fggleges tengely mentn.
Fontos hangslyozni, hogy ltalban dimenzicskkentst is vgrehajtunk a
diszkriminancia elemzssel ha p>(g-1), mivel az eredeti p dimenzis adathalmazt k
(ahol k min(p, g-1)) dimenzis trbe kpezzk le. A sajtvektorokkal ellltott
diszkriminl tengelyek ortogonlisak.
Egy j megfigyels csoportba sorolshoz kiszmtjuk a diszkriminl score-okat
(yij) a 7.11/a. tblzat egytthatibl, s a 7.12. tblzatbeli csoporttlag score-ktl
(y0j) mrt ngyzetes euklideszi tvolsgok legkisebbike hatrozza meg a besorolst:
min ( y 0 j y ij ) 2 , ahol i=1,,g.

i
j =1
Az output rszeknt megkapjuk a kanonikus trbeli brt (territorial map), ahol az

tlagok krl a csoportok elemei is lthatk. (7.2. bra)
Mivel ktdimenzis volt az eredeti feladat, a 7.1. s a 7.2. bra sszevetsbl
lthat, hogy a csoportok ms-ms sk negyedben vannak, mint az eredeti brn, ami
a lineris kombinciban szerepl egytthatk nagysgnak s eljelnek a
kvetkezmnye.
204
C ano nical D iscri m i nant F unct ions
2
2
3
C SO P OR T
-1
Function 2
G rou p Ce nt
3
-2
2
-3
1
-4
-3
-2
-1
F u n ctio n 1
7.2. bra: Pontok a kanonikus trben

Az osztlyozs jsgnak megtlsben tbb rszeredmny segt.
Elszr a megfigyelsek eredeti, a csoportostssal megadott, a priori eloszlst
kzli a 7.13. tblzat. Mivel a hrom csoport azonos mret volt, minden csoport
priorja P(Gi)= ni /n= 3/9. A futtats sorn a prior a minta empirikus eloszlst kveti,
vagy a csoportok egyenl valsznsgt P(Gi)= (1/g) ttelezzk fel.
7.13. tblzat: Klasszifikcis statisztika
Prior Probabilities for Groups
CSOPORT
1
2
3
Total
Prior
,333
,333
,333
1,000
Cases Used in
Analysis
Unweight
ed
Weighted
3
3,000
3
3,000
3
3,000
9
9,000
A korbban megismert sztenderdizlt s sztenderdizlatlan kanonikus egytthatk

mellett a Fisher, R.A. ltal javasolt lineris diszkriminl fggvnyek szerepelnek a
7.14. tblzatban. Ezek a csoportonknt meghatrozott egytthatk alkalmasak arra,
hogy kzvetlenl az eredeti trben elvgezzk az osztlyozst. Abba a csoportra
soroljuk a vizsglt egyedet, amelyikre a legnagyobb diszkriminl rtk addik. Ez
205
a dntsi szably nem csak a szmtsokban figyelembe vett pontokra mkdik,

hanem j, eddig nem ismert megfigyels utlagos osztlyozsra is alkalmas. A
gyakorlatban pl. banki gyfelek hitelminstsre hasznlhat a lineris
diszkriminl fggvny. Elnye, hogy minden eredeti vltozt figyelembe vesz,
nem reduklja a dimenzit, s nem eredmnyez nehezen rtelmezhet reduklt
trbeli tengelyeket.
A Fisher-fle a egytthatvektorok szmtshoz a csoport tlagvektorok kztti
eltrseket s a csoportokon belli kovariancia mtrixokat hasznljuk. Ezt a
fggvnyt akkor alkalmazhatjuk, ha teljesl a normalitsi feltevs. Kt csoport
esetn: a = S p 1 x1 x 2
7.14. tblzat: Fisher dntsi fggvnye

Classification Function Coefficients
X1
X2
(Constant)
1
-,771
,686
-2,513
CSOPORT
2
1,371
1,114
-4,013
3
-,171
-,514
-1,613
Fisher's linear discriminant functions
Ha a harmadik csoportba sorolt (0,0) pontot vesszk, akkor ppen a konstansok

adjk a Fisher-fggvny rtkt, s valban a harmadik csoportban kapjuk a
legnagyobb rtket, a (-1,613)-t.
Ha egy j pontot vizsglunk, amelynek koordinti (2,3), akkor az 1. csoportra
1,997, a msodikra 2,071, s a harmadikra 3,497 addik. A fggvny alapjn a
(2,3) pontot a 2. csoportba soroljuk.
A kanonikus fggvny s a lineris diszkriminl fggvny alapjn ksztett
osztlyozs eredmnye megegyezik, ha az sszes kanonikus fggvnyt ellltjuk s
felhasznljuk.
A 7.15. tblzat minden megfigyelsre kzli az elzetes s a javasolt besorolst,
feltteles valsznsget s posteriort ad. Az eljrs a Bayes-ttelen alapul, ahol
annak valsznsge, hogy a D diszkriminancia score-ral rendelkez egyed az i-edik
csoportba tartozik:
P (Gi D ) =
P ( D Gi ) P (Gi )
g
P( D G ) P(G )
i =1
Minden egyed abba a csoportba soroldik t, ahol a legnagyobb a posterior

valsznsg.
Van a tblzatban egy ngyzetes Mahalanobis tvolsg oszlop is, amely a
csoportkzpponttl mrt ngyzetes eltrs a bels kovariancik kiszrse utn,
206
valamint olvashatk a kanonikus diszkriminl fggvny(ek) mentn mrt score

rtkek. Ez utbbiak a szrmaztatott trbeli koordintk, amiket a 7.2. brn lttunk.
A 7.15. tblzat als fele azt az osztlyozst mutatja, ahol az adott egyed
kihagysval (n-1) elemre kszlt a diszkriminancia fggvny. gy kt pont
besorolsnak megvltoztatsra tesz javaslatot az eljrs. Az 1. csoport 2.
pontjnak eredeti koordinti (0;3), s ez tnyleg kzelebb van a 2. csoport (1;2)
pontjhoz (d2=2), mint az 1. csoportbeli msik kt ponthoz. Hasonlan ellenrizhet
a (0;6) pont 1. csoportba val tsorolsra tett javaslat.
15. tblzat: Megfigyelsenknti eredmnyek
207
208
Az osztlyozs jsgt sszefoglalan a 7.16. tblzat minsti. Az eredeti s a

javasolt besorols szerint egyez elemek szma s arnya szerepel csoportonknt a
tblzatban, majd ezek tlagaknt az egsz osztlyozst minst egyetlen szzalk
szerepel a tblzat alatt. A tblzat als fele az egy-egy elem kihagysval kszlt
(cross-validated) osztlyozs jsgt mutatja.
7.16. tblzat: Az osztlyozs eredmnye
Classification Resultsb,c
Original
Count
Cross-validateda
Count
CSOPORT
1
2
3
1
2
3
1
2
3
1
2
3
Predicted Group Membership

1
2
3
3
0
0
0
3
0
0
0
3
100,0
,0
,0
,0
100,0
,0
,0
,0
100,0
2
1
0
1
2
0
0
0
3
33,3
,0
66,7
,0
33,3
66,7
,0
,0
100,0
Total
3
3
3
100,0
100,0
100,0
3
3
3
100,0
100,0
100,0
a. Cross validation is done only for those cases in the analysis. In cross validation,
each case is classified by the functions derived from all cases other than that case.
b. 100,0% of original grouped cases correctly classified.
c. 77,8% of cross-validated grouped cases correctly classified.
Eddig csak azzal foglalkoztunk, hogy az sszes megfigyelt vltoz egyidej

bevonsval ksztsnk dntsi fggvnyt. Az elemzsek sorn gyakran elfordul
az, hogy tbb vltozt tartunk rdemesnek arra, hogy a diszkriminl fggvnyben
szerepeljen, mint ahnynak szignifikns szerepe van a csoportok elvlasztsban. A
tbbvltozs regresszi-szmtshoz hasonlan itt is a lpsenknti vltoz bevons
elvt kvethetjk, ha a Stepwise mdszert vlasztjuk.
7.5. A vltozk lpsenknti bevonsval vgzett diszkriminancia

elemzs
Az SPSS 5 kritriumot knl fel, ha a vltozkat lpsenknt (stepwise) kvnjuk
bevonni a diszkriminl fggvny ellltsba. Ezek a kritriumok nem
rangsorolhatk, nincsen kzttk egy, amelyik minden adathalmaz esetn megadja a
legjobb sztvlaszt fggvnyt. Mind az t eljrs abbl indul ki, hogy elszr azt a
vltozt kell bevonni, amelyik mentn a csoporttlagok a leginkbb klnbznek.
209
Ezt kveten lpsenknt egy tovbbi vltoz bevonsra vagy elhagysra kerl
sor, amelyek kivlasztsa az albbi elvek szerint trtnik.
1.
Wilks lambda elve: A (7.6) szerint a vltozkra kiszmtott lambda s

transzformltja, (1-lambda)/lambda alkalmas arra is, hogy egy tovbbi
vltoz bevonsa utni vltozs jelentsgt mrje. Mivel a kis lambda s a
nagy F rtk arra utal, hogy a vltoz mentn jelentsen klnbznek az
tlagok, most a p vltozs modell utn a (p+1) vltozs dntsi fggvny
diszkriminl erejt mrjk:
Fchange =
n g p 1 p +1 / p
g 1
p +1 / p
Ha F nagy (a szignifikancia szintje <0,05), akkor a bvtst rdemes vgrehajtani,

mert a bels, nem magyarzott eltrsek jelentsen cskkennek az j vltoz
bevonsval. A modellben szerepl vltozt kihagyjuk, ha az adott lpsben az F a
kihagysi kszb al esik. A szelekci szablyozhat, mert alaprtelmezs szerint az
F belpsi s kihagysi kszbrtke rgztett 116. Ettl eltrhetnk, s vlaszthatjuk
bevonsi szignifikancia szintnek a 0,05-t, kihagysi kszbnek pedig a 0,10-t.
A Mahalanobis-fle ltalnostott tvolsg kzponti szerepet jtszik a tovbbi ngy
kritriumban.
2.
A Mahalanobis tvolsgot maximalizl vltozt vonjuk be minden

lpsben a dntsi fggvnybe. Azt a vltozt keressk, amely mentn a
kt legkzelebbi csoport (A s B) kzppontjnak tvolsga a legnagyobb:
p
2
AB
= (n g ) wij ( xiA xiB )( x jA x jB ) , ahol a kpletben szerepl

i =1 j =1
w a csoportokon belli kovariancia mtrix inverznek megfelel eleme, p a

modellbeli vltozk szma.
A Mahalanobis tvolsg, mint vltoz szelekcis kritrium alkalmazsa a
kvetkez lpseket jelenti:
a)
Mind a g(g-1)/2 csoport-prra p-dimenziban Mahalanobis tvolsgot

szmolunk.
b) Kivlasztjuk a kt legkzelebbi csoportot 117, azaz a minimlis D2

rtket.
116
Az F-eloszls kritikus rtkt a szmll (g-1) s a nevez (n-g) szabadsgi foka is
meghatrozza, ezrt a tblzatban tbb helyen tallhat 5%- mellett 3,8 krli rtk, pl. (g1)=4 s (n-g)=8, vagy g-1=2 s n-g=13. Nagyobb megfigyelsszm mellett cskken a kritikus
F-rtk.
117
Kt csoport esetben ez a lps kimarad.
210
c)
3.
A D2ben szerepl sszeadand ngyzetsszegek (i=j) kzl

kivlasztjuk a maximlisat. Ez lesz a kvetkez lpsben bevonand
vltoz indexe.
Ha a legkisebb F arny elv alapjn vlasztjuk ki a dntsi fggvny

kvetkez vltozjt, akkor a Mahalanobis tvolsgot a csoportok
elemszmval slyozzuk:
F=
(n 1 p)n A n B
2
D AB
p (n 2)(n A + n B )
Az a vltoz kerl bevonsra, amelyik a legnagyobb - csoportok kzti - F

rtket adja. Mivel itt az A s B csoport mrett 118 is figyelembe vesszk, a 2.
s a 3. kritrium alapjn eltr vltozt vonhatunk be egy adott lpsben a
diszkriminl fggvnybe.
4.
A Rao-fle V mutat 119 is a Mahalanobis tvolsgbl indul ki, de itt egyegy csoport tlagt viszonytjuk a ftlaghoz minden egyes modellbeli
vltoz mentn. Minl inkbb eltrnek csoporttlagok s a ftlag, annl
nagyobb Rao V-je.
p
i =1
j =1
k =1
V = ( n g ) wij ( x ik x i )( x jk x j )
A maximlis V-t kivlasztva azonostjuk a legersebben megklnbztet vltozt.

Mivel Rao V-mutatja kzeltleg p(g-1) szabadsgfok khi-ngyzet eloszlst
kvet, egy vltoz bevonsa utn a V vltozsa is khi-ngyzet eloszls. gy
tesztelhetjk, hogy a modell bvtse szignifikns vltozst okozott-e. Egy vltoz
bevonsa rvn cskkenhet is Rao V-je. Ezt megakadlyozand megadhatunk egy
minimlis V-t (VIN), aminek az alaprtke 0.
5.
118
A meg nem magyarzott variancia sszege (Sum of unexplained

variance, minimlis variancia), mint szelekcis elv kzvetlen kapcsolatban
ll a Mahalanobis tvolsggal.
Az (nAnB)/(nA + nB) maximumt akkor veszi fel, ha nA = nB . A slyozs miatt ms (AB)

csoportra kapjuk a legkisebb F rtket, mintha a mrettl fggetlenl vlasztjuk ki a
legkzelebbinek tlt kt csoportot. Az els vltoz kivlasztsakor p=1, ezrt (n-1-1)/(n-2) ki
is esik a kpletbl.
119
Ms nven is emlti a szakirodalom: Lawley-Hotelling trace, azaz L-H nyoma.
211
Kt csoport sztvlasztsa gy is felfoghat, hogy 0 s 1 rtkkel kdolt dummy

vltozra, mint fgg vltozra illesztett tbbvltozs regresszi. A meg nem
magyarzott variancit minimalizl vltozt keressk, amit a tbbvltozs
regressszis modellben (1-R2 ) mr.
Belthat, hogy a Mahalanobis tvolsg s a determincis egytthat arnyos
egymssal, R2 = cD2 , ahol c konstans.
7.6. Plda a szelekcis kritriumok alkalmazsra

Vlasszuk ki a Knyszerrtkests.sav adatllomnyt, amely 5 negyedvre
(2011. IV. s 2012. I.-IV. negyedv kztt) Budapest s a megyk bontsban
rszletezi az adatokat. Keressk meg azokat a diszkriminl fggvnyeket,
amelyek a negyedvek mentn a lehet legjobban elklntik a megyket. (Itt
most minden csoportban, azaz negyedvente azonos szm megfigyelsnk
van, de az azonos csoportmret nem elvrs a diszkriminancia elemzs
alkalmazsa sorn. )
A futtats belltsa:
Csoportost vltoz: negyedev (1;5)
Fggetlen vltozk: x1: Kvta alapja (db), x2: Kvta alapjn kijellhet
maximum (db), x3: Knyszerrtkestsre kijellt (db), x4:
Kvtakihasznltsg (%)
Stepwise mdszer, az 5 elv egyms utni alkalmazsa
Az eredmnyek rszletezse eltt tekintsk t a ler statisztikk kzl az Explore

ban ellltott Boxplot brkat kt vltozra.
A 7.3. brn lthat, hogy a kezdeti idszaknl jval magasabb volt 2012. els
felben a kihasznltsg, mg az v msodik felben alacsonyabb szzalkok
jellemzek. Az eltrsek miatt ez a vltoz megklnbztet ert mutat.
A 7.4. brn a maximlis laksszmok dobozdiagramjai lthatak. A negyedvek
eltrse csekly, ezrt ez a vltoz vrhatan nem kerl bevonsra, nem fog
szerepelni a diszkriminl fggvnyben.
212
7.3.bra: A kvtakihasznltsg alakulsa az t negyedvben
7.4. bra: A kvta alapjn kijellhet maximumok az t negyedvben
213
214
A vltozk egyedi megklnbztet szereprl a 7.17. tblzat statisztiki alapjn

dntnk. A kvta kihasznltsg vltozra az tlagok egyezst elvetjk az F-prba
alapjn. (p=0,000).
7.17. tblzat: Csoporttlagok egyezsnek tesztjei 5 negyedvre
Wilks' Lambda
Kvta alapja
Kvta alapjn kijellhet
maximum
Knyszerrtkestsre
kijellt
Kvtakihasznltsg
df1
df2
Sig.
,992
,180
95
,948
,942
1,461
95
,220
,942
1,457
95
,221
,388 37,478
95
,000
Ezen a ponton szmos elemzi krds fogalmazdik meg.
Mivel t csoportunk s 4 vltoznk van, a (g-1)=4 lesz a dntsi fggvny

szmt meghatroz fels korlt.
Mely vltozkat s milyen sllyal vonjuk be a diszkriminlsba?
Tnylegesen hny dntsi fggvny kpezhet?
Milyen sikeres lesz a negyedvek elklntse?
A lpsenknti bevlogats tbb szelekcis elv szerint kszthet el. Az els sikeres,
a feltteleknek eleget tev s statisztikailag jl rtelmezhet megolds megtallsa
azonban tbb elkszt lpst ignyel. A lpsek megadsa mellett kitrnk arra,
hogy milyen felttelek nem teljeslse tette szksgess az jabb lpseket. (Ez
termszetesen nem jelenti azt, hogy mindig ilyen s ilyen sorrendben vgrehajtott korrekcikra van szksg.)
1) Az eredeti vltozkat s t negyedvet hasznlva keressk a diszkriminl
fggvnyt. Ekkor a magas M rtk s az alacsony szignifikancia szint (0,000)
miatt a kovariancia mtrixok egyezsnek hipotzist el kell vetnnk.
Test Results
Box's M
F
Approx.
df1
df2
Sig.
324,382
7,359
40
19908,088
,000
215
2) Az els hrom eredeti vltoz logaritmust s a kihasznltsgi rtt, valamint

t negyedvet hasznlva keressk a diszkriminl fggvnyt. A vltozk
logaritmust vve a pozitv ferdesg vltozk jobban kzeltik a normlis
eloszlst. Pldaknt a pozitv ferdesg kvta alapot s termszetes alap
logaritmlt rtkeit mutatjuk be a 7.5/a s 7.5/b. brn.
7.5/a. bra: A kvta alapja vltoz gyakorisga
7.5/b. bra: A kvta alapja vltozlogaritmusnak gyakorisgi brja
216
Ezzel a vltozkrrel a kovariancia mtrixok eltrse kisebb mrtk, a Boxfle M rtke hatodra cskkent, de mg elvetjk az egyezsket (szignifikancia
szint 0,002<0,05).
Test Results
Box's M
53,537
Approx.
2,076
df1
24
F
df2
24918,584
Sig.
,002
3) Az els hrom eredeti vltoz logaritmust s a kihasznltsgi rtt, valamint

a 2012. v ngy negyedvt hasznlva keressk a diszkriminl fggvnyt.
Ezt a lpst az indokolja, hogy a 2011. v negyedik negyedvre szmolt
kovariancia mtrix trt el leginkbb a tbbitl, mert Budapest 2011. IV.
negyedvei adata a 7.6. bra szerint tvol van a tbbi ponttl.
7.6. bra: t negyedv adatai kt vltoz terben

A 2011. IV. negyedvi adatok nlkl az F teszt 0,819 rtke s a hozz tartoz
0,598-as szignifikancia szint alapjn a kovariancia mtrixok egyezsnek hipotzise
nem vethet el.
217
Test Results
Box's M
7,743
,819
9
66191,846
,598
Approx.
df1
df2
Sig.
A Wilks lambda rtk alapjn 2 vltoz kerlt be a diszkriminl fggvnybe. Az

eredmnyek bemutatsa s rtelmezse az SPSS-ben kzlt sorrendet kveti.
A 7.18. tblzatban a 2012. vi ngy negyedves csoportosts mellett lthat a
vltozkra kln-kln szmolt tlagok F tesztje. A csoporttlagok egyezst csak a
kvtakihasznltsg vltoz esetben vethetjk el.
7.18. tblzat: Csoporttlagok egyezsnek tesztjei 4 negyedvre
Wilks' Lambda
df1
df2
Sig.
Kvtakihasznltsg
,335
50,215
76
,000
lnkvalap
,987
,330
76
,803
lnkvmax
,986
,365
76
,778
lnkenyszer
,982
,459
76
,711
A kovariancia mtrixok egyezsnek F tesztjt ellenrizve s a nullhipotzist

elfogadva a diszkriminl fggvnybe bevont vltozkat adja meg a 7.19. tblzat.
7.19. tblzat: A Wilks lambda elv alapjn bevlasztott kt vltoz
Variables Entered/Removed
Step
Entered
a,b,c,d
Wilks' Lambda
Statistic
df1
df2
df3
Exact F
Statistic
1
2
Kvtakihasznlt
sg
lnkvalap
df1
df2
Sig.
,335
3 76,000
50,215
76,000
,000
,146
3 76,000
40,383
150,000
,000
At each step, the variable that minimizes the overall Wilks' Lambda is entered.
Ebbl a kt vltozbl kpezhet kt diszkriminl fggvny, amelyek kzl az

elsnek nagyon magas (0,924) a kanonikus korrelcija, azaz a negyedvek ltal
alkotott csoportok s a dntsi fggvny mentn felvett rtkek kztt ers
asszocicis kapcsolat van a 7.20. tblzat alapjn.
218
7.20. tblzat: A kt fggvny s a 4 negyedv kztti kanonikus korrelci
Eigenvalues
Function
Eigenvalue
% of Variance
Cumulative %
Canonical
Correlation
1
2
5,808
99,9
99,9
,924
,005
,1
100,0
,068
a. First 2 canonical discriminant functions were used in the analysis.
A kt diszkriminl fggvny egyttesen szignifiknsan (khi-ngyzet teszt

szignifikancia szintje=0,000) megklnbzteti a ngy negyedvre megfigyelt
adatokat, de a msodik fggvny nmagban nem szignifikns (szig=0,839) rszt
magyarzza a csoportok kztti eltrseknek.
7.21. tblzat: Fggvnyek szignifikns szerepnek tesztelse
Wilks' Lambda
Test of Function(s)
Wilks' Lambda
Chi-square
df
Sig.
1 through 2
,146
146,130
,000
,995
,351
,839
A fggvnyek szmt megismerve a tartalmt is megkapjuk, ha a 7.22., 7.23. s

7.24. tblzatokat ttekintjk.
A 7.22. tblzat Struktra mtrix nevet viseli, mert az sszes vltoz s a kt
fggvny kztti korrelcis egytthatkat tartalmazza. Az els fggvnnyel
pozitvan korrell a kvta kihasznlsa, mg a msodik fggvnyt dnten a
kvtalap logaritmusa hatrozza meg. A lpsenknti kivlaszts nem engedi a nem
szignifikns, a bevont vltozkkal is korrell vltozk (a knyszer s a maximum)
szerepeltetst a dntsi fggvnyben.
219
7.22. tblzat: A vltozk s a fggvnyek kztti korrelcis egytthatk

Structure Matrix
Function
1
lnkvalap
-,038
,999
,048
,997
-,053
,996
,584
,812
lnkenyszer
b
lnkvmax
Kvtakihasznltsg
Pooled
within-groups
correlations
between
discriminating variables and standardized canonical
discriminant functions
Variables ordered by absolute size of correlation
within function.
*. Largest absolute correlation between each
variable and any discriminant function
b. This variable not used in the analysis.
A diszkriminl fggvnyt kt alakban: sztenderdizlt s sztenderdizlatlan

egytthatkkal felrva is megkapjuk. A regresszis btkhoz hasonl tartalm a
sztenderdizlt egytthat (7.23. tblzat) azt jelzi, hogy az els fggvny mentn
nvekv rtk koordintk tartoznak a magas kvtakihasznltsghoz s az
alacsonyabb kvtaalaphoz. A msodik fggvny pedig a magas kvtaalapra ad
magas koordintt.
7.23. tblzat: A sztenderdizlt egytthatk rtkei
Standardized Canonical Discriminant
Function Coefficients
Function
1
Kvtakihasznltsg
lnkvalap
1,627
,062
-1,322
,950
A 7.24. tblzatban az eredeti vltozk terben is brzolhat sztenderdizlatlan dntsi fggvny egytthati kaptak helyet. Ezekbe a fggvnyekbe behelyettestve
a negyedveket jellemz tlagokat kapjuk a 7.25. tblzatban lthat centrum,
azaz tlagpontokat.
220
7.24. tblzat: A kt dntsi fggvny egytthati
Canonical Discriminant Function
Coefficients
Function
1
Kvtakihasznltsg
29,786
1,135
lnkvalap
-2,570
1,847
-,309
-16,455
(Constant)
7.25. tblzat: A ngy negyedv kzppontjai a kanonikus dntsi trben

Functions at Group Centroids
Negyedv
Function
1
2012. I. negyedv
2,263
-,092
2012. II. negyedv
2,414
,085
2012. III. negyedv
-2,035
,035
2012. IV. negyedv
-2,642
-,028
Unstandardized canonical discriminant functions

evaluated at group means
A 7.7. brn lthat, hogy az els diszkriminl fggvny mentn

jelentsebb a megyk szrdsa, mint a fggleges tengelyen. Azt is
leolvashatjuk a 7.25. tblzat s a 7.7. bra alapjn, hogy az
tlagpontok nem klnlnek el marknsan a ngy negyedvre. Ezrt
rdemes az osztlyoz mtrix alapjn (7.26. tblzat) az elklnts
sikert ellenrizni, amely nem ri el a 60 szzalkot. Az els s a
msodik negyedv, valamint a harmadik s a negyedik negyedv nem
klnthet el marknsan, hiszen ezeken bell a nagyobb
laksllomnnyal rendelkez fvros s Pest megye msknt
viselkedik, mint a kisebb megyk.
221
7.7. bra: A negyedvek elklnlse a ktdimenzis kanonikus trben

7.26. tblzat: Az eredeti s a dntsi fggvny szerinti besorols osztlyoz
mtrixa
a,c
Negyed v
Megyk db
Szzalk
Classification Results
Predicted Group Membership
2012. I.
2012. II.
2012. III.
negyedv
negyedv
negyedv
10
10
0
8
12
0
0
0
14
0
0
9
50,0
50,0
,0
40,0
60,0
,0
,0
,0
70,0
,0
,0
45,0
a. 58,8% of original grouped cases correctly classified.

c. 51,3% of cross-validated grouped cases correctly classified.
Total
2012. IV.
negyedv
0
0
6
11
,0
,0
30,0
55,0
20
20
20
20
100,0
100,0
100,0
100,0
222
Az t lehetsges kritriumot egyms utn lefuttatva nem egybehangz 120 eredmnyt

kapunk. Mind az t esetben kt vltoz kerl be a fggvnybe, de nem ugyanaz a
kt vltoz!
Vessk ssze a 7.27. tblzatban azt, hogy az egyes lpsekben melyek a
kivlasztott vltozk s mennyire sikeres a dntsi fggvnnyel az osztlyozs.
7.27. tblzat: A szelekcis kritriumok hatsa az eredmnyekre
1. lps
2. lps
Wilks lambda
(min)
kvtakihasznltsg
lnkvtaalap
azonosan 58,8%
besorolt
Minimlis
Variancia
kvtakihasznltsg
lnkvtaalap
Mahalanobis
tvolsg(max)
kvtakihasznltsg
lnknyszer
F hnyados
(max)
kvtakihasznltsg
lnknyszer
Rao - V
58,8%
60%
60%
58,8%
kvtakihasznltsg
lnkvtaalap
7.7. Egyni munkra javasolt tovbbi feladatok

1) A
Knyszerrtkests.sav
adatokra
lefuttatva
a
lpsenknti
diszkriminancia elemzs 5 vltozatt, mely tovbbi - rszeredmnyek
klnbznek, melyek egyeznek meg?
Megolds:
2 fle eredmny addik, melyek a 7.27. tblzat szerint klnbznek:
Box-M s F teszt
fggvnyek egytthati
centrumpontok
2) Ksztse el a dntsi fggvnybe bevont vltozk terben a pontdiagramot,

s szerkessze bele a nem sztenderdizlt egytthatkkal a dntsi
egyeneseket.
120
Egyes adatllomnyokra az t vltozszelekcis elv azonos eredmnyt ad. Most

tapasztaltunk nmi eltrst.
8. Sokdimenzis sklzs
8.1. Az eljrs alapgondolata
A sokdimenzis sklzs (Multidimensional Scaling=MDS) a feltr mdszerek
csaldjba tartozik. Geometriai htterben az a feltevs ll, hogy a trben minden
megfigyelsnek megfelel egy pont, s a hasonlbb pontok kzelebb vannak
egymshoz. Az MDS alkalmazsakor nem fogalmazunk meg sztochasztikus
modellt, nem tteleznk fel oksgi kapcsolatot, nem lltunk fel tesztelend
hipotzist. A sklzssal az adatok kztt mrt klnbzsgekbl nyernk
informcit, szrmaztatunk koordintkat a sklatrkpen. Majd a szrmaztatott
koordintk
kztti
tvolsgokat
sszevetjk
az
eredetileg
ismert
klnbzsgekkel, s treksznk az eltrsek minimalizlsra. Az MDS elemzs
clja hasonl ahhoz, amit a fkomponens elemzsnl tznk ki: az objektumok
kztti eltrseket megrizve cskkentjk a tr dimenzijt, objektv sklt hozunk
ltre egy reduklt dimenzij trben.
Az indul adatok
A mtrixok szma s a mrsi skla szerint tbb modell ltezik.
Az (nxp) mret mtrixba rendezett adatok mrsi sklja lehet intervallum

szint, ismerhetjk a kategria gyakorisgokat, s binris vltozval
mrhetjk a tulajdonsggal rendelkezst vagy nem rendelkezst. Ekkor az
adatok mrsi skljnak megfelel hasonlsgi vagy tvolsg mrszmot
vlasztva hasonltjuk ssze pronknt az n szm megfigyelst vagy a p
darab vltozt.
Az eredeti adatok ismerete nlkl is rendelkezsnkre llhat egy (nxn) vagy

egy (pxp) mret hasonlsgi vagy tvolsgmtrix 121. A hasonlsgi s
tvolsg mrszmokat rszletesen a 3. klaszter-fejezet ismerteti.
Klnbz idpontokban, eltr krlmnyek kztt vagy ms szemlyek,

csoportok ltal mrt hasonlsgok, tvolsgok mtrixaibl is vgezhetnk
sklzst. Ekkor az egyni klnbsgek feltrst vgezzk el.
A matematikai httr
A megfigyelt klnbzsgekbl MDS trbeli koordintkat szrmaztatunk, s a
koordintk kztt euklideszi tvolsgot szmtunk. Ismert, hogy n pont kztti
eltrseket (n-1) dimenziban tkletesen tudunk brzolni. A sklzs clja az,
121
Ha nem fontos a hasonlsg s a tvolsg megklnbztetse, akkor ltalnosan

klnbzsgi mtrixot emltnk.
224
hogy alacsonyabb dimenzij trben jelentse meg a pontokat, s feltrja a

termszetes csoportokat, mintabeli struktrkat 122.
A sklz mdszerek kt f tpust klnbztetjk meg.
Klasszikus (vagy metrikus) sklzsrl beszlnk akkor, ha a f

koordintkat 123 keressk, s az indul klnbzsgeket euklideszi
tvolsggal mrjk. A metrikus modellben lineris fggvnykapcsolat van
a klnbzsgek () s a sklatrkpen mrt tvolsgok (d) kztt, s a
modell intervallum szint: d=a+b vagy arny sklj, ha a=0 a lineris
fggvnyben.
A modell lehet nem-metrikus 124, ha a sklatrkpen a tvolsgok (d)

ordinlisan (pl. monoton fggvnnyel) kapcsoldnak az eredeti
klnbzsgekhez (). Nem-metrikus modellt clszer hasznlni, ha az
eredeti adatok ordinlisak, pl. rangszmok.
8.2. Koordintk meghatrozsa klasszikus sklzssal

Induljunk ki az alapesetbl, X mtrix tartalmazza az n pont koordintit a p
dimenzis trben. A levezetst egyszersti, ha bevezetjk az (nxn)-s mret 125 B
mtrixot, amelynek elemei a pontok kzti szorzatok:
p
brs = x rj x sj
ahol r, s = 1,,n
(8.1)
j =1
A ngyzetes euklideszi tvolsgok D2 mtrixnak ltalnos eleme felrhat (8.1)

felhasznlsval:
2
d rs2 = (x rj x sj ) = brr + bss 2brs

p
(8.2)
j =1
Miutn X-bl knnyen felrhat D, vizsgljuk meg a fordtott problmt. Tegyk fel,
hogy ismerjk a tvolsgok ngyzeteit, de nem ismertek a koordintk. Kt lpsben
oldjuk meg a feladatot, elszr B-t becsljk, majd B=XXT szorzatt bontjuk.
122
Hasonl a clja a klaszterelemzsnek is.

A metrikus sklzs atyja Torgerson (1952, 1958). Gower a principal coordinates
analysis elnevezst javasolta erre a modellre, de rvidtse, a PCA nem klnbzik a
fkomponens elemzstl, ezrt inkbb a metrikus sklzs terjedt el.
124
Kruskal (1964) dolgozta ki a nem-metrikus eljrst, amit ordinlis sklzs nven is emlt
a szakirodalom.
125
Az eljrs matematikai lpseinek ismertetse sorn az n megfigyelst jelentjk meg
ltalban p-nl alacsonyabb dimenziban. A p vltoz sklzsa hasonl lpsek
alkalmazsval vgezhet el.
123
SOKDIMENZIS SKLZS
225
Ahhoz, hogy egyrtelm megoldst kapjunk, fel kell tteleznnk, hogy a

n
koordintk tlaga 0, azaz
x
r =1
rj
= 0 minden j-re. Ez az egyszersts azt
eredmnyezi, hogy a (8.1)-ben megadott brs sor- s oszlopsszegei is nullk lesznek.

Ezt felhasznlva, s (8.2)-t sszegezve a sorindex, az oszlopindex, majd mindkett
szerint kifejezhetjk brst a tvolsgmtrix elemeibl az albbiak szerint:
n
d
r =1
2
rs
= tr ( B ) + nbss ,ebbl
bss = d rs2 / n tr ( B ) / n = d r2 tr ( B ) / n
(8.3)
d
s =1
n
2
rs
= nbrr + tr ( B ) ,s brr = d rs2 / n tr ( B ) / n = d 2s tr ( B ) / n
d
r =1 s =1
2
rs
(8.4)
(8.5)
= 2 ntr( B )
ahol tr(B) a B mtrix ftlbeli elemeinek sszege, azaz a mtrix nyoma, az

indexben szerepl pontok pedig a sor- s oszloptvolsgok tlagra utalnak.
Ha (2)-bl kifejezzk brs t:
brs =
1
(brr + bss d rs2 )
2
s behelyettestjk (8.3)-(8.5) talaktott alakjait:
brs =
1 2
1 2
(d r + d 2s d 2 d rs2 ) =
(d rs d r2 d 2s + d 2 )
2
2
(8.6)
A koordintk szrmaztatsnak els lpsben (8.6) szerint ketts centrozst

vgeztnk. Most a B mtrix sajtrtk-sajtvektor dekompozcijval folytatjuk az
eljrst.
Ha (8.6)-ban ngyzetes euklideszi tvolsgok vannak, akkor belthat, hogy B
mtrix szimmetrikus, pozitv definit mtrix, amelynek a rangja k. gy B-nek van k
darab pozitv sajtrtke, melyek nagysg szerint sorba rendezhetek
(12...k>0). Diagonlis mtrixuk jele . A hozzjuk tartoz egysgnyi hossz
sajtvektorok (v1,vk) is kiszmthatk, s (nxk)-s mtrixuk V. A tovbbi (n-k)
sajtrtk zrus, ezrt k dimenzis trben kapjuk meg a megoldst. Teht B mtrix
felbontsval megkapjuk a keresett koordintkat:
B = V VT = XXT , ahol X=V1/2.
(8.7)
226
Megjegyzsek a klasszikus sklzs eredmnyeinek rtelmezshez
Ha k<p, akkor az eredeti trnl alacsonyabb dimenzij trben jelentjk

meg a megfigyelt pontokat.
Mivel a sajtvektorok eljele tetszleges, a szrmaztatott koordintk

rtelmezse nem mindig esik egybe az eredeti vltozk ternek irnyaival.
(Pldul ktdimenzis trben nem vrjuk el, hogy az els sk negyedben
legyenek a mindkt tulajdonsg szerint jobb megfigyelsek.)
A koordinta tengelyek nem is azonosthatk kzvetlenl az eredeti

vltozkkal.
Tbbvltozs regresszi-szmts vgezhet annak
megllaptsra, hogy melyik vltoz milyen ers hatst gyakorol egy-egy
tengelyen mrt koordintkra.
Ha a B mtrix (8.6) szerinti ellltskor nem az euklideszi tvolsgok

ngyzeteit ismerjk, akkor B nem pozitv szemidefinit, s nem k, hanem n
darab sajtrtke lesz, melyek kztt lesz legalbb egy zrus 126, s lehetnek
negatvok is. gy nem egyrtelm, hogy hny nagy sajtrtk van, s hny
dimenziban kell kiszmtani a koordintkat. Ilyenkor az javasolhat,
hogy annyi kis pozitv sajtrtket hagyjunk el, hogy sszegk
megegyezzen a negatv sajtrtkek sszegvel. gy a megmarad nagy
sajtrtkek sszege egyenl lesz a mtrix nyomval.
Br a klasszikus sklzs robusztus az euklideszi tvolsgtl val eltrsre,

nagy eltr tvolsg mrtkek hasznlata nem ajnlott. Ilyen esetekre nagy
negatv sajtrtk, vagy sok kzepes mret pozitv sajtrtk figyelmezteti
az alkalmazt.
A metrikus sklzs s a fkomponens elemzs eredmnyei kztt kzvetlen

kapcsolat van, ha a korrelcis mtrix felbontst s az egysgnyi variancit
eredmnyez sztenderdizlt euklideszi tvolsgok sklzst vetjk ssze. Ha az
(nxp)-s X mtrix elemei az tlagtl val eltrsek, s X rangja k<min(n;p), akkor az
XTX s az XXT szorzatmtrixok sajtrtkei megegyeznek, sajtvektoraik viszont
klnbz elemszmak. Ha a normalizlt sajtvektorokat 127 hasonltjuk ssze,
akkor egymsbl kzvetlenl elllthat eredmnyeket kapunk. Az i-edik
megfigyelsre vonatkoz fkomponensek score-ok (Xai) ngyzetsszege ppgy i ,
mint a sklzssal kapott koordintk ngyzeteinek sszege. A (8.8)-ban felrt
egyenlsgben a sajtvektorok nknyes eljeltl eltekintnk:
i v i = X ai
(8.8)
Ha az eredmnyek azonosak, akkor mikor alkalmazzuk a fkomponens elemzst, s

mikor a sklzst? Fkomponens elemzst clszer vgezni, ha az indul
126
127
Lesz zrus sajtrtk, mivel B minden sorban az elemek sszege nulla.

A komponensek ngyzetsszege =1.
SOKDIMENZIS SKLZS
227
adatmtrixban n>5p, mert ekkor a (p*p) mret XTX dekompozcija jelent kisebb
feladatot.
8.3. Ordinlis sklzs

Egyes tudomnyterleteken, klnsen a pszicholgiban elfordul az, hogy a
klnbzsgek szmszer rtke kevsb fontos, mint a klnbzsgek sorrendje.
Ilyenkor az eredeti adatok helyett csak a rangszmokat hasznljuk, s arra
treksznk, hogy az n pont kztt szrmaztatott tvolsgok (kzelsgek, angolul
proximities=p*) 2-3 dimenziban 128 j egyezst mutassanak a klnbzsgekkel.
Ez a kvetelmny nem elgsges ahhoz, hogy egyrtelm megoldst kapjunk, ezrt
feltesszk, hogy pontjaink az orig krl helyezkednek el, s az origtl mrt
tvolsgok ngyzetgyke egysgnyi.
A nem-metrikus sklzs itercival vgezhet. Feltteleznk egy kezdeti
konfigurcit a p* dimenzis trben, e koordintkbl a pont-prokra szrmaztatott
euklideszi tvolsgot (drs) szmolunk, s ezeket sszevetjk a megfigyelt
klnbzsgekkel (rs). Ha a tvolsgok sorrendje megegyezik a klnbzsgek
sorrendjvel, akkor megfelel kezdeti konfigurcit talltunk. A tkletes egyezs
ritkn rhet el, csak gyenge monotonitst kvetelnk meg, azaz a klnbzsgek
azonossgt nem, csak a tvolsgok egyezst engedjk meg:
ha rs<tu , akkor d rs d tu lljon fenn.

A d becslt rtkt monoton regresszival lltjuk el. Ennek sorn az egymssal
megegyez klnbzsgekre ltalban nem tesznk kln kiktst, mert az egyez
klnbzsgekhez egyez tvolsgok megkvetelse konvergencia problmt
okozhat. Monoton regresszi alkalmazst mutatja a 8.1. tblzat s a 8.1. bra.
8.1. tblzat: A klnbzsgek rangsorhoz illeszked tvolsgok becslse
monoton regresszival
Klnbzsg
Tvolsg
Becslt tv.
128
Itt a tnyleges dimenziszm nem ismert. A keresett dimenziszmot az illeszkeds

alapjn prblgatssal llaptjuk meg. Egyes szakterleteken, pl. az archeolgiban egy
dimenzis eredmnyt, azaz idbeli sorrendet hatroznak meg sklzssal.
228
tvolsgok
Monoton regresszi
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
8
8.1. bra: A klnbzsgek rangsorhoz illeszked tvolsgok
Ha nvekv klnbzsghez kisebb szrmaztatott tvolsg tartozna, akkor a

monoton regresszi vzszintes grbe lesz, mert a becslshez a tvolsgok tlagt
vesszk. A gyakorlatban elfordul, hogy csak tbb lpssel biztosthat a gyenge
monotonits.
A kezdeti konfigurci megfelel, ha az abbl szmtott s a becslt tvolsgok
eltrse kicsi. Az illeszkedsnek jsgt a Kruskal ltal javasolt clfggvnnyel, a
Stress 129-fggvnnyel mrjk:
S = ( d rs d rs ) 2 / d rs2
r <s
r <s
1/ 2
(8.9)
Az S a [0;1] tartomnyon vesz fel rtkeket, s Kruskal vlemnye szerint S<0,05 j

illeszkedst, S>0,20 gyenge illeszkedst jelent. Az illeszkeds jsgnak
megtlsekor ne felejtsk el azt, hogy n s p* is befolysolja az S rtkt. Tbb
pont vagy kevesebb dimenzi esetn nyilvn magasabb normalizlt rezidulis eltrs
ngyzetsszeg addik.
A nem-metrikus sklzssal elrt megolds ltalban csak loklis minimumot
szolgltat, s nem mindig konvergl. Tbb kezdeti konfigurcit 130 rdemes
kiprblni a kivlasztott p* dimenziban, s a dimenziszm vltoztatsa mellett
rdemes figyelni az S vltozst. Ha a dimenziszm fggvnyben felrajzoljuk az S
alakulst, akkor ltjuk, hogy milyen jelents a Stress cskkense a magasabb
dimenziban.
129
130
STRESS= Standardized Residual Sum of Squares

Ilyen kezdeti konfigurcinak vlaszthatjuk a metrikus sklzssal kapott koordintkat is.
SOKDIMENZIS SKLZS
229
sszefoglalva megllapthatjuk, hogy a metrikus s az ordinlis sklzs hasonl

eredmnyre vezet, ha euklideszi tvolsgokbl indulunk ki, de nem euklideszi
tvolsgnl csak a nem-metrikus sklzs alkalmazsa javasolhat.
8.4. A megvalsts lpsei az SPSS 131-ben

Az MDS trbeli koordintk kiszmtsa s az brzols az
ANALYSE/SCALE/MULTIDIMENSIONAL
vgezhet el.
SCALING
lpseket
kvetve
A nyit oldalon elszr azt kell megadni, hogy 1) az input tvolsgmtrix, vagy 2)
az (nxp)-s X megfigyelsi mtrixbl szmtjuk a tvolsgot:
1) Data are distances
Ha tvolsgmtrixbl indulunk, akkor a mtrix alakjrl is informcit kell adnunk,
mert a tvolsgmtrix lehet
Ngyzetes, szimmetrikus. Ekkor a sorokban s az oszlopokban ugyanazok

vannak felsorolva, s klnbzsgk az sszevets sorrendjtl
fggetlenl azonos. Ez a leggyakoribb tvolsgrtelmezs.
Ngyzetes, aszimmetrikus. A sorokban s az oszlopokban most is

ugyanazok vannak felsorolva, de klnbzsgk mrtke ms az als s a
fels hromszgben (pl. kilomterben s mrfldben is megadjuk kt-kt
vros tvolsgt).
Hromszg (Rectangular) alak. Ilyen mtrixunk van, ha az egyik csoport

minden eleme azonos tvolsgra van a msik csoport elemeitl, s a
csoporton belli tvolsgokrl nincs informcink. Formailag az X (nxp)
adatmtrix is ilyennek tekinthet, mivel n ltalban nem egyezik meg p-vel.
2) Create distances from data

Ebben az esetben a listbl kivlasztjuk a vltozkat.
a) Elszr arrl kell dntennk, hogy a megfigyelsek (n darab) vagy a
vltozk (p darab) kztti klnbsget mrjk, mert az els esetben (nxn), a
msodikban (pxp, ahol p>3) lesz a tvolsgmtrix mrete.
b) A vltozk mrsi skljt is meg kell adni, vegyes skla vlasztsa nem
lehetsges.
Intervallum skln hat tvolsgmrtk 132 vlaszthat, alaprtelmezs

az euklideszi tvolsg. Vlaszthat ngyzetes euklideszi, Csebisev,
city-blokk, Minkowski vagy customized tavolsg.
Az SPSS ksbbi vltozatai ltalban knyelmesebbek, tbb lehetsget ajnlanak fel.

gy tapasztaltam, hogy az MDS-ben ez nem sikerlt.
131
230
Gyakorisgokra kt mrszmot tallunk. A fggetlensg felttelezse

melletti khi-ngyzet s a phi-ngyzet szmthat.
Binris skln hat mrtket knl a program. Ezek rszhalmazt

kpezik a klaszterezsnl megismert mrtkeknek.
c) Sztenderdizlhatjuk az adatokat a vltozk szerint (alaprtelmezs) vagy az

egyes eseteken bell hatfle rtelemben.
A sztenderdizlssal kaphatunk
0 vrhat rtk s 1 szrs z vltozt,
(-1,+1) tartomnyon mozg rtkeket, ha a terjedelemmel osztunk,
(0,1) kztt vltoz rtket, ha a minimumot vonjuk le minden rtkbl, s

a terjedelemmel osztunk,
egysgnyi kiterjeds relatv rtket, ha a maximlis rtkkel osztunk,
egysgnyi vrhat rtk vltozt, ha az tlaggal osztunk (Ha az tlag

zrus, minden megfigyelshez egyet hozzadunk.),
egysgnyi szrs vltozt, ha a szrssal osztunk.
A Model menpont vezet el a modellvlasztshoz, ahol elszr a modell mrsi

szintjt adjuk meg.
a) Level of Measurement
Ordinlis szinten mrt adatokra a Kruskal-fle nem-metrikus sklzst

hajtjuk vgre monoton transzformcival.
Intervallum vagy arnysklt vlasztva metrikus sklzst vgznk.
b) A sklz modellek msik lehetsges csoportostsa attl fgg, hogy hny

mtrixunk van.
Euklideszi tvolsg modellt vlasztunk, ha egyetlen mtrixunk van. Ekkor

klasszikus sklzst (KMDS) hajtunk vgre, amely lehet metrikus s nemmetrikus is.
Ha tbb - azonos mret - mtrixunk van, amelyek az egyni

klnbsgeket 133 rjk le, akkor INDSCAL eljrst vgznk.
A tvolsgmrtkeket a klaszterelemzsnl rszletesen trgyaltuk. Emlkeztetl: a

customized tvolsg a koordinta eltrseket p-edik hatvnyra emeli, majd ezek sszegbl redik gykt von. A p s r megfelel megvlasztsval a tbbi tvolsgot megkaphatjuk,
kivve a Csebisev mrtket, amely a maximlis koordinta-eltrssel egyenl.
133
Az egyni klnbsgek eredhetnek abbl, hogy klnbz idpontokban, klnbz
felttelek kztt mrnk valamit, vagy klnbz vgzettsg emberek vlemnyt
132
SOKDIMENZIS SKLZS
231
c) A tvolsgmtrix egyes elemeinek rtelme fgghet attl, hogy a mtrix mely

rszben tallhat. Errl adunk informcit, ha a Conditionality 3 lehetsge
kzl vlasztunk.
Matrix: szimmetrikus tvolsgmtrix, ez az alaprtelmezs. Az eltrsek

azonos mrsi skln kerltek szmszerstsre.
Row: a sorokban pldul klnbz szakrtket sorolunk fel, akiknek a

szubjektv tletei alapjn mrjk egyes termkek hasonlsgt, s
felttelezzk, hogy a szakrtk eltr sklt hasznlnak. (Aszimmetrikus s
hromszg mtrixokra hasznlhat.)
Unconditional: akkor hasznljuk, ha tbb azonos mret mtrixunk van.

gy pldul hrom-utas faktorelemzst is vgrehajthatunk, ha intervallum
vagy arny skln mrt adatok tvolsgt szmtjuk.
d) A modellspecifikci negyedik fontos lpse a dimenziszm

meghatrozsa. Minimum (1 az alaprtk) s maximum (6) adhat meg. E kt
rtkre s kztk minden egsz szmra megkapjuk az eredmnytblkat.
Opcik a sklzsban
Az opcik kztt brkat vlaszthatunk, s konvergencia kritriumot llthatunk be.
a) brk:
Group plots: egy kzs trben brzolja a pontokat a kiszmtott

koordintk alapjn. Annyi bra kszl, amennyi a tr dimenzijnak
mrtke a megadott minimum s maximum kztt. Egyttal kapunk egy
pontdiagramot is, amely az eredeti tvolsgok (x tengely) s az MDS
trbeli tvolsgok (y tengely) illeszkedst mutatja.
Individual subject plot, szimmetrikus tvolsgmtrixra krhet.
Adatmtrix megjellse esetn az indul s a sklzssal kapott

tvolsgmtrixot ltjuk kinyomtatva. Ezek illeszkedst mutatja a
pontdiagram.
Modell s sszegzs: az eredmnyt befolysol belltsokrl ad

sszefoglalt. Akkor clszer hasznlni, ha tbb futtats kszl, s gy
ltjuk, hogy miben klnbznek egymstl.
b) Hrom kritrium belltst vltoztathatjuk meg. Az a kvetelmny lltja

le az itercit, amelyik elszr teljesl.
S-stress konvergencia: Lell az itercis eljrs, ha a clfggvny (S-stress)

vltozsa kisebb, mint 0,001. Kisebb szmmal pontosabb megoldst
krdezzk, stb. Az Individual Differences Scaling rvidtsbl ered az eljrs INDSCAL

elnevezse.
232
kapunk, nagyobb rtk megadsval rvidebb a szmtsi id. Zrus
megadsval 30 itercis lpst hajt vgre az SPSS.
Minimum S-stress: lell a program, ha (az alaprtelmezs szerint) 0,005

alatti S clfggvny-rtket kapunk. Gyakorlati szably, hogy kivl az
illeszkeds, ha S kisebb, mint 0,05. Ez vagy egy nagyobb rtk kevesebb
itercit ignyel. Brmely 0 s 1 kzti szm megadhat.
Maximlis iterci szm: 30 az alaprtk, de nvelhet.
Alapbellts szerint a nullnl kisebb tvolsgokat hinyz adatknt kezeli az

SPSS.
8.5. Az eredmnyek rszletezse, rtelmezse

Budapest 23 kerletnek vizt jellemeztk 4 vltoz mentn, s euklideszi
tvolsgot szmtottunk a sztenderdizlt vltozkra. 2 s 3 dimenzis megoldst is
krtnk az sszehasonlts rdekben.
Mivel magasabb dimenziban tkletesebb az illeszkeds, mindig a maximlis
dimenziszmhoz tartoz megoldst kapjuk meg elszr. Mivel az output nem
tagolt, szmokkal trdelve, szakaszosan fznk megjegyzseket az eredmnyekhez.
1) A hromdimenzis megolds
Az iterci a 3. lpsben lell, mert a clfggvny cskkense kisebb, mint egy ezred.
Iteration history for the 3 dimensional solution (in squared distances)
Young's S-stress formula 1 is used.
Iteration S-stress
Improvement
1
,04234
2
,03342
,00892
3
,03308
,00034
Iterations stopped because
S-stress improvement is less than ,001000
Stress and squared correlation (RSQ) in distances
RSQ values are the proportion of variance of the scaled data (disparities)
in the partition (row, matrix, or entire data) which
is accounted for by their corresponding distances.
Stress values are Kruskal's stress formula 1.
For matrix
Stress = ,02618
RSQ = ,99630
Az illeszkeds hrom dimenziban kivl, S=0,02618 kisebb, mint 0,05. Az adatok
s a tvolsgok megfelelst mr R2 nagyon magas: 0,9963
SOKDIMENZIS SKLZS
233
2) A koordintk
A vetleteket megkapjuk hrom dimenziban, de sajnos kzvetlenl a ments
nem lehetsges.
Configuration derived in 3 dimensions
Stimulus Coordinates
Dimension
Stimulus Stimulus 1
2
3
Number
Name
1
1,2151 1,1148 ,2766
2
,3576 ,8341 1,2442
3
1,7544 -,3214 -,1385
4
,9237 -1,0688 -,2229
5
,6276 2,9403 ,0390
6
1,0598 -,6098 -,7026
7
,6630 -,8249 -,2454
8
-,3203 -1,5557 1,2401
9
-,8091 -,9016 1,2216
10
1,1973 ,0522 -1,0767
11
-,4442 1,1190 -,6994
12
,6089 1,2245 ,8052
13
,6436 -,1807 ,0765
14
,5090 -,3929 ,6542
15
,6622 -,6255 -,1427
16
,9285 -,8751 -,1241
17
,5104 -,0429 ,0703
18
,0396 -,0856 -,2694
19
-,8464 -,7769 -1,1336
20
-1,4968 1,1220 -,4716
21
-1,9283 ,0073 -,5381
22
-2,8726 ,1205 ,6089
23
-2,9831 -,2731 -,4715
234
3) Az iterci lpsei
A ktdimenzis iterci is a harmadik lpsben ll meg.
Iteration history for the 2 dimensional solution (in squared distances)
Iteration
1
2
3
S-stress
,16331
,14217
,14173
Improvement
,02114
,00044
Iterations stopped because

S-stress improvement is less than ,001000
Stress and squared correlation (RSQ) in distances
For matrix Stress = ,12402
RSQ = ,93216
Az illeszkeds a dimenzicskkens miatt romlott, S=0,124 rtke 0,10 s 0,15 kz
esik, itt kzepes illeszkedsrl beszlnk. A tvolsgok determinltsga 93,2%.
4) A ktdimenzis koordintk
Ezek termszetesen nem egyeznek meg a hromdimenzis megolds els kt
tengelyre vonatkoz koordintkkal.
Dimension 1
2
1
VAR1
1,0377 ,9246
2
VAR2
,3620 1,0082
3
VAR3
1,4920 -,2629
4
VAR4
,8007 -,8864
5
VAR5
,5252 2,5081
6
VAR6
,9701 -,5448
7
VAR7
,5713 -,6737
8
VAR8
-,2607 -1,5925
9
VAR9
-,8046 -1,0084
10
VAR10
1,2050 ,0636
11
VAR11
-,4095 1,0159
12
VAR12
,5454 1,1262
13
VAR13
,5318 -,1242
SOKDIMENZIS SKLZS
14
15
16
17
18
19
20
21
22
23
VAR14
VAR15
VAR16
VAR17
VAR18
VAR19
VAR20
VAR21
VAR22
VAR23
,4737
,5610
,7986
,4160
,0301
-,8319
-1,2869
-1,6589
-2,4946
-2,5737
235
-,3509
-,4893
-,7019
-,0153
-,0453
-,8313
,9575
,0195
,1221
-,2187
5) Csoporttrbeli bra
Dimenzinknt kapjuk a csoporttrbeli brkat. Itt csak a ktdimenzis trkpet
mutatjuk be. Feliratozst nem lehet vlasztani, a megfigyelseket mindig
sorszmokkal azonostjuk (8.2. bra).
Derived Stimulus Configuration

Euclidean distance model
3
case 5
2
case 20
1
case 22
case 23
Dimension 2
case 12
case 2
case 1
case 11
case 21
case 19
case 9
case 10
case
case 18
case1713
case 3
case 14
case 15
case 6
case
7
case 16
case 4
-1
case 8
-2
-3
-2
-1
Dimension 1
8.2. bra: MDS trkp kt dimenziban
6) Az eredeti s a szmtott tvolsgok egyezsnek pontdiagramja
236
Az brn is lthat, hogy nem tkletes az illeszkeds, mert eredetileg relatve tvol
lev pont-pr (disparits=2) nagyon kzel kerlt a sklatrkpen (distance= 0,1). A
hromdimenzis megolds pontdiagramjn a tvolsg-prok szinte tkletesen a 45
fokos egyenesen fekszenek. (8.3. bra)
Scatterplot of Linear Fit

Euclidean distance model
5
Distances
0
-1
Disparities
8.3. bra: Az eredeti s a szmtott tvolsgok egyezse
8.6. Az egyni klnbsgek sklzsa (INDSCAL)

Az MDS alkalmazsnak klnsen fontos esete az, amikor tbb idpontra
vonatkoz megfigyelsnk van, vagy klnbz krlmnyek 134 kztt gyjtttnk
adatokat, vagy tbb egyn vlemnyt ismerjk.
Ha az n szm megfigyelst a p vltoz terben tbb idpontban mrtnk, akkor 3
dimenzis adattmbnk van, amelyben az ltalnos elem xivt , ahol i=1,,n a
megfigyelsek indexe, v=1,,p a vltozk azonostja, s t=1,,T az idpontokat
jelzi. Ha nem az idbeni klnbsgek a dntek, hanem a megfigyels krlmnyei,
vagy az egyni vlekedsek, akkor ezt a k index jelzi az xivk jellsben, ahol
k=1,,K.
Most is addhat olyan feladat, amelyben a megfigyelsek, vagy a p szm vltoz
kapcsolatrendszert, a kztk lev tvolsg vagy hasonlsg alapjn vizsgljuk,
Fizikai ksrleteknl ilyen pl. a hmrsklet vltoztatsa, egy kezels vagy beavatkozs
eltt s utn val mrs, a biztostsmatematikban a technikai kamatlb klnbz mrtke
mellett elvgzett szmtsok.
134
SOKDIMENZIS SKLZS
237
teht (nxn) vagy (pxp) mret klnbzsgi mtrixbl ll rendelkezsnkre tbb,

amelyeket klnbz idpontokban, klnbz felttelek teljeslse mellett
gyjtttnk. Input mtrixunk teht hromdimenzis. ltalnos eleme ijk , ahol i s j
az sszehasonltott eseteket vagy vltozkat, k pedig a mtrix harmadik dimenzijt,
az egynt, az idt vagy a krlmnyt jelli.
Az idpontok vagy a krnyezet vltozsa ltalban befolysolja a vltozk vagy
megfigyelsek kapcsolatrendszert, s ez a hats gy jelenik meg, mintha az egyes
idpontokban ms s ms slyt rendelnnk a kzs MDS trkp koordintihoz. Ezt
a slyozott euklideszi modellt nevezzk az egyni klnbsgek sklzsnak, ahol a
klnbzsgek stabilitst vizsglhatjuk gy, hogy az ismtlden megfigyelt
mtrixokra az egyni klnbsgeket feltr INDSCAL eljrst alkalmazzuk.
A szmtsok sorn ellltjuk a kzs dimenzis trben az MDS koordintkat,
amelyek azt a helyzetet tkrzik, amikor az ismtlden rendelkezsre ll mtrixok
szisztematikusan nem klnbznek. Az egyedi y koordintk kztt kznsges
euklideszi tvolsgot szmtunk, s ezen tvolsgok (monoton vagy lineris)
fggvnyei az eredeti klnbzsgek:
ijk = f (d ijk ), ahol
d ijk
r
2
= ( y iks y jks )
s =1
1/ 2
A kzs tr felttelezsre tett hipotzist ellenrizzk azzal, hogy az egyes

idpontok vagy krlmnyek kztt mrt adatokban rejl egyedisget kifejezzk, s
mint az MDS tengelyekre vonatkoz slyokat szmszerstjk.
Az egyedi terek (y) s a csoport tr (x) kztt az egyedi slyok teremtenek
kapcsolatot:
y iks = wks xik
y jks = wks x jk ,
ezrt a kzs trben mrt tvolsg a slyozott kzs koordintkbl is elllthat:
d ijk
r
2
= wks (xis x js )
s =1
1/ 2
A w sly teht a k-adik egynre (idpontra vagy krlmnyre) s az MDS

koordintra vonatkoz, 0 s 1 kztti szm. A sly ngyzete az s-edik dimenzi
fontossgt fejezi ki. A slyok sor-ngyzetsszege determincis egytthatknt
rtelmezhet, s a k-adik egyn tvolsgai s klnbzsgei kzti megfelels
mrtkt fejezi ki.
r
w
s =1
2
ks
= Rk2
Minden egyn slyai egy (rxr) mret diagonlis Wk mtrixba rendezhetk.
238
8.7. Az INDSCAL megvalstsa az SPSS-ben

A futtats belltsa megegyezik az alapbelltssal, kt kiegsztssel:
a Modell gomb alatt kell jelezni, hogy tbb azonos mret mtrixunk van,
ezrt egyni klnbsgeket sklzunk,
tovbb az Opcik rszben az brknl krjk az Individual subject plot

brt 135.
Az eredmnyek ttekintse kzben rszletezzk az illeszkeds jsgnak mutatit.

A WORLD95 adatokat futtatjuk, 4 vltoz hasonlsgt trjuk fel INDSCAL-lal,
gy, hogy a rgi vltoz 6 kategrijt hasznljuk.
Vltozink: rstuds, vrosi npessg arnya, frfi s ni vrhat lettartam. A
vltozkat sztenderdizljuk, euklideszi tvolsgot szmolunk, s 2 dimenzis
megoldst krnk.
Az eredmnyek rszletezse, rtelmezse
Az eredmnyeket a klasszikus MDS-hez hasonl szerkezetben kapjuk, ezrt most is
tagoljuk.
1) A clfggvny vltozsa az iterci sorn
Iteration S-stress
Improvement
0
,17198
1
,15957
2
,15683
,00274
3
,15654
,00029
Iterations stopped because S-stress improvement is less than ,001000
Matrix
1
3
5
Stress
RSQ
,214
,803
,044
,988
,076
,970
Matrix Stress
RSQ
2
,146
,935
4
,134
,934
6
,234
,699
Averaged (rms) over matrices
135
Az SPSS az egyedi tereket nem rajzolja le.
SOKDIMENZIS SKLZS
Stress = ,15664
239
RSQ = ,88810
Az illeszkeds jsgra adott korbbi minstst itt nem alkalmazzuk, mert a kzs
trben nem vrunk el az egyes rgiktl j illeszkedst. Hrom lps utn mr nem
javul jelentsen az illeszkeds. Rginknt nzve a 3. trsgben kivl, az 5.
trsgben j az illeszkeds.
A vgs Stress (0,15664) nem a rgis clfggvnyek tlaga, az R-ngyzet (0,8881)
viszont az egyes csoportok mrszmainak egyszer szmtani tlaga, teht a 89%
azt jelenti, hogy tlagosan j az illeszkeds.
2) Koordintk a kzs trben
Configuration derived in 2 dimensions
Dimension
Stimulus
1
2
1
URBAN
-1,0130 -1,4641
2
LIFEEXPF
,9989 ,2403
3
LIFEEXPM 1,0010 -,1126
4
LITERACY -,9869 1,3364
Ezek alapjn kszl el a kzs trben az bra, amelybl az egyedi slyok gykvel
szorozva az egyedi terekben a vltozk brzolhatk.
3) Az egyedi slyok s a weirdness (W) index
Subject Weights
Subject Weirdness Dim 1 Dim 2
1
,6807 ,8741 ,1980
2
,9029 ,9649 ,0652
3
,7561 ,2130 ,9709
4
,0843 ,7641 ,5914
5
,7032 ,2554 ,9510
6
,0709 ,6557 ,5184
Overall importance of each dimension:
,4699
,4182
Az egyedi slyok ngyzetgykvel szorozzuk a kzs koordintkat az egyes

dimenzikban. A szmokbl lthat, hogy a 2. rgi (Kzp-Kelet Eurpa) adja az
els tengelynek a maximlis slyt, az 5. rgi (Kzel-Kelet) pedig a legkisebbet. A
msodik tengely fontossgt a 3. s az 5. rgi hangslyozza magas sllyal.
Az egyes dimenzik ltalnos fontossga megegyezik a dimenzi slyok
ngyzetsszegnek egy csoportra es tlagval:
w
k =1
2
k1
/6
w
k =1
2
k2
/6
240
A szmtsok termszetbl addik, hogy az els dimenzi fontosabb (0,4699), mint

a msodik (0,4182).
A dimenzi-slyok eltt ll W-indexek 0 s 1 kztt vehetnek fel rtket.
rtelmezskhz rvid tmutatst is ad az output. A minimumot akkor kapja az
egyn (esetnkben egy rgi), ha a slyai az tlagos slyokkal arnyosak. Most a
6. rgi a legkisebb index (0,07), ami arra utal, hogy itt szoksos, tlagos a
vltozk kapcsolatrendszere. (A 45o egyeneshez kzel fekszik a slyt jelz pont.)
A maximumhoz kzeli index azt jelzi, hogy az adott rgi slyarnya nagyon
szokatlan, az tlagtl ersen eltr. Egy az index, ha csak egyetlen tengelyre
vonatkozik nagy sly, a tbbi tengelyhez kicsi slyt rendel az egyn. Pldaknt a 2.
rgi emlthet.
A slyok ternek rtelmezse figyelmet ignyel. Itt nem a slyok kzti tvolsg,
hanem az origbl a slyt jell ponthoz hzott vektorok kztt bezrt szgeket
rtelmezzk. Ha kicsi a bezrt szg kt sly-vektor kztt, akkor mondhatjuk, hogy
a kt egyn hasonlan slyozza a dimenzikat. A 45oegyeneshez kzeli vektor
tipikus, az attl tvoli vektor sajtos slyt jelez.
A W-index kiszmtshoz a sly-vektort normalizljuk 136:
wksn = wks / wks s egysgnyi hossz, vele linerisan sszefgg vektort

k =1
lltunk el:
v ks = wksn / ( wksn ) 2
s =1
1/ 2
Az egyni sly-vektor s a 45o egyenes ltal bezrt szg radinja kiszmthat, ha

figyelembe vesszk, hogy a maximlis szg radinja a dimenziszmbl hatrozhat
meg: cos-1 (r -1/2 ).
A W-index (WI) kplete:
WI = (cos 1 r 1 / 2
] v
r
s =1
ks
) /(cos 1 ( r 1 / 2 ))
4) Az egyedi hatsok lineris mrtke: Flattened Weights

Mivel az egyedi slyok kztti szgek rtelmezhetk, nem a slyok koordinti,
ezrt a szgekbl jra pontokat szrmaztatunk, hogy a kztk lthat tvolsgokat
rtelmezni tudjuk. Ezeket a laptott slyokat (r-1) dimenziba val vettssel
kapjuk, s az egynekre is (r-1) dimenziban jelennek meg. Az j slyok linerisan
rtelmezhetk, s sszegk minden tengelyre zrus. Pldnkban a kt dimenzis
sly-trben mindkt tengellyel 45o szget bezr egyenest hzunk, s erre vettjk a
136
A normalizlt slyokat nem kapjuk meg, de az index kiszmtshoz elvgzi az SPSS a

szmtst.
SOKDIMENZIS SKLZS
241
rgik slyait. Az tlagos sly rgi most nulla-kzeli F-slyt kap, az els tengelyt
preferlkhoz nagy pozitv, a msodik tengelyt kiemelkhz pedig nagy negatv
slyt rendel az eljrs.
5) brk az INDSCAL-ban
a) Csoport trben lthatk a vltozk (8.4. bra) vagy a megfigyelsek.
D erived Stim ulus C onfiguration

Individual dif ferences (weighted) E
1,5
people who rea d (% )
1,0
,5
avera ge fema le li fe
avera ge mal e life ex
0,0
Dimension 2
-,5
-1,0
-1,5
people living i n cit
-1,5
-1,0
-,5
0,0
D im ensio n 1
8.4. bra: A vltozk kzelsge
,5
1,0
1,5
242
b)
A
eltren
rgik
slyozzk
az
egyes
tengelyeket
(8.5.
bra).
D e r ive d Subj e ct W e i ghts

In divid ua l d iff e re nc e s ( w e ight e d)
3
1,0
,8
4
,6
Dimension 2
,4
1
,2
2
0,0
,2
,4
,6
,8
1,0
D i m e n sio n 1
8.5. bra: A rgik tengely-slyai

c)
A klnbzsgek s a tvolsgok lineris illeszkedst mutat bra

megegyezik a klasszikus MDS brval, ezrt kln nem kzljk.
d) A lineris slyok brja egy dimenziban a 8.6. brn lthat.
F lattened S ubject Weights

Ind ivid ual differences (w eighted)
1,8
1,5
1,3
1,0
,8
,5
4
6
,3
0,0
Variable 1
-,3
-,5
-,8
-1, 0
-1, 3
-1, 5
-,6
5
3
-,4
-,2
-,0
,2
O ne Dimens ional Plot
8.6. bra: A tengely-slyok egy dimenzis vetletei
,4
,6
SOKDIMENZIS SKLZS
243
A 4. s a 6. rgi lineris (Flattened) jelzszmai az orig kzelben egymsra

esnek, mert slyaik nagyon kzel kerletek az egy dimenziba trtn vetts sorn
egymshoz.
8.8 nll elemzsi feladatok

A Knyszerrtkests.sav adattblzat alkalmas az egyni klnbsgek
megjelentsre, akr a negyedvek, akr a terleti klnbsgek szerint bontjuk meg
a mintt.
1) Mutassa meg, hogy idben azaz az t negyedv szerinti bontsban vizsglva
az egyni klnbsget, eltr-e a ngy vltoz
a.
x1: Kvta alapja (db),
b.
x2: Kvta alapjn kijellhet maximum (db),
c.
x3: Knyszerrtkestsre kijellt (db),
d.
x4: Kvtakihasznltsg (%) kztti kapcsolatrendszer.
2) A regionlis klnbsgek statisztikai jelentsgt is feltrhatja az MDS

eljrssal, ha a megyk szerint mri a ngy vltoz
a.
x1: Kvta alapja (db),
b.
x2: Kvta alapjn kijellhet maximum (db),
c.
x3: Knyszerrtkestsre kijellt (db),
d.
x4: Kvtakihasznltsg (%) terben az egyni klnbsgeket.
Forrsok
Carol Alexander (2007): Market Models, A Guide to Financial Data Analysis, John
Wiley&Sons, Ltd
Chatfield, C. And Collins, A. J. (2000): Introduction to Multivariate Analysis,
Chapman & Hall/CRC, Boca Raton st al., (Reprint, First edition 1980)
Csendes Tibor (2001): Bevezets a szmtgpes statisztikba, Novadat, Szeged
Fsts Lszl Meszna Gyrgy Simonn Mosolyg Nra (1997): Trstatisztika,
Aula Kiad, Budapest
Fsts Lszl Kovcs Erzsbet Meszna Gyrgy Simonn Mosolyg Nra
(2004, 2007): Alakfelismers. Sokvltozs statisztikai modellezs a
trsadalomtudomnyokban jMandtum Kiad, Budapest
Green, Samuel B. Salkind, Neil J. Akey Theresa M. (2000): Using SPSS for
WINDOWS. Analyzing and Understanding Data, Prentice Hall International (UK)
Ltd, London (Second Edition)
Hajdu Ott (2003): Tbbvltozs statisztikai szmtsok, KSH, Budapest
Horvai Gyrgy (2001): Sokvltozs adatelemzs (Kemometria), Nemzeti
Tanknyvkiad, Bp.
Hunyadi Lszl (2001): Statisztikai kvetkeztetselmlet kzgazdszoknak, KSH,
Budapest
Hunyadi Lszl Mundrucz Gyrgy Vita Lszl (1997): Statisztika, AULA
Kiad, Budapest (II. kiads)
Jobson, J. D. (1992): Applied Multivariate Data Analysis, Volume I & II, SpringerVerlag, New York et al. (Second Edition)
Johnson, Dallas E. (1998): Applied Multivariate Methods for Data Analysts, Duxury
Press, Pacific Grow (California)
FORRSOK
245
Ketskemty Lszl Izs Lajos Knyves Tth Eld (2011): Bevezets az IBM
SPSS Statistics programrendszerbe, 3. kiads, Artria Stdi Kft, Budapest
Krzanowski, W. J. (2000): Principles of Multivariate Analysis. A Users
Perspective, Oxford University Press, Oxford (Revised Edition)
Maindonald, J.-Braun, W. J. (2008): Data Analysis and Graphics. Using R- an
Example-Based Approach, 2nd Edition, Cambridge Press
Norusis Maria, J. [SPSS Inc.] (1994): SPSS Professional Statistics 6.1., SPSS Inc.,
Chicago
SPSS Inc. (1998): SPSS Base 8.0. Applications Guide, SPPS Inc., Chicago
Szkelyi Mria Barna Ildik (2002): Tllkszlet az SPSS-hez. Tbbvltozs
elemzsi technikkrl trsadalomkutatk szmra, Typotex Kiad, Bp.

14 KOVACS E Tobbvalt Adatelemzes

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

14 KOVACS E Tobbvalt Adatelemzes

Uploaded by

Copyright:

Available Formats

TBBVLTOZS ADATELEMZS

Jegyzetek s pldatrak a matematika egyetemi oktatshoz

Budapesti Corvinus Egyetem

c 20142019, Dr. Kovcs Erzsbet, Budapesti Corvinus Egyetem, Operci

Lektorlta: goston Andrea

2. Kategrik s kereszttblk elemzse ........................................ 30

2.1. Kategrik ellltsa ....................................................................... 30

4.Tbbvltozs regressziszmts ................................................. 82

4.1. Az adatok ttekintse, elzetes megfontolsok ................................ 83

5. Logisztikus regresszi ................................................................ 126

6. Faktorelemzs ............................................................................. 148

6.4. Idsorok faktorelemzse ................................................................. 182

7. Diszkriminancia elemzs ............................................................ 189

8. Sokdimenzis sklzs ............................................................... 223

a matematikai httr bemutatsa, az alkalmazs elfelttelei,

az SPSS-ben elvgezhet elemzs technikja s

a mintaplda eredmnyeinek rtelmezse kvetik egymst.

A matematikai alapok ismertetse sorn kitrnk az adatok elksztsre is. Az

1. Ler s feltr adatelemzs

1.1. A vltozk mrsi sklja

Nominlis skln mrnk, ha csak megklnbztetst jeleznek a szmok

A frfi-n megklnbztetsre a 0-1, az 1-2, de az F-N is teljesen

Ugyangy pldul a budapesti kerleteket is azonosthatjuk arab

Tovbbi pldk tallhatk itt: http://en.wikipedia.org/wiki/Level_of_measurement

LER S FELTR ADATELEMZS

Az irnytszmok, a telefonszmok, rendszmok stb. mind

Ordinlis skln mrt adat mr preferencit is jelez. Kt megfigyels

Az letkorokat gyakran tves korcsoportokban hasznljuk, ha a

A teleplseket megadhatjuk gy, hogy 1=500 f alatti falu,

A jvedelemsvok, a gpjrmvek teljestmny kategorik is

Betkkel megadott ordinlis sklt is ismernk, pl. klfldi

A krdves vizsglatokban leggyakrabban pratlan (5,7,..) fok

Intervallum skln mrt adatok kztt mr eltrst is szmolunk s

Ha az idjrst Celsiusban mrjk, akkor az tlaghmrsklet

A fizetsek vagy a hitelsszegek ismeretben az tlagos rtkek s

Az egyetemi vizsgadolgozatok pontozsa is intervallum szint

Tbb minst cg 0-100 kztti pontszmmal, azaz intervallum

Az arnyskla specilis intervallumskla, amelyen mrt adatok kztt

A testmagassg s a testsly egyarnt arnyskln mrt vltozk.

Az letkor is arnyskln mrhet, hiszen a szlets pillanathoz

A Kelvin fokban mrt hmrskletnek is van abszolt nulla foka,

Napokban, hnapokban, vekben mrt tartamokat (befektets,

1.2. Ler statisztikk kivlasztsa az adatok mrsi sklja alapjn

A Frequencies funkci vlasztsval a nominlis s ordinlis vltozk

A Descriptive funkci az intervallum vagy arny sklj vltozk

LER S FELTR ADATELEMZS

Az Explore 2 funkcit vlasztjuk, ha almintkat is feltteleznk, vagy egy

A legfontosabb ler statisztikai mutatkat rviden ttekintjk, s a kpleteket is

Az Explore nemcsak almintk sszehasonltsra alkalmas. Egyetlen homogn

Mean: szmtani tlag,

Range: terjedelem= maximum-minimum

Variance: szrsngyzet, a sokasgban: 2 , ennek mintabeli becslse s2 s gyke

Std.Error: az tlag sztenderd hibja:

Skewness: ferdesgi mrtk, kplete: 1 = n

szerepel standard error elnevezssel az eredmnyeket bemutat 1.2. tblban.

A ferdesg torztatlan becslse

A nullhipotzis szerint a ferdesg=0. A ferdesgi mutat s a sztenderd hiba

LER S FELTR ADATELEMZS

Kurtosis: cscsossg, mrszma: 2 = n

eloszls esetben = 3. Ezt levonva kzvetlenl (2 - 3) alakban kapjuk a mutatt

. E variancia gyke szerepel

standard error elnevezssel az 1.2. tblzatban.

(n 1)(n 2 )(n 3)s 4

A pozitv cscsossg a normlis eloszls srsgfggvnynl hosszabb, vastagabb