Professional Documents
Culture Documents
Statisztika Izelito Spss
Statisztika Izelito Spss
Szappanos Adrienn
Ajánlással Varga Gábornak,
köszönettel Singer Júliának.
A statisztikai következtetések
Mivel egy statisztikai számítás során egy mintából következtetünk a nagyobb populáció
tulajdonságaira, sosem lehetünk benne teljesen biztosak, hogy a mintából kimaradt értékek
nem cáfolnak rá állításainkra. A következtetések éppen ezért megfogalmazásukban mindig
tartalmaznak egy valószín ségi értéket, amely azt határozza meg, mennyire lehetünk
biztosak az állítás helyességében.
1.
0,05), ami azt jelenti, hogy ha a mintavételt végtelen sokszor végrehajtjuk, akkor száz esetb l
mindössze átlagosan ötször fordul el az, hogy a próbafüggvény minta alapján kiszámított
értéke a kritikus tartományba esik. Egy-egy kérdés felmerülésekor rendszerint többféle
statisztikai próba is szóba jöhet. Mindig meg kell vizsgálni, hogy a feladatban teljesülnek-e a
próba alkalmazhatósági feltételei, melyek a kísérlet bizonyos küls sajátosságaira, a
csoportok egymáshoz való viszonyára, egyes statisztikai jellemz kre (leggyakrabban a
szórásra), az adatok számára, vagy egyszer en csak magukra az adatokra vonatoznak (pl.
normális eloszlás).
Az adatbázis leírása
2.
a valóságshow-król, írják le, miért nézik, ill. miért nem nézik ket. Válaszaik alapján 12
motivációs csoportot láttunk elkülönülni:
Ezen motivációs tényez k mindegyikéhez kidolgoztunk négy kérdést, melyek közül kett
egyenes, kett fordított volt, amire a választ hatfokú skálán kellett megadni. Azért
választottuk akkor a hatos számot, mert úgy gondoltuk, ha páros számú lehet séget adunk
meg, ezzel kiküszöbölhetjük, hogy a vizsgálati személyek túlnyomórészt a középs értéket
válasszák, azonban azzal nem számoltunk, hogy ennek ellenére a diákok a hármas számot
jelölik abban az esetben, ha véleményük semleges. A 48 kérdést randomizált sorrendben
helyeztük el a kérd íven, és adatfeldolgozás során a fordított kérdésekre kapott válaszpontot
átkonvertáltuk egyenes érték re, így egyetlen motivációs tényez t jellemz négy darab szám
a személynek ebben a dimenzióban való intenzitását írja le.
3.
1. nominális skála: nincs olyan értelmes szempont, amelynek alapján a változó értékei
sorrendbe helyezhet k (értelmes: x = y vagy x y), pl. nem, diagnózis.
2. ordinális skála: az értékek sorba rendezhet k (értelmes: x < y, x > y), pl. iskolai
végzettség, év végi érdemjegy.
3. intervallum-skála: az értékek sorba rendezhet k, és ezek azonos számszer különbségei
szakmailag azonos mérték különbséget jeleznek (értelmes: x–y, y–x), pl.
testh mérséklet, MAWI-IQ.
4. arányskála: a változó értékei sorba rendezhet k, és különbségeik mellett arányaik
azonos értékei is szakmailag azonosan értelmezhet mennyiségek (értelmes: x/y,
y/x), pl. testsúly, reakcióid .
Eljárás SPSS-ben:
Analyze Descriptive Statistics Frequencies…
Statistics… Mean, Median, Mode, Minimum, Maximum
Charts… Bar charts
Statistics
Ebb l a táblázatból az olvasható ki, hogy a teljes minta létszáma (N) 237 személy, közülük 11
valamiért nem jelezte nemét a kérd íven. Az átlag (mean) az eloszlás (distribution) várható
értéke, aminek jelen esetben csak annyi szerepe van, hogy láthatjuk, a két bináris változó
(iskola és nem) értékei nagyjából azonos gyakorisággal szerepelnek, tehát az iskolatípusok és
a nemek aránya kiegyenlített. A medián (median) a nagyság szerint sorba állított adatok
közül a középs vel egyenl (páros számú adat esetén a két középs számtani közepével), a
módusz (mode) pedig az az érték, amelyikb l a legtöbb el fordul (azaz a gyakorisági eloszlás
4.
csúcsának megfelel érték). Ha egy minta eloszlása tökéletesen szimmetrikus, e három
paraméter értéke azonos, de mivel ilyen szinte soha nincs, a paraméterek egymáshoz való
viszonyából gyorsan kiolvashatunk bizonyos jellemz ket az adott változóról. A
valóságshow-k nézésének dimenziójában például a legstabilabb mutató, az átlag 3 felé
közelít, azaz a fiatalok túlnyomó része hetente egyszer-kétszer nézte a valóságshow-kat
2002-ben, a módusz 4-es eredményéb l pedig azt tudhatjuk meg, hogy a négyfokú skála
legmagasabb értékével válaszoltak leggyakrabban. Az átlag 2,97 tehát nagy valószín séggel
úgy alakult ki, hogy a rengeteg 4-es számú felelet mellett körülbelül ugyanennyi 2-es számú
fordult el , és 1-esek csak elvétve.
Egy változó skálatípusa meghatározza azt is, milyen középértéket értelmes számolni vele
kapcsolatban. Az átlag csak kvantitatív (intervallum- és arányskálájú) változók esetén
ajánlott, a medián kiszámításához viszont már elegend az is, ha a változó ordinális skálájú.
Végül a módusz esetében nincsen semmi korlátozás a skálatípusra vonatkozóan, hiszen
„tipikus érték” akár nominális változón belül is lehetséges.
Ezek a középértékek egyetlen számmal adják meg a változó adatainak nagyságát, de hogy ez
az érték mennyire alkalmas az összes adat jellemzésére, az attól függ, mekkora eltérések,
ingadozások fordulnak el benne. A szórás (standard deviation) annak mér száma, hogy az
egyes adatok milyen közel helyezkednek el az átlaghoz viszonyítva. A fenti példánál
maradva, a valóságshow-nézés mértékénél a 0,9-es szórásérték illeszkedik az egyes értékek
el fordulási gyakoriságairól említettekhez, miszerint a két legjellemz bb válasz a 2-es és 4-es
érték volt. A terjedelem (range) a szóródás legegyszer bb mér száma, ami a legkisebb
(minimum) és legnagyobb (maximum) adat különbsége. Ez jelen esetben nem mond semmi
újat, hanem inkább a végtelen terjedelm eloszlásoknál van információértéke.
50 50
40
40 40
30
30 30
20
20 20
10
10 10
Percent
Percent
Percent
0 0 0
szakkozepiskola gimnazium fiu lany 1 2 3 4
5.
A motivációs tényez ket feltáró változók skalárisak 1-t l 6-ig, neveik pedig a kategória
nevének rövidítéséb l és a kategóriához tartozó kérdés számából (1-4) állnak. A négy darab
hatféle értéket felvenni képes változó összegéb l létrehoztunk 12 olyan új változót, melyek
így egy 4-t l 24-ig tartó ad hoc skálán differenciáltabb számításokat tesznek lehet vé. (Eljárás
SPSS-ben: Transform Compute… pl. szerep = szerep_1 + szerep_2 + szerep_3 +
szerep_4).
Descriptive Statistics
6.
Eljárás SPSS-ben:
Analyze Descriptive Statistics Explore…
Plots… Normaliy plots with tests
Tests of Normality
a
Kolmogorov-Smirnov Shapiro-Wilk
Statistic df Sig. Statistic df Sig.
SZEREP ,067 191 ,036 ,974 191 ,001
KULHEY ,066 191 ,043 ,989 191 ,128
KONFL ,073 191 ,014 ,985 191 ,037
KKAPCS ,084 191 ,002 ,963 191 ,000
UJDONS ,089 191 ,001 ,959 191 ,000
VALOS ,082 191 ,004 ,980 191 ,007
KENYSZ ,081 191 ,004 ,967 191 ,000
KUKK ,071 191 ,022 ,984 191 ,025
PSI ,067 191 ,037 ,991 191 ,248
ERTEKR ,094 191 ,000 ,983 191 ,018
TVFUGG ,079 191 ,006 ,983 191 ,020
SZOCNY ,102 191 ,000 ,984 191 ,026
a. Lilliefors Significance Correction
A t-próbák
Az egymintás t-próba (One-sample T-test) legtipikusabb alkalmazási területe az, amikor azt
vizsgáljuk, hogy egy kvantitatív változó értékszintje megváltozik-e két helyzet vagy id pont
között. Ez esetben a nullhipotézis az, hogy a változás mértéke nulla. A próba
alkalmazhatóságának feltétele mindössze annyi, hogy a szóban forgó változó normális
eloszlást mutasson. Az alábbiakban azt vizsgálom meg, a valóságshow-k nézésének mértéke
a mintán belül szignifikánsan eltér-e az 1-es értékt l, ami a kérd íven a „soha nem nézem”
választ képviselte.
Eljárás SPSS-ben:
Analyze Compare Means One-Sample T test…
Test Variable(s): rsnezes
Test Value: 1
7.
One-Sample Test
Test Value = 1
95% Confidence
Interval of the
Mean Difference
t df Sig. (2-tailed) Difference Lower Upper
RSNEZES 31,362 236 ,000 1,97 1,85 2,09
A t-próba a szignifikancia szintjét a szimmetrikus eloszlást alapul véve adja meg (2-tailed),
azaz ha a mi mintázatunk nem ilyen, akkor a kapott értéket el kell osztani kett vel (1-tailed).
Egy eloszlás akkor szimmetrikus, ha az x skálának van olyan szimmetriatengelye, amelyre
nézve a tengelyt l azonos távolságra lév x értékek ugyanakkora eséllyel fordulnak el . Az
átlagos eltérés (Mean Difference) azt adja meg, hogy a mintának ezen a változón belül
számított átlaga mennyivel tér el az elméleti értékt l (Test Value). Ez jelen esetben 1,97,
hiszen – mint azt el leg a leíró statisztika során láthattuk – a rsnezes változó átlaga 2,97. Az
elméleti értékt l való eltérés minimuma és maximuma 95%-os konfidencia-intervallum
mellett azt jelenti, hogy az elméleti értékt l való eltérés 95%-os eséllyel e két érték (lower és
upper) között található.
Eljárás SPSS-ben:
Analyze Compare Means Independent-Samples T test…
Test Variable(s): psi
Grouping Variable: nem
8.
(Összetartozó minták esetén csak a két változót kell megjelölni a ’Paired Variables’ ablakban,
pl. szívfrekvencia egy gyógyszer bevétele el tt és után. Az értelmezésre lehet séget adó
táblázat lényegesen nem különbözik a független mintás t-próba esetén kapott táblázattal.)
Statistics PSI
14
PSI 12
N Valid 227 10
Missing 10
8
Mean 13,36
6
Median 13,00
Skewness ,062 4
Kurtosis -,134 0
4 6 8 10 12 14 16 18 20 22 24
Std. Error of Kurtosis ,322
PSI
9.
eloszlások hegyesek és hosszú szél ek, míg az alacsony, negatív érték ek lapos, kurta
mintázatot mutatnak.)
Mivel megállapításunk szerint a jelenleg vizsgált psi változó tehát nem mutat szimmetrikus
eloszlást, a 0,099-es szignifikancia-értéket felezve p < 5%, azaz felfedezhet a különbség a
paraszociális interakcióra való hajlandóság tekintetében a középiskolás lányok és fiúk között.
Hogy ennek az eltérésnek az irányáról is tudomást szerezzünk, az Analyze Descriptive
Statistics Explore… útvonalon nemek szerinti diagramot készíthetünk (Dependent List:
psi, Factor List: nem).
0
N= 113 103
fiu lany
NEM
Varianciaanalízis
Eljárás SPSS-ben:
Analyze General Linear Model Univariate…
Dependent Variable: psi
Fixed Factor(s): rsnezes
10.
(’Fixed Factor(s)’-ba a kategoriális változók, ezzel szemben a kvantitatív független
változók a ’Covariate(s)’ ablakba kerülnek.)
Model… Sum of squares: Type III
(’Type III’: nem súlyoz, ’Type II’: a csoport mérete szerint súlyoz, ’Type I’: az els
kiválasztott szempont után következ már csak az els kiegészít hatásait teszteli. Mivel
az ANOVA alapvet en átlagokkal számol, a csoportonkénti kiegyenlítetlen elemszámok
nem jelentenek eleve súlyozott feldolgozást. Különbségek akkor vannak, ha a
kiegyenlítetlen elemszámok egy változón belül fordulnak el .)
11.
ellenhipotézisek száma. A mintaátlagok páronkénti összehasonlításának sok különböz
módszere létezik, melyek közül a legismertebb Scheffé módszere, aminek azonban igen kicsi az
ereje, és emiatt a létez elméleti különbségek kimutatásához viszonylag nagy mintákra van
szükség (konzervatív próba). Ugyanez igaz az LSD és a Bonferroni módszerre is. Hasonló
érvényesség , de jelent sen nagyobb erej a Tukey-féle eljárás, melynek érvényességéhez a
Scheffé módszerhez hasonlóan szükség van a normalitás és a szóráshomogenitás feltételére.
Ha ez utóbbi nem teljesül, a statisztikán egy kis korrekciót végrehajtva jutunk a Games-
Howell-féle páros összehasonlítás módszeréhez. Amennyiben a minták között van egy ún.
kontrollminta, melynek átlagát össze akarjuk hasonlítani a többi minta átlagával, ezt az
együttes összehasonlítást a Dunnett-próba segítségével tehetjük meg, ami nem végez el
minden lehetséges összevetést, csak a kijelölt kontrollcsoporttal párosítva a többit. A Duncan-
próba arra a kérdésre keresi a választ, hogy mely populációk egyformák, azaz homogén
csoportokra bontja a mintát.
Eljárás SPSS-ben:
Analyze General Linear Model Univariate…
Dependent Variable: psi
Fixed Factor(s): rsnezes
Post Hoc… Games-Howell
Multiple Comparisons
Mean
Difference 95% Confidence Interval
(I) RSNEZES (J) RSNEZES (I-J) Std. Error Sig. Lower Bound Upper Bound
soha néha -1,28 1,336 ,777 -5,35 2,80
hetente 1-2× -3,11 1,359 ,161 -7,21 ,99
hetente 3-nál többször -4,37* 1,307 ,035 -8,42 -,31
néha soha 1,28 1,336 ,777 -2,80 5,35
hetente 1-2× -1,83* ,677 ,039 -3,60 -,07
hetente 3-nál többször -3,09* ,566 ,000 -4,56 -1,62
hetente 1-2× soha 3,11 1,359 ,161 -,99 7,21
néha 1,83* ,677 ,039 ,07 3,60
hetente 3-nál többször -1,26 ,620 ,184 -2,88 ,36
hetente 3-nál többször soha 4,37* 1,307 ,035 ,31 8,42
néha 3,09* ,566 ,000 1,62 4,56
hetente 1-2× 1,26 ,620 ,184 -,36 2,88
Based on observed means.
*. The mean difference is significant at the ,05 level.
12.
A ’Mean Difference’ az egyes csoportok átlagainak eltérése irányát és mértékét mutatja,
csillaggal jelölve a szignifikáns különbségeket, melynek pontos értéke két oszloppal arrébb is
látható.
Eljárás SPSS-ben:
Analyze General Linear Model Univariate…
Dependent Variable: psi
Fixed Factor(s): rsnezes
Post Hoc… Duncan
(annak ellenére, hogy a Duncan-próba feltételei között is szerepel a szóráhomogenitás)
PSI
a,b,c
Duncan
Subset
RSNEZES N 1 2 3
soha 9 10,44
néha 75 11,72 11,72
hetente 1-2× 47 13,55 13,55
hetente 3-nál többször 96 14,81
Sig. ,207 ,070 ,212
Means for groups in homogeneous subsets are displayed.
Based on Type III Sum of Squares
The error term is Mean Square(Error) = 12,985.
a. Uses Harmonic Mean Sample Size = 25,618.
b. The group sizes are unequal. The harmonic mean of the group
sizes is used. Type I error levels are not guaranteed.
c. Alpha = ,05.
13.
Eljárás SPSS-ben:
Analyze General Linear Model Univariate…
Dependent Variable: psi
Fixed Factor(s): rsnezes, nem
Model… Sum of squares: Type I
Egy-egy szempont önálló hatását f hatásnak nevezzük, ami azt mutatja meg, hogy a vizsgált
változó átlaga ugyanakkora-e az adott szempont egyes szintjein. Mint az el bb az
egyszempontos varianciaanalízis során már kiderült, a valóságshow-nézés mértéke
befolyással van a paraszociális interakcióra, ezzel szemben a nemi hatás itt nem éri el a
szignifikáns szintet, ellentétben a független mintás t-próba során kapott eredményekkel. Ez a
különbség olyankor fordulhat el , ha a két szempont metszeteiben túl nagy eltérés van az
elemszámok között, és ilyen esetben a varianciaanalízissel számolt f hatások nem
vizsgálhatók egymástól függetlenül. Két szempont interakciója (más néven kereszthatás) azt
jelenti, hogy ha rögzítjük az egyik független változó értékét, akkor a másik független változó
mentén másképpen viselkedik a függ változó, mintha ezt az értéket másképpen
rögzítenénk (rsnezes * nem). Ez nem azt jelenti, hogy a két szempont egymással kapcsolatban
van, hanem azt, hogy együttes hatásuk a függ változó átlagára nem írható fel egyedi
hatásuk sima összegeként (azaz a kombinált hatás nem additív). Interakció jelenlétér l az
tanúskodik, ha a kapott diagramon a szempontokat reprezentáló egyenesek nem
párhuzamosak egymással. El leg a t-próba során csak annyit tudhattunk meg, hogy a
lányok hajlamosabbak paraszociális interakció kialakítására, de itt az is kit nik, hogy ez a
tendencia csak azokra az esetekre érvényes, amikor figyelemmel kísérik a valóságshow-kat,
mivel az rsnezes változó legalsó szintjén (soha) a helyzet megfordul. Ez interpretálható
lehetne úgy is, hogy alapvet en a fiúk hajlamosabbak a paraszociális interakcióra, de ebben
az új televíziós m fajban mégis a lányok alakítanak ki efféle kapcsolatot a show szerepl ivel.
Az interakció szignifikancia-szintje viszont több, mint 5%, ami feltehet leg a „soha” válaszok
14.
igen csekély számának köszönhet , azaz ilyen messzemen következtetésekbe nem
bocsátkozhatunk.
15
14 Between-Subjects Factors
Estimated Marginal Means
13 Value Label N
RSNEZES 1 soha 9
12
2 néha 72
11 NEM 3 hetente
45
1-2×
10 fiu 4 hetente
9 lany
3-nál 90
soha hetente 1-2× többször
néha hetente 3-nál többsz NEM 1 fiu 113
RSNEZES
2 lany 103
Nemparaméteres eljárások
15.
legkisebbnek adjuk az 1-es rangszámot, a következ nek a 2-est, stb. Összesen N rangszámot
osztunk ki, és egyenl adatok esetén is egyre növekv rangszámot adunk, majd az egyenl
adatokhoz tartozó rangszámokat utólag korrigáljuk a megfelel rangszámok átlagával (a
korrigált rangszámokat kapcsolt rangszámoknak nevezzük), és ezután külön összeadjuk a
pozitív vagy a negatív különbségekhez tartozó rangszámokat (s t, elég csak az egyiket). Ha
igaz a nullhipotézis, és a két sokaság azonos eloszlású, akkor a pozitív és a negatív
különbségekhez tartozó rangszámösszegek körülbelül egyformák lesznek. Minél nagyobb az
eltérés a két minta között, annál nagyobb lesz az eltérés a két rangszámösszeg között is.
Eljárás SPSS-ben:
Analyze Nonparametric Tests 2 Related Samples…
Test Type: Sign (el jelpróba), Wilcoxon
Eljárás SPSS-ben:
Analyze Nonparametric Tests 2 Independent Samples…
Test Type: Mann-Whitney U
Test Statisticsa
PSI
Ranks Mann-Whitney U 4853,500
NEM N Mean Rank Sum of Ranks Wilcoxon W 11294,500
PSI fiu 113 99,95 11294,50 Z -2,113
lany 103 117,88 12141,50 Asymp. Sig. (2-tailed) ,035
Total 216 a. Grouping Variable: NEM
Több csoport is képezhet összetartozó mintát, és ilyenkor nem helyes a fentebb ismertetett
Wilcoxon-próbát páronként alkalmazni, hanem helyette a Friedman próba áll rendelkezésre,
16.
melynek nullhipotézise szerint a több összetartozó minta ugyanazon populációból
származik. Az eljárás során az adatokat egyedenként rangsoroljuk, 1-t l t-ig (ahol t az
ismételt mérések száma), majd a kapott rangszámokat mérésenként összeadjuk (az összeg
jele Ri, ahol i = 1,… t). Ha egyes ismételt mérések között nincs különbség, akkor csak a
véletlent l függ, hogy melyik rangszám melyik ismétléshez kerül, következésképpen a
rangszámösszegek is körülbelül egyformák, és a Friedman próba ett l az egyformaságtól
való eltérést teszteli.
Eljárás SPSS-ben:
Analyze Nonparametric Tests K Related Samples…
Test Type: Friedman
Eljárás SPSS-ben:
Analyze Nonparametric Tests K Independent Samples…
Test Type: Kruskal-Wallis H
17.
Reliabilitás-elemzés
Eljárás SPSS-ben:
Analyze Scale Reliability Analysis…
Items: a 12 db motivációs tényez höz tartozó 4 kérdés válaszaiból alkotott változó
minden tényez esetében külön-külön számítva (tehát összesen 12 db reliabilitás-
vizsgálat)
Model: Alpha
Statistics… Descriptives for ’Scale if item deleted’
Az eredményt a 12 motivációs tényez közül nézzük meg azt a négy kérdést a vizsgálat alá
helyezve, melyek azt voltak hivatottak felmérni, hogy a valamely valóságshow nyomon
követését mennyire motiválja az, hogy ez a m faj eddig hazánkban ismeretlen volt (ujdons).
R E L I A B I L I T Y A N A L Y S I S - S C A L E (A L P H A)
Item-total Statistics
18.
Reliability Coefficients
N of Cases = 232,0 N of Items = 4
Alpha = ,7885
Maga az ’Alpha’ érték a mutatója annak, hogy a tanulmányozott négy kérdés összességében
mennyire korrelált egymással ( = (N × ) / (1 + (N - 1) × ), ahol az itemek közötti
korreláció átlaga), az ’Alpha if Item Deleted’ pedig azt mutatja, hogy ha az adott itemet
törölnénk, akkor a skála -koefficiense hogyan változna. Egy kérdéscsoportot akkor
tekinthetünk érvényesnek, ha a bel lük kapott -érték nagyobb, mint 0,7, tehát jelen
példában a m faj újdonságának hatását a hozzá alkotott kérdések megbízhatóan leírják
(’ujdons 1’: „Ezek a m sorok semmiben sem hoztak újat, hiszen ugyanezt látjuk a
szappanoperákban is.” (fordított item); ’ujdons 2’: „Érdekesnek találom a valóságshow-kat,
mert eddig ilyen nálunk még nem volt.”; ’ujdons 3’: „Magyarországnak semmi szüksége
ilyen m sorokra.” (fordított item); ’ujdons 4’: „Ideje volt már, hogy ez a m faj a hazai
néz közönséghez is eljusson.”). Mindemellett az is kiderül, hogy a megfogalmazott négy
item közül az els (’ujdons 1’) mondható legkevésbé reliabilisnek, hiszen ha ezt nem
vennénk bele az analízisbe, az -érték még magasabb lenne (0,8039).
Regresszióanalízis
Mivel a pontokra legjobban illeszked egyenest arra akarjuk használni, hogy x-b l y-ra
következtessünk, a legjobb egyenes az lesz, amellyel az el rejelzés hibája a legkisebb.
Minden egyes személyhez tartozik egy (x, y) adatpár, ami az i–edik személy esetében (xi, yi),
ahol yi az xi-hez tartozó valódi y-érték. Ugyanehhez az xi-hez az egyenes segítségével
19.
bejósolt y-értéket jelöli a i. Ha a jósló lineáris függvény alakja y = a + bx, akkor az xi-hez
bejósolt y-érték i = a + bxi. Ennél a személynél az adott egyenessel való jóslás ei-vel jelölt
hibája a valódi és a jósolt érték különbsége, azaz ei = yi - i. A teljes mintára vonatkozó hiba
lehetne például a személyenkénti hibák abszolút értékének átlaga (átlag abszolút eltérése), de
ehelyett a matematikai statisztikában ezt a személyenkénti ei hibák négyzetének átlagával
mérjük, és a szóban forgó egyenessel történ becslés reziduális vagy maradék hibájának
nevezzük (Res). A regressziós egyenes meghatározásának ezt a módját, mellyel az ei becslési
hibák négyzetösszegét minimalizáljuk, a legkisebb négyzetek módszerén alapuló
regressziónak nevezik.
Eljárás SPSS-ben:
Analyze Regression Linear…
Dependent Variable: psi
Independent(s): a többi 11 db 24-érték változó
Method: Stepwise
(Csak azokat a független változókat lépteti be az elemzésbe, melyeknek önálló prediktív
értékük van a függ változóra nézve, és ezt lépésenként teszi, ami által kiderül, a
bekerültek közül melyik a leginformatívabb független változó a függ változóra nézve.)
Plots… Y: *RESID, X: DEPENDENT (a reziduálisok grafikus vizsgálata)
Model Summarye
20.
A számításba vett tizenegy változó közül csupán négynek van önálló prediktív értéke a
paraszociális interakció mértékére (psi), és ezek közül a szerepl knek tulajdonított pozitív
vagy negatív jellemvonásokat jellemz változó a leginformatívabb, mely önmagában a
variancia 25%-át magyarázza (azaz a szerep változó ennyivel csökkenti a hibát az induló psi-
varianciához képest). A másik három változónak már nincs nagy szerepe, ezek együttesen
10%-ot magyaráznak a szerep 25%-án túl. Az ’Adjusted R Square’ a korrigált tapasztalati
variancia, ami az ’R Square’-b l számított, torzítatlanabb érték. A kett különbsége
mindössze annyi, hogy a mintabeli variancia képletének nevez jében (Var = Q/n) n helyett
n–1-gyel osztunk annak érdekében, hogy kisebb számmal osztva jobb becslést adjon a
populációra nézve. Persze ha nagy mintával dolgozunk, e kett között nincs nagy különbség,
de kis minta esetén nagy lehet az eltérés. A ’Standard Error of the Estimate’ szintén a
regressziós egyenes illeszkedését jelzi, hiszen ez a reziduálisok szórását jelenti. Minél
nagyobb az értéke, annál inkább számíthatunk olyan adatokra a független változóban,
amelyek igen messze esnek a regressziós egyenes által becsült értékt l. A szerep változó
esetében ez az érték 3,3, azaz a 24 értéket felvenni képes változón belül 3,3 egységnyi
pontossággal tudom megbecsülni az erre adott válasz-pontszámot.
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) 8,603 ,651 13,207 ,000
SZEREP ,406 ,050 ,508 8,104 ,000
2 (Constant) 13,888 1,401 9,912 ,000
SZEREP ,286 ,056 ,358 5,136 ,000
ERTEKR -,271 ,064 -,294 -4,213 ,000
3 (Constant) 12,288 1,463 8,399 ,000
SZEREP ,178 ,065 ,223 2,752 ,007
ERTEKR -,228 ,064 -,248 -3,547 ,000
KKAPCS ,168 ,054 ,246 3,115 ,002
4 (Constant) 10,957 1,581 6,929 ,000
SZEREP ,159 ,065 ,199 2,464 ,015
ERTEKR -,201 ,065 -,218 -3,088 ,002
KKAPCS ,140 ,055 ,205 2,539 ,012
VALOS ,133 ,063 ,146 2,108 ,036
a. Dependent Variable: PSI
21.
Faktoranalízis
Eljárás SPSS-ben:
Analyze Data Reduction Factor…
Variables: a motivációs tényez ket reprezentáló 12 változó
Extraction… Maximum likelihood
(A legnagyobb valószín ség korrelációs mátrixot adja meg, viszont ezáltal a változók
egyedi információtartalma elvész.)
Communalities
Initial Extraction
SZEREP ,588 ,609
KULHEY ,174 9,442E-02
KONFL ,167 ,170
UJDONS ,703 ,734
KENYSZ ,600 ,682
KUKK ,589 ,618
PSI ,396 ,467
ERTEKR ,419 ,502
SZOCNY ,208 ,193
KKAPCS ,713 ,765
TVFUGG ,349 ,348
VALOS ,356 ,354
Extraction Method: Maximum Likelihood.
Az iniciális kommunalitás (Initial) többé-kevésbé jól el rejelzi, hogy mely változók lesznek
azok, amelyek nem simulnak bele a latens struktúrába, és el bb-utóbb meg kell válnunk
lük. A kulhey, konfl és szocny változóval kapcsolatos negatív elvárásainkat rögtön igazolják
22.
is az ezekhez tartozó végs kommunalitás-értékek (Extraction), vagyis azt láthatjuk, hogy az
analízis során létrehozott faktorok a mért változók szóródásának hány százalékát
magyarázzák. (Kommunalitás: egy változónak az az információtartalma, amely a többi
változóban nincs benne. Ha egy változónak kicsi a kommunalitása, nem érdemes bevonni a
faktoranalízisbe, mert nincs értelme a jelenlétének, míg ha egy változó túl nagy egyedi
információértékkel bír, az nincs összhangban a többi változó kommunalitásának
mértékével.) Elfogadható módon leképezettnek tekinthetünk minden olyan változót,
melynek kommunalitása eléri a 0,25 értéket, azaz ha ragaszkodunk az lefuttatott analízis
által kapott faktorstruktúrához, akkor a fent említett három változótól meg kell válnunk.
23.
Factor Matrixa
Factor
1 2
SZEREP ,779 -4,69E-02
KULHEY -,298 7,557E-02
KONFL ,279 -,303
UJDONS ,857 1,455E-03
KENYSZ ,782 ,267
KUKK ,781 -8,92E-02
PSI ,599 -,328
ERTEKR -,621 ,342
SZOCNY ,432 7,974E-02
KKAPCS ,866 ,123
TVFUGG ,568 ,158
VALOS ,585 -,106
Extraction Method: Maximum Likelihood.
a. 2 factors extracted. 4 iterations required.
Eljárás SPSS-ben:
Analyze Data Reduction Factor…
Rotation… Varimax
(Rotálni többféle módszerrel lehet, de mindegyik arra törekszik, hogy egy változó csakis
egy faktorhoz köt djön nagy súllyal, és a Varimax technika ezt a faktorsúlyok
négyzetösszegének maximalizálásával éri el.)
24.
Factor Matrixa Rotated Factor Matrixa
Factor Factor
1 2 1 2
SZEREP ,779 -4,69E-02 SZEREP ,628 ,463
KULHEY -,298 7,557E-02 KULHEY -,209 -,225
KONFL ,279 -,303 KONFL 6,914E-02 ,406
UJDONS ,857 1,455E-03 UJDONS ,720 ,465
KENYSZ ,782 ,267 KENYSZ ,801 ,201
KUKK ,781 -8,92E-02 KUKK ,607 ,500
PSI ,599 -,328 PSI ,324 ,601
ERTEKR -,621 ,342 ERTEKR -,335 -,624
SZOCNY ,432 7,974E-02 SZOCNY ,406 ,168
KKAPCS ,866 ,123 KKAPCS ,793 ,368
TVFUGG ,568 ,158 TVFUGG ,563 ,176
VALOS ,585 -,106 VALOS ,433 ,407
Extraction Method: Maximum Likelihood. Extraction Method: Maximum Likelihood.
a. 2 factors extracted. 4 iterations required. Rotation Method: Varimax with Kaiser Normalization.
a. Rotation converged in 3 iterations.
Diszkriminanciaanalízis
25.
legjobban különbözzenek. Ezeknek a diszkrimináló függvényeknek éppen úgy meg kell
próbálni jelentést adni, ahogyan a faktoranalízis esetében tettük.
Eljárás SPSS-ben:
Analyze Classify Discriminant…
Grouping Variable: nem
Independents: a motivációs tényez ket reprezentáló 12 változó
(Use stepwise method: ha egy új változó beléptetésével egy már bent lév változó
magyarázóereje oly mértékben lecsökken, hogy a hozzá tartozó t-érték nem szignifikáns
magyarázatot jelez, a „legyengült” változó kilép a modellb l.)
Classify… Summary-table (találatmátrix)
Wilks' Lambda
Number of Exact F
Step Variables Lambda df1 df2 df3 Statistic df1 df2 Sig.
1 1 ,977 1 1 180 4,330 1 180,000 3,887E-02
2 2 ,939 2 1 180 5,770 2 179,000 3,730E-03
3 3 ,915 3 1 180 5,488 3 178,000 1,252E-03
Classification Resultsa
Predicted Group
Membership
NEM fiu lany Total
Original Count fiu 64 42 106
lany 41 58 99
Ungrouped cases 4 7 11
% fiu 60,4 39,6 100,0
lany 41,4 58,6 100,0
Ungrouped cases 36,4 63,6 100,0
a. 59,5% of original grouped cases correctly classified.
A modell illeszkedésének tesztje úgy néz ki, hogy a valóságos csoportba tartozásokat
összevetjük a diszkrimináló függvények alapján történt, becsült besorolásokkal, melynek
eredményei a találatmátrixban (Classification Results) látható. A helyesen besorolt elemek
26.
aránya 59,5 %, ami a véletlen szintet képvisel 50%-hoz képest nem túl jó eredmény, mert ez
azt jelenti, hogy a teljes minta több, mint 40%-a kimaradt az eljárásból.
Klaszteranalízis
Eljárás SPSS-ben:
Analyze Classify Hierarchical Cluster…
Variable(s): a motivációs tényez ket reprezentáló 12 változó
Statistics… Agglomeration Schedule (a klaszterképzés története)
Method…
Cluster Method: Between-groups lingage
27.
(A klaszterek valamennyi (már besorolt és még besorolatlan) elemét figyelembe veszi,
miközben az adott elem és az összes klaszterelem közötti átlagos távolságot veszi az
összevonás alapjául.)
Measure: Euclidean distance
(Az a mód, ahogyan két elem közötti távolságot definiálni akarunk, jelen esetben az
átlagos euklidészi távolsággal. A Pearson-féle mérés csak két eset válaszmintázatának
azonosságát vizsgálja, függetlenül az y tengelyen elfoglalt helyükt l, míg az
euklidészi módszer az abszolút távolságot is figyelembe veszi a csoportképzés során.)
Az ’Agglomeration Schedule’ (jelen esetben ennek eleje és vége összevágva látható) els
oszlopában az elemek klaszterekbe tömörítésének lépései vannak jelölve (azért 190 lépés,
mert a kiinduló állapotot nem tekinti annak, nevezetesen, amikor az összes elem külön
klasztert képez). Els ként a 93-as és 125-ös elem került egy klaszterbe, összevonásuk okát
pedig a „Coefficients” oszlopban találjuk, ami nem más, mint a két megfigyelés közötti
euklidészi távolság együtthatója. A táblázat utolsó oszlopában (Next Stage) az látszik, hogy
28.
ez a kételem klaszter a 86. lépésben fog újabb elemmel b vülni. Ennek átlátásához azt kell
tudnunk, hogy a táblázat nem sorolja fel a klaszterek valamennyi alkotóelemét, hanem úgy
utal egy-egy csoportra, hogy annak legkisebb sorszámú elemét használja jelölésképpen.
Ilyen nagy elemszám mellett az ’Agglomeration Schedule’ táblázat olyan nagy méret , hogy
áttekinthetetlenné válik, és nem ad módot az egyes klaszterek interpretálásra. A nagy
adatbázisokon alkalmazható nem hierarchikus analízis ahelyett, hogy az elemszámmal
megegyez számú egyelem klaszterek összeépítésével juttat el az optimális klaszter-
struktúrához, el zetes elvárásokra támaszkodva, vagy kedvez tlenebb esetben vakon kell
eldöntenünk, hány klaszterbe kívánjuk tömöríteni az elemeket. Az eljárás minden
klaszterhez egy-egy középpontot rendel, melyek a mintából meghatározott módon
kiválasztott elemek adatai. Az iniciális középpontok els lépésben a minta els k elemének
adatait jelentik, ahol k a kért klaszterek száma. Az ezt kiválasztó algoritmus lényege, hogy az
els k elem kiválasztása után a módszer sorba veszi a minta maradék elemeit,, és akkor cserél
ki egy már kiválasztott középpontot másik esetre, ha ennek az új esetnek a távolsága a hozzá
legközelebb es klaszterközépponthoz képest nagyobb, mint a két egymáshoz legközelebb
es , már kiválasztott középpont távolsága. Az algoritmus végén kapott középpontoknak
annyi koordinátája van, ahány változó mentén klasztereztük ket.
Eljárás SPSS-ben:
Analyze Classify K-Means Cluster…
Variables: a motivációs tényez ket reprezentáló 12 változó
Number of Clusters: 3
Cluster Cluster
1 2 3 1 2 3
SZEREP 19 13 4 SZEREP 16 12 7
KULHEY 24 12 19 KULHEY 13 15 16
KONFL 4 22 5 KONFL 16 16 13
UJDONS 24 17 4 UJDONS 21 15 8
KENYSZ 24 14 9 KENYSZ 17 12 7
KUKK 24 12 4 KUKK 17 13 8
PSI 14 16 4 PSI 16 14 10
ERTEKR 14 14 24 ERTEKR 11 14 18
SZOCNY 14 21 4 SZOCNY 17 14 13
KKAPCS 24 11 9 KKAPCS 20 13 7
TVFUGG 21 8 4 TVFUGG 17 14 10
VALOS 19 10 7 VALOS 14 12 8
Az ’Initial Cluster Centers’ táblázat az induló középpontok, a ’Final Cluster Centers’ táblázat
pedig a folyamat végén keletkez stabil klaszterek középpontjainak koordinátáit
tartalmazzák, melyek segítségével az egyes csoportokat a faktoranalízis folyamatanak
végéhez hasonlóan interpretálhatjuk.
29.
Felhasznált segédanyagok
http://www.hik.hu/tankonyvtar/site/books/b163/index.html
http://www.maxem17.amigo.hu/keret.cgi?/index.html/spsstut.htm
http://www.utexas.edu/its/rc/tutorials/stat/
30.