Professional Documents
Culture Documents
7 MM Klaszter
7 MM Klaszter
7 MM Klaszter
Klaszterelemzés az SPSS-ben
Petrovics Petra
Doktorandusz
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis
• Olyan dimenziócsökkentő eljárás, amellyel
adattömböket – megfigyelési egységeket –
tudunk viszonylag homogén csoportokba
sorolni, klasszifikálni.
• Cél: megmutatni, hogy léteznek olyan
csoportok, amelyek jobban hasonlítanak
egymáshoz, mint más csoportok tagjai.
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• Piacszerkezet-elemzés
(versenytárs márkáival való helyettesíthetőség)
• Új termék lehetőségeinek feltárása
• Tesztpiacok kiválasztása
• Adatcsökkentés
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Klaszteranalízis folyamata
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Feladat
TK/286. oldal (Sajtos-Mitev)
• Levesport gyártó vállalat fogyasztóit
kérdezték meg
• Név: String
• Főzős: 1-7-ig terjedő skálán mennyit főz
• Házias: 1-7-ig terjedő skálán mennyire házias
• Nem: 1: férfi, 2: nő
• Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Név Főzős Házias Nem Lakhely Kereset
1 Béla 1 3 1 3 3000
2 Jenő 2 3 1 1 1500
3 Bea 5 5 2 2 2000
4 Marci 2 4 1 3 1000
5 Ubul 4 4 1 1 7000
6 Zsuzsa 2 7 2 1 8000
7 Rita 2 6 2 2 7000
8 Zoli 3 4 1 3 1500
9 Dávid 2 2 1 1 5000
10 Robi 6 5 1 3 1000
11 Kriszti 3 3 2 3 2000
12 Zsófi 6 6 2 2 4000
13 Géza 7 1 1 2 8000
14 Éva 6 7 2 1 1000
15 Dóra 5 7 2 1 3000
16 Vera 1 6 2 2 6000
SPSS
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
1.
• A probléma megfogalmazása
• A klaszterelemzés célja:
A levesporfogyasztókat bizonyos ismérvek alapján csoportokba
rendezni.
• Vizsgálandó elemek kiválasztása:
Sokaság nagysága: Pl. Magyarország levespor-fogyasztói
Mintanagyság meghatározása
Mintavétel módjának meghatározása
Most itt: n=16 fő (nem reprezentatív)
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
2.
• A klaszteranalízis feltételeinek vizsgálata I.
• Reprezentatív-e a minta?
Itt NEM nem vonhatunk le következtetéseket a
sokaságra vonatkozóan
• Kiugró adatok (outliers)
– Olyan abnormális megfigyelések, amelyek nem jellemzők a
sokaságra;
– Alulprezentálják az alapsokaságban levő csoport nagyságát.
2.
• A klaszteranalízis feltételeinek vizsgálata II.
• Skálák
– Hasonló skálázási adatok az összehasonlíthatók
– Célszerű: azonos mértékegység
(ok: nagyobb szórás nagyobb hatást mutat)
Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk;
A jövedelmet hasonlítanánk össze a főzéssel, stb.
zi =
xi − x Átlaga 0, Összehasonlítható
sx szórása 1 adatok
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
2.
• A klaszteranalízis feltételeinek vizsgálata III.
3.
• Hasonlósági és távolságmérték meghatározása
4.
• Klasztermódszer kiválasztása
Kombinált használat:
1. Hierarchikus: klaszterek ideális száma
2. Kiugró elemek kiszűrése
3. Nem hierarchikus csoportosítás
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
A szerintünk
releváns
változók
Ne használd,
lefagy a gép!
Ha az egyes Távolságmátrix
Megfigyelési
egységeket / egységeket el
változókat szeretnénk nevezni
szeretnénk
Jégcsapdiagram
összevonni
meghatározott
klasztertartományra
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Outlierek kiszűrése
miatt!
Távolságmérték
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Output
Rita Vera
Az új közös klaszter
melyik lépésben jelenik
meg legközelebb
(az alacsonyabb szám a
nyilvántartási szám)
Az összevonásra került
Az összevonás klaszter melyik lépésben
lépései Milyen távolságok jelenik meg először
alapján vonták
össze a klasztert
Túl nagy ugrás
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Géza ~
kiugró érték
Alulról kezdjük értelmezni:
Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Dendogram
Legkisebb távolság alapján von össze
Kiugró
értékek
kezelése
Géza ~
kiugró érték
Abnormális?
Ki kell zárni?
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Ez marad benn.
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
• Metrikus változók
• Nincs kiugró érték
• Nincs korreláció a
változók között
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
5.
• Klaszterek számának meghatározása
a. Kutatói tapasztalat
b. Távolságok
c. Könyökkritérium
d. Klaszterek relatív mértéke
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
b) Távolság ( Dendogram)
Ahol a koefficiens
értéke hirtelen
megnő
De: törekedjünk 5
körüli értéknél
meghatározni a
klaszterek számát
⇒ 2 v. 3 klaszter
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
c) Könyökkritérium
Ábraszerkesztés
Line
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
3 klaszter
(n-1) elem
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Konkrét
klaszterszám
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Graphs / Scatter/Dot…
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
6.
• Klaszterek értelmezése, jellemzése
• Klasztercentroidok és szórások
Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek
⇒ vegyes kapcsolat
6.
• Klaszterek jellemzése, elnevezése
7.
• Klaszterelemzés érvényességének ellenőrzése
• Más távolságmérték
• Más klasztereljárások
• Változók elhagyása
• A minta 2 részre bontása
• Az esetek sorrendjének megváltoztatása
• Nem hierarchikus klaszterelemzés…
Köszönöm a figyelmet!