7 MM Klaszter

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 38

Miskolci Egyetem Gazdaságtudományi Kar

Üzleti Információgazdálkodási és Módszertani Intézet

Klaszterelemzés az SPSS-ben

Petrovics Petra
Doktorandusz
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis
• Olyan dimenziócsökkentő eljárás, amellyel
adattömböket – megfigyelési egységeket –
tudunk viszonylag homogén csoportokba
sorolni, klasszifikálni.
• Cél: megmutatni, hogy léteznek olyan
csoportok, amelyek jobban hasonlítanak
egymáshoz, mint más csoportok tagjai.
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Gyakorlati alkalmazási területei


• Piacszegmentálás
1. Releváns piac meghatározása
2. Szegmentáció alapjául szolgáló ismérvek meghatározása
3. Szegmentálás (Faktor-, klaszteranalízis)
4. 1 csoportba került fogyasztók jellemzése

• Piacszerkezet-elemzés
(versenytárs márkáival való helyettesíthetőség)
• Új termék lehetőségeinek feltárása
• Tesztpiacok kiválasztása
• Adatcsökkentés
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Klaszteranalízis folyamata
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Feladat
TK/286. oldal (Sajtos-Mitev)
• Levesport gyártó vállalat fogyasztóit
kérdezték meg
• Név: String
• Főzős: 1-7-ig terjedő skálán mennyit főz
• Házias: 1-7-ig terjedő skálán mennyire házias
• Nem: 1: férfi, 2: nő
• Lakhely: 1:Budapest, 2:megyeszékhely, 3: egyéb
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Név Főzős Házias Nem Lakhely Kereset
1 Béla 1 3 1 3 3000
2 Jenő 2 3 1 1 1500
3 Bea 5 5 2 2 2000
4 Marci 2 4 1 3 1000
5 Ubul 4 4 1 1 7000
6 Zsuzsa 2 7 2 1 8000
7 Rita 2 6 2 2 7000
8 Zoli 3 4 1 3 1500
9 Dávid 2 2 1 1 5000
10 Robi 6 5 1 3 1000
11 Kriszti 3 3 2 3 2000
12 Zsófi 6 6 2 2 4000
13 Géza 7 1 1 2 8000
14 Éva 6 7 2 1 1000
15 Dóra 5 7 2 1 3000
16 Vera 1 6 2 2 6000

Nem: 1-férfi, 2-nő


Lakhely: 1- Budapest, 2- megyeszékhely, 3-egyéb
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

SPSS
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

1.
• A probléma megfogalmazása

• A klaszterelemzés célja:
A levesporfogyasztókat bizonyos ismérvek alapján csoportokba
rendezni.
• Vizsgálandó elemek kiválasztása:
Sokaság nagysága: Pl. Magyarország levespor-fogyasztói
Mintanagyság meghatározása
Mintavétel módjának meghatározása
Most itt: n=16 fő (nem reprezentatív)
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

2.
• A klaszteranalízis feltételeinek vizsgálata I.

• Reprezentatív-e a minta?
Itt NEM nem vonhatunk le következtetéseket a
sokaságra vonatkozóan
• Kiugró adatok (outliers)
– Olyan abnormális megfigyelések, amelyek nem jellemzők a
sokaságra;
– Alulprezentálják az alapsokaságban levő csoport nagyságát.

Analyze / Classify / Hierarchical


Cluster / Method: Nearest neighbour
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

2.
• A klaszteranalízis feltételeinek vizsgálata II.

• Skálák
– Hasonló skálázási adatok az összehasonlíthatók
– Célszerű: azonos mértékegység
(ok: nagyobb szórás nagyobb hatást mutat)
Pl. a főzést és a házias jelleget nem ugyanazon az intervallumon mérnénk;
A jövedelmet hasonlítanánk össze a főzéssel, stb.

Ha eltér: standardizálni! Ha:


- a válaszok egymáshoz képesti relatív fontossága a lényeges,
- hasonló profilokat keresünk,
- nem érdekel a „válaszadó stílusa hatás”.

zi =
xi − x Átlaga 0, Összehasonlítható
sx szórása 1 adatok
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical


Cluster / Method…
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

2.
• A klaszteranalízis feltételeinek vizsgálata III.

• Erősen korrelálnak az elemzésbe bevont


változók egymással? Multikollinearitás

Analyze / Regression/ Linear …


Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

3.
• Hasonlósági és távolságmérték meghatározása

Bináris változók esetén Metrikus változók esetén


Távolságmérték Hasonlóságmérték Távolságmérték Hasonlóságmérték
Euklidészi Russel and Rao Euklidészi távolság Pearson korreláció
távolság

Négyzetes Egyszerű illesztés Négyzetes


euklidészi távolság euklidészi távolság
Variancia Jaccard City block
Yule Csebisev

Analyze / Classify / Hierarchical


Cluster / Method
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

4.
• Klasztermódszer kiválasztása

Hierarchikus Nem hierarchikus


Forgy:
Agglomeratív
Divízív (Felosztó) kezdőpont
(Összevonó) magpont
Pl: Belson:
Lánc Variancia Centroid kettéosztás
módszer módszer módszer
A centroidok (kp.)
A Ward-féle közötti távolság
legközelebbi Egyszerű
eljárás A klasztereken belüli szórásnégyzet
2 elem
növekedése a legkisebb
távolsága Teljes
A legtávolabbi 2 elem távolsága

Átlagos Az elemek közötti távolság átlaga


Forrás: Malhotra [2001]
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Hierarchikus módszer Nem hierarchikus módszer


Előnyös a használata, ha:
• nem tudjuk előre, hány • a mintavételi egységek száma magas
klasztert szeretnénk létrehozni • kevésbé függ kiugró értékektől
• kevésbé függ távolságmértékektől
• kevésbé függ attól, hogy került-e az
elemzésbe irreleváns változó
Hátránya
• Érzékeny a kiugró értékekre • A klaszterek számát előre kell
meghatározni
• Klaszterközéppont kiválasztása
• Függ a megfigyelések sorrendjétől

Kombinált használat:
1. Hierarchikus: klaszterek ideális száma
2. Kiugró elemek kiszűrése
3. Nem hierarchikus csoportosítás
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster Az összevonás


lépései

A szerintünk
releváns
változók

Ne használd,
lefagy a gép!
Ha az egyes Távolságmátrix
Megfigyelési
egységeket / egységeket el
változókat szeretnénk nevezni
szeretnénk
Jégcsapdiagram
összevonni
meghatározott
klasztertartományra
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Outlierek kiszűrése
miatt!
Távolságmérték
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Output
Rita Vera

Az új közös klaszter
melyik lépésben jelenik
meg legközelebb
(az alacsonyabb szám a
nyilvántartási szám)

Az összevonásra került
Az összevonás klaszter melyik lépésben
lépései Milyen távolságok jelenik meg először
alapján vonták
össze a klasztert
Túl nagy ugrás
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Vertical Icecle – Jégcsap diagram


Nagy
elemszám
esetében
nehezen
kezelhető.
3

Géza ~
kiugró érték
Alulról kezdjük értelmezni:
Hol a legnagyobb a nevek közötti vonal? – Vera és Rita – 1. klaszterképzés
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Dendogram
Legkisebb távolság alapján von össze

Kiugró
értékek
kezelése

Géza ~
kiugró érték

Abnormális?
Ki kell zárni?
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Kiugró elemek törlése


Data / Select Cases / If condition is satisfied…

Ez marad benn.
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical Cluster / Method: Ward

• Metrikus változók
• Nincs kiugró érték
• Nincs korreláció a
változók között
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

5.
• Klaszterek számának meghatározása

a. Kutatói tapasztalat
b. Távolságok
c. Könyökkritérium
d. Klaszterek relatív mértéke
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

b) Távolság ( Dendogram)
Ahol a koefficiens
értéke hirtelen
megnő

De: törekedjünk 5
körüli értéknél
meghatározni a
klaszterek számát

⇒ 2 v. 3 klaszter
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

c) Könyökkritérium

Ábraszerkesztés
Line
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

⇒ 12. lépés után


n - stagetöréspont

3 klaszter

(n-1) elem
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Analyze / Classify / Hierarchical


Cluster / Save…

Konkrét
klaszterszám
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Graphs / Scatter/Dot…
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

6.
• Klaszterek értelmezése, jellemzése

• Klasztercentroidok és szórások
Mennyiségi (főzés, háziasság) +minőségi (cluster) ismérvek
⇒ vegyes kapcsolat

Analyze / Compare Means / Means


Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

• Demográfiai vizsgálat (nem, lakhely)


Minőségi-minőségi ismérv ⇒ asszociáció
Analyze / Descriptive Statistics / Crosstabs
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

• Mennyiségi (kereset) +minőségi (cluster) ismérvek


⇒ vegyes kapcsolat (ANOVA)

Analyze / Compare Means / Means


Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

6.
• Klaszterek jellemzése, elnevezése

1. klaszter 2. klaszter 3. klaszter


Klasztereljá- Sokat főz Nem Igen Nem
rásba bevont
változók Házias Nem Igen Igen
Túlnyomórészt Túlnyomórészt
Nem Nők
Csak a férfiak nők
jellemzésbe
Lakhely ? Nagy város Megyeszékhely
bevont
változók Alacsony Alacsony Magas
Kereset
(3000€) (2200€) (7667€)
Nemtörődö- Rohanó
Elnevezés Házi tündérek
mök üzletasszonyok
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet
Graphs / Pie…
Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

7.
• Klaszterelemzés érvényességének ellenőrzése

• Más távolságmérték
• Más klasztereljárások
• Változók elhagyása
• A minta 2 részre bontása
• Az esetek sorrendjének megváltoztatása
• Nem hierarchikus klaszterelemzés…

Folyt. köv. órán


Miskolci Egyetem Gazdaságtudományi Kar
Üzleti Információgazdálkodási és Módszertani Intézet

Köszönöm a figyelmet!

You might also like