Alen Pekic - Seminarski Rad - Neuronske Mreze I Stabla Odlucivanja

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 22

Sveuilite Josipa Juraja Strossmayera u Osijeku Ekonomski fakultet u Osijeku Diplomski studij

Diplomski studij Poslovna informatika Seminarski rad iz kolegija Sustavi poslovne inteligencije:

Uporaba neuronske mree i stabla odluivanja za klasifikaciju kupaca kataloke prodaje

Student: Alen Peki Broj indeksa: 00763

Mentor: prof. dr. sc. Marijana Zeki-Suac

Osijek, sijeanj 2012.

SADRAJ 1. Saetak................................................................................................................... 3 1.1. Kljune rijei ..................................................................................................... 3 2. Uvod ....................................................................................................................... 3 3. Prethodna istraivanja ............................................................................................ 4 4. Neuronske mree ................................................................................................... 5 4.1. Usporedba bioloke i umjetne neuronske mree .............................................. 6 4.2. Obrada podataka u neuronskim mreama ....................................................... 7 4.3. Ulazne funkcije u neuronskim mreama ........................................................... 8 4.4. Izlazne funkcije u neuronskim mreama .......................................................... 8 4.5. Faze rada neuronskih mrea .......................................................................... 10 5. Stabla odluivanja ................................................................................................ 11 5.1. Algoritam za izgradnju stabla ......................................................................... 12 6. Opis modela i varijabli........................................................................................... 12 6.1. Model neuronske mree ................................................................................. 12 6.2. Model stabla odluivanja ................................................................................ 12 6.3. Varijable ......................................................................................................... 13 7. Testiranje .............................................................................................................. 15 7.1. Testiranje neuronskih mrea .......................................................................... 15 7.2. Testiranje stabla odluivanja .......................................................................... 16 8. Rezultati najboljeg testiranja ................................................................................. 16 8.1. Rezultati testiranja neuronskih mrea ............................................................ 16 8.2. Rezultati testiranja stabla odluivanja ............................................................ 19 8.2.1. Analiza znaajnosti ulaznih varijabli ......................................................... 21 9. Zakljuak .............................................................................................................. 21 10. Literatura ............................................................................................................ 22

1. Saetak U vremenskom razdoblju od 29.8.1988. do 16.02.1999. prikupljeni su podaci o 400 razliitih kupovina u jednom trgovakom poduzeu koje se bavi katalokom prodajom. Svrha istraivanja je pokuati kreirati modele neuronskih mrea i stabala odluivanja koji bi na temelju prikupljenih podataka o prethodnim kupovinama biti u mogunosti predvidjeti budue ponaanje kupaca i klasificirati kupce na one koji e ili nee kupiti odreeni artikl u budunosti. Na osnovu dobivenih rezultata, ukoliko bi izostale dodatne preinake modela ili ulaznih varijabli, testirani modeli ne preporuuju se za klasifikaciju kupaca kataloke prodaje, no ukoliko se mora birati izmeu dva modela, preporuka je upotrijebiti model neuronskih mrea jer je rezultat bio minimalno bolji u usporedbi sa modelom stabla odluivanja. 1.1. Kljune rijei Neuronske mree, stabla odluivanja, kataloka prodaja, kupci, klasifikacija ponaanja 2. Uvod Neuronske mree rapidno se razvijaju jo od 1943. Godine kada su McCullock i Pitts prvi postavili temelje za razvoj neuronskih mrea dokazavi da neuroni mogu imati dva stanja (pobuujue i umirujue) i da njihova aktivnost ovisi o nekom pragu vrijednosti. Zajedno sa stablima odluivanja vrlo su mone i popularne tehnike modeliranja za klasifikacijske i predikacijske probleme, te se danas koriste u brojim gospodarskim ali i znanstvenim granama za rjeavanje problema ili za pomo u donoenju ispravnih odluka. Uinkovitost neuronskih mrea i stabala odluivanja testirat e se i pokuat pri mijeniti na predikciju ponaanja kupaca jednog trgovakog poduzea koje se bavi katalokom prodajom. Na osnovu odreenog broja ulaznih varijabli i povijesti ponaanje kupaca neuronske mree i stabla odluivanja pokuat e kupce klasificirati u dvije skupine; one koji e kupiti odreeni proizvodi i one koji nee, u svrhu predvianja budue prodaje. Ovakvi modeli mogu poduzeima uvelike pomoi s donoenjem poslovnih odluka, ali i s praktinim stvarima poput racionalizacije nabave i skladitenja proizvoda.

3. Prethodna istraivanja U nedostatku istraivanja koja se bave primjenom neuronskih mrea i stabala odluivanja za klasifikaciju ponaanja kupaca u nastavku su opisana istraivanja koja potvruju korisnost i praktinost koritenja neuronskih mrea i stabala odluivanja. Branko Marki [6] istraio je primjenu neuronskih mrea klasifikacija u

menaderskom raunovodstvu. Menadersko raunovodstvo je orijentirano na generiranje informacija menaderima koji unutar organizacije usmjeravaju i nadziru procese. Zato se mora pripremati veliki broj analiza i izvjea koji usporeuju planirane i ostvarene rezultate ili izvjea koja sadre indikatore o rezultatima poslovanje. esti zadatak menaderskom raunovodstvu je klasifikacija. Problem klasifikacije se pojavljuje kada neki objekt treba pridruiti unaprijed definiranoj grupi ili klasi na temelju vrijednosti promatranih atributa. Tradicionalni pristup klasifikaciji je diskriminacijska analiza ili Bayesova teorija odluivanja koja izraunava posteriori vjerojatnosti i na temelju njih donosi odluku o klasifikaciji. U radu se analizira i prikazuju rezultati klasifikacije na temelju neuronskih mrea i njihovog povezivanja, integracije s klaster analizom (k-means algoritam klasteriranja). Izgraen je sustav CLUSTERNET koji iz skladita podataka (datawarehouse) u skladu s zahtjevom menadera generira eljeni broj klastera a potom pomou neuronske mree izgraenoj u jeziku R sve nove objekte klasificira u odgovarajue klastere. Zeki-Suac, Frajman-Jaki i Drvenkar [7] provele su istraivanje o primjeni neuronskih mrea i stabla odluivanja za predvianje uspjenosti studiranja. Rad se bavi kreiranjem modela za predvianje uspjenosti studenata s pomou neuronskih mrea i klasifikacijskih stabala odluivanja, te analizom imbenika koji utjeu na uspjenost studenata. Kreiran je model koji na temelju demografskih podataka o studentima, te podacima o njihovom ponaanju i stavovima prema uenju nastoji klasificirati studenta u jednu od dviju kategorija uspjenosti. Uspjen ost je mjerena prosjekom ocjena na studiju. Trenirano je i testirano vie razliitih arhitektura neuronskih mrea, iji je najbolji model dobiven s pomou vieslojne perceptron mree. Stabla odluivanja dala su znatno veu tonost klasifikacije od neuronsk ih mrea, te ih se predlae koristiti kao toniju metodu na promatranom skupu podataka. Analiza osjetljivosti izlaznih varijabli na ulazne provedena kod neuronskih mrea upuuje da su kolokviranje, prisustvo na vjebama, vanost ocjene za studenta, te stipendije meu najznaajnijim imbenicima uspjenosti studenta. Stabla
4

odluivanja izluila su vrijeme provedeno u uenju, prisustvo na vjebama, te vrstu materijala iz kojih se ui kao najznaajnije varijable. U buduim istraivanjima, uz proirenje broja ulaznih varijabli i poveanje uzorka, te proirenje metodologije drugih tehnikama umjetne inteligencije i statistikim metodama, mogue bi bilo kreirati uspjeniji model koji bi bio osnova za izgradnju sustava za potporu odluivanju u visokom obrazovanju.

4. Neuronske mree Teorijsko ishodite i inspiracija neuronskog raunalstva je u ljudskom mozgu. Cilj mu je spojiti sposobnost ljudi da dobro prepoznaju oblike, lica i glasove i sposobnost raunala da izvrava numerike proraune i radi s velikom koliinom p odataka. Neuronske mree, stoga su metoda umjetne inteligencije, a ine meusobno povezane nakupine jednostavnih elemenata obrade, jedinica ili vorova, iji se naini djelovanja otprilike temelji na neuronima kod ivotinja (ovjeka). Sposobnost obrade mree je posljedica jaine veza meu vorovima, a postie se kroz proces adaptacije ili uenjem iz skupa primjera za uvjebavanje. Neuronske mree zapravo iterativnim postupkom iz prolih podataka pronalaze vezu izmeu ulaznih i izlaznih varijabli, kako bi se za nove ulazne varijable dobila vrijednost izlaza. Najea podruja primjene neuronskih mrea su: [1] 1. proizvodnja i operacije (53.5%) 2. financije i ulaganje (25.4%) procjena zajmova, trite dionica i obveznica, klasifikacija i rangiranje rizika i prognoze trita 3. marketing i trgovina segmentiranje potencijalnih kupaca, identificiranje novih trita, veza kupac-prodavatelj, ciljanje na potroae putem pote U usporedbi sa statistikim metodama, kod veine radova tonost neuronskih mrea je bila vea od tonosti dobivene: [1] regresijskom analizom (problemi predvianja), diskriminantnom analizom (problemi klasifikacije), cluster analizom (problemi klasifikacije), ARIMA modelom (predvianja vremenskih serija).

4.1. Usporedba bioloke i umjetne neuronske mree S obzirom da je ishodite neuronskog raunalstva u ljudskom mozgu, vrijedi usporediti nain funkcioniranja biolokog i umjetnog neurona. Mozak se sastoji od nekoliko desetaka milijardi neurona povezanih u mreu koji mogu paralelno obraivati informacije. Bioloki neuron funkcionira na sljedei nain: dendriti primaju signale drugih neurona, akson prenosi impulse do sinaptikih terminala i oni zatim prenose signale na dendrite drugih neurona Uenje se odvija promjenom jaine sinaptikih veza. Milijuni neurona u mrei mogu paralelno obraivati informacije.

Slika 4.1. Bioloki neuron [3]

Kod umjetnog neuron jedinica za obradu podataka (varijabli) koja prima ponderirane ulazne vrijednosti od drugih varijabli, prema nekoj formuli transformira primljenu vrijednost, te alje izlaz drugim varijablama. Uenje se odvija promjenom vrijednosti teina meu varijablama. Analogija: signali su numerike vrijednosti (xn), jakost sinapse opisuje teinski faktor (wn), tijelo neurona je zbrajalo (), a akson aktivacijska funkcija ()

Slika 4.1. McCulloch-Pitts model neurona (1943.) Threshold Logic Unit [3]

Von Neumannova arhitektura (VNA) dobila je naziv po matematiaru John von Neumannu koji je bio konzultant prilikom izgradnje raunala prve generacije ENIAC. Von Neumann je dokumentirao organizaciju ENIAC-a i zbog tog se razloga sva raunala koja imaju slinu organizaciju ili arhitekturu nazivaju raunala sa von Neumannovom arhitekturom. Odlike von Neumanove arhitekture su definirane s etiri svojstva: programi i podaci koriste jedinstvenu glavnu memoriju glavnoj se memoriji pristupa kao jednodimenzionalnom nizu (tj. sekvencijalno) znaenje (semantika) ili nain primjene podataka nije spremljeno s podacima

Von Neumannovo raunalo moemo koristiti kao emulator neuronske mree i usporediti izmeu gradbenih elementa biolokih i umjetnih neuronskih mrea.
Mozak Gradbeni element Broj veza Energetska potronja Brzina prijenosa Nain rada Tolerancija na pogreke Signali Sposoban uiti Svjestan/inteligentan
1011neurona 1014sinapsi (103 po neuronu) 10-16J po operaciji ms ciklus serijski i paralelno da analogni da da

Raunalo
1.17 B tranzistora (6c Core i7) 32 10-6J po operaciji ns ciklus uglavnom serijski ne digitalni malo ne

Slika 4.1. Obrada podataka u mozgu i von Neumanovom raunalu [3]

4.2. Obrada podataka u neuronskim mreama Kao i u biolokoj neuronskoj mrei tako i u umjetnoj neuronskoj mrei obrada informacija se izvodi u jedinicama koje zovemo neuronima (elementima za obradu). Izraz neuron oznaava osnovnu jedinicu u modelu neuronske mree koja je namijenjena obradi podataka. Umjetni neuron ima vie ulaza od kojih prima informacije, zbraja ih s pomou neke zbrojne funkcije i tako stvara svoju internu aktivaciju. Zatim se u neuronu s pomou funkcije prijenosa mijenja taj zbrojni ulaz.

Funkcija prijenosa moe biti diskontinuirana funkcija skoka, ili neka kontinuirana funkcija, kao npr. sigmoida ili tangens-hiperbolna funkcija. Neuroni su spojeni u mreu na nain da izlaz svakog neurona predstavlja ulaz u jedan ili vie drugih neurona. Prema smjeru, veza izmeu neurona moe biti jednosmjerna ili dvosmjerna, a prema intenzitetu mogua je pobuujua (egzitatorna) ili smirujua (inhibitorna) veza. Neuroni su obino u umjetnoj neuronskoj mrei organizirani u grupe ili slojeve u kojima se informacije paralelno obrauju. Tipina neuronska mrea sastoji se od nekoliko slojeva, najee dva vanjska, te od jednog ili vie meuslojeva ili tzv. skrivenih slojeva . Vanjski slojevi su: ulazni sloj koji uitava podatke iz okoline i izlazni sloj koji prikazuje rezultat mree za zadani ulaz. Upravo je skriveni sloj onaj u kojem se ue meuzavisnosti u modelu, informacije neurona se ovdje obrauju i alju u neurone izlaznog sloja. [2] 4.3. Ulazne funkcije u neuronskim mreama Kada neki neuron prima ulaz iz prethodnog sloja, vrijednost njegovog ulaza rauna se prema ulaznoj funkciji. Ako neuron i prima ulaz od neurona j , a je wji teina veze od neurona j do neurona i, n broj neurona u sloju koji alje svoj izlaz, tada opi oblik ulazne funkcije kod nadgledanih mrea izgleda na sljedei nain:

Drugim rijeima, inputi nekog neurona i je suma svih vaganih izlaza koji pristiu u taj neuron. [1] 4.4. Izlazne funkcije u neuronskim mreama Dvije najee koritene funkcije su sigmoidna i hiperboliko -tangentna, jer najblie oponaaju stvarne nelinearne pojave. Sigmoidna prijenosna funkcija jedna je od najee upotrebljavanih prijenosnih funkcija u neuronskim mreama. Formula sigmoidne funkcije glasi

gdje je g doprinos funkcije izraunat kao g=1/T, a T je prag. Doprinos odreuje zaobljenost funkcije oko nule i funkcija rezultira kontinuiranim vrijednostima u intervalu [0,1].

Slika 3.4.1. Grafiki prikaz sigmoidne funkcije [1]

Tangens-hiperbolna prijenosna funkcija je poseban oblik sigmoidne funkcije, pomaknute tako da izlaznim vrijednostima pokriva interval [-1,1]. Zbog svoje mogunosti mapiranja vrijednosti u pozitivna kao i u negativna podruja, ova funkcija upotrebljava se u mnogim eksperimentima. Formula hiperboliko -tangentne funkcije

gdje je u=g*inputi.glasi:

Slika 2. Grafiki prikaz tangens-hiperbolne funkcije [1]

Ostale najee koritene prijenosne funkcije su funkcija koraka (step funkcija), lignum funkcija, linearna funkcija i linearna funkcija s pragom.

4.5. Faze rada neuronskih mrea Neuronske mree prilikom rada prolaze kroz tri faze: treniranje, unakrsna validacija i testiranje. U fazi treniranja mrea ui na prolim sluajevima, a rezultat u fazi treniranja se ne uzima kao ocjena mree jer je dobiven na uzorku za u enje. Ova faza traje najdulje, provodi se u tisuama iteracija na istom uzorku. Treniranje je dakle proces mijenjanja teina u mrei, a odvija se kao odgovor na podatke izvana koji su predstavljeni ulaznom sloju i u nekim mreama izlaznom sloju. Podaci koji se predstavljaju izlaznom sloju su eljene vrijednosti izlaznih varijabli. Ukoliko su one poznate , radi se o tzv. nadgledanom uenju. Prije samog uenja potrebno je definirati model (ulazne i izlazne varijable), te prikupiti podatke iz prolosti na kojima e se primijeniti mrea. Prikupljene podatke treba podijeliti u dva poduzorka (uzorak za treniranje i uzorak za testiranje), a ukoliko se za vrijeme uenja planiraju koristiti optimizacijske tehnike za optimiranje duljine uenja i strukture mree, potrebno je ukupan uzorak podijeliti na tri poduzorka (za treniranje, testiranje i konanu validaciju). [2] Mrei je takoer potrebno odrediti pravilo uenja, tj. formulu koja se upotrebljava za prilagoavanje teina veza meu neuronima. U najveem broju sluajeva koristi se jedno od sljedeih pravila: Delta pravilo (Widrow/Hoff-ovo pravilo), Poopeno Delta pravilo, Delta-Bar-Delta i Proireno Delta-Bar-Delta pravilo, Kohonen-ovo pravilo.

Proireno Delta-Bar-Delta pravilo prilagoava teine lokalno za svaku vezu u mrei iukljuuje momentum koji sprjeava ekstremno kretanje teina koje dovodi do blokade uenja, to ga ini najnaprednijim pravilom. U fazi unakrsne validacije mrea nastoji optimirati duljinu treniranja, broj skrivenih neurona i parametre (stopu uenja i momentum). Najbolja dobivena mrea se pohranjuje i testira u sljedeoj fazi. Vano je za naglasiti da kvaliteta mree, tj. veliina njene greke ovisi i o broju iteracija, stoga je preporuljivo izdvojiti dovoljno
10

vremena za treniranje neuronske mree. Mreu moemo trenirati sve dok je idui rezultat testiranja mree bolji od prethodnog. Testiranje mree trea je faza rada neuronske mree, i ona je odluujua za ocjenjivanje mree. Razlika izmeu faze uenja i faze testiranja je u tome to u ovoj drugoj fazi mrea vie ne ui, a to znai da su teine fiksne na vrijednostima koje su dobivene kao rezultat prethodne faze uenja. Takvoj mrei se predstavljaju novi ulazni vektori koji nisu sudjelovali u procesu uenja, a od mree se oekuje da za predstavljen novi ulazni vektor proizvede izlaz. Ocjenjivanje mree obavlja se izraunavanjem greke ili nekog drugog mjerila tonosti (npr. stope tonosti), na nain da se izlaz mree usporeuje sa stvarnim izlazima. [2] Kod rada neuronskih mrea razlikujemo problem predvianja i problem klasifikacije. Kod problema klasifikacije se u veini istraivanja koristi stopa klasifikacije kao mjerilo ocjenjivanja mree (postotak ili udio ispravno klasificiranih promatranja), a kod problema predvianja najee se kao mjerila koriste RMS greka (odstupanja izmeu eljenog outputa i outputa mreu u rasponu od 0 do 1)

5. Stabla odluivanja Stabla odluivanja su vrlo mona i popularna tehnika modeliranja, za klasifikacijske i predikcijske probleme. Ona su zapravo klasifikacijski algoritam u formi stablaste strukture, u kojoj se razlikuju dva tipa vorova povezanih granama [5]: krajnji vor ("leaf node") - kojim zavrava odreena grana stabla. Krajnji vorovi definiraju klasu kojoj pripadaju primjeri koji zadovoljavaju uvjete na toj grani stabla; vor odluke ("decision node") - ovaj vor definira odreeni uvjet u obliku vrijednosti odreenog atributa (varijable), iz kojeg izlaze grane koje zadovoljavaju odreene vrijednosti tog atributa. Kao metoda, stabla odluivanja se pojavljuju u dva podruja znanosti [4]: 1. U analizi odluivanja (eng. Decision analysis) koriste se kako bi vizualno (grafiki) predstavila nain donoenja odluka od strane eksperata koriste se kod ekspertnih sustava.
11

2. U strojnom uenju stabla odluivanja su prediktivni modeli koji na temelju podataka izvode njihove veze u cilju dobivanja izlaznih vrijednosti. Kao takvi modeli koriste se u rudarenju podataka traenju skrivenih veza meu podacima. 5.1. Algoritam za izgradnju stabla Za izgradnju stabla koristi se najee CART algoritam, koji na temelju raspoloivih podataka o ulaznim i izlaznim varijablama kreira binarno stablo grananjem slogova u svakom voru prema funkciji odreenoj za svaku ulaznu varijablu. Evaluacijska funkcija koritena za prijelom je Gini indeks (IG), definiran prema formuli:

gdje je t trenutni vor, pi je vjerojatnost klase i u voru t, a m je broj klasa u modelu. Algoritam CART u obzir uzima sva mogua grananja kako bi pronaao najbolje grananje za tonost modela. Najbolje grananje odreuje se za svaki atribut u svakom voru, a pobjednik se izabire pomou Gini indeksa. Navedeni algoritam uspjeno radi i s kontinuiranim i s kategorijalnim varijablama. [4]

6. Opis modela i varijabli 6.1. Model neuronske mree U vremenskom razdoblju od 29.8.1988. do 16.02.1999. (5 mjeseci i 15 dana) prikupljeni su podaci o 400 razliitih kupovina u jednom trgovakom poduzeu koje se bavi katalokom prodajom. Svrha modela je na temelju prikupljenih podataka o prethodnim kupovinama (ulazne varijable) prepoznati i klasificirati kupce (koji nisu u ispitanom uzorku) na one koji e ili nee kupiti odreeni artikl u budunosti. Izlazna varijabla je LEISURE koja opisuje artikle za slobodno vrijeme. 6.2. Model stabla odluivanja U vremenskom razdoblju od 29.8.1988. do 16.02.1999. (5 mjeseci i 15 dana) prikupljeni su podaci o 400 razliitih kupovina u jednom trgovakom poduzeu koje se bavi katalokom prodajom.
12

Od ukupno 400 zasebnih kupovina, u 169 sluaja (ili 42,25%) kupci su kupili proizvode za slobodno vrijeme, a u 231 sluaju (ili 57,75%) kupci nisu kupili proizvode za slobodo vrijeme. Varijabla sample, koja slui kao sample identifier u izradi stabla odluivanja, od ukupnog uzorka 80% (ili 320 kupovina) namjenjuje za treniranje stabla a 20% (ili 80 kupovina) za testiranje. Svrha modela je na temelju prikupljenih podataka o prethodnim kupovinama i s obzirom na odreeni utjecaj ulaznih varijabli prepoznati i klasificirati kupce na one koji e ili nee kupiti odreeni artikl u budunosti. Takoer stablo odluivanja bi nam trebalo rei koje ulazne varijable imaju najvei utjecaj na ishod kupovine i po kojem kriteriju su dotine varijable utjecale na ishod. Primjer: ukoliko je varijabla income > vrijednosti xy tada dolazi do kupovine proizvoda a ako je varijabla income < vrijednosti xy tada ne dolazi do kupovine. Izlazna varijabla je LEISURE koja opisuje artikle za slobodno vrijeme. 6.3. Varijable Ulazne varijable podijeljene su na 7 kontinuiranih i 5 kategorijalnih varijabli. Uz ukupno 12 ulaznih i 1 izlaznu, koritena je prethodno opisana sample varijabla. Kontinuirane varijable: Varijabla INCOME opisuje godinji prihod kupca o Prosjean prihod kupaca iznosi 29895,74 kn o Medijan iznosi 28600,00 o Standardna devijacija je 10701,14 o Najvii zabiljeeni godinji prihod iznosi 80000,00 kn Varijabla HOMEVAL opisuje vrijednost kue(stana) kupca o Prosjena vrijednost kue(stana) kupaca iznosi 75220,01 kn o Medijan iznosi 57000,00 o Standardna devijacija je 55674,24 o Najvea zabiljeena vrijednost kue(stana) kupaca iznosi 351200,0 kn Varijabla TRAVTIME opisuje vrijeme putovanja kupca o Prosjeno vrijeme putovanja kupca iznosi 19,98890 o Medijan iznosi 19,00 o Standardna devijacija je 8,532893 o Najdue zabiljeeno vrijeme putovanja kupca iznosi 90,00

13

Varijabla AGE opisuje starost kupca o Prosjena starost kupaca iznosi 31,82500 god o Medijan iznosi 31,00 o Standardna devijacija je 7,076692 o Najvea zabiljeena starost kupca iznosi 64,00 god Varijabla EDLEVEL opisuje razinu obrazovanja kupca o Prosjena razina obrazovanja kupaca iznosi 2,342500 o Medijan iznosi 2,00 o Standardna devijacija je 0,686565 o Najvea zabiljeena razina obrazovanja kupaca iznosi 3,00 Varijabla NUMCARS opisuje broj auta kupca o Prosjean broj auta kupaca iznosi 1,595000 o Medijan iznosi 2,000000 o Standardna devijacija je 0,511497 o Najvei zabiljeeni broj auta iznosi 3,00 Varijabla NUMKIDS opisuje broj djece kupca o Prosjean broj djece kupaca iznosi 1,042500 o Medijan iznosi 0,00 o Standardna devijacija je 1,480261 o Najvei zabiljeeni broj djece iznosi 7,00

Kategorijalne varijable: Varijabla MARITAL opisuje brani status kupaca o 106 kupaca (26,5%) nije u branoj zajednici a 294 (73,5%) kupaca je u branoj zajednici SEX Spol o 316 kupaca (79%) su enskog spola a 84 (21%) kupaca je mukog spola RACE Rasa o S obzirom da kod varijable RACE ne postoji naznaka to b i vrijednosti 1, 2, 3, 4 i 5 mogle oznaavati ne mogu izvriti analizu HEAT Tip grijanja o S obzirom da kod varijable HEAT ne postoji naznaka to bi vrijednosti 1, 2, 3 i 4 mogle oznaavati ne mogu izvriti analizu JOB Vrsta posla o S obzirom da kod varijable JOB ne postoji naznaka to bi vrijednosti 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15 i 16 mogle oznaavati ne mogu izvriti analizu

14

7. Testiranje Obavljeno je testiranje est arhitektura neuronskih mrea i dva stabla odluivanja 7.1. Testiranje neuronskih mrea
Broj skrivenih neurona (# Hidden PE) TRAIN rezultati Struktura konane mree Aktivacijska (prijenosna funkcija) Algoritam Stopa klasifikacije TEST rezultati (na uzorku za validaciju) Stopa klasifikacije Ukupna (za svaku stopa klasu klasifikacije posebno)

Rb

Podjela uzorka

70%, 15% 15% 70%, 15% 15% 60% 20% 20% 60% 20% 20% 70% 10% 20% 70% 10% 20%

Min: 2 Max: 20 Min: 2 Max: 20 Min: 4 Max: 20 Min: 4 Max: 20 Min: 4 Max: 20 Min: 4 Max: 20

31-14-2

Logistic

MLP

87,14

58 57

58,33

31.7.2002

Tangh

MLP

57,85

97 3 69 54 79 46 75 39 90 16

56,66

31-11-2

Logistic

MLP

63,3

42,5

31-9-2

Tangh

MLP

65,41

51,25

31.5.2002

Logistic

MLP

60

56,25

31-6-2

Tangh

MLP

58,92

53,75

Obavljeno je testiranje na est razliitih arhitektura modela neuronskih mrea za klasifikaciju kupaca koji su / nisu kupili proizvode za slobodno vrijeme. U svim testiranjima koriten je MLP algoritam. Testiranja se razlikuju po podjeli uzorka (7015-15, 60-20-20, 70-10-10), broju skrivenih neurona (2-20, 4-20) te prijenosnoj funkciji (Logistic, Tangh). Najbolje rezultate dalo je testiranje na prvoj arhitekturi u kojoj je 70% uzorka iskoriteno za treniranje, 15% uzorka za testiranje i 15% za unakrsnu validaciju. Minimalni broj skrivenih neurona je 2, a maksimalni 20 i za prijenosnu funkciju je koritena logistic funkcija. Konana struktura mree je 31 -14-2, a stope klasifikacije su sljedee: 87.15 (treniranje), 58.0 i 57.0 (za svaku klasu posebno) i 58.33 (ukupna stopa validacije.

15

7.2. Testiranje stabla odluivanja


R b Podjela Uzorka Split selectio m methor Stopping rule Broj vorova (nodes) u lijevoj grani Broj vorova (nodes) u desnoj grani TEST rezultati (na uzorku za testiranje) Stopa klasifikacije (za svaku klasu posebno) Ukupna stopa klasifikacije

80% 1. 20%

Discrimi nantbased univari

Prune on misclassi fication error Prune on misclassi fication error

58.00 0 0 0.00 40.00

80% 2. 20% C&RT

58.00 0 0 0.00 40.00

Prilikom izrade stabla odluivanja za klasifikaciju kupaca kataloke prodaje, na one koji su kupili proizvode za slobodno vrijeme i na one koji nisu koritene obavljena su dva testiranja. U oba sluaja, uzorak od 400 kupovina podijeljen je tako da se 80% podataka koristilo za treniranje, a 20% podataka za testiranje. Takoer, u oba sluaja je koriteno isto pravilo zaustavljanja (stopping rule), Prune on misclassification error. Prilikom testiranja koristile su se dvije razliite metode: metoda Discriminan t-based univariate splits for categ. and ordered predictors i C&RT -style exhaustive search for univariate splits metoda. Naalost niti jedna od ulaznih varijabli nije bila statistiki dovoljno znaajna, kako bi dolo do grananja stabla, stoga je broj vor ova na lijevoj i desnoj strani u oba sluaja 0. Ukupna stopa klasifikacije, u oba testiranja, iznosila je 58.

8. Rezultati najboljeg testiranja 8.1. Rezultati testiranja neuronskih mrea


Tablica 8.1.1. Saetak rezultata najboljeg modela
Kratak pregled(saetak) aktivne mree (kataloska_prodaja400.sta) Stopa tonosti na uzorku za treniranje Stopa tonosti na uzorku za testiranje Ukupna stopa na uzorku za validaciju Skrivena prijenosna funkcija Izlazna prijenosna funkcija

Naziv mree

Algoritam mree

Funkcija greke

MLP 31-14-2

87,14286

66,66667

58,33333

BFGS 38

SOS

Logistic

Logistic

16

Tablica 8.1.1. prikazuje prethodno navedenu arhitekturu modela neuronskih mrea za klasifikaciju kupaca koji su / nisu kupili proizvode za slobodno vrijeme koja je prilikom testiranja dala najbolje rezultate. Broj 31 oznaava broj ulaznih neurona, 14 broj skrivenih neurona, a broj 2 predstavlja izlazne neurone. Za funkciju greke odabrana je sum of squares, a za skriveni sloj i izlazni sloj logistika funkcija. Stopa tonosti na uzorku za testiranje je 87.14, no naalost ukupna stopa na uzorku za validaciju iznosi samo 58.33, to nam govori da model ne bi bilo preporuljivo koristiti za klasifikaciju kupaca koji su/nisu kupili proizvode za slobodno vrijeme.
Tablica 8.2.2. Matrica konfuzije za najbolju mreu Matrica konfuzije modela neuronske mree (kataloska_prodaja400.sta) Uzorci: Validacija Proizvod nije kupljen MLP 31-14-2-0 MLP 31-14-2-1 20 14 Proizvod je kupljen 11 15

Matrica konfuzije sastoji se od dva retka i dva stupca. U eliji 1.1. prikazani su kupci koji nisu kupili proizvode za slobodno vrijeme i koje je model dobro razvrstao (20), a u eliji 2.1. prikazani su kupci koje je model grekom nije stavio kod kupce koj i nisu kupili proizvode za slobodno vrijeme (14). elija 2.2. prikazuje kupce koji su kupili proizvod za slobodno vrijeme i koje je model dobro razvrstao (15) a elija 1.2. prikazuje kupce koje model grekom nije stavio pod kupce koji su kupili proizvode za slobodno vrijeme (11). Od ukupno 60 kupaca (koje dijelimo na 34 kupca koji nisu kupili proizvode za slobodno vrijeme i 16 kupaca koji jesu kupili proizvode za slobodno vrijeme) , model je pogreno razvrstao 25 (11 za kupnju, i 14 za ne obavljanje kupovin e).

17

Tablica 8.1.3. Stope tonosti klasifikacije najboljeg modela Saetak klasifikacije (kataloska_prodaja400.sta) Uzorci: Validacija Proizvod nije kupljen Ukupno Ispravno MLP 31-14-2 Neispravno Ispravno (%) Neispravno (%) 14,00000 58,00000 41,00000 11,00000 57,00000 42,00000 34,00000 20,00000 Proizvod je kupljen 26,00000 15,00000

Tablica 8.1.3. pokazuje koliko iznosi stopa tonosti klasifikacije za svaku klasu. Iz navedenog vidimo da je stopa tonosti za kupce koji nisu kupili proizvode za slobodno vrijeme 58%, a stopa tonosti za kupce koji jesu kupili proizvode za slobodno vrijeme 57%.
Tablica 8.1.4. Analiza osjetljivosti Analiza osjetljivosti (kataloska_prodaja400.sta) Uzorci: Validacija Godinji prihod Vrijednost kue (stana) Vrijeme putovanja Starost Razina obrazovanja MLP 31-10-2 Broj auta Broj djece Brani status Spol Rasa Tip grijanja Vrsta posla 1,018409 1,045427 1,055521 1,012908 0,920138 0,946408 1,019363 1,36031 1,115391 1,29694 1,360534 1,091318

Tablica 8.1.4. Prikazuje analizu osjetljivosti izlazne varijable na ulazne varijable. Iz navedenog vidimo da su tri ulazne varijable s najveim utjecajem na izlaznu varijablu: 1. Tip grijanja (1,360534) 2. Brani status (1,360310) 3. Rasa (1,296940)
18

1,600000 1,400000 1,200000 1,000000 0,800000 0,600000 0,400000 0,200000 0,000000

Series1

Slika 8.1.1. Grafiki prikaz osjetljivosti izlazne varijable na ulazne varijable

Grafikon prikazuje rezultate tablice 8.1.4. Iz grafikona, ba kao i iz tablice vidljivo je da su tri ulazne varijable s najveim utjecajem na izlaznu varijablu tip grijanja, brani status i rasa. 8.2. Rezultati testiranja stabla odluivanja
Tablica 8.2.1. Struktura stabla odluivanja najboljeg modela
Struktura stabla (kataloka_prodaja400.sta) Lijeva grana Desna grana nu klasi 0 nu klasi 1 Klasa predvianja Konstanta podjele Varijabla podjele Kategorija podjele

184

135

Iz tablice je vidljivo da stablo odluivanja ima naalost samo jedan vor. U voru prevladava kategorija ljudi koji nisu kupili proizvode za slobodno vrijeme (njih 184), dok je njih 135 kupilo proizvode za slobodno vrijeme. Ostala polja su ostala nepopunjena jer se stablo nije granalo iz razloga to niti jedna od ulaznih varijabli nije bila statistiki dovoljno znaajna za odreivanje hoe li kupac kupiti proizvode za slobodno vrijeme ili ne.

19

0 1

Classification Tree for LEISURE_MATR Number of splits = 0; Number of terminal nodes = 1

Slika 8.2.1. Grafiki prikaz stabla odluivanja za najbolji model

Grafiki prikaz stabla odluivanja potvruje podatke prikazane u tablici. Na slici se jasno vidi da ne postoji grananje, zbog nedostatka statistiki znaajne ulazne varijable, ve postoji samo jedan vor. Nadalje, na grafikom prikazu vidljiva su dva pravokutnika. Zeleni pravokutnik oznaava klasu 0, odnosno osobe koje nisu kupile proizvode za slobodno vrijeme (njih 184), a ljubiasti pravokutnik oznaava kupce koji jesu kupili proizvode za slobodno vrijeme (njih 135). Desni ugao grafikog prikaza rezerviran je za zastupljeniju klasu unutar vora, a ovdje je to klasa 0, tj. ne kupovina proizvoda za slobodno vrijeme

Tablica 8.2.3. Matrica konfuzije za najbolji model na uzorku za testiranje Matrica konfuzije na uzorku za testiranje (kataloka_prodaja400.sta) Klasa 0 0 1 0 Klasa 1 34 -

Analizom matrice konfuzije, moe se zakljuiti kako model u klasi 0 nije pogreno svrstao niti jednu osobu, dok je u drugoj klasi pogreno svrstao njih 34.

20

Tablica 8.2.4. Stope tonosti klasifikacije za najbolji model na uzorku za testiaranje Klasa 0 47 0 47 100 Klasa 1 34 0 34 0 Ukupno 81 0 81 58

0 1 Ukupno Stopa tonosti klasifikacije

Iz tablice se moe iitati stopa tonosti klasifikacije za klasu 0, odnosno za osobe koje nisu kupile proizvode za slobodno vrijeme, u iznosu od 58.00% te za klasu 1, odnosno za kupce proizvoda za slobodno vrijeme u iznosu u 0,. S obzirom na te dvije stope ukupna stopa klasifikacije iznosi 58.00. 8.2.1. Analiza znaajnosti ulaznih varijabli Naalost niti jedna od 7 kvantitativnih i 5 kvalitativnih varijabla nije bila dovoljno statistiki znaajna kako bi imala utjecaj na ishod kupovine kupaca.

9. Zakljuak Ukupne stope klasifikacije dobivene testiranjem neuronskih mrea (58.33) i stabla odluivanja (58.00) niske su u usporedbi s rezultatima testiranja u prethodnim istraivanjima primjene neuronskih mrea i stabala odluivanja spomenutih u ovom radu. Glede neuronskih mrea, s obzirom da su rezultati testiranja bili podjednako loi bez obzira na raspodjelu uzorka, broj skrivenih neurona i vrstu prijenosne funkcije, i injenicu da su rezultati dobiveni na uzorku za treniranje znatno su bolji (87.14) moemo zakljuiti da bi model bio potencijalno uspjeniji i na uzorku za validaciju samo kada bi se poveala ukupna veliina uzorka. Glede stabla odluivanja, ono je u odraenim testiranjima sve kupce svrstalo u one koji nee kupiti proizvode za slobodno vrijeme zbog izostanka bilo koje ulazne varijable s dovoljnim utjecajem na izlaznu varijablu. Na osnovu dobivenih podataka, ukoliko bi izostala dodatna preinaka modela, testirani modeli ne preporuuju se za klasifikaciju kupaca kataloke prodaje, no ukoliko se mora birati izmeu dva modela, preporuka je upotrijebiti model neuronskih mrea jer je rezultat bio bolji za 0.33 u usporedbi sa modelom stabla odluivanja.
21

10. Literatura 1. Zeki-Suac M., Nastavni materijali za kolegij Sustavi poslovne inteligencije, Poglavlje 3. Neuronske mree, https://moodle.carnet.hr/mod/resource/view.php?id=23158, 30.01.2012. 2. Educational Repository for Inteligent http://eris.foi.hr/11neuronske/nn-predavanje1.html, 30.01.2012. Systems,

3. Matko Bonjak, Neuronske mree, Nastavni materijali, Prirodoslovno matematiki fakultet u Zagrebu, 2011. 4. Zeki-Suac M., Nastavni materijali za kolegij Sustavi poslovne inteligencije, Poglavlje 4. Stabla odluivanja kao metoda strojnog uenja i rudarenja podataka, http://hrcak.srce.hr/index.php?show=clanak&id_clanak_jezik=73924, 30.01.2012. 5. Gamberger D., muc T., Mari I. (2011.),Stabla odluivanja, Institut Ruer Bokovi, Zagreb, URL: http://dms.irb.hr/tutorial/hr_tut_dtrees.php, 30.01.2012. 6. Branko Marki Hrak Portal znanstvenih asopisa Republike Hrvatske , INFORMATOLOGIA, Vol.44 No.3 Rujan 2011., Neuronska mrena klasifikacija u menaderskom raunovodstvu, http://hrcak.srce.hr/index.php?show=clanak&id_clanak_jezik=10369, 30.01.2012. 7. Zeki-Suac M., Frajman-Jaki A., Drvenkar N., Hrak Portal znanstvenih asopisa Republike Hrvatske, Ekonomski vjesnik No.2 Prosinac 2009., Neuronske mree i stabla odluivanja za predvianje uspjenosti studiranja, URL: http://hrcak.srce.hr/index.php?show=clanak&id_clanak_jezik=73924, 30.01.2012.

22

You might also like