Sem 2

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 29

SVEUCILITE U ZAGREBU FAKULTET ELEKTROTEHNIKE I RACUNARSTVA

OTKRIVANJE ZNANJA U SKUPOVIMA PODATAKA


SEMINARSKI RAD

Mario Milicevic

Zagreb, oujak 2005.

Sadraj: Uvod..........................................................................................................................................2 Opis problema ........................................................................................................................3 Metoda C4.5 ..........................................................................................................................10 Primjena metode J4.8 .........................................................................................................13 Zakljucak................................................................................................................................28 Literatura ...............................................................................................................................28

Uvod
Procjene govore da se kolicina podataka u svijetu udvostruci svakih 20 mjeseci - mnoge baze podataka prele su magicnu granicu od 1TB. Svjedoci smo prave (kvantitativne) eksplozije podataka - racunalni sustavi prikupljaju sve raspoloive detalje svake transakcije - bilo da se radi o kupovini neke robe ili usluge, transferu novca u banci ili dijagnostici u zdravstvu. Saznanje da postoje alati i metodologije koje omogucavaju otkrivanje novih znanja iz velikih skupova sirovih podataka u posljednje vrijeme dovode do opceprihvacenog stava da se svi atributi neke transakcije (unutar bilo kojeg informacijskog sustava) cuvaju "do daljnjega" (iako trenutno moda nije jasno da li uopce imaju znacaj unutar domene problema) - jer se ne zna kada ce se metodama dubinske analize (Data Mining - DM) doci do otkrica znacajnog za unaprijedenje poslovnog ili tehnolokog procesa, ili jednostavno za povecanje profita. Srecom, u posljednje vrijeme se najcece takvi podaci (barem u podrucju klasicnih informacijskih sustava za podrku poslovanju) odlau u posebna skladita podataka (Data Warehouse - DW) - tako da barem znacajno ne ugroava propusnost transakcijskih sustava (OLTP). S druge strane, metode DM su zaista u posljednjih desetak godina razvijane i unaprijedivane naglaenim angamanom velikog broja strucnjaka iz razlicitih podrucja - to je dovelo do niza primjera uspjene primjene teoretskih postavki i algoritama u praksi. No isto tako veliki niz primjera je pokazao da DM tehnologija nije "carobni tapic" - jer neki procesi zaista ne generiraju prepoznatljiv uzorak ponaanja, ponekad podaci imaju previe nepoznatih ili pogreno izmjerenih atributa, cesto se rezultati pogreno interpretiraju ili su analiticari jednostavno pristrani (odnosno optereceni predrasudama i pogrenim ocekivanjima). 2

Opis problema
U analiziranom primjeru koriteni su stvarni podaci turisticke agencije. Odgovarajuci OLTP sustav je zasnovan na rjeenju integriranog sustava za podrku poslovanju (ERP), koje je razvijeno proteklih 5-10 godina. Podrani su prakticno svi segmenti poslovanja - uz naglasak na to veci stupanj automatizacije (narocito u smislu unosa podataka samo na jednom mjestu). U relacijskoj bazi podataka ima oko 600 tablica.

TRANSFERI PRIVATNI SMJETAJ

IZLETI

KONGRESNI TURIZAM

TOUROPERATERSKI POSLOVI

ZAKUP I PRODAJA KAPACITETA (ALOTMANI)

FINANCIJE PLATNA SLUBA LJUDSKI RESURSI I PLACE MATERIJALNO POSLOVANJE ROBNO POSLOVANJE

Sredinji dio sustava je podsustav za financijsko poslovanje (accounting) koji objedinjuje financijske efekte poslovanja svih ostalih podsustava. Definiranjem odgovarajucih uputa (kontnih shema itd.) taj dio posla je u najvecoj mjeri automatiziran. U dijelu sustava koji se bavi proizvodnjom realizirane su prakticno sve vanije djelatnosti turisticke agencije. Podsustavi medusobno komuniciraju u skladu s potrebama poslovnog procesa - primjerice podsustav izleta komunicira s

podsustavom transfera koji je sredinje mjesto nadzora i upravljanja svim prijevoznim kapacitetima (vlastitim i zakupljenim).

FINANCIJSKI PODSUSTAV

ULAZNI FINANCIJSKI DOKUMENTI

IZLAZNI FINANCIJSKI DOKUMENTI

ANALIZE I IZVJE T A J I

KALKULACIJA
(TROKOVI, CIJENE, POLASCI, KAPACITETI, ...)

BOOKING
(REZERVACIJE, PRODAJA, ...)

OSTALI PODSUSTAVI T U R I S T IC K O G POSLOVANJA

TEMELJNI PODACI SUSTAVA REALIZACIJA IZLETA


(PRIJEVOZNA S R E D S T V A , V O D IC I , ...)

U okviru ovog rada metodama dubinske analize analizirani su podaci iz podsustava izleta. Radi se o organizaciji i realizaciji kracih (poludnevnih ili cjelodnevnih) izleta koji su namjenjeni turistima uglavnom s lokalnog podrucja. Prodajne transakcije se dogadaju na razlicite nacine i u razlicitim uvjetima izravnom prodajom prigodom ulaska u prijevozno sredstvo, prodajom u vlastitim poslovnicama i filijalama (posredstvom umreenog transakcijskog sustava), putem Interneta (B2C ili B2B), posredstvom razlicitih posrednika (druge agencije, hotelske recepcije, vodici i sl.), telefonskim pozivima prema vlastitom Call-Centru, internim narudbenicama od strane ostalih odjela u firmi (posredstvom umreenog OLTP sustava) itd.

Za analizu su odabrani podaci o putnicima (putnim kartama) na jednom od izleta - raspoloivo je 7437 primjera. Izmedu atributa koji opisuju prodajnu transakciju odabrani su sljedeci (uz potrebne modifikacije formata ili grupiranje vrijednosti): mjes - mjesec dogadanja izleta. U originalnim podacima tu se nalazi datum i vrijeme polaska izleta; prod_mj - prodajno mjesto (AGN=agencija partner, HOT=hotel partner, OWN=vlastita prodajna mrea). U originalnim podacima tu se nalazi ifra konkretnog prodajnog mjesta (hotela, agencije, poslovnice, vodica, predstavnika i sl.). Sve takve ifre su grupirane u spomenuta 3 kanala prodaje; starost - starost putnika - svi putnici su podijeljeni u 6 starosnih intervala (koji su definirani iskustveno) - unutar kojih se mogu prepoznati odredeni zajednicki uzorci ponaanja. U originalnim podacima tu se nalazi datum rodenja putnika (starost se izracunava u odnosu na dan realizacije izleta); spol - spol putnika (M=muki, F=enski); drzava - drava porijekla putnika - drave koje su zastupljene s manje od 10 putnika deklarirane su kao OTHER. U originalnim podacima tu se nalazi troznamenkasta ifra drave; jezik - odabrani jezik vodica na izletu od strane doticnog putnika (izmedu ponudenih jezika na konkretnom izletu - ne postoje vodici na svim jezicima); nac_pla - nacin placanja putne karte (CASH=gotovina, CARD=kred.kartica). U originalnim podacima tu se nalazi preciznija oznaka nacina placanja (primjerice svaki vrsta kreditne kartice ima vlastitu ifru). Analiza je radena pomocu Weka programskog paketa. Radi se o kolekciji algoritama za dubinsku analizu prikupljenih i realiziranih u programskom jeziku Java na Sveucilitu Waikato na Novom Zelandu. Sam projekt je realiziran kao open source programski kod pod licencom GNU General Public License.

Primjeri su - radi analize Weka programskim paketom - pripremljeni u arff formatu:


@RELATION nacin_placanja @ATTRIBUTE mjes {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12} @ATTRIBUTE prod_mj {AGN, HOT, OWN} @ATTRIBUTE starost {00-09, 10-19, 20-29, 30-49, 50-69, 70-99} @ATTRIBUTE spol {M, F} @ATTRIBUTE drzava {ARGENTINA, AUSTRALIA, AUSTRIA, BELGIUM, CANADA, CROATIA, DENMARK, FINLAND, FRANCE, G.BRITAIN, GERMANY, GREECE, HUNGARY, IRELAND, ISRAEL, ITALY, JAPAN, NEDERLAND, NORWAY, OTHER, POLAND, PORTUGAL, RUSSIA, SLOVENIA, SPAIN, SWEDEN, SWITZERL, USA} @ATTRIBUTE jezik {DEU, ENG, ESP, FLA, FRA, HRV, ITL, NOR, RUS} @ATTRIBUTE nac_pla {CASH, CARD} @DATA 3 , AGN , 20-29 , F 3 , AGN , 30-49 , M 3 , OWN , 50-69 , F 3 , OWN , 20-29 , F 3 , OWN , 50-69 , F 3 , OWN , 20-29 , F 3 , OWN , 20-29 , M 3 , AGN , 50-69 , M 3 , AGN , 70-99 , M 3 , OWN , 30-49 , F 3 , AGN , 70-99 , F 3 , AGN , 20-29 , F 3 , AGN , 30-49 , M 3 , AGN , 70-99 , M 3 , AGN , 70-99 , M 3 , OWN , 20-29 , F 4 , AGN , 50-69 , F 4 , AGN , 30-49 , M 4 , AGN , 10-19 , F 4 , AGN , 50-69 , M 4 , AGN , 70-99 , F 4 , OWN , 30-49 , M 4 , OWN , 20-29 , F 4 , HOT , 30-49 , M 4 , HOT , 30-49 , F 4 , OWN , 30-49 , F 4 , HOT , 30-49 , F 4 , HOT , 30-49 , F 4 , AGN , 20-29 , F 4 , AGN , 20-29 , F 4 , AGN , 50-69 , F .......itd..........

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

GERMANY , GERMANY , USA , USA , USA , G.BRITAIN, G.BRITAIN, GERMANY , GERMANY , G.BRITAIN, GERMANY , GERMANY , GERMANY , GERMANY , GERMANY , USA , GERMANY , GERMANY , GERMANY , GERMANY , GERMANY , FRANCE , SWEDEN , FRANCE , FRANCE , USA , ITALY , USA , G.BRITAIN, AUSTRALIA, IRELAND ,

DEU DEU ENG ENG ENG ENG ENG DEU DEU ENG DEU DEU DEU DEU DEU ENG DEU DEU DEU DEU DEU FRA FRA FRA FRA ENG ENG ENG ENG ENG ENG

, , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,

CASH CASH CARD CARD CARD CARD CARD CASH CASH CASH CASH CASH CASH CASH CASH CARD CASH CARD CARD CASH CASH CASH CASH CASH CASH CASH CASH CASH CASH CASH CASH

Pretpostavka je da su agenciji zanimljive dvije klasifikacije podataka (na osnovi kojih bi se eventualno mogla raditi predvidanja) - i to u odnosu na sljedece atribute: - nacin placanja - prodajno mjesto

Ovako dobijene klasifikacije - uz poznavanje buduceg sastava turista na nekoj lokaciji na osnovi najava dolazaka - mogle bi se koristiti za predvidanje nacina placanja (tj. pritjecanja gotovine) ili kanala prodaje (opet povezano s pritjecanjem sredstava - poto se prodajom kroz vlastitu mreu najbre dolazi do obrtnih sredstava, a uz to se ne mora davati ni provizija prodavacu). Iz dugogodinjeg iskustva turistickih djelatnika jasno je da u razlicitim razdobljima godine dolaze turisti razlicite platene moci, razlicitih navika, iz razlicitih drava - najcece kao posljedica bitno razlicitih cijena smjetaja u odgovarajucim sezonama (ali dijelom uvjetovano i razlicitim trajanjima kolske godine, tradicionalnim terminima za godinje odmore i sl.). Isto tako se u praksi pokazalo npr. da su turisti iz nekih drava skloniji placanju gotovinom (ili kreditnim karticama) u odnosu na prosjek, a vjerojatno je utemeljena i prepostavka da su navike turista uvjetovane i pripadnosti odredenoj generaciji. I intezitet prodaje pojedinih prodajnih mjesta pokazuje izvjesnu ovisnost o trenutnoj sezoni, odnosno razdoblju kalendarske godine. Klasifikacije su obavljene pomocu vie raspoloivih metoda, uz slicne rezultate. Primjerice, za NaiveBayes (klasa: prodajno mjesto) se dobije:
Scheme: Relation: Instances: Attributes: weka.classifiers.bayes.NaiveBayes nacin_placanja 7426 7 mjes prod_mj starost spol drzava jezik nac_pla 10-fold cross-validation

Test mode:

=== Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances === Detailed Accuracy By Class === TP Rate 0.836 0.077 0.518 FP Rate 0.5 0.011 0.166 Precision 0.781 0.321 0.518 Recall 0.836 0.077 0.518 F-Measure 0.807 0.124 0.518 Class AGN HOT OWN 5247 2179 0.3291 0.25 0.3661 80.2828 % 92.7832 % 7426 70.6572 % 29.3428 %

=== Confusion Matrix === a 4225 292 895 b 53 36 23 c <-- classified as 776 | a = AGN 140 | b = HOT 986 | c = OWN

Dakle, tocno je klasificirano 70,7% primjera - to se obzirom na prirodu problema moe smatrati zadovoljavajucim rezultatom. I za ostale metode klasifikacije tocnost klasifikacije se kretala u rasponu 70-76%, s tim da su se najbolji rezultati dobili klasifikacijskim stablom po metodi J4.8:
Scheme: Relation: Instances: Attributes: weka.classifiers.trees.J48 -C 0.25 -M 2 nacin_placanja 7426 7 starost spol drzava jezik nac_pla mjes prod_mj 10-fold cross-validation

Test mode:

=== Classifier model (full training set) === J48 pruned tree -----------------drzava = AUSTRALIA | nac_pla = CASH | | mjes = 1: OWN | | mjes = 2: OWN | | mjes = 3: OWN | | mjes = 4: AGN | | mjes = 5: OWN | | mjes = 6 | | | starost = | | | starost =

(0.0) (0.0) (0.0) (5.0/2.0) (6.0) 00-09: AGN (0.0) 10-19: AGN (0.0)

...... itd ............ | | | | | | | | | | | | | | | | | | | | | | | | | nac_pla mjes = 5: AGN (3.0) mjes = 6: OWN (3.0) mjes = 7: HOT (1.0) mjes = 8: AGN (1.0) mjes = 9: HOT (5.0/2.0) mjes = 10: HOT (6.0/1.0) mjes = 11: HOT (0.0) mjes = 12: HOT (0.0) = CARD: OWN (71.0/3.0) : 397 462

Number of Leaves Size of the tree :

=== Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances === Detailed Accuracy By Class === TP Rate 0.937 0.118 0.447 FP Rate 0.575 0.007 0.066 Precision 0.776 0.519 0.7 Recall 0.937 0.118 0.447 F-Measure 0.849 0.192 0.546 Class AGN HOT OWN 5645 1781 0.3971 0.2299 0.3466 73.7997 % 87.8409 % 7426 76.0167 % 23.9833 %

=== Confusion Matrix === a 4738 336 1028 b 27 55 24 c <-- classified as 289 | a = AGN 77 | b = HOT 852 | c = OWN

Treba uociti da je rezultat klasifikacije dosta sloeno stablo (397 listova).

Metoda C4.5
Stabla odluke su najcece koritena metoda induktivnog odlucivanja. Sastoje se od cvorova u kojima se: ? ili testiraju atributi kako bi se odredio nacin grananja podredenog stabla, ? ili se radi o krajnjem cvoru (listu) koji predstavlja jednu klasu odabranog atributa. J4.8 je Weka-ina implementacija algoritma C4.5 ciji se razvoj moe opet pratiti od 60-ih godina kada su definirane osnovne postavke (Hunt, E. B. (1962), Concept Learning: An Information Processing Problem, Wiley.). Neposredni prethodnik alogoritma C4.5 je bio algoritam ID3 (Quinlan, J. R. (1979), Discovering rules from large collections of examples: A casestudy, in D. Michie, ed., `Expert Systems in the Micro Electronic Age', Edinburgh University Press.), odnosno C4 (Quinlan, J. R. (1987), Inductive knowledge acquisition: A case study, in J. R. Quinlan, ed., `Applications of Expert Systems', Addison-Wesley, chapter 9, pp. 157-173.). Prva verzija C4.5 algoritma imala je oko 9000 linija koda u programskom jeziku C (Quinlan, J. R. (1993), C4.5: Programs for Machine Learning, Morgan Kaufmann, San Mateo, USA.). Danas postoji i komercijalna verzija C5.0 (RuleQuest Research), ali se u akademskoj zajednici i dalje najcece koristi C4.5 poto su razlike minimalne, a programski kod dostupan. Sva stabla odluke temelje se na metodi podjele skupa primjera na osnovi vrijednosti nekog atributa - popularno nazvanoj "divide and conquer". Ako u nekom cvoru svi primjeri pripadaju istoj klasi, onda se radi o krajnjem cvoru (listu), inace se radi testiranje koje ce skup primjera podijeliti u dvije ili vie grupa. Razlicite metode izgradnje stabla upravo se razlikuju po nacinu odabira atribita koji ce se testirati. Po metodi ID3 (to je preuzeto i kod C4.5) atribut se bira na osnovi izracuna informacijske dobiti (information gain), kojim se mjeri ocekivano smanjenje entropije koje je posljedica grupiranja primjera. Kako je pocetna entropija jednaka, maksimiziranje informacijske dobiti postie se minimiziranjem entropije - dakle grananja ce se raditi na osnovi atributa koji minimizira entropiju. Ne pokuava se izgraditi teoretski najmanje moguce stablo (jer bi to zahtjevalo velike racunalne resurse), vec se koristi algoritam koji tei izgradnji malih stabala. Entropija karakterizira cistocu, odnosno homogenost nekog skupa: nb - broj primjera u grani b nbc - broj primjera u grani b koji pripadaju klasi c nt - ukupni broj primjera u svim granama

10

Entropija ima vrijednost 0 ako je skup potpuno homogen, a vrijednost 1 ako je skup posve nehomogen. Prosjecna entropija:

Primjer: Ime Ivana Mare Pero Ivo Mato Kate Maro Ana Boja kose plava plava smeda plava crvena smeda smeda plava Visina prosjecna visoka niska niska prosjecna visoka prosjecna niska Tjel.grada lagana prosjecna prosjecna prosjecna teka teka teka lagana Ulje za suncanje ne da da ne ne ne ne da Posljedica opekotine (pozitivno) ne (negativno) ne opekotine opekotine ne ne ne

Ime, boja kose, visina, tip tjelesne grade i podatak o koritenju ulja za suncanje su nezavisni atributi. Prvi korak je izracunavanje prosjecne entropije za sve primjere, za svaki od atributa. Primjerice, za boju kose: Boja kose

Plava (2 poz., 2 neg.)

Crvena (1 poz.)

Smeda (3 neg.)

Izracun prosjecne entropije za ovaj atribut:

11

Izracuna prosjecne entropije za sve atribute: Boja kose Visina Tjel.grada Ulje za suncanje 0.50 0.69 0.94 0.61

... gdje je vidljivo da atribut Boja kose ima najniu entropiju, odnosno najvecu informacijsku dobit - pa se odabire za prvo testiranje: Boja kose

Plava Ivana Mare Mare Ana

Crvena Mato

Smeda Pero Kate Maro

U sljedecem koraku potrebno je za naredni nehomogeni cvor (Boja kose = plava) odabrati atribut na osnovi kojeg ce doci do daljneg grananja stabla. Izracunom se dobiju sljedece prosjecne entropije: Visina Tjel.grada Ulje za suncanje 0.50 1.00 0.00

... na osnovi cega se atribut Ulje za suncanje bira za naredno testiranje. Procedura se ponavlja dok se ne dobiju krajnji cvorovi (listovi) koji su homogeni - svi primjeri pripadaju istoj klasi. Algoritam C4.5 ispravlja neke od nedostataka algoritma ID3: - izbjegava se pretjerana podeenost prema skupu za ucenje (over-fitting) smanjivanjem stabla (pruning) - bilo unaprijed ili unatrag (a priori pruning, post pruning); - podrka atributima s kontinuiranim vrijednostima (npr. temperatura); - podrka za vrijednosti koje nedostaju.

12

Smanjivanje stabla je vri ili zamjenom ili podizanjem podstabla. Ucinak smanjivanja stabla se ocjenjuje procjenjivanjem iznosa pogreke - smanjivanje dolazi u obzir ako se njime smanjuje procijenjeni iznos pogreke. Procijenjena greka za neki cvor iznosi:

z2 f f2 z2 e = f + +z + 2N N N 4N 2

z2 1 + N

... gdje je f greka na pripremnom skupu podataka, N je broj primjera za taj cvor, a z je odreduje stand.devijaciju koja odgovara mjeri pouzdanosti (c). Za normalnu distribuciju je pretpostavljeno c=25%, pa ce z imati vrijednost 0.69. Nakon kreiranja stabla moe se kreirati i skup odgovarajucih pravila, cime se povecava preglednost i razumljivost za krajnje korisnike. Posebni algoritmi se koriste za daljnje pojednostavljenje tako generiranih pravila. Ako je: m n - broj atributa, - broj primjera u pripremnom skupu,

... onda ce racunalna sloenost (cijena) pojedinih etapa izgradnje stabla odluke biti: inicijalna izgradnja stabla ? O (m n log n) zamjena podstabla ? O (n) podizanje podstabla ? O (n (log n)2)

Primjena metode J4.8


Metoda J4.8, realizirana u programskom paketu Weka, je inacica metode C4.5 Revision 8 (posljednja dostupna prije komercijalne inacice C5.0). Kako ce se isti skup primjera koristiti i za ucenje i za testiranje potrebno je izbjeci pretjerano prilagodenje modela raspoloivom skupu podataka. Zato ce se koristiti standardna metoda 10-erostruke provjere (10-fold cross validation). Raspoloivi skup podataka ce se slucajnim odabirom podijeliti u 10 skupova - nakon cega ce se 9 skupova koristiti za generiranje modela, a preostali 10. skup za testiranje. Postupak se ponavlja 10 puta - svaki put se za testiranje koristi drugi skup. Procijenjena greka ce biti prosjek greaka svih iteracija.

13

Uz podrazumijevane vrijednosti svih parametara:

... dobijaju se sljedeci rezultati:


Scheme: Relation: Instances: Attributes: weka.classifiers.trees.J48 -C 0.25 -M 2 nacin_placanja 7426 7 starost spol drzava jezik nac_pla mjes prod_mj 10-fold cross-validation

Test mode:

=== Classifier model (full training set) === J48 pruned tree -----------------drzava = AUSTRALIA | nac_pla = CASH | | mjes = 1: OWN | | mjes = 2: OWN | | mjes = 3: OWN | | mjes = 4: AGN

(0.0) (0.0) (0.0) (5.0/2.0)

14

| | mjes = 5: OWN (6.0) | | mjes = 6 | | | starost = 00-09: AGN (0.0) | | | starost = 10-19: AGN (0.0) | | | starost = 20-29: AGN (5.0) | | | starost = 30-49: HOT (4.0/2.0) | | | starost = 50-69: OWN (3.0) | | | starost = 70-99: AGN (0.0) | | mjes = 7: OWN (11.0/5.0) | | mjes = 8: OWN (12.0) | | mjes = 9: OWN (13.0/4.0) | | mjes = 10: AGN (4.0) | | mjes = 11: AGN (2.0) | | mjes = 12: OWN (0.0) | nac_pla = CARD: OWN (23.0) drzava = AUSTRIA | starost = 00-09: AGN (0.0) | starost = 10-19: AGN (0.0) | starost = 20-29: OWN (4.0) | starost = 30-49 | | mjes = 1: AGN (0.0) | | mjes = 2: AGN (0.0) | | mjes = 3: AGN (0.0) | | mjes = 4: AGN (0.0) | | mjes = 5: AGN (0.0) | | mjes = 6: AGN (1.0) | | mjes = 7: AGN (0.0) | | mjes = 8: OWN (2.0) | | mjes = 9: AGN (3.0/1.0) | | mjes = 10: AGN (0.0) | | mjes = 11: AGN (0.0) | | mjes = 12: AGN (0.0) | starost = 50-69: AGN (25.0/7.0) | starost = 70-99: AGN (8.0/2.0) drzava = BELGIUM | nac_pla = CASH | | jezik = DEU: AGN (66.0/2.0) | | jezik = ENG: AGN (69.0/14.0) | | jezik = ESP: AGN (0.0) | | jezik = FLA | | | mjes = 1: AGN (0.0) | | | mjes = 2: AGN (0.0) | | | mjes = 3: AGN (0.0) | | | mjes = 4: AGN (0.0) | | | mjes = 5: OWN (73.0/24.0) | | | mjes = 6: AGN (0.0) | | | mjes = 7: AGN (27.0) | | | mjes = 8: AGN (12.0) | | | mjes = 9: AGN (0.0) | | | mjes = 10: AGN (0.0) | | | mjes = 11: AGN (0.0) | | | mjes = 12: AGN (0.0) | | jezik = FRA: AGN (160.0/19.0) | | jezik = HRV: AGN (0.0) | | jezik = ITL: AGN (0.0) | | jezik = NOR: AGN (0.0) | | jezik = RUS: AGN (0.0) | nac_pla = CARD: OWN (28.0/1.0) drzava = CANADA: OWN (52.0/12.0) drzava = CROATIA | jezik = DEU: AGN (10.0/3.0)

15

| jezik = ENG: OWN (43.0/14.0) | jezik = ESP: OWN (0.0) | jezik = FLA: OWN (0.0) | jezik = FRA: AGN (2.0) | jezik = HRV | | mjes = 1: OWN (0.0) | | mjes = 2: OWN (0.0) | | mjes = 3: OWN (0.0) | | mjes = 4: OWN (0.0) | | mjes = 5: OWN (0.0) | | mjes = 6: OWN (2.0) | | mjes = 7: OWN (0.0) | | mjes = 8 | | | nac_pla = CASH: HOT (5.0) | | | nac_pla = CARD: OWN (2.0) | | mjes = 9: OWN (2.0) | | mjes = 10: OWN (8.0) | | mjes = 11: OWN (0.0) | | mjes = 12: OWN (0.0) | jezik = ITL: OWN (0.0) | jezik = NOR: OWN (0.0) | jezik = RUS: AGN (1.0) drzava = DENMARK: AGN (39.0/1.0) drzava = FINLAND | nac_pla = CASH | | starost = 00-09: AGN (0.0) | | starost = 10-19: AGN (0.0) | | starost = 20-29: OWN (2.0) | | starost = 30-49: AGN (2.0) | | starost = 50-69: AGN (5.0/2.0) | | starost = 70-99: AGN (0.0) | nac_pla = CARD: OWN (5.0) drzava = FRANCE | nac_pla = CASH: AGN (666.0/193.0) | nac_pla = CARD | | jezik = DEU: AGN (12.0) | | jezik = ENG: OWN (2.0) | | jezik = ESP: OWN (0.0) | | jezik = FLA: OWN (0.0) | | jezik = FRA: OWN (98.0/33.0) | | jezik = HRV: OWN (0.0) | | jezik = ITL: OWN (0.0) | | jezik = NOR: OWN (0.0) | | jezik = RUS: OWN (0.0) drzava = G.BRITAIN | jezik = DEU | | nac_pla = CASH: AGN (47.0) | | nac_pla = CARD: OWN (2.0) | jezik = ENG: AGN (1380.0/401.0) | jezik = ESP: OWN (7.0) | jezik = FLA: AGN (0.0) | jezik = FRA: AGN (39.0) | jezik = HRV: AGN (0.0) | jezik = ITL: AGN (0.0) | jezik = NOR: AGN (0.0) | jezik = RUS: AGN (0.0) drzava = GERMANY: AGN (1720.0/219.0) drzava = HUNGARY | starost = 00-09: HOT (0.0) | starost = 10-19: AGN (2.0) | starost = 20-29: OWN (3.0)

16

| starost = 30-49 | | jezik = DEU: AGN (4.0/1.0) | | jezik = ENG: HOT (4.0) | | jezik = ESP: HOT (0.0) | | jezik = FLA: HOT (0.0) | | jezik = FRA: OWN (1.0) | | jezik = HRV: HOT (0.0) | | jezik = ITL: HOT (0.0) | | jezik = NOR: HOT (0.0) | | jezik = RUS: HOT (0.0) | starost = 50-69 | | mjes = 1: HOT (0.0) | | mjes = 2: HOT (0.0) | | mjes = 3: HOT (0.0) | | mjes = 4: AGN (1.0) | | mjes = 5: HOT (0.0) | | mjes = 6: HOT (0.0) | | mjes = 7: HOT (8.0/4.0) | | mjes = 8: HOT (7.0/3.0) | | mjes = 9: OWN (5.0/1.0) | | mjes = 10: HOT (0.0) | | mjes = 11: HOT (0.0) | | mjes = 12: HOT (0.0) | starost = 70-99: OWN (3.0) drzava = IRELAND | starost = 00-09: OWN (5.0/2.0) | starost = 10-19: AGN (19.0/8.0) | starost = 20-29: OWN (83.0/42.0) | starost = 30-49 | | nac_pla = CASH: AGN (139.0/45.0) | | nac_pla = CARD: OWN (69.0/31.0) | starost = 50-69: AGN (278.0/109.0) | starost = 70-99: AGN (49.0/18.0) drzava = ISRAEL: OWN (216.0/50.0) drzava = ITALY | mjes = 1: AGN (0.0) | mjes = 2: AGN (0.0) | mjes = 3: AGN (0.0) | mjes = 4: AGN (2.0/1.0) | mjes = 5: OWN (2.0) | mjes = 6: AGN (4.0/2.0) | mjes = 7 | | starost = 00-09: HOT (0.0) | | starost = 10-19: HOT (0.0) | | starost = 20-29: OWN (4.0) | | starost = 30-49: HOT (1.0) | | starost = 50-69: HOT (6.0/1.0) | | starost = 70-99: HOT (0.0) | mjes = 8 | | nac_pla = CASH: AGN (64.0/21.0) | | nac_pla = CARD: OWN (4.0) | mjes = 9: OWN (16.0/8.0) | mjes = 10: AGN (2.0) | mjes = 11: AGN (0.0) | mjes = 12: AGN (0.0) drzava = JAPAN: OWN (34.0/11.0) drzava = NEDERLAND | mjes = 1: AGN (0.0) | mjes = 2: AGN (0.0) | mjes = 3: AGN (0.0) | mjes = 4: AGN (2.0)

17

| mjes = 5 | | starost = 00-09: HOT (0.0) | | starost = 10-19: HOT (0.0) | | starost = 20-29: HOT (0.0) | | starost = 30-49: AGN (3.0) | | starost = 50-69: HOT (24.0/6.0) | | starost = 70-99: HOT (4.0) | mjes = 6: AGN (9.0/2.0) | mjes = 7 | | jezik = DEU: HOT (2.0) | | jezik = ENG: AGN (6.0) | | jezik = ESP: AGN (0.0) | | jezik = FLA: AGN (0.0) | | jezik = FRA: AGN (0.0) | | jezik = HRV: AGN (0.0) | | jezik = ITL: AGN (0.0) | | jezik = NOR: AGN (0.0) | | jezik = RUS: AGN (0.0) | mjes = 8 | | jezik = DEU: AGN (4.0) | | jezik = ENG: OWN (3.0) | | jezik = ESP: OWN (0.0) | | jezik = FLA: OWN (0.0) | | jezik = FRA: OWN (0.0) | | jezik = HRV: OWN (3.0) | | jezik = ITL: OWN (0.0) | | jezik = NOR: OWN (0.0) | | jezik = RUS: OWN (0.0) | mjes = 9 | | nac_pla = CASH: AGN (5.0) | | nac_pla = CARD: HOT (3.0) | mjes = 10 | | starost = 00-09: AGN (0.0) | | starost = 10-19: AGN (0.0) | | starost = 20-29: AGN (1.0) | | starost = 30-49: OWN (2.0) | | starost = 50-69: AGN (4.0/1.0) | | starost = 70-99: HOT (1.0) | mjes = 11: AGN (0.0) | mjes = 12: AGN (0.0) drzava = NORWAY | mjes = 1: AGN (0.0) | mjes = 2: AGN (0.0) | mjes = 3: AGN (0.0) | mjes = 4: OWN (13.0) | mjes = 5: OWN (1.0) | mjes = 6 | | nac_pla = CASH: AGN (23.0/2.0) | | nac_pla = CARD: OWN (5.0) | mjes = 7 | | nac_pla = CASH: AGN (33.0/6.0) | | nac_pla = CARD: OWN (2.0) | mjes = 8 | | starost = 00-09: OWN (0.0) | | starost = 10-19: OWN (0.0) | | starost = 20-29: AGN (2.0/1.0) | | starost = 30-49: OWN (5.0/1.0) | | starost = 50-69: AGN (2.0) | | starost = 70-99: OWN (0.0) | mjes = 9 | | starost = 00-09: HOT (0.0)

18

| | starost = 10-19: HOT (0.0) | | starost = 20-29: OWN (2.0) | | starost = 30-49: HOT (0.0) | | starost = 50-69: HOT (3.0/1.0) | | starost = 70-99: HOT (2.0) | mjes = 10 | | nac_pla = CASH | | | starost = 00-09: AGN (0.0) | | | starost = 10-19: AGN (2.0/1.0) | | | starost = 20-29: AGN (0.0) | | | starost = 30-49: OWN (4.0/1.0) | | | starost = 50-69: AGN (4.0/2.0) | | | starost = 70-99: HOT (2.0) | | nac_pla = CARD: OWN (4.0) | mjes = 11: AGN (0.0) | mjes = 12: AGN (0.0) drzava = OTHER | nac_pla = CASH | | jezik = DEU: AGN (3.0) | | jezik = ENG | | | starost = 00-09: AGN (0.0) | | | starost = 10-19: AGN (0.0) | | | starost = 20-29: OWN (9.0/3.0) | | | starost = 30-49: OWN (16.0/6.0) | | | starost = 50-69: AGN (17.0/5.0) | | | starost = 70-99: AGN (1.0) | | jezik = ESP | | | mjes = 1: AGN (0.0) | | | mjes = 2: AGN (0.0) | | | mjes = 3: AGN (0.0) | | | mjes = 4: AGN (0.0) | | | mjes = 5: AGN (0.0) | | | mjes = 6 | | | | spol = M: AGN (2.0) | | | | spol = F: OWN (3.0/1.0) | | | mjes = 7: AGN (0.0) | | | mjes = 8: AGN (2.0) | | | mjes = 9: HOT (4.0/1.0) | | | mjes = 10: AGN (0.0) | | | mjes = 11: AGN (0.0) | | | mjes = 12: AGN (0.0) | | jezik = FLA: AGN (0.0) | | jezik = FRA | | | mjes = 1: HOT (0.0) | | | mjes = 2: HOT (0.0) | | | mjes = 3: HOT (0.0) | | | mjes = 4: HOT (0.0) | | | mjes = 5: HOT (0.0) | | | mjes = 6: OWN (1.0) | | | mjes = 7: HOT (0.0) | | | mjes = 8: AGN (2.0/1.0) | | | mjes = 9: HOT (2.0) | | | mjes = 10: HOT (0.0) | | | mjes = 11: HOT (0.0) | | | mjes = 12: HOT (0.0) | | jezik = HRV: OWN (2.0) | | jezik = ITL: AGN (0.0) | | jezik = NOR: AGN (0.0) | | jezik = RUS: AGN (5.0) | nac_pla = CARD: OWN (23.0/2.0) drzava = POLAND

19

| spol = M: OWN (4.0/1.0) | spol = F | | mjes = 1: AGN (0.0) | | mjes = 2: AGN (0.0) | | mjes = 3: AGN (0.0) | | mjes = 4: AGN (0.0) | | mjes = 5: AGN (3.0) | | mjes = 6: AGN (0.0) | | mjes = 7: AGN (0.0) | | mjes = 8: AGN (1.0) | | mjes = 9: HOT (2.0) | | mjes = 10: AGN (0.0) | | mjes = 11: AGN (0.0) | | mjes = 12: AGN (0.0) drzava = PORTUGAL: OWN (13.0/4.0) drzava = RUSSIA | jezik = DEU: AGN (5.0/1.0) | jezik = ENG | | mjes = 1: OWN (0.0) | | mjes = 2: OWN (0.0) | | mjes = 3: OWN (0.0) | | mjes = 4: AGN (2.0) | | mjes = 5: OWN (0.0) | | mjes = 6: AGN (2.0/1.0) | | mjes = 7: OWN (0.0) | | mjes = 8: OWN (9.0/1.0) | | mjes = 9: AGN (2.0/1.0) | | mjes = 10: OWN (0.0) | | mjes = 11: OWN (0.0) | | mjes = 12: OWN (0.0) | jezik = ESP: AGN (0.0) | jezik = FLA: AGN (0.0) | jezik = FRA: AGN (0.0) | jezik = HRV: AGN (0.0) | jezik = ITL: AGN (0.0) | jezik = NOR: AGN (0.0) | jezik = RUS: AGN (646.0/60.0) drzava = SLOVENIA | nac_pla = CASH: AGN (14.0/2.0) | nac_pla = CARD: HOT (3.0/1.0) drzava = SPAIN | jezik = DEU: AGN (0.0) | jezik = ENG | | mjes = 1: AGN (0.0) | | mjes = 2: AGN (0.0) | | mjes = 3: AGN (0.0) | | mjes = 4: AGN (1.0) | | mjes = 5: OWN (3.0) | | mjes = 6: AGN (2.0) | | mjes = 7 | | | starost = 00-09: HOT (0.0) | | | starost = 10-19: HOT (0.0) | | | starost = 20-29: AGN (3.0/1.0) | | | starost = 30-49: HOT (4.0/2.0) | | | starost = 50-69: HOT (2.0) | | | starost = 70-99: HOT (0.0) | | mjes = 8: OWN (6.0/2.0) | | mjes = 9: AGN (5.0) | | mjes = 10: AGN (8.0/2.0) | | mjes = 11: AGN (0.0) | | mjes = 12: AGN (0.0)

20

| jezik = ESP | | nac_pla = CASH | | | mjes = 1: OWN (0.0) | | | mjes = 2: OWN (0.0) | | | mjes = 3: OWN (0.0) | | | mjes = 4: OWN (0.0) | | | mjes = 5: OWN (4.0) | | | mjes = 6: AGN (51.0/16.0) | | | mjes = 7: OWN (81.0/33.0) | | | mjes = 8: OWN (82.0/29.0) | | | mjes = 9 | | | | starost = 00-09: OWN (1.0) | | | | starost = 10-19: OWN (1.0) | | | | starost = 20-29: AGN (6.0) | | | | starost = 30-49: AGN (21.0/10.0) | | | | starost = 50-69: OWN (16.0/5.0) | | | | starost = 70-99: OWN (1.0) | | | mjes = 10: OWN (2.0) | | | mjes = 11: OWN (0.0) | | | mjes = 12: OWN (0.0) | | nac_pla = CARD: AGN (40.0/2.0) | jezik = FLA: AGN (0.0) | jezik = FRA: HOT (6.0/2.0) | jezik = HRV: AGN (0.0) | jezik = ITL: AGN (0.0) | jezik = NOR: AGN (0.0) | jezik = RUS: AGN (0.0) drzava = SWEDEN | nac_pla = CASH: AGN (83.0/14.0) | nac_pla = CARD: OWN (20.0/1.0) drzava = SWITZERL | mjes = 1: AGN (0.0) | mjes = 2: AGN (0.0) | mjes = 3: AGN (0.0) | mjes = 4: AGN (0.0) | mjes = 5 | | nac_pla = CASH: AGN (2.0) | | nac_pla = CARD: OWN (3.0) | mjes = 6: AGN (10.0) | mjes = 7: AGN (11.0/3.0) | mjes = 8 | | jezik = DEU: OWN (5.0/2.0) | | jezik = ENG: HOT (1.0) | | jezik = ESP: AGN (0.0) | | jezik = FLA: AGN (0.0) | | jezik = FRA: AGN (3.0) | | jezik = HRV: AGN (0.0) | | jezik = ITL: AGN (0.0) | | jezik = NOR: AGN (0.0) | | jezik = RUS: AGN (0.0) | mjes = 9: OWN (6.0) | mjes = 10: OWN (3.0) | mjes = 11: AGN (0.0) | mjes = 12: AGN (0.0) drzava = USA | nac_pla = CASH | | starost = 00-09: OWN (1.0) | | starost = 10-19: OWN (3.0) | | starost = 20-29: OWN (23.0/7.0) | | starost = 30-49: AGN (26.0/12.0) | | starost = 50-69

21

| | | | | | | | | | | | | | | | | | | | | | | | | | | |

| | mjes = 1: AGN (0.0) | | mjes = 2: AGN (0.0) | | mjes = 3: AGN (0.0) | | mjes = 4: AGN (0.0) | | mjes = 5: AGN (6.0/1.0) | | mjes = 6: AGN (10.0/3.0) | | mjes = 7: OWN (6.0/2.0) | | mjes = 8: AGN (9.0/3.0) | | mjes = 9 | | | spol = M: OWN (8.0/2.0) | | | spol = F: AGN (9.0/3.0) | | mjes = 10: OWN (5.0/2.0) | | mjes = 11: AGN (0.0) | | mjes = 12: AGN (0.0) | starost = 70-99 | | mjes = 1: HOT (0.0) | | mjes = 2: HOT (0.0) | | mjes = 3: HOT (0.0) | | mjes = 4: HOT (0.0) | | mjes = 5: AGN (3.0) | | mjes = 6: OWN (3.0) | | mjes = 7: HOT (1.0) | | mjes = 8: AGN (1.0) | | mjes = 9: HOT (5.0/2.0) | | mjes = 10: HOT (6.0/1.0) | | mjes = 11: HOT (0.0) | | mjes = 12: HOT (0.0) nac_pla = CARD: OWN (71.0/3.0) : 397 462

Number of Leaves Size of the tree :

=== Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances === Detailed Accuracy By Class === TP Rate 0.937 0.118 0.447 FP Rate 0.575 0.007 0.066 Precision 0.776 0.519 0.7 Recall 0.937 0.118 0.447 F-Measure 0.849 0.192 0.546 Class AGN HOT OWN 5645 1781 0.3971 0.2299 0.3466 73.7997 % 87.8409 % 7426 76.0167 % 23.9833 %

=== Confusion Matrix === a 4738 336 1028 b 27 55 24 c <-- classified as 289 | a = AGN 77 | b = HOT 852 | c = OWN

22

Broj tocno klasificiranih primjera je preko 76%, ali je rezultatno stablo odluke dosta kompleksno (velicina stabla: 462). Za prezentaciju korisnicima bilo bi poeljno da stablo bude to jednostavnije - cak i po cijenu neto malo loijih rezultata klasifikacije. Moe se analizirati i informacijska dobit pojedinih atributa:
Evaluator: Search: -1 Relation: Instances: Attributes: weka.attributeSelection.InfoGainAttributeEval weka.attributeSelection.Ranker -T -1.7976931348623157E308 -N

nacin_placanja 7426 7 starost spol drzava jezik nac_pla mjes prod_mj Evaluation mode: evaluate on all training data

=== Attribute Selection on all input data === Search Method: Attribute ranking. Attribute Evaluator (supervised, Class (nominal): 7 prod_mj): Information Gain Ranking Filter Ranked attributes: 0.157206 3 drzava 0.092683 4 jezik 0.024936 5 nac_pla 0.008893 1 starost 0.007662 6 mjes 0.00025 2 spol Selected attributes: 3,4,5,1,6,2 : 6

Moe se uociti da atribut spol ima uvjerljivo najmanju informacijsku dobit (to se moglo i pretpostaviti). Zato je zanimljivo vidjeti rezultate klasifikacije na osnovi primjera kod kojih je izbacen atribut spol:
Number of Leaves Size of the tree : : 348 404

Time taken to build model: 0.11 seconds === Stratified cross-validation === === Summary ===

23

Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances === Detailed Accuracy By Class === TP Rate 0.941 0.12 0.446 FP Rate 0.578 0.006 0.064 Precision 0.776 0.566 0.706 Recall 0.941 0.12 0.446

5659 1767 0.3996 0.2304 0.3456 73.9716 % 87.5921 % 7426

76.2052 % 23.7948 %

F-Measure 0.851 0.198 0.547

Class AGN HOT OWN

=== Confusion Matrix === a 4754 335 1036 b 24 56 19 c <-- classified as 276 | a = AGN 77 | b = HOT 849 | c = OWN

Tocnost klasifikacije je cak i porasla 0,2%, dok se velicina stabla znacajno smanjila (s 462 na 404). Daljnje smanjenje velicine stabla moe se postici smanjenjem pouzdanosti (c), kao i povecanjem broja primjera koje mora sadravati svaki cvor. Primjerice, za confidenceFactor=0.1 i minNumObj=100 dobije se:
J48 pruned tree -----------------drzava = AUSTRALIA: OWN (88.0/28.0) drzava = AUSTRIA: AGN (43.0/16.0) drzava = BELGIUM: AGN (435.0/111.0) drzava = CANADA: OWN (52.0/12.0) drzava = CROATIA: OWN (75.0/29.0) drzava = DENMARK: AGN (39.0/1.0) drzava = FINLAND: OWN (14.0/5.0) drzava = FRANCE | nac_pla = CASH: AGN (666.0/193.0) | nac_pla = CARD: OWN (112.0/45.0) drzava = G.BRITAIN: AGN (1475.0/410.0) drzava = GERMANY: AGN (1720.0/219.0) drzava = HUNGARY: HOT (38.0/24.0) drzava = IRELAND: AGN (642.0/272.0) drzava = ISRAEL: OWN (216.0/50.0) drzava = ITALY: AGN (105.0/52.0) drzava = JAPAN: OWN (34.0/11.0) drzava = NEDERLAND: AGN (76.0/39.0) drzava = NORWAY: AGN (109.0/53.0) drzava = OTHER: OWN (92.0/43.0) drzava = POLAND: AGN (10.0/5.0) drzava = PORTUGAL: OWN (13.0/4.0) drzava = RUSSIA: AGN (666.0/71.0) drzava = SLOVENIA: AGN (17.0/5.0)

24

drzava drzava drzava drzava

= = = =

SPAIN: AGN (346.0/168.0) SWEDEN: AGN (103.0/34.0) SWITZERL: AGN (44.0/19.0) USA: OWN (196.0/78.0) : 27 29

Number of Leaves Size of the tree :

=== Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances === Detailed Accuracy By Class === TP Rate 0.959 0.009 0.299 FP Rate 0.714 0.002 0.054 Precision 0.741 0.2 0.658 Recall 0.959 0.009 0.299 F-Measure 0.836 0.016 0.411 Class AGN HOT OWN 5421 2005 0.2712 0.2605 0.3616 83.6522 % 91.6396 % 7426 73.0003 % 26.9997 %

=== Confusion Matrix === a 4848 369 1324 b 5 4 11 c <-- classified as 201 | a = AGN 95 | b = HOT 569 | c = OWN

Tocnost klasifikacije se smanjila za oko 3%, ali se dobilo neusporedivo manje stablo. Prakticno se cijela klasifikacija obavlja vec na prvoj razini - pomocu atributa drzava.

drzava

AUSTRALIA AUSTRIA itd.

OWN

AGN

...

25

Vrlo zanimljivo je vidjeti ucinak parametra binarySplits kojim se forsira binarno odlucivanje u svakom cvoru:
J48 pruned tree -----------------drzava = ISRAEL: OWN (216.0/50.0) drzava != ISRAEL | jezik = DEU: AGN (1913.0/263.0) | jezik != DEU | | jezik = ESP | | | starost = 30-49: AGN (160.0/70.0) | | | starost != 30-49: OWN (171.0/78.0) | | jezik != ESP | | | nac_pla = CASH: AGN (3740.0/1132.0) | | | nac_pla != CASH | | | | drzava = G.BRITAIN: AGN (664.0/197.0) | | | | drzava != G.BRITAIN | | | | | drzava = IRELAND: AGN (204.0/102.0) | | | | | drzava != IRELAND: OWN (358.0/52.0) Number of Leaves Size of the tree : : 8 15

=== Stratified cross-validation === === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances === Detailed Accuracy By Class === TP Rate 0.972 0 0.296 FP Rate 0.745 0 0.033 Precision 0.736 0 0.754 Recall 0.972 0 0.296 F-Measure 0.837 0 0.425 Class AGN HOT OWN 5476 1950 0.2748 0.2642 0.3638 84.812 % 92.1886 % 7426 73.7409 % 26.2591 %

=== Confusion Matrix === a 4913 425 1341 b 0 0 0 c <-- classified as 141 | a = AGN 43 | b = HOT 563 | c = OWN

Rezultatno stablo je vrlo malo, a tocnost klasifikacije cak i bolja od prethodnog primjera.

26

Ovo stablo se moe prikazati graficki i mehanizmima Weka programskog paketa:

27

Zakljucak
Bez obzira na prirodu procesa i pripadajucih podataka, metode dubinske analize imaju veliki potencijal u smislu otkrivanja nepoznatih zakonitosti i uzoraka. U ovom radu prikazan je tek dio tih mogucnosti na uzorku podataka o putnicima na izletima. Prezentirano je i kako se mogu dobiti znacajno razliciti rezultati ovisno o odabiru razlicitih raspoloivih parametara.

Literatura
IAN H. WITTEN AND EIBE FRANK, Data Mining Practical Machine Learning Tools and Techniques with Java Implementations, Morgan Kaufman 2000. JIAWEI HAN AND MICHELINE KAMBER, Data Mining Concepts and Techniques", Morgan Kaufman Press 2001. RICHARD KIRCKBY, "WEKA Explorer User Guide for Version 3-3-4", University of Waikato 2002. IAN H. WITTEN AND EIBE FRANK, "WEKA Tutorial", University of Waikato 2002.

28

You might also like