Hokoli Dokoli

DRAVNI UNIVERZITET U NOVOM PAZARU
Departman za tehnike nauke

Studijski program : Raunarska tehnika
Seminarski rad
Studijsko istraivaki rad 2
Tema:Alati za Data Mining
Mentor Kandidat
Prof. Dr. arko Barbari Rifat Ljaji
Novi Pazar, 2015.
Sadraj:
1 Uvod........................................................................................................................................3
2 Metodologija istraivakog rada..............................................................................................4
2.1 Uvodne napomene.............................................................................................................4
2.2 Predmet istraivanja..........................................................................................................4
2.3 Hipotetiki okvir...............................................................................................................4
2.4 Ciljevi istraivanja............................................................................................................4
2.5 Metode istraivanja i tok istraivakog procesa...............................................................4
3 3. Poreklo data Mining-a (Istraivanje podataka)....................................................................5
3.1 Poreklo..............................................................................................................................5
3.2 Tradicionalne tehnike su neefikasne.................................................................................5
3.3 Izazovi u procesu IP-a.......................................................................................................5
4 Data mining.............................................................................................................................5
4.1 Upotreba Data Mininga.....................................................................................................5
4.2 Metode rudarenja podataka...............................................................................................7
4.3 Najee koriene metode:..............................................................................................7
4.3.1 Klasifikacija (Classification).....................................................................................7
4.3.2 Regresija (Regression)...............................................................................................8
4.3.3 Predvianje (Prediction)............................................................................................9
4.3.4 Predvianje (primeri).................................................................................................9
4.3.5 Grupisanje-Grupisanje (Klastering)...........................................................................9
4.3.6 Sumarizacija (Summarization).................................................................................11
4.3.7 Pridruivanje (Association Rules)...........................................................................12
4.4 Nove izvedene metode rudarenja podataka....................................................................12
4.4.1 Stabla odluke...........................................................................................................12
4.4.2 Neuronske mree.....................................................................................................13
4.4.3 Genetski algoritmi...................................................................................................13
5 Procesi....................................................................................................................................14
5.1 Proces rudarenja podataka..............................................................................................14
5.2 Ko su uesnici u procesu Data Mininga?........................................................................15
5.3 Ko trai strunjake u Data Miningu?..............................................................................15
6 Primeri rudarenja podataka....................................................................................................16
7 Alati za rudarenje podataka...................................................................................................17
2
7.1 Poznati alati za rudarenje podataka................................................................................17
8 IBM alat za rudarenje podataka SPSS Clementine................................................................17
8.1 Izgled Clementine ekrana................................................................................................18
8.2 Primer korienja alata Clementine................................................................................20
8.3 Proces pravljenja C5.0 algoritma....................................................................................20
Zakljuak.......................................................................................................................................25
Literatura........................................................................................................................................26
3
1 UVOD
Rudarenje podataka je proces pronalaenja novog i potencijalno korisnog znanja iz
podataka, odnosno kao otkrivanje ili rudarenje znanja iz velike koliine podataka.
Bolji bi izraz moda bio rudarenje znanja iz podataka, gde se rudarenje odnosi na ono to se
pronalazi kao rezultat tog procesa.
Data Mining je prirodna evolucija tehnologije, a koja upotrebljava koncepte, metode i
tehnike razliitih disciplina kao to su baze podataka, statistika i vetaka inteligencija.
Tehnologija baza podataka se razvila iz primitivnih u sofisticirane i mone sisiteme baza
podataka kakve danas poznajemo. Taj razvoj omoguio je beleenje i sakupljanje ogromnih
koliina podataka to je neizbeno dovelo i do potrebe obrade i analize tih podataka, a sve u
svrhu dobijanja korisnih informacija i znanja. Dananja informaciona tehnologija omoguila nam
je beleenje svake aktivnosti u obliku digitalnih podataka, a koliina sakupljenih podataka u
mnogim bazama meri se u terabajtima, a jedan terabajt iznosi hiljadu gigabajta ili 1 099 511 627
776 bajta. Ogromne baze podataka bogate su podacima, ali i siromane informacijama koje su
skrivene u sauvanim podacima. Upravo je Data Mining taj koji pomae da otkrijemo vane
informacije i znanje utkano u podatke, poslovanju i nauci. Data Miningom se takoe otkrivaju
odnosi, loginost, pravilnost te bilo kakve strukture meu podacima. Rudarenje podrazumeva
organizaciju baza ienjem podataka kako bi se pristupilo znanju i sticanju istog na temelju
postojeih podataka u bazama. Razvoj tehnologije, raunara i internet bitno doprinosi lakoj
organizaciji podataka, no da bi oni postali korisni, potrebno je njihovo pretvaranje u informacije i
znanje.
Termin rudarenja esto se izjednauje sa dva razliita procesa: otkrivanje i predvianje
znanja. Proces otkrivanja znanja implicira korisnikovo razumevanje izreenih informacija za
koje je bitno da su u itljivom obliku. Predvianje se odnosi na budue dogaaje i u nekim
pristupima moe biti itljivo i providno dok u drugim neprovidno.
Data Mining ne predstavlja Data Warehousing, SQL / Ad Hoc Queries / Reporting,
Software Agents, Online Analytical Processing (OLAP), niti Data Visualization
2 METODOLOGIJA ISTRAIVAKOG RADA
2.1 Uvodne napomene

Istraivanje sprovedeno tokom pisanja ovoga rada je pokazalo da je rudarenje podataka
vaan analitiki korak u otkrivanju znanja korienjem baza podataka. Moderne raunarske
komponente dozvoljavaju da u dananje vreme kompletan proces rudarenja dosta bre i
jednostavnije funkcionie. U ovom radu su detaljno analizirane neke metode rudarenja, radi
sagledavanja njihovog mogueg korienja na razliitim sluajevima potreba.
Rad moe da koristi manje strunim korisnicima raunara, ali i naprednijim korisnicima
kao skraeni prikaz naina rudarenja.
4
2.2 Predmet istraivanja
Predmet istraivanja je analiza i potpuno sagledavanje metodike upotrebe rudarenja podataka u
dananjem poslovnom i privatnom sektoru. Prezentovanje osnovnih metoda kroz praktine
primere. U toku ovog istraivanja prikazaemo klasifikaciju i globalnu analizu postojeih
reenja. A zatim kroz konkretan alat, njegov prikaz i u njemu obraeni odreeni primeri.
2.3 Hipotetiki okvir
Generalna ili opta hipoteza: Priroda rudarenja podataka je evoluirala mainskog uenja,
vetake inteligencije, preko baze podataka do dananjih softvera koji se sve vie unapreuju,
ime se tei da rudarenje postane dostupno i krajnjim korisnicima.
Posebna ili radna hipoteza: Dosta istraivanja i statistikih podataka ukazuju na ogromne
koliine podataka koji se ne koriste. U tom obilju podataka postoje skriveni podaci koji treba da
budu otkriveni i funkcionalno iskorieni
Pojedinana hipoteza: Informacije u savremenom drutvu predstavljaju veoma cenjen
resurs za kojim se poveava potranja. Velike mega kompanije su to ve odavno uvidele, i ve
uveliko traje utrkivanje ko e proizvesti bolji software za obradu informacija koji e biti
dostupan svakome.
2.4 Ciljevi istraivanja
Nauni cilj ovog istraivanja je analiza i potpuno razumevanje prirode i funkcionalnosti
data mining-a radi uspene analize podataka i stvaranja novih informacija.
Konkretan cilj ovog istraivanja je pronalaenje odgovora na sledea pitanja:
Koje se razliite metode rudarenja koriste i za koje sluajeve najee ?
Kojim tehnikama se slue rudari da bi doli do informacija ?
Koji su procesi u rudarenju podataka ?
2.5 Metode istraivanja i tok istraivakog procesa
Osnovne metode: Za potrebe istraivanja, izvrena je analiza metoda rudarenja podataka.
Pomou nekoliko kompetentnih izvora strune literature, izvrena je podela metoda rudarenja, s
ciljem da se rasvetli njihov znaaj i njihova praktina primena na odreenim tipovima podataka
koji se analiziraju.
Statistike metode: Korieni su aktuelni statistiki podaci vodeih svetskih kompanija
koje se bave proizvodnjom i implementaciom softvera za rudarenje. Tokom rada je predstavljeno
i nekoliko studija sluajeva odabranih primeraka metoda rudarenja.
Eksperiment: U cilju potpunog razumevanja strukture data mining-a bie prikazani
odreeni alati i njihova primena.
Tok istraivakog procesa: Najpre je sprovedena analiza metoda rudarenja podataka koje
se danas koriste. Pro tome su objanjene njihove karakteristike i obrazloeno je za koje tipove
podataka se koriste i u kojim sluajevima. Potom je izvrena i obimna analiza postojeih
programskih reenja dostupnih na dananjem tritu.
U sledeem delu su obraeni procesi od kojih se sastoji jedno rudarenje podataka. Na kraju rada
je dat pregled koriene literature i strunih izvora na kojima je deo istraivanja i osnovan.
5
3 POREKLO DATA MINING-A (ISTRAIVANJE PODATAKA)
3.1 Poreklo
Poreklo samog pojma data mining potie od prvih stvari koje su se pojavile sa pojavom
raunara. To su:
1. Mainsko uenje - Kao oblast vetake inteligencije predstavlja skup paradigmi, algoritama,
teorijskih rezultata i primena iz razliitih oblasti vetake inteligencije i evolucionih modela (u
smislu pretraivanja) ali i drugih oblasti: statistike i verovatnoe (Bajesov klasifikator, raspodele
I testovi) i drugih oblasti matematike, teorije izraunljivosti (mora postojati svest o sloenosti
problema i ogranienjima koja proistiu iz toga), teorije (adaptivnog) upravljanja, informacione
teorije, psihlogije i neurobiologije (neuronske mree), filozofije, kognitivnih i drugih nauka.
2. Vetaka inteligencija - predstavlja meavinu konvencionalne nauke, fiziologije i psihologije,
sve u cilju da se napravi maina koja bi se, po ljudskim merilima, mogla smatrati
"inteligentnom".
3. Baze podataka predstavlja kolekciju podataka organizovanih za brzo pretraivanje i pristup,
koja zajedno sa sistemom za administraciju, organizovanje i memorisanje tih podataka, ini
sistem baze podataka. Iz ugla korisnika, podaci su na neki nain logiki nain povezani.[1]
4. prepoznavnaje oblika (paterni)
3.2 Izazovi u procesu IP-a
Interakcija sa ovekom (preko interfejsa), ime ovek kao ivo bie moe da dorauje
sam proces. Uklapanje u odreeni model. Elementi van granica modela (eng. outliers), to
predstavlja neto ne izraunljivo samom oveku.
Interpretacija rezultata, Vizuelizacija rezultata, Skalabilnost (ne velike datoteke),
Dimenzionalnost (veliki broj atributa), Sloeni i heterogeni podaci (npr. multimedija,...), Kvalitet
podataka (nedostajui i irelevantni podaci).
4 DATA MINING
4.1 Upotreba Data Mininga

Klju uspeha je da zna neto to niko drugi ne zna.
U poslovanju Data Mining se najvie koristi na podruju marketinga, koji je usmeren sve
vie pojedinanom kupcu upravljanje odnosima s kupcima (eng. Customer Relationship
Management CRM) koje je usmereno stvaranju, odravanju ili poboljavanju odnosa s
kupcima. Cilj ove pojedinane usmerenosti na kupca jeste pridobijanje novih kupaca i
zadravanje starih kupaca. CRM pokuava uvideti elje i potrebe kupaca, razumeti njihovo
ponaanje te predvideti budue ponaanje. Na ovom podruju Data Mining je posebno uspeno,
naravno uz dovoljnu koliinu kvalitetnih podataka o kupcu. U marketingu, Data Mining se
najvie upotrebljava za:
direktni marketing npr., katalozi i ponude razliitih artikala se alju kupcima za koje
postoji najvea verovatnoa odaziva; pozivi upueni starijim generacijama (ugl.
penzionerima) na prezentacije od 10-ak ljudi gde trgovaki putnici prodaju razliite
6
proizvode po "tvornikoj ceni samo za njih veeras". Npr. Prodaju proizvode od merino
vune, proizvode koje ne tete naem zdravlju.
izradu profila kupaca utvruje se uzorak ponaanja kupaca da bi mu se kasnije poslala
prilagoena ponuda.
segmentaciju utvrivanje grupa kupaca jednakih karakteristika.
istraivanje povezanosti prodaje razliitih proizvoda analiza kupovine se moe
upotrebiti za rasporeivanje artikala na policama.
stimulacija kupovine drugih artikala istog preduzea, odnosno vee koliine istih
artikala, to moe nadoknaditi pridobijanje novih kupaca.
Kako emo ovo postii? Na primer bi bio uz dva kupljena laptop raunara dobijate na
poklon laserski tampa koji je stigao kao gratis u to preduzee (ali kupci to naravno ne
znaju).
zadravanje kupaca ovo je puno jeftinije od pridobijanja novih kupaca.
Osim na podruju marketinga, Data Mining se koristi na podruju bankarstva (prognoze
loih platia kreditnih rata, prognoze vrednost deonica) i osiguranju (prognoze broja i vrednosti
naknada za tetu, prognoze zloupotreba).
Korienje DATA Mining-a u poslovnim sistemima (Slika 4.1):
Slika 4.1 Upotreba data mining-a
Takoe razvijaju se rudarenja Weba (analiza podataka o poseti Web stranica I analiza
puteva kojim posetioci dolaze do portala s podacima) i rudarenje tekstova (analiziraju se tekstovi
i unutar njih trae uzorci i pravila koji se koriste pri kategorizaciji lanaka po podrujima,
otkrivanju autorstva i sl.)[2]
Masovnu upotrebu Data Mininga je omguio razvoj IT industrije, jer je omasovljavanjem
dolo do pada cena IT opreme koja je bitna za Data Minig, a tu spadaju tvrdi diskovi, operativna
memorija i procesori. Sve je to omoguilo da obrada podatak bude bra, efektivnija, a samim tim
i jeftinija.
7
4.2 Metode rudarenja podataka
Razumeti znai uoiti ablone. Sir Isaiah Berlin
Slika 4.2 Metode rudarenja podataka
U rudarenju podataka koriste se metode ve poznate iz statistike, matematike i

raunovodstva. Naroito treba istai povezanost Data Mininga i statistike, treba znati da
Data Mining ne zamenjuje statistiku, ve slui kao njena nadogradnja.
4.3 Najee koriene metode:
4.3.1 Klasifikacija (Classification)

Omoguava automatsku klasificiju dokumenata npr.kada italac pronae neki zanimljiv lanak,
pomou ove metode moe pronai i druge sline lanke.
I. Slogovi (vektori obeleja) koji se istrauju sadre atribute(obeleja);
II. Trai se model za klase funkcija koja preslikava atribute u neku od klasa
III. Klasifikacija preslikava podatke u predefinisane grupe tj. klase (kategorije)
IV. Cilj: prethodno neklasifikovane slogove dodeliti nekoj klasi to je mogue tanije
V. Za testiranje tanosti koriste se test podaci
VI. Naziva se i uenje sa nadgledanjem (sa uiteljem) jer su klase odreene pre ispitivanja
podataka (postoje prethodno klasifikovani uzorci)
VII. Prepoznavanje oblika ulaz se klasifikuje na osnovu slinosti sa predefinisanim klasama
VIII. Razliito od predvianja jer se ovde radi o trenutnom a ne o buduem stanju
8
Klasifikacija (primeri)
1. Direktni marketing
Cilj: smanjiti trokove slanja reklama odreivanjem ciljne grupe potroaa koji ele da kupe nov
proizvod.
Pristup:
a) koriste se slini podaci sa prethodnih akcija istog tipa
b) zna se koji kupci su kupili a koji ne klase su: (kupio, nije kupio)
c) o svakom potencijalnom kupcu se prikupljaju socijalni, demografski, podaci
d) Ove inforamcije se koriste kao ulaz u model
2. Otkrivanje prevara
Cilj: preduprediti mogue prevare kreditnim karticama
Pristup:
a) atributi iz (prolih) transakcija kreditnim karticama i informacija o vlasnicima (kada,
koliko, frekvencija kupovanja, ...)
b) Klase prevara, regularna transakcija
c) Napraviti model za klase u transakcijama
d) Na osnovu modela otkriti prevare nadzorom transakcija
3. Otkrivanje terorista
Cilj: otkriti mogue teroriste na aerodromima
Pristup:
a) vizuelna kontrola pri ulasku na aerodrom
b) biometrijska kontrola putnika
c) pregled prtljaga skenerom
d) pregled runog prtljaga
e) pregled putnika skenerom
f) pokazivanje prtljaga pri ulasku u avion
4. Odliv-priliv kupaca
Cilj: otkriti da li e moda kupac otii kod konkurencije
5. Katalogiziranje nebeskih tela
Cilj: predvideti klasu zvezde ili galaksije na osnovu slika napravljenih telskopima
6. Odreivanje stetnosti virusa
Cilj: otkriti nain delovanja virusa na oveka (ive organizme)
7. Podela kandidata pri upisu na fakultet
Cilj: upisati prave kandidate na odreenu studijsku grupu
9
4.3.2 Regresija (Regression)
Na osnovu vrednosti nekih promenljivih se predvia vrednost promenljive iji je domen
skup realnih brojeva. Izmeu promenljivih ije su vrednosti poznate i promenljive ija se
vrednost predvia postoje linearne ili nelinearne zavisnosti.
Regresija (primeri)
Predvia se koliina prodaje novog artikla na osnovu utroenih sredstava u reklamnoj
kampanji
Predvia se brzina vetra kao funkcija temeprature, vlanosti, vazdunog pritiska, koliine
oblaka
Predvia se cena akcija na berzi u zavisnosti od vremenskog perioda i optih ekonomskih
prilika na tritu
Analiza vremenskih serija (Time Series Analysis) - Istrauju se promene vrednosti
atributa kroz vreme
Primer: odrediti u ije akcije bi investirali (Slika 4.3)
Slika 4.3 Vremenska serija

4.3.3 Predvianje (Prediction)
Vid klasifikacije kod koga se predviaju budua stanja na osnovu prolih i trenutnih stanja
podataka. Ne spada u metode predvianja. Razlika je u tome to metode predvianja predviaju
trenutno a ne budue stanje. Obuhvata pristupe koji ne spadaju u analizu vremenskih serija ili
regresiju.
4.3.4 Predvianje (primeri)
1. Predvianje ponaanja glasakog tela na izborima
Cilj: raspisati izbore u "pogodnom" momentu
Pristup:
a) istorija glasanja u nekoj oblasti
b) obrazovno-socijalna struktura stanovnitva
c) podela teritorije na "pogodne" okruge
d) promena sistema glasanja
10
2. Predvianje poplava
Cilj: predvideti na vreme poplave da bi se umanjile posledice
Pristup:
a) merenje vodostaja
b) merenje koliine padavina
c) vremenska prognoza?
4.3.5 Grupisanje-Grupisanje (Klastering)

To je razvrstavanje jedinki u grupe u kojima je postignuta njihova najvea slinost.
Slini podaci (u odnosu na odgovarajue atribute) se grupiu zajedno u klastere. Klasteri nisu
unapred odreeni. Obino je potrebno znanje eksperta da bi protumaio znaenje formiranih
klastera. Naziva se i uenje bez nadzora jer su klasteri nisu odreeni pre ispitivanja podataka.
Segmentacija pojam koji se ee koristi kod baza podataka. Oznaava podelu podataka u
disjunktne grupe(Slika 4.4).
Slika 4.4 Klasterovanje

Klasterovanje (primeri)
1. Upravljanje marketingom
Cilj: smanjiti trokove tampe kataloga u robnim kuama. Katalozi su namenjeni

demografskim grupama u zavisnosti od atributa (zarada, lokacija, nivo obrazovanja, fizike
karakteristike - visina, teina, ...) potencijalnih kupaca
Pristup:
a) koristi se klasterovanje potencijalnih kupaca na osnovu odreivanja vrednosti atributa
b) Na osnovu izlaza se formiraju posebni katalozi za odreene grupe kupaca
2. Otkrivanje prevara
Cilj: preduprediti mogue prevare kreditnim karticama
Pristup:
11
a) registrovanje transakcija svih vlasnika kartica zajedno sa informacijama o godinjem
prihodu, kreditnoj sposobnosti, godinama ivota, ...
b) Broj prevara sa karticama je relativno mali u odnosu na broj transakcija primenom
tehnika za otkrivanje anomalija se formira profil vaee transakcije za korisnika.
c) Svaka nova transakcija se poredi sa profilom korisnika
d) U sluaju velike razlike transakcija se oznaava kao mogue rizina, odn. potencijalna
prevara
Slika 4.5 K-Means model

4.3.6 Sumarizacija (Summarization)
Preslikava podatke u podskupove sa pridruenim (jednostavnim) opisima. Izdvaja ili izvodi
reprezentativne informacije iz baze. Naziva se i karakterizacija ili generalizacija. Iz podataka
mogu da se izvedu I razliiti sumarni prikazi (npr. numeriki).
Sumarizacija (primer)
Naini poreena kvaliteta razliitih univerziteta:
1) broj dobitnika Nobelove nagrade koji su studirali na tom univerzitetu
2) broj predstavnika u najvioj dravnoj vlasti koji su studirali na tom univerzitetu
Sumarizacija (primeri)
1) Bioinformatika: nalaenje grupe gena koja ima sline funkcionalnosti
2) Identifikacija Veb stranica kojima se pristupa zajedno
3) Razumevanje uticaja faktora na klimu
4) Rasporeivanje robe u supermarketima
5.Odreivanje potrebne koliine rezervnih delova u auto servisima (robe u magacinu
prodavnica,...)
6. Analiza potroake korpe
12
Cilj: Poveati prodaju kroz promocije
Pristup: uoi se zavisnost pri prodaji artikala, npr.
a) Hleb, keks, mleko
b) Pivo, hleb
c) Pivo, sok, pelene, mleko
d) Pivo, hleb, pelene, mleko
e) Sok, pelene, mleko
Zavisnosti:
{Pelene, Mleko} => {Pivo}, {Mleko } => {Sok}.
{Pelene, } => {Pivo}
Pivo je posledica => moe da se odredi ta treba preduzeti da bi se poveala njegova prodaja
Pelene su uzrok => odreuje proizvod na koji utie nedostatak pelena u prodaji Pelene su uzrok i
pivo je posledica => odreuje proizvode koji treba da se prodaju uz pelene da bi se poveala
prodaja piva
Kod snienja cene pelena ne sniavati cenu piva
7. Preureivanje sadraja polica u supermarketima
Cilj: identifikovati proizove koji su zajedno kupovani od strane veeg broja kupaca
Pristup: uvesti bar-kod itae na kasama da bi se prikupili podaci na osnovu kojih mogu da se
uoe zavisnosti
Klasino pravilo
Ako kupac kupuje pelene i mleko, vrlo verovatno e kupiti i pivo
Posledica: blizu pored pelena staviti pakete sa pivom
4.3.7 Pridruivanje (Association Rules)
To su pravila oblika AKO-TADA. Pokazuje verovatnost da jedan dogaaj vee uz sebe drugi
dogaaj. Analiza pridruivanja (analiza veza, analiza afiniteta) oznaava otkrivanje obrazaca koji
opisuju meusobno vrsto povezane osobine podataka. Obino se predstavljaju preko implikacije
ili osobina podskupova. Kako prostor koji se pretrauje raste eksponencijalno, cilj je izdvojiti
najinteresantnije obrasce na najefikasniji nain.
4.4 Nove izvedene metode rudarenja podataka
4.4.1 Stabla odluke

Stabla odluke u serije pravila pomou kojih se izdvajaju odreene klase ili vrednosti.
Mogu se podeliti kandidati za kredit na dobre ili loe. Prva komponenta u stablu odluke jeste
koren stabla koji sutinski predstavlja test koji treba uraditi. Sutina tog testa je grananje stabla
na podstabla od kojih svako predstavlja jedan od moguih odgovora. Zavisno od algoritma svaki
nod stable moe imati dva ili vie podstabla. Svako podstablo vodi do noda koji predstavlja novu
taku odluke i tako se ide do dna stabla do nodova koji se nazivaju listovi, koji predstavljaju
zavrnu klasifikaciju i predstavljaju odgovor na postavljeno pitanje.
13
Slika 4.6 Primer stabla odluke
4.4.2 Neuronske mree
Deluju slino ljudskom mozgu. One se upotrebljavaju u analizi rizika i prognoziranju npr.
vrednosti deonica. Rudarenje podataka temeljeno na ovoj metodi poinje uenjem mree
pomou podataka za koje je poznata vrednost koju elimo prognozirati. Nakon toga naueno
znanje se proverava. Postupak uenja i provere ponavlja se sve dok rezultati provere ne budu
zadovoljavajui. Problem neuronske mree je to to ona funkcionie kao crna kutija, pa tako ona
daje odgovore, ali ne daje objanjenja, pa korisnik ne mora strogo da veruje metodu neuronske
mree. Za upotrebu neuronskih mrea, potrebna je intenzivna obuka, jer se ona razlikuje od
klasinih statistikih metoda.[3]
Slika 4.7 Primer neuronske mree

Primer: Napraviti neuronsku mreu koja izraunava rizik davanja kredita:
1) Ulazi: Primanja, veliina kredita, period kredita
2) Izlaz: Verovatnoa da klijent nee vratiti kredit [0,1]
3) Trening skup: Podaci o prolim muterijama sa poznatim rezultatima
14
Procene su inicijalne vrednosti teina. Nezavisne promenljive za prvi zapis se ubace na ulazne
vorove 1 i 2. Izlaz se uporedi i izrauna greka. Procene teina se auriraju prema
odgovarajuem algoritmu (Back-propagation).
Ponavalj se sa sledeim trening zapisom, dok model ne konvergira (nema vie znaajnih
promena teina).
Dobre strane neuronskih mrea:
1) iroke su primene, daju dobre rezultate u veliokom broju komplikovanih problem.
Loe strane neuronskih mrea:
a) Neuronske mree ne pomau razumevanju podataka
b) Ulazne i izlazne vrednosti najee moraju biti normalizovane u odgovarajue
intervale
4.4.3 Genetski algoritmi

Oni su temeljeni na ideji imitiranja pravila biolokog razvoja. Koriste se za optimizaciju i
mainsko uenje pri reavanju problema. Primena genetskih algoritama je mogua u sluajevima
kada problem moemo opisati kao pretraivanje ili optimizaciju proizvoljnih podataka, te
poznajemo nain mogueg merenja uspenosti svakog pojedinog reenja.Karakteristike
algoritma:
model
davanje prednosti nekom kriterijumu radi izbora najboljeg modela
tehnike za pretraivanje podataka
4.4.4 Tekst rudarstvo (Text Mining)

Ponekad naizmenino nazivaju tekst data mining, odnosi se na proces izvoenja
kvalitetnih informacija iz teksta. Kvalitetne informacioje obino se izvode kroz osmiljavanje
uzoraka i trendova putem sredstava kao to su statistiki uzorak za uenje. Tekst rudarstvo
obino ukljuuje proces strukturiranja unosa teksta (obino ralanjivanjem, uz dodatak nekih
izvedenih jezinih karakteristika i uklanjanje drugih, I kasnije ubacivanje u bazu podataka), iz
ega proistiu uzorci unutar strukturiranih podataka, te konano procenu i tumaenje izlaza.[4]
5 PROCESI
5.1 Proces rudarenja podataka

Proces Data Mininga sastoji se od vie faza koje jedna osoba samostalno ne moe izvriti.
Te faze, odnosno zadatke, moemo posmatrati iz tri perspektive. Prva je problemska perspektiva
koja je vana na samom poetku i kraju Data Mininga. Sastoji se od odabira problema, njegovog
definisanja, procene i primene znanja. Osoba koja obavlja ove zadatke moe se jednostavno
nazvati korisnik. Druga perspektiva je perspektiva podataka i obuhvata sve zadatke vezane za
pripremu podataka za njihovo rudarenje, a obavlja je informatiar. Metodoloka perspektiva, kao
trea i poslednja, sastoji se od svih zadataka vezanih za analizu podataka, metode selekcije,
implementacije, prezentacije i interpretacije rezultata. Osoba zaduena za te zadatke je strunjak
Data Mininga.[5]
15
1. KORAK: Definisanje problema
Ovo je prvi korak kod Data Mininga. Znai treba se definisati problem koji se eli reiti. Ako se
problem loe definie, ne moe se oekivati da e Data Mining u poslovnom smislu biti uspean,
iako rezultati analize mogu biti adekvatni. Primer dobrog definisanja problema je primer banke s
velikim brojem klijenata koji kasne s otplatama rata hipotekarnih kredita. Ovde banka eli
ustanoviti da li je mogue od podataka o zaduenicima predvideti hoe li on kasniti s otplatama
ili ne.
2. KORAK: Prikupljanje i priprema podataka
Iskustva iz prakse pokazuju da je najvei trud u procesu Data Mininga potrebno uloiti u ovaj
korak. Zavisno o kvalitetu i organizovanosti podataka u organizaciji, uloeni rad u ovoj fazi
kree se od 50-80% celokupnog truda u procesu Data Mininga.
Izbor i priprema podataka su kritine aktivnosti za konani uspeh projekta. Ovaj korak obuhvata
izbor izvora podataka, integraciju podataka iz razliitih baza podataka, njihovo ienje i
dodatno sakupljanje podataka koji su potrebni, a nisu trenutno raspoloivi.
3. KORAK: Odabir metode Data Mininga
U ovom koraku se ne moe znati najbolja metoda, jer sve zavisi od prirode problema. Npr.
neuronske mree su najbolje obrazloenje neke pojave npr. vrednost kue, a metoda stabla
odluivanja je pogodna za npr. analizu odobravanja kredita. Znai potrebno je vie metoda
rudarenja prvo eksperimentisati pa onda izabrati onu najbolju koja daje rezultate.
4. KORAK: Uenje
Ovde metoda ui na podacima. Ovde postoji opasnost da se uz previe uenja dobiju rezultati
koji odlino odgovaraju podacima na kojima je algoritam uio i izgradio model, a loe buduim
podacima. A cilj modela je da se dobro ponaa na buduim podacima.
5. KORAK: Interpretacija rezultata
U ovom koraku analitiar na kraju odluuje da li pravilo zanimljivo, relevantno i upotrebljivo za
organizaciju.
5.2 Ko su uesnici u procesu Data Mininga?

U procesu Data Mininga poeljno je da saradjuju:
informatiar on brine o pripremi podataka
analitiar podataka to je npr. statistiar. On brine o izboru metode i metodolokoj
interpretaciji rezultata rudarenja
strunjak on mora biti poznavalac poslovnog podruja, koji definie poslovni problem,
odabirea relevantne podatke, interpretira rezultate i predlae aktivnosti na temelju
rezultata rudarenja
menader projekta - on planira i organizovano vodi projekat Data Mininga.[6]
5.3 Ko trai strunjake u Data Miningu?

Istraivanja su pokazala da veina firmi koje trae strunjaka Data Mininga dolaze iz IT
sektora (43%), marketinga (19%), kao i iz bankarskog sektora i osiguranja (17%).
16
Poloaj u preduzeu na koji se zapoljavaju nije jedinstven, no najee je to menader (20%),
strunjak za Data Mining (16%), statistiar i/ili izvrni istraiva (12%), marketinki analitiar
(10%) te softverski ininjer/arhitekt (10%). Podjednaki broj firmi eli zaposliti osobe sa
diplomom (40%) i magisterijem (40%). Prilino veliki broj poslodavaca trai i doktorat (20%).
Vezano uz godine radnog iskustva rezultati pokazuju da su jednako traeni oni sa manje od 5
godina iskustva i oni sa 5 do 10 godina iskustva. Samo u 3% sluajeva zahteva se vie od 10
godina iskustva.
Zadaci unutar procesa Data Mininga koji se oekuju od zaposlenih su najee
prezentacija rezultata (29%), izgradnja novih modela (15%) i priprema podataka (13%). Znanje
klasifikacijske metode rudarenja podataka je najtraenije (18%). Metode predvianja i statistike
tehnike su jednako zastupljene sa po 8%. Znanje softvera koje je potrebno imati najvie odlazi na
SQL (44%) i SAS (42%). Zanimljivo je spomenuti da specifini softver za Data Mining se vrlo
retko spominje. Dodatne vetine su analitike vetine (42%), konsalting (19%), projektni
menadment (16%), profilisanje korisnika (15%) i iskustvo u podruju (15%).[7]
Slika 5.1 Upotreba data mining-a
6 PRIMERI RUDARENJA PODATAKA

Data mining se koristi jo i u:
1) Politici: Data Mining je metoda kojom je U.S. Army uspela identifikovati vou napada na
Twin Towers, 11.9.2001.; a tom se metodom takoe koriste CIA I Canadian Security Intelligence
Service.
2) Igrama: ve od 60-ih godina u nekim kombinatornim igrama poput aha.
3) Poslovanju: pomae u brem donoenju poslovnih odluka zbog kontakata samo onih klijenata
za koje postoji visoka verovatnost da e odgovoriti.
Jedna savremena informaciona tehnologija izaziva jaku asocijaciju na poimanje informacije kao
resursa, jednako kao to su to sirovine i energenti do kojih se dolazi rudarenjem u rudnicima, bilo
uglja, elezne rude i sl. Re je o rudarenju podataka. Savremeni raunari imaju velike
mogunosti, uz pojeftinjenje raunarske opreme od kojih su za Data Mining najbitniji tvrdi disk,
17
radna memorija i procesor. Osnovno poimanje raunara vezano je uz podatke, ali uz podatke oni
uvaju i znanje, a iz tog znanja mogu proizvoditi nova znanja. Poznata izreka koja kae da ko
ima informaciju ima mo danas vie nije adekvatna. Informacija nije dovoljna, nuno je znanje
to uiniti s tim informacijama. Znanje je snaga, pa se kae da e samo ona privreda biti uspena
u ovom veku koja e znati koristiti sadanje i proizvesti novo znanje. To znanje je ve u
raunarskim memorijama i bazama podataka ali je gotovo nevidljivo, jer je rasuto poput mrvica
u moru brojeva i rei.
Koristei dostignua vetake inteligencije, Data Mining oblikovalo se u tehnoloki
pokret i biznis. Data Mining je mnogo vie od kopanja, nije cilj kopati, ve odvojiti korisno od
nekorisnog. Kod Data Mininga iz mase podataka treba izdvojiti male delove koji predstavljaju
znanje, a onda dodatnom obradom stvoriti novo znanje, pa doi i do novih tehnolokih otkria. U
pojmovnom razlikovanju znanja od podataka, znanje se sastoji od injenica, pretpostavki i
verovanja, ali posebno vano i od naina kako ih upotrebiti.
Rudarenje podataka je znai automatizovano traenje informacija u mnotvu podataka. Cilj ove
metode jest pronalaenje pravila, odnosno uzoraka koji omoguuju pronalaenje veza izmeu
uzroka i posledica.
Ogromne baze podataka bogate su podacima, ali i siromane informacijama koje su
skrivene u pohranjenim podacima. Upravo je Data Mining to koje pomae otkriti vane
informacije i znanje utkano u podatke, doprinosei donoenju odluka, poslovanju I nauci.
Proces Data Mininga ne moe izvriti samo jedna osoba, jer se on sastoji od vie faza, 1.
Problemska faza odnosno odabir i definisanje problema, procena zadnjeg i primena znanja. 2.
Podatkovna faza: sve vezano za pripremu podataka za Data Mining; obavlja je informatiar 3.
Metodoloka faza: sve od analize, selekcije, prezentacije do interpretacije rezultata. Strunjak za
Data Mining je osoba zaduena za zadatke koji obuhvataju treu i poslednju fazu procesa
rudarenja.
Ova metoda zahteva visok nivo strunog znanja o metodama. Jo uvek se razvijaju alati
koji e omoguiti koritenje Data Mininga menaderima i bez specijaliziranog strunog znanja,
te se radi na edukaciji korisnika ove metode.[8]
7 ALATI ZA RUDARENJE PODATAKA
7.1 Poznati alati za rudarenje podataka

Trite alata za rudarenje podataka je poslednjih godina postalo sve vie popunjeno, sa vie od
50 komercijalnih alata, mnogi od njih su izlistani na sajtu KDNuggets
(http://www.kdnuggets.com/software/index.html).
Prema istraivanjima iz maja 2009. godine koje je uraeno na sajtu www.KDnuggets.com2. Alat
koji je najvie korien u period od decembra 2008. Godine do maja 2009. godine bio je IBM-ov
alat SPSS PASW Modeler (nekadanji Clementine), drugi je bio Rapid Miner, trei SAS, etvrti
Excel, peti SAS Enterprise Miner.[9]
18
Slika 7.1 Popularni alati za rudarenje podataka
8 IBM ALAT ZA RUDARENJE PODATAKA SPSS CLEMENTINE

SPSS Clementine je alat za rudarenje podataka, ije okruenje omoguava da brzo razvijate
prediktivne modele koristei steeno znanje. Vrlo lako moete implementirati u poslovne
operacije da bi poboljali donoenje odluka. Modeler podrava kompletan proces data mining-a,
od samih podataka do boljih poslovnih rezultata. Aplikacija Clementine ukljuuje segmentaciju
potroaa/ profilisanje za kompanije, detekciju prevara, kreditna bodovanja prognozu
optereenja za komunalne firme i predvianje profita za preprodavce.
8.1 Izgled Clementine ekrana
Slika 8.1 Clementine ekrana
19
Povrina u sredini je takozvana (Stream canvas) (Slika 8.2). To je glavni deo aplikacije koji se
koristi za sam rad u Clementine.
Slika 8.2 Stream canvas

Veina alata za unos podataka i modelovanje se nalazi u paletama.,U donjem delu se nalaze
palete. Svaka paleta sadri delove koji grafiki prikazuju data mining procese, kao to su pristup
i filtriranje podataka, izrada grafikona i modela. Da bi ste dodali neki vor na radnu povrinu
(Canvas) samo uradite drag and drop ili double ckick na odreeni node iz palete. Zatim ih
moete povezati i napraviti stream. Stream predstavlja protok podataka.
Tako pod karticom Sources imate tipove podataka koji mogu da budu uvezeni u process
rudarenja, kao to su: SQL Database4, Var. File, SPSS File, Excel. Rekord Ops paleta predstavlja
operacije na data snimcima, kao to su selektovanje, integrisanje i dodavanje.
Field Ops nodovi vre operacije nad poljima podataka, kao to su filtriranje,
izvlai nova polja, i odreuje tipove podataka za data polja.
Graphs predstavlja grafike prikaze podataka pre i posle modeliranja. Grafici ukljuuju plotove,
histograme i Web nodove.
Modeling nod predstavlja algoritme za modelovanje dostupne u aplikaciji, kao to su Neuronske
mree, Stabla odluke i Klasterovanje.
Output nodovi predstavljaju razliite vrste izlaza, grafikone i rezultate koji mogu biti pregledani
u klementinu ili izvedeni direktno u neku drugu aplikaciju, kao to su SPSS ili Excel.
Slika 8.3 Izgled paleta

Clementine box gde se nalaze skraenice za bri i jednostavniji proces data mining-a Slika 8.3.
20
Slika 8.4 ToolBox
U gornjm desnom uglu se nalazi output i object menader. Ovi jezici se koriste da bi videli i
manipulisali raznim Clementine objektima. Streams jeziak zadri sve strimove koriene u
trenutnoj sesiji. Mogu se dodati zatvoriti i snimiti, kao i dodati u postojei projekat.
Output jeziak sadri razliite fajlove proizvedene u toku operacija u klementinu. Moete ih
prikazati, preimenovati, zatvoriti jeziakele, grafikone.
Models jeziak je moan alat koji sadri sve generisane modele (modeli koji su napravljeni u
klementinu) za odreenu sesiju.
Postoje dva naina da vidite projekte koje ste napravili u Klementinu. Klasni prikaz I CRISP-
DM prikaz.
Slika 8.5 Project prikaz Klasni prikaz
21
CRISP-DM prikaz nudi mogunost organizovanja projekata prema Cross-Industry Standard
Process for Data Mining.
CRISP-DM predstavalja procesni model rudarenja podataka koji opisuje esto koriene pristupe
od strane eksperta za reavanje problema. Anketa sprovedena 2002, 2004 i 2007 godine pokazuje
da je do vodea metodoligija koriena od strane data majnera.
Za one koji su struni i one koji se prvi put bave rudarenjem, CRISP-DM je alat koji e vam
pomoi da bolje organizujete svoj trud.
Klasni prikaz nudi mogunost da organizujete svoj posao u Clementine-u kategoriki. Po
tipovima objekata koje ste kreirali. Ovaj prikaz je znaajan kada radite popis podataka, strimova
ili modela, itd.
8.2 Primer korienja alata Clementine
Ovaj primer se bavi fiktivnim podacima objanjavajui artikle potroake korpe koji se kupuju
obino zajedno, kao i line podatke kupaca, na primer ID kupovne kartice. Cilj je da se nau
grupe kupaca koji kupuju sline proizvode i koji mogu biti demografski karakterizovani po
starosti, primanjima, itd.
Ovaj primer prikazuje dve faze rudarenja:
1. C5.0 (Predstavlja model Stabla odluke) uvodi profile kupaca identifikovanih grupa proizvoda.
2. Asocijacija i web display i prikazuje veze izmeu kupljenih proizvoda.
8.3 Proces pravljenja C5.0 algoritma
1. Iz Source palete ubacite Excel u Canvas
Sadraj Excel kolona koji sam napravio kao primer:ID kupca(Brojevi), Vrednost cele kupovne
korpe(Brojevi), nain plaanja (ek,ke,kartica), Pol (m,), VlasnikStana (da,ne), prihodi, starost,
jeam(Tano,Netano), puter(Tano,Netano), sir(Tano,Netano), graak(Tano,Netano),
trenja(Tano,Netano), paradajz sok(Tano,Netano), pljeskavica(Tano,Netano),
slatki(Tano,Netano), kokakola(Tano,Netano), kukuruz(Tano,Netano),
okolada(Tano,Netano). je u alatu predstavljeno kao F (Female), netano je u alatu
predstavljeno kao F (False)
Slika .8.6 Biranje Excela iz palete Source

2. Desni klik na ikonicu, pa edit (Ovo moe biti uraeno i double klik na nod), kliknite na dugme
pored file box-a da naete eljeni fajl.
22
Slika8.7 Biranje Excel eljenog fajla
3. Kliknite na Types tab, zatim Clear All Values, zatim Read Values (Slika 8.8). Kao to moete
vitedi na slici, postoje vie tipova podataka kao to su (Range, Set, Flag, itd.)
4. Tip polja starost promenite u tip polja Set, Apply, zatim Ok
Slika 8.8 Uitavanje podataka iz Excel fajla
5. Iz palete Output ubacite Table nod, konektujte ga sa Excel nodom (Desni klik na Excel nod,
connect, levi klik na Table nod).
6. Desni klik na Table nod, Execute, da bi ste videli sadaj podataka.
23
Slika 8.9 Uitavanje podataka iz Excel fajla
7. Iz palete sa grafikonima ubacite WEB, konektujte source fajl sa Web grafikonom, desni klik
na Web Node i edit. Web node predstavlja grafiki prikaz asocijacije izmeu dva proizvoda.
Predstavlja jainu povezanosti izmeu 2 ili vie polja. Dok debljine linija na grafikonu
predstavljaju jainu tih meusobnih veza.
Slika 8.10 Web nod

8. Sa gornje desne strane vam se nalazi ikonica , obeleite sve proizvode koji su u kupovnim
korpama, samo polja iji su tipovi Set I Flag mogu biti prikazani u Web plotu, kliknite OK (Slika
8.10).
9. tiklirajte Show true flags only. Klik na Options tab, promenite Weak links below i Strong
links above po tome kako elite da vam se grafikon pokae. Prvi broj predstavlja osnovu iz koje
se govori alatu da su slabe veze sve ispod vrednosti br. 3, strong links predstavlja sve vrednosti
iznad zadatog broja. Ja sam stavio da mi Weak links bude 3, Strong links 3. To znai da e mi na
grafikonu vie podebljane biti konekcije izmeu proizvoda ije su veze jae od 3
24
Opcije Web Noda
11. Kliknite na radio dugme, Link size shows strong/normal/weak categories, da bi ste videli 3
razliite jaine veza izmeu proizvoda. Zatim Execute da bi ste videli grafikon (Slika 8.11).
Slika 8.11 Web grafikon

12. Moemo primetiti da se izdvajaju dve grupe korisnika na osnovu toga koje proizvode kupuju,
oni koji kupuju Paradajz sok i Kukuruz, oni koji kupuju hleb i kukuruz
13. Verovatno bi eleli da vidimo koji to korisnici kupuju ove vrste proizvoda. To je demografski
profil. Ovo moemo uraditi tako to svakog korisnika koji kupuje odreeni proizvod oznaiti sa
zastavicom, za svaku grupu posebno. Zatim emo pomou algoritma C5.0 napraviti profile
bazirane na pravilima ovih zastavica.
14. Ajde da naemo kupce koji kupuju kukuruz i hleb. Desni klik na podebljanu liniju izmeu
dva kukuruza i hleba, zatim Generate Derive Node for Link Ovo e napraviti novi nod na radnoj
povrini u kome e biti proizvodi koje smo oznaili sa zastavicom.
15. Desni klik na source nod, connect sa izvedenim nodom (Moete povezivati nodove, tako to
obeleite nod sa kog poinje veza drimo Alt + dranje levog klika).
16. Edit izvedeni nod, promenite Derive field u kukuruz i hleb (umesto T_T).
17. Iz Output palete postavite Table nod na radnu povrinu. Poveite ga sa kukuruzom i hlebom.
Desni klik pa Execute, kao poslednja kolona pojavie se prikaz T za svakoga ko je kupio u
prodavnici Kukuruz i Hleb zajedno(Slika 8.12).
25
Slika 8.12 Web grafikon
18. Iz palete Field Ops dodajemo Type nod i povezujemo ga sa nodom Kukuruz&Hleb.
19. Edit na type nod, za polje ID i polja svih proizvoda stavite NONE, za novo dobijeno polje
Kukuruz&Hleb stavite Out(Slika8.13).
Slika 8.13 Edit Type Nod

20. Dodajte iz Modeling palete, C5.0 nod (Algoritam za Klasifikaciju ) i poveite ga sa Type
nodom. Desni klik na C5.0 nod/Edit, kliknite na Rule set / Execute.
26
Slika 8.14 Browse C5.0
21. Model je stvoren u gornjem desnom uglu pod karticom models i zove se Kukuruz&Hleb.
Desnim klikom na model/browse, dobijamo jasne demografske profile kupaca koji su kupili
kukuruz i hleb.
27
ZAKLJUAK
U dananje vreme se nalazi mnogo informacija za koje ni ne znamo da postoje tu pored nas.
Imajui u vidu da je informacija danas najbitnija, moramo pronai nain da je naemo I
razumemo. Data mining je jedna oblast koja nam prua da iz naizgled ne bitnih i nepotrebnih
informacija saznamo neke nove informacije koje su nama veoma vredne. U tome nam ima veliki
udeo veoma brz razvoj dananjih tehnologija (procesori, tvrdi diskovi, internet I
telekomunikacije).
Rudarenje podataka je znai automatizovano traenje informacija u mnotvu podataka. Cilj ove
metode jeste pronalaenje pravila, odnosno uzoraka koji omoguuju pronalaenje veza izmeu
uzroka i posledica. Proces Data Mininga ne moe izvriti samo 1 osoba jer se on sastoji od vie
faza, tanije tri.
Prva faza, tzv. problemska faza odnosno odabir i definisanje problema.
Druga faza pripremna faza: sve vezano uz pripremu podataka za Data Mining; obavlja je
informatiar.
Trea faza, metodoloka faza : sve od analize, selekcije, prezentacije do interpretacije rezultata.
Strunjak za Data Mining (eng.Data Miner) je osoba zaduena za zadatke koji obuhvataju treu i
zadnju fazu procesa rudarenja. Ova metoda zahteva visok nivo strunog znanja o metodama. Jo
uvek se razvijaju alati koji e omoguiti korienje Data Mininga menaderima i bez
specijalizovanog strunog znanja, te se takoe radi na edukaciji korisnika ove metode.
Clementine kao alat za Data Mining se pokazao u praksi kao jedan od najboljih alata sa velikim
brojem funkcija koje su od neprocenjivog znaaja za data mining.. Alati kao to su Rapid Miner,
Weka i dr. Imaju takoe izuzetne karakteristike, ali nisu toliko u upotrebi kao naslednik
Clementine alata (SPSS data modeler). SPSS PASW Modeler (ranije nazivan Clementine) ima
prednost kao trenutni lider na tritu, sa jakom distribucijom i podrkom za alat.
Neki alati imaju funkcije koji drugi nemaju ili bolje izrauju odreene modele, ali vai i obratno.
to se tie alata za data mining, strunjak bi morao da zna vie razliitih alata, u zavisnosti od
sluaja, a takoe bi morao da isproba rad svakog ozbiljnijeg alata da bi se uverio koje su mu
prednosti a koje mane. Jer u zavisnosti od sluaja do sluaja moraju se birati alati koji najvie
pogoduju za datom sluaju radi to temeljnije analize podataka i dobijanje to preciznijih
informacija.
Clementine je alat koji nudi mnotvo funkcija koje su u pozadini odlino usklaene sa samim
algoritmima tih funkcija, veoma je korisniki opredeljen i lak za upotrebu, uz veliku preglednost
samog toga rada. Videli smo neke osnovne funkcije u samom alatu koje moemo koristiti na
mnotvo sluajeva rudarenja podataka. Moja preporuka je Clementine, u svakom sluaju kada se
moe primeniti.
28
LITERATURA
[1] Stranica kurseva, asistenta profesora na Iranskom univerzitetu. Dostupno
na:http://webpages.iust.ac.ir/yaghini/Courses/Data_Mining_882/Data_Mining_882.htm
[2] Dr. Dubravko ulibrk - Poslovna inteligencija: Eksploatacija informacija i
skladitenje podataka
[3] Prof. Dr Milan Milosavljevi i Prof. Dr Angelina Njegu - Predavanja
SINGIDUNUM univerzitet, 2009/2010
[4] Bojan iri, Poslovna Inteligencija, Beograd, 2006
[5] http://sr.wikipedia.org/wiki/Data_mining 02.12.2015.
[6] Michael Berry and Gordon Linoff, Customer Relationship Management
Through Data Mining, SAS Institute, 2000
[7] Michael Berry and Gordon Linoff, Mastering Data Mining, John Wiley & Sons,
2000
[8] IBM Corporation, International Technical Support Organization, Dept. QXXE
Building 80-E2, 650 Harry Road, San Jose, California 95120-6099
[9] Doc. Nenad Miti, Univerzitet u Beogradu, Matematiki fakuktet 04.11.2011
29

Hokoli Dokoli

Uploaded by

Copyright:

Available Formats

You might also like

Hokoli Dokoli

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Hokoli Dokoli

Uploaded by

Copyright:

Available Formats

DRAVNI UNIVERZITET U NOVOM PAZARU

Departman za tehnike nauke

2 METODOLOGIJA ISTRAIVAKOG RADA

2.1 Uvodne napomene

4.1 Upotreba Data Mininga

Slika 4.1 Upotreba data mining-a

Slika 4.2 Metode rudarenja podataka

U rudarenju podataka koriste se metode ve poznate iz statistike, matematike i

4.3.1 Klasifikacija (Classification)

III. Klasifikacija preslikava podatke u predefinisane grupe tj. klase (kategorije)

V. Za testiranje tanosti koriste se test podaci

podataka (postoje prethodno klasifikovani uzorci)

VII. Prepoznavanje oblika ulaz se klasifikuje na osnovu slinosti sa predefinisanim klasama

VIII. Razliito od predvianja jer se ovde radi o trenutnom a ne o buduem stanju

Slika 4.3 Vremenska serija

4.3.5 Grupisanje-Grupisanje (Klastering)

Slika 4.4 Klasterovanje

Cilj: smanjiti trokove tampe kataloga u robnim kuama. Katalozi su namenjeni

Slika 4.5 K-Means model

6. Analiza potroake korpe

4.4.1 Stabla odluke

Slika 4.7 Primer neuronske mree

4.4.3 Genetski algoritmi

4.4.4 Tekst rudarstvo (Text Mining)

5.1 Proces rudarenja podataka

5.2 Ko su uesnici u procesu Data Mininga?

5.3 Ko trai strunjake u Data Miningu?

Slika 5.1 Upotreba data mining-a

6 PRIMERI RUDARENJA PODATAKA

7 ALATI ZA RUDARENJE PODATAKA

7.1 Poznati alati za rudarenje podataka

8 IBM ALAT ZA RUDARENJE PODATAKA SPSS CLEMENTINE

Slika 8.1 Clementine ekrana

Slika 8.2 Stream canvas

Slika 8.3 Izgled paleta

Slika 8.5 Project prikaz Klasni prikaz

Slika .8.6 Biranje Excela iz palete Source

Slika 8.8 Uitavanje podataka iz Excel fajla

Slika 8.10 Web nod

Slika 8.11 Web grafikon

Slika 8.13 Edit Type Nod

You might also like