Professional Documents
Culture Documents
MR - Primena Data Mining U Medicini
MR - Primena Data Mining U Medicini
MASTER RAD
Mentor: Student:
Saetak
Data mining je metoda pretraivanja podataka koja se munjevito razvila pre svega zbog razvoja
raunarske tehnologije. Razvitkom brzih raunara dolazi do toga da je mogue efikasno
pretraivati ogromne koliine informacija. Zahvaljujui pretraivanju, skupovi podataka se
struktuiraju i tako nastaju primenjljive informacije i znanje koje se koristi u daljim
istraivanjima.
Cilj rada je da predstavi pristup za kreiranje modela sistema Data mining kao i za njegovo
unapreenje. Kroz studijski primer su ilustrovane metode i tehnike koje se koriste pri
projektovanju modela za istraivanje podataka. U radu su prikazane metode elektronskog
praenja pacijenata korienjem savremenih programskih alata za podrku odluivanju. Analizira
se korienje ove tehnologije u zdravstvu, koja predlae da se nadogradi postojei informacioni
zdravstveni sistem u cilju preveniranja obolevanja i smrtnosti. Ovakav projekat bi mogao da
doprinese istraivanju zdravstvenog stanja populacije i otkrivanju potencijalnih maligniteta kod
pojedinaca. ivot nema cenu.
2
SADRAJ
1 Uvod............................................................................................................................................. 5
2 Data mining .................................................................................................................................. 6
2.1 Pojam istraivanje podataka ................................................................................................. 6
2.2 Cilj Data Mining ................................................................................................................... 6
2.3 Zadaci (problemi) Data Mining ............................................................................................ 7
2.3.1 Redukcija ....................................................................................................................... 7
2.3.2 Estimacija....................................................................................................................... 7
2.3.3 Klasifikacija ................................................................................................................... 7
2.3.4 Klasterovanje ................................................................................................................. 7
2.3.5 Asocijacija ..................................................................................................................... 7
2.4 Faze ....................................................................................................................................... 8
2.4.1 Definisanje poslovnog problema ................................................................................... 9
2.4.2 Priprema podataka ......................................................................................................... 9
2.4.3 Modelovanje i implementacija..................................................................................... 10
2.5 Tehnike i metode data mining............................................................................................. 11
2.5.1 Stablo odluivanja........................................................................................................ 11
2.5.2 Metoda najblieg suseda (Nearest neighbor classification) ......................................... 13
2.5.3 Memorijski zasnovano rasuivanje (Memory based reasoning) ................................. 14
2.5.4 Klastering (Clustering) ................................................................................................ 14
2.5.5 Analiza potroake korpe (Market Basket Analysis) .................................................. 14
2.5.6 Pravilo indikacija (Rule indication) ............................................................................. 14
2.5.7 Metoda K najblieg suseda (K Nearest neighbors) ..................................................... 15
2.5.8 Neuronske mree (Neural networks) ........................................................................... 15
2.5.9 Fazi logika (Fuzzy logic) ............................................................................................. 15
3 Neuronske mree ....................................................................................................................... 16
3.1 Vrste neuronskih mrea ...................................................................................................... 17
3.2 Podela neuronskih mrea .................................................................................................... 18
3.2.1 Podela NM prema vrsti veza ........................................................................................ 18
3.3 Vrste obuavanja neuronskih mrea ............................................................................... 18
3.4 Primena neuronskih mrea .................................................................................................. 18
4 Fazi logika .................................................................................................................................. 19
4.1 Implementacija vetakih neuronskih mrea i fazi logike - robotika ................................. 20
3
5 Statistike metode ...................................................................................................................... 21
5.1 Statistika maligniteta raka grlia materice .......................................................................... 21
5.2 Statistika maligniteta melanoma ......................................................................................... 22
5.2.1 Rak dojke ..................................................................................................................... 24
6 Baze podataka ............................................................................................................................ 24
6.1 E-R dijagram ....................................................................................................................... 25
6.2 Specifikacija tabela ............................................................................................................. 27
6.3 Velike baze podataka - Datawarehouse .............................................................................. 30
6.3.1 Projektovanje VBP ...................................................................................................... 30
6.3.1.1 Primena fazi logike ........................................................................................................... 32
6.3.1.2 Robotika i automatizacija ................................................................................................. 32
7 Neophodna infrastruktura za DM .............................................................................................. 33
7.1 Projektovanje odgovarajue baze ....................................................................................... 34
8 Primeri projektovani u softverskom alatu .................................................................................. 35
8.1 Primer detekcije kritinih grupa.......................................................................................... 35
8.2 Primer skrininga kancera grlia materice ........................................................................... 36
8.3 Primer klasifikacije pacijenata za poziv na pregled ............................................................ 39
9 Opis softverskog paketa Veka ................................................................................................... 41
9.1 Instalacija ............................................................................................................................ 42
10 Zakljuak.................................................................................................................................. 43
Reference ...................................................................................................................................... 44
4
1 Uvod
Data mining je metoda pretraivanja podataka koja se munjevito razvila pre svega zbog razvoja
raunarske tehnologije. Razvitkom brzih raunara dolazi do toga da je mogue efikasno
pretraivati ogromne koliine informacija. Zahvaljujui pretraivanju, skupovi podataka se
struktuiraju i tako nastaju primenjljive informacije i znanje koje se koristi u dalja istraivanja.
Cilj rada je da predstavi pristup za kreiranje modela sistema kao i njegovo unapreenje za
elektronsko praenje pacijenata korienjem savremenih programskih alata za podrku
odluivanju.
Kao primer e se analizirati korienje ove tehnologije u zdravstvu koja bi mogla da doprinese
istraivanju zdravstvenog stanja populacije i otkrivanju potencijalnih maligniteta kod pojedinaca.
5
2 Data mining
6
2.3 Zadaci (problemi) Data Mining
Najei i najpoznatiji zadaci istraivanja podataka su sledei:
Redukcija
Estimacija (Procena)
Predvianje
Klasifikacija
Klasterovanje
Asocijacija
2.3.1 Redukcija
Redukcija predstavlja smanjivanje ili izostavljanje podataka koji nisu od znaaja za istraivanje u
cilju lakeg uoavanja veza i zavisnosti izmeu atributa ili objekata. Postoje mnogobrojne
metode redukcije podataka kao to su rune redukcije i automatske redukcije. Takoe, postoji
redukcija atributa ili redukcija sluajeva tj. redova, zapisa.
2.3.2 Estimacija
Estimacija (procena, ocena) predstavlja procenu vrednosti odreene na osnovu postojeih
(endogenih) promenljivih koje su zabeleene u sistemu. Ona daje odreeno pravilo ponaanja
koje je izvedeno iz postojeih podataka.
2.3.3 Klasifikacija
Klasifikacija predstavlja problem rasporeivanja elemenata u predodreene grupe ili klase.
Elementi su opisani preko vie promenljivih, gde jedna promenljiva (izlazna) oznaava klasu tog
objekta (npr. promenljiva Riziana grupa raka dojke, opisuje pacijenta sa anamnezom koja
ukazuje da pripada rizinoj grupi).
Problem klasifikacije je da generie model koji e na osnovu opisa objekata (ulaznih
promenljivih) odrediti klasu tog objekta (izlazna promenljiva).
2.3.4 Klasterovanje
Klaster predstavlja kolekciju elemenata koji su meusobno slini i koji su razliiti u odnosu na
elemente iz drugih klastera. U skladu sa tim, klasterovanje se bavi grupisanjem elemenata ili
opservacija u klase slinih objekata, za razliku od klasifikacije, gde su grupe unapred
definisane (apriori), a mi odreujemo pripadnost nekog elementa grupi, ovde formiramo grupe
na osnovu slinosti elemenata.
2.3.5 Asocijacija
Zadatak asocijacije u istraivanju podataka je da pronae pravila u bazi podataka. U poslovnom
svetu asocijacija je poznata kao analiza afiniteta ili analiza potroake korpe gde je zadatak
otkrivanje pravila po kojima se formiraju veze izmeu dva ili vie atributa. Za razliku od
klasifikacije, kod zadatka asocijacije ne postoji unapred definisani izlazni atribut (atribut
klase ili odluke), ve svaki atribut moe biti i kao uslov i kao posledica otkrivenog pravila.
7
2.4 Faze
Proces istraivanja podataka sastoji se iz vie faza koje izvrava vie osoba. Te faze se mogu
posmatrati iz 3 ugla.
Prvi je problemski koji je vaan na samom poetku i kraju istraivanja podataka. U sebi sadri
izbor problema, definisanj istoga, zatim procene i primene znanja. Osoba koja izvrava ove
zadatke moe se nazvati korisnik.
Drugi ugao je za prenos podataka a obuhvata sve zadatke u vezi sa pripremom podataka i
njihovim istraivanjem, a obavlja je informatiar.
Trei i poslednji, metodoloki, sastoji se od svih zadataka u vezi sa analizom podataka,
metodama selekcije, implementacije, prezentacije i interpretacije rezultata. Strunjak istraivanja
podataka (eng. Data miner) jeste osoba zaduena za te zadatke.
Vrednovanje podataka
8
Trei korak je modelovanje, a obuhvata izbor metode istraivanja zatim izradu i
vrednovanje modela.
Poslednji deo odnosi se na implementaciju koja obuhvata interpretaciju i korienje
rezultata.
Proces istraivanja podataka u svakom trenutku mogue vratiti se na neki od prethodnih koraka,
to jest ima osobinu iterativanosti, Ovakav skok unazad pre se moe nazvati pravilom nego
izuzetakom, zato to je u istraivanju podataka veoma vano dobro definisati problem zatim
dobro odabrati i pripremiti podatke, to je teko na samom poetku uraditi kako treba Tokom
implementacije, dolazi do poveavanja znanja o samom problemu i podacima koji se koriste,i
zato je takav revidiran opis poslovnog problema esto bolji od poetnog.
9
Transformacija podataka - Ovde se promenljive iz baza podataka transformiu u oblik koji je
odgovarajui za istraivanje podataka. Podaci bi trebalo da budu u obliku tabele pri emu se u
kolonama nalaze promenljive (obeleja), a u redovima opaanja. Svaki red bi trebalo da opisuje
podatak znaajan za istraivanje (npr. kupca, proizvod, pacijenata).
Na osnovu dostupnih promenljivih iz baza podataka izraunavaju se promenljive koje odreuje
strunjak za procenu nekog rezultata u eljenoj oblasti. Primeri takvih promenljivih su razlike
izmeu poslednjeg skrininga i dananjeg dana.
Uzorkovanje podataka - Za izradu samog modela verovatno i nee biti potrebno puno
podataka, odnosno svi koji se nalaze u bazama, zato je neophodno da se upotrebi uzorkovanje
podataka i na taj nain se odabrala manja koliina podataka za model. Nema jednoznanog
odgovora na pitanje koliko je podataka dovoljno za izradu modela zato to sam broj potrebnih
podataka zavisi od algoritma.
Podaci za uzorak se dobijanju, najee, sluajnim izborom. Nakon to se odabere uzorak za
izradu modela, potrebno je podeliti ga na dva dela
10
U procesu istraivanje podataka mogu se koristiti sledee metode: statistika, baze i skladita
podataka, vetaka inteligencija i vizualizacija. Postoji veliki broj razliitih metoda istraivanja
podataka ali se sve mogu podeliti u tri kategorije: otkrivanje, klasifikacija i predvianje (Berry &
Linoff, 2000). Metode otkrivanja predstavljaju postupke koji istrauju pravilnosti u podacima
bez potrebe da unapred poznaju njihov odnos. Postoji puno metoda kojima se otkrivaju
pravilnosti u podacima, neke emo navesti: segmentacija i asocijativna pravila.
Metode za klasifikaciju promenljivih najee se upotrebljavaju kako bi se predvidele kategorije,
npr. da li e pacijent oboleti od gihta ili ne. Stabla odluivanja se esto koriste a klasifikaciju
kao i regresija i neuronske mree.
Metode za predvianje vrednosti promenljivih koriste se kako bi se predvidele numerike
vrednosti. Koriste se i neuronske mree, linearna regresija kao i metode vremenskih serija. Od
samog cilja analize zavisi odabir metode.
Najee koriene metode istraivanja podataka jesu metode klasifikacije, a najree se koriste
metode predvianja vrednosti.
U ovoj fazi se obino proverava vie metoda a veoma retko odluujemo samo za jednu metodu.
Nakon njihove primene i poreenja na odreenim izabranim podacima sledi izbor metode za
israivanje podataka.
11
Stablo odluivanja nastaje grananjem a svaka grana jeste posledica ispunjenja uslova
klasifikacijskih pitanja. Podatke e u podskupove podeliti svako pitanje. Ako ono ima dva
odgovora, tada e kao posledica nastati dva podskupa (binarno stablo).
U naem primeru, e se uglavnom koristiti binarno stablo, puno ili sa jednim listom u zavisnosti
od problematike i ishoda koji se trai u konkretnoj situaciji
Odluivanje - zadaci postavljanje problema odluivanja reavanje problema odluivanja
implementacija reenja problema odluivanja.
Koraci odluivanja
Odreivanje ciljeva odluivanja: u primeru koji je dat na slici, cilj je animirati osobe
koje nisu redovne u praenju osnovnih preventivnih pregleda, tj. staviti ih na lisu da
im se treba uputitii poziv
Definisanje problema odluivanja, u naem primeru mogu biti ivotna dob, pol, da li
su vreni redovni kontrolni pregledi ili ne i to u zavisnosti od godina, jer za ene do
47. godine ivota je dovoljno da idu na godinji pap test, dok za starije je neophodno
da to bude na 6 meseci.
Sagledavanje moguih stanja sistema ili dela sistema: ako uzmemo skrining kancera
ne samo reprodiktivnih organa, recimo kancera dojke, tu bi vrlo veliki uticaj imala
porodina anamneza (ova varijabla se moe ispitivati i fazzy metodom, jer bi u tom
sluaju imali senzitivniju vrednost pri donoenju odluke).
Sagledavanje i ocenjivanje moguih posledica u smislu da se neki deo ne preskoi
koji je relevantan za skrining, a opet ne treba da se ponavlja, eventualno treba
ponavljanje smanjiti na najmanji mogui broj.
Formulacija metode i odabir kriterijuma odluivanja, mora biti usaglaenost sa
ciljevima. U zavisnosti od vrste cilja, tj krajnjeg lista, moramo formirati vorove
binarnog stable. Kako imamo sveobuhvatni skrining, treba modelovati binarna stable
sa to manje preklapanja, ako je to mogue.
Ocenjivanje i izbor akcije
Odluke
Preduzimanje, praenje i analiza efekata primene odabrane akcije
Pristup u naem studijskom primeru, zdravstvenom skriningu, je najee izabran pristup
reaktivnog delovanja ("tradicionalni" pristup) odnosi se na otkrivanje naina kako bi se
evidentni problem mogao reiti. Poto je iv sistem, negde se pristupa i proaktivnim delovanjem
("savremeni" pristup) odnosi se na istraivanje i prevenciju buduih slinih problema, takoe
obuhvata i istraivanje kao i iskoriavanje povoljnih prilika.
Kreiranje stabla odluivanja se radi runo na osnovu ekspertskog znanja tima strunjaka iz
medicine
Pitanje koje je krucijalno u dizajnu stabla je Koji atribut uzeti za grananje? Najbolje je uzeti
onaj atribut koji deli poetni vor na to istije potomke to je u naem primeru koren (Pol
=m).
U listovima treba da bude zastupljeno to vie instanci iste klase.
Prednosti stabla:
12
Mogu se grafiki predstaviti i jednostavno interpretirati.
Mogu se primeniti kako na klasifikacione, tako i regresivne probleme.
Mogu se primeniti i u sluaju da atributi imaju nedostajue vrednosti.
Postoje i nedostaci:
Daju slabije rezultate (manje tane predikcije) nego drugi pristupi nadgledanog mainskog
uenja.
Prilikom izgradnje stabla odluivanja vrlo je bitno koje je se pitanje definie kao prvo
postavljeno. U naem sluaju je to pitanje o polu. Pitanje je bolji izbor kao prvo, toliko koliko e
se njime bolje organizovati podaci, to jest koliko e se nakon toga stvoriti podskupovi koji su
homogeniji. Modeli koji se oslanjaju na stabla odluivanja algoritamski se razlikuju od drugih
modela, jer zahtevaju obeleja pojedinih podataka na bazi kojih se kreiraju pitanja. Pored ve
pomenutog, binarnog, postoje jo i he stablo, B+, stablo prekoraenja... Sve vrste stabala
odluivanja se veoma primenjuju na relacijskim bazama podataka (npr. eskuel).
Primer stabla odluivanja prikazan je na slici ispod u pitanju je binarno stablo.
pol=m
Da Ne
slati poziv
13
svojstva i poznato ponaanje. Podatak kod kog se otkriju najslinija svojstva jeste najblii sused
a zato se i pretpostavlja da e se slino i ponaati. Metoda algoritma za odreivanje ko je najblii
sused moe raditi upotrebom principa euklidske geometrije u n-dimenzionalnom prostoru, te je
jedan od najjednostavnijh naina. Kod ove metode svaka promenljiva ne nosi istu teinu
vanosti.
Da bi pri upotrebi ova metoda bila to tanija, neophodno je da se u bazi nae to sliniji
podatak, a za to su potrebne velike koliine podataka.
Za razliku od ostalih tehnika, ovde, ne postoji proces uenja kako bi se kreirao model. Podaci
koji se koriste za uenje je ba model. Pri pojavi novog podatka, algoritam analizira sve podatke
u bazi, kako bi naao podgrupu sluajeva koja najbolje odgovara tom sluaju i na osnovu toga
vri predvianje.
15
3 Neuronske mree
Kao poetak neuro-raunarstva navodi se 1943. godina kada je objavljen lanak Vorena
MekKaleha (Warren McCulloch) i Voltera Pitsa (Walter Pitts) Logiki raun ideja svojstvenih
nervnoj aktivnosti. Kibernetiar Norbert Viner i matematiar Don von Njuman su imali teoriju
da bi istraivanja u okviru raunarstva, koja su imitacija radom ljudskog mozga, od izuzetne
zanimljivosti. Frenk Rosenblat je otkrio jednoslojne neuronske mree, nazvane perceptron.
Raunar sa perceptionom, je mogao uspeno da podeava teinske koeficijente, ali nije postigao
bitne praktine rezultate. Krajem pedesetih godina 1957/8, Frenk Rozenblat i arls Vigman sa
svojim timom saradnika uspevaju da konstruiu raunar Mark to predstavlja prvi neuroraunar.
16
tehnikim fakultetima, to kao poseban predmet, to kao deo nekog drugog predmeta. Iako, sada
ve postoji zvanina grana raunarstva koja se bavi obim mreama to je jo uvek u ranoj fazi
razvoja.
Neuronske mree imaju veoma irok dijapazon primena u raznim oblastima.
17
3.2 Podela neuronskih mrea
S postojanjem velikog broja realizacija NM postoji i puno podela. Njih moemo podeliti prema:
- broju slojeva,
- vrsti veza izmeu neurona,
- vrsti obuavanja neuronskih mrea,
- prema smeru prostiranja informacija,
- prema vrsti podataka.
Podela neuronskih mrea prema broju slojeva je jedna od najoptijih podela NM:
1) jednoslojne,
2) vieslojne.
U dananje vreme se najvie izuava i primenjuje vieslojna NM koja pored ulaznih i izlaznih
slojeva sadri neurone na srednjim (skrivenim) slojevima.
18
- finansijske i ekonomske modele,
- predvianje kretanja cena na tritu,
- upravljanje sistemima,
- upravljanje proizvodnim procesima,
- analizu elektrinih kola,
- psihijatrijske procene,
- kompresovanje podataka,
- naftna istraivanja,
- kriminoloka istraivanja,
- analizu medicinskih testova,
- pronalaenje optimalnog reenja,
- upravljanje robotima,
- u bioraunarskim sistemima.
4 Fazi logika
Fazi logikom se bavio Lotfi Zadeh 1965. godine, a za kontrolu sistema uveo ju je E. Mamdani.
Tada je primeeno da ovaj pristup privlai puno panje. Za jednostavne sisteme ovakav pristup
se pokazao kao veoma efikasan i jasno prilagoen ljudskom rezonovanju, za neke
komplikovanije sisteme se pokazao kao veoma zahtevan. Kako bi se realizovao kontroler
potrebno je puno resursa i vremenskih i intelektualnih.
Ova logika je konceptualno izuzetno prirodna, ak vie nego to se to odmah moe primetiti.
Deavaju se i situacije u kojima se znanje ne moe predstaviti na apsolutno precizan nain. Kako
bi pravilno i uspeno predstavili ovo znanje potrebno je odrei se klasine, binarne logike koja
govori da je neto ili tano ili netano i koristiti fazi logiku.
19
U klasinoj teoriji skupova polazi se od stava da neki element x iz odreenog, univerzalnog
skupa X pripada ili ne pripada nekom konkretnom skupu A. Slino razdvajanje postoji u
klasinoj logici: iskaz je istinit ili laan i iskljuuje se trea mogunost. Pripadnost je uslovljena
karakteristikom elementa, odnosno uslovom koji element skupa X treba da ispuni da bi pripadao
skupu A.
U govoru se veoma esto koriste izrazi koji mogu opisivati skup ije su granice nejasne, tako da
se za neke elemente univerzalnog skupa ne moe jednostavno zakljuiti da li ispunjavaju uslov
pripadnosti konkretnom skupu. Za takav izraz se koristi termin lingvistika promenljiva. Primer
lingvistike promenljive jeste ljudi srednjeg rasta, velike zarade, brzi automobili, mala rastojanja,
itd. Ako navedeni atributi, srednji, veliki, brzi, mala oznaavaju uslove koji elementi razmatranih
skupova, ljudi, zarade, automobili, rastojanja, treba da ispune da bi se odredili konkretni
podskupovi (ljudi srednjeg rasta, velike zarade, brzi automobili, mala rastojanja), onda je
oigledno da nema dovoljno informacija da bi se to jednoznano obavilo.
Fazi logika nije odgovor na sve tehnke probleme, ali za probleme kontrole, gde je vana brzina i
jednostavnost implementacije, fazi kontroler je jak kandidat. Fazi kontroler skuplja izlaze iz
modela, poredi ih sa referentim ulazima i odluuje koji e biti ulazi u model, da bi se dostigao
eljeni cilj. Fazi kontroler omoguava korienje pravila za kontrolu modela, umesto
diferencijalnih jednaina. Korienje pravila je prirodnije za ljude.
Fazi informacije su informacije koje ukljuujemo u kontroler, za koje primenjujemo pravila,
mogu biti dobijena od eksperta za datu oblast, koji je proveo dosta vremena uei kako je
najbolje kontrolisati proces. U nekim sluajevima ne postoji ekspert, pa se mora prouiti
dinamika modela (koristei modelovanje i simulaciju) kako bi se odredila pravila za upravljanje.
Npr. ako je brzina manja od eljene, ubrzaj. Vie opisuje: Ako je brzina manja od eljene i ako
se brzina brzo pribliava eljenoj, onda malo ubrzaj.
Postoje i mane fazi logike. Npr. da li e ponaanja koje je uvideo ekspert i koje su korienje za
fazi kontroler ukljuiti sve situacije koje mogu da se dese usled uma, varijacije u parametrima
modela. Da li ekspert moe realno uoiti i predvideti probleme koje se mogu desiti usled
nestabilnosti
20
Savremeni roboti u velikoj meri doprinose razvoju nauke. Bez robotskih ureaja ne bi se moglo
analizirati najskrivenija mesta na Zemlji (npr. velike morske dubine) niti bi se moglo prouavati
udaljena svemirska prostranstva.
Vremenom roboti postaju sve "pametniji" i multifunkcionalniji. Tome je doprineo razvoj
matematike, prvenstveno logike, digitalne i raunarske tehnologije, vetake inteligencije i dr.
5 Statistike metode
Statistike metode i algoritmi grupisanja mogu nam omoguiti da pronaemo model koji opisuje
razlike u klasama ili konceptima za predstojea predvianja.
Deskriptivna statistika analiza predstavlja skup metoda kojima se vri izraunavanje,
prikazivanje i opisivanje osnovnih karakteristika statistikih serija.
Deskriptivna statistika analiza obuhvada sledee radnje:
1. Grupisanje i sreivanje statistikih podataka
2. Prikazivanje statistikih podataka
3. Izraunavanje i odreivanje osnovnih mera statistikih serija.
Za numerike statistike serije osnovne karakteristike su:
1. Srednja vrednost (mera centralne tendencije)
2. Mera varijacije (mere rasprenosti, disperzije)
3. Mera oblika i rasporeda (Savi, 2005)
21
Slika 5 Obuhvat PAP testom
2002 73 63 136
2003 69 60 129
2004 86 70 156
2006 72 68 140
2007 93 80 173
22
Podaci za zemlje Evropske Unije za incidencu su sledei: prosena incidenca je najvea u
vajcarskoj a najnia u Grkoj. Podaci za zemlje Evropske unije za smrtnost su sledei: prosena
smrtnost najvea u Norvekoj a najnia u Grkoj (Tabele 3 i 4).
Grka 2,9
vajcarska 24
Grka 1,2
Norveka 5,6
Grka 52
vajcarska 89
23
5.2.1 Rak dojke
Rak dojke je veoma esta ali i zloudna bolest koja pogaa ene. Kod velikog broja novih
sluajeva bolest bude otkrivena u fazi ranog raka, a kod manjeg broja kada se postavlja dijagnoza
bolest ve bude u uznapredovaloj fazi.
Prema podacima Registra za rak, Zavoda za javno zdravstvo Republike Srbije, godinje od raka
dojke oboli preko 2500 ena. Prema poslednjim dostupnim epidemiolokim podacima rak dojke
je trei uzrok smrti u enskoj populaciji u 2012. Stopa smrtnosti od raka dojke u Srbiji je jedna
od najviih u Europi, 2012. godine preko 1000 ena umrlo je od raka dojke.
Na sledeoj slici prikazano je kretanje incidencije i mortaliteta od raka dojke:
6 Baze podataka
Organizovan i ureen skup meusobno povezanih podatakaj jeste baza podataka. U njoj je
jednostavno skladititi podatke iste vrste, zatim njihovo pretraivanje i jednostavno
manipulisanje istim. Najkrae reeno ona je skup organizovanih informacija koje se odnose na
jednu odreenu temu i koje se jednostavno mogu pregledati, pretraivati, menjati, sortirati,
uporeivati. BP su postojale dosta pre upotrebe raunara i postojale su u vidu papirne
dokumentacije. Pojavom raunara su dobile elektronski oblik a po pravilu, koristi veliki broj
korisnika.
Podela podataka u bazi:
1. Ulazni podaci - opisuju transakcije 2. Izlazni podaci - odnose se na poruke i izvetaje
3.Radni podaci - obuhvataju i ulazne i izlazne podatke. Transakcija koja prebacuje jedno
stanje u drugo prilikom obrade podataka.
24
Neka od svojstava baze podataka:
One smanjuju ponavljanje podataka - podaci se unose samo jednom u bazu
Podaci su nezavisni nezavisni su od programa koji ih obrauje
Obezbeuju pouzdanost podataka ona se ostvaruje kontrolom pristupa
Obezbeuju integritet i tanost podataka podrazumeva se ispravnost i korektnost
podataka.
Programi kojima je omoguen pristup i korienje podataka iz baze podataka nazivaju se sistemi
za upravljanje bazama podataka (SUBP). Moe se rei da se softverski sistem SUBP koristi za
uvanje i pretraivanje podataka. Ovi programi imaju zadatke oporavka baze podataka,
upravljanja paralelnim izvravanjem transakcija i zatite podataka.
Postoji veliki broj alata za projektovanje baza paodataka samo neki od njih su:
SQL Server Management Studio
MS Access
MySQL
Sybase Power Designer
26
Specijalizacija Varijable
(0,n) (0,n)
(0,n)
Karakteristike
Vakcina
Rezultat
(0,n) Ima (0,n)
(0,n)
(0,1) (1,n)
(1,1)
Lekar Merena Anliza
(0,n)
Izvrio
(1,1)
(1,1) Pregled
Izdaje
Primio U
ID
(0,n) (0,n)
(0,n)
Ustanova
(0,n)
Pacijent
(0,n)
ID
Anamneza
Hronine (0,n)
(0,n)
Bolesti
(0,n)
(0,n)
27
Prezime lekara, ifra ustanove
Adresa Naziv
Mesto Adresa
Telefon Mesto
ifra specijalizacije Vrsta ustanove
28
REZULTAT:
LBO
Broj protokola pregleda
Broj naloga
ifra varijable
Stanje varijable
Primarni klju: LBO+Broj naloga+ifra
varijable
KARAKTERISTIKA:
ifra_kakrakteristike
Naziv karakteristike
Opseg
Primarni klju: ifra_karakteristike
MERENA:
ifra karakteristike
LBO
Broj protokola pregleda
Vrednost karakteristike
Primarni klju: LBO+Broj protokola
pregleda+ifra karakteristike
29
Ovako isprojektovana baza bi trebalo da se isprojektuje u nekom od alata za projektovanje BP.
uvanje podataka bi bilo relaizovano u DW.
1
Slika preuzeta sa mree http://www.acs.uns.ac.rs/sites/default/files/1_BPA_DW_OsnovniKoncepti.pdf
30
Funkcije koje obuhvata projektovanje VBP
KreirajBazuPodataka (Baza, ImeFajla, Veliina, MaksVeliina)
PrikaiListuIzvoraPodataka (Server)
SnimiIzvorPodataka (IzvorPodataka)
UitajMetaPodatke (IzvorPodataka)
IdentifikujHubTabele (Pravilo)
IdentifikujLinkTabele (Pravilo)
IdentifikujSatelitTabele (Pravilo)
UitajHubTabele (Pravilo)
UitajLinkTabele (Pravilo)
UitajSatelitTabele (Pravilo)
SnimiDataMartIzvorPodataka (SkladitePodataka)
UitajDVMetaPodatke (SkladitePodataka)
IdentifikujInicijalneDimenzije (Pravilo)
PrikaiIzabraneMere (DataMart)
PrikaiDataMartMetaPodatke (DataMart)
31
UitajDimTabele (Pravilo)
PrikaiListuIzvoraPodataka (Server)
SnimiPolustruktuiraniFajl (Pravilo)
32
Za realizaciju automatskog zvanja, bi trebalo pripremiti automatski snimljene poruke za
telefonsko obavetenje, gde bi u kratkoj poruci trebalo da stoji ime i prezime pacijenta i da treba
da se javi u Dom zdravlja kojem pripada pacijent, kako bi odradio kontrolne preglede u cilju
prevencije odreene bolesti.
Primer:
Potovani, Petar Petrovi, duni ste da se javite u Dom zdravlja kome pripadate, radi kontrolnog
pregleda, u cilju prevencije raka prostate. Molimo Vas, budite odgovorni prema svom zdravlju.
Srdaan pozdrav Vam eli tim medicinskog osoblja.
Ova forma je primenljiva na sve vrste bolesti, menjane imena i prezima, kao vrste bolesti se
automatski menja od sluaja do sluaja.
Realizacija automatskog slanja mejla, bi trebalo sadrati obavetenje, koje bi takoe kao i u
telefonskoj poruci moralo da stoji ime i prezime pacijenta koji treba da se javi u Dom zdravlja
kojem pripada pacijent, kako bi odradio kontrolne preglede u cilju prevencije odreene bolesti.
Ova forma, takoe kao i mejl poruka, je primenljiva na sve vrste bolesti i sve pacijente, menja se
ime, prezime, i vrste bolesti. Obavetenja putem pisma su istovetne forme kao i mejl.
Tokom izrade modela, mogue je napraviti izmenu u formi poruka, gde bi se pored vrste bolesti
navelo i da pacijent pripada rizinoj grupi. Za ovu promenu je neophodno konsultovati
psihologa. Postoji mogunost da se pacijent uplai, to moe da dovede do kontraefekta ili do
poeljnog efekta.
7 Neophodna infrastruktura za DM
Cena sistema nije velika jer ve postoji odreena infrastruktura, zapravo u veini optina postoji
informacioni sistem koji ima program za elektronski karton. Izdaci bi bili cena modelovanja DM
sistema i dodatna oprema za proirivanje baze podataka jer je ideja da se objedine i podaci koji
se nalaze u privatnim lekarskim praksama. Takoe, postoji izvestan troak na opremu koja bi bila
zaduena za operativni deo posla, naime oprema koja bi automatski obavljala telefonske pozive,
automatski slala mejlove i potu.
S obzirom da je glavni cilj ovakvog projekta zdravija nacija uz preventivno delovanje, a
preventiva je uvek daleko jeftinija, moe se rei da svi navedeni trokovi ne mogu da se porede
sa trokovima hemioterapije, zraenja, bolovanja
Kao primer korienja neuronske mree moe da predstavlja klasifikaciju rizinih grupa za
odreene vrste kancera, pre svega kancera koji su naalost po statistici najuestaliji i
najpogubniji, na naem podnevlju.
U bazi podataka imamo uzorke koji predstavljaju podatke o pacijentima, tanije o pregledima
pacijenata, oni su smeteni u tabelama pacijent, pregled, analize, rezultati, merene karakteristike.
Zadatak je napraviti model rizinih grupa pacijenata, po bolestime na osnovu analiziranih
33
karakteristika, vrednosti koje direktno utiu na konkretnu kancerogenu pojavu, tj. klasifikovati
pacijente ocenama od 1-10 za svaku bolest koja se ispituje.
34
8 Primeri projektovani u softverskom alatu
35
PROMPT [policisticnost dojke] YesNo CF
""
MINCF 80
36
Ako se ova podmukla bolest pgm otkrije na vreme, u premalignoj fazi, izleiva je 100%.
Uz overenu zdravstvenu knjiicu ili u procesu organizovanog skrininga postupak je potpuno
besplatan.
Rak grlia materice je jedan od retkih malignih promena kod kojih se zna ta ga izaziva. Izaziva
ga Humani Papiloma virus (HPV). Njega ima u preko 80 razliitih sero tipova (isti virus ali malo
strukrurno promenjen). HPV se deli na one serotipove sa izraenim onkogenim potencijalom i na
manje onkogene. Za nastanak raka grlia materice je neophodno prisustvo HPV-a. Karcinom
grlia materice se razvija iskljuivo pod uticajem HPV-a, ali prisustvo HPV ne mora usloviti
pojavu karcinoma. Nema karcinoma bez HPV-a, ali ima HPV bez onkolokog ishoda.
HPV se prenosi polnim putem (seksualnim odnosima, analnim ili oralnim seksom).
ene koje imaju povien rizik za nastanak raka grlia materice:
RULE [grupa 2]
If [pol] = "zenski" and
[porodicna anamneza] = false and
[godine zivota] = "23+" and
[vakcinacija HPV] = true
Then [najvisa rizicnost] = "nije rizicna grupa"
RULE [grupa 3]
If [pol] = "zenski" and
[porodicna anamneza] = visok rizik and
[godine zivota] = "37+" and
[HP virus] = false and
[vakcinacija HPV] = false and
[pusac ili bivsi pusac] = true and
[dugotrajna oralna kontracepcija] = false and
[anamneza venericnih bolest] = false and
[CIN2, CIN3] = false and
[stupanje u seksualni odnoss pre 16g] = false
Then [najvisa rizicnost] = "nizak rizik"
RULE [grupa 4]
If [pol] = "zenski" and
[porodicna anamneza] = blazi rizik and
[HP virus] = true and
38
[pregled>6 mesici] = true
Then [najvisa rizicnost] = "slati poziv"
MINCF 80
39
[pacijent ima aktivan mejl] = true and
[rizicna grupa] = "kancer debelog creva" and
[kontrola vise od godinu dana] = true
Then [kontaktirati] = "slati mejl" and
[kontrolisanje] = "kancer debelog creva"
RULE [leukemija]
If [porodicna anamneza visikog rizika] = "leukemija" and
[pacijent kontakt telefon] = true and
[pacijent ima aktivan mejl] = false and
[rizicna grupa] = "leukemija" and
[kontrola vise od godinu dana] = true
Then [kontaktirati] = "telefonski kontakt" and
[kontrolisanje] = "leukemija"
RULE [prostata]
If [pol] = "muski" and
[godine] >42 & <50 and
[pusacki staz] >10 and
[pacijent kontakt telefon] = true and
[pacijent ima aktivan mejl] = true and
[rizicna grupa] = "kancer prostate" and
[kontrola vise od godinu dana] = true
Then [kontaktirati] = "slati mejl" and
[kontrolisanje] = "kancer prostate"
40
RULE [rak kostiju]
If [pusac] = true and
[pacijent kontakt telefon] = true and
[pacijent ima aktivan mejl] = true and
[rizicna grupa] = "kancer kostiju" and
[kontrola vise od godinu dana] = true
Then [kontaktirati] = "slati mejl" and
[kontrolisanje] = "kancer kostiju"
MINCF 80
41
metode automatskog uenja, kao i vizuelizaciju ulaznih podataka i rezultata obuavanja. Primena
metoda automatskog uenja omoguava automatsku analizu velike koliine podataka i
utvrivanje najrelevantnijih informacija koje mogu biti upotrebljene u razliitim prediktivnim
procesima. Primena ovih metoda takoe moe doprineti brem i tanijem donoenju odluka. S
druge strane, simbolika naziva lei u injenici da je Weka ptica radoznale prirode bez
mogunosti letenja, koja predstavlja autohtonu vrstu na ostrvima Novog Zelanda i moe se
pronai samo tamo.
9.1 Instalacija
Softver WEKA distribuira se u skladu sa GNU General Public Licence, moe da radi na gotovo
svakoj platformi a testiran je u razliitim operativnim sistemima kao to su Linux, Windows,
Macintosh, pa ak i PDA (engl. Personal Digital Assistant). WEKA poseduje etiri razliita
korisnika interfejsa, pri emu su Explorer, Knowledge Flow i Experimenter grafiki korisniki
interfejsi dok upotreba etvrtog interfejsa podrazumeva unoenje tekstualnih komandi sa
komandne linije.
42
10 Zakljuak
Predvia se da e uspene organizacije biti samo one koje budu znale da iskoriste znanje koje
sada poseduju i koje budu umele da generiu novo znanje. Znanje je zapravo nevidljivo i ve
sada se nalazi u memorijama raunara i bazama podataka. Implementirani proizvodi data mining
su uneli revolucionaran pogled na reavanje problema upravljnja podacima poslovnim
sistemima. Na ovaj nain, kompanije mogu da u potpunosti da iskoriste sakupljenje podatke a
samim tim se poboljava poslovanje, donoenje poslovnih odluka, i unaprede izuzetno vanu
komunikaciju sa klijntima.
Cilj ovog rada je da da predlog za upotrebu osnovnih mogunosti, kada je data mining u pitanju.
Razvojem ovakvog modela omogueno je da se strategija ouvanja zdravlja podigne na vii nivo
kao i kontrolnu strategiju prevencije tj. omoguavanje timskog rada medicinskih strunjaka i IT
tehnologije. Performanse ovako predloenog okvira modela razvijenog sistema bi mogle za
relativno kratko vreme da budu sagledane.
Kako bi se pristup, koji je predstavljen u ovom radu, primenio u praksi, neophodno je da se
razvije kompletan model. To podrazumeva dalji razvoj, potpunu analizu i izradu prototipa ali i
konane aplikacije ili, to je jo bolje reenje, razviti potpuno novi DM model koji e se bazirati
na tehnikama i metodame koje su prezentovane u radu.
U trenutku pisanja ovog zakljuka, u medijima se prezentuje e-servis koji podsea graane da im
istie neki dokument. Autor ovog rada, smatra da je daleko bitnije da postoji e-servis koji bi
podseao graane da im je vreme da idu na kontrolni pregled radi ouvanja svog zdravlja.
Bez obzira na napredne metode, tehnike i algoritme DM-a, bez obzira na ogromnu koliinu
podataka kojom moemo raspolagati, ipak je ovek u sreditu svakog procesa istraivanja
podataka.
43
Reference
1. Stojkovi, M. (2001). Statistika . Subotica: Ekonomski fakultet u Subotici.
2. Bach, M. P. (2005). Rudarenje podataka u bankarstvu. STRUNI RAD (pp. 182-193).
Zagreb: Zbornik Ekonomskog fakulteta u Zagrebu.
3. Berry, M. J., & Linoff, G. S. (2000). Mastering Data Mining. Chichester: , M.J.A.,
Linoff, G.S. Wiley.
4. Bramer, M. (2007). British Library Cataloguing in Publication data. London: Springer-
Verlag London limited.
5. Filipovi, L., & Papi-Blagojevi, N. (2013). Kvantitativne metode. Novi Sad: Alfa-Graf
NS.
6. Graanin, V. K.-. (2009). DATA MINING. Kragujevac: Univerzitet u Kragujevcu.
7. Han, J., & Kamber, M. (2001). Data Mining: Concepts and Techniques. San Francisco,:
Morgan Kaufmann Publishers.
8. Ili, V. (2017, 1 22). Vetaka inteligencija. Retrieved from
http://solair.eunet.rs/~ilicv/AI_index.htm
9. M.P.B, & M.V. (2016, 11 3). profil-strucnjaka. Retrieved from
http://www.skladistenje.com.
10. melanom-statistika.asp . (n.d.). Retrieved from http://orshospital.rs/melanom-
statistika.asp
11. Ministarstvo zdravlja. (n.d.). Retrieved from
http://www.zdravlje.gov.rs/downloads/Zakoni/Strategije/Nacionalni%20Program%20Srb
ija%20Protiv%20Raka.pdf
12. Mogin, P., Lukovi, I., & Govedarica, M. (2004). Principi projektovanja baza podataka.
Novi Sad: Fakultet tehnikih nauka .
13. Pyle, D. (1999). Dana Preparation for Data Mining. San Franciso: Morgan Kaufmann.
14. Pyle, D. (2003). Business Modelling and Data Mining. San Francisco: Morgan Kaufmann
Publishers.
15. rak-dojke-statistika/ . (n.d.). Retrieved from http://www.onkologija.hr/rak-dojke/rak-
dojke-statistika/
16. Savi, M. (2005). Poslovna statistika. Subotica: Autor.
44
17. Simeunovi, V. (2015). INFORMACIONI MODEL I SOFTVERSKA PODRKA ZA
PREDVIANJE USPJENOSTI STUDIRANJA - doktorska disertacija. Novi Sad:
Univerzitet u Novom Sadu Fakultet tehnikih nauka.
18. Subai, P. (1997). Fazi logika i neuronske mree. Beograd: Tehnika knjiga.
19. Svet komjutera. (2017, 1 25). Retrieved from Svet kompjutera:
http://www.sk.rs/2005/05/skpr01.html
20. Wikipedija. (2017, 2 6). Retrieved from Wikipedija:
https://hr.wikipedia.org/wiki/Skladi%C5%A1tenje_podataka
21. Witten, I. H., & Frank, E. (2005). Practical Machine Learning Tools and Techniques,.
Elsevier Inc.
45