Kozjak Arabija

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 39

1

1
2 DRAVNI UNIVERZITET U NOVOM PAZARU
3 Departman za tehnike nauke

4 Studijski program : Raunarska tehnika

5 Seminarski rad

6 Studijsko istraivaki rad 2

7 Tema: Web mining

8Mentor Kandidat
9Prof. Dr Predrag Osmokrovi Rifat Ljajic
10 Novi Pazar, 2015
1

1 METODOLOGIJA NAUNOG ISTRAIVANJA

2 Predmet istraivanja
3U ovom radu predstavljen je sveobuhvatan pregled data mining pristupa
4personalizaciji. Fokusiramo je pre svega na upotrebu Web mining-a gde je cilj da se
5iskoriste podaci koji su prikupljeni kao rezultat korisnike interakcije sa Web- om,
6kako bi saznali model korisnika i koristili ove modele za personalizaciju. Pruena
7je detaljna diskusija aktivnosti hosta data mining-a neophodnih za ovaj proces,
8ukljuujui preprocesuiranje i integraciju podataka iz vise izvora, zajednicki patern
9otkrivanja tehnike koje se primenjuju na ove podatke kako bi se izvukao agregat
10korisnikog modela i preporuka algoritama za kombinovanje otkrivenog znanja
11trenutnog statusa korisnika aktivnosti na nekoj Web lokaciji uz lini sadraj.

12 Hipotetiki okvir istraivanja


13Hipotetiki okvir istraivanja sastoji se iz sledeih hipoteza:
14Generalna hipoteza:
15Upotrebom Web mining-a postiemo bolje razumevanje posetilaca Web sajtova,
16stvaranja efikasnije ili korisnije organizacije za Web sajtove i efikasnijeg marketinga.
17Posebna hipoteza:
18Osnovni cilj data mininga jeste otkrivanje do sada nepoznatih odnosa izmeu
19podataka.
20Faze u procesu data mining-a
21Sa arhitektonske i algoritamske take gledita u personalizaciju sistema spadaju tri
22osnovne kategorije: sistem baziran na pravilima, sadraj za filtriranje sistema i
23kolabarativni sistem za filtriranje.
24Tipovi i nivoi analize korieni na integrisanim podacima zavise od primarnih ciljeva
25analitiara i eljenih izlaza

26 Ciljevi i zadaci istraivanja


27Nauni cilj ovog rada je upoznavanje sa data miningom za Web personalizaciju,
28fazama u data miningu, hostu aktivnosti i tehnikama koje se primenjuju u razliitim
29fazama ovog ciklusa ukljuujui predobradu i integraciju podataka iz vie izvora
30kao i tehnike otkrivanja paterna koji se obino primenjuju na te podatke.
31Drutveni cilj ovog rada je predstavljanje data mininga za Web personalizaciju, fazama
32u procesu data mining, kao i prikaz najeih tipova otkrivanja paterna i analiza koji se
33koriste kod Web mining-a.

34 1.4 Metodi i tok istraivanja rada


35 U ovom radu, da bi se postigli postavljeni ciljevi kao i to efikasniji
36 rezultat koji se dobijaju povezivanjem i odgovarajuom kombinacijom vie
37 naunih metoda, koritene su sledee metode:

2 - 22 -
1

1 Metoda deskripcije
2 Komparativna metoda
3 Metoda analize
4 Metoda sinteze
5Metoda deskripcije, definisana kao postupak jednostavnog opisivanja ili ocrtavanja
6injenica, procesa ili predmeta, te njihovih empirijskih potvrdjivanja odnosa i veza,
7ali bez naunog tumaenja i objanjavanja, je koriena kroz ceo rad.
8Komparativna metoda, koja podrazumeva uporeivanje istih ili srodnih injenica,
9pojava, procesa i odnosa, odnosno utvrivanja njihove slinosti u ponaanju i
10intezitetu kao i razlika meu njima.
11Metoda analize, je postupak naunog istraivanja i objanjavanja stvarnosti putem
12ralanjivanja sloenih misaonih tvorevina (pojmova, sudova i zakljuaka) na njihove
13jednostavnije delove i elemente, kao i izraunavanje svakog dela (elementa) za sebe i u
14odnosu na druge delove, celine.
15Metoda sinteze, je suprotna metoda od analize koja se takoe primenjivala u izradi
16rada

17 UVOD
18Krajnji cilj svakog korisnikog sistema je da obezbedi korisnicima ono to im treba bez
19eksplicitnih pitanja. Automatska personalizacija je glavna tehnologija koja se
20koristi u takvim sistemima. U kontekstu Weba, personalizacija podrazumeva
21isporuku dinamikih sadraja kao sto su tekstualni elementi, linkovi, reklame,
22preporuke o proizvodu itd, koji su prilagoeni potrebama i interesima odreenih
23korisnika ili grupe korisnika. Automatska personalizacija se razlikuje od
24prilagoavanja. I prilagoavanje i personalizacija se odnose na isporuku sadraja
25koji je prilagoen odreenom korisniku. Ono sto razdvaja ova dva pojma je ko
26kontrolie kreiranje korisnikih profila kao i prezentaciju interfesa korisnika. U
27prilagoavanju, korisnici samostalno (esto runo) odreuju svoje preferencije ili
28zahteve, na osnovu ega stvaraju interfejs. Automatska personalizacija, sa druge strane,
29podrazumeva stvaranje korisinikih profila i potencijalno auriranje automatskih
30sistema sa minimalnom eksplicitnom kontrolom od strane korisnika. Primer za
31automatsku personalizaciju u komercijalnim sistemima ukljuuju personalizovane
32preporuke www.amazon.com , muziku ili listu preporuka, i razne vrste filtriranja
33agenata koji su danas dostupni.
34Tradicionalni pristupi automatskoj personalizaciji su zasnovani na sadraju, saradnji i
35pravilima filtriranja sistema. Svaki od ovih pristupa se razlikuje po specifinom tipu
36prikupljanja podataka za izradu profila drugih korisnika, kao i odreenoj vrsti
37algoritamskih pristupa radi pruanja personalizovanih sadraja. Generalno, proces
38personalizacije se sastoji od prikupljanja podataka, faze u kojoj se dobijaju informacije
39koje se odnose na interese korisnika i fazu uenja u kojoj su korisniki profili
40izgraeni od prikupljenih podataka. Uenja na osnovu podataka se mogu svrstati u
41uenja na osnovu memorije (takoe poznat kao lazy) i model baziran na uenju u
42zavisnosti od toga da li je uenje online dok sistem obavlja personalizaciju zadatka ili
43offline korienjem prikupljenih podataka. Standardno korisniko kolaborativno
44filtriranje i veina sadraja zasnovana na sistemu za filtriranje koji koriste lazy
45algoritme uenja su primeri memorije zasnovane na personalizaciji.
2 - 33 -
1

1Sistemi zasnovani na memoriji jednostavno memoriu sve podatke i obrauju


2ih sve vreme generisanja preporuke.
3Model uenja koja obavljaju raunarska uenja u offline fazi generalno imaju bolji
4obim nego memorije sistema zasnovane tokom online primene. S druge strane,
5memorijski sistemi su generalno bolji u prilagoavanju promenama interesa
6korisnika u odnosu na bazne modele gde model baziran na tehnici u kojoj on mora biti
7ili inkrementalan ili obnovljen kako bi primio nove podatke. Ove prednosti i
8nedostaci su doveli do raznih istraivanja u praksi koje se sastoje od raznih
9personalizacija ili preporuenih sistema koji generalno spadaju u pomenute kategorije
10Cilj u ovom poglavlju nije da se prui uvid u automatsko prilagoavanje uopteno.
11umesto toga fokus ce biti na Web personalizaciji, gde preporueni predmeti dolaze iz
12spremita Web objekata (stvari ili strana).
13
1
Kohavi ukazuje na pet poeljnih stvari u data mining aplikacijama:
14 Podaci bogati opisima koji omoguuju potragu izvan jednostavne
15 korelacije.
16 Veliki obim podataka za izradu pouzdanog modela.
17 Kontrolisano i pouzdano prikupljanje podataka.
18 Sposobnost procene razultata
19 Lakoa integracije sa postojeim procesima
20Retko su ovi kriterijumi zadovoljeni u tipinoj data mining aplikaciji. Personalizacija
21na Webu a posebno e-commerce se smatra killer app (ubica aplikacija) za data
22mining, delom zato sto su mnogi od ovih elemenata zaista prisutni. Meutim, biti
23u mogunosti da se u potpunosti iskoristi fleksibilnost podataka, kao i da se
24efikasno koristi otkriven model u automatski personalizovanim sistemima, proces
25personalizacije treba posmatrati kao aplikaciju data mining-a koja zahteva
26podrku za sve tipine faze data mining ciklusa, ukljuujui i prikupljanje podataka,
27predobradu, otkrivanje paterna i evaluaciju, offline reim i na kraju rasporeivanje
28znanja u realnom vremenu izmeu korisnika i Web-a.
29Prednosti i fleksibilnosti koju pruaju data mining pristupi kao i pristupi personalizaciji
30dolaze upravo iz injenice da se personalizacija posmatra kao celovit proces, a ne
31kao pojedinani algoritmi ili posebni tipovi podataka. Mnogi od tradicionalnih
32algoritama za personalizaciju se takoe mogu postaviti u kontekstu ovog procesa.

33 Data mining
34Data mining je najvaniji proizvod iz familije Business Intelligence proizvoda,
35ija je svrha pronalaenje skrivenih obrazaca u podacima, poveavanje njihove
36upotrebljivosti i transformacija tih podataka u korisno znanje.
37Postoji nekoliko definicija Data mininga. Data mining se moe definisati kao proces
38pronalaenja skrivenih zakonitosti i veza meu podacima. To je tehnika
39pretraivanja podataka u cilju identifikacije traenih uzoraka i njihovih meusobnih
40relacija. Jednostavno reeno, data mining je postupak izdvajanja interesantnih,
41novih i potencijalno korisnih informacija ili uzoraka, sadranih u velikim bazama
42podataka, a sve u cilju donoenja ispravnih poslovnih odluka.

2 - 44 -
1

1Data mining je multidisiplinarno podruje koje obuhvata: baze podataka, ekspertne


2sisteme, teoriju informacija, statistiku, matematiku, logiku i itav niz drugih
3podruja.
4Data mining se zove i Knowledge Discovery in Databases (KDD) otkrivanje
5znanja u bazama podataka. . To je proces analize koji omoguuje korisnicima da shvate
6sisteme i veze izmeu njihovih podataka. On omoguava sagledavanje informacija na
7nain koji ranije nije bio mogu.

8
2
Slika 1 Proces otkrivanja znanja
9Osnovni cilj data mininga jeste otkrivanje do sada nepoznatih odnosa izmeu
10podataka. Analizom ogromnih baza podataka, upotrebom data mininga definiemo
11relacije, obrasce ili forme ponaanja, neophodne za odluivanje I predvianje.
12Prilikom same pretrage podataka data mining softver pomae analitiaru da rei
3
13neke od sledeih problema :
14Klasifikacija - analiziraju se skupovi podataka, otkrivaju skrivene veze i utvruju
15elementi ( funkcije ) za njihovo grupisanje u jednu od nekoliko klasa.
16Asocijacija podataka utvruju se osobine koje se javljaju zajedno kod vie uzoraka,
17odnosno veze meu proizvoljnim atributima. Npr koji se proizvodi kupuju
18zajedno u jednoj kupovini.
19Grupisanje ( Klastering ) proces odreivanja grupa podataka koji su
20meusobno slini, ali razliiti od ostalih grupa podataka. Pri tome se indentifikuju i
21promenljive po kojima se vri najbolje grupisanje.
22Predvianje ( Numeric prediction ) otkriva se ponaanje objekta
23posmatranja tokom vremena, i vre se predvianja. Utvruju se pravilnosti iz primera
24i na osnovu toga odreuju oekivane numerike vrednosti.

25 Faze u procesu data mining-a


26ivotni ciklus jednog data mining projekta se sastoji iz sledeih osam koraka
271) Sakupljanje podataka je obino prvi korak u data mining projektu.
28Poslovni podaci su uskladiteni u brojnim sistemima , internetu, bazama podataka
29kompanija, i prvi korak obino predstavlja prenos relevantnih podataka u bazu

2 - 55 -
1

1podataka gde se podaci analiziraju. Ponekad postoji i skladite podataka to


2olakava dalji rad ali u velikom broju sluajeva podaci koji su sakupljeni mogu biti
3nedovoljno korisni za analizu te se zbog toga neophodni podaci moraju sakupiti iz
4drugih izvora. Nakon to se sakupe, podaci se mogu semplovati da bi se smanjila
5veliina trening skupa podataka. U mnogim sluajevima, obrasci koji su pronaeni na
6skupu od 50 000 kupaca su isti kao i oni pronaeni na trening skupu od 1 000
7000 kupaca.
82) Filtiriranje podataka i transformacija je najintenzivniji korak u data mining
9projektu kad su resursi u pitanju. Cilj filtriranja podataka je odstranjivanje irelevantnih i
10suvinih informacija iz skupa podataka. To podrazumeva uklanjanje duplih i nepotpunih
11podataka, njihovu tranformaciju i jedinstven sistem podataka, izabiranje podgrupa
12podataka, odreivanje broja promenjivih sa kojima je moguce raditi. Cilj transformacije
13podataka je promena izvornog podatka u drugaiji format tipa podataka. Postoje razliiti
14tehnike koje se mogu primeniti za korak filtriranja i transformaciju podataka, a
15najee koriene su; transformacija tipova podataka, neprekidna transformacija
16kolona, grupisanje, rad sa vrednou koja nedostaje, brisanje abnormalnih
17sluajeva itd.
183) Kreiranje i izbor modela je trei korak koji se primenjuje nakon filtriranja i
19transformacije podataka. Tek kada se podaci filtriraju i kada se promenljive transformiu
20u pogodne tipove podataka, moe se zapoeti sa kreiranjem modela. Pre kreiranja
21modela treba da razumemo cilj data mining projekta i vrstu data mining zadatka koji e
22se koristiti. Za svaki data mining problem postoji nekoliko odgovarajuih algoritama.
23Preciznost algoritma zavisi od prirode podataka kao to su; broj stanja atributa koji
24se koriste za predvianje, prenos vrednosti svakog atributa, veza izmeu atributa itd.
25U ovom poetnom delu projekta potrebno je sastaviti tim poslovnih analitiara koji su
26eksperti u odreenoj oblasti.
274) Procena kvaliteta modela U delu kreiranja modela mi kreiramo skup modela
28koristei algoritme i tehnike data mining-a , ali nakon kreiranja moramo izvriti i
29evaluaciju tog modela. Postoji nekoliko popularnih alata za evaluaciju kvaliteta modela.
30Najpoznatiji je lift dijagram. On koristi ve istreniran model kako bi predvideo
31vrednosti koje e se dobiti iz skupa podataka koji se testira. Na osnovu vrednosti
32koje se dobiju i verovatnoe on grafiki prikazuje model na dijagramu.
335) Kreiranje izvetaja Nakon kreiranja modela i evaluacije kvaliteta tog modela
34vri se kreiranje izvetaja koji se dostavljaju menaderima na uvid. Veina data mining
35alata ima osobinu kreiranja izvetaja koji omoguuje korisnicima da generiu
36prethodno definisan izvetaj sa tekstualnim i grafikim detaljima data mining modela.
37Postoje dva osnovna tipa izvetaja: izvetaji o pronaenim obrascima i izvetaji o
38predvienim vrednostima modela.
396) Ocenjivanje modela U mnogim data mining projektima, pronalaenje obrazaca i
40modela je samo pola posla; konani cilj je upotreba tog modela za predvianje.
41Predvianje se jo naziva i scoring u data mining terminologiji. Da bi dobili
42predviene vrednosti moramo da imamo ve istrenirani model i skup novih podataka.
437) Integracija data mining modela u aplikaciju Integrisanje data mining modela
44u poslovne aplikacije predstavlja ponovnu primenu poslovne inteligencije na poslovni
45sistem tj. zatvaranje petlje za analizu. Sve vie poslovnih aplikacija ukljuuje i data
46mining komponentu a prednosti data mining-a su velike. Na primer CRM (Customer

2 - 66 -
1

1Relationship Management) aplikacije mogu imati data mining osobine koje grupie
2kupce u segmente, ERP (Enterprise Resource Planning) aplikacije mogu imati data
3mining osobine koje im koriste da predvide obim proizvodnje. On-line knjiara
4moe dati potencijalnim kupcima preporuke knjiga. Integrisanje data mining osobina,
5pogotovo komponente za predvianje u aplikacije jedan je od bitnijih koraka data
6mining projekta. Ovo je kljuni korak za uvoenje data mining-a u masovnu upotrebu.
78) Upravljanje modelom Odravanje statusa data mining modela predstavlja pravi
8izazov. Svaki data mining model ima svoj ivotni ciklus. U nekim oblastima
9primene obrasci su relativno stabilni i modeli ne zahtevaju uestalo ponovno
10treniranje modela. Ali u mnogim oblastima obrasci se menjaju esto. Trajanje
11jednog data mining modela je ogranieno. Nova verzija modela se mora praviti
12esto. Odreivanje preciznosti modela i kreiranje novih verzija ovog modela bi trebalo
13biti postignuto korienjem automatizovanih procesa.

14 AUTOMATSKA PERSONALIZACIJA I DATA MINING


15Sposobnost personalizacije sistema da prilagodi sadraj i preporui stavke,
16podrazumeva da on mora biti u stanju da zakljui ta korisnik trai na osnovu
17prethodnih interakcija ili trenutne interakcije sa tim korisnikom, a verovatno i
18drugim korisnicima. Zadatak personalizacije moe se posmatrati kao predvianje
19problema: sistem mora pokuati da predvidi nivo interesovanja korisnika, ili korist od
20odreene kategorije sadraja, stranice ili stavki, i rangira ih u skladu sa predvienim
21vrednostima.
22Osim toga, zadatak pruanja personalizovanog sadraja esto je uramljena u smislu
23preporuka zadataka, u kojem sistem preporuuje stavke sa najviim predvienim
24interesnim vrednostima ili usluge za aktivnog korisnika. U principu, personalizacija
25sistema se moe posmatrati kao mapiranje korisnika i stavki u skup interesa od
26vrednosti. Pogled na personalizaciju da funkcionie kao predvianje, proizilazi iz
27injenice da mapiranje nije, uopteno, definisano u celom domenu dostupnosti
28korisniku, a samim tim zahteva od sistema procenu vrednosti
29 interesovanja za neke elemente u domenu.4
30Automatski sistemi za personalizaciju, generalno, se razlikuju u vrsti podataka i
31metodima koji se koriste za kreiranje profila korisnika, dok se u domenu algoritamskog
32pristupa koristi predvianje.

33 Pristupi personalizaciji
34Sa arhitektonske i algoritamske take gledita u personalizaciju sistema spadaju tri
35osnovne kategorije: sistem baziran na pravilima, sadraj za filtriranje sistema i
36kolabarativni sistem za filtriranje. Primarni focus u ovom poglavlju je model
37baziran na kolabarativnom pristupu filtriranja u kojoj su modeli naueni kroz razliite
38data mining tehnike.

39 4.1.1 Sistem baziran na pravilima


40Zasnovan na pravilima, sistem za filtriranje se oslanja na runa ili automatski
41generisana pravila koja se koriste kao preporuka stavki korisnicima. Mnogi postojei
42e-commerce Web sajtovi koji koriste personalizaciju ili preporuku tehnologije, koriste

2 - 77 -
1

1uputstvo zasnovano na pravilima sistema. Takvi sistemi omoguavaju Web sajt


2administratorima da odrede pravila, esto zasnovana na demografskim, psihografskim
3ili drugim linim karakteristikama korisnika. U nekim sluajevima, pravila mogu biti
4zavisna od domena I da reflektuju odreenje poslovne ciljeve sa Web sajta. Pravila
5se koriste da utiu na sadraj kojim se sluzi korisnik iji profil ispunjava jedan ili vie
6pravila. Kao I veina sistema zasnovanim na pravilima, ovaj tip personalizacije oslanja
7se na znanje inenjeringa po sistemu dizajniranja baze pravila u skladu sa specifinim
8karakteristikama domena ili istraivanja trzita. Korisniki profili su uglavnom
9dobijeni kroz eksplicitne interakcije sa korisnicima. Neka istraivanja se fokusiraju
10na mainskom uenju tehnike za klasifikaciju korisnika u jednoj od nekoliko kategorija
11na osnovu njihovih demografskih atributa, a samim tim automatski dobijaju pravila
12odluivanja koja se mogu koristiti za personalizaciju.
13Primarni nedostatak zasnovan na pravilima filtrirane tehnike, pored uobiajnog
14manjka znanja inenjerstva, potie iz metode koje se koriste za generisanje korisnikih
15profila. Ulaz je obino subjektivan opis korisnika ili njihovih interesa od strane samih
16korisnika a samim tim je sklon pristrasnosti. Osim toga profili su esto statini I na taj
17nain se degradiraju perfomanse sistema tokom vremena, kako profil zastareva.

18 4.1.2 Sistem filtriranja na osnovu sadraju


19U ovom sistemu profil korisnika predstavlja opis sadraja ili predmeta o kojima je
20korisnik ranije izrazio interes. Preporuka generacijskog zadatka u ovakvim
21sistemima obino ukljuuje poreenje izdvojenih karaktersitika od nevidljivih ili
22ne ocenjenih stvari u opisanom sadraju korisnikog profila. Stavke koje se smatraju
23dovoljno slinim profilima korisnika se preporuuju korisniku.
24U vecini sistema filtriranja na osnovu sadraja, posebno onih koji se koriste na Web-u
25i u e-commerce aplikacijama, opisi sadraja su tekstualne karakteristike izdvojene sa
26Web stranice ili opisa proizvoda. Kao takvi, ovi sistemi se esto oslanjaju na
27poznate dokumente tehnika modeliranja sa korenima u pronalaenju informacija
28filtriranja istraivanja. Predvianje interesovanja korisnika za odreenu stavku se moe
29izvesti na osnovu izraunavanja vektora slinosti (korienjem kosinusne slinosti)
30ili korienjem pristupa verovatnoe kao sto su Bayesian- klasifikacija. Pored toga,
31u suprotnosti sa pristupima na osnovu kolaboracije, profili su individualni po prirodi,
32izgraeni samo od karakteristika povezanih sa stavkama prethodno vienim ili
33ocenjivanim od aktivnih korisnika
34Primeri ranih personalizovanih agenata koji koriste ovaj pristup su: Letezija,
35NewWeeder, Personal WebWatcher, InfoFinder, Syskill i Webert I Nave Bayes,
36najblizi susedni pristup koristi Schwab.
37Primarni nedostatak filtriranja na osnovu sadraja je njihova tendencija da specializuju
38jedinice selekcije, jer profili se iskljuivo zasnivaju na prethodnom rejtingu
39korisnika. Korisnike studije su pokazale da korisnici pronalaze online preporuke
40najkorisnije kada preporuuju neoekivane stvari, to sugerie da korienje slicnog
41sadraja takoe moe rezultirati nedostajanju vanog pragmatinog odnosa izmeu
42Web objekata kao to su zajednike ili komplemetarne koristi u kontekstu
43konkretnog zadatka. Pored toga, sistem zasnovan na filtriranju na osnovu sadraja
44zahteva da se stvari efikasno predstave uz pomo ekstrahovanih tekstualnih
45karakteristika, koje ne daju uvek praktinu hetoregenu prirodu Web podataka.
2 - 88 -
1

1 4.1.3 Filtriranje na osnovu kolaboracije


2Kolaborativnim filtriranjem je pokuano da se nadomeste neki nedostaci ostalih
3pristupa. Posebno u kontekstu e-commerca, preporuke kod sistema zasnovanih na
4kolaborativnom filtriranju su postigle znaajne uspehe. Generalno, ove tehnike
5obuhvataju podudaranja rejtinga trenutnih korisnika za objekte (filmove ili
6proizvode) sa slinim korisnicima u cilju da proizvedu preporuke za objekte koje
7jo nisu ocenili ili videli aktivni korisnici. Tradicionalno, primarna tehnika koja se
8koristi da bi se izvrio ovaj zadatak je standardna memorija na bazi k-Nearst-Neighbor
9(kNN) klasifikaciji pristupa, koji poredi profile ciljanih korisnika sa istoriskim
10profilima drugih korisnika u cilju pronalaenja top korisnika koji imaju sline ukuse I
11interesovanja.
12Meutim, tehnike kolaborativnog filtriranja imaju svoja potencijalno ozbiljna
13ogranienja. Najvanije od ovih ogranienja je zbog nedostatka skalabilnosti. U
14sutini, kNN zahteva da se susedno formiranje faza vri kao online proces (tj.
15modeliranje faze se obavlja u realnom vremenu, za razliku od modela na bazi
16pristupa u kojem se model uenja obavlja offline). Kako se broj korisnika I
17predmeta poveava, ovaj pristup moe dovesti do neprihvatljivog kanjenja
18pruanja preporuke ili dinamikog sadraja u toku interakcije korisnika.
19Drugo ogranienje kNN tehnike proizilazi iz oskudne prirode skupa podataka.
20Kako se broj stavki u bazi podataka poveava, gustina zapisa svakog korisnika u
21vezi sa ovim stavkama e se smanjivati. Ovo e znaajno smanjiti mogunost
22preklapanja poseenih ili ocenjenih predmeta meu parovima korisnika, to
23dovodi do manje pouzdane izraunate korelacije. Osim toga, kolaborativno filtriranje
24se obino obavlja najbolje kad eksplicitni ne binarni korisnici daju ocene za
25sline objekte na raspolaganju. Na mnogim Web lokacijama meutim, moe biti
26poeljno da se integrie prilagoena akcija irom sajta, ukljuujui razliiti tip
27objekta, navigacione i stranice sa sadrajima, kao i implicitno orjentisane proizvode
28korisnika kao to su korpa za kupovinu ili informacioni zahtevi proizvoda.
5
29Brojne strategije optimizacije predloene su i primenjene da bi se popravili nedostaci.
30Ove strategije obuhvataju slinost indeksiranja i dimenzionalnosti smanjenja da se
31smanje trokovi u realnom vremenu za pretragu i otklone problemi, kao i offline
32grupisanje zapisnika korisnika, omoguavajui online komponentama sistema da trae
33u odgovarajuem klasteru. Model zasnovan na varijanti kolaborativnog filtriranja je
34poznat kao stavka u kojoj je, poev od istog korisnikog rejtinga profila baze
35podataka, stavka taka slinosti matrica koja se gradi offline, i koristi se u fazi
36predvianja za generisanje preporuka. Umesto zasnivanja stvari na slinosti
37sadraja opisa stavki, slinost izmeu stavki se zasniva na korisnikim ocenama.
38Svaka stavka predstavlja vektor, a slinosti se obraunavaju na osnovu pokazatelja
39kao to su kosinus slinosti i povezanost na bazi slinosti. Proces preporuke predvia
40rejting za stavke koje nisu ranije videte ili ocenjene od aktivnog korisnika korienjem
41ponderisanog zbira rejtinga stavki u taki u okolini stavke cilja. Evoluacija stavke
42pristupa kolaborativnog filtriranja je pokazala da stavka kolaborativnog filtriranja
43moe dati preporuke koje su slinog kvaliteta u odnosu na memoriju kolaborativnog
44pristupa.
45Veina mining podataka personalizacije moe da se posmatra kao proirenje
46kolaborativnog filtriranja. U ovim pristupima obrazac otkria algoritama predstavlja
2 - 99 -
1

1ulaz istoriske ocene ili navigacionih profila prolosti korisnika i generiu ukupni model
2korisnika. Korisnik modela, za uzvrat, moe da se koristi zajedno sa profilom aktivnog
3korisnika, da bi predvideo budue ponaanje korisnika ili generisao preporuke.

4 4.2 Pristup korisnikom profilisanju


5Svi pristupi personalizaciji, kao i u veoj meri, personalizacija na osnovu data
6mininga, zahteva prikupljanje podataka koji tano odraava interese korisnika i njihove
7interakcije sa aplikacijama i stavkama. Personalizovani sistemi razlikuju se ne samo u
8algoritmima koji se koriste za generisanje, preporuke ili predvianja, vec i u nainu na
9koji se grade korisniki profili na osnovu prateih podataka.
10Personalizacija zasnovana na pravilima i sadraju sistema generalno, grade individualni
11model interesa korisnika, i koriste ovaj profil da prilagode buduim interakcijama
12samo tom korisniku. Kao to je pomenuto ranije, sistem zasnovan na filtriranju sadraja
13zahteva karakteristike stavki izdvojene iz opisa ili relacionih atributa saradnika sa
14stavkama u pozadinskoj bazi podataka. U takvim sistemima proces izgradnje profila
15korisnika zahteva dve faze. Prvo sistem mora da utvrdi nivo interesovanja korisnika
16u podskupu stavki Ovaj zadatak se moe implicitno postii pasivnim posmatranjem
17korisnika, i koristei razne heuristike da klasifikuju stavke kao interesantne ili ne
18interesantne, ili se moe zasnivati na eksplicitnim presudama korisnika
19dodeljivanjem ocene na stavke ili runo indetifikovanje pozitivnih i negativnih
20primera. Glavni nedostatak pristupa na osnovu pojedinanih profila je nedostatak
21sluajnog otkrivanja kao preporuke koji su veoma fokusirani na prethodne interese
22korisnika. Takoe sistem zavisi od dostupnosti opisnog sadraja stavki koje se
23preporuuju.
6
24U sluaju zasnovanom na pravilima sistema, naroito onih zasnovanih na
25demografskom filtriranju, svaki profil korisnika se moe predstaviti vektorom linih i
26demografskih karakteristika, esto nazvanih otisak prsta (finger print). U e-
27commercu i analitikoj Web aplikaciji otisak prsta posetilaca takoe moe da
28sadri izraunate atribute kao ukupan iznos potroen i uestalost kupovine ili
29posete. Malo sistema koristi demografske podatke u okviru preporuke procesa. Ovo
30je zbog injenice da se takvi podaci mnogo tee prikupljaju na Web-u, a kada se
31prikupe tee da budu loeg kvaliteta. Takoe, preporuke zasnovane samo na
32demografskim podacima su se pokazale manje preciznim od onih zasnovanih na
33sadraju stavki i ponanju korisnika.
34U kolaborativnom filtriranju sistem koristi ne samo profil aktivnog korisnika ve
35takoe i vodi bazu podataka o profilima drugih korisnika. Za razliku od sadraja
36filtriranja u kojoj stavka na stavku slinosti ine osnovu za preporuku generisanja,
37kolaborativni sistemi se oslanjaju na slinosti od korisnika do korisnika. Profili
38su uglavnom predstavljeni kao vektori ili skup ocena pruanja preferencija korisnika
39na podskup stavki. Aktivan korisniki profil se koristi da bi se pronali drugi korisnici
40sa slinim preferencijama, takozvane aktivne korisnike komsije. Imajte na umu da
41za razliku od sadraja zasnovanog na filtriranju, stvarni opisi sadraja artikla nisu deo
42profila.
43Dok tradicionalno kolaboratovno filtriranje koristi samo ocenjene podatake, hibridni
44kolaborativni pristup koristi i sadraj i rejting podataka korisnika. Osim toga u oba
2 -
1010
1

1sluaja kolaborativnog i filtriranog sadraja, istraivani su razni pristupi za integraciju


2ontolokog domena korisnikog profila. U prisustvu domena ontolgije, korisnik
3profila moe zapravo reflektovati strukturu domena i na taj nain zahtevati sloenije
4zastupljenosti u odnosu na ravno predstavljanje korisnika u standarnim pristupima.
5Bez obzira na algoritamski pristup personalizaciji, profilisani podaci korisnika
6mogu biti prikupljeni implicitno ili eksplicitno. Eksplicitno prikupljanje obino
7zahteva od korisnika aktivno uee. U sistemima koji se oslanjaju na
8demografske i line podatke, interakcija korisnika moe poprimiti oblik uea u
9online anketama u vreme registracije ili pruanje linih i finansijskih podataka
10prilikom kupovine (koji se onda mogu kombinovati sa offline demografskim
11podacima dostupnih kroz razliite podatke agregacija usluga). Slino tome, sistem
12zasnovan na sadraju filtriranja moe takoe koristiti bilo direktno ili indirektno
13povratne informacije korisnika da odredi njihov nivo interesovanja u odreenim
14takama. Tradicionalni kolaborativni sistem filtriranja koji se koristi u e-commercu,
15eksplicitne informacije korisnika koristi u vidu ocene o pojedinanim stavkama.
16Meutim, mnogi kolaborativni sistemi, posebno Web personalizovani sistemi koji
17koriste clickstream
7 ili druge vrste ponaanja podataka, pokuavaju da mere
18interesovanja korisnika individualno ili u grupi stavki na osnovu heuristikog
19pokazatelja (kao to su vreme provedeno u gledanju stavke, bez obzira da li je
20stavka kupljena itd). Mnogi e-commerc sajtovi, kao to su amazon.com prati
21kupovinu svakog klijenta i istoriju aktivnosti i koristi informacije kao deo korisnikog
22profila.
23Prednost korienja implicitno povratne informacije korisnika je da uklanja teret u
24vezi sa obezbeivanjem linih podataka od korisnika. Sistem prikuplja relevantne
25podatke na osnovu posmatranog ponaanja korisnika i zakljuuje specifine podatke o
26njemu. Implicitno profilisanje podrazumeva da sistem mora biti u stanju da prati
27ponaanje korisnika kako bi se utvrdili obrasci pretraivanja ili kupovine. Implicitni
28podaci mogu biti prikupljeni od klijenta ili od strane servera. Pristupi klasifikaciji
29mogu se klasifikovati na osnovu toga da li su ovi pristupi razvijeni da rade na
30strani klijenta ili na strani server. Kljuna razlika izmeu ovih personalizovanih
31pristupa je obim podataka koji je dostupan za personalizaciju sistema. Na strani
32klijenta, podaci su dostupni samo za individualne korisnike i samim tim pristup je
33mogue ostvariti samo individualno. Na strani servera, posao ima sposobnost da prikupi
34podatke o svim svojim posetiocima, i samim tim kako individualnih tako i
35kolaborativnih pristupa koji se primenjuju. S druge strane serveri obino imaju
36pristup interakcijama korisnika sa sadrajem na njihovom Web sajtu, a klijent
37moe da pristupi podacima o interakciji pojedinaca sa vie Web sajtova.
38Veina klijentskih aplikacija zasnovana je na sadraju sistema u cilju personalizovanih
39pretraga preko Web-a ili viestrukih spremita. Nedostatak zajednikog domena
40antologije preko Web sajta je nestruktuirana strana Web-a i proreena raspoloivost
41podataka koja smanjuje mogunost za navigacionu personalizaciju nasuprot traenju na
42osnovu interakcije sa Web-om kao celinom.
43Kolaborativna personalizacija sistema bazirana na korienju Web-a se oslanja na
44clickstream i navigacione podatke automatski prikupljene od strane Web-a i
45aplikacionih servera i skladita u serverskom fajlu. Drugi izvor podataka o klijentima su
46transakcije baze podataka, pre prodaje i posle prodaje podravanih podataka ili
2 -
1111
1

1demografske informacije. Takvi podaci mogu biti dinamiki prikupljeni sa Web


2lokacija ili kupljene od tree strane. U mnogim sluajevima podaci se uvaju u
3razliitim formatima u vie razliitih baza podataka.

4 4.3 Data mining pristup personalizaciji


5Ono sto ini data mining pristup Web personalizaciji razliit od drugog pristupa je
6da upotreba Web mining nije specifian algoritam ve sledi tipian data mining ciklus.
7Kao takva, ona prua veliku fleksibilnost za usklaivanje razliitih podataka kanala
8na sveobuhvatan nain i dozvoljava personalizaciji zadataka da budu bolje integrisani sa
9drugim postojeim aplikacijama. Osim toga, zbog fokusa data mining-a na efikasan
10model zasnovan na algoritmima, personalizovani sistem na osnovu data mining-a ima
11tendenciju da bude vie skalabilniji od onih zasnovanih na tradicionalnom
12pristupu kao to je standardno kolaborativno filtriranje. Upotreba Web mining-a se
13moe definisati kao automatsko otkrivanje i analiza ablona u clickstreamu i
14povezanih prikupljenih podataka nastale kao rezultat interakcije korisnika sa Web
15izvorom na jednom ili vise sajtova. Cilj upotrebe Web mining-a je da zarobi model i
16analizira modele ponaanja i profila korisnika u interakciji sa Web sajtom. Otkriveni
17obrasci se obino predstavljaju kao kolekcije stranica, objekata ili resursa koji su
18esto prikljueni grupama korisnika sa zajednikim potrebama i interesima.
8
19Tradicionalno, cilj upotrebe Web mining-a je bio da podri donoenje odluka procesa od
20strane operatora Web sajta u cilju sticanja boljeg razumevanja njihovih posetilaca,
21stvaranja efikasnije ili korisnije organizacije za Web sajtove i efikasnijeg
22marketinga. Meutim, ovi modeli se takoe mogu koristiti kao automatski
23adaptivni sistemi radi postizanja razliitih funkcija za personalizaciju.
24Ceo proces Web personalizacije baziran je na korienju Web mining-a koji se sastoji
25od tri faze: Priprema podataka i transformacija, patern otkria i preporuke. Od
26ovih samo kasnija faza se obavlja u realnom vremenu.
27Pripremna faza transformie sirove Web log fajlove u profil korisnika ili Web
28transakcije podataka koji mogu biti procesuirani ili obraeni od strane data mining
29zadataka. Ova faza takoe ukljuuje integraciju podataka iz vie izvora, kao to su
30pozadina baze podataka, aplikacioni server i sadraj sajta. Rezultati data mining faze
31se transformiu u agregatne korisnike modele, pogodne za upotrebu u preporuenoj
32fazi. Preporueni motor smatra aktivni profil korisnika u saradnji sa otkrivenim
33paternom za pruanjem personalizovanog sadraja

34 Prikupljanje podataka i preprocesiranje


35 Gledanje na personalizaciju kao data mining aplikaciju ima za cilj da kreira
36 skup korisniki orjentisanih modela podataka (korisnike profile), koji predstavljaju
37 interese i aktivnosti svih korisnika koji se mogu koristiti kao ulaz za razliita uenja
38 mainskog algoritma za obrazac (patern) otkria. Izlaz iz ovih algoritama, odnosno
39 eme otkria se mogu koristiti za predvianje buduih interesa korisnika. Tano
40 predstavljanje ovih modela korisnika se razlikuje u zavisnosti od pristupa za
41 postizanje personalizacije i preciznosti dostupnih informacija. Zadaci obrazaca

2 -
1212
1

1 otkria se stoga razlikuju po sloenosti zasnovane na ekspresivnosti predstavljanja


2 odabranog profila korisnika i podataka na raspolaganju.

3 5.1 Izvori podataka za koriscenje Web mininga


4Primarni izvori podataka koji se koriste u upotrebi Web mining-a su nekoliko log
5fajlova koji obuhvataju pristupe logovima Web servera i logove aplikacionih
6servera. Dodatni izvori podataka koji su takoe od sutinskog znaaja za pripremu
7podataka i obrazca otkria ukljuuje lokaciju fajlova i meta podataka (ukljuujui
8sadraj funkcije i strukturne elemente strana), operativne baze podataka,
9aplikacioni templejti i domen znanja. U nekim sluajevima i za neke korisnike,
10dodatni podaci mogu biti dostupni zahvaljujui klijent strani ili proxy nivou
11prikupljanja podataka (internet provajder), kao i od spoljnih clickstream ili
12demografskih izvora podataka (npr. ComScore, NetRatings, MediaMetrix i
13Acxiom).
9
14Najvaniji od ovih izvora za upotrebu Web mininga su clickstream podaci zabeleeni
15automatski od strane Web-a i aplikacionih servera u log fajlove. Ovi podaci
16predstavljaju fine strukture navigacionih ponaanja posetioca. Svaki pristup serveru koji
17odgovara HTTP zahtevu generie jedan unos u evidencijama pristupa servera. Svaki
18unos loga (u zavisnosti od formata) moe da sadri polja indetifikacije
19vremena i datuma zahteva, ip adresu klijenta, izvor zahteva, mogue parametre
20koriene u pozivanju Web aplikacije, status zahteva, HTTP metod koji se koristi,
21agent korisnika (tip i verzija browsera i operativnog sistema), odgovarajui
22resurs Weba i, ako su dostupni, na strani klijenta cookies koji identifikuju
23jedinstvenog ponovnog posetioca.
24U zavistnosti od ciljeva analize ovi podaci treba da se transformiu i prikupe na
25razliitim nivoima apstrakcije. U upotrebi Web mining-a najosnovniji nivo
26podataka apstrakcije je prikaz stranice. Prikaz stanice je ukupna zastupljenost
27kolekcije Web objekata koji doprinosi prikazu na Web pretrazivau zahvaljujui
28jednoj akciji korisnika (kao to je clicktrue). Konceptualno, svaki prikaz stranice
29moe da se posmatra kao skup Web objekata ili sredstava koji predstavljaju specifian
30dogaaj korisnika, na primer itanje lanaka, pregled stranice proizvoda ili
31dodavanje proizvoda u kupovnoj korpi. Na nivou korisnika najosnovniji nivo ponaanja
32apstrakcije jeste sesija. Sesija je niz prikaza stranica od strane jednog korisnika
33tokom jedne posete. Pojam sesija moe se dalje apstrahovati i izborom podskupa
34prikaza stranica u sesije koje su znaajne ili relevantne za analizu zadataka. Sesija
35se moze koristiti direktno kao profil korisnika, meutim ako je cilj analize da snimi
36ponaanje korisnika tokom vremena (na primer preko vie sesija) sve sesije koje
37pripadaju korisniku se mogu kombinovati i prikupiti da bi se kreirao profil za tog
38korisnika.
39Sadraj podataka na sajtu je kolekcija objekata i odnosa koji se prenose korisniku. U
40najveem delu, ovi podaci se sastoje od kombinacija tekstualnih materijala ili slika.
41Izvori podataka korieni za isporuku ili generisanje ovih podataka ukljuuje
42statiku HTML/XML stranu, multimedijalne fajlove, dinamiki generisane strane
43segmenata i skripte i zbirke podataka iz operativne baze podataka. Sadraj
44podataka takoe ukljuuje semantike ili strukturalne meta podatke ugraene u sajt
2 -
1313
1

1iliindividualne stranice, kao to su opisne kljune rei, dokument atributa,


2semantiki tagovi ili HTTP varijable.
10
3Strukturu podataka predstavlja prikaz dizajnera sadraja organizacije u okviru sajta.
4Ova organizacija je zarobljena preko inter stranica povezane strukturom izmeu
5strane, to se ogleda kroz hiper veze. Struktura podataka takoe sadri unutar
6stranica strukturu sadraja u okviru stranice. Na primer, HTML i XML dokumenta
7mogu biti predstavljena kao stablo struktura kroz prostor tagova na stranici. Hiper
8veza strukture za sajt je obino zarobljena od strane automatski generisane mape
9sajta, obino predstavljanih kao usmereni grafikon. Sajt mapiranih alatka mora da
10ima mogunost da snimi i predstavi unutranji i spoljanji prikaz stranica. Za
11dinamiki generisane stranice sajt mapiranja alatki mora ili ukljuiti sutinska znanja
12osnovnih aplikacija i skripti ili mora da ima sposobnost da stvori segmente
13sadraja korienjem uzorka parametara prosleene takvoj aplikaciji ili skripti.
14Na kraju, operativne baze podataka za sajt mogu sadrati dodatne informacije
15o korisniku i stavkama. Takvi podaci mogu podrazumevati demografske informacije
16o registrovanim korisnicama, ocene korisnika za razne predmete kao to su
17proizvodi ili filmovi, poslednja kupovina ili istorija posete korisnika, kao i drugi
18eksplicitno ili implicitno predstavljeni interesi korisnika. Proizvod baze podataka ili
19sistema za upravljanje sadrajem moe da sadri i dodatne sadraje deskriptora i
20relacionih atributa koji se mogu koristiti kao deo reprezantacije sadraja informacija
21za stavke. Neki od ovih podataka se moe 10 snimiti anonimno dokle god postoji
22mogunost da se napravi razlika izmeu razliitih korisnika.

23 5.2 Podaci preprocesiranja za Web mining


24Cilj faze preprocesuiranja u upotrebi Web mining-a je da transformie sirove podatke
25clickstream-a u skup korisnikih profila. Sa navigacione take gledita svaki takav
26profil obuhvata razgranien niz ili skup pregleda stranica predstavljajui
27korisnike sesije. Ovi podaci se mogu koristiti kao ulaz za razliite data mining
28algoritme ili dalju transformisanost i apstrahovanost. Korienje preprocesuiranja Web
29podataka predstavlja jedinstven broj izazova koji su dovele do razliitih algoritama i
30heuristickih tehnika za preprocesuiranje podataka kao sto su fuzije i ienje,
31identifikacija korisnika i sesija, identifikacija prikaza stranice. Uspena primena data
32mining tehnike u korienju Web podataka veoma zavisi od pravilne primene zadatka
34preprocesuiranja.
33

2 -
1414
1

11
1 Slika 2 - Koraci u pripremi podataka za korienje Web mininga
2Podaci fuzije se odnose na spajanje logova fajla sa nekoliko Web i aplikacionih servera.
3Ovo moe zahtevati globalnu sinhronizaciju preko ovih servera. U odsustvu
4zajednikih ugraenih IDS sesija, heuristikih metoda zasnovanih na
5upuivanju polja unosa loga servera, zajedno sa razliitim sesijama i metodama
6indetifikacije korisnika moe se koristiti za obavljanje objedinjavanja. Ovaj korak je od
7sutinskog znaaja za inter-site korienje Web mining-a, gde se analiza ponaanja
8korisnika vri preko log fajlova za bliske Web sajtove.
9Podaci za ienje podrazumevaju zadatke kao to su uklanjanje suvinih referenci na
10ugraene objekte, stil fajlovi, grafike ili audio datoteke kao i uklanjanje referenci zbog
11spajder navigacije. Sledei zadatak moe da vri odravanje spiska poznatih spajdera
12koristei heuristiku ili korienjem klasifikacije algoritama za izgradnju modela
13spajder i Web robota navigacije. Takoe, nisu svi zahtevi klijent strana beleeni u
14pristupu log servera. Na strani klijenta ili proxy strani keiranje esto moe dovesti do
15nedostatka referenci te stranice ili objekata koji su keirani. Veina referenci koje
16nedostaju moe se heuristiki zakljuiti kroz proces koji se zove put zavretka koji se
17oslanja na poznavanju strukture sajta i posrednu informaciju sa loga servera. U
18sluaju dinamiki generisane stranice, oblik aplikacije koristeci HTTP post metod
19rezultira u svim ili u delu parametra korisnikog unosa, nije dodata url adresa
20pristupa od strane korisnika, a samim tim ne pojavljuje se ni u logovima servera.
21U korienju Web mining-a neophodno je napraviti razliku izmeu razliitih aktivnosti
22korisnika. U odsustvu mehanizma autentifikacije, est pristup razlikovanja izmeu
23jedinstvenih posetilaca jeste upotreba kolaia na strani klijenta. Meutim, ne
24koriste svi sajtovi kolaie, a zbog privatnosti, na strani klijenata kolaii su
25ponekad onemogueni od strane korisnika. IP adresa sama po sebi generalno je
26nedovoljna za mapiranje logova ulaza za skup jedinstvenih posetilaca. Ovo je uglavnom
27zbog korienja ISP proxy servera koji daju rotirajue IP adrese za klijente dok oni
28pregledaju Web. U takvim sluajevima, mogue je da se preciznije identifikuje
29jedinstveni korisnik putem kombinacija IP adrese i drugih informacija kao sto su
30korisniki agenti i referisanja.
31Pod predpostavkom da jedinstvene evidencije korisnika mogu biti identifikovane,
32podrazumevamo da niz prijavljenih aktivnosti pripadaju istom korisniku kao
33korisniku log aktivnosti. Sesionizacija je proces segmentacije korisnikih aktivnosti
34logovanja svakog korisnika u sesijama, svaki predstavlja jednu posetu na sajtu.
35Web sajtovi bez korienja dodatnih informacija autentifikacije korisnika i bez
36mehanizama kao to su ugraene IDS sesije, se moraju oslanjati na heuristike
37metode za sesioniranje. Cilj heuristikog sesioniranja je rekonstrukcija, od
38clickstream podataka, stvarnog niza radnji jednog korisnika u toku jedne posete
39sajta. Generalno heuristika sesionizacija se deli na dve osnovne kategorije:
40vremenski orjentisane ili strukturno orjentisane. Vremenski orjentisani primenjuju ili
41globalno ili lokalno vreme procena da se napravi razlika izmeu uzastopnih sesija,
42dok strukturalna orjentisanost koristi statistiki strukture sajta ili implicitno
43povezivanje struktura iz logova servera. Razne heuristike za sesionizaciju su
44indetifikovane i prouavane.
45Posle osnovnog koraka clickstream procesuiranja, podaci iz razlicitih drugih izvora
46moraju biti integrisani. Integracija sadraja, strukture i korisnikih podataka u raznim
2 -
1515
1

1fazama procesa korienja Web mining-a mogu biti od sutinskog znaaja u


2pruanju mogunosti za dalju analizu i razlog otkrivanja obrazca. Na primer,
3integracija semantikih znanja iz sadraja sajta ili semantike osobine proizvoda mogu
4se koristiti od strane personalizacije sistema da bi pruio vie korisnikih
5preporuka. U e-commerce aplikacijama, integracija oba kupca i podataka
6proizvoda (npr. Demografije, ocene, istorije kupovine) iz operativne baze podataka sa
7upotrebom podataka mogu dozvoljavati otkrivanje vanih pokazatelja poslovne
8inteligencije kao to su ocene konverzacije klijenata i vrednosti ivota. Upotreba
9strukture podataka je neophodna tokom preprocesuiranja (Na primer, u identifikaciji
10prikaza stranice, sesonizaciji i u putanji zavretka). Ali se takoe moe koristiti za
11poboljanje rezultata modela na bazi personalizacije tehnike
12D i r e k t n i izvor semantikih znanja koja se mogu integrisati u mining proces je
13kolekcija sadraja koja je u vezi sa stavkama ili prikazima stranica na Web sajtu. Ove
14karakteristike obuhvataju kljune reci, fraze, kategorije imena ili specifine atribute
15u vezi sa stvarima ili proizvodima kao sto je cena, marka itd. Sadraj
16preprocesuiranja ukljuuje ekstrakciju relevantnih karakteristika iz teksta i meta
17podataka.

18 6 TEHNIKE I ALATI OTKRIVANJA PATERNA U WEB MINING-U


19Tipovi i nivoi analize korieni na integrisanim podacima zavise od primarnih
20ciljeva analitiara i eljenih izlaza. Ova sekcija opisuje najee tipove otkrivanja
21paterna i analize koji se koriste kod Web mining-a i koji su predstavljeni na slici 11.
12
22Osnovni tipovi analize koji se javljaju kod Web usage mining-a su :
23Analiza sesija i korisnika (Session and Visitor Analysis)
24Asocijativna i korelativna analiza (Association and Corelation Analysis) Klasterovanje
25i segmentacija korisnika (Cluster Analysis and Visitor
26Segmentation)
27Analiza sekvencijalnih i navigacionih paterna (Analysis of Sequential and
28Navigational Patterns)
29Klasifikacija i modeliranje korisnika (Web user modeling classification)

30 Analiza sesija i korisnika


31Statistika analiza preprocesiranih sesija konstituie uobiajenu formu analize. U
32ovom sluaju, podaci su agregirani po predefinisanim jedinicama, kao to su dani,
33sesije, posetioci, ili domeni. Standardne statistike tehnike mogu biti koriene na ovim
34podacima da se dobije znanje o ponaanju korisnika. Ovo je pristup preuzet od
35najkomercijalnijih alata koji su dostupni za analizu Web logova. Izvetaji bazirani na
36ovom tipu analize mogu ukljuivati informacije o najee pristupanim stranama,
37prosenom vremenu zadravanja na stranici, prosenoj putanji kroz sajt, najeim
38ulaznim i izlaznim takama, i o ostalim agregatnim merama. Uprkos nedostatku
39dubine u ovakvoj vrsti analize, rezultujue znanje potencijalno moe bti korisno za
40poboljanje performansi sistema i radi pruanja podrke marketinkom odluivanju.
41Nadalje, komercijalni Web alati analitike u velikoj meri inkorporiraju razne data
42mining algoritme i time rezultuju sofisticiranijim sajtovima i korisnikom metrikom.

2 -
1616
1

1Druga forma analize integrisanih podataka je OLAP. OLAP prua bolje integrisan okvir
2za analizu sa veim nivom fleksibilnosti. Izvori podataka za OLAP analize su najee
3multidimenzionalni Data Warehouse ili u sluaju Web mining-a modifikovani Data
4Warehouse (Data Webhouse), koji integriu korienje, sadraj i podatke e-commerc
5sajtova na razliitim nivoima agregacije za svaku dimenziju. OLAP alati
6dozvoljavaju promene u agregacionim nivoima po svakoj dimenziji tokom analize.
7Dimenzije analize u takvoj strukturi mogu biti bazirane na razliitim poljima koja su
8dostupna u log fajlovima i mogu ukljuivati vremensko trajanje, domen, zahtevani
9resurs, browser korisnka, reference, itd. Ovo omoguava da analiza bude izvrena na
10delovima loga koji je povezan sa odreenim vremenskim intervalom ili na viem
11nivou abstrakcije sa odgovarajuom strukturom URL putanje. Izlazi OLAP upita
12mogu takoe biti korieni kao ulaz za razne data mining tehnike ili alate za
13vizualizaciju.

14 6.2 Asocijativna i korelativna analiza


15Otkrie asocijativnih pravila i statistika korelativna analiza na podacima o korienju
16Web-a rezultuje otkrivanjem grupa proizvoda koji se kupuju zajedno ili stranica kojima
17se najee pristupa. Ovo, omoguava kompanijama koje vre online prodaju da
18organizuju sadraj sajta efikasnije ili da predloe neke efektnije kombinovane rasprodaje
19(prodaje).
20Algoritam za otkrivanje asocijativnih pravila pronalazi grupe proizvoda koje se esto
21pojavljuju zajedno u mnogim transakcijama (uvek se postavlja neki prag koji mora da
22se pree pri zakljuivanju). Postoje dva osnovna koraka algoritma za otkrivanje
23asocijativnih pravila. Prvi korak je raunski intenzivniji i osnovni cilj je da se otkriju
24frequent itemsets. Drugi korak algoritma ima za cilj generisanje pravila na
25osnovu frequent itemsets iz prethodnog koraka. Ilustracija algoritma je prikazana na
26slici 4

27
28 Slika 4 - Prikaz dvo-koranog algoritma za generisanje asocijativnih pravila
29Radi boljeg pojanjenja principa algoritma prvo e biti objanjeni odreeni pojmovi koji
30se koriste i koji su od izuzetnog znaaja za sam algoritam.
31Itemset predstavlja kolekciju predmeta (stavki). Svaka stavka je vrednost atributa. Na
32primer u kupovnoj korpi, itemset sadri kolekciju proizvoda kao to su kolai, Pepsi i
33mleko. Kod istraivanja demografskih karakteristika kupca, itemset sadri kolekciju
34atributa kao to su {Pol = Muki, Obrazovanje= Bachelor}. Svaki itemset ima
35takoe i veliinu, koja predstavlja broj stavki koje sadri. Na primer veliina
36itemset-a {Kolai, Pepsi, Mleko} je 3.
37Frequent itemsets - su oni itemset koji su relativno zastupljeni u dataset-u. Prag
38zastupljenosti za itemset se definie korienjem parametra support koji je dalje
39objanjen.

2 -
1717
1

1Support se koristi da meri zastupljenost nekog itemset-a. Support nekog itemseta {A,
2B} je dobijen preko ukupnog broja transakcija koje sadre i A i B.
3Support ({A, B}) = Broj transakcija (A, B)
4Minimum Support - je prag parametar koji treba odrediti pre izvravanja
5asocijativnog modeliranja. On nam govori da smo zainteresovani samo za one
6itemsets i pravila koja zadovoljavaju bar minimalan support u postojecem
7datasetu. Parametar Minimum_Support se koristi da ogranii itemsets, ali ne i
8Probability (Confidence) je svojstvo asocijativnog pravila. Probability pravila
9AB je izraunato korienjem supporta itemseta {A, B}podeljenog sa support-om
10{A}. Probability se takoe naziva confidence u data mining istraivakom
11drutvu. Definie se na sledei nain:

12Probability (A => B) = Probability (B|A) = Support (A, B)/ Support (A)

13Minimum_Probability je prag parametar koji se mora odrediti pre pokretanja algoritma.

14Oznaava da je korisnik zainteresovan samo za ona pravila koja imaju visoku

15probability pre nego minimalnu probability. Minimum_Probability nema uticaja na

16itemsets, ali ima uticaja na pravila.


17Importance - koja se u literaturi naziva interesting score ili lift se koristi za procenu
18itemsets i pravila. Importance nekog itemseta je definisana korienjem sledee
19formule:
20Importance ({A,B}) = Probability (A, B)/ (Probability (A)* Probability (B))
21Ako je importance = 1, A i B su nezavisni items, to u prevodu znai da kupovina
22proizvoda A i kupovina proizvoda B su dva nezavisna dogaaja. Ako je importance < 1,
23A i B su negativno korelisani (zavisni). To znai ako kupac kupuje proizvod A, vrlo
24retko u istoj transakciji kupuje i proizvod B. Za pravila, importance se izraunava
25primenom sledee formule
26Importance (A => B) = log (p (B|A)/p (B|not A))
27Kada je vrednost importance 0 to znai da nema povezanosti izmeu A i B. Pozitivna
28vrednost importance parametra znai da probability B raste kada je A istinito. Negativna
29importance znai da se probability B smanjuje kada je A istinito.
30Sa slike 4. se jasno vidi da se pre prvog koraka algoritma identifikuju transakcije koje
31se uvaju u operativnoj ili nekoj drugoj bazi nad kojom se vri analiza.
32Postavljanjem parametra minimum_support na odreenu vrednost generiu se
33skupovi frequent itemsets sa odgovarajuim vrednostima support parametra to
34predstavlja prvi korak algoritma generisanja asocijativnih pravila. Na primer iz druge
35tabele se vidi da 3% od svih transakcija sadre pivo i pelene. Drugi korak algoritma je
36otkrivanje asocijativnih pravila. Broj kvalifikovanih asocijativnih pravila je baziran na
37parametru Minimum_Probability. Na primer ukoliko se postavi vrednost parametra
38Minimum_Probability na 30%, to znai da 30% kupaca koji kupi proizvod A takoe
39kupuje i proizvod B, kod pravila AB i to je kvalifikovano pravilo. Sa slike iz tabele
40asocijativnih pravila imamo pravilo pivopelene sa vrednou parametra probability
41od 75%, to znai da 75% onih kupaca koji kupe pivo kupe i pelene. .

2 -
1818
1

1Asocijativna pravila se izraavaju na sledei nain. Asocijativno pravilo r je izraz forme


2X Y ( r, r), gde su X i Y itemsets, je support itemsets X * Y koja
3reprezentuje verovatnou da se X i Y pojave zajedno u transakciji, i je
4confidence za pravilo r, reprezentujui uslovnu verovatnou da se Y pojavljuje u
5transakciji, pod pretpostavkom da se X pojavljuje u toj transakciji. Iz prethodnog

2 -
1919
1

1objanjenja asocijativno pravilo izmeu piva i pelena se moe iskaziti kao


2pivopelene[3%,75%] to znai da 75% kupaca koji kupuju pivo ujedno kupuju i
3pelene, a to ine 3% svih kupaca.
4Asocijativna pravila mogu se takoe iskoristiti za optimizaciju strukture sajta. Na
5primer ukoliko sajt ne prua direktne linkove izmeu dve strane A i B, otkrivanje
6pravila AB moe da indikuje da uspostavljanje direktnog hiperlinka od A do B moe
7pomoi korisnicima da bre i lake nau potrebne informacije. Ako sesiju posmatramo
8kao transakciju, algoritmi mininig-a za generisanje asocijativnih pravila se mogu
9koristiti da otkriju asocijativne relacije izmeu stranica koje se zahtevaju. Na primer
10asocijativno pravilo strana A strana B [5% 80%] govori da 80% korisnika koji
11pogledaju stranicu A e takoe pogledati i stranicu B., a 5% svih korisnika pogleda
12obe stranice.
13Obe asocijativne analize (i sa proizvodima i sa stranicama) i statistika
14korelaciona analiza (uglavnom meu muterijama ili posetiocima) su koriene
15uspeno u Web personalizaciji i sistemima preporuke.

16 6.3 Klasterovanje i segmentacija korisnika


17Klasterovanje je data mining tehnika koja grupie kolekciju objekata koji imaju
18sline karakteristike. U domenu korienja Web-a, postoje dve vrste interesantnih
19klastera koji mogu biti istraeni (otkriveni):
20 Korisniki klaster
21 Klaster stranica.
22Klasterovanje korisnikih zapisa (sesija i transakcija) je jedan od najeih zadataka
23analize u Web mining-u i Web analitici. Klasterovanje korisnika tei da oformi grupe
24korisnika koje ispoljavaju sline paterne "surfovanja". Takvo znanje je specijalno
25korisno za izvoenje demografije korisnika u cilju ostvarivanja segmentacije trita u
26aplikacijama e-commerc ili pri pruanju personalizovanog Web sadraja korisnicima
27sa slinim interesima. Dalje analize korisnikih grupa, bazirane na demografskim
28atributima (kao to su godine, pol, primanja, itd...) mogu voditi otkrivanju
29vanih pravila poslovne inteligencije. Klasterovanje zasnovano na ponaanju se
30takoe moe koristiti za kreiranje Web udruenja korisnika (Web-based user
31communities), koja reflektuju sline interese grupe korisnika, i za otkrivanje modela
32(profila) korisnika koji se mogu koristiti kao dinamike preporuke pri Web
33personalizaciji aplikacija.
34Klasterovanje stranica (objekata) se moe izvoditi, zasnovano na podacima o
35ponaanju (poinjui od korisnikih sesija ili transakcija) ili osobina sadraja
36povezanih sa stranicama ili objektima (kljune rei ili atributi). U sluaju
37klasterovanja zasnovanom na sadraju, rezultat mogu biti kolekcije stranica ili proizvoda
38povezanih sa samom temom ili kategorijom. U klasterovanju zasnovanom na
39ponaanju, objekti kojima se najee pristupa ili koji se najee kupuju zajedno
40moe biti automatski organizovano u grupe. Takoe, moe biti iskorieno za prikaz
41statikih ili dinamikih HTML stranica koje predlau odreene hiperlinkove korisniku u
42zavisnosti od njegove istorije kretanja kroz sajt ili istorije kupovne aktivnosti.

2
1

1 6.4 Analiza sekvencijalnih i navigacionih paterna


2Tehnika otkrivanja sekvencijalnih paterna pokuava da pronae paterne izmeu sesija
3koji govore na primer da prisustvo seta objekata (proizvoda) je praeno nekim
4proizvodom u odreenom intervalu sesija ili epizoda. Koristei ovaj pristup, Web
5marketing eksperti mogu da predvide budue paterne koji e biti od pomoi u kreiranju
6reklamne kampanje za odreenu grupu korisnika. Drugi tipovi privremene analize koji
7se mogu izvoditi kao sekvencijalni paterni ukljuuju analizu trenda i analizu slinosti. U
8kontekstu podataka o ponaanju na Web-u, otkrivanje sekvencijalnih paterna se moe
9koristiti za sakupljanje estih navigacionih putanja meu korisnikim tragovima.
10Shvatanje Web transakcije kao sekvence pageview-ova omoguava upotrebu
11brojnih, korisnih i dobro istraenih modela u otkrivanju i analizi navigacionih
12paterna korisnika. Jedan takav pristup je modelovanje navigacione aktivnosti na Web
13sajtu kao Markov model; svaka stranica (ili kategorija) moe biti reprezentovana kao
14stanje, a tranzicione verovatnoe izmeu ovih stanja mogu prezentovati verovatnou
15da e korisnik prei iz jednog stanja u drugo (najjednostavnije reeno: prei sa jedne
16stranice na drugu!). Ova reprezentacija dozvoljava izraunavanje brojnih korisnih
17korisnikih metrika ili metrika sajta. Na primer jedna moe da izraunava
18verovatnou da e korisnik napraviti kupovinu (porudbinu), na osnovu toga to je
19korisnik izvrio pretragu online kataloga. Markov model je prikazan kao
20fundamentalna mainerija za predvianje linkova dovoljno dobra kao i za
21predvianje Web-a u minimiziranju nesigurnosti sistema. Cilj ovakvog pristupa je
22predvianje sledee korisnikove akcije zasnovane na prethodnom "surfing"
23ponaanju korisnika. Takoe se koriste da otkriju verovatnoe korisnikih
24navigacionih putanja na Web sajtu.
13
25Sofisticiranija statistika tehnika kao to je meavina Markovog modela, je takoe bila
26koriena za klasterovanje navigacionih sekvenci i za izvoenje eksploratorne analize
27navigacionog ponaanja korisnika na Web sajtu.
28Drugi nain efikasnog reprezentovanja navigacionih putanja je ubacivanje svake
29putanje u strukturu stabla (tree structure). Dobro poznat primer ovakvog pristupa je
30ideja agregatnog stabla predstavljenog kao deo WUM (Web Utilization Miner-a)
31sistema. Svaki vor u stablu predstavlja navigacionu podsekvencu u jednoj sesiji.
32Ovaj pristup i njegovi dodaci imaju potvreno korienje u evaluaciji navigacionog
33dizajna sajta.
34

35 13 R. Cooley, B. Mobasher, J. Srivastava: Web Mining: Information and


36 Pattern Discovery on the World Wide Web, Department of computer science
37 and engineering University of Minnesota, Minneapolis, MN 55455, USA 1997

2
1

1
2
3
4
5

6 6.5 Klasifikacija i modeliranje korisnika


7
8
9
10 Klasifikacija je zadatak mapiranja (svrstavanja) podataka (objekata) u jednu
11 od nekoliko predefinisanih klasa. to se tie Web domena, zainteresovani smo za
12 kreiranje ili razvijanje profila korisnika koji pripada odreenoj klasi
13 odnosno kategoriji. Ovo zahteva ekstrakciju i selekciju osobina koje najbolje
14 opisuju karakteristike odreene klase odnosno kategorije. Klasifikacija se moe
15 izvriti primenom algoritama uenja koji se nadgledaju, kao to su tree classifiers,
16 naive Bayesian classifiers, k-nearest neighbor classifiers, neural networks, i
17 suport vector machines. Takoe je mogue koristiti prethodno otkrivene klastere i
18 asocijativna pravila za klasifikaciju novih korisnika.
19
20 Klasifikacione tehnike igraju izuzetno vanu ulogu u analitikim Web
21 aplikacijama za modelovanje korisnika prema raznim predefinisanim metrikama.
22 Na primer za datu kolekciju korisnikih transakcija, suma kupovina za svakog
23 korisnika u odreenom periodu vremena moe biti izraunata. Klasifikacioni model
24 tada moe biti izgraen na osnovu ovih obogaenih podataka u cilju klasifikacije
25 korisnika u one koji imaju veliku sklonost kupovini i na one koji nemaju
26 sklonost kupovini, uzimajui u obzir osobine kao to su korisniki demografski
27 atributi kao i njihove navigacione karakteristike.
28
29 Jo jedna bitna tehnika klasifikacije i modeliranja korisnika u Web domenu
30 jeste Web personalizacija i sistemi za preporuivanje. Na primer aplikacije za
31 filtriranje koje sarauju u postojeim sistemima za preporuku koriste k-nearest
32 neighbor classifiers za predvianje rangiranja korisnika ili kupovnu sklonost merei
33 korelacije izmeu posmatranog korisnika i prethodnih korisnikih
34 transakcija. Mnogi od pristupa Web mining-a o kojima je bilo rei mogu biti
35 korieni za automatsko otkrivanje modela i primenu ovih modela radi
36 obezbeivanja personalizovanog sadraja aktivnim korisnicima.
37
38 Paterni ponaanja otkriveni pomou Web mining-a su efektivni u otkrivanju
39 (pronalaenju) objekat-objekat (proizvod-proizvod) i korisnik-korisnik relacija
40 i slinosti na nivou korisnikih sesija. Ipak, bez doprinosa nekoj dubljoj analizi,
41 takvi paterni bi malo doprinosili fundamentalnim razlozima zbog ega su ti
42 objekti ili korisnici grupisani zajedno. Nadalje, nasledna i poveana
43 heterogenost Web-a zahteva da Web aplikacije efektivnije integriu razliite
44 vrste podataka kroz viestruke kanale i iz razliitih izvora.
45
46 Ipak, fokus na tehnike i arhitekturu za to efektivniju integraciju i
47 mining sadraja, ponaanja, i strukture podataka iz razliitih izvora izgleda
2
1

1 vodi ka sledeoj generaciji vie korisnih i inteligentnijih aplikacija i ka


2 sofisticiranijim alatkama za Web mining koje e izvui inteligenciju iz
3 korisnikih transakcija na Web-u.

2
1

1
2 Mogue je shvatiti neke od semantika sajtova integriui pristup filtriranja
3 sadraja baziranog na kljunim reima sa mining tehnikama. Ipak, u cilju da se
4 shvate i otkriju kompleksnije relacije na viem semantikom nivou zasnovanom na
5 atributima povezanim sa strukturiranim objektima, bilo bi neophodno zakoraiti
6 ispred reprezentacija zasnovanih na kljunim reima i automatski integrisati
7 relacione strukture sa ontologijom domena u preprocesiranju i mining procesu.
8 Napori u ovom pravcu imaju izgleda da budu najplodonosniji u kreiranju efektnijeg
9 Web mining-a, modelovanja korisnika i personalizaciji sistema koji su
10 konzistentni sa pojavljivanjem i irenjem semantikog Web-a.
11
12

13 7 Analiza i alati za analizu otkrivenih paterna


14
15 Paterni koji su otkriveni na Web-u pomou ranije opisanih tehnika, nee
16 biti od velike koristi analitiarima ukoliko ne postoje mehanizmi i alati koji
17 e im pomoi u njihovom boljem razumevanju. Pored razvoja tehnika za
18 otkrivanje korisnih paterna unutar Web logova, postoji i potreba za razvojem
19 tehnika i alata koji omoguavaju analizu otkrivenih paterna. Od ovih tehnika se
20 oekuje statistiko predstavljanje brojnih podataka, korienje grafike,
21 vizualizacija, primena analize ponaanja, kao i korienje upita nad bazama
22 podataka. Analiza ponaanja
23 korisnika prilikom pristupa Web-u je nova oblast istraivanja.14
24
25 Vizualizacija se veoma uspeno koristi u cilju pomaganja korisnicima da
26 razumeju razliite vrste fenomena kako prirodnih, tako i apstraktnih. Dakle, to je
27 prirodan nain za razumevanje ponaanja korisnika Web-a. Pitkow je razvio
28 WebViz sistem za vizualizaciju paterna u pristupu WWW-u. Predloena je i
29 paradigma Web putanja (Web path paradigm) u kojoj je za ekstrakciju
30 podsekvenci u paternima kretanja po Web-u korien skup logova za pristup
31 serveru. WebViz sistem omoguava analitiaru selektivnu analizu dela web-a za
32 koji je zainteresovan, bez obrade delova koji nisu od interesa za analizu. Web je
33 predstavljen kao usmeren graf, pri emu vorovi predstavljaju Web strane, a grane
34 hiperlinkove izmeu strana.
35
36 OLAP (Online Analytical Processing) se pojavio kao snana paradigma za
37 strategijske analize baza podataka u poslovnim okruenjima. Nedavno je
38 pokazano da funkcije i zahtevi koji se stavljaju pred OLAP procesiranje zahtevaju
39 dizajniranje nove informacione strukture. To je prednost razvoja data cube
40 (kocke podataka) informacionog modela i tehnika za njegovu efikasniju
41 implementaciju. Meutim, pokazalo se da analize koje se zahtevaju u postupku
42 Web mining-a imaju mnotvo zajednikih karakteristika sa skladitima podataka,
43 pa su i OLAP tehnike sasvim primenljive. Informacije o korisnikim pristupima
44 u logovima servera su modelirane kao jedna append-only kolekcija, koja
45 raste tokom vremena. Poto veliina logova servera veoma brzo raste, nemogue

2
1

1 je obezbediti njihovu online analizu. Stoga, postoji potreba za sumiranjem podataka


2 unutar logova, na razliite naine, kako bi njihova online analiza postala izvodljiva.
3
4
5 14Cooley, R., Mobasher, B., Srivastava, J.: Data preparation for mining world
wide web browsing patterns,
6
7

8 Journal of Knowledge and Information Systems, 1999

2
1

1
2
3 Kako veliina servera raste prilino brzo, moda nee biti mogue omoguiti
4 online analize svih podataka. Kako bilo, postoji potreba da se sumiraju podaci
5 loga, veoma esto na razliite naine, kako bi se omoguile online analize. Moe
6 se zahtevati za potrebe zatite da se delovi loga uine (ne)vidljivim za razliite
7 analize. Jedan od razloga koji su doprineli velikom uspehu relacionih baza
8 podataka je i postojanje deklarativnog jezika upita koji omoguava aplikaciji
9 da izrazi koji uslovi moraju biti zadovoljeni pre nego to se navede kako se dobijaju
10 zahtevani podaci. Ovo se moe omoguiti na najmanje dva naina, Prvo,
11 konstante se mogu smestiti u baze podataka koje treba pretraivati. Drugo, upiti se
12 mogu izvesti nad znanjem koje je izdvojeno iz procesa mining-a, i u tom sluaju
13 upiti su potrebniji od podataka.
14

15 8 YAHOO! PERSONALIZACIJA
16
17
18 Yahoo je bila jedna od prvih lokacija na Webu za korienje personalizacije
19 velikih razmera. U ovom case study preneu iskustva dizajnera koji su projektovali
20 funkciju personalizacije, dati uvid u probleme Web personalizacije i predloiti
21 ideje za budunost.
22
23 U ovom delu koncetracija je na tri primera personalizacije: My Yahoo!,
24 Yahoo! Companion i Inside Yahoo! Search.
25
26 My Yahoo! (my.yahoo.com) je prilagoena lina kopija Yahoo!
27 Korisnici mogu izabrati iz stotine modula kao to su vesti, berza, vreme i sportski
28 rezultati i staviti ih na jednu ili vie Web strana. Sadraj svakog modula se
29 tada auira automatski, tako da korisnici mogu da vide ono to ele onako kako oni
30 ele. To prua korisnicima najnovije informacije o svakoj temi ali samo sa
31 odreenim stvarima o kojima oni ele da budu informisani. Primer My Yahoo
32 stranice prikazana je na sledecoj slici. Mi emo ovde pomenuti nekoliko optih
33 tema o toj stranici:
34
35 Personalizacija se esto deava unutar modula. Na primer korisnici mogu
36 da izaberu koje TV kanale ele da ukljue u svoj TV vodi u odnosu na to
37 koji kablovski sistem koriste. Ostali moduli su opirniji, na primer
38 zdravstvene vesti.
39
40 Ne samo da je sadraj prilagoen ve se i layout (raspored) moze
41 prilagoditi takoe.
42
43 Neki sadraji se automatski personalizuju. Primer takvog sadraja je
44 sportski modul koji navodi timove iz korisnikog podneblja nakon
45 dobijanja te informacije od korisnika.

2 30
3
1

1
2 My Yahoo opcija omoguava My Yahoo stranici da automatski aurira u bilo
3 kom korisniki odreenom intervalu od 15 minuta do nekoliko sati.
4 Stranica se uvek gradi na on-the-fly podudaranju korisnikih
5 preference sa

2 31
3
1

1
2 dostupnog sadraja. Arhitektura je dovoljno efikasna da bude u stanju da
3 obezbedi servis za milione ljudi sa hiljadu izvora pri hiljadu promena
4 dnevno, koristei relativno mali broj off-the-shelf kompjutera. Arhitektura je
5 potpuno skalabilna. Kako korisnika baza raste jednostavno se dodaje vie
6 hardwara eleminiui potrebu za skupim hardware-skim reenjima.
7
8 Moduli mogu biti izabrani (sa duge) liste, ali takoe mogu biti dodati
9 klikom na dugme sa originalne strane sadraja. Na primer svaka stranica
10 o vremenu (weather.yahoo.com) sadri add to my yahoo! dugme, koje
11 dodaje stranicu direktno u korisnikov My Yahoo nalog. Takoe svaki
12 modul na My Yahoo stranici ima edit i remove dugme, omoguavajui
13 korisnicima da direktno manipulisu svojom stranicom, bez ikakve potrebe
14 da posete edit-layout stranu.
15
16

17 Slika 5 - Primer My Yahoo! strane


18
19 Yahoo! Companion (companion.yahoo.com) je browser toolbar sa koje
20 korisnik moe direktno pristupiti veini Yahoo funckija sa bilo koje stranice
21 na Webu. U izvesnom smislu, to je kao Mini My Yahoo! koji zauzima mali
22 prostor na vrhu stranice i uvek je sa Vama. Izgled toolbara se moe promeniti
23 u bilo kom trenutku, a promene ostaju sa korisnicima ak iako se prebace na drugi
24 kompjuter.
25
26 Odravanje bookmarka je dobar primer upotrebe Yahoo companiona. Za
27 korisnika, interfejs je slian bilo kojoj drugoj funkciji bookmarka, ali razlika je
2 32
3
1

1 u tome to se ovi bookmarkovi uvaju na serveru, tj. oni su dostupni i dosledni bez
2 obzira na raunar koji se koristi. Drugi primer je mogunost da se izabere nekoliko
3 alatki i da se zamene u bilo kom trenutku.

2 33
3
1

1
2
3 Inside Yahoo! Search results. Desetine miliona razliitih upita se alje na
4 yahoo search svakog dana. Nemogue je, naravno, prilagoditi svaku od njih
5 meutim, nekoliko hiljada fraza su dovoljno jasne i Yahoo povezuje sadraj
6 dovoljno dobro da moemo dopuniti uobiajna Web traenja sa direktnim,
7 fokusiranim sadrajem koji ponekad moe biti personalizovan. Na primer, ako
8 neko trai ime filma, ukazae mu se yahoo! Movies, prikazae sliku filma, glumca
9 kao i vreme aktuelne projekcije. Ukoliko korisnik pogleda vreme projekcije i
10 unese potanski broj, ta stranica e se automatski prilagoditi bioskopima u
11 njegovoj okolini. Jednim klikom nakon traenja filma, moe se videti projekcija u
12 neijem okruenju. Na slian nacin, ako je potraga za kineskom hranom bie
13 upuen na yahoo yellom pages i bie prikazana lista kineskih restorana u blizini.
14 Naravno lokacija se moe promeniti u svakom trenutku.
15
16
17
18
19

20 8.1 Oblasti za personalizaciju irih razmera


21
22
23
24 Potencijal skalabilnosti mora biti ugraen u svaku Web personalizaciju
25 proizvoda direktno od poetka. Ljudi oekuju da njihovi kompjuteri komuniciraju
26 sa njima brzo, odugovlaenje udaljava korisnika. Yahoo je uvek bio opsednut
27 brzinom i efikasnou u velikoj meri jer imaju jako veliku bazu korisnika ali takoe
28 jer veruju da je jednostavnost i praktinost najvanija u svakoj
29 personalizovanoj alatki korisnika. Lini podaci o Yahoo korisnicima se odrava
30 u specijalno dizajniranoj user database. Zbog izuzetno visoke stope transakcija
31 Yahoo se nije odluio za korienje komercijalno dostupnih baza podataka ve je
32 izgradio sopstveni prilagoeni software. Dodate su mnogobrojne osobine ovom
33 jezgru UDB kako je njihova baza korisnika rasla, ukljuujui optimizaciju,
34 keiranje, puna suvina mehanizacija komunikacije izmeu UDB i My Yahoo!
35 strane. Takoe su dodali replikaciju podataka i sposobnost distribucije,
36 omoguavajui replikaciju i distribuciju UDB preko sigurnih veza u udaljenim
37 mestima u Aziji i Evropi. Ova ista tehnologija je primenjena lokalno kako bi se
38 omoguio backup u svakom trenutku. Baza korisnika Yahoo-a je toliko masivna, i
39 menja se tako velikom brzinom, da postojei sekundarni backup mehanizmi
40 nisu mogui. Sa naglaskom na pouzdanost, Yahoo je bio primoran da razvije
41 nove tehnologije samo za tu svrhu, i ovo se lepo isplatilo na duge staze.
42
43

44 8.2 Privatnost I bezbednost


45

2 34
3
1

1
2
3 Pitanje privatnosti je suvie veliko da bi se diskutovalo ovde. Ali ipak
4 nijedna diskusija o personalizaciji se ne moe tretirati bez nje. Svaka kompanija
5 koja prikuplja line informacije mora uvati tu informaciju sa svojim
6 (poslovnim) ivotom. To je jako vano. Neogranieno deljenje ovih informacija sa
7 drugim kompanijama ili ak drugim nezavisnim odeljenjima unutar iste
8 kompanije mogu

2 35
3
1

1
2 imati katastrofalne rezultate. Treba biti uvan onoliko koliko i tajne trgovine.
3 Lozinke korisnika se uvek uvaju u ifrovanom obliku, ifriraju se svi
4 osetljivi podaci, uvaju se na mainama sa ogranienim pristupom itd. Takoe se
5 obavljaju bezbednosno revizorske procene i predlau se potrebne promene
6 kao i zapoljavanje nekoliko internih ljudi posveenih iskljuivo pitanju
7 bezbednosti I privatnosti.
8
9 Uvek e postojati tenzija izmeu upotrebe linih podataka radi poboljanja
10 usluga korisnika i upotrebe istih podataka radi profita kompanije. Neophodno je
11 imati ljude sa punim radnim vremenom koji sluze kao ampioni potroaa, koji su
12 potpognuti posmatraima I revizorima.
13
14

15 8.3 Korisniki interfejs


16
17
18
19 Upotrebljivost je idalje najvee tehniko pitanje za personalizaciju
20 velikih razmera. U radu e se razmatrati samo jedan primer: Pitanje predvidljivosti.
21 Bilo je mnogo govora o funkciji personalizacije koja ui ta korisnici ele i
22 pokuava da izgovori. Prilagojenje novine koje istiu samo vesti koje korisnik
23 eli da uje je dobar primer. Glavna slabost ovakvog sistema je njihova
24 nepredvidivost. Veina korisnika oekuje da ima makar intiutivno shvatanje
25 onoga to im je dato i oni oekuju da vide isto dosledno ponaanje. Biti
26 iznenaen je divno ukoliko je potpuno pozitivno iznenaenje, ali sve ukupno, biti
27 nepredvidiv je negativno. Konkretno, ako ljudi nisu sigurni kako neto radi,
28 manje su skloni eksperimentisanju, jer se plae da e pokvariti neto ili doi u
29 stanje u kome nee moi opozvati operaciju. Svaka funkcija personalizacije treba da
30 podstie eksperimetnisanje.
31
32 U sluaju vesti, na primer nije jasno da li ljude ele line vesti jer oni
33 esto ele iste vesti koje svako drugi dobija. Ovo ne znai da line vesti
34 nemaju vrednost. Vesti o nekoj kompaniji ili nekom gradu, kolu, rodbini moe biti
35 izuzetno vredna, ali ovo su direktni primeri nasuprot apstraktnim primerima.
36 Recimo, mone crne kutije su generalno opasne ukoliko su im rezultati
37 intuitivni, dosledni i predvidivi. Dobijanje vremenske prognoze i vesti o
38 lokalnom sportskom timu su oigledni. Dobijanje vesti o raku iz nekih
39 medicinskih casopisa iz prolosti ili traenje nekih medicinskih termina moze da
40 zbuni korisnika u najboljem sluaju, a u najgorem sluaju moze da ugrozi
41 poverenje korisnika i stvori ozbiljnu zabrinutost u privatnost u umu korisnika.
42
43

2 36
3
1

1 8.4 Neka opta zapaanja i naune lekcije


2
3
4
5 Ovde su navedena nekoliko zapaanja i saznanja o Web personalizaciji
6 velikih razmera. Koncetracija je na manje oigledna pitanja vie nego na
7 sveobuhvatna.

2 37
3
1

1
2 Veina korisnika uzme ono to im je dato i nikada ga ne prilagodi svojim
3 potrebama. Jedna od atrakcija Weba je jednostavnost u kojoj se informacije mogu
4 dobiti. U nekim sluajevima, ovo je teta, jer uimo ljude da ulazu premalo napora,
5 imaju suvie kratak raspon panje i idu najlakim rutama. Veoma iznenaujua
6 statistika je da veina aktivnih My Yahoo korisnika ne prilagode svoju stranu. Oni
7 rade sa podrazumevanim (default) vrednostima. Moglo bi biti tri razloga za to:
8
9 1. Standardna strana (default) je tako dobra da nema razloga da se uloi vie
10 napora.
11 2. Alatke za prilagoavanje je toliko teko koristiti da ljudi ne ele time da se
12 zamaraju.
13 3. Mnogim ljudima ne treba sloena personalizacija.
14
15 Odgovor je verovatno kombinacija sva tri odgovora a isto verovatno vai i
16 za veinu drugih personalizacija, ne samo za yahoo.
17
18 Veliki napor se treba uloiti u podrazumevanu stranicu(default page).
19 Oigledan cilj je poboljanje alata za prilagoavanje. Ali poboljanje standardne
20 strane za ljude koji je ne prilagoavaju obino dobija manje panje. Ovo nee biti
21 uvek presudno, Yahoo ulae znaajan napor inei standardnu stranu boljom
22 koliko je mogue. Najbolji primer je upotreba zip kodova (ili drugim kodovima koji
23 pruaju lokaciju). Znajui potanski broj moe se automatski izabrati strana koja
24 prikazuje vremensku prognozu, sportske ekipe, lokalne vesti, lokalne dogaaje,
25 lokalne guve u saobraaju itd.
26
27 Napredni korisnici mogu uiniti neverovatne stvari. Suprotno od
28 korisnika koji ne prilagoavaju svoje strane su iskusni korisnici. esta greka je
29 praviti predpostavke da niko nikada nee eleti da uradi to. My Yahoo!
30 prilagoena strana je vea od 500KB, moe da se skladiti portfolio vei
31 od 200 prilagoavanja. Pre tri godine bi ovo izgledalo besmisleno. Poveavajui
32 napore u pojednostavljivanje interfejsa za prilagoavanje, trudili su se da sauvaju
33 sve sposobnosti My Yahoo! za napredne korisnike. Glavna lekcija ovde (kao i
34 za veinu oblasti Yahoo-a) je da se dizajnira sve za beskonaan rast koliko god
35 je mogue. Nekoristiti vetake granice osim ako je apsolutno neophodno.
36
37 Prilagoavanje bi trebalo da Vas prati koliko god je to mogue. Ukoliko se
38 prijavite za My Yahoo! i kreirate portfolijo deonica, i kasnije idete na
39 podruje trista akcija, taj portfolio je idalje sa Vama. Ukoliko rasporedite
40 vae ikone ili bookmarkove na izvestan nain i prebacite se na drugi raunar ili
41 odete negde iz grada, on ostaje uvek sa vama. uvanje informacija o korisnicima u
42 centralnoj bazi podataka pre nego na raunaru korisnika pomae osobi da vidi iste
43 informacije od kue i sa posla (naravno podrazumeva se da je baza podataka
44 poverljiva i sigurna).
45

2 38
3
1

1 Ljudi obino ne shvataju koncept prilagoavanja. Ono to zvui oigledno


2 istraivacima nije oigledno i za veinu ljudi. Ljudi nisu navikli na raunare
3 koji stvaraju iznenaujue, naizgled inteligentne rezultate. Oni su navikli na
4 statine stvari. Veina ljudi koja vidi My Yahoo! stranicu prvi put misli da je to
5 samo jo jedan nain da se predstavi sadraj i propusti injenicu da korisnik
6 moe da ga

2 39
3
1

1
2 prilagodi. Zato je neophodno da se predstavi svaka alatka za prilagoavanje na
3 najjednostavniji nain korisniku.
4
5 Uvideli smo kako znajui potanski broj moe omoguiti mnoge automatske
6 funkcije prilagoavanja.
7
8 Ali ukoliko je korisniki interfejs tako da potanski broj mora biti
9 uneen, onda e svi ne ameriki korisnici biti odbijeni. Neki Web sajtovi dodaju
10 provere odreenih pravila oko adresa ili broja telefona koja vae samo u SADu, ili
11 predpostavljaju da neko koristi odreeni browser na izvesnom operativnom
12 sistemu i neproverava da li njihov sajt moe biti koristan i za druge koji koriste
13 razliite platforme.
14
15

16 8.5 Uenje od korisnika


17
18
19
20 Bez obzira na to koliko dobro je alat dizajniran za krajnje korisnike, oni
21 e ga koristiti na neoekivan nain. Ovo posebno vai za potpuno nove aplikacije
22 kao i za veinu alata za personalizaciju. Sreom, Web aplikacije su lake za uenje.
23 Yahoo kontstntno gleda logove i gradi specijalne alate kako bi video ne samo
24 brojeve ve i nain korienja promene i neobine dogaaje.
25
26

27 8.6 Zakljuak
28
29
30 Povezivanje ljudi i kompjutera u privatnom smislu je veoma teko. Previe
31 pokuaja je uinjeno bez pravog osvrtaja na to ta ljudi zaista ele, ta mogu da
32 koriste i kako najbolje da odgovara njihovim potrebama. Koliina i najvanije
33 dubina dostupnih linih podataka je neverovatna. To e biti veliki izazov za sve
34 uesnike koji kombinuju poslovanje, tehnologiju i drutvena pitanja da rade na
35 nain koji koriste potroaima a da pritom ne ugroava njihovu privatnost.
36
37 Personalizovane karakteristike su trenutno velika korist naprednim
38 korisnicima onima koji imaju dovoljno samopouzdanja da eksperimentiu sa
39 ovim opcijama i koriste vreme da stvore neto to zaista odraava njihova lina
40 interesovanja. Glavni izazov personalizacije velikih razmera je da se smanji unos
41 podataka, time stvarajui jednostavnije za manje iskusne korisnike da prilagode
42 njihove stranice i napraviti je jasnijom za poetnike kako bi lake uvideli opciju
43 prilagoavanja i personalizacije. Uenje direktno od korisnika ima veliki
44 potencijal ali i velike barijere. Skalabilnost je od sutinskog znaaja. Biti u

2 40
3
1

1 mogunosti da brzo slui milione korisnika, pouzdano i jeftino je veliki deo


2 uspeha.

2 41
3
1

1
2

3 9 ZAKLJUAK
4
5
6
7
8 U ovom radu je predstavljena sveobuhvatna rasprava procesa Web
9 personalizacije posmatrana kao primenom Web mining-a koji mora biti podran
10 tokom razliitih faza tipinog data mining ciklusa. Razgovarano o mnostvu
11 aktivnosti i tehnika koje se koriste u razlicitim fazama ovog ciklusa,
12 ukljuujui preprocesuiranje i integraciju podataka iz vie izvora, i tehnike
13 otkrivanja obrazaca koje se primenjuju na ove podatke. Takoe su predstavljene
14 brojne specifine preporuke algoritama za kombinovanje otkrivenog znanja
15 trenutnih statusa korisnikih aktivnosti na Web sajtu kako bi obezbedio lini
16 sadraj korisnika.
17
18 Kljuni deo procesa personalizacije je generisanje korisnickog modela.
19 Najeci korieni korisniki modeli su jos uvek prilino pojednostavljeni,
20 predstavljajui korisnika kao vektor ocene ili korienim setom kljunih rei. ak
21 i tamo gde su multidimenzionalne ili ontoloske informacije dostupne, podaci su
22 generalno mapirani u jednoj korisnikoj stavki koja je pogodnija za veinu
23 podataka i tehnika masinskog uenja. Kako bi se obezbedila najkorisnija i
24 efikasnija preporuka, personalizovani sistemi treba da ugrade izraajnije modele.
25 Neke od rasprava o integraciji semantickog znanja i ontologije u mining procesu
26 ukazuju na to su neki koraci napravljeni u tom pravcu.
27
28 Jos jedan vaan i teak izazov je modelovanje u korisnikom kontekstu.
29 Posebno profili koji se najee koriste danas manjkaju u sposobnosti da
30 modeliraju korisniki kontekst i dinamiku. Korisnici mogu pristupiti
31 razliitim stavkama iz razliitih razloga i pod razliitim kontekstima. Modeliranje
32 konteksta i upotrebe u okviru preporuke generacija treba se dodatno istraziti.
33 Takoe, korisniki interesi i potrebe se menjaju sa vremenom.
34 Indentifikovanje ovih promena i prilagoavanje je kljuni cilj personalizacije.
35 Meutim veoma malo istraivanja je potroeno u evoluciju korisnikih
36 ponaanja tokom vremena i njihovog uticaja na preporuke. Ovo je delom
37 zbog kompromisa izmeu ekspresivnosti profila i skalabilnosti u pogledu broja
38 aktivnih korisnika.
39
40 Reenja za ove vazne izazove e verovatno dovesti do stvaranja nove
41 generacije efikasnije i korisnije Web personalizacije i preporuenih sistema koji
42 mogu biti rasporeeni u vise sloenom Web okruenju.

2 42
3
1

1
2
3

4 10 LITERATURA
5
6
7 [1] Sandro Araya, Mariano Silva, Richard Weber, A methodology for
8 web usage mining and its application to target group identification, Elsevier B.V.
9 2004
10
11 [2] R. Cooley, B. Mobasher, J. Srivastava: Web Mining: Information
12 and Pattern Discovery on the World Wide Web, Department of computer science
13 and engineering University of Minnesota, Minneapolis, MN 55455, USA 1997
14
15 [3] Baoyao Zhou, Siu Cheung Hui, and Alvis C. M. Fong, Web Usage
16 Mining for Semantic Web Personalization, School of Computer Engineering,
17 Nanyang Technological University, Singapore, 2004
18
19 [4] Mobasher, B. Web usage mining and personalization. In Singh, M.P.,
20 ed.: Practical Handbook of Internet Computing. CRC Press 2005
21
22 [5] Cooley, R., Mobasher, B., Srivastava, J.: Data preparation for
23 mining world wide web browsing patterns, Journal of Knowledge and
24 Information Systems, 1999
25
26 [6] Srivastava, J., Cooley, R., Deshpande, M., Tan, P.: Web usage mining:
27 Discovery and applications of usage patterns from web data, Department of
28 Computer Science and Engineering, University of Minnesota 1999
29
30 [7] Kohavi, R., Provost, F. Applications of data mining to
31 electronic commerce. Data Mining and Knowledge Discovery, 2001
32
33 [8] Pazzani, M., Billsus, D. Learning and revising user profiles:
34 The identification of interesting web sites, 1997
35

36
37
38 Online izvori:
39
40 [9] http://en.wikipedia.org/wiki/W eb_personalization
41
42 [10] http://en.wikipedia.org/wiki/W eb_usage_mining
43
44 [11] http://en.wikipedia.org/wiki/Data_mining
45
46 [12] http://en.wikipedia.org/wiki/Naive_Bayes_classifier
47
48 [13] http://www.igi-global.com/viewtitlesample.aspx?id=10785
2 43
3

You might also like