Professional Documents
Culture Documents
Kozjak Arabija
Kozjak Arabija
Kozjak Arabija
1
2 DRAVNI UNIVERZITET U NOVOM PAZARU
3 Departman za tehnike nauke
5 Seminarski rad
8Mentor Kandidat
9Prof. Dr Predrag Osmokrovi Rifat Ljajic
10 Novi Pazar, 2015
1
2 Predmet istraivanja
3U ovom radu predstavljen je sveobuhvatan pregled data mining pristupa
4personalizaciji. Fokusiramo je pre svega na upotrebu Web mining-a gde je cilj da se
5iskoriste podaci koji su prikupljeni kao rezultat korisnike interakcije sa Web- om,
6kako bi saznali model korisnika i koristili ove modele za personalizaciju. Pruena
7je detaljna diskusija aktivnosti hosta data mining-a neophodnih za ovaj proces,
8ukljuujui preprocesuiranje i integraciju podataka iz vise izvora, zajednicki patern
9otkrivanja tehnike koje se primenjuju na ove podatke kako bi se izvukao agregat
10korisnikog modela i preporuka algoritama za kombinovanje otkrivenog znanja
11trenutnog statusa korisnika aktivnosti na nekoj Web lokaciji uz lini sadraj.
2 - 22 -
1
1 Metoda deskripcije
2 Komparativna metoda
3 Metoda analize
4 Metoda sinteze
5Metoda deskripcije, definisana kao postupak jednostavnog opisivanja ili ocrtavanja
6injenica, procesa ili predmeta, te njihovih empirijskih potvrdjivanja odnosa i veza,
7ali bez naunog tumaenja i objanjavanja, je koriena kroz ceo rad.
8Komparativna metoda, koja podrazumeva uporeivanje istih ili srodnih injenica,
9pojava, procesa i odnosa, odnosno utvrivanja njihove slinosti u ponaanju i
10intezitetu kao i razlika meu njima.
11Metoda analize, je postupak naunog istraivanja i objanjavanja stvarnosti putem
12ralanjivanja sloenih misaonih tvorevina (pojmova, sudova i zakljuaka) na njihove
13jednostavnije delove i elemente, kao i izraunavanje svakog dela (elementa) za sebe i u
14odnosu na druge delove, celine.
15Metoda sinteze, je suprotna metoda od analize koja se takoe primenjivala u izradi
16rada
17 UVOD
18Krajnji cilj svakog korisnikog sistema je da obezbedi korisnicima ono to im treba bez
19eksplicitnih pitanja. Automatska personalizacija je glavna tehnologija koja se
20koristi u takvim sistemima. U kontekstu Weba, personalizacija podrazumeva
21isporuku dinamikih sadraja kao sto su tekstualni elementi, linkovi, reklame,
22preporuke o proizvodu itd, koji su prilagoeni potrebama i interesima odreenih
23korisnika ili grupe korisnika. Automatska personalizacija se razlikuje od
24prilagoavanja. I prilagoavanje i personalizacija se odnose na isporuku sadraja
25koji je prilagoen odreenom korisniku. Ono sto razdvaja ova dva pojma je ko
26kontrolie kreiranje korisnikih profila kao i prezentaciju interfesa korisnika. U
27prilagoavanju, korisnici samostalno (esto runo) odreuju svoje preferencije ili
28zahteve, na osnovu ega stvaraju interfejs. Automatska personalizacija, sa druge strane,
29podrazumeva stvaranje korisinikih profila i potencijalno auriranje automatskih
30sistema sa minimalnom eksplicitnom kontrolom od strane korisnika. Primer za
31automatsku personalizaciju u komercijalnim sistemima ukljuuju personalizovane
32preporuke www.amazon.com , muziku ili listu preporuka, i razne vrste filtriranja
33agenata koji su danas dostupni.
34Tradicionalni pristupi automatskoj personalizaciji su zasnovani na sadraju, saradnji i
35pravilima filtriranja sistema. Svaki od ovih pristupa se razlikuje po specifinom tipu
36prikupljanja podataka za izradu profila drugih korisnika, kao i odreenoj vrsti
37algoritamskih pristupa radi pruanja personalizovanih sadraja. Generalno, proces
38personalizacije se sastoji od prikupljanja podataka, faze u kojoj se dobijaju informacije
39koje se odnose na interese korisnika i fazu uenja u kojoj su korisniki profili
40izgraeni od prikupljenih podataka. Uenja na osnovu podataka se mogu svrstati u
41uenja na osnovu memorije (takoe poznat kao lazy) i model baziran na uenju u
42zavisnosti od toga da li je uenje online dok sistem obavlja personalizaciju zadatka ili
43offline korienjem prikupljenih podataka. Standardno korisniko kolaborativno
44filtriranje i veina sadraja zasnovana na sistemu za filtriranje koji koriste lazy
45algoritme uenja su primeri memorije zasnovane na personalizaciji.
2 - 33 -
1
33 Data mining
34Data mining je najvaniji proizvod iz familije Business Intelligence proizvoda,
35ija je svrha pronalaenje skrivenih obrazaca u podacima, poveavanje njihove
36upotrebljivosti i transformacija tih podataka u korisno znanje.
37Postoji nekoliko definicija Data mininga. Data mining se moe definisati kao proces
38pronalaenja skrivenih zakonitosti i veza meu podacima. To je tehnika
39pretraivanja podataka u cilju identifikacije traenih uzoraka i njihovih meusobnih
40relacija. Jednostavno reeno, data mining je postupak izdvajanja interesantnih,
41novih i potencijalno korisnih informacija ili uzoraka, sadranih u velikim bazama
42podataka, a sve u cilju donoenja ispravnih poslovnih odluka.
2 - 44 -
1
8
2
Slika 1 Proces otkrivanja znanja
9Osnovni cilj data mininga jeste otkrivanje do sada nepoznatih odnosa izmeu
10podataka. Analizom ogromnih baza podataka, upotrebom data mininga definiemo
11relacije, obrasce ili forme ponaanja, neophodne za odluivanje I predvianje.
12Prilikom same pretrage podataka data mining softver pomae analitiaru da rei
3
13neke od sledeih problema :
14Klasifikacija - analiziraju se skupovi podataka, otkrivaju skrivene veze i utvruju
15elementi ( funkcije ) za njihovo grupisanje u jednu od nekoliko klasa.
16Asocijacija podataka utvruju se osobine koje se javljaju zajedno kod vie uzoraka,
17odnosno veze meu proizvoljnim atributima. Npr koji se proizvodi kupuju
18zajedno u jednoj kupovini.
19Grupisanje ( Klastering ) proces odreivanja grupa podataka koji su
20meusobno slini, ali razliiti od ostalih grupa podataka. Pri tome se indentifikuju i
21promenljive po kojima se vri najbolje grupisanje.
22Predvianje ( Numeric prediction ) otkriva se ponaanje objekta
23posmatranja tokom vremena, i vre se predvianja. Utvruju se pravilnosti iz primera
24i na osnovu toga odreuju oekivane numerike vrednosti.
2 - 55 -
1
2 - 66 -
1
1Relationship Management) aplikacije mogu imati data mining osobine koje grupie
2kupce u segmente, ERP (Enterprise Resource Planning) aplikacije mogu imati data
3mining osobine koje im koriste da predvide obim proizvodnje. On-line knjiara
4moe dati potencijalnim kupcima preporuke knjiga. Integrisanje data mining osobina,
5pogotovo komponente za predvianje u aplikacije jedan je od bitnijih koraka data
6mining projekta. Ovo je kljuni korak za uvoenje data mining-a u masovnu upotrebu.
78) Upravljanje modelom Odravanje statusa data mining modela predstavlja pravi
8izazov. Svaki data mining model ima svoj ivotni ciklus. U nekim oblastima
9primene obrasci su relativno stabilni i modeli ne zahtevaju uestalo ponovno
10treniranje modela. Ali u mnogim oblastima obrasci se menjaju esto. Trajanje
11jednog data mining modela je ogranieno. Nova verzija modela se mora praviti
12esto. Odreivanje preciznosti modela i kreiranje novih verzija ovog modela bi trebalo
13biti postignuto korienjem automatizovanih procesa.
33 Pristupi personalizaciji
34Sa arhitektonske i algoritamske take gledita u personalizaciju sistema spadaju tri
35osnovne kategorije: sistem baziran na pravilima, sadraj za filtriranje sistema i
36kolabarativni sistem za filtriranje. Primarni focus u ovom poglavlju je model
37baziran na kolabarativnom pristupu filtriranja u kojoj su modeli naueni kroz razliite
38data mining tehnike.
2 - 77 -
1
1ulaz istoriske ocene ili navigacionih profila prolosti korisnika i generiu ukupni model
2korisnika. Korisnik modela, za uzvrat, moe da se koristi zajedno sa profilom aktivnog
3korisnika, da bi predvideo budue ponaanje korisnika ili generisao preporuke.
2 -
1212
1
2 -
1414
1
11
1 Slika 2 - Koraci u pripremi podataka za korienje Web mininga
2Podaci fuzije se odnose na spajanje logova fajla sa nekoliko Web i aplikacionih servera.
3Ovo moe zahtevati globalnu sinhronizaciju preko ovih servera. U odsustvu
4zajednikih ugraenih IDS sesija, heuristikih metoda zasnovanih na
5upuivanju polja unosa loga servera, zajedno sa razliitim sesijama i metodama
6indetifikacije korisnika moe se koristiti za obavljanje objedinjavanja. Ovaj korak je od
7sutinskog znaaja za inter-site korienje Web mining-a, gde se analiza ponaanja
8korisnika vri preko log fajlova za bliske Web sajtove.
9Podaci za ienje podrazumevaju zadatke kao to su uklanjanje suvinih referenci na
10ugraene objekte, stil fajlovi, grafike ili audio datoteke kao i uklanjanje referenci zbog
11spajder navigacije. Sledei zadatak moe da vri odravanje spiska poznatih spajdera
12koristei heuristiku ili korienjem klasifikacije algoritama za izgradnju modela
13spajder i Web robota navigacije. Takoe, nisu svi zahtevi klijent strana beleeni u
14pristupu log servera. Na strani klijenta ili proxy strani keiranje esto moe dovesti do
15nedostatka referenci te stranice ili objekata koji su keirani. Veina referenci koje
16nedostaju moe se heuristiki zakljuiti kroz proces koji se zove put zavretka koji se
17oslanja na poznavanju strukture sajta i posrednu informaciju sa loga servera. U
18sluaju dinamiki generisane stranice, oblik aplikacije koristeci HTTP post metod
19rezultira u svim ili u delu parametra korisnikog unosa, nije dodata url adresa
20pristupa od strane korisnika, a samim tim ne pojavljuje se ni u logovima servera.
21U korienju Web mining-a neophodno je napraviti razliku izmeu razliitih aktivnosti
22korisnika. U odsustvu mehanizma autentifikacije, est pristup razlikovanja izmeu
23jedinstvenih posetilaca jeste upotreba kolaia na strani klijenta. Meutim, ne
24koriste svi sajtovi kolaie, a zbog privatnosti, na strani klijenata kolaii su
25ponekad onemogueni od strane korisnika. IP adresa sama po sebi generalno je
26nedovoljna za mapiranje logova ulaza za skup jedinstvenih posetilaca. Ovo je uglavnom
27zbog korienja ISP proxy servera koji daju rotirajue IP adrese za klijente dok oni
28pregledaju Web. U takvim sluajevima, mogue je da se preciznije identifikuje
29jedinstveni korisnik putem kombinacija IP adrese i drugih informacija kao sto su
30korisniki agenti i referisanja.
31Pod predpostavkom da jedinstvene evidencije korisnika mogu biti identifikovane,
32podrazumevamo da niz prijavljenih aktivnosti pripadaju istom korisniku kao
33korisniku log aktivnosti. Sesionizacija je proces segmentacije korisnikih aktivnosti
34logovanja svakog korisnika u sesijama, svaki predstavlja jednu posetu na sajtu.
35Web sajtovi bez korienja dodatnih informacija autentifikacije korisnika i bez
36mehanizama kao to su ugraene IDS sesije, se moraju oslanjati na heuristike
37metode za sesioniranje. Cilj heuristikog sesioniranja je rekonstrukcija, od
38clickstream podataka, stvarnog niza radnji jednog korisnika u toku jedne posete
39sajta. Generalno heuristika sesionizacija se deli na dve osnovne kategorije:
40vremenski orjentisane ili strukturno orjentisane. Vremenski orjentisani primenjuju ili
41globalno ili lokalno vreme procena da se napravi razlika izmeu uzastopnih sesija,
42dok strukturalna orjentisanost koristi statistiki strukture sajta ili implicitno
43povezivanje struktura iz logova servera. Razne heuristike za sesionizaciju su
44indetifikovane i prouavane.
45Posle osnovnog koraka clickstream procesuiranja, podaci iz razlicitih drugih izvora
46moraju biti integrisani. Integracija sadraja, strukture i korisnikih podataka u raznim
2 -
1515
1
2 -
1616
1
1Druga forma analize integrisanih podataka je OLAP. OLAP prua bolje integrisan okvir
2za analizu sa veim nivom fleksibilnosti. Izvori podataka za OLAP analize su najee
3multidimenzionalni Data Warehouse ili u sluaju Web mining-a modifikovani Data
4Warehouse (Data Webhouse), koji integriu korienje, sadraj i podatke e-commerc
5sajtova na razliitim nivoima agregacije za svaku dimenziju. OLAP alati
6dozvoljavaju promene u agregacionim nivoima po svakoj dimenziji tokom analize.
7Dimenzije analize u takvoj strukturi mogu biti bazirane na razliitim poljima koja su
8dostupna u log fajlovima i mogu ukljuivati vremensko trajanje, domen, zahtevani
9resurs, browser korisnka, reference, itd. Ovo omoguava da analiza bude izvrena na
10delovima loga koji je povezan sa odreenim vremenskim intervalom ili na viem
11nivou abstrakcije sa odgovarajuom strukturom URL putanje. Izlazi OLAP upita
12mogu takoe biti korieni kao ulaz za razne data mining tehnike ili alate za
13vizualizaciju.
27
28 Slika 4 - Prikaz dvo-koranog algoritma za generisanje asocijativnih pravila
29Radi boljeg pojanjenja principa algoritma prvo e biti objanjeni odreeni pojmovi koji
30se koriste i koji su od izuzetnog znaaja za sam algoritam.
31Itemset predstavlja kolekciju predmeta (stavki). Svaka stavka je vrednost atributa. Na
32primer u kupovnoj korpi, itemset sadri kolekciju proizvoda kao to su kolai, Pepsi i
33mleko. Kod istraivanja demografskih karakteristika kupca, itemset sadri kolekciju
34atributa kao to su {Pol = Muki, Obrazovanje= Bachelor}. Svaki itemset ima
35takoe i veliinu, koja predstavlja broj stavki koje sadri. Na primer veliina
36itemset-a {Kolai, Pepsi, Mleko} je 3.
37Frequent itemsets - su oni itemset koji su relativno zastupljeni u dataset-u. Prag
38zastupljenosti za itemset se definie korienjem parametra support koji je dalje
39objanjen.
2 -
1717
1
1Support se koristi da meri zastupljenost nekog itemset-a. Support nekog itemseta {A,
2B} je dobijen preko ukupnog broja transakcija koje sadre i A i B.
3Support ({A, B}) = Broj transakcija (A, B)
4Minimum Support - je prag parametar koji treba odrediti pre izvravanja
5asocijativnog modeliranja. On nam govori da smo zainteresovani samo za one
6itemsets i pravila koja zadovoljavaju bar minimalan support u postojecem
7datasetu. Parametar Minimum_Support se koristi da ogranii itemsets, ali ne i
8Probability (Confidence) je svojstvo asocijativnog pravila. Probability pravila
9AB je izraunato korienjem supporta itemseta {A, B}podeljenog sa support-om
10{A}. Probability se takoe naziva confidence u data mining istraivakom
11drutvu. Definie se na sledei nain:
2 -
1818
1
2 -
1919
1
2
1
2
1
1
2
3
4
5
2
1
1
2 Mogue je shvatiti neke od semantika sajtova integriui pristup filtriranja
3 sadraja baziranog na kljunim reima sa mining tehnikama. Ipak, u cilju da se
4 shvate i otkriju kompleksnije relacije na viem semantikom nivou zasnovanom na
5 atributima povezanim sa strukturiranim objektima, bilo bi neophodno zakoraiti
6 ispred reprezentacija zasnovanih na kljunim reima i automatski integrisati
7 relacione strukture sa ontologijom domena u preprocesiranju i mining procesu.
8 Napori u ovom pravcu imaju izgleda da budu najplodonosniji u kreiranju efektnijeg
9 Web mining-a, modelovanja korisnika i personalizaciji sistema koji su
10 konzistentni sa pojavljivanjem i irenjem semantikog Web-a.
11
12
2
1
2
1
1
2
3 Kako veliina servera raste prilino brzo, moda nee biti mogue omoguiti
4 online analize svih podataka. Kako bilo, postoji potreba da se sumiraju podaci
5 loga, veoma esto na razliite naine, kako bi se omoguile online analize. Moe
6 se zahtevati za potrebe zatite da se delovi loga uine (ne)vidljivim za razliite
7 analize. Jedan od razloga koji su doprineli velikom uspehu relacionih baza
8 podataka je i postojanje deklarativnog jezika upita koji omoguava aplikaciji
9 da izrazi koji uslovi moraju biti zadovoljeni pre nego to se navede kako se dobijaju
10 zahtevani podaci. Ovo se moe omoguiti na najmanje dva naina, Prvo,
11 konstante se mogu smestiti u baze podataka koje treba pretraivati. Drugo, upiti se
12 mogu izvesti nad znanjem koje je izdvojeno iz procesa mining-a, i u tom sluaju
13 upiti su potrebniji od podataka.
14
15 8 YAHOO! PERSONALIZACIJA
16
17
18 Yahoo je bila jedna od prvih lokacija na Webu za korienje personalizacije
19 velikih razmera. U ovom case study preneu iskustva dizajnera koji su projektovali
20 funkciju personalizacije, dati uvid u probleme Web personalizacije i predloiti
21 ideje za budunost.
22
23 U ovom delu koncetracija je na tri primera personalizacije: My Yahoo!,
24 Yahoo! Companion i Inside Yahoo! Search.
25
26 My Yahoo! (my.yahoo.com) je prilagoena lina kopija Yahoo!
27 Korisnici mogu izabrati iz stotine modula kao to su vesti, berza, vreme i sportski
28 rezultati i staviti ih na jednu ili vie Web strana. Sadraj svakog modula se
29 tada auira automatski, tako da korisnici mogu da vide ono to ele onako kako oni
30 ele. To prua korisnicima najnovije informacije o svakoj temi ali samo sa
31 odreenim stvarima o kojima oni ele da budu informisani. Primer My Yahoo
32 stranice prikazana je na sledecoj slici. Mi emo ovde pomenuti nekoliko optih
33 tema o toj stranici:
34
35 Personalizacija se esto deava unutar modula. Na primer korisnici mogu
36 da izaberu koje TV kanale ele da ukljue u svoj TV vodi u odnosu na to
37 koji kablovski sistem koriste. Ostali moduli su opirniji, na primer
38 zdravstvene vesti.
39
40 Ne samo da je sadraj prilagoen ve se i layout (raspored) moze
41 prilagoditi takoe.
42
43 Neki sadraji se automatski personalizuju. Primer takvog sadraja je
44 sportski modul koji navodi timove iz korisnikog podneblja nakon
45 dobijanja te informacije od korisnika.
2 30
3
1
1
2 My Yahoo opcija omoguava My Yahoo stranici da automatski aurira u bilo
3 kom korisniki odreenom intervalu od 15 minuta do nekoliko sati.
4 Stranica se uvek gradi na on-the-fly podudaranju korisnikih
5 preference sa
2 31
3
1
1
2 dostupnog sadraja. Arhitektura je dovoljno efikasna da bude u stanju da
3 obezbedi servis za milione ljudi sa hiljadu izvora pri hiljadu promena
4 dnevno, koristei relativno mali broj off-the-shelf kompjutera. Arhitektura je
5 potpuno skalabilna. Kako korisnika baza raste jednostavno se dodaje vie
6 hardwara eleminiui potrebu za skupim hardware-skim reenjima.
7
8 Moduli mogu biti izabrani (sa duge) liste, ali takoe mogu biti dodati
9 klikom na dugme sa originalne strane sadraja. Na primer svaka stranica
10 o vremenu (weather.yahoo.com) sadri add to my yahoo! dugme, koje
11 dodaje stranicu direktno u korisnikov My Yahoo nalog. Takoe svaki
12 modul na My Yahoo stranici ima edit i remove dugme, omoguavajui
13 korisnicima da direktno manipulisu svojom stranicom, bez ikakve potrebe
14 da posete edit-layout stranu.
15
16
1 u tome to se ovi bookmarkovi uvaju na serveru, tj. oni su dostupni i dosledni bez
2 obzira na raunar koji se koristi. Drugi primer je mogunost da se izabere nekoliko
3 alatki i da se zamene u bilo kom trenutku.
2 33
3
1
1
2
3 Inside Yahoo! Search results. Desetine miliona razliitih upita se alje na
4 yahoo search svakog dana. Nemogue je, naravno, prilagoditi svaku od njih
5 meutim, nekoliko hiljada fraza su dovoljno jasne i Yahoo povezuje sadraj
6 dovoljno dobro da moemo dopuniti uobiajna Web traenja sa direktnim,
7 fokusiranim sadrajem koji ponekad moe biti personalizovan. Na primer, ako
8 neko trai ime filma, ukazae mu se yahoo! Movies, prikazae sliku filma, glumca
9 kao i vreme aktuelne projekcije. Ukoliko korisnik pogleda vreme projekcije i
10 unese potanski broj, ta stranica e se automatski prilagoditi bioskopima u
11 njegovoj okolini. Jednim klikom nakon traenja filma, moe se videti projekcija u
12 neijem okruenju. Na slian nacin, ako je potraga za kineskom hranom bie
13 upuen na yahoo yellom pages i bie prikazana lista kineskih restorana u blizini.
14 Naravno lokacija se moe promeniti u svakom trenutku.
15
16
17
18
19
2 34
3
1
1
2
3 Pitanje privatnosti je suvie veliko da bi se diskutovalo ovde. Ali ipak
4 nijedna diskusija o personalizaciji se ne moe tretirati bez nje. Svaka kompanija
5 koja prikuplja line informacije mora uvati tu informaciju sa svojim
6 (poslovnim) ivotom. To je jako vano. Neogranieno deljenje ovih informacija sa
7 drugim kompanijama ili ak drugim nezavisnim odeljenjima unutar iste
8 kompanije mogu
2 35
3
1
1
2 imati katastrofalne rezultate. Treba biti uvan onoliko koliko i tajne trgovine.
3 Lozinke korisnika se uvek uvaju u ifrovanom obliku, ifriraju se svi
4 osetljivi podaci, uvaju se na mainama sa ogranienim pristupom itd. Takoe se
5 obavljaju bezbednosno revizorske procene i predlau se potrebne promene
6 kao i zapoljavanje nekoliko internih ljudi posveenih iskljuivo pitanju
7 bezbednosti I privatnosti.
8
9 Uvek e postojati tenzija izmeu upotrebe linih podataka radi poboljanja
10 usluga korisnika i upotrebe istih podataka radi profita kompanije. Neophodno je
11 imati ljude sa punim radnim vremenom koji sluze kao ampioni potroaa, koji su
12 potpognuti posmatraima I revizorima.
13
14
2 36
3
1
2 37
3
1
1
2 Veina korisnika uzme ono to im je dato i nikada ga ne prilagodi svojim
3 potrebama. Jedna od atrakcija Weba je jednostavnost u kojoj se informacije mogu
4 dobiti. U nekim sluajevima, ovo je teta, jer uimo ljude da ulazu premalo napora,
5 imaju suvie kratak raspon panje i idu najlakim rutama. Veoma iznenaujua
6 statistika je da veina aktivnih My Yahoo korisnika ne prilagode svoju stranu. Oni
7 rade sa podrazumevanim (default) vrednostima. Moglo bi biti tri razloga za to:
8
9 1. Standardna strana (default) je tako dobra da nema razloga da se uloi vie
10 napora.
11 2. Alatke za prilagoavanje je toliko teko koristiti da ljudi ne ele time da se
12 zamaraju.
13 3. Mnogim ljudima ne treba sloena personalizacija.
14
15 Odgovor je verovatno kombinacija sva tri odgovora a isto verovatno vai i
16 za veinu drugih personalizacija, ne samo za yahoo.
17
18 Veliki napor se treba uloiti u podrazumevanu stranicu(default page).
19 Oigledan cilj je poboljanje alata za prilagoavanje. Ali poboljanje standardne
20 strane za ljude koji je ne prilagoavaju obino dobija manje panje. Ovo nee biti
21 uvek presudno, Yahoo ulae znaajan napor inei standardnu stranu boljom
22 koliko je mogue. Najbolji primer je upotreba zip kodova (ili drugim kodovima koji
23 pruaju lokaciju). Znajui potanski broj moe se automatski izabrati strana koja
24 prikazuje vremensku prognozu, sportske ekipe, lokalne vesti, lokalne dogaaje,
25 lokalne guve u saobraaju itd.
26
27 Napredni korisnici mogu uiniti neverovatne stvari. Suprotno od
28 korisnika koji ne prilagoavaju svoje strane su iskusni korisnici. esta greka je
29 praviti predpostavke da niko nikada nee eleti da uradi to. My Yahoo!
30 prilagoena strana je vea od 500KB, moe da se skladiti portfolio vei
31 od 200 prilagoavanja. Pre tri godine bi ovo izgledalo besmisleno. Poveavajui
32 napore u pojednostavljivanje interfejsa za prilagoavanje, trudili su se da sauvaju
33 sve sposobnosti My Yahoo! za napredne korisnike. Glavna lekcija ovde (kao i
34 za veinu oblasti Yahoo-a) je da se dizajnira sve za beskonaan rast koliko god
35 je mogue. Nekoristiti vetake granice osim ako je apsolutno neophodno.
36
37 Prilagoavanje bi trebalo da Vas prati koliko god je to mogue. Ukoliko se
38 prijavite za My Yahoo! i kreirate portfolijo deonica, i kasnije idete na
39 podruje trista akcija, taj portfolio je idalje sa Vama. Ukoliko rasporedite
40 vae ikone ili bookmarkove na izvestan nain i prebacite se na drugi raunar ili
41 odete negde iz grada, on ostaje uvek sa vama. uvanje informacija o korisnicima u
42 centralnoj bazi podataka pre nego na raunaru korisnika pomae osobi da vidi iste
43 informacije od kue i sa posla (naravno podrazumeva se da je baza podataka
44 poverljiva i sigurna).
45
2 38
3
1
2 39
3
1
1
2 prilagodi. Zato je neophodno da se predstavi svaka alatka za prilagoavanje na
3 najjednostavniji nain korisniku.
4
5 Uvideli smo kako znajui potanski broj moe omoguiti mnoge automatske
6 funkcije prilagoavanja.
7
8 Ali ukoliko je korisniki interfejs tako da potanski broj mora biti
9 uneen, onda e svi ne ameriki korisnici biti odbijeni. Neki Web sajtovi dodaju
10 provere odreenih pravila oko adresa ili broja telefona koja vae samo u SADu, ili
11 predpostavljaju da neko koristi odreeni browser na izvesnom operativnom
12 sistemu i neproverava da li njihov sajt moe biti koristan i za druge koji koriste
13 razliite platforme.
14
15
27 8.6 Zakljuak
28
29
30 Povezivanje ljudi i kompjutera u privatnom smislu je veoma teko. Previe
31 pokuaja je uinjeno bez pravog osvrtaja na to ta ljudi zaista ele, ta mogu da
32 koriste i kako najbolje da odgovara njihovim potrebama. Koliina i najvanije
33 dubina dostupnih linih podataka je neverovatna. To e biti veliki izazov za sve
34 uesnike koji kombinuju poslovanje, tehnologiju i drutvena pitanja da rade na
35 nain koji koriste potroaima a da pritom ne ugroava njihovu privatnost.
36
37 Personalizovane karakteristike su trenutno velika korist naprednim
38 korisnicima onima koji imaju dovoljno samopouzdanja da eksperimentiu sa
39 ovim opcijama i koriste vreme da stvore neto to zaista odraava njihova lina
40 interesovanja. Glavni izazov personalizacije velikih razmera je da se smanji unos
41 podataka, time stvarajui jednostavnije za manje iskusne korisnike da prilagode
42 njihove stranice i napraviti je jasnijom za poetnike kako bi lake uvideli opciju
43 prilagoavanja i personalizacije. Uenje direktno od korisnika ima veliki
44 potencijal ali i velike barijere. Skalabilnost je od sutinskog znaaja. Biti u
2 40
3
1
2 41
3
1
1
2
3 9 ZAKLJUAK
4
5
6
7
8 U ovom radu je predstavljena sveobuhvatna rasprava procesa Web
9 personalizacije posmatrana kao primenom Web mining-a koji mora biti podran
10 tokom razliitih faza tipinog data mining ciklusa. Razgovarano o mnostvu
11 aktivnosti i tehnika koje se koriste u razlicitim fazama ovog ciklusa,
12 ukljuujui preprocesuiranje i integraciju podataka iz vie izvora, i tehnike
13 otkrivanja obrazaca koje se primenjuju na ove podatke. Takoe su predstavljene
14 brojne specifine preporuke algoritama za kombinovanje otkrivenog znanja
15 trenutnih statusa korisnikih aktivnosti na Web sajtu kako bi obezbedio lini
16 sadraj korisnika.
17
18 Kljuni deo procesa personalizacije je generisanje korisnickog modela.
19 Najeci korieni korisniki modeli su jos uvek prilino pojednostavljeni,
20 predstavljajui korisnika kao vektor ocene ili korienim setom kljunih rei. ak
21 i tamo gde su multidimenzionalne ili ontoloske informacije dostupne, podaci su
22 generalno mapirani u jednoj korisnikoj stavki koja je pogodnija za veinu
23 podataka i tehnika masinskog uenja. Kako bi se obezbedila najkorisnija i
24 efikasnija preporuka, personalizovani sistemi treba da ugrade izraajnije modele.
25 Neke od rasprava o integraciji semantickog znanja i ontologije u mining procesu
26 ukazuju na to su neki koraci napravljeni u tom pravcu.
27
28 Jos jedan vaan i teak izazov je modelovanje u korisnikom kontekstu.
29 Posebno profili koji se najee koriste danas manjkaju u sposobnosti da
30 modeliraju korisniki kontekst i dinamiku. Korisnici mogu pristupiti
31 razliitim stavkama iz razliitih razloga i pod razliitim kontekstima. Modeliranje
32 konteksta i upotrebe u okviru preporuke generacija treba se dodatno istraziti.
33 Takoe, korisniki interesi i potrebe se menjaju sa vremenom.
34 Indentifikovanje ovih promena i prilagoavanje je kljuni cilj personalizacije.
35 Meutim veoma malo istraivanja je potroeno u evoluciju korisnikih
36 ponaanja tokom vremena i njihovog uticaja na preporuke. Ovo je delom
37 zbog kompromisa izmeu ekspresivnosti profila i skalabilnosti u pogledu broja
38 aktivnih korisnika.
39
40 Reenja za ove vazne izazove e verovatno dovesti do stvaranja nove
41 generacije efikasnije i korisnije Web personalizacije i preporuenih sistema koji
42 mogu biti rasporeeni u vise sloenom Web okruenju.
2 42
3
1
1
2
3
4 10 LITERATURA
5
6
7 [1] Sandro Araya, Mariano Silva, Richard Weber, A methodology for
8 web usage mining and its application to target group identification, Elsevier B.V.
9 2004
10
11 [2] R. Cooley, B. Mobasher, J. Srivastava: Web Mining: Information
12 and Pattern Discovery on the World Wide Web, Department of computer science
13 and engineering University of Minnesota, Minneapolis, MN 55455, USA 1997
14
15 [3] Baoyao Zhou, Siu Cheung Hui, and Alvis C. M. Fong, Web Usage
16 Mining for Semantic Web Personalization, School of Computer Engineering,
17 Nanyang Technological University, Singapore, 2004
18
19 [4] Mobasher, B. Web usage mining and personalization. In Singh, M.P.,
20 ed.: Practical Handbook of Internet Computing. CRC Press 2005
21
22 [5] Cooley, R., Mobasher, B., Srivastava, J.: Data preparation for
23 mining world wide web browsing patterns, Journal of Knowledge and
24 Information Systems, 1999
25
26 [6] Srivastava, J., Cooley, R., Deshpande, M., Tan, P.: Web usage mining:
27 Discovery and applications of usage patterns from web data, Department of
28 Computer Science and Engineering, University of Minnesota 1999
29
30 [7] Kohavi, R., Provost, F. Applications of data mining to
31 electronic commerce. Data Mining and Knowledge Discovery, 2001
32
33 [8] Pazzani, M., Billsus, D. Learning and revising user profiles:
34 The identification of interesting web sites, 1997
35
36
37
38 Online izvori:
39
40 [9] http://en.wikipedia.org/wiki/W eb_personalization
41
42 [10] http://en.wikipedia.org/wiki/W eb_usage_mining
43
44 [11] http://en.wikipedia.org/wiki/Data_mining
45
46 [12] http://en.wikipedia.org/wiki/Naive_Bayes_classifier
47
48 [13] http://www.igi-global.com/viewtitlesample.aspx?id=10785
2 43
3