Professional Documents
Culture Documents
UIR 6 Trazilice Ppt-1
UIR 6 Trazilice Ppt-1
Web crawler raunalni program koji pretrauje WWW na metodolki automatiziran nain
(mrav, automatski indekser, web spider, web robot, web skuter)
Kreiraju kopije posjeenih stranica za kasnije indeksiranje pomou search engine-a koji e
indeksirati skinute stranice za kasnija pretraivanja. Koriste se takoer za prikupljanje
specifinih tipova informacija kao to su e-mail adrese (na koje mogu poslati razliiti spam)
To je jedna vrsta softverskog agenta; naelno zapoinje s listom URL-a (sjemenje). Kada je
crawler posjetio URL, identificirao je hiperveze na stranici dodao ih u listu URL-a (crawl
frontier) koje se rekurzivno posjeuju prema skupu postavljenih politika.
Politike
Crawling je zahtjevan zadatak zbog:
Broja URLa i velikog obujma crawleri mogu skidati samo dio (frakciju) web stranice u
danom vremenu i moraju definirati prioritete
Brzine kojom se sadraji mijenjaju crawler uzima stranicu u momentu kad je ona
raspoloiva i vrlo je vjerojatno da e se u njoj neto ubzo mijenjati
Dinamike prirode promjena na web stranicama server side scripting utie na dinamike
promjene sadraja stranice to predstavlja dodatnu potekou u definiranju broja
parametara koji e se koristiti za pretraivanje (nain sortiranja, vrsta prikaza, format
datoteke, korisniki parametri....)
Dodatni problem: irina pristupnog pojasa (odreuje brzinu veze) odreuje takoer stopu
osvjeenja i efikasan nain pretraivanja u ogranienom vremenskom periodu
vanot stranice je funkcija njoj svojstvene kvalitete popularnosti i broja posjeta ili
domene; problem ne moe se znati unaprijed. Pretraivanje prvo u irinu pa u
dubinu (Ako je pretraivaje prvo u dubinu vertikalne trailice)
Restrikcije na linkove koji e se slijediti (pr. Samo na .html, .asp, .php...)
Put k traenom pojmu
Fokusirani crawling
Duboki crawling pretraivanje pojmova ne samo u naslovu i zaglavljima ve bilo
gdjeu tekstu (
(BYTESEARCH (http://www.bytesearch.com)
DOGPILE (http://www.dogpile.com) - brojni pretraivai, Usenet, ima jednostavno i sloeno pretraivanje, Boole
INFERENCE FIND (http://www.inference.com/ifind)
INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana pretraivanja, omoguava odreivanje
kategorije unutar koje se pretrauje (poduzetnitvo, raunala, obrazovanje, sport)
MAMMA (http://www.mamma.com)
METACRAWLER (http://www.go2net.com/search.html) - izvrstan za dobivanje brzog odgovora
PROFUSION (http://www.profusion.com)
SAVVYSEARCH (http://www.savvysearch.com)
regionalni (Regional Search Engines) - pretraivai za razne drave i regije. Glavne su kategorije
pretraivaa svrstane po kontinentima pa zatim po dravama;
- pretraivai novosti (News Search Engines) - slube tih pretraivaa daju iznimno dobre rezultate
pretraivanja kurentnih dogoaja, jer pretrauju relevantna Web mjesta dnevno;
- djeji (Kids Search Engines) - slube djejih pretraivaa dizajnirane su prvenstveno za potrebe djece
bilo u fokusiranju bilo u filtriranju mjesta koja bi bila nepodobna za djecu;
BYTESEARCH (http://www.bytesearch.com)
DOGPILE (http://www.dogpile.com) - brojni pretraivai, Usenet, ima
jednostavno i sloeno pretraivanje, Boole
INFERENCE FIND (http://www.inference.com/ifind)
INTERNET SLEUTH (http://www.isleuth.com) - izvrstan za specijalizirana
pretraivanja, omoguava odreivanje kategorije unutar koje se
pretrauje (poduzetnitvo, raunala, obrazovanje, sport)
MAMMA (http://www.mamma.com)
METACRAWLER (http://www.go2net.com/search.html) - izvrstan za
dobivanje brzog odgovora
PROFUSION (http://www.profusion.com)
SAVVYSEARCH (http://www.savvysearch.com)
http://www.googleguide.com/web_address.html
http://www.googleguide.com/web_address.h
tml
http://prelog.chem.pmf.hr/~tezak/preinin/pr
einin/vje21I.html