Professional Documents
Culture Documents
BJMKMMN NM NNM MN
BJMKMMN NM NNM MN
Postoje i skupovi samostalnih dokumenata od kojih svaki ima svoje metapodatke. Moze
se kreirati agregacija ovih samostalnih dokumenata koja ima sopstvene metapodatke.
Ova agregacija dokumenata moze, ali ne mora, da poseduje sopstveni dokument.
Takodje, postoje i situacije kada skup samostalnih dokumenata ima svoje metapodatke
koji opisuju svrhu skupa, kao I sadrzanih dokumenata u skupu.
Konkurentno vazenje verzija podrazumeva da vise razliciitih verzija moze biti operativno
u jednom trenutku. Nova verzija ne zamenjuje automatski prethodnu u smislu vazenja,
odnosno verzija ostaje vazeca sve do eksplicitnog povlacenja verzije.
Povlacenje verzije predstavlja izmene u metapodacima, ali ne i u sadrzaju dokumenta.
Metapodaci vezani za povlacenje verzije obuhvataju:
veze izmeu verzija - zamenjuje/zamenjen sa,
verzije na koje se utice povlacenjem,
opis sta je ucinjeno,
opis kada je izmena nacinjena.
f) Arhiviranje je naredna faza u zivotnom ciklusu dokumenta i predstavlja premestanje
dokumenta (verzije, metapodataka) u kompaktniju nepromenljivu formu. Arhiviranje se
radi da se ispune ugovorne/zakonske obaveze, na primer rok cuvanja. Potrebno je
obezbediti kontrolisani pristup arhivi i mogucnost reprodukcije dokumenata. Potrebno je
spreciti mogucnost izmena dokumenata koji su arhivirani. Arhiva je baza znanja zbog
cega je potrebno obezbediti pretrazivanje arhive digitalnih dokumenata.
Metapodaci vezani za arhiviranje obuhvataju
prava pristupa / nivo poverljivosti
koriscene hardverske i softverske komponente
korisceni postupci za arhiviranje i kompresiju
korisceni postupci za kriptografsku zastitu
digitalni potpisi
vremenski ciklus osvezavanja podataka (za magnetne medije)
istorija izmena na fizickim nosiocima podataka
istorija izmena na formatu podataka
fizicka lokacija skladisnog medija
fizicka lokacija rezervne kopije
dnevnik pristupa arhiviranom dokumentu
SRU protokol je XML orijentisani naslednik Z39.50 protokola. Nastao je kao pokusaj da se
premosti jaz koji je nastao izmedku klasicne klijent-server implementacije koja se koristi
u specifikaciji Z39.50 protokola i standarda koji su se razvili i postali siroko prihvaceni
ekspanzijom Interneta. Za transport podataka SRU koristi XML dokumente, a za
specifikaciju upita koristi se CQL (eng. Contextual Query Language). Posto je SRU nastao
sa ciljem da obezbedi istu funkcionalnost kao i Z39.50, vecina mehanizama i mogucnosti
koje pruza Z39.50 preslikana je i na SRU protokol. Kljucni napredak je sto se za
komunikaciju u SRU protokolu koriste otvoreni i siroko prihvaceni standardi.
16. Koja je razlika između pronalaženja podataka (data retrieval) i pronalaženja informacija
(information retrieval)?
Data retrieval se bavi pronalazenjem podataka koji zadovoljavaju
precizno definisan kriterijum pri cemu se ocekuje od korisnika
da poznaje strukturu podataka u bazi koju pretrazuje.
Nekada je pronalazenje informacija bila oblast koja je bila interesantna samo za oblast
bibliotekarstva. Ulaskom u digitalno doba, razvojem IKT i razvojem veba, oblast
pronalazenja informacija dobija na popularnosti.
Pri ovoj podeli ne misli se na nacin skladistenja digitalnih sadrzaja koji se pretrazuju, nego
na nacin skladistenja indeksa koji se koriste prilikom pretrage i na nacin obrade upita.
19. Koje vrste sadržaja mogu biti pretraživane putem sistema za pretragu?
Oblast pronalazenja informacija je razvojem IKT dobila i novu namenu, ova oblast se vise
ne bavi samo tekstualnim dokumentima.
Prema sadrzajima u kolekciji koji se pretrazuju imamo sledecu podelu:
pretraga tekstualnih sadrzaja:
o nestrukturiranih sadrzaja,
o strukturiranih tekstualnih sadrzaja koji iako imaju strukturu u nekim poljima
svoje strukture imaju velike kolicine tekstova,
Pretraga linkovanih tekstualnih sadrzaja (pretraga veba),
Pretraga multimedijalnih sadrzaja: ukljucuje sliku, zvuk, video.
Pretraga ostalih vrsta sadrzaja:
o kolekcija programskih izvornih kodova,
o kolekcija 3D objekata,
o itd.
20. Koji modeli za pretraživanje se koriste u sistemima za pretragu?
Sistemi za pretrazivanje shodno svojoj nameni i svojim sadrzajima mogu biti izgradjeni na
razlicitim modelima pretrazivanja:
Klasicni modeli :
o Bulov model,
o Vektorski model,
o Probabilisticki model,
Alternativni modeli :
o Prosireni Bulov model,
o Fuzzy model,
o Model neuronske mreze,
o Jezicki model.
Bulov model pretrazivanja je zasnovan na teoriji skupova i Bulovoj algebri. Trazeni pojam
se ili nalazi ili ne nalazi u dokumentu. Ovaj model je imao najvecu popularnost u 20. Veku
zbog svoje jednostavnosti. Kako je kolicina sadrzaja u sistemima rasla, tako je jedna
velika mana ovog modela sve vise dolazila do izrazaja. Velika mana je sto ovaj model
nema mogucnost rangiranja rezultata, odnosno stepen slaganja upita i dokumenta je
binarna vrednost. Dakle, nema parcijalnog poklapanja upita i dokumenta, dokument je ili
relevantan (ocena relevantnosti je 1) ili nije relevantan (ocena relevantnosti je 0).
Vektorski model pretrazivanja pokusava da prevazidje problem koji ima Bulov model
tako sto uvodi da je stepen slaganja upita i dokumenta vrednost koja je veca ili jednaka
nuli, ali nije celobrojna. Na osnovu ovako definisanog stepena slaganja moze se vrsiti
rangiranje rezultata, jer stepen slaganja podrzava parcijalno poklapanje upita i
dokumenta. Model je zasnovan na vektorima u n-dimenzionalnom prostoru, pri cemu je
broj dimenzija prostora obicno jako veliki. Ugao koji zaklapaju vektori upita i dokumenta
je obrnuto srazmeran relevantnosti dokumenta za po stavljeni upit.
Kao ulaz pretprocesiranje teksta ima odredjeni tekst (ili upit), a kao izlaz daje listu
termova koje je potrebno dodati (ili pronaci) u listi pojava u indeksu za pretrazivanje.
Svaki token jeste kandidat za stavku u listi pojava, ali zavisno od pravila pretprocesiranja
teksta neki ce se tokeni pojaviti u listi pojava, a neki ne. U svakom slucaju prvi korak je
ustanoviti listu tokena, odnosno tokenizacija teksta.
Velika slova
Stop reci - Eliminacija stop reci je ranije bila uobicajena u klasicnim sistemima za
pretrazivanje, ali kako su se povecali memorijski kapaciteti i procesorske moci
racunara danas imamo sisteme za pretrazivanje koje ne izbacuju stop reci.
Soundex algoritam se cesto koriste u jezicima kod kojih ne vazi pravilo citaj kao sto je
napisano.
24. Šta je to steming?
Zbog problema oko implementacije lematizacije cesto se u sistemima za pretrazivanje
koristi steming (eng. stemming). Steming je grubi heuristicki proces koji odseca krajeve
reci sa ciljem da postigne rezultat sto slicniji onome koji postice pravilna lematizacija
bazirana na lingvistickom znanju. Steming je deo procesa normalizacije teksta, cesto se
ocekuje da su pre steminga prebacena velika u mala slova, izbacene stop reci. . .Takodje,
apostrofi i znaci interpunkcije obicno ne stizu do stemera. Dobijeni niz znakova se zove
stem koji ne mora biti rec koja postoji u jeziku, ne mora biti lema, odnosno koren (eng.
root) pocetne reci. Dakle, stem moze biti nesto sto ne postoji u jeziku, bitno je samo da
steming povecava performanse sistema za pretrazivanje.
Steming moze biti zasnovan na algoritmu ili na recniku. Steming zasnovan na algoritmu je
definisan skupom pravila, konvencija i definisanjem redosleda njihove primene.
Prvi korak ovog algoritma moze biti prilicno komplikovan I od kvaliteta implementacije
pretprocesiranja teksta i upita umnogome zavisi kvalitet dobijene liste rezultata pretrage.
Naredna cetiri koraka ovog algoritma su trivijalna za implementaciju, a izracunavanje
preseka dve liste pojava umnogome odredjujeefikasnost, odnosno brzinu procesiranja
upita.
Pozicioni indeks se moze koristiti i za blizinsku pretragu. Npr. imamo upit pretraga /3
metapodatak koji ima sledece znacenje: pronai sve dokumente koji sadrze pretraga i
metapodatak na rastojanju od najvise tri reci.
tf-idf tezina je zavisna od terma i od dokumenta, odnosno tf-idf tezinu mozemo dodeliti
svakom termu t za svaki dokument d. Ova tezina raste sa brojem pojavljivanja terma u
dokumentu I sa retkoscu terma u kolekciji. To je upravo ono sto smo zeleli da
postignemo.
Field (polje) je deo dokumenta. Svako polje ima tri dela: ime, vrstu i vrednost. Vrednosti
mogu biti tekst (String, Reader ili pre-analizirani TokenStream), binarni (bajt []) ili
numerički (broj).
49. Navesti osnovne karakteristike upitnog jezika Lucene-a.
Upit je podeljen na uslove i operatere. Postoje dve vrste izraza: Pojedinačni termini i
fraze.
Pojedinačni izraz je jedna reč, kao što je "test" ili "hello".
Fraza je grupa reči okruženih dvostrukim navodnicima kao što je "hello world".
Višestruki izrazi mogu biti kombinovani zajedno sa Boolean operaterima kako bi se
napravio složeniji upit.