Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

1. Koji su ciljevi pretraivanja informacija?

a) pronai sve vane (relevantne) informacije(dokumente) za traenu temu potpun obuhvat,


b) pronai samo relevantne informacije za zadani upit potpuna preciznost,
c) rangirati pronaene informacije po vanosti (relevantnosti) rang.
Rezultati pretraivanja razliito su vani, oni lee na kontinuiranoj skali i teko je odrediti tonu
granicu vano/nevano.

2. Mjere pretraivanja navedi i objasni:


a+b = relevantni objekti, b+c = pronaeni objekti. obuhvat = b/(a+b), preciznost = b/(b+c)
Raspon njihovih vrijednosti je 0,0-1,0 ili 0-100%
Mjere pretraivanja su Obuhvat i preciznost:
-Kriva je pretpostavka da se pretraivanjem dobiva:
a) potpun obuhvat (sve relevantno je pronaeno, a= prazan skup),
b) potpuna preciznost (sve pronaeno je relevantno, c= prazan skup).
-Praksa pokazuje da su mjere kontradiktorne: ako se jedna poveava, druga se smanjuje.
-Zahtjevi kvalitetnog pretraivanja (u praksi): visok obuhvat, to vea preciznost bez rtvovanja
obuhvata.
-Ako se pronaeni dokumenti rangiraju po relevantnosti, preciznost varira o broju ispisanih
dokumenata (pr. Ako je prvih 10 dokumenata relevantno, a sljedeih 10 nerelevantno: Preciznost je
100% u prvih 10 dokumenata, i 50 % u prvih 20 dokumenata).
-Preciznost na n dokumenata je stvarni broj relevantnih u odnosu na broj ispisanih dokumenata
(hitlist).
-Prosjena preciznost je suma preciznosti za svaki relevantni ispisani dokument (hitlist) podijeljena
s ukupnim brojem relevantnih dokumenata u kolekciji.

3. Moe li se izraunati obuhvat na pretraivanju weba?


Praksa na webu: dobar obuhvat ali loa preciznost.
Obuhvat i preciznost FORMULE: obuhvat = b/(a+b), preciznost = b/(b+c).

4. Metode pretraivanja informacija nabroji i objasni:


Pretraivanje po rijeima.
Rije opisuje koncept ili pojam (engl. term).
Pretraivanje se temelji na tehnikama uparivanja i brojanja pojmova u dokumentu, nedostaju
modeli za stvarno opisivanje sadraja teksta (za konceptualno pretraivanje).
metode pretraivanja informacija:
a)Metode Booleovog pretraivanja - Informacijska potreba se opisuje upitom, koji se sastoji od rijei
povezanih Booleovim (logikim) operatorima I (AND), OR (ILI), NE (NOT)
b)Modeli vektorskog prostora - Koristi se matematiki pojam vektora. U vektor ulaze pojmovi: rijei ili
fraze (izriaji).
c)Probabilistiki modeli - dokumente rangiraju prema vjerojatnosti relevantnosti u odnosu na
postavljeni upit. Modeli (ima ih vie) razliito procjenjuju tu vjerojatnost.
d)Metode modifikacije upita
e)Ostale metode: klasteriranje = pretpostavka da su dokumenti u klasteru slini (sline relevantnosti
za korisnika), obrada prirodnog jezika.

5. Booleovo pretraivanje /Booleovi operatori AND i OR:


Informacijska potreba se opisuje upitom, koji se sastoji od rijei povezanih Booleovim (logikim)
operatorima I (AND), OR (ILI), NE (NOT) Informacijski AND (sustav OR sistem).
Ako dokument odgovara upitu, dokument je pronaen selekcija: NE (0) ili DA (1). Pronaeni
dokumenti nisu rangirani, jer ne postoji mjera slinosti upita i dokumenta. Potrebno je umijee
dobrog formuliranja upita. Mnogi profesionalni korisnici ga koriste iako je slabije od metoda s
rangiranjem dokumenata. Primjer: baza dokumenata EconLit.
I (and) pronalaenje lanka u kojima se pojavljuju 2 od navedenih rijei
ILI (or) ili samo jedna rije od pon rijei, ili istovremeno obje

6. Model vektorskog prostora / vektorsko pretraivanje:


Modeli vektorskog prostora:
-Koristi se matematiki pojam vektora
-U vektor ulaze pojmovi: rijei ili fraze (izriaji)
-Svaki pojam (rije) postaje dimenzijom u vektorskom prostoru, vektori se smatraju neovisnim
(ortogonalnim)
-Bilo koji tekst se reprezentira vektorom
-Ako tekst sadri pojam (rije), dobiva ne-nula vrijednost u dimenziji kojoj pojam pripada
-Kako svaki tekst ima ogranien skup pojmova (rijei), a vokabular moe imati i milijun pojmova,
veina vektora je slabo popunjena.
- Pr. Vokabular ima 10 rijei: ekonomska, drutvena, tehnika, prirodna, znanost, jest, nije, nikako,
pripada, uvijek. Dokument ima sljedei tekst:Ekonomska znanost jest drutvena znanost.Vektor
dokumenta:{1,1,0,0,1,1,0,0,0,0}).

Pretraivanje u modelu vektorskog prostora:


Popis pojmova (rijei) po kojima se pretrauje tvori vektor upita Q. Izraunava se udaljenost izmeu
vektora upita Q i vektora svakog dokumenta u bazi dokumenata. Ispisuju se dokumenti ija je
udaljenost od upita manja od zadanog praga P. Dokumenti se rangiraju po relevantnosti (najprije se
ispisuju relevantni dokumenti, blii upitu).
*Kosinus (kosinusna udaljenost, korelacija) dvaju vektora. * Kosinus ima svojstvo da vrijednost 1,0
imaju identini vektori, a 0,0 imaju ortogonalni (potpuno razliiti) vektori.

7. Latentno semantiko indeksiranje (pretraivanje) (Latent Semantic Indexing, LSI):


a) Obino pretraivanje po rijeima: dokument sadri traenu rije ili ne (nema sredine).
b) LSI ispituje dokument kao cjelinu: gleda koji drugi dokumenti imaju iste rijei (dokumenti koji
imaju puno istih rijei su semantiki slini), u semantiki slinim dokumentima pronalazi i druge rijei
po kojima pretrauje, ovaj jednostavan pristup korelira s nainom ljudskog pristupa iako LSI
algoritam ne razumije sadraj, daje dojam inteligentnog pronalaenja slinih dokumenata.
Primjer: traenje po rijeima, De Morganovo pravilo daje dokumente koji sadre tu frazu (kao obino
pretraivanje), pronalazi i druge sline dokumente, jer se uz De Morganovo pravilo nalo da su i rijei
logika varijabla semantiki bliske, pa su pronaeni i dokumenti s tim rijeima)

8. Koja je razlika izmeu pretraivanja trailicama i katalogom?


Trailice na Webu (search engines, index servers) pretraivanjem indeksa (kazala) pronalaze se
dokumenti. Metode pretraivanja: kljune rijei kombinirane logikim operacijama, rangiranje
dokumenata. Indeks se konstantno obnavlja (pr. trailice: Google, AltaVista).
Katalozi na Webu (subject trees, directories) =hijerarhijski ureeni katalozi Web dokumenata (pr.
katalozi: Yahoo!)
??Oni kvalificiraju resurse po temama (koje se dijele na podteme, koje se dalje mogu dijeliti), imaju
mogunost internog pretraivanja kataloga (nema smea). Nedostatak: runo odravanje (pojedine
dijelove ne odravaju profesionalci), nemogunost praenja broja promjenjivih resursa (jer katalozi
sadre URL adrese mrenih resursa), sadre i zastarjele informacije.

9. Ciljevi relacijske baze podataka?


Nezavisnost podataka, konzistentno semantiko postupanje s podacima, eliminacija redundancije
(zalihosti) podataka, skupovno orijentiran jezik za obradu podataka, bogat model podataka za opis i
obradu jednostavnih i kompleksnih podataka.
10. Domena i atribut (+ primjeri)
Domena je imenovani skup vrijednosti (pr. Naziv_dana_u_tjednu ={ponedjeljak, utorak, srijeda,
etvrtak, petak,subota, nedjelja}, Datum_u_mjesecu = {1..31}, Ime_prezime_studenta {Ivan
Horvat,Ana Peri}, Naziv_predmeta {Matematika, Fizika, Kemija})
Atribut je imenovani stupac relacije. Atribut poprima jednu vrijednost iz pripadne
domene (pr. U relaciji STUDENT_PREDMET atributi IME_PREZIME_STUDENTA i NAZIV_PREDMETA
pripadaju istoimenim domenama Ime_prezime_studenta i Naziv_predmeta).

11. Relacija i obiljeja


Relacija je imenovani podskup Kartezijevog produkta domena D1,D2,...,Dn: (D1,D2,...,Dn) =
{(d1,d2,...,dn): diDi za 1 i n}.
Relacija tablica -> prikazuje se dvodimenzionalnom tablicom. Redak je odgovor 1 n-toki, a stupac
jednoj domeni. Podaci se nalaze u relacijama tj. tablicama. Relacija znai veza, odnos.
Redak u tablici = entitet (objekt), stupac u tablici = atribut (obiljeje) entiteta.
Osnovne znaajke relacije: ne postoje dva jednaka stupca, redoslijed stupaca nije bitan,
ne postoje dva jednaka retka, redoslijed redaka nije bitan.

12. to je relacijska baza podataka?


Skup meusobno ovisnih podataka, spremljenih bez redundancije (zalihosti), koji slue jednoj ili vie
aplikacija na optimalan nain, gdje su podaci neovisni o programima kojima se
obrauju i gdje postoji kontrolirani pristup podacima, = skup relacija definiranih relacijskom shemom
b.p, baza strukturiranih (formatiranih) podataka.

13. Krakteristike relacijske baze podataka?


Sadri podatke razliitih objekata poslovnog sustava (poslovni partneri, projekti, proizvodi, usluge,
fakture, narudbe). Baza podataka je formatizirana baza , baza stukturiranih podataka. To znai da
ima definiranu strukturu, oblik: tablice, slogovi, polja, niz znakova. Podaci se nalaze u relacijama
tj.tablicama. redak u tablici=entitet(objekt), stupac u tablici=atribut(obiljeje)entiteta

14. Kljuevi u relacijskoj bazi podataka (primarni i strani klju)


Primarni klju je izabrani minimalni klju, odnosno atribut ili skup atributa ijim se podacima moe
jednoznano identificirati svaki redak u tablici (relaciji). Npr. atribut ifra kupca je primarni klju u
tablici Kupci.
Strani ili vanjski klju i slui za povezivanje jedne relacije (tablice) s drugom relacijom (tablicom) u
kojoj je on primarni klju (i u njoj mora postojati). Taj se odnos naziva referencijski integritetom.

15. to je referencijski integritet?


Relacijska b.p. sadri primarni i sekundarni klju, referencijski integritet povezuje odnos izmeu ta
dva kljua. Postignuti tj.ostvareni referencijski integritet je ostvareni odnos izmeu stranog i
primarnog kljua, odnosno kada strani (vanjski) klju upuuje na postojei primarni klju. Narueni
referencijski integritet postoji kada strani klju upuuje na primarni klju koji ne postoji. (npr.naruen
ref.integ. kada je izbrisan redak u tablici).

16. Relacijska shema baze podataka (kako se opisuje/notira relacijska shema?)


Relacijska shema baze podataka = definicija baze podataka: nazivi relacija (tablica) i popis atributa
koji ulaze u sastav relacija. Relacijska shema baze podataka jest skup razliitih relacijskih shema.
Dvije su relacijske sheme razliite ako su im skupovi atributa razliiti. Relacijska baza podataka je skup
relacija definiranih relacijskom shemom baze podataka.
(Pr. Relacijska shema baze podataka: Narudbe (BrojNarudbe, DatumNarudbe, ifraDobavljaa,
Temelj, NaslovIsporuke, NainPlaanja, RokIsporuke, NainOtpreme, iroRaun), Dobavljai
(ifraDobavljaa, NazivDobavljaa, AdresaDobavljaa))
Relacijska shema baze podataka dobiva se iz konceptualnog modela prema pravilima: Entitet relacija,
Atribut, Veza.

17. Fiziki model relacijske baze podataka


+ fiziko modeliranje b.p = kreiranje tablice, punjenje podataka u tablice, smjetaj podataka na fiziki
medije.
Fiziki model: smjetaj podataka na fizikom mediju i pristupanje tim podacima.
Izrada fizikog modela, fizika uspostava baze podataka i odravanje baze podataka vri se kroz
odravanje (administriranje) baze podataka (obavlja ga administrator baze podataka).

18. SQL
Upitni jezik neproceduralni. Ne opisuje postupak, nego uvjete rjeenja.
SQL standardni jezik za rad s relacijskom bazom podataka. Najvanija naredba: select.
SQL kompletan jezik za rad s relacijskom bazom podataka.
Skupine naredbi: naredbe za operacije s podacima, naredbe za definiranje baze podataka, naredbe za
upravljanje (uspostavljanje indeksa, kontroliranje pristupa bazi ...).
Standardi : SQL-89: standardiziran 1986., modificiran 1989., SQL-92, SQL3: veliki standard objavljen u
dijelovima.
Naredbe: SELECT ( ispis itave relacije, ispis atributa jedne relacije, selekcija n-torki jedne relacije...

19. Inmonova definicija skladita podataka?


Skladite podataka je usmjeren podruju, integriran, vremenski odreen i nepromjenjiv niz podataka.
Usmjeren podruju znai da podacima pokriva itavo poslovno podruje Integriran znai da se podaci
(iz razliitih izvora - svobuhvatni) jednom definiraju i spremaju. Vremenski odreeni znai da
odreuju vremensku perspektivu jer se podaci spremaju kao vremenske serije, kasnije su vrem
analize vrlo znaajne. Nepromjenjivi znai bez operativnog auriranja podataka.

20. Objasni svojstvo nepromjenjivosti podataka u skladitu?


Nepromjenjivi podaci, znai da nema operativnog auriranja podataka, odnosno u operativnoj bazi se
odvija umetanje, promjena i brisanje te uitavanje kojim se dokumenti umeu odnosno uitavaju u
skladite podataka koje nam omoguuje samo itanje. Jednom uneseni podaci u skladite podataka
dakle se ne mijenjaju ve se samo nadopunjuju i osvjeavaju. Te promjene su razliite od promjena u
bazama podataka, a nakon odreenog vremena, podaci se iz skladita takoer briu ili arhiviraju.

21. Objasni promjene u skladitu podataka?


Iz operativne b.p. podaci se prvo uitavaju u skladite podataka, nakon toga operativna b.p.
omoguuje nam vie puta (u predavanjima 3X) osvjeavanje ( nadopunjavanje??) i slanje tih
osvjeenih podataka u skladite podataka, te nakon osvjeavanja postoji mogunost brisanja ili
arhiviranja podataka iz skladita podataka.

22. Objasni krivulje koritenja CPU operativne obrade i skladita podataka?


Operativni sustav (relacijska baza) je previdljiv, skladite podataka je varijabilno i nepredvidivo.
Odnosno koritenje cpu je ili malo ili veliko kod operativnih sustava, dok kod skladita podataka
krivulja stalno varira, malo raste, malo pada.

23. Objasni karakteristike podataka kod skladita podataka?


-Podaci su organizirani i orijentirani na odreeno podruje i POTPORA SU ODLUIVANJU.
-Podaci su konzistentni (integrirani iz raznih aplikacija),
-istovremeno obuhvaa i agregirane i detaljne podatke,
-podaci obuhvaaju viegodinje razdoblje i koriste se za trend analize, predvianje i usporedbe u
vremenu (vremenske serije)
-jednom uneseni podaci se ne mijenjaju ve nadopunjuju (nepromjenjivost podataka).
24. Vanjski izvori podataka?
a) podaci konkurentnosti (proizvodi, usluge, promjene konkurentnih poduzea ),
b) ekonomski podaci (valutne promjene, politiki indikatori, promjene kamata, burzovni pod.),
c) strukovni podaci (tehnoloki, marketinki trendovi ),
d) financijski podaci, robni podaci (cijene sirovina..),
e) ekonometrijski podaci (prihodi pojedinih skupina, ponaanje kupaca ),
f) psihometrijski podaci (profiliranje kupaca ),
g) meteoroloki, demografski marketinki podaci.
vanjski izvori podataka se kasnije alju u skladite podataka??

*Izvori podataka - unutarnji podaci:


a)Sustav za obradu transakcija:
financijski podsustavi (glavna knjiga )
logistiki podsustavi (planiranje materijala, nabava...)
podsustavi prodaje
podsustavi proizvodnje (upravljanje i kontrola proizvod.,praenje radnih naloga, praenje
projekata)
podsustavi ljudskih resursa (plae, radna mjesta,...),
b)Sustav za potporu upravljanju (planovi, odluke,pravilnici i sl.)
c)Sustav za potporu komunikaciji i suradnji ( npr. elektronika pota i sl.)

25. to je dimenzija, a to mjera u dimenzijskoj strukturi podataka?


Dimenzijska struktura podataka omoguuje promatranje poslovnih pojava kroz dimenzije.
-Razumljiv pogled na podatke u bazi podataka, jednostavno postavljanje poslovnih pitanja (upita),
npr. koliki je prihod od prodaje bezalkoholnih pia u Zagrebu u 2006.g.
Dimenzije imaju svoje pozicije po kojima se mogu kategorizirati (npr. pozicije dimenzije Vrijeme su:
1.1.2007.,2.1.2007.,...31.12.2007., pozicije 1.2. i 3.mjeseca mogu se kategorizirati u 1.kvartal itd.)
Hijerarhija - detaljizirano i agregirano promatranje pojava.
Vrijednost ili mjera - kvantitativno obiljeje pojave (Npr. broj prodanih komada, iznos prihoda od
prodaje, iznos trokova prodaje, itd.). Podaci mjera su zbrojivi (npr. iznos prihoda od prodaje po
danima moe se zbrojiti u iznos prodaje u jednom mjesecu)

26. Nabroji operacije na dimenzijskom modelu podataka / dimenzijske analitike operacije /


osnove analitike operacije /
Operacije na dimenzijskom modelu podataka: rotacija, selektiranje, detaljiiranje i agragiranje.
Rotacija ili pivotiranje, zamjena orijentacije dimenzije, isticanje neki dimenzija u prvi plan, a ostale
su u pozadini.
Selektiranje - selektiranje pozicije jedne ili vie dimenzija, isticanje je selektiranje (fiksiranje) jedne
pozicije dimenzije (engl. slice and dice). No istovremno se mogu selektirati pozicije razl. dimenzija.
Detaljiziranje - je hijerarhija u pozicijama dimenzije, detaljiziranje - silaenje, svrdlanje (engl. Drill
down) po hijerarhiji pozicija jedne dimenzije
Agregiranje - je dizanje (engl. drill up) po hijerarhiji pozicija jedne dimenzije

27. ETL kod skladitenja podataka, i procedura


ETL su postupci ekstrakcije i transformacije, skup procesa koji ima za cilj ekstrahirati, odnosno
zahvaati ili vaditi (engl.Extract), transformirati odnosno preoblikovati (engl. Transform) i puniti ili
unositi (engl. Load) podatke iz jednog ili vietransakcijskih sustava u skladite podataka.
Etl se koristi za migriranje jedne b.p. u dr., za formiranje skladita podataka, ili pretvaranje b.p iz
jednog oblika u drugi.
28. Komponente access-a:
Tablica, upit, izvjetaj, obrazac.
a) Tablica u njima se nalaze podaci sadrani u b.p. Skup podataka o jednoj odreenoj temi (kupci ili
narudbe). Za bolju organizaciju bolje je imati vie tablica.
b) Upit je komponenta b.p. koja se koristi kada je potrebno nali i analizirati odreene podatke iz 1 ili
vie tabela. Mogu se koristiti kao podloga za izvjetaje.
c) Izvjetaj koristi se kada me potrebno neku grupu podataka pripremiti za ispis. Ne razlikuje se
mnogo od obrasca, jedino to je u njemu mogue samo gledati podatke, ali se zato slike mogu lake
dodavati, raunati prosjeci i sl.
d) Obrazac slui za grafiko pregledavnje podataka iz tavlica i upita, i da moemo pregledavati
povezane podatke iz vie tablica. Funkcija obrasca kao komponente b.o. je interakcija s korisnikom.
Korisnik ne vidi tablice, ve obrasce.

NOVA PITANJA:
Zato se kod skladita podataka ne koristi operativno auriranje podataka?
Skladite podataka nam omoguuje samo uitanje, odnosno inkrementalno uitavanje tj radi se o
nepromjenjivom nizu podataka, dok se u operativnim bazama podataka odvijaju: umetanje,
promjena i brisanje te itanje te se ti dokumenti zatim uitavaju u skladite podataka.

Kako oblikujemo relacijske baze podataka (3 faze):


1. ideja(konceptualni model): objekti poslovnog sustava, atributi,meusobna povezanost objekata
2. logiki model (relacije): raspored podataka u tablicama
3. fiziki model: smjetaj podataka na fizikom mediju (tablice)

Sudionici upravljanja sadrajem


a)Urednik sadraja - odreuje koji de se sadraj i gdje publicirati
b)Publicist sadraja - publicira sadraj
c) Autor(i) sadraja - stvara sadraj

Alati za analitike obrade:


Excell, Oracle OLAP, Oracle BI, Business Objects, Cognos.

You might also like