Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 6

1. Koji su ciljevi pretraivanja informacija?

a) pronadi sve vane (relevantne) informacije(dokumente) za traenu temu potpun obuhvat, b) pronadi samo relevantne informacije za zadani upit potpuna preciznost, c) rangirati pronaene informacije po vanosti (relevantnosti) rang. Rezultati pretraivanja razliito su vani, oni lee na kontinuiranoj skali i teko je odrediti tonu granicu vano/nevano. 2. Mjere pretraivanja navedi i objasni: a+b = relevantni objekti, b+c = pronaeni objekti. obuhvat = b/(a+b), preciznost = b/(b+c) Raspon njihovih vrijednosti je 0,0-1,0 ili 0-100% Mjere pretraivanja su Obuhvat i preciznost: -Kriva je pretpostavka da se pretraivanjem dobiva: a) potpun obuhvat (sve relevantno je pronaeno, a= prazan skup), b) potpuna preciznost (sve pronaeno je relevantno, c= prazan skup). -Praksa pokazuje da su mjere kontradiktorne: ako se jedna povedava, druga se smanjuje. -Zahtjevi kvalitetnog pretraivanja (u praksi): visok obuhvat, to veda preciznost bez rtvovanja obuhvata. -Ako se pronaeni dokumenti rangiraju po relevantnosti, preciznost varira o broju ispisanih dokumenata (pr. Ako je prvih 10 dokumenata relevantno, a sljededih 10 nerelevantno: Preciznost je 100% u prvih 10 dokumenata, i 50 % u prvih 20 dokumenata). -Preciznost na n dokumenata je stvarni broj relevantnih u odnosu na broj ispisanih dokumenata (hitlist). -Prosjena preciznost je suma preciznosti za svaki relevantni ispisani dokument (hitlist) podijeljena s ukupnim brojem relevantnih dokumenata u kolekciji. 3. Moe li se izraunati obuhvat na pretraivanju weba? Praksa na webu: dobar obuhvat ali loa preciznost. Obuhvat i preciznost FORMULE: obuhvat = b/(a+b), preciznost = b/(b+c). 4. Metode pretraivanja informacija nabroji i objasni: Pretraivanje po rijeima. Rije opisuje koncept ili pojam (engl. term). Pretraivanje se temelji na tehnikama uparivanja i brojanja pojmova u dokumentu, nedostaju modeli za stvarno opisivanje sadraja teksta (za konceptualno pretraivanje). metode pretraivanja informacija: a)Metode Booleovog pretraivanja - Informacijska potreba se opisuje upitom, koji se sastoji od rijei povezanih Booleovim (logikim) operatorima I (AND), OR (ILI), NE (NOT) b)Modeli vektorskog prostora - Koristi se matematiki pojam vektora. U vektor ulaze pojmovi: rijei ili fraze (izriaji). c)Probabilistiki modeli - dokumente rangiraju prema vjerojatnosti relevantnosti u odnosu na postavljeni upit. Modeli (ima ih vie) razliito procjenjuju tu vjerojatnost. d)Metode modifikacije upita e)Ostale metode: klasteriranje = pretpostavka da su dokumenti u klasteru slini (sline relevantnosti za korisnika), obrada prirodnog jezika. 5. Booleovo pretraivanje /Booleovi operatori AND i OR: Informacijska potreba se opisuje upitom, koji se sastoji od rijei povezanih Booleovim (logikim) operatorima I (AND), OR (ILI), NE (NOT) Informacijski AND (sustav OR sistem). Ako dokument odgovara upitu, dokument je pronaen selekcija: NE (0) ili DA (1). Pronaeni dokumenti nisu rangirani, jer ne postoji mjera slinosti upita i dokumenta. Potrebno je umijede dobrog formuliranja upita. Mnogi profesionalni korisnici ga koriste iako je slabije od metoda s rangiranjem dokumenata. Primjer: baza dokumenata EconLit.

I (and) pronalaenje lanka u kojima se pojavljuju 2 od navedenih rijei ILI (or) ili samo jedna rije od pon rijei, ili istovremeno obje 6. Model vektorskog prostora / vektorsko pretraivanje: Modeli vektorskog prostora: -Koristi se matematiki pojam vektora -U vektor ulaze pojmovi: rijei ili fraze (izriaji) -Svaki pojam (rije) postaje dimenzijom u vektorskom prostoru, vektori se smatraju neovisnim (ortogonalnim) -Bilo koji tekst se reprezentira vektorom -Ako tekst sadri pojam (rije), dobiva ne-nula vrijednost u dimenziji kojoj pojam pripada -Kako svaki tekst ima ogranien skup pojmova (rijei), a vokabular moe imati i milijun pojmova, vedina vektora je slabo popunjena. - Pr. Vokabular ima 10 rijei: ekonomska, drutvena, tehnika, prirodna, znanost, jest, nije, nikako, pripada, uvijek. Dokument ima sljededi tekst:Ekonomska znanost jest drutvena znanost.Vektor dokumenta:{1,1,0,0,1,1,0,0,0,0}). Pretraivanje u modelu vektorskog prostora: Popis pojmova (rijei) po kojima se pretrauje tvori vektor upita Q. Izraunava se udaljenost izmeu vektora upita Q i vektora svakog dokumenta u bazi dokumenata. Ispisuju se dokumenti ija je udaljenost od upita manja od zadanog praga P. Dokumenti se rangiraju po relevantnosti (najprije se ispisuju relevantni dokumenti, blii upitu). *Kosinus (kosinusna udaljenost, korelacija) dvaju vektora. * Kosinus ima svojstvo da vrijednost 1,0 imaju identini vektori, a 0,0 imaju ortogonalni (potpuno razliiti) vektori. 7. Latentno semantiko indeksiranje (pretraivanje) (Latent Semantic Indexing, LSI): a) Obino pretraivanje po rijeima: dokument sadri traenu rije ili ne (nema sredine). b) LSI ispituje dokument kao cjelinu: gleda koji drugi dokumenti imaju iste rijei (dokumenti koji imaju puno istih rijei su semantiki slini), u semantiki slinim dokumentima pronalazi i druge rijei po kojima pretrauje, ovaj jednostavan pristup korelira s nainom ljudskog pristupa iako LSI algoritam ne razumije sadraj, daje dojam inteligentnog pronalaenja slinih dokumenata. Primjer: traenje po rijeima, De Morganovo pravilo daje dokumente koji sadre tu frazu (kao obino pretraivanje), pronalazi i druge sline dokumente, jer se uz De Morganovo pravilo nalo da su i rijei logika varijabla semantiki bliske, pa su pronaeni i dokumenti s tim rijeima) 8. Koja je razlika izmeu pretraivanja trailicama i katalogom? Trailice na Webu (search engines, index servers) pretraivanjem indeksa (kazala) pronalaze se dokumenti. Metode pretraivanja: kljune rijei kombinirane logikim operacijama, rangiranje dokumenata. Indeks se konstantno obnavlja (pr. trailice: Google, AltaVista). Katalozi na Webu (subject trees, directories) =hijerarhijski ureeni katalozi Web dokumenata (pr. katalozi: Yahoo!) ??Oni kvalificiraju resurse po temama (koje se dijele na podteme, koje se dalje mogu dijeliti), imaju mogudnost internog pretraivanja kataloga (nema smeda). Nedostatak: runo odravanje (pojedine dijelove ne odravaju profesionalci), nemogudnost pradenja broja promjenjivih resursa (jer katalozi sadre URL adrese mrenih resursa), sadre i zastarjele informacije. 9. Ciljevi relacijske baze podataka? Nezavisnost podataka, konzistentno semantiko postupanje s podacima, eliminacija redundancije (zalihosti) podataka, skupovno orijentiran jezik za obradu podataka, bogat model podataka za opis i obradu jednostavnih i kompleksnih podataka.

10. Domena i atribut (+ primjeri) Domena je imenovani skup vrijednosti (pr. Naziv_dana_u_tjednu ={ponedjeljak, utorak, srijeda, etvrtak, petak,subota, nedjelja}, Datum_u_mjesecu = {1..31}, Ime_prezime_studenta {Ivan Horvat,Ana Perid}, Naziv_predmeta {Matematika, Fizika, Kemija}) Atribut je imenovani stupac relacije. Atribut poprima jednu vrijednost iz pripadne domene (pr. U relaciji STUDENT_PREDMET atributi IME_PREZIME_STUDENTA i NAZIV_PREDMETA pripadaju istoimenim domenama Ime_prezime_studenta i Naziv_predmeta). 11. Relacija i obiljeja Relacija je imenovani podskup Kartezijevog produkta domena D1,D2,...,Dn: (D1,D2,...,Dn) = {(d1,d2,...,dn): diDi za 1 i n}. Relacija tablica -> prikazuje se dvodimenzionalnom tablicom. Redak je odgovor 1 n-toki, a stupac jednoj domeni. Podaci se nalaze u relacijama tj. tablicama. Relacija znai veza, odnos. Redak u tablici = entitet (objekt), stupac u tablici = atribut (obiljeje) entiteta. Osnovne znaajke relacije: ne postoje dva jednaka stupca, redoslijed stupaca nije bitan, ne postoje dva jednaka retka, redoslijed redaka nije bitan. 12. to je relacijska baza podataka? Skup meusobno ovisnih podataka, spremljenih bez redundancije (zalihosti), koji slue jednoj ili vie aplikacija na optimalan nain, gdje su podaci neovisni o programima kojima se obrauju i gdje postoji kontrolirani pristup podacima, = skup relacija definiranih relacijskom shemom b.p, baza strukturiranih (formatiranih) podataka. 13. Krakteristike relacijske baze podataka? Sadri podatke razliitih objekata poslovnog sustava (poslovni partneri, projekti, proizvodi, usluge, fakture, narudbe). Baza podataka je formatizirana baza , baza stukturiranih podataka. To znai da ima definiranu strukturu, oblik: tablice, slogovi, polja, niz znakova. Podaci se nalaze u relacijama tj.tablicama. redak u tablici=entitet(objekt), stupac u tablici=atribut(obiljeje)entiteta 14. Kljuevi u relacijskoj bazi podataka (primarni i strani klju) Primarni klju je izabrani minimalni klju, odnosno atribut ili skup atributa ijim se podacima moe jednoznano identificirati svaki redak u tablici (relaciji). Npr. atribut ifra kupca je primarni klju u tablici Kupci. Strani ili vanjski klju i slui za povezivanje jedne relacije (tablice) s drugom relacijom (tablicom) u kojoj je on primarni klju (i u njoj mora postojati). Taj se odnos naziva referencijski integritetom. 15. to je referencijski integritet? Relacijska b.p. sadri primarni i sekundarni klju, referencijski integritet povezuje odnos izmeu ta dva kljua. Postignuti tj.ostvareni referencijski integritet je ostvareni odnos izmeu stranog i primarnog kljua, odnosno kada strani (vanjski) klju upuduje na postojedi primarni klju. Narueni referencijski integritet postoji kada strani klju upuduje na primarni klju koji ne postoji. (npr.naruen ref.integ. kada je izbrisan redak u tablici). 16. Relacijska shema baze podataka (kako se opisuje/notira relacijska shema?) Relacijska shema baze podataka = definicija baze podataka: nazivi relacija (tablica) i popis atributa koji ulaze u sastav relacija. Relacijska shema baze podataka jest skup razliitih relacijskih shema. Dvije su relacijske sheme razliite ako su im skupovi atributa razliiti. Relacijska baza podataka je skup relacija definiranih relacijskom shemom baze podataka. (Pr. Relacijska shema baze podataka: Narudbe (BrojNarudbe, DatumNarudbe, ifraDobavljaa, Temelj, NaslovIsporuke, NainPladanja, RokIsporuke, NainOtpreme, iroRaun), Dobavljai (ifraDobavljaa, NazivDobavljaa, AdresaDobavljaa))

Relacijska shema baze podataka dobiva se iz konceptualnog modela prema pravilima: Entitet relacija, Atribut, Veza. 17. Fiziki model relacijske baze podataka + fiziko modeliranje b.p = kreiranje tablice, punjenje podataka u tablice, smjetaj podataka na fiziki medije. Fiziki model: smjetaj podataka na fizikom mediju i pristupanje tim podacima. Izrada fizikog modela, fizika uspostava baze podataka i odravanje baze podataka vri se kroz odravanje (administriranje) baze podataka (obavlja ga administrator baze podataka). 18. SQL Upitni jezik neproceduralni. Ne opisuje postupak, nego uvjete rjeenja. SQL standardni jezik za rad s relacijskom bazom podataka. Najvanija naredba: select. SQL kompletan jezik za rad s relacijskom bazom podataka. Skupine naredbi: naredbe za operacije s podacima, naredbe za definiranje baze podataka, naredbe za upravljanje (uspostavljanje indeksa, kontroliranje pristupa bazi ...). Standardi : SQL-89: standardiziran 1986., modificiran 1989., SQL-92, SQL3: veliki standard objavljen u dijelovima. Naredbe: SELECT ( ispis itave relacije, ispis atributa jedne relacije, selekcija n-torki jedne relacije... 19. Inmonova definicija skladita podataka? Skladite podataka je usmjeren podruju, integriran, vremenski odreen i nepromjenjiv niz podataka. Usmjeren podruju znai da podacima pokriva itavo poslovno podruje Integriran znai da se podaci (iz razliitih izvora - svobuhvatni) jednom definiraju i spremaju. Vremenski odreeni znai da odreuju vremensku perspektivu jer se podaci spremaju kao vremenske serije, kasnije su vrem analize vrlo znaajne. Nepromjenjivi znai bez operativnog auriranja podataka. 20. Objasni svojstvo nepromjenjivosti podataka u skladitu? Nepromjenjivi podaci, znai da nema operativnog auriranja podataka, odnosno u operativnoj bazi se odvija umetanje, promjena i brisanje te uitavanje kojim se dokumenti umeu odnosno uitavaju u skladite podataka koje nam omoguduje samo itanje. Jednom uneseni podaci u skladite podataka dakle se ne mijenjaju ved se samo nadopunjuju i osvjeavaju. Te promjene su razliite od promjena u bazama podataka, a nakon odreenog vremena, podaci se iz skladita takoer briu ili arhiviraju. 21. Objasni promjene u skladitu podataka? Iz operativne b.p. podaci se prvo uitavaju u skladite podataka, nakon toga operativna b.p. omoguduje nam vie puta (u predavanjima 3X) osvjeavanje ( nadopunjavanje??) i slanje tih osvjeenih podataka u skladite podataka, te nakon osvjeavanja postoji mogudnost brisanja ili arhiviranja podataka iz skladita podataka. 22. Objasni krivulje koritenja CPU operativne obrade i skladita podataka? Operativni sustav (relacijska baza) je previdljiv, skladite podataka je varijabilno i nepredvidivo. Odnosno koritenje cpu je ili malo ili veliko kod operativnih sustava, dok kod skladita podataka krivulja stalno varira, malo raste, malo pada. 23. Objasni karakteristike podataka kod skladita podataka? -Podaci su organizirani i orijentirani na odreeno podruje i POTPORA SU ODLUIVANJU. -Podaci su konzistentni (integrirani iz raznih aplikacija), -istovremeno obuhvada i agregirane i detaljne podatke, -podaci obuhvadaju viegodinje razdoblje i koriste se za trend analize, predvianje i usporedbe u vremenu (vremenske serije) -jednom uneseni podaci se ne mijenjaju ved nadopunjuju (nepromjenjivost podataka).

24. Vanjski izvori podataka? a) podaci konkurentnosti (proizvodi, usluge, promjene konkurentnih poduzeda ), b) ekonomski podaci (valutne promjene, politiki indikatori, promjene kamata, burzovni pod.), c) strukovni podaci (tehnoloki, marketinki trendovi ), d) financijski podaci, robni podaci (cijene sirovina..), e) ekonometrijski podaci (prihodi pojedinih skupina, ponaanje kupaca ), f) psihometrijski podaci (profiliranje kupaca ), g) meteoroloki, demografski marketinki podaci. vanjski izvori podataka se kasnije alju u skladite podataka?? *Izvori podataka - unutarnji podaci: a)Sustav za obradu transakcija: financijski podsustavi (glavna knjiga ) logistiki podsustavi (planiranje materijala, nabava...) podsustavi prodaje podsustavi proizvodnje (upravljanje i kontrola proizvod.,pradenje radnih naloga, pradenje projekata) podsustavi ljudskih resursa (plade, radna mjesta,...), b)Sustav za potporu upravljanju (planovi, odluke,pravilnici i sl.) c)Sustav za potporu komunikaciji i suradnji ( npr. elektronika pota i sl.) 25. to je dimenzija, a to mjera u dimenzijskoj strukturi podataka? Dimenzijska struktura podataka omoguduje promatranje poslovnih pojava kroz dimenzije. -Razumljiv pogled na podatke u bazi podataka, jednostavno postavljanje poslovnih pitanja (upita), npr. koliki je prihod od prodaje bezalkoholnih pida u Zagrebu u 2006.g. Dimenzije imaju svoje pozicije po kojima se mogu kategorizirati (npr. pozicije dimenzije Vrijeme su: 1.1.2007.,2.1.2007.,...31.12.2007., pozicije 1.2. i 3.mjeseca mogu se kategorizirati u 1.kvartal itd.) Hijerarhija - detaljizirano i agregirano promatranje pojava. Vrijednost ili mjera - kvantitativno obiljeje pojave (Npr. broj prodanih komada, iznos prihoda od prodaje, iznos trokova prodaje, itd.). Podaci mjera su zbrojivi (npr. iznos prihoda od prodaje po danima moe se zbrojiti u iznos prodaje u jednom mjesecu) 26. Nabroji operacije na dimenzijskom modelu podataka / dimenzijske analitike operacije / osnove analitike operacije / Operacije na dimenzijskom modelu podataka: rotacija, selektiranje, detaljiiranje i agragiranje. Rotacija ili pivotiranje, zamjena orijentacije dimenzije, isticanje neki dimenzija u prvi plan, a ostale su u pozadini. Selektiranje - selektiranje pozicije jedne ili vie dimenzija, isticanje je selektiranje (fiksiranje) jedne pozicije dimenzije (engl. slice and dice). No istovremno se mogu selektirati pozicije razl. dimenzija. Detaljiziranje - je hijerarhija u pozicijama dimenzije, detaljiziranje - silaenje, svrdlanje (engl. Drill down) po hijerarhiji pozicija jedne dimenzije Agregiranje - je dizanje (engl. drill up) po hijerarhiji pozicija jedne dimenzije 27. ETL kod skladitenja podataka, i procedura ETL su postupci ekstrakcije i transformacije, skup procesa koji ima za cilj ekstrahirati, odnosno zahvadati ili vaditi (engl.Extract), transformirati odnosno preoblikovati (engl. Transform) i puniti ili unositi (engl. Load) podatke iz jednog ili vietransakcijskih sustava u skladite podataka. Etl se koristi za migriranje jedne b.p. u dr., za formiranje skladita podataka, ili pretvaranje b.p iz jednog oblika u drugi.

28. Komponente access-a: Tablica, upit, izvjetaj, obrazac. a) Tablica u njima se nalaze podaci sadrani u b.p. Skup podataka o jednoj odreenoj temi (kupci ili narudbe). Za bolju organizaciju bolje je imati vie tablica. b) Upit je komponenta b.p. koja se koristi kada je potrebno nali i analizirati odreene podatke iz 1 ili vie tabela. Mogu se koristiti kao podloga za izvjetaje. c) Izvjetaj koristi se kada me potrebno neku grupu podataka pripremiti za ispis. Ne razlikuje se mnogo od obrasca, jedino to je u njemu mogude samo gledati podatke, ali se zato slike mogu lake dodavati, raunati prosjeci i sl. d) Obrazac slui za grafiko pregledavnje podataka iz tavlica i upita, i da moemo pregledavati povezane podatke iz vie tablica. Funkcija obrasca kao komponente b.o. je interakcija s korisnikom. Korisnik ne vidi tablice, ved obrasce. NOVA PITANJA: Zato se kod skladita podataka ne koristi operativno auriranje podataka? Skladite podataka nam omoguduje samo uitanje, odnosno inkrementalno uitavanje tj radi se o nepromjenjivom nizu podataka, dok se u operativnim bazama podataka odvijaju: umetanje, promjena i brisanje te itanje te se ti dokumenti zatim uitavaju u skladite podataka. Kako oblikujemo relacijske baze podataka (3 faze): 1. ideja(konceptualni model): objekti poslovnog sustava, atributi,meusobna povezanost objekata 2. logiki model (relacije): raspored podataka u tablicama 3. fiziki model: smjetaj podataka na fizikom mediju (tablice) Sudionici upravljanja sadrajem a)Urednik sadraja - odreuje koji de se sadraj i gdje publicirati b)Publicist sadraja - publicira sadraj c) Autor(i) sadraja - stvara sadraj Alati za analitike obrade: Excell, Oracle OLAP, Oracle BI, Business Objects, Cognos.

You might also like