Professional Documents
Culture Documents
Zaštita Baza Podataka Distribuirane Baze Podataka
Zaštita Baza Podataka Distribuirane Baze Podataka
Copyright © 2017 – UNIVERZITET METROPOLITAN, Beograd. Sva prava zadržana. Bez prethodne pismene dozvole
od strane Univerziteta METROPOLITAN zabranjena je reprodukcija, transfer, distribucija ili memorisanje nekog
dela ili čitavih sadržaja ovog dokumenta., kopiranjem, snimanjem, elektronskim putem, skeniranjem ili na bilo
koji drugi način.
Copyright © 2017 BELGRADE METROPOLITAN UNIVERSITY. All rights reserved. No part of this publication may
be reproduced, stored in a retrieval system or transmitted in any form or by any means, electronic, mechanical,
photocopying, recording, scanning or otherwise, without the prior written permission of Belgrade Metropolitan
University.
www.metropolitan.ac.rs
Uvod
UVOD
Šta ćemo naučiti u ovoj lekciji?
U prvom delu predavanja se govori o zaštiti baza podataka koja se može realizovati na nivou
baze ili aplikacije.
Da bi se postigla efikasnost DDBMS-a, sve njegove komponente treba realizovati na način koji
smanjuje mrežnu komunikaciju.
• fragmentacija podataka
• distribuirana obrada upita
• distribuirano (preneto) ažuriranje
• upravljanje katalogom
• distribuirano izvršenje skupa transakcija, što uključuje konkurentnost, integritet,
oporavak i protokole kompletiranja transakcija.
3
Poglavlje 1
GRANT <Privilegija> ON <tabele ili pogled> TO <korisnik ili grupa korisnika> [WITH GRANT
OPTION;
1. SELECT
2. UPDATE
3. INSERT
4. DELETE
5. INDEX
6. EXPAND (dodavanje atributa relacije)
7. ALL (važi za sve navedene privilegije)
8. RESOURCE (omogućuje korisniku kreiranje objekata baze podataka, kao što su:
tabele, indeksi, klasteri)
9. DBA (obavlja administrativne zadatke, kao što su: CREATE TABLESPACE i CREATE
ROLLBACK SEGMENT)
4
Poglavlje 1 Zaštita baza podataka
GRANT <Privilegija> ON <tabele ili pogled> TO <korisnik ili grupa korisnika> [WITH GRANT
OPTION;
Primer 1: uvedi privilegije nad tabelom RADNIK, a onda nekom drugom da privilegija nad tom
tabelom, i to korisniku PERI, piše se ovako:
Primer 2: Ako bi trebalo da se da nekom drugom privilegija samo za SELECT nad tabelom
RADNIK, i to korisniku VLADA piše se ovako:
Privilegije nad naredbama: SELECT, INSERT, UPDATE i DELETE se mogu davati i za poglede.
Primer 1: ako se ne želi da korisnik ALEKSANDAR ima pogled na kolone: PLATA i STIMUL, onda
je bolje da se privilegije ograničavaju na pogled, a ne na tabele. Prvo se definiše pogled na
tabelu RADNIK koja ne sadrži kolone: PLATA I STIMUL.
Primer 2: Može se definisati i pogled nad tabelom RADNIK koja daje podatke samo o onim
zaposlenima koji rade u istoj šifri odeljenja u kojem radi i osoba koja koristi pogled.
5
Poglavlje 1 Zaštita baza podataka
USER definiše ime prijavljenog korisnika. Ako MARIĆ, koji je u odeljenju 10, pristupio pogledu
može videti samo zaposlene u odeljenju 10. Ovim pogledom može se dati korisniku MARIĆ
privilegija da vrši, npr, ažuriranje na sledeći način: GRANT SELECT, UPDATE ON MARIC TO
MARIĆ;
Ako neki zaposleni pređe u drugo odeljenje (polje SIFRAO se menja), novi rukovodilac
automatski dobija pristup podacima, dok ga stari rukovodilac gubi.
Primer: ako se želi oduzeti privilegija korisniku ALEKSANDAR za ubacivanje podataka u tabelu
RADNIK, to se piše:
Privilegije se mogu dati određenom čoveku (korisniku) ali se mnogo češće daju grupi ljudi.
Ta grupa ljudi se često naziva rola ili grupa korisnika. Davanje dozvola rolama je
uobičajeno ali nije obavezno. Međutim, kada se koriste role, neophodno je imati način da se
korisnici dodele odgovarajućim rolama.
Dodeljivanje privilegija odnosno odgovornosti koje imaju pojedini korisnici ne može omogućiti
sam DBMS ili aplikacija koja radi nad bazom podataka već se ono mora odraditi ručnim
procedurama i objasniti korisnicima u toku obuke za korišćenje sistema. Zadatak DBMS je da
upravlja obradom prava i odgovornosti.
Kada se korisnik prijavi na bazu podataka, DBMS ograničava akcije korisnika na dozvole
koje su definisane za korisnika ili dozvole koje su definisane na nivou rola koje su korisniku
dodeljene. Određivanje da li je neko zaista onaj za kog se deklariše, je generalno veoma težak
zadatak. Svi komercijalni DBMS koriste verifikaciju korisnika uz pomoć username i passworda
i takva zaštita je sasvim dovoljna ukoliko korisnik svoj password čuva samo za sebe.
6
Poglavlje 1 Zaštita baza podataka
U sledećoj tabeli su date smernice kojima se može osigurati zaštita sistema baze podataka.
Zaštita na nivou DBMS se može proširiti i zaštitom na nivou aplikacije. Generalno, uvek prvo
treba obezbediti zaštitu na nivou DBMS pa ako se proceni da ona nije adekvatna, treba joj
dodati i zaštitu na nivou aplikacije.
Zaštitu na nivou aplikacije se može objasniti na primeru Internet aplikacija kod kojih se zaštita
najčešće obezbeđuje preko Web servera. Izvršenje aplikacija na Web serverima predstavlja
način da se osetljivi podaci ne prenose kroz mrežu i na taj način zaštite. Pretpostavimo da je
7
Poglavlje 1 Zaštita baza podataka
Web aplikacija pisana tako da se na klik korisnika na stranici brovsera prema Web serveru a
zatim i prema DBMS šalje sledeći upit:
Ako se politikom zaštite na nivou aplikacije korisniku dozvoljava da pristupi samo svojim
sopstvenim podacima, Web server bi mogao da doda sledeću WHERE klauzulu.
Ovakvu zaštitu ne mora da obezbedi Web server već ona može biti realizovana kroz
aplikativne programe ili napisana kao store procedura ili triger i izvršena od strane DBMS u
odgovarajućem trenutku.
8
Poglavlje 2
Dok se mnoge baze podataka nalaze samo na jednoj mašini, postoje i baze podataka koje
su distribuirane na više mašina. Takođe postoje i baze podataka koje su smeštene samo na
jednoj paralelnoj mašini (računaru sa više paralelnih procesora). Kada se obrada podataka
vrši bilo paralelno bilo distribuirano, javljaju se mnogi implementacioni problemi koje je
potrebno rešiti.
Operacije nad bazama podataka često zahtevaju dosta vremena i obuhvataju veliku količinu
podataka pa se mogu unaprediti ukoliko se primeni paralelna obrada podataka. Suština
paralelne obrade je korišćenje više procesora. Obično je broj procesora p veliki po nekoliko
stotina ili hiljada. Pretpostavka je da svaki procesor ima svoju lokalnu keš memoriju. U
mnogim organizacijama, svaki procesor imai svoju lokalnu memoriju. (po svakom procesoru
postoji jedan ili više diskova a u nekim arhitekturama i velika kolekcija diskova kojima
procesor može direktno da pristupa).
Osim toga, u paralelnim obradama postoji mogućnost prenosa informacija između procesora
(npr. svi procesori u jednom reku su obično povezani)
9
Poglavlje 2 Paralelna obrada baza podataka
U ovoj arhitekturi, ilustrovanoj na slici 1., svaki procesor ima pristup do svih memorija svih
procesora. Na taj način, postoji samo jedan fizički adresni prostor za čitavu mašinu, umesto
jednog adresnog prostora za svaki procesor.Na dijagramu 1. je prikazano da procesor uopšte
nema svoju keš memoriju (označenu sa M), već svaki procesor ima samo svoju lokalnu glavnu
memoriju (disk) koju koristi kad god je to moguće. Međutim, on ima direktan pristup do
memorije drugih procesora kada je to potrebno.
Velike mašine ove klase su tipa NUMA (eng. nonuniform memory access) i njima je potrebno
više vremena da bi procesor pristupio podacima u memoriji koja pripada drugim procesorima
nego što mu je potrebno da pristupi svojoj sopstvenoj memoriji ili memoriji procesora u
njegovom lokalnom klasteru. Međutim, u ovoj arhitekturi, razlika u vremenu pristupa memoriji
nije velika. Svi pristupi memoriji, bez obzira gde se nalaze podaci troše mnogo više vremena
nego što traje pristup kešu, tako da je kritičan problem da li su ili ne podaci koji su potrebni
procesoru u svojoj sopstvenoj keš memoriji.
U ovoj arhitekturi, prikazanoj na slici 2, svaki procesor ima svoju sopstvenu keš memoriju
kojoj se ne može direktno pristupiti iz drugih procesora. Međutim, ovde se može pristupiti
disku iz bilo kog procesora kroz komunikacionu mrežu. Kontroler diska razrešava potencijalno
konkurentske zahteve koji dolaze iz različitih procesora.
Potrebno je da broj diskova i procesora bude identičan, kako se to vidi na slici 2. Ova se
arhitektura danas pojavljuje u dva oblika, zavisno od jedinice za transfer između diska i
procesora:
10
Poglavlje 2 Paralelna obrada baza podataka
2. kao storage area networks (SAN) koji prenosi blokove sa diska u i iz procesora.
Ovde, svi procesori imaju svoju sopstvenu keš memoriju i svoj sopstveni disk ili diskove kao
što je prikazano na slici 3. Čitava komunikacija se obavlja preko mreže, od procesora do
procesora. Na primer, ako jedan procesor P želi da pročita torke sa diska drugog procesora Q,
tada procesor P šalje poruku procesoru Q tražeći od njega podatke. Q dobija torke sa njegovog
diska i isporučuje ih preko mreže drugom porukom koju prima P. Kao što je napomenuto,
shared-nothing arhitektura se najčešće koristi u bazama podataka. Ona je relativno jeftina.
11
Poglavlje 2 Paralelna obrada baza podataka
Kako selekcija torki R koje zadovoljavaju uslov C može biti ulazna relacija u drugu operaciju i
kako želimo da skratimo proteklo vreme i što manje držimo sve procesore zauzete sve vreme,
potrebno je da selekcija relacije R bude podeljena jednako među procesorima.
Primer: Predpostavimo da treba izvršiti selekciju tako da se nađu sve torke relacije R čije su
vrednosti atributa a 10. Predpostavimo takođe da je relacija R podeljena prema vrednosti
atributa a. Tada su sve torke relacije R sa a=10 u jednom procesoru tj. čitava selekcija te
relacije za vrednost atributa 10 je u samo jednom procesoru.
Na primer, ako želimo da izdvojimo B skupova torki, svakoj komponenti možemo dodeliti
integer broj između 0 i B-1, podeliti rezultat sa B i ostatak sačuvati kao broj skupa. Ako je B
takođe i broj procesora, tada svaki procesor možemo dodeliti jednom skupu i pridružiti mu
sadržaj skupa.
12
Poglavlje 2 Paralelna obrada baza podataka
Razmotrimo najpre operaciju selekcije nad relacijom R. Ako za distribuciju torki relacije
R koristimo heš funkciju kako je to prethodno opisano, tada ćemo duple torke relacije R
staviti u isti procesor. Selekciju nad delovima od R koji se nalaze u svakom procesoru
možemo proizvesti paralelno primenom standardnog algoritma koji se izvršava nad jednim
procesorom. Međutim, ukoliko koristimo istu hešing funkciju da bi smo distribuirali torke
relacija R i S, tada možemo raditi paralelno nad delovima R i S koji se nalaze u svakom
procesoru. Međutim, pretpostavimo da R i S nisu distribuirane korišćenjem iste hešing
funkcije a da mi želimo da dobijemo njihovu uniju. U tom slučaju, moramo prvo da kopiramo
sve torke R i S i distribuiramo ih korišćenjem jedinstvene hešing funkcije.
U drugom koraku, svaki procesor pravi uniju torki iz R i S. Kao rezultat, relacije R i S će biti
distribuirane kroz sve procesore. Ako funkcija heširanja h randomizira raspoređivanje torki po
skupovima, tada možemo očekivati da u svakom procesoru bude približno isti broj torki R i S.
Operacije preseka i razlike se takođe mogu izvršiti kao i operacija unije;
13
Poglavlje 2 Paralelna obrada baza podataka
Unarna operacija kao što je selekcija nad relacijom R, se može obaviti za 1/p deo vremena u
odnosu na vreme koje je potrebno za izvršenje operacije sa jednim procesorom, pod uslovom
da je relacija R distribuirana na način kako je to opisano. Broj čitanja diskova (O/I diska) je
isti kao i kod jedno procesorske selekcije. Jedina razlika je u tome što će u proseku biti p
polu punih blokova relacije R, jedan po svakom procesoru, umesto jednog polu punog bloka
relacije R koji treba sačuvati na disku jednog procesora.
Sada razmotrimo binarnu operaciju kao što je join. Heš funkcija se uzima za atribute po
kojima se vrši join kojim se svaka torka dodeljuje jednom od p skupova-grupa, gde je p broj
procesora. Da bi distribuirali torke koje pripadaju jednom procesoru moramo učitati svaku
torku sa diska u memoriju, izračunati heš funkciju i prebaciti sve torke osim jedne
van p torki koja pripada skupu koji se nalazi na njenom sopstvenom procesoru.
Ako računamo join R (X , Y) x S(Y, Z), tada je potrebno da B(R) + B(S) puta pristupimo disku
kako bi pročitali sve torke R i S i odredimo njihove grupe. Tada moramo preneti ((p — 1
)/p) (B (R ) + B(S)) blokova podataka kroz internu mrežu računara do njihovih odgovarajućih
procesora; samo je (l/p )-ta torka već u pravom procesoru i nju nema potrebe prenositi.
Trošak prenosa može biti manji ili veći od troška istog broja I/O pristupa disku zavisno od
arhitekture mašine. Međutim, pretpostavka je da je prenos kroz internu mrežu značajno
jeftiniji od prenošenja podataka između diska i memorije jer u prenosu između procesora ne
postoji potreba za fizičkim prenosom kako što je slučaj prilikom pristupa disku.
U principu možemo pretpostaviti da procesor koji prima podatke mora da ih zapamti na svom
sopstvenom disku i tada lokalno izvrši join nad torkama koje je primio.
Na primer, ako koristimo na svakom procesoru sort-join u dva prolaska, paralelni algoritam će
3(B(R) + B (S ))/p puta pristupiti disku na svakom procesoru, obzirom da je veličina relacija u
svakoj grupi približno B (R )/p i B(S) /p i da ta vrsta join-a tri puta pristupa disku po svakom
bloku. Tom trošku treba dodati 2(B(R) + B (S ))/p pristupa disku po procesoru, kako bi se
uračunalo prvo čitanje svake torke i skladištenje svake torke van procesora koji je primio
torku za vreme izvršenja heš funkcije. Takođe treba dodati troškove slanja podataka ali smo
mi odlučili da su ti troškovi zanemarljivi u odnosu na I/O troškove za iste podatke.
Gornje poređenje ukazuje na vrednost više procesorskog rada. Mada postoji potreba za većim
ukupnim brojem I/O pristupa disku – pet I/O čitanja diska po svakom bloku podataka, umesto
14
Poglavlje 2 Paralelna obrada baza podataka
tri, potrošeno vreme mereno brojem I/O pristupa disku koje potroši svaki procesor pada od 3
(B(R) + B(S)) na 5 (B(R) + B(S)) /p.
Međutim, postoji način poboljšati brzinu paralelnog algoritma tako da ukupan broj I/O pristupa
disku nije veći onoga koji se zahteva za jedno procesorski algoritam. Činjenica je da obzirom
da mi radimo sa manjim relacijama u svakom procesoru, u stanju smo da join algoritam
koristimo lokalno koji koristi samo nekoliko I/O pristupa po bloku podataka. Na primer, ukoliko
su relacije R i S toliko velike da je na jedno procesorskoj mašini potrebno algoritam primeniti
dva puta, na l/p podataka smo u stanju da primenimo samo jedan prolaz algoritma.
Dva I/O čitanja diska po bloku se mogu sprečiti ukoliko se blok prenese u procesor skupa torki
kojem pripada, tako da procesor može da koristi taj blok odmah kao deo svog join algoritma.
Mnogi algoritmi za spajanje (join) i druge relacione operacije imaju takvu mogućnost.
15
Poglavlje 3
16
Poglavlje 3 Distribuirane baze podataka
Sistem distribuiranih baza podataka se može predstaviti grafom ćiji su čvorovi – lokacije,
a grane – komunikacione linije. Svaka lokacija sadrži centralni procesor (CP), lokalnu bazu
podataka (BP) i pripadni DBMS, kao i skup klijentskih računara. Dve lokacije su povezane ako
među njima postoji direktna veza koja funkcioniše, ili ako postoji treća lokacija koja je sa njima
u direktnoj vezi (slika 1.).
Na različitim lokacijama, lokalni sistemi za upravljanje bazama podataka mogu biti različiti.
Tada se DDBMS naziva heterogenim. Ako su DBMS na svim lokacijama isti, DDBMS se naziva
homogenim.
17
Poglavlje 3 Distribuirane baze podataka
Da bi se postigla efikasnost DDBMS-a, sve njegove komponente treba realizovati na način koji
smanjuje mrežnu komunikaciju.
• fragmentacija podataka
• distribuirana obrada upita
• distribuirano (preneto) ažuriranje
• upravljanje katalogom
• distribuirano izvršenje skupa transakcija, što uključuje konkurentnost, integritet,
oporavak i protokole kompletiranja transakcija.
Podaci u distribuiranom sistemu mogu biti podeljenii (partitioned) ili ponovljeni (replicated) u
fizičkoj memoriji.
U slučaju ponavljanja podataka (eng. replicated), jedan logički objekat može imati više fizičkih
reprezentacija (veći broj kopija) na većem broju lokacija. Ponovljenost podataka povećava
raspoloživost podataka i efikasnost pristupa podacima, ali u značajnoj meri usložnjava
ažuriranje podataka, koji moraju biti konzistentni u svim svojim kopijama. Složenost koju
nosi sobom strategija ponavljanja podataka mora biti sakrivena od korisnika, tj. mora biti
obezbeđena nevidljivost ponavljanja podataka.
U slučaju deljenja podataka (eng. partitioned), logički skup podataka (skup podataka sa
logičkog nivoa) treba na neki način podeliti, a zatim delove – fragmente (eventualno sa
ponovljenim kopijama) razdeliti po raznim lokacijama. Logički skup podatka u relacionom
sistemu je relacija, a prirodni fragment relacije (koji je opet relacija) jeste neki njen podskup
definisan uslovom projekcije i restrikcije. Fragmentacija mora biti izvedena tako da se
spajanjem fragmenata može dobiti polazna relacija.
18
Poglavlje 3 Distribuirane baze podataka
FRAGMENTACIJA PODATAKA
Primeri definisanja fragmenata.
19
Poglavlje 3 Distribuirane baze podataka
Razlog za prenošenje podataka može biti to što su podaci na lokaciji različitoj od one na kojoj
se postavlja upit, ili što u upitu učestvuje veći broj relacija sa različitih lokacija. Izbor strategije
za izvršenje operacija na jednoj lokaciji poznat je kao lokalna optimizacija.
Ako se n relacija R1, R2,..., M koje učestvuju u upitu nalaze na k različitih lokacija l1,l2,...,lk,
pri čemu je svaka relacija Ri – u celosti na lokaciji lj, onda se osnovna strategija distribuirane
obrade upita sastoji od sledeća dva koraka:
• Za drugi korak osnovne strategije vezana je odluka o tome koje se relacije prenose i na
koje lokacije. Ta odluka se donosi na osnovu procene količine podataka koji se prenose
izmedu lokacija u svakom pojedinačnom slučaju; izbor relacija i lokacija vrši se tako da
minimizuje protok podataka kroz mrežu.
20
Poglavlje 3 Distribuirane baze podataka
FROM K, KI, I
AND K.OBLAST='roman'
AND K.K_SIF=KI.K_SIF
AND KI.I_SIF=I.I_SIF;
U upitu su prisutne operacije restrikcije nad relacijama K i I, dve operacije spajanja, jedna nad
relacijama K i KI a druga nad relacijama KI i I, kao i operacija projekcije na izlazne atribute
NASLOV, NAZIV i IZDANJE.
Primer 1: relacija I' može se preneti na lokaciju l3, tamo izvršiti spajanje sa
relacijom KI, uz projekciju na izlazne atribute celog upita i atribute spajanja
preostalog upita:
WHERE I'.I_SIF=KI.I_SIF;
Neka je dobijena relacija – rezultat IKI(NAZIV, K_SIF, IZDANJE). Sada se relacija IKI može
preneti na lokaciju l1. i tamo izvršiti spajanje sa relacijom K' i projekcija na izlazne atribute:
WHERE IKI.K_SIF=K'.K_SIF;
21
Poglavlje 3 Distribuirane baze podataka
Prvi korak osnovne strategije distribuiranog izvršavanja ovog upita: sastoji se u izvršavanju,
na lokaciji l1, jednorelacionog upita:
Prvi upit proizvodi relaciju K'(NASLOV, K_SIF) na lokaciji l1 , a drugi upit proizvodi relaciju
I'(NAZIV, I_SIF) na lokaciji l2.
Moguće je preneti relacije K' i I' na lokaciju l3 (analogno, relacije K' i KI na lokaciju l2, odnosno
relacije I' i KI na lokaciju l1) i tamo izvršiti oba spajanja i projekciju na izlazne atribute:
22
Poglavlje 3 Distribuirane baze podataka
i neka svaka n-torka zauzima po 100 bita. Neka je, dalje, procenjeno da ima 1000 romana
u relaciji K, 100 srpskih izdavača u relaciji I i 20000 srpskih izdanja u relaciji KI. Ako se još
pretpostavi da je propusnost mreže 50000 bita u sekundi, a vreme kašnjenja 0.1 sekunda,
onda se za optimalnu strategiju proglašava ona koja ima minimalnu vrednost vremena
komunikacije.
t = 0.2 + (1100*100) / 50000 = 2.4 sekunde (bez prenošenja rezultata na lokaciju l1),
23
Poglavlje 3 Distribuirane baze podataka
Ovaj niz radnji smanjuje količinu prenosa podataka samo ako je:
broj bitova (TEMP1) + broj bitova (TEMP2) < broj bitova (R), i nije efikasan ako se spajanje
izvodi po primarnom ključu relacije R koji je strani ključ relacije S (npr. u slučaju relacija I', KI).
PRENETO AŽURIRANJE
Znači da ukoliko se jedan logički objekat nađe na većem broju lokacija,
ažuriranje jednog logičkog objekta se mora preneti i na sve fizičke
kopije tog objekta.
Kao što je već rečeno, ponavljanje podataka podrazumeva da jedan logički objekat (npr.
relacija ili jedan njen fragment) mogu imati više fizičkih reprezentacija (kopija) na većem
broju lokacija. Posledica ove ideje je da se, s obzirom na potrebu za konzistentnošću podataka
u svim kopijama, ažuriranje jednog logičkog objekta mora preneti i na sve fizičke kopije tog
objekta. Međutim, momentalno prenošenje ažuriranja na sve kopije može da onemogući (ili
da nedopustivo dugo odloži) uspešno izvršenje ažuriranja u slučaju da je bilo koja od lokacija
u padu; time ponavljanje podataka smanjuje umesto da povećava raspoloživost podataka.
Jedan široko prihvaćeni pristup prenošenju ažuriranja oslanja se na koncept primarne kopije,
i sastoji se u sledećem postupku:
• jedna kopija svakog ponovljenog objekta proglašava se za primarnu kopiju tog objekta,
pri čemu primarne kopije različitih objekata mogu biti na različitim lokacijama
• operacija ažuriranja objekta smatra se logički izvršenom čim se izvrši ažuriranje primarne
kopije tog objekta; ažuriranje ostalih kopija je sada u nadležnosti lokacije na kojoj je
primarna kopija, ali se mora izvršiti pre kompletiranja transakcije.
Ovaj postupak zahteva primenu protokola dvofaznog kompletiranja transakcije, koji se pak ne
može uspešno sprovesti ako je bar jedna relevantna lokacija u padu, što je nezanemarljivo
čest slučaj. Ukoliko se dopusti ažuriranje kopija i posle kompletiranja transakcije, ne može
se garantovati konzistentnost podataka u svim njihovim kopijama. Ipak, neki komercijalni
distribuirani sistemi pribegavaju tom rešenju jer puno poštovanje ažuriranja svih kopija pre
kompletiranja transakcije može bitno da poveća vreme obrade.
UPRAVLJANJE KATALOGOM
katalog je sistemska baza podataka koja pored ostalog u slučaju
distribuiranog sistema sadrži podatke o lokacijama na koje su podaci
razdeljeni i (eventualno) ponovljeni.
24
Poglavlje 3 Distribuirane baze podataka
Katalog je, kako je već istaknuto ranije, sistemska baza podataka koja sadrži podatke o
baznim relacijama, pogledima, indeksima, korisnicima, itd, a u slučaju distribuiranog sistema,
i o načinu i lokacijama na koje su podaci razdeljeni i (eventualno) ponovljeni.Sam katalog u
distribuiranom sistemu može biti centralizovan (samo na jednoj lokaciji), potpuno ponovljen
(na svim lokacijama po jedna kopija kataloga), podeljen (na svakoj lokacijije deo katalogakoji
se odnosi na objekte sa te lokacije) ili kombinovan (katalog je podeljen, ali na jednoj lokaciji
postoji i jedna centralna kopija kompletnog kataloga).
• slog kataloga za svaki objekat "rođen" na toj lokaciji (tj. čija je prva kopija kreirana na toj
lokaciji); ovaj slog sadrži i informaciju o tekućoj lokaciji objekta (ako je premešten)
Sistemski identifikator objekta, koji se nikada ne menja (dok se objekat ne ukloni), sastoji se
od identifikatora korisnika koji je kreirao prvu kopiju tog objekta, lokacije sa koje je kreirana,
lokalnog imena objekta (koje mu je dao korisnik pri rođenju) i lokacije na kojoj je rođen.
Pronalaženje objekta, kada je dato njegovo lokalno ime ili sinonim, počinje preslikavanjem
lokalnog imena (automatski), odnosno sinonima (pregledanjem tabele sinonima), u sistemski
identifikator objekta. Zatim se, prema sistemskom identifikatoru, nalazi lokacija rođenja
objekta, pristupa joj se i u slogu koji odgovara tom objektu, pronalazi se lokacija na kojoj
je trenutno smešten. U sledećem koraku pristupa se (u opštem slučaju udaljenoj) lokaciji na
kojoj je objekat smešten, i lokalnim operacijama pronalazi objekat.
Distribuirana baza podataka je baza podataka koja se ne nalazi u celini na jednom računaru,
već je razdeljena na više lokacija koje su povezane mrežom.
25
Poglavlje 3 Distribuirane baze podataka
Svaka lokacija, koja se zove i čvor mreže, ima svoj vlastiti, autonomni sistem za upravljanje
bazama podataka, sa vlastitom kontrolom, upravljačem transakcija i opravka od pada, i
ostalim važnim funkcijama, a ima i svoj procesor i ulazno/izlazne uređaje.
Aplikacije istovremeno pristupaju i menjaju podatke na više različitih baza podataka u mreži,
gde mreža može biti LAN ili WAN.
26
Poglavlje 3 Distribuirane baze podataka
Na slici je prikazan primer koji pokazuje komunikaciju između upravljača baze podataka u
distribuiranim sistemima. Upravljači bi trebali da održavaju podatke svojih baza kako bi ostali
identični. Svako ažuriranje mora biti praćen na svim menadžerima i mora da ih tera da
obavljaju slično ažuriranje.
27
Poglavlje 3 Distribuirane baze podataka
Pretpostavka o homogenosti DSUBP, tj. pretpostavka da sve lokacije u DSUBP poseduju isti
DBMS pokazuje se kao prejako ograničenje u današnjim uslovima, kada značajne količine
podataka i aplikacija postoje na raznim računarima, pod različitim operativnim sistemima i
pod kontrolom različitih DBMS. Potreba za istovremenim pristupom ovakvim podacima unutar
jedne aplikacije, ili čak i jedne transakcije, postavlja zahtev pred proizvođače DBMS da
obezbede podršku heterogenim DDBMS. To znači da, pored nezavisnosti pristupa podacima
i obrade podataka od lokacije, fragmentacije, ponavljanja podataka, mašine, operativnog
sistema i mrežnog protokola, heterogeni distribuirani sistem mora da obezbedi i nezavisnost
od SUBP na pojedinim lokacijama.
Druga komponenta SMBP je globalni upravljač transakcija. DBMS obezbeđuje, pored lokalnih
transakcija (nad jednim SUBP), i upravljanje globalnim transakcijama. Globalne transakcije se
sastoje od većeg broja podtransakcija koje se izvršavaju nad pojedinačnim (različitim) SUBP,
i sa njihovog aspekta se ponašaju kao lokalne transakcije.
SMBP uključuje i skup servera, po jedan za svaki lokalni DBMS, koji se ponašaju kao veza
između globalnog upravljača transakcija i lokalnog DBMS. Svaka globalna transakcija predaje
28
Poglavlje 3 Distribuirane baze podataka
Oblast sistema multibaza je još uvek otvorena istraživačka oblast. Osnovni cilj ovih sistema
je da kroz upravljanje globalnim transakcijama održavaju konzistentnost multibaze.
29
Poglavlje 3 Distribuirane baze podataka
Spoljni napadi na baze podataka izvode hakeri koji dolaze sa eksterne mreže, oni deluju na
zaštitni zid poslovnog okruženja s ciljem da prođu kroz njega i dođu do bitnih informacija ili da
naruše operativnost sistema. Zaštita unutar poslovnog okruženja postaje jedna od najvažnijih
stvari prilikom zaštite baza podataka. Taj vid zaštite je izuzetno važan zbog korisnika koji
imaju pristup mrežnim resursima iznutra.
Kada dođe do takvog vida pretnje, tada pretnje ne dolaze samo spolja već i iznutra od strane
zapošljenih koji imaju pristup bitnim podacima pri čemu je teško definisati preventivno polje
zaštite. Tada zaštitni zid nije od neke koristi. Prilikom zaštite podataka iznutra, mora se znati
ko može imati pristup kom delu baza podataka.
U daljem tekstu biće prikazane najkritične pretnje, kao i detaljna objašnjenja i predlog
mogućih rešenja. Spisak je preuzet sa sajta GTD-a (Global terrorism database). [CODEP]
30
Poglavlje 3 Distribuirane baze podataka
3. Do uvećavanja privilegije dolazi tako što sami napadači iskoriste ranjivost softverske
platforme baze podataka i tako povećaju privilegije pristupa uobičajnog korisnika. Običan
korisnik tada dobija privilegije administratora i samim tim mu se sva vrata otvaraju. Ranjive
tačke se mogu pronaći u skladištenim procedurama, ugrađenim funkcijama, implemetacijama
protokola, SQL upita. Kako bi se sprečio ovakav način upada uvode se kombinacije
tradicionalnih sistema za detekciju upada i kontrola pristupa na nivou upada. Sami ISP ispituje
saobraćaj i javlja o aktivnostima koje se dešavaju. Za razliku od zaštitnog zida on nema
mogućnost da zaustavi saobraćaj već samo da ga detektuje i prijavi. Tada se preuzimaju
odgovarajući koraci.
4. Sami operativni sistemi sadrže ranjive tačke, i dodatni servisi koji se instaliraju u server
baze podataka te mogu dovesti do pojave neovlašćenog pristupa, oštećenja podataka ili
do odbijanja izvršenja usluge. Kako bi se sprečio napad na platformu potrebno je stalno
ažuriranje softvera i sistema za sprečavanje upada. To znači da je potrebno redovno krpti
sistem kako bi sistem bio što sigurniji.
SQL INJEKCIJA
5. SQL injekcija je napadačka tehnika koja se koristi kako bi se ugrozila sigurnost web
aplikacije koja konstruiše SQL upite iz korisnički unesenih podataka. SQL injekcija je tehnika
koja se sastoji od upisivanja odgovarajućeg teksta u polja obrasca koja aplikacija koristi u
svojim SQL upitima, tako da upiti iz baze vrate podatke koje inače ne bi. Ova metoda, kao i
većina hakerskih postupaka, počiva na metodi pokušaja i grešaka i temelji se na pogađanju
strukture SQL upita i imena atributa i tablica.
Teško je reći da postoji siguran način da se spreče SQL injekcije. Kako bi se smanjile
verovatnoće njihovih događaja mogu se koristiti neke od poznatih tehnika:
• Proveravati ulaz
• Zabraniti navodnike i escape znakove u ulazu
• Koristiti ograničene parametre
• Zaključavati sistem
• Koristiti uskladištene procedure za pristup bazi podataka
• Izolovati web server
• Podesiti prijavljivanje grešaka
• Enkripcija podataka
31
Poglavlje 3 Distribuirane baze podataka
7. Skladištenje arhiviranih baza podataka često je nezaštićeno od napada. Kao rezultat toga,
nekoliko ozbiljnih previda u pogledu bezbednosti su doveli do krađa traka sa arhiviranim
podacima iz baze podataka. Kako bi se sprečilo otkrivanje podataka iz arhive svi podaci iz
baze bi trebali biti šifrovani.
9. Postoji sve veći broj ranjivih tačaka u oblasti bezbednosti u komunikacionim protokolima
u bazi podataka. Kao što se može i videti u GTD-u [CODEP] :" Četiri od sedam bezbednosnih
intervencija kod dva najnovija IBM DB2 FixPacks odnose se na ranjivosti 1 protokola. Na
sličan način, 11 od 23 ranjivih tačaka kod baza podataka koje su otklonjene u najnovijoj
četvoromesečnoj zakrpi (patch) Oracle-a odnose se na protokole. Malverzantske aktivnosti
koje se ciljno usmeravaju na ovakve ranjive tačke mogu da variraju po obimu od
neovlašćenog pristupa podacima, preko nanošenja štete podacima, pa sve do odbijanja
pružanja usluge. Crv SQL Slammer2, na primer, je iskoristio slabu tačku kod Microsoft SQL
Server protokola da bi iznudio odbijanje pružanja usluge. I da situacija bude još gora, nikakvi
zapisi o ovakvim malverzantskim vektorima neće postojati u lokalnim dnevničkim zapisima
32
Poglavlje 3 Distribuirane baze podataka
33
Poglavlje 4
Domaći zadatak
Prateći korake osnovne strategije distribuiranog izvršavanja upita, treba sračunati vreme
izvršenja upita kojim će se naći sve knjige koje u svom naslovu sadrže reči "Database
Systems", nazive njihovih izdavača i tiraž u kojem su te knjige izdate a pod pretpostavkom
da se da se upit izvršava na lokaciji I3. Prenos relacija na druge lokacije vršiti po sopstvenom
izboru koji treba opisati u rešenju.
Pri rešavanju zadatka koristiti primer iz sekcije "Efikasnost nabrojanih varijanti prenosa".
ZADATAK 2: Navesti što je potrebno uraditi da bi se spajanje JOIN dve tabele efikasno obavio
na računaru sa više procesora?
34
Zaključak
ZAKLJUČAK
Šta smo naučili u ovoj lekciji?
U prvom delu predavanja se govori o zaštiti baza podataka što pretstavlja veliki problem u
korišćenju baza podataka. Da bi podaci smešteni u bazama podataka bili što bolje sačuvani,
zaštita se vrši na više nivoa.
35