Grid Računalni Sustavi - Kolokvij I

1.
DEFINICIJA I PREGLED GRID RAUNALNIH SUSTAVA

1.1 Uvod
Pojam grid raunalnih sustava (grid sustavi, Grid) razvio se kao vaan sinonim za high
throughput computing (HTC). Za razliku od nekih drugih raunalnih sustava gdje se
performanse mjere npr. koliinom floating point operacija u sekundi koje moe obaviti neko
raunalo, HTC raunalstvo bavi se koliinom posla koju cijeli raunalni sustav moe
obaviti tijekom nekog perioda vremena. Grid sustavi nisu revolucionarna tehnologija. Nastali
su evolucijom postojeih tehnologija poput: distribuiranog raunalstva, web servisa, Interneta,
razliitih sigurnosnih mehanizama zasnovanim na kriptografskim tehnikama te tehnologije
virtualizacije. Grid tehnologija preuzima sve navedene tehnologije kako se komponirao sustav
koji daje resurse za obavljanje specifinih zadataka. Zadaci mogu biti razliiti: simuliranje
interakcije estica u fizici visokih energija, simuliranje trita dionica, predvianje
zemljotresa, itd.
Jedan od kljunih elemenata evolucije grid sustava je virtualizacija. Virtualizacija u grid
sustavima znai beavnu integraciju geografski distribuiranih i heterogenih sustava. Sve to
treba omoguiti korisniku transparentno koritenje servisa sustava. Korisnici ne trebaju brinuti
o lokaciji resursa. Sa strane korisnika postoji samo jedna toka ulaza u sustav. Oni alju svoj
zahtjeve na taj ulaz, a dalje je na grid sustavu da locira dostupne i upotrebljive resurse.
Jedan od bitnih pojmova u grid sustavima je i virtualna organizacija (VO). Ona je definirana
kao dinamika kolekcija vie organizacija s ciljem da se omogui koordinirano dijeljenje
resursa. VO se osnivaju u svrhu rjeavanja odreenog raunalnog izazova.
Ian Foster daje tri testna pitanja za odreivanje da li je raunalni sustav grid sustav:
koordinacija resursa bez sredinje kontrole
zasnovana na otvorenim standardima
iznimna kvaliteta servisa
Grid sustavi mogu biti:
computational grid (grid raunalno procesiranje)
data grid (pohrana velike koliine podataka)
kombinacija prethodnog
1.2 Grid sustavi usporeeni s ostalim distribuiranim sustavima
Ostali distribuirani sustavi najee daju servise vezane za jedno organizaciju te imaju
centralizirano upravljanje. Grid sustavi nemaju centralizirano upravljanje i sustav korist veliki
broj organizacija. Ostali distribuirani sustavi najee imaju heterogene resurse, ali
heterogenost je limitirana politikom jedne organizacije. Heterogenost grid sustava je
naglaena neovisnou viestrukih organizacija. Ostali distribuirani sustavi najee koriste
klijent-server model u kojem se dijeli neki informacijski resurs. Grid sustavi ne dijele samo
informacije , ve i hardver i aplikacije. Za razliku od ostalih distribuiranih sustava , grid
sustavi podravaju otkrivanje resursa i nadgledanje istih na globalnoj skali. Distribuirani peerto-peer sustavi omoguavaju globalne servise, ali vrlo specijalizirane i bez puno brige o
kvaliteti servisa te sigurnosnim aspektima.
1.3 Motivacija koritenja grid sustava
Motivacija proizlazi iz usmjerenosti ka VO te osiguranju propusnosti potrebne za HTC.
1.3.1 Omoguavanje formiranja virtualnih organizacija
Grid sustavi omoguavaju suradnju izmeu viestrukih organizacija u dijeljenju resursa. Ta
kolaboracija nije ograniena na dijeljenje i izmjenu datoteka ve podrazumijeva i direktan
pristup raunalnim resursima. Organizacije mogu biti lanovi vie VO. Svaka od tih VO moe
imati razliite politike administrativne kontrole. Resursi dijeljeni izmeu VO mogu bit:
1
podaci
razne vrste hardvera
procesni resursi
informacije o raspoloivim resursima
Pripadnou nekoj od VO korisnici lanovi neke organizacije osiguravaju prava na koritenje
resursa pod kontrolom te VO.
1.3.2 Pouzdanost i tolerancija pogreaka
Pretpostavimo da je korisnikov Job (posao) poslan na izvravanje. Posao alocira odgovarajue
resurse (vor na gridu) ovisno o dostupnosti i politici rasporeda (schedulling policy) grid
sustava. Pretpostavimo pad vora (crash) dok izvrava posao. Grid osigurava da se posao
automatski ponovo poalje nekom drugom dostupnom voru.
Data grid definiran je kao grid za upravljanje i dijeljenje velike koliine podataka. Moe se
koristiti u razne svrhe. Jedna od njih je da se povea brzina dohvata datoteka. Vie kopija
podataka moe biti distribuirano na razliitim geografskim pozicijama. Ako korisnik treba
podatke oni mogu biti dohvaeni s najblieg stroja koji dri podatke. Dalje, ako su neki od
strojeva u data gridu iskljueni, drugi strojevi pruaju rezervu. Ako se zna (monitoring) da
odreeni stroj ee dohvaa odreene podatke, oni mogu biti smjeteni na neki bliski stroj.
Oba primjera ilustriraju koncept virtualizacije. U prvom sluaju korisnik nita nije znao o
padu vora, a u drugom nije znao s kojeg stroja dohvaa podatke.
1.3.3 Balansiranje i dijeljenje promjenjivih resursa
Balansiranje i dijeljenje resursa su dva najbitnija aspekta upravljanja resursima u grid sustavu.
To omoguava ravnomjeran raspored zadataka na dostupne resurse. Pretpostavimo da je neki
dio grida preoptereen. Grid algoritmi rasporeivanja moe premjestiti neke od poslova na
dijelove sustava koji su manje optereeni. Sve je to opet transparentno za korisnika.
1.3.4 Paralelno procesiranje
Neki zadaci (task) se mogu razbiti u vie pod-zadataka, od kojih svaki moe biti pokrenut na
razliitom stroju. Npr. matematiko modeliranje, simulacija subatomskih estica, renderiranje
slika, 3D animacija. Takve aplikacije se mogu napisati da se pokreu kao neovisni zadaci i
rezultati pod-zadataka se kombiniraju kako bi se dobio eljeni izlaz. Meutim, ne mogu se svi
zadaci razbiti na takav nain. Moe postojati i ogranienje na koliko se pod-zadataka moe
razbiti neki zadatak, to limitira maksimalno poveanje performansi bez obzira na raspoloive
resurse. Stoga postoji ogranienje na vrste zadataka koje se mogu uspjeno izvravati u grid
sustavu.
1.3.5 Quality of Service (QoS) kvaliteta servisa
Grid se moe koristiti na nain da korisnik poalje zadatke na izvravanje i dobije izlazne
rezultate, a onda se korisniku naplauje koritenje resursa na osnovu neke metrike, poput
procesorskog vremena potrebnog za izvrenje zadatka. U takvim sluajevima gdje se vodi
neka vrsta raunovodstva za usluge pruene korisniku, korisnik oekuje i odreenu kvalitetu
servisa. To se specificira u service level agreement (SLA). SLA specificira minimalnu
kvalitetu servisa, dostupnosti, itd. , te cijene koritenja usluga. Moe se za odreenu cijenu
korisniku ponuditi i prioritet u izvravanju zadataka tj vii nivo QoS. Isto tako mogue je
izvriti rezervaciju resursa za velike poslove. rezervacijom se moe postii da grid u trenutku
pojave vaeg velikog posla, (preemptivno) prekine niz poslova u izvravanju te na osloboene
resurse rasporedi vae poslove. ini vam se da se ponavlja pria koja vai i za druge
distribuirane sustave. Ono to je novo u grid sustavima je da sve ovo treba funkcionirati za
korisnike ukljuene u viestruke organizacije te sa minimumom centralne kontrole.
2
1.4 Osnovni koncepti grid arhitekture

Grid arhitektura odnosi se na one aspekte grid sustava koji se uzimaju u obzir prilikom
dizajna i implementacije. Slijedi kratak pregled koncepata koji e biti opirnije razraeni u
slijedeim poglavljima.
Grid arhitektura je slojevita arhitektura. Najvii sloj su grid aplikacije i korisniki API
(application interface). Zatim imamo middleware koji ukljuuje softver ili pakete koje
koristimo za implementaciju grida, poput Globus Toolkita ili gLite. Trei sloj obuhvata
resurse koji su dostupni grid sustavima poput ureaja za pohranu podataka, procesnih
kapaciteta i drugog namjenskog hardvera. etvrti sloj je mrea koja se sastoji od switcheva i
routera te protokola koji slue za komunikaciju izmeu elemenata grid sustava.
1.4.1 Sigurnost
Poeljno je da grid sustav moe osigurati tri sigurnosna elementa. To su:
pojedinana prijava (single sign-on)
autentikacija
autorizacija.
Pojedinana prijava znai da se korisnik moe jednom logirati u sustav i nakon toga moe
pristupati resursima sustava u odreenom vremenu. Autentikacija se odnosi na osiguranje
dokaza identiteta korisnika. Npr. kad se logirate na email raun, vi se autenticirate serveru
davanjem korisnikog imena i zaporke. Autorizacija je proces kojim se utvruju privilegije
pojedinog korisnika. Autorizacija se obavlja nakon autentikacije. Grid sustavi moraju
osigurati sustav za upravljanje vjerodajnicama (credential management) i delegaciju
privilegija.
1.4.2 Upravljanje resursima (resource management)
Grid mora obavljati optimizaciju upotrebe resursa kako bi se osigurala maksimalna
propusnost. Kad korisnik poalje posao na obradu, grid sustav koristi servise otkrivanja
raspoloivih i odgovarajuih resursa. Komponenta grid sustava koju nazivamo grid
rasporeiva (grid scheduller) ima zadatak da odlui na koji resurs i u koje vrijeme e poslati
odreeni zadatak. Odluka o rasporedu donosi se na osnovu niza faktora. Npr. ako su neki
poslovi oznaeni da ovise o izvrenju drugih poslova, rasporeiva to mora uzeti u obzir te
poslove izvravati sekvencijalno. Odluka o rasporedu takoer moe ovisiti o prioritetu posla
vezano za SLA.
1.4.3 Upravljanje podacima (data management)
Upravljanje podacima u grid sustavima vezano je za razliite aspekte upravljanja velikom
koliinom podataka. To ukljuuje siguran pristup podacima, replikaciju i migraciju podataka,
upravljanje metapodacima, indeksiranje, raspored poslova koji vodi obzira o lokaciji podataka
(data aware schedulling). Data aware schedulling treba posjedovati algoritme kojima e
odrediti na kojemu je mjestu najpovoljnije izvriti neku obradu podataka s obzirom na njihov
smjetaj. Ponekad e to biti blizu lokacije podataka, a ponekad e zbog preoptereenja
procesnih resursa na lokaciji biti potrebno transferirati podatke na neko drugo mjesto. Moduli
za upravljanje podacima trebaju osigurati brz, siguran i pouzdan mehanizam prijenosa
podataka unutar grid sustava.
1.4.4 Otkrivanje informacija i nadgledanje (Information discovery and
monitoring)
Grid rasporeiva treba imati informacije o slobodnim resursima da bi odredio koje resurse
dodijeliti odreenom poslu. Ove informacije pribavlja servis za otkrivanje informacija. Unutar
ovog servisa odrava se lista raspoloivih resursa i njihov trenutni status. Kada grid
3
rasporeiva postavlja upit servisu za otkrivanje informacija on obino postavlja ogranienja

na nain da trai resurse koji su relevantni (na kojima se posao moe izvriti) i najprikladniji
za izvrenje posla. Npr. moe traiti resurse ija procesna snaga omoguava izvrenje posla u
odreenom vremenu.
Servis za otkrivanje informacija mogu biti organizirani i hijerarhijski gdje servisi nieg nivoa
prikupljaju i konsolidiraju informacije te alju servisima vieg nivoa. Takav pristup je
uobiajen za grid sustave.
1.5 Osnovni grid standardi
Ovdje je dan pregled nekih otvorenih standarda koritenih u implementaciji grid sustava.
1.5.1 Web servisi
OGSA (Open grid service architecture) definira grid servise kao ekstenziju web servisa. etiri
glavne specifikacije vezane za web servise su:
1. eXtensible Markup Language(XML) XML je jezik zasnovan na oznakama iji je cilj
koritenje zajednikog formata za izmjenu podataka kroz razliita suelja. Sve poruke
koje se izmjenjuju kroz web servise koriste XML format.
2. Simple Object Access Protocol(SOAP )- SOAP je komunikacijski protokol zasnovan
na porukama kojeg mogu koristit dvije strane u komunikaciji preko Interneta. SOAP
poruke se zasnivaju na XML protokolu i stoga su neovisne o platformi i jeziku. SOAP
poruke se obino transmitiraju preko HTTP protokola pa tako za razliku od RPC ili
CORBA poruka lako izlaze na kraj s vatrozidima.
3. Web Service Definition Language(WSDL) WSDL je XML dokument koji se koristi
za opis suelja web servisa.
4. Universal Description, Discovery and Integration (UDDI) UDDI je na XML
zasnovan registrator (registry) koji slui za pronalazak web servisa na Internetu. To je
specifikacija koja omoguava da pojedini pruatelj web servisa prui informacije o
sebi i o ponuenim web servisima. Tu se nalazi informacija kako pronai i kako se
vezati na odreene web servise.
1.5.2 Open grid service architecture (OGSA)
OGSA definira funkcionalnost niza web servisa potrebnih za implementaciju grida te ih
naziva grid servisima. Ovim standardom se nastoji da pojedini servisi poput otkrivanja
resursa, upravljanja resursima, sigurnosti , itd. poprime standardiziranu formu. Definira i niz
ne nunih, ali korisnih servisa za grid sustave.
1.5.3 Open grid services infrastructure (OGSI)
OGSI daje detalje implementacije OGSA arhitekture. To je formalna i tehnika specifikacija
potrebna za implementaciju grid servisa. OGSI daje opis WSDL za definiciju grid servisa.
Takoer obuhvaa mehanizme za kreaciju, upravljanje i interakciju meu grid servisima.
1.5.4 Web Services Resource Framework (WSRF)
Uobiajeni web servis ne odrava stanje izmeu poziva. To ograniava stvari koje se mogu
obaviti s web servisima. To se ogranienje najee zaobilazi koritenjem baze podataka ili s
cookie-ima. WSRF omoguava jednostavniji i standardizirani nain pohrane i povlaenja
informacija o stanju servisa. To omoguava jednostavnije kreiranje niza grid aplikacija
kojima je bitno da web servis moe zadravati stanje.
1.5.5 OGSA-DAI
Open Grid Services Architecture-DataAccessandIntegration(OGSA-DAI) je projekt kojim
se nastoji razviti middleware za pristup i integraciju razliitih izvora podataka u grid
sustavima. To obuhvaa razliite sustave pohrane npr. relacijske i XML bate podataka. Preko
OGSA-DAI web servisa mogu se dohvaati, mijenjati i transformirati podaci na
standardiziran nain bez obzira na format pohrane.
1.6 Kratak pregled Grid projekata
Razvoj grid projekata potaknut je s ciljem rjeavanja raznih znanstvenih problema koji
zahtijevaju velike raunalnih resursa kao i to generiraju velike koliine podataka. Npr.
CERN je pustio u pogon jedan od najveih znanstvenih instrumenata Large Hadron Collider
(LHC). Ovaj ureaj u svakodnevnom radu generira ogromne koliine podataka koje treba
pohraniti, obraditi i opet pohraniti rezultate obrade. Radi se o koliini obrade i podataka koju
ni jedan super-raunalo ne moe obraditi. Zato je odabrana grid arhitektura (kao virtualno
super-raunalo!). LHC je potaknuo niz istraivakih projekata diljem Europe. U Americi je
vie panje posveeno Gridu kao openitoj strukturi za raunalne probleme. Globus projekt je
producirao Globus toolkit koji se iroko koristi za konstrukciju grid sustava. rasporeiva
poslova razvijen u okviru Condor projekta dao je znaajan doprinos HPC-u. I u drugim
dijelovima svijeta radi se na znaajnim grid projektima.
1.6.1 Ameriki projekti
Globus projekt uglavnom se bavi tehnologijama vezanim za grid infrastrukturu te
izdaje i odraava skup softverskih alata Globus toolkit (GT). GT sadrava slojevit niz
grid alata potrebnih za realizaciju osnovnih servisa vezanih za sigurnost, otkrivanje
resursa, upravljanje resursima, komunikaciju, itd. U posljednjim verzijama zasnovan
je na web servisima.
Open Science Grid(OSG) je Amerika grid infrastruktura za znanstveno istraivanje.
U okviru OSG organizirana je ogromna koliina raunalnih i sustava pohrane
podataka. Trenutno obuhvaa 50-ak lokacija irom SAD, Azije i June Amerike.
Sastoji se od dva grid sustava. Integracijskog grida i Produkcijkog grida. Integracijski
grid namijenjen je znanstvenoj zajednici te razvoju aplikacija i servisa. Produkcijski
grid namijenjen je industriji i osigurava stabilno procesno i okruenje za pohranu
podataka. Produkcijski servisi su Computing Element (CE), Storage Element (SE),
Virtual organization (VO), Membership service i Service Catalouge.
TeraGrid je grid sustav koji se sastoji od high-end raunalnih i resursa pohrane
podataka distribuiranih na 7 lokacija. Za taj sustav razvijen je poseban softver nazvan
Common TeraGrid Software Stack (CTSS). CTSS je instaliran na svim raunalima to
osigurava homogenost servisa potrebnu za odreene grid aplikacije.
1.6.2 Europski projekti
EGEE (Enabling Grids for E-sciencE) je projekt koji nastoji osigurati raunalne
resurse kako za akademsko istraivanje tako i za industriju. EGEE grid je tzv.
worldwide grid te korisnici nisu limitirani geografskom lokacijom. Trenutno EGEE
osigurava stabilnu i robusnu grid infrastrukturu (>30000CPU, >5PB za pohranu
podataka), te obuku korisnika. Ovaj grid se koristi za razliite namjene. Trenutno
aplikacije se mogu podijeliti na dva podruja. fizika visokih energija (HEP) i
biomedicina.
D-Grid inicijativa je Njemaka grid platforma. Orijentirana je prvenstveno na
znanstvenu zajednicu tj. procesiranje i pohranu znanstvenih podataka.
CERN Zbog potrebe za pohranom i statistikom analizom velike koliine podataka

CERN je posluio kao inkubator za razvoj velikog broja tehnologija dananjih grid
sustava. Skup grid middleware rjeenja razvijen u okviru Alice eksperimenta AliEn
(Alice Environment) je osnova gLite midllewarea. AliEn je bio prvi grid middleware
zasnovan na web servisima.
I dalje svaki od trenutno 4 eksperimenta sudjeluje u razvoju specifinih grid rjeenja.
U okviru CERN-a djeluje WLCG (Worldwide LHC Computing Grid) koji okuplja 170
raunalnih centara u 34 zemlje.
GEANT je projekt nastao suradnjom 30 Europskih zemalja. Sastoji se od 26
nacionalnih istraivakih mrea (NREN) . Njegov cilj je bio razvoj gigabitne mrene
okosnice (backbone) na Europskom nivou. Jedan od ciljeva je i osiguranje QoS unutar
mree. Projekt Geant zavrio je u Lipnju 2005. Upravo se dovrava nova mrea
Geant2 koja osim to iri kapacitete, nastoji pruiti i daljnja unapreenja vezana za
QoS.
Cro-grid je hrvatska inicijativa iji je cilj povezati grozdove u mreu koristei
CARNet i to na nain da su na raspolaganju znanstvenoj i akademskoj zajednici te da
ih se moe ponuditi gospodarstvu.
2. UPRAVLJANJE PODACIMA
2.1 Uvod
Kako grid sustave moemo podijeliti u raunalne gridove i podatkovne gridove, upravljanje s
podacima u grid sustavima moemo promatrati u okviru raunalnih gridova ili kao zasebnu
kategoriju. Zasebno gledano to znai sustav za distribuiranu pohranu podataka koji podrava
pristup, sinkronizaciju i koordinaciju distribuiranih podataka pohranjenih na meusobno
udaljenim mjestima.
U prvoj definiciji smatramo da ne postoji znaajan prijenos podataka tj. da je problem
raunanja izraeniji nego problem prijenosa podataka. Tada se obino podaci mogu prenijeti
zajedno s izvrnom datotekom na mjesto raunanja.
Druga definicija fokusira se na procesiranje velike koliine distribuiranih podataka. To su
podaci koji zbog svog opsega i intenzivnog pristupa istima ne mogu se pohraniti na jednom
mjestu (serveru) bilo zbog procesnih kapaciteta servera ili mrene propusnosti.
Jedno od rjeenja je primjena data grida kojim se podaci distribuiraju po razliitim lokacijama
(lokalno ili udaljeno) te se nastoji iskoristiti procesna snaga i kapacitet pojedinanih resursa
kako bi se postigla ujednaenje optereenja.
DDBMS (distributed database management system) i data grid se koriste sline okoline
(fiziki distribuirana mrea), ali postoje razlike. Data grid je u potpunosti heterogen to se
nastoji izbjei kod DDBMS-a. Heterogenost se oituje u razliitoj reprezentaciji podataka i
razliitim sustavima za pohranu podataka. DDBMS uobiajeno koristi homogene izvore
podataka. Drugo, DDBMS moe u potpunosti kontrolirati podatke tj. operacije kao to su
insert, delete, update su atomine operacije koje osiguravaju konzistenciju svih podataka.
Data gridovi obino nemaju potpunu kontrolu izvora podataka. To znai da mogu dopustit
istovremene operacije pisanja i itanja (posljedice?). Kao posljednje, data gridovi operiraju s
mnogo veim koliinama podataka te sustav mora biti izrazito skalabilan.
2.2 Zahtjevi upravljanja podacima
U okruju grid sustava podaci su geografski disperzirani i heterogeni. Tradicionalni naini
upravljanja podacima poput insert,delete i update operacije koje se koriste u relacijskim
bazama podataka nisu prikladni za data grid. Sagledavajui karakteristike podataka u data
gridovima moemo doi do zahtjeva za upravljanje.
2.2.1 Statiki podaci i dinamiki podaci

Podatke u data gridovima moemo podijeliti na statike i dinamike. Statiki podaci su oni
koji nakon to su generirani samo se itaju i analiziraju, ali se nikada modificiraju ili
auriraju. Primjer takvih podataka je npr. DNA podaci. Nakon to su oitani i pohranjeni na
jedno ili vie mjesta pohrane, DNA podaci se u analizama samo usporeuju. Dinamiki
podaci, poput podataka u poslovnim aplikacijama predmet su uestale promjene poput
auriranja, transakcijskih operacija, praenja stanja eksternih sustava.
U sluaju statikih podataka skup operacija je relativno jednostavan. Operacije obuhvaaju
pristup podacima i pomicanje podataka na vor obrade te vraanje rezultata korisniku obrade.
Takav nain obrade pogodan je samo za neke tipove grid aplikacija jer grid aplikacije osim
to itaju podatke mogu i generirati podatke. Osim toga mogu premjetati podatke izmeu
razliitih lokacija pohrane. Podaci mogu biti replicirani na nizu lokacija to u sluaju da se
radi o dinamikim podacima uvodi problem sinkronizacije. Pohrana na heterogenim
sustavima dovodi do potrebe realizacije unificiranog naina pristupa. Ako neki proraun treba
podatke koji su disperzirani na vie sustava pohrane treba postojati mehanizam njihove
integracije.
Prema svemu navedenome osnovni problemi koje treba efikasno rijeiti upravljanje podacima
u grid sustavu su:
unificiran pristup podacima
replikacija podataka
sinkronizacija podataka
integracija podataka
prijenos podataka
2.3 Funkcije upravljanja podacima u grid sustavima
2.3.1 Upravljanje replikama podataka
Replikacija podataka uvedena je u grid sustavima kao metoda potreban za optimizaciju
pristupa podacima. Identine kopije (replike) podataka se kreiraju i distribuiraju na razliite
lokacije pohrane podataka. Korisnici, odnosno njihove aplikacije mogu pristupiti najbliim
replikama umjesto da uvijek pristupaju originalnim podacima te time reducirati latenciju u
pristupu podacima. Servis za upravljanje replikama (data replication management service
RMS) odgovoran je za slijedee:
kreiranje replike skupa ili dijela skupa podataka,
operacije dodavanja, brisanja i modificiranja replika,
registracija novih replika u RMS,
katalogiziranje registriranih replika na nain da korisnici mogu dobiti informacije o
pristupu replikama,
selektiranje replika prema kriterijima koji najbolje odgovaraju zahtjevima korisnika
odnosno aplikacija,
odravanje konzistencije izmeu replika na nain da se automatski auriraju replike
nakon to je originalni podatak izmijenjen.
2.3.2 Upravljanje meta-podacima
Meta-podatak je opisna informacija o podacima. Pojam je stariji od grid sustava. Npr. metapodaci se mogu koristiti za upravljanje bibliotekom knjiga. U tom primjeru meta-podaci su
relevantne informacije o knjigama koje su zapisane na kartice. Korisnik moe preko kartica
dobiti informacije o eljenoj knjizi. To su uobiajene informacije poput: naslov knjige,
kljune rijei, naziv autora, ... Dakle pomou meta podataka opisujemo iri izvor informacija
te omoguavamo njegovo lake pronalaenje i kombiniranje s drugim izvorima podataka.
7
Meta-podaci omoguavaju da korisnik preko informacija o pojedinim skupovima podataka

obavlja zahtjeve, lociranje, pristupanje i upravlja podacima.
2.3.3 Objava i otkrivanje (publication and discovery)
Funkcije objave i otkrivanja zasnivaju se na servisima meta-podataka. Objava podataka znai
vezivanje atributa za skup podataka te omoguavanje da korisnici imaju pristup istima ime se
omoguava efikasnije istraivanje podataka. Ponekad proces objave u generiranju atributa
pojedinog skupa podataka koristi ve postojee meta-podatke u sustavu.
Otkrivanje podataka je proces odreivanja skupa podataka i njihovih lokacija bez navoenja
identifikatora podataka, a na osnovu upita koji sadrava:
vrijednosti pojedinih atributa iz skupa meta-podataka
specifikacije interne strukture podataka: veliina, nain pristupa, vlasnitvo.
Nakon otkrivanja skupa podataka korisnik dobiva informaciju o zahvaenom skupu podataka
te nakon toga moe dalje pristupati istima.
2.3.4 Transport podataka
Zbog distribuiranosti podataka u grid sustavima operacije u grid sustavima ukljuuju veliki
broj prijenosa podataka. Stoga upravljanje podacima zahtijeva brz i pouzdan mehanizam za
prijenos podataka. File transfer protocol (FTP) je jedno od rjeenja. FTP realizira efikasnu
transmisiju podataka kroz mreu, bilo LAN ili WAN. Za potrebe grid sustava razvijen je i
usvojen GridFTP protokol koji zajedno s Grid Security Interface (GSI) omoguava brz,
pouzdan i siguran prijenos podataka. GridFTP u svojim funkcijama prua sve aspekte koje bi
trebao imati uspjean prototip prijenosa podataka u grid sustavima:
Velika brzina prijenosa podrka za razliite transportne protokole preko mree. Za
potrebu breg prijenosa podaci se mogu slati paralelno.
Stripped data transfer velike datoteke se mogu particionirati u manje blokove i svaki
se blok neovisno alje. Podaci se agregiraju na odreditu.
Partial file transfer mogunost slanja dijela datoteke umjesto cijele.
Third-party control of transfer korisnik ili aplikacija moe upravljati prijenosom
podataka izmeu dva vora s treeg vora. Moe pokrenuti, nadgledati i upravljati
prijenosom.
Restartable transfer ako doe do prekida transfera isti se moe nakon oporavka
nastaviti od mjesta pogreke.
Automatska TCP optimizacija
2.3.5 Translacija i transformacija podataka
Translacija podataka podrazumijeva promjenu formata podataka uz to manju promjenu
sadraja podataka. Transformacija podataka znai derivaciju informacije u neku drugu formu
(npr. fourierova transformacija). Translaciju i transformaciju podataka moe obaviti i sama
aplikacija, ali ako se potreba za odreenom translacijom/transformacijom javlja esto i za
druge aplikacije, potrebno je razmisliti o njenom ugraivanju u servise prijenosa podataka.
2.3.6 Sinkronizacija podataka
U statikim okolinama sve replike su read-only (samo za itanje), te uz operacije kopiranja na
druga mjesta ne postoje problemi sinkronizacije. Meutim u veini grid sustava podaci se
osim transferiranja i mijenjaju od strane korisnika ili aplikacija. U idealnom sluaju svaka
distribuirana replika (lokalna ili udaljena), ukljuujui i originalne podatke dri se u potpunoj
konzistenciji. Meutim to je vrlo nepraktino za grid sustave. U stvari esto korisnici ne
trebaju potpunu konzistenciju. Moemo smanjiti stupanj konzistencije na nain da dozvolimo
da neki dio podataka bude nekonzistentan u odreenim vremenskim trenucima. Slijedi pet
8
stupnjeva konzistencije poevi od najlabavijeg do najstroeg (sve operacije se obavljaju

sekvencijalno) :
Mogua nekonzistentna kopija (Consistency Level -1) . Dozvoljeno je kreiranje
replike uz viestruke operacije pisanja u datoteku. Rezultirajua datoteka ne odgovara
stanju originalne datoteke u bilo kojem vremenskom trenutku.
Konzistentno kopiranje datoteka (Consistency Level 0). Na ovom stupnju sadraj
replike moe odgovarati sadraju koji je original imao u nekom vremenskom trenutku.
Postie se na nain da se datoteka kljua na nain da se dozvoljavaju viestruke
operacije itanja, ali samo jedna operacija pisanja tijekom kreiranja replike (read
shared lock).
Konzistentna transakcijska kopija (Consistency Level 1). Tijekom kreiranja replike ne
dozvoljava se pisanje u originalnu datoteku. Garantira se da ne postoji
nekonzistentnost unutar jedne datoteke, ali ne i izmeu svih replika jer izmeu
kreiranja pojedinih replika mogue je mijenjanje originala.
Konzistentan skup transakcijskih kopija (Consistency Level 2). Ako sve replike za
neko mjesto pohrane (site) kreiramo u jednom transakcijskom postupku onda moemo
garantirati konzistentnost novo-kreiranih replika. Meutim i dalje nismo sigurni da e
te replike biti stalno konzistentne s replikama koje nisu pod naom kontrolom (druga
lokacija - site). Dakle, ovaj stupanj konzistencije ne osigurava konzistenciju izmeu
lokacija (site).
Konzistentan skup aurnih transakcijskih kopija (Consistency Level 3). Svaka replika
u grid sustavu identina je s drugim replikama. Operacije kljuanja itaj/pii se
obavljaju na nivou svih mjesta u okviru odreene grid okoline. Vrlo teko se postie.
Zahtijeva da se sve zahtjevi operacija nad podacima alju kroz jedinstvenu toku
pristupa te da nije dozvoljen pristup van grid-a.
2.3.7 Autentikacija, kontrola pristupa, raunovodstvo
U odreenim grid zajednicama potrebno je osigurati zatitu podataka na nain da smo
odreeni korisnici mogu pristupati odreenim podacima. Koriste se rjeenja zasnovana na
Grid Security Infrastructure (GSI) . GSI dodjeljuje korisnika prava korisniku ili aplikaciji te
osigurava njihovu delegaciju za potrebe pristupa pojedinim resursima. U grid sustavima
pojedine operacije zahtijevaju prava pristupa unutar jedne lokacije, a druge operacije se
obavljaju na viestrukim lokacijama. Odluke prava pristupa koje se obavljaju na viestrukim
lokacijama zahtijevaju uzimanje u obzir globalnih i lokalnih pravila i prava pristupa. Osim
administratora grid sustava i osiguravatelj resursa moe odluivati koja prava koji korisnik
ima.
Grid sustavi koriste i raunovodstveni sustav kojim se biljei povijest koritenja resursa. Ta
informacija se moe iskoristiti za predvianje budueg optereenja resursa. Na osnovu
povijesti koritenja sustava moe se odluiti gdje postaviti replike podataka.
2.3.8 Pristup podacima i upravljanje pohranom podataka (Data Access and
Storage management)
Metode pristupa podacima su vrlo razliite. Distribuirani datoteni sustav (DFS) organizira
distribuirane datoteke u formi stabla. Datoteni sustav moe biti pohranjen u bazu podataka
(SQL). Korisnici trebaju uniforman nain (suelje) za dohvat podataka. Korisnik postavlja
upit te na osnovu njega dobiva eljene podatke. Upravljanje pohranom podataka treba na
nekom sustavu pohrane osigurati kreiranje prostora za pohranu, datoteni sustav (moe biti
realiziran i s bazom podataka), te osnove operacije pohrane.
2.3.9 Integracija podataka

Integracija podataka ima za cilj da podatke pohranjene na razliitim sustavima za pohranu
podataka predstavi kao jedinstven skup podataka. Moe se promatrati i van teme upravljanja
podacima u grid sustavu. Integracija podataka sastoji se od slijedeih faza:
otkrivanje podataka: upit na servis meta-podataka za pronalaenjem relevantnih
podataka
pristup podacima: verificiranje da li su podaci dostupni te korisni za rjeavani problem
transport podataka na mjesto obrade
analiza podataka: obrada podataka (ukljuivi i lokalne podatke)
sinteza podataka: kreiranje novog pogleda na podatke (vizualno, statistiki, datoteke)
2.4 Servisi za meta-podatke u grid sustavima
Zato su nam potrebni meta-podaci u okviru grid sustava ? Glavni razlog je velika koliina
podataka. Tradicionalne tehnike poput koritenja SQL upita ili traenja po nazivu datoteka ne
mogu se primijeniti za velike koliine podataka. Drugo je da zbog heterogenosti sustava nije
lako koristiti direktne tehnike pristupa (razliiti datoteni sustavi, baze). Tree je da podaci iz
razliitih znanstvenih izvora imaju eto pridruene biljeke. Te biljeke potrebno je
organizirati na prikladan nain te ih vezati uz originalne podatke.
2.4.1 Tipovi metapodataka
Zbog velikog opsega moguih metapodataka potrebno ih je organizirati u niz kategorija:
Data Metadata (meta-podaci o podacima). Informacija o podacima je najbitnija kategorija
metapodataka. Dijelimo je na tri tipa:
Fiziki metapodaci : ukljuuju karakteristike fizikog sustava pohrane to obuhvaa
veliinu datoteke ili objekta, lokaciju, vrijeme kreacije, naziv kreatora i format
datoteke (.doc, .jpg, ...)
Meta-podaci o replikama: veza izmeu logikog naziva datoteke i njene jedne ili vie
replika koje mogu biti pohranjene na razliitim datotenim sustavima ili bazama
podataka
Meta-podaci o pripadnoj domeni: najee se podaci klasificiraju prema problemskoj
domeni koja ih generira (ili koristi). najee je u pitanju hijearhijska organizacija.
Npr. (LHC Experiment > Alice,CMS,Atlas,LHCb)
Korisniki metapodaci. Korisniki podaci sadre informaciju o korisniku koji kreira, koristi
ili modificira podatke. Dakle, ime i prezime, adresa , email, telefon. Korsni ima i atribut o
domeni kojoj pripada te moe imati niz atributa pripadnosti pojedinim grupama.
Metapodaci o aplikacijama. Podatke generiraju aplikacije (mogu biti dio strojeva).
Metapodaci o aplikacijama mogu sadravati podatke opisa sadraja podataka, uvjete pod
kojima su podaci proizvedeni ili neke druge podatke koji mogu posluiti kao uputa za daljnje
procesiranje.
Metapodaci o resursima. Tu pripadaju karakteristike resursa pohrane podataka poput adrese
pristupa, fizike lokacije, tipa resursa, liste dozvole pristupa.
2.4.2 Servisi za meta-podatke
Pohrana. Vie je naina za pohranu meta podataka. Npr. koritenje relacijske baze podataka,
pohrana u XML datoteku, koritenje LDAP-a. Relacijska baza podataka je pogodna zbog
mogunosti postavljanja SQL-upita. U grid sustavima se nalaze sve vee koliine
metapodataka pa se esto posee da distribuiranim bazama podataka. S druge strane XML se
zbog standardiziranosti namee kao pogodan format pohrane metapodataka. Metapodaci grid
sustava mogu biti i kombinirani u vie razliitih formata.
10
Objava i pronalaenje podataka. Metadata servisi moraju osigurati korisniku da na

jednostavan i kontroliran nain dodijeli metapodatke podacima (najee datotekama). U fazi
pronalaenja servisi omoguavaju da korisnik formira upit nad metapodacima te mu se na
osnovu upita vrate eljene datoteke ili skupovi podataka.
2.5 Replikacija
Nova replika podataka se kreira zato to nova lokacija pohrane omoguava bolje performanse
neke aplikacije. replika se moe izbrisati zbog nedostatka prostora, isteklog ivotnog vijeka ili
drugih razloga. U grid okolinama s aplikacijama koje obrauju podatke pristup podacima
prethodi veini operacija. Prvo se preko servisa metapodataka slanjem upita s atributima
podataka obavlja traenje podataka. Servis metapodataka vraa logike nazive datoteka
korisniku ili aplikaciji. Logiki naziv datoteke alje se servisu za upravljanje replikama koji
vraa listu lokacija s jednom ili vie replika. Servis za odabir replike pronalazi najpogodniju
repliku. Pri tome se koristi drugim servisima kojima se prati rad sustava pohrane i prijenosa
podataka.
Metapodaci o replikama sadravaju podatke o mapiranju instanci neke datoteke na odreene
lokacije pohrane. Npr. jedna od implementacija je da metapodaci sadre mapiranje izmeu
logikog naziva datoteke i GUID (globally unique identifier). GUID je 128-bitni broj koji
garantira da odreeni podatak ima jedinstveni identifikator unutar grid okoline. Lokalni sustav
pohrane koristi i dodatne lokalne identifikatore.
Katalog replika. To je servis za registraciju replika te postavljanje upita. Kad se replika
kreira ona se upisuje u katalog tj. upisuje se njena fizika lokacija te vee s logikim nazivom
(GUID). Brisanjem replike brie se i njena oznaka u katalogu.
Upravljanje replikama osigurava mehanizme za kreiranje i brisanje replika na mjestima
pohrane.
Odabir replike je postupak traenja optimalne replike iz niza raspoloivih replika. Cilj je
postii veu propusnost sustava. Servis odabira replike moe i naloiti kreiranje novih replika.
2.6 Efikasan prijenos podataka
Podaci su najee pohranjeni na vie distribuiranih lokacija pohrane. U nekim proraunima
mogue je da se koriste podaci koji su geografski distribuirani. Tada nam ograniavajui
faktor moe biti mrena propusnost. Openito imamo tri tipa ogranienja mrene propusnosti:
propusnost veze servera s mrenom okosnicom (Internet)
propusnost veze klijent-server
propusnost klijenta prema mrenoj okosnici (Internet)
Kako bi se iskoristili limitirani mreni resursi postoje razliite tehnike transfera podataka kod
kojih se koriste u paraleli viestruki vorovi pohrane podataka.
Prijenos podataka s ko-alokacijom. Kako se replikacija ve uestalo primjenjuje svaki skup
podataka (dataset) posjeduje viestruke kopije na razliitim lokacijama. Umjesto
transferiranja skupa podataka s jedne lokacije, moe se transfer podijeliti u niz manjih
transfera dijelova skupa podataka s razliitih lokacija. Finalno se dijelovi sastavljaju na
odreditu. Ovaj postupak nazivamo transfer s ko-alokacijom.
Ko-alokacijski transfer posjeduje nekoliko mehanizama alokacije. Dva su osnovna tipa :
statefull i stateless.
Kod stateless alokacije klijent koji eli transfer vee se na niz servera na kojima su replike
locirane. Cijeli dataset se dijeli na niz jednakih dijelova i svaki dio se vue s posebne lokacije.
Kod ovog mehanizma nije potrebno odravati podatke o opsegu pojedinog dijela te ga je vrlo
lako realizirati. Meutim, kao ne koristi podatke o trenutnim performansama prijenosa od
pojedinih lokacija, tako je mogue da optereenje nije pravilno rasporeeno i da nam pojedini
dijelovi podataka kasne.
11
Statefull alokacijski mehanizam uzima u obzir stanje na lokaciji replike, mrenu

propusnost,.itd. te na osnovu toga odrediti koliki dio podataka e povui s odreene lokacije.
Postoje dva osnovna pristupa u donoenju odluka:
alokacijski mehanizam zasnovan na povijesti predvianje trajanja prijenosa zasniva
se na povijesti prethodnih prijenosa. Na osnovu toga se proraunava veliina skupa
podataka koja se eli prenijeti s neke lokacije. Cilj je da svi dijelovi stignu otprilike u
isto vrijeme. Ako se stanje resursa (pohrana, mrea) znaajno promijeni u tijeku
prijenosa poremetit e istovremeno primanje.
dinamika alokacija skup podataka se particionira u niz manjih blokova jednake
veliine. Svaki server s replikom transferira prvo po jedan blok i nakon toga mu se
dodjeljuje slijedei blok. Bri server e prvi prenijeti podatke i prvi e dobiti slijedei
blok za prijenos. Kao rezultat bri serveri transferiraju vie podataka od sporijih. U
ovom mehanizmu vaan je pojam round-trip vremena. To je vrijeme od kad jedan
transfer zavri do vremena kad je poslan zahtjev serveru za slijedei blok. To se moe
zaobii tako da server posjeduje cjevovod u koji se alju viestruki zahtjevi za transfer
(vie blokova).
3. VIRTUALIZACIJA UVOD
U ovom poglavlju pokuat emo dati uvod u virtualizaciju tj. odgovoriti na pitanja :
to je to virtualizacija i koji su razliiti oblici virtualizacije
Koje su dobiti virtualizacije
Virtualizacija se moe podijeliti na slijedea podruja:
Virtualizacija hardvera
Virtualizacija softvera
Virtualizacija memorije
Virtualizacija sustava pohrane
Virtualizacija podataka
Virtualizacija mree
Potrebno je naglasiti da virtualizacija nije pogodna samo za velike raunalne centre i velike
poslovne ili znanstvene organizacije. IT profesionalci i krajnji korisnici mogu i imat e velike
koristi od virtualizacije.
3.1.Virtualizacija hardvera
Povijesno dugo vremena je odravana 1 na 1 veza izmeu fizikog servera i operacijskog
sustava. Relativno niski zahtjev za CPU, memorijom i mreom dobro su se podudarali s
raspoloivim hardverom. Meutim razvojem aplikacija i poveanim zahtjevima pohrane i
transfera podataka poeli su se isticati trokovi energije, fizikog prostora i samog sklopovlja.
Osnovni koncept virtualizacije je apstrakcija. Hardverska virtualizacija postie se
apstrakcijom fizikog sloja hardvera upotrebom hypervisora. Hypervisor upravlja dijeljenjem
fizikih resursa hardvera izmeu operacijskih sustava koji su pokrenuti na domainu (host).
Fiziki resursi postaju apstraktni u standardiziranom formatu bez obzira na hardver u podlozi.
Operacijski sustav moe ih zahvaati na isti nain kao to zahvaa fizike resurse. Postoje
razliiti stupnjevi hardverske virtualizacije:
Puna Gostujui operacijski sustav je potpuno nesvjestan virtualizacije. Hypervisor obrauje
sve OS-hardver zahtjeve i moe keirati rezultate za buduu upotrebu. U ovoj instanci
virtualizirani OS je u potpunosti izoliran od hardverske podloge. Ovo omoguava najvei
mogui nivo sigurnosti i fleksibilnosti a time i iri opseg operacijskih sustava koji se mogu
virtualizirati.
Potpomognuta hardverom Isporuioci hardvera uvidjeli su prednosti virtualizacije i uveli
su u svoj hardver podrku za podizanje performansi i funkcionalnosti. To je najizraenije kod
12
procesora kroz AMD-V i Intel VT poboljanja procesora. Ona omoguuju da se pojedini CPU
pozivi/naredbe ne prolaze kroz hypervisor ve direktno izvode na CPU-u. To smanjuje
optereenje hypervisora i time podie performanse sustava.
Paravirtualizacija Gostujui operacijski sustav je dizajniran na nain da je svjestan
virtualizacije. Jezgra operacijskog sustava je podeena da zamijeni instrukcije koje se ne
mogu virtualizirati unutar jezgre s metodama koje direktno meudjeluju s hypervisorom.
Vrijednost paravirtualiziranih sustava je u manjim dodatnim kanjenjima a time mogunosti
optimalnijeg izvoenja operacija. Paravirtualizaciju obino susreemo u Linux okolini u vidu
Xen kernela.
1.1.1 to je to hypervisor
Softver za virtualizaciju kojeg nazivamo hypervisor emulira raunalni hardver dozvoljavajui
da se na jednom raunalu pokree vie operacijskih sustava. Svaki gostujui OS ima utisak da
posjeduje vlastiti procesor, memoriju i ostale resurse.
Zapravo hypervisor upravlja procesorom, memorijom i ostalim resursima domaina te alocira

potrebne resurse gostujuim operacijskim sustavima, brinui se pri tome da ne dolazi do
neeljene meusobne interakcija operacijskih sustava.
Postoje dva osnovna tipa hypervisora.

Tip 2 Tip 2 hypervisori instalirani su povrh operacijskog sustava (hosted). Kanjenja u
izvoenju pojedinih operacija su vea jer idu preko operacijskog sustava koji u stvari upravlja
raspodjelom resursa. Primjeri su VMware Workstation (Player), Microsoft Virtual PC, Fusion
13
i Oracle VirtualBox. Oni se instaliraju kao aplikacija unutar OS. Tip 2 hypervisori imaju
prednost da preko pogonitelja operacijskog sustava mogu imati podrano vie I/O tipova
ureaja nego je to sluaj s Tip 1 hypervisorima. Zbog izvoenja operacija na hardveru kroz
OS performanse su 70-90% u odnosu na direktno izvoenje.
Tip 1 Tip 1 hypervisori su instalirani direktno na hardver (bare-metal), slino kao to se OS
instaliraju na pojedinani server. Zbog direktne komunikacije hypervisor-hardver , kanjenja
su mala i samim time bolje performanse. Primjeri Tip-1 hypervisora su: VMware ESXi,
Microsoft Hyper-V i Citrix XenServer. Hypervisor treba biti usklaen s hardverom pa je
mogue da ga nije uvijek mogue instalirati na svaki stroj. Podrava vei broj VM po
fizikom CPU nego to je to sluaj kod Tip 2 hypervisora. Performanse variraju od 85-98% u
odnosu na direktno izvoenje.
1-1
Tip1 i Tip2 hypervisori
1.1.2 Dobiti hardverske virtualizacije

Glavne dobiti virtualizacije ukljuuju efikasnije koritenje resursa, manje ukupne trokove
(ROI), bre vraanje investicije, poveano vrijeme dostupnosti sustava (uptime) i veu
fleksibilnost sustava. Detaljnije:
Efikasnije koritenje resursa: Fiziki resursi se mogu dijeliti izmeu virtualnih
strojeva. Nekoriteni resursi, iako alocirani za pojedini virtualni stroj u sluaju potrebe
mogu se prealocirati drugim virtualnim strojevima.
Manji trokovima uslijed konsolidacije servera / bri povrat investicije: Sada kad
je mogue da se viestruki operacijski sustavi izvravaju na jednom stroju/platformi
mogue je znaajno reducirati broj servera, ormara te posebno reducirati sustav
napajanja i hlaenja.
Poveana dostupnost sustava zbog virtualizacije : Moderni hypervisori posjeduju
mogunost orkestracije operacija nad instancama virtualnih strojeva koje finalno
podiu dostupnost sustava, npr.:
o Sposobnost migriranja strojeva s jednog na drugi host bez gaenja
o Odravanje pokrenutih kopija strojeva kao rezerve
Poveana fleksibilnost IT sustava: Hardverska virtualizacija omoguava brzo
uspostavljanje servera na upravljiv i konzistentan nain. Na taj nain mogue je da IT
brzo reagira na potrebe poslovnih procesa.
3.2.Virtualizacija softvera
Upravljanje tj. distribucija aplikacija postaje veoma teak zadatak za IT odjele, posebno u
okruenjima s velikim brojem korisnika. Instalacijski mehanizmi se razlikuju od aplikacije do
aplikacije. Neki programi zahtijevaju odreene pomone aplikacije ili okoline, a aplikacije i
okoline mogu biti u konfliktu s postojeim aplikacijama ili novim aplikacijama.
14
Virtualizacija softvera omoguava da se izvri apstrakcija instalacije softvera i da se kreira

virtualna instalacija softvera. Virtualizirani softver je aplikacija koja je instalirana u zatvorenu
samostalnu jedinicu.
U Windows okolini ta jedinica sadrava virtualni registry , %TEMP% direktorij i mjesto za
pohranu podataka. Takva aplikacija postaje jedna cjelina koja se isporuuje na nain kao da se
kopira datoteka na neku lokaciju. Aplikaciji se moe dozvoliti interakcija s okolinom ili da
ostane zatvorena u okviru sebe. Instalacijski postupak aplikacije u ovakvom sluaju postaje
postupak poput diff operacije. Nakon konfiguracije istog operacijskog sustava uzima se
snimka okoline (snapshot). Nakon toga instalira se aplikacija te ponovo radi snapshot cijele
okoline. Razlika izmeu snimaka je zapravo virtualizirana aplikacija.
Prednosti softverske virtualizacije:

Ova metodologija donosi znaajne prednosti odravateljima aplikacija:
Laka isporuka klijenata: postupak instalacije svodi se na kopiranje na radnu stanicu
klijenta ili samo na povezivanje (linking) na aplikaciju na djeljivom prostoru mrene
pohrane (network share). Takva instalacija se moe vrlo lako automatizirati.
Dodana sigurnost: softverska virtualizacija omoguava i uvezivanje s LDAP/Active
directory mehanizmima koji daju dozvole pokretanja softvera. Time se vrlo lako moe
odrediti i strojevi i korisnici koji imaju pravo pokretanja aplikacije pa ak i vremena
kad mogu pokretati aplikacije.
Lakoa odravanja: Upravljanje nadogradnjama postaje daleko jednostavniji
zadatak. Nova verzija se kopira na mjesto za distribuciju. Zatim se izvrava isporuka
(kopiranje) nove verzije na mjesto stare. Ako nova aplikacije ne profunkcionira moe
se vrlo lako vratiti na staru verziju (kopiranje stare verzije na mjesto nove).
Odravatelj aplikacija ima mehanizam za jednostavno upravljanje verzijama.
Migracija softvera: Premjetanje korisnika s jedne platforme na drugu zna biti vrlo
zahtjevan zadatak. Ako su aplikacije izolirane od operacijskog sustava onda migracija
aplikacija se svodi na kopiranje.
Rjeavanje konflikata razliitih softvera: Zbog injenice da je softver zatvoren u
virtualni kontejner, aplikacije koje su prije moda imale meusobne konflikte sada
mogu funkcionirati.
3.3.Virtualizacija memorije
U najjednostavnijoj formi virtualizacija memorije odnosi se na virtualnu memoriju (swap) na
serverima ili radnim stanicama. Konceptualno swap postoji da bi se na sustavu s napunjenom
15
memorijom nastavilo izvravanje bez potrebe za zaustavljanjem ili ubijanjem procesa. Procesi
na raunalu vide swap memoriju kao dodatno adresabilnu memoriju i ne razlikuju je od
glavne RAM memorije. Operacijski sustav brine se da se prvenstveno koristi puno bra RAM
memorija. Intenzivno koritenje swap memorije predstavlja znaajnu degradaciju sustava.
Pisanje na disk, ak i SSD disk, daleko je sporije od radne memorije.
Velika propusna mo i niske latencije specijaliziranih mrea omoguavaju koritenje
virtualizacije memorije. To su tehnologije poput InfiniBand ili veza u klasterima. Remote
Direct Memory Access (RDMA) koristi se za daljinski pristup memoriji raunala bez
neeljenih interferencija. RDMA postaje jo jedna sekcija adresabilne memorije za raunalo.
Brzina je daleko vea od swap datoteke. Kako se budu sve vie koristile 10Gb veze tako e
RDMA postajati sve znaajnija opcija. Za RDMA se razvijaju i Ethernet standardi.
Isporuioci serverskih virtualizacija sve vie koriste mogunost apstrakcije memorijskih

resursa te su realizirane neke vrlo interesantne funkcionalnosti:
Sposobnost dijeljenja zajednikih memorijskih stranica izmeu razliitih strojeva. To
je vrlo zgodno ako domain pokree viestruke kopije istog operacijskog sustava.
Tada nema potrebe da postoje viestruke kopije istih stranica OS, te se time oslobaa
znaajna koliina memorije.
Sposobnost snimanja (snapshot) memorije i vraanje na prethodno stanje ako novo
nije optimalno ili prihvatljivo
Mogunost transmisije stanja memorije kroz mreu na drugi host za potrebe migracije
virtualnog stroja s jednog hosta na drugi
Kompresija memorijskog prostora
Otputanje alocirane, ali nekoritene memorije kako bi se preusmjerila na druge
strojeve.
Prednosti virtualizacije memorije
Prednosti virtualizacije memorije ukljuuju:
Efikasnije koritenje memorije dijeljenjem ukupne memorije i s time mogunost
pokretanja veeg broja virtualnih strojeva na raunalu domainu.
Ciljano upravljanje raspodjelom zajednike memorije
Pristup memoriji i vie nego to je u raunalu domainu mogue smjestiti
Napredne funkcije virtualizacije poput migracije.
3.4.Virtualizacija pohrane podataka
Povijesno postoji jaka veza izmeu fizikog raunala domaina i lokalno instaliranih sustava
pohrane. Ova paradigma se u zadnje vrijeme drastino mijenja u toj mjeri da dolazimo do
toke da lokalni sustav pohrane nije potreban.
Virtualizacija sustava pohrane postaje najbolja praksa za servere u formi upravljaa sustavom
diskova koji mogu biti organizirani u RAID ili jo naprednije sustave (Grid). Operacijski
sustavi i aplikacije i dalje piu po disku. U pozadini upravljaki sustavi konfiguriraju
diskove u RAID ili sl. Grupe te prezentiraju to operacijskom sustavu kao jednu ili vie
jedinica pohrane (Logical Volumes). Operacijski sustav alje naredbe jedinici pohrane
16
(Volumes) i ima utisak da radi s diskom. Meutim sustav pohrane je apstrahiran jer upravlja
odreuje kako e i na koje mjesto zapisivati ili itati podatke.
Virtualizacija porane podataka javlja se danas u razliitim oblicima:
Datoteni server (File server): Operacijski sustav pie na udaljenu lokaciju bez
potrebe da razumije kako se pie na fiziki mediji.
pNFS: komponenta NFS 4.1 sustava, pNFS /parallel NFS), moe zahtijevati podatke s
udaljenog NFS dijeljenog prostora. Meutim podaci mogu biti pohranjeni na razliitim
lokacijama i medijima. Traitelj podataka nije svjestan toga gdje su podaci jer dohvat i
isporuku podataka obavlja NFS server.
DFS: Slino konceptu pNFS, DFS, Distribuirani datoteni sustav kreira datoteni
sustav koji objedinjuje lokalne datotene sustave i njihov sadraj u cjelinu kojoj se
pristupa kao da se radi o jedinstvenom sustavu pohrane.
NAS i SAN: sustav pohrane se operacijskom sustavu predstavlja preko ethernet
mree. NAS sustav omoguava pristup preko datotenih operacija (NFS, CIFS). SAN
tehnologija omoguava pristup na nivou blokova (poput iSCSI ili Fibre chanell), dakle
poput lokalnog sustava pohrane.
Storage Pools: Na nivou velikih korisnika poeljno je koncentrirati veu koliinu

diskova i dobiveni prostor prezentirati u apstraktnom obliku. Administrator odreuje
podjelu ukupnih resursa na nain da kreira virtualizirane jedinice s odreenom
veliinom, propusnom moi i prioritetom. Vea koliina diskova u sustavu omoguava
vee performanse i veu pouzdanost. Performanse se postiu paralelizacijom, a
pouzdanost time da otkaz jednog diska predstavlja otkaz vrlo malog dijela ukupnog
sustava. Velika koliina diskova esto koristi i napredne sustave razmjetaja podataka,
tj. umjesto uobiajenih RAID shema koriste se sheme jo vieg stupnja.
17
Storage Tiering (pohrana u slojevima): Zasnovano na storage pools sustavu, sustav

s pohranom u slojevima stalno analizira transfere podataka i podatke koji se najee
koriste sprema u pool s najveim performansama. Primjeri su sustavi pohrane koji su
kombinacija SSD i standardne tehnologije diskova ili razliitih tipova diskova.
Prednosti virtualizacije pohrane

Prednosti su:
Podaci su pohranjeni na pouzdanu lokaciju dalje od raunala domaina. U sluaju
otkaza raunala domaina podaci nisu nuno kompromitirani.
Napredni sustavi pohrane mogu osiguravati funkcije poput: deduplication, replication,
thin provisioning, disaster recovery functionality.
Apstrakcijom sustava pohrane, IT operacije dijeljenja, dostupnosti i zatite postaju
fleksibilnije.
3.5.Virtualizacija podataka
Podaci u okolini poprimaju razliite oblike. Mogu biti dinamini , ali i statini. Nekada su
pohranjeni u bazu podataka, a mogu biti pohranjeni u obinu datoteku. Nekada su smjeteni u
raunovodstveni sustav, a ponekad u sustav ljudskih resursa. Lokacija podataka moe biti
Europa, ali i neki drugi kontinent. U nekim sluajevima podaci su zasnovani na cijelim
brojevima, a u drugom koriste brojeve u pokretnom zarezu.
Upravljanje lokacijom podataka i njihova dostupnost mogu biti veliki problem u sluajevima
kad je radi analize podatke potrebno povui iz razliitih izvora. Virtualizacija podataka bavi
se apstrakcijom lokacije, metoda pristupa i tipova podataka, omoguavajui korisniku da se
koncentrira na sadraj podataka. To je tipian primjer u aplikacijama poslovnik okruenja,
kao to su IT Dashboards, BI alati i CRM alati.
18
Dashboard i BI/CRM alati omoguavaju upravljanje apstrakcijom lokacije podataka. Takvi

alati posjeduju mogunost pristupa razliitim izvorima podataka te iste agregiraju u jedinstven
skup pogodan za analizu. Izvori podataka ukljuuju konektore baza, API-je, podatke na webu,
podatke senzora, spremita datoteka, aplikacije, itd. Analitiar nema potrebu poznavanja
izvora i formata podataka, ve samo da li isti postoje i da li su ispravni.
Koristi virtualizacije podataka
Manje brige za krajnjeg korisnika koji ne mora posjedovati tehnika znanja o tome
gdje i kako su podaci pohranjeni niti o sigurnosnim mehanizmima pristupa.
Posljedino prvome mogue je bolje fokusiranje na samu analizu podataka.
3.6.Virtualizacija mree
Virtualizacija hardvera se moe promatrati kao apstrakcija i kreiranje viestrukih logikih
sustava na jednoj fizikoj platformi. Za virtualizaciju mree to ostaje istinito, ali ne i tako
jasno kao za virtualizaciju servera.
Svaki virtualni stroj moe biti konfiguriran s jednom ili vie virtualnih ethernet kartica. Te
kartice gostujui OS vidi kao uobiajene mrene kartice i koristi svoje standardne pogonitelje.
Postoji manji broj tipova virtualnih mrenih adaptera (npr. E1000, Realtek), a pojedini
isporuioci virtualizacijskih rjeenja napisali su optimizirane pogonitelje za razliite OS.
Virtualne mrene kartice prikljuene su na virtualne preklopnike, a virtualni preklopnici na
fiziku karticu/kartice.
Virtualni preklopnici omoguavaju komunikaciju virtualnih strojeva na istom hostu
koritenjem istih protokola koji se koriste na fizikim preklopnicima. Virtualni preklopnik
emulira standardni fiziki Ethernet preklopnik na nivou prosljeivanja okvira (podatkovni
sloj). Na virtualni preklopnik moe se prikljuiti i jedna ili vie fizikih ethernet kartica.
Raunalo domain moe posjedovati vie virtualnih preklopnika s praktiki neogranienim
brojem virtualnih portova.
Prednosti virtualizacije mree

Lako upravljanje promjenama: rekonfiguracija mrene povezivosti unutar
virtualnog stroja obavlja se bez fizikog prespajanja
Utede: Virtualizacijom sloja preklopnika mogue je efikasnije dijeljenje tako
kreiranog mrenog resursa. Mogunost dinamike dodjele resursa omoguavala bolje
balansiranje optereenjem tako realiziranim mrenim podsustavom.
Sigurnost: Zbog ujednaene arhitekture i logike separacije slojeva mnoge sigurnosne
rizike je mogue lake kontrolirati
19

Grid Računalni Sustavi - Kolokvij I

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Grid Računalni Sustavi - Kolokvij I

Uploaded by

Copyright:

Available Formats

1.

DEFINICIJA I PREGLED GRID RAUNALNIH SUSTAVA

1.4 Osnovni koncepti grid arhitekture

rasporeiva postavlja upit servisu za otkrivanje informacija on obino postavlja ogranienja

CERN Zbog potrebe za pohranom i statistikom analizom velike koliine podataka

2.2.1 Statiki podaci i dinamiki podaci

Meta-podaci omoguavaju da korisnik preko informacija o pojedinim skupovima podataka

stupnjeva konzistencije poevi od najlabavijeg do najstroeg (sve operacije se obavljaju

2.3.9 Integracija podataka

Objava i pronalaenje podataka. Metadata servisi moraju osigurati korisniku da na

Statefull alokacijski mehanizam uzima u obzir stanje na lokaciji replike, mrenu

Zapravo hypervisor upravlja procesorom, memorijom i ostalim resursima domaina te alocira

Postoje dva osnovna tipa hypervisora.

Tip1 i Tip2 hypervisori

1.1.2 Dobiti hardverske virtualizacije

Virtualizacija softvera omoguava da se izvri apstrakcija instalacije softvera i da se kreira

Prednosti softverske virtualizacije:

Isporuioci serverskih virtualizacija sve vie koriste mogunost apstrakcije memorijskih

Storage Pools: Na nivou velikih korisnika poeljno je koncentrirati veu koliinu

Storage Tiering (pohrana u slojevima): Zasnovano na storage pools sustavu, sustav

Prednosti virtualizacije pohrane

Dashboard i BI/CRM alati omoguavaju upravljanje apstrakcijom lokacije podataka. Takvi

Prednosti virtualizacije mree

You might also like