Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 48

Hurtownie danych

Autorzy

Marcin Starczewski
Marcin Zrda

Plan prezentacji
Wprowadzenie
Teoria hurtowni danych
Architektura
Zagadnienia zwizane
Technologia OLAP
Budowa i wdroenia hurtowni danych
Podsumowanie

Definicja hurtowni danych (1/2)


uporzdkowany tematycznie,
zintegrowany,
zawierajcy wymiar czasowy,
nieulotny.
zbir danych wspomagajcych podejmowanie decyzji.

Jest to definicja autorstwa Williama H. Inmonna

Definicja hurtowni danych (2/2)


Do oficjalnych czterech punkw definiujcych
hurtownie danych czsto dodawany jest pity
punkt:
Hurtownia danych ma wspomaga
przetwarzanie informacji dla celw
strategicznych i analitycznych (w
przeciwiestwie do systemw transakcyjnych
realizujcych przetwarzanie dla celw
operacyjnych)
4

Uporzdkowanie tematyczne
Dane przechowywane s niezalenie od
aplikacji, ktra je wygenerowaa np.: Obsuga
klientw jest realizowana przez rne aplikacje
w zalenoci od tego czy s to klienci
indywidualni czy tez instytucje. Natomiast w
hurtowni s to jedne dane Klienci (oczywicie
jest gdzie wyrnik jaki to typ klienta)

Zintegrowany
Rne aplikacje mog w rny sposb
interpretowa i zapisywa dane np.: pe
mog zapisywa jako M/K, M/F, 1/0. Natomiast
w hurtowni dane te musza by ujednolicone w
sposobie pomiaru ich wartoci tzn. dane
dotyczce pci musza by przetumaczone na
jeden typ zapisu nie jest istotne, ktry wane
aby by jednolity dla wszystkich danych.
6

Zawierajcy wymiar czasowy


W hurtowniach danych dane maja by dokadne
w dowolnie wybranym momencie tzn. dane z
maja bd takie same niezalenie czy
zadamy tych danych w czerwcu czy
listopadzie.
Dotyczy to rwnie pobierania danych jeeli
dane pobralimy poprawnie do hurtowni
danych to nie s one ju aktualizowane.
7

Nieulotno danych
W hurtowniach danych moemy: adowa dane
albo korzysta z nich. W odrnieniu od
typowych aplikacji gdzie dane mog by
usuwane, aktualizowane i wprowadzane przez
cay czas.
Dziki temu w hurtowniach nie obowizuje nas
ju transakcyjno, zarzdzanie blokadami...

Kto tego potrzebuje?

Menaderowie

Analitycy

Bieca analiza sytuacji podmiotu


Prognozy

Stratedzy firmy

Do zarzdzania taktycznego

Tworzenie planw strategicznych krotko i


dugookresowych.

Po co hurtownie danych

10

zestawienia (zbiorcze, porwnawcze,


okresowe)
analizy statystyczne
analizy trendw
zalenoci midzy danymi
planowanie i kontrola celw
...

Statystyki

Co najmniej 50% danych w bazach operacyjnych suy


potrzebom analitycznym i podejmowaniu decyzji
40% raportw produkcyjnych jest niewykorzystywana
(raport IBM, 1995)

30% raportw jest uywana nie zgodnie z ich


przeznaczeniem (raport IBM, 1995)
Kierownictwo Strategiczne ocenia dokadno i
uyteczno danych na 2 w skali (od 1 do 10) (raport IBM,
1995)

11

OLTP a hurtownie danych


OLTP (On Line Transaction Processing) kady
biznesowy system informatyczny pracujcy w sposb
transakcyjny
Dlaczego OLTP nie moe zastpi hurtowni danych:
Ukierunkowana na przetwarzanie duej liczby krtkich
transakcji a nie na wspomaganiu procesu decyzyjnego.
Skoncentrowane na obrbce maych porcji danych w
jednym momencie
Stan zmienia si z sekundy na sekund

12

Jaka powinna by hurtownia danych

13

Powinna by atwa w uyciu


Stanowi jedyne rdo informacji
Synchronizowa dane midzy oddziaami firmy
Integrowa dane w organizacji
Stworzona do celw analitycznych

Architektura hurtowni danych (1/4)

Warstwa zasilania (TSA Temporary staging


area)

Warstwa danych waciwych (hurtownia


danych)

14

Zajmuje si przetwarzaniem danych, ich


czyszczeniem i standaryzacj, czeniem.

Dalsza obrbka, generowane agregaty danych,


wykonywane raporty oraz ostateczna obrbka
danych przed ich udostpnieniem.

Architektura hurtowni danych (2/4)

Skadnica danych (Data Mart)

Jej celem jest przyspieszenie dostpu do


najczciej wykorzystywanych danych.

Zaprojektowana pod ktem szybkoci a nie elastycznoci


Obsuguje standardowe zapytania
Niewielka liczba danych najczciej agregaty.

Jest swojego rodzaju cachem przechwytuje


najczciej zadawane kwerendy.
15

Architektura hurtowni danych (3/4)

Operacyjny magazyn danych (ODS operation


Data Store)

Jego celem jest udostpnienie zebranych i


zintegrowanych danych

16

Jest rdem informacji operacyjnych, dane pochodz z


rnych aplikacji
Maa liczba danych, ma odpowiada na pytania dotyczce
aktualnych danych
Moe by zastpiony przez zmodyfikowany TSA

Architektura hurtowni danych (4/4)

Ostania warstwa - warstwa udostpniania


danych (front-end)
Narzdzia analityczne
Generatory zapyta
Specjalizowane aplikacje
Serwery www umoliwiajce dostp do danych
poprzez przegldark www
Czyli wszystko to do czego ma dostp uytkownik
hurtowni

17

Podzia danych na warstwy


Dane detaliczne w firmie poeraj ogromne
przestrzenie dyskowe (np.:dane z czytnikw
kodw kreskowych w supermarkecie mog
zajmowa przestrze okoo 500 GB w cigu
roku !). Zatem naleaoby przesia te dane
przez jaki rodzaj sita aby pozostawi tylko
istotne informacje np.: pozostawi dane
sumaryczne na poziomie wartoci godzinnych.
18

Agregaty 1/2
Agregaty (podsumowania) s generowane z
danych detalicznych i s tak przygotowywane
aby odpowiaday na najczciej zadawane
pytania przez uytkownikw hurtowni.
Agregaty mog by wielowarstwowe tzn.:
najpierw z danych detalicznych tworzymy dane
wstpnie zagregowane a nastpnie mocniej
zagregowane.
19

Agregaty 2/2
Dla umoliwienia waciwej analizy danych
agregaty generowane s w kilku przekrojach.
Jednak zawsze moe zdarzy si, e bd
potrzebne dane, ktrych nie ma agregacie
wtedy bdzie trzeba sign po archiwum (np.
tamowe) i wycign potrzebne informacje z
danych detalicznych. Jeeli takie zapotrze bowanie zdarza si czsto np. co kwarta warto
przemyle czy nie zmieni struktury agregatu.
20

Metadane 1/2

tumacz nieprzyjazne dla uytkownika pojcia


informatyczne na jzyk biznesu;
informuj jakie dane s aktualnie dostpne;
s katalogiem dostpnych informacji.

Powinny zawiera :
opis danych zawartych w hurtowni;
opis dostpnoci danych;
nazw systemu, z ktrego pochodz dane;

21

Metadane 2/2

22

opis operacji poczynionych na danych podczas


zasilania hurtowni;
wersj metadanych, ktre metadane obowizyway w
danym okresie;
metryki dotyczce danych, pozwalaj okreli
przybliony czas wykonywania zapytania;
historia adowa i awarii;
zalenoci logiczne pomidzy danymi.

Eksploracja baz danych


(Data mining)

23

odkrywanie zalenoci ukrytych w zbiorach


danych;
poszukiwanie asocjacji, sekwencji, klasyfikacji,
grupowanie;
znajdowanie regu dotyczcych zachowa
klientw;
przewidywanie zapotrzebowania na dany produkt;
wykrywanie naduy i nieprawidowoci w
dziaaniu systemu.

Eksploracja baz danych


(Data mining)

24

Narzdzia wspomagajce
projektowanie 1/2

25

Narzdzia wspomagajce projektowanie i


modelowanie systemw.
Winny by uywane we wszystkich fazach budowy
hurtowni danych. Za ich pomoc zbieramy
wymagania uytkownikw, analizujemy je.
Wykonujemy czsto reverse engineering w
istniejcym systemie informatycznym
przedsibiorstwa. Dobre narzdzie tego typu
powinno te uatwia dokumentowanie prac oraz
zarzdzanie wersjami. Moemy tu zaliczy wszystkie
powane narzdzia CASE.

Narzdzia wspomagajce
projektowanie 2/2

26

Repozytoria metadanych.
Ta kategoria narzdzi cile wie si z poprzedni.
Zadaniem ich jest przechowywanie i zarzdzanie
metadanymi, nie tylko tymi powizanymi z hurtowni
lecz take tymi, ktre nale do innych systemw
informatycznych w przedsibiorstwie. Powinny by
zintegrowane z pozostaym oprogramowaniem do
zarzdzania hurtowni, ideaem jest sterowanie
systemem poprzez zmian metadanych (zmiana
metadanych powoduje zmian zasilania hurtowni).

Narzdzia wspomagajce
zasilanie hurtowni 1/4
Su do :
pozyskiwania i czyszczenia danych;
transferu danych przez sie;
adowania danych do hurtowni.
Dobrze aby potrafiy:
ujednolici sposb kodowania atrybutw z rnych
systemw;
dopasowa rozmiary pl do przychodzcych danych.

27

Narzdzia wspomagajce
zasilanie hurtowni 2/4

Oprogramowanie typu middleware.


Potrzebne aby czy systemy heterogeniczne.
gatewaye do rnych protokow sieciowych;
sterowniki ODBC (rne bazy danych);
sterowniki ISAM (rne typy plikw);
wszelkie rodzaje translatorw, konwerterw itd.

28

Narzdzia wspomagajce
zasilanie hurtowni 3/4
Systemy baz danych.
Najczciej do przechowywania danych stosuje si
relacyjne bazy danych. Niektrzy producenci
serwerw SQL umieszczaj w nich specjalne
narzdzia zwikszajce wydajno obsugi hurtowni.
Ale te wielu producentw (RedBrick) oferuje
wielowymiarowe bazy, ktre przechowuj dane w
postaci tzw. hiperszecianu, ktry umoliwia atwe
sporzdzanie przekrojw i analizy danych.

29

Narzdzia wspomagajce
zasilanie hurtowni 4/4
Narzdzia analityczne.
S przeznaczone dla kocowego uytkownika,
zazwyczaj jest to analityk biznesowy.
dla niewielkiej liczby danych np. Microsoft Excel;
dla wikszych wymaga np. Business Objects;
analiza matematyczna np. produkty SAS;
analiza geograficzna np. MapCAD.

30

Cykl ycia hurtowni danych


Znaczco rni si od cyklu ycia baz transakcyjnych.
Zadania:
adowanie i scalanie, dane okresowo adowane, w
czasie adowania scalanie i ujednolicanie (konwersja
typw i formatw, przeksztacanie do innego modelu
danych;
agregacja;
dane posiadaj stempel czasu;
usuwanie, tylko dla okresw ju nie potrzebnych.

31

Technologia OLAP
OLAP On-line Analytical Processing.
model wielowymiarowy, hiperkostka;
OLAP przeksztaca dane z hurtowni na strategiczn
informacj;
model bliszy rozumowaniu czowieka;
dane o firmie zgromadzone w jednej kostce;
hurtownie danych i systemy OLAP wzajemnie si
uzupeniaj;
dziki prostocie i szybkoci analizy zmniejsza si
zagubienie w informacji i jej bdna interpretacja.

32

Technologia OLAP
Relation-OLAP (ROLAP)

33

wielkie objtoci danych (+);


atwa modyfikacja (+);
problemy z wydajnoci (-);
zoono struktur danych (-);
potrzeba stworzenia kopii bazy relacyjnej do celw
analitycznych (-);
niedoskonao SQL (-);

Technologia OLAP
Multidimensional-OLAP (MOLAP)
zoptymalizowane struktury danych (+);
dua wydajno analizy wielowymiarowej (+);
naturalna budowa struktur wielowymiarowych (+);
trudna modyfikacja danych (-);
mniejsza pojemno (-).
Dwa rodzaje baz wielowymiarowych:
disk Based (MDB);
RAM Based MDB lub RAM Cubes;

34

Technologia OLAP
Hybrid-OLAP (HOLAP)
Poczenie technologii ROLAP i MOLAP.

35

relacyjna baza danych jako rdo danych;


najczciej przetwarzane informacje w
wielowarstwowej bazie (RAM Cubes);
minusy s dziedziczone z obu rozwiza;
wydajno wiksza od ROLAP lecz nie dorwnuje
MOLAP;
HOLAP jest przypieszaczem ROLAP.

Analiza wielowymiarowa

36

Polega na poddawaniu danych typowym operacjom,


takim jak:
selekcja, wybr danych ktre na interesuj;
projekcja, zmniejszenie liczby wymiarw,
prezentowane zagregowane wzgldem pozostaych
wymiarw;
wycinanie, poczenie selekcji z projekcj;
ranking, sortowanie;
zwijanie(agregacja miar) i rozwijanie (dezagregacja
miar);
obracanie, zmiana perspektywy ogldania danych.

Budowa hurtowni danych


Analiza

37

grupa analitykw przychodzi do firmy;


przeprowadzaj rozmowy, najlepiej z kadym
przyszym uytkownikiem hurtowni;
sporzdzaj wymagania techniczne i biznesowe.
Wymagania obecnie najczciej opisuje si w
narzdziu CASE, co uatwia analiz zalenoci.

Budowa hurtowni danych


Projektowanie

38

wykonanie inwentaryzacji dostpnych rde


danych;
dla kadego ze rde naley okreli formaty
przechowywania danych, ich jako, potrzeby
aktualizacji;
konstrukcja wstpnego modelu danych;
wybr narzdzi;
okrelenie wymaga sprztowych;
oszacowanie objtoci danych.

Budowa hurtowni danych


Budowa i wdroenie

39

najczciej realizuje si najpierw projekt pilotowy,


obejmujcy wszystkie warstwy lecz jego zakres
tematyczne jest niewielki;
stworzenie modelu danych dla uytkownika
kocowego;
pisanie aplikacji i tworzenie dokumentacji;
przeszkolenie uytkownikw i administratorw;
rozszerzenie frontu robt.

Budowa hurtowni danych


Konserwacja

czsto trwa przez cay czas ycia systemu i


pochania wielkie koszty;
trzeba dostosowywa hurtowni do nowych
potrzeb uytkownikw.

Czsto budowa hurtowni ma charakter przyrostowy.

40

Przegld gotowych rozwiza


Oracle Warehouse Builder

41

jako system bazy danych Oracle 8i;


aplikacje analityczne;
kreatorzy wspomagajcy dziaania projektowe;
kod generowany jest automatycznie;
do tworzenia skadnic danych Oracle Data Mart
Suite;
programy analityczne: OLAP (Oracle Express) i
data mining (Oracle Darwin).

Przegld gotowych rozwiza


IBM Visual Warehouse
Zawiera szereg narzdzi przeznaczonych do
realizacji poszczeglnych krokw projektu
hurtowni danych. W pakiecie zawarty jest rwnie
serwer bazy danych DB2 - platforma, na ktrej
moe dziaa hurtownia korporacyjna.
IBM oferuje rwnie aplikacje analityczne w
technologii OLAP (DB2 OLAP Server) i data
mining IntelligentMiner.

42

Przegld gotowych rozwiza


SyBase Warehouse Studio
W jego skad wchodzi ponad dziesi narzdzi i
aplikacji przeznaczonych do obsugi projektu
(modelowania, oczyszczania i przenoszenia
danych), skadowania i zarzdzania danymi,
tworzenia zapyta i raportw.
Jako platform do dziaania hurtowni danych
Sybase oferuje wasny serwer bazy danych Adaptive Enterprise Server.

43

Przegld gotowych rozwiza


Computer Associates

44

Firma przygotowaa pakiet DECISIONBASE:


projektowanie modelu danych - ErWin;
zasilanie danymi z rnych rde - Transformer;
metadane PLANTIUM Repository;
narzdzia analityczne, OLAPServer i rozwizanie
bazujce na sieciach neuronowych Neugents;
wiele innych.

Wdroenia Hurtowni Danych 1

45

BPH,
Wsplne dzieo BPH i Oracle Polska, wykorzystano
baz Oracle Express. Moliwoci generowania
raportw finansowych do NBP, dane finansowe
zapisywane na zasadzie fotografii.
Coca-Cola,
InfoViDE by odpowiedzialny za zaplanowanie i
budow systemu analiz i raportw dla firmy. Zakres
systemu to raportowanie zagadnie zwizanych ze
sprzeda oraz produkcj, prognozowanie i elementy
budetowania.

Wdroenia Hurtowni Danych 2

46

Frito Lay Poland,


Wykorzystano produkty Oracle, do analizy Oracle
Sales Analyzer. Miesicznie rejestrowanych jest ok.
700 tys. transakcji. Dziki zbudowanym agregatom
dostp do danych jest bardzo szybki i nie
ograniczony wielkoci bazy.
Rabobank Polska,
Wdroony wczeniej data mart, oparty na technologii
OLAP, okaza si niewystarczajcy. COMP Rzeszw
SA zbudowa system wspomagajcy zarzdzanie
ryzykiem oraz ocen rentownoci dziaania banku.

Podsumowanie 1/2

47

budowa hurtowni to wielkie wyzwanie z uwagi na


zoono technologiczn i organizacyjn;
najczciej trwa dwa, trzy lata, pierwsze wyniki
najczciej po roku;
koszty sprztu i oprogramowania rzdu milionw
dolarw;
korzyci biznesowe mog by zerowe lub
stuprocentowe.
coraz wicej firm decyduje si na taki krok;

Podsumowanie 2/2

w USA rynek hurtowni to ponad 40 mld dolarw i


szybko ronie.

LITERATURA
Internet

48

You might also like