Download as pdf or txt
Download as pdf or txt
You are on page 1of 42

Skladištenje podataka

(Data Warehousing)
sa Oracle-om

MeĎimurje IPC d.d.


Krešimir Kolac, kkolac@ipc.hr
24.07.2007
Ukratko

 Zašto skladišta podataka?


 Što su skladišta podataka?
 Razlike izmeĎu OLTP i OLAP-a
 Osnovni pojmovi (OLAP, BI, Data
Martovi itd…)
 Oracle i skladišta podataka
Transakcijski sustavi (relacijske baze
podataka)

 Optimirane za brz transakcijski rad


 Brzo spremanje transakcija (update,
insert)
 Normalizirani kompleksni procesi
koji se sastoje od puno tablica
 Redundancija svedena na minimum
 Puno analitičkih podataka
 Visoka pouzdanost i dostupnost
Problemi

 Normalizirani podaci nisu prikladni


za brzo izvještavanje i analiziranje
podataka kroz više godina
 Upiti na više tablica često traju jako
dugo
 Zbog optimiranja sustava povijesni
podaci se često odvajaju od radnih
podataka
Problemi – heterogena okolina

“Heterogeneities are
everywhere”

Personal
Databases

World
Scientific Databases
Wide
Web
Digital Libraries
• Sustavi različitih dobavljača
• Različiti modeli podataka
• Redundantni, nekonzistentni podaci
Cilj – unificirani pristup podacima

Integration System

World
Wide
Personal
Web
Digital Libraries Scientific Databases Databases

 Sakupljanje i kombiniranje informacija


 Uniformno integrirano sučelje za analizu podataka
Rješenja kroz povijest
 EIS – Executive information systems
 Prije relacijskih baza, sustavi pisani u
strukturnim programskim jezicima, domet su
bile razne tablice i sume.
 DSS - Decision support systems
 Tradiocinalni pristup, SQL upitima
ekstrahiranje informacija iz relacijskih baza
 Data warehousing (DW) and business
intelligence (BI)
Skladišta podataka (DW)
 Skladište podataka je relacijska baza zadužena za skupljanje
povijesnih podataka iz različitih transakcijskih sustava.

 Dizajnirana za brzo izvoĎenje upita i analiziranje podataka u


skladištu.

 Skladišta podataka mogu spremati podatke analitičke i sumarne


podatke na različitim nivoima granularnosti. Podaci su
denormalizirani. Redundancija dobrodošla.

 Analiza podataka u skladištu i korištenje skladišta je vremenski


odvojeno od moda kada se skladište puni.

 Za razliku od relacijskih baza podataka, skladišta podataka


uključuju:
 rješenja za ekstrakciju, transformaciju i učitavanje podataka (ETL
proces)
 Online analytical processing (OLAP) i Data mining mogućnosti
 Client alate za analizu i izvješćivanje.
Razlike izmeĎu transakcijskih
sustava i DW
Standard DB (OLTP) Warehouse (OLAP)
 Većinom update, insert,  Većinom čitanje
delete kod punjenja većinom insert
 Puno malih transakcija  Dugi i kompleksni upiti
 Mb - Gb podataka  Gb - Tb podataka
 Normalizirani podaci,  Denormalizirani podaci
minimalna redundancija
 Trenutni snapshot  Povijest – Puno presjeka baze
 Sirovi podaci  Sumarni, očišćeni podaci
 Tisuće korisnika -  Stotine korisnika - decision-
operateri makeri, analitičari
Osnovni pristup
Data Warehouse Architecture (with a
Staging Area)
Data Warehouse Architecture (with a
Staging Area and Data Marts)
Arhitektura skladišta podataka
Information Sources Data Warehouse OLAP Servers Clients
Server (Tier 2) (Tier 3)
(Tier 1)
e.g., MOLAP
Semistructured Analysis
Sources
Data
Warehouse serve

extract Query/Reporting
transform
load serve
refresh
etc. e.g., ROLAP
Operational
DB’s Data Mining
serve

Data Marts
Data Mart
 Manji dio skladišta podataka zadužen za
implementaciju specifične poslovne funkcije
 Financije
 Prodaja
 Nabava
 Razlikujemo dvije vrste Data Mart-ova
 Dependent Data Mart
 Puni se iz skladišta podataka
 Jednostavan ETL
 Independent Data Mart
 naslanja se direktno na transakcijske sustave
 Kompliciran ETL
Data Warehouse vs. Data Marts

 Enterprise warehouse: collects all information about


subjects (customers,products,sales,assets, personnel)
that span the entire organization
 Requires extensive business modeling (may take years
to design and build)
 Data Marts: Departmental subsets that focus on selected
subjects
 Marketing data mart: customer, product, sales

 Faster roll out, but complex integration in the long run

 (few months to build)

 Virtual warehouse: views over operational dbs


 Materialize sel. summary views for efficient query
processing
 Easy to build but require excess capability on operat.
db servers
Poslovno, logičko i dimenzijsko
modeliranje DW

 Star shema model


 Snowflake shema
model
 Dimenzije (SCD),
hierarhije, leveli
 Fact tabele
(factless fact
table)

Source model
Star shema

 U potpunosti denormalizirane dimenzije


Star shema
Snowflake shema

 Nisu do kraja denormalizirane dimenzije


Snowflake shema
Modeliranje dimenzija

 Hierarhije
 Leveli
 Granularnost
 Slowly Changing Dimensions
 Vremenska dimenzija
 Kritična za skladište podataka – bitno
izabrati dobar nivo granularnosti
Modeliranje dimenzija
Slowly Changing Dimensions
Modeliranje fact tabele
 Mjere  Factless fact tabela
 Količina
 Cijena
 Bruto/Neto iznos
 Porez
ETL proces (Extract, transform, load )
 Ekstrakcija podataka iz transakcijskih sustava i flat fileova,
 Čišćenje, denormalizacija i preoblikovanje prema poslovnim
potrebama.
 Punjenje skladišta podataka

 Najveći dio posla oko izgradnje skladišta podataka odnosi se


na ETL proces-e
OLAP – Online analytical processing

 ―Tehnika za sintezu podataka je OLAP (On Line Analisys


Processing). Podaci spremljeni u DW su u prvom redu
optimizirani za skladištenje te bilo kakav rad s njima zahtijeva
značajno vrijeme. Ali, korisnicima BI sustava se žuri te ne mogu
čekati dok se obavi proces dohvata i analize podataka. Zato je
tu OLAP koji "stane" izmeĎu DW-a i korisnika te omogućuje brzu
analizu podataka. Kako se to postiže? Jednostavno, OLAP
predvidi sve potrebne analize, unaprijed ih izračuna, spremi i
proslijedi korisniku kada on to zatraži.‖ INFOTREND

 Informacijski sustav za brz, konzistentan i interaktivan


pristup i manipulaciju multidimenzionalnim podacima koji
dolaze iz različitih izvora, a spremljeni su u skladištu
podataka.

 Funkcionalnost OLAP-a ostvarena je kroz mogućnost multi-


dimenzionalnih analiza konsolidiranih korporativnih podataka
koje uključuju: modeliranje korištenjem dimenzija i
hijerarhija podataka, analize trendova kroz odreĎena
vremenska razdoblja, projekciju podataka kroz what-if
scenarije, podskupove podataka, bušenje (drill down) do
nižih nivoa detaljnosti podataka.
Načini implementacije
 MOLAP (Multidimensional OLAP)
 Podaci se spremaju u multidimenzionalnu bazu podataka
zvanu Anaytical Workspace (AW)
 U Oracle-u 10g to su sistemske tablice u koje se spremaju binarni
podaci, nečitljivo bez posebnog alata

 ROLAP (Relational OLAP)


 Podaci se spremaju u relacijsku bazu podataka
 Multidimenzionalnost i prekalkuliranje sume implementiraju se
pomoću materijaliziranih view-a
 Manje su učinkoviti, jeftinija implementacija

 HOLAP (Hybrid OLAP)


 Rijetko se ažuriraju podaci – MDD
 Često ažuriranje - RDB
Od OLTP-a do OLAP-a
OLAP “kocka”
OLAP operacije

Roll Up

Drill Down

Single Cell Multiple Cells Slice Dice


OLAP operacije
 Simple query – single cell in the cube
 Slice – Look at a subcube to get more
specific information
 Dice – Rotate cube to look at another
dimension
 Roll Up – Dimension Reduction;
Aggregation
 Drill Down
 Visualization: These operations allow the
OLAP users to actually ―see‖ results of an
operation.
OLAP u Oracle-u
 Oracle OLAP 10g  Oracle Tools for AW
components: Administration and
 The OLAP analytic Quarying:
engine  Analyticcal
 Analytical Workspace Manager
workspaces (AWs) (AWM)
 Analytical Workspace  Oracle Warehouse
Manager (AWM) Builder (OWB)
 OLAP Worksheet  Oracle Discoverer
 OLAP Catalog Plus for OLAP
 Interfaces for  Oracle BI
developing OLAP Spreadsheet Add-In
applications in SQL for MS Excel
and JAVA
Data mining
From Wikipedia

 Data mining has been defined as "the nontrivial


extraction of implicit, previously unknown, and
potentially useful information from data" [1] and "the
science of extracting useful information from large
data sets or databases―

 Data mining involves sorting through large amounts of


data and picking out relevant information. It is usually
used by Business intelligence organizations, and
financial analysts, but is increasingly used in the
sciences to extract information from the enormous
data sets generated by modern experimental and
observational methods.
Oracle Data Mining
 Oracle Data Mining (ODM)—an option to
Oracle Database 10g Enterprise Edition—
enables you to produce actionable
predictive information and build
integrated business intelligence
applications. Using data mining
functionality embedded in Oracle
Database 10g, you can find patterns and
insights hidden in your data. Application
developers and integrators can quickly
automate the distribution of new business
intelligence—predictions, patterns and
discoveries—throughout your
organization.

 Oracle Data Mining enables business


decision makers, data analysts,
integrators, and IT to extract greater
value from corporate data resulting in
better informed business decisions that
address a wide range of business
problems.

 GUI interface - Oracle Data Miner


Oracle & Data Warehousing
 Kupnjom kompanije Siebel Systems,
Oracle je ponudio alternativu svojim BI
(Business Intelligence) alatima. Danas u
Oracle-ovoj ponudimo imamo dva paketa
BI alata:
 Oracle Business Intelligence Enterprise
Edition (Siebelovi alati)
 Oracle Business Intelligence Standard
Edition (Oracleovi alati)
Oracle Business Intelligence Standard
Edition (SE)
 Oracle BI Discoverer (Relacijski i OLAP) –
OLAP alat za pregled i analizu podataka u
skladištu. Omogućuje spajanje na
relacijski OLAP i multi dimenzionalni OLAP
(MOLAP)
 Oracle BI Warehouse Builder – dizajn,
kreiranje i punjenje skladišta podataka
 Oracle BI Spreadsheet Add-in – dodatak
za Excel koji omogućuje Excelu spajanje
na OLAP kocke
 Oracle BI Beans – za razvoj BI aplikacija
 Oracle Reports Services – report alat
Oracle Business Intelligence Enterprise
Edition (EE)
 Oracle BI Server
 Oracle BI Answers – pregled i analiza podataka
 Oracle BI Interactive Dashboards - portal
 Oracle BI Delivers – monitoring i upozorenja
 Oracle BI Disconnected Analytics – za offline
pristup
 Oracle BI Publisher (XML Publisher) - reporting
 Oracle BI Briefing Books – za dijeljenje dashboard
dokumenata offline
Koristimo

 Oracle baza 10gR2 sa OLAP opcijom


 Oracle Warehouse Builder 10gR2
 Oracle BI Application Server 10gR2
(Discoverer Plus, Discoverer Viewer)
 OracleBI Spreadsheet Add-In 10g
 Oracle Workflow
MeĎimurje IPC d.d.
arhitektura sustava
Instalacije
 Oracle Warehouse Builder 10gr2
 \\kolac\programi\OWB10gR2

 Oracle BI Excel Add-In


 \\kolac\programi\Oracle AS&BI\OBISpAddinInst_10.1.2.2.10.exe

 Ostalo
 \\kolac\programi\Oracle AS&BI\

 Oracle BI App Server (Discoverer Plus & Viewer)


 http://hermes.ipcck.hr:7779/

 Primjeri
http://www.oracle.com/technology/obe/obe_bi/bi.html

 Dokumentacija
http://www.oracle.com/pls/db102/portal.portal_db?selected=6
Sheme
 Vlasnik OWB repozitorija
wbgazda/wbgazda@zeus
 Korisnik OWB repozitorija
wbkor/wbkor@zeus
 Oracle Workflow
OWF_MGR/OWF_MGR@zeus
 DW (ROLAP)
maris_wh/maris_wh@zeus
 AW (MOLAP)
maris_aw/maris_aw@zeus
 EUL za ROLAP Discoverer
disco/disco@zeus

Logiranje u OWB
Ova prezentacija se nalazi na:

\\ipcmaris\SHARE\maris\Projekti\Nove tehnologije\DataWarehose\Škola

You might also like