2 ETL Adattisztitas

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 15

3.

ETL (extract, transform, load)


Alkalmazás Alkalmazás

ETL
DB modul(ok) DB

 Külön adatbázisok, eltérő adatstruktúrák


 Az alkalmazások saját adatstruktúrájukat használják, a transzformációt
az ETL modulok végzik
 Az alkalmazások egymástól függetlenek
 ETL - tipikusan egyirányú
 Időzítés ↔ Konzisztencia
 Időzítés ↔ Teljesítmény / rendelkezésre állás
 Online / offline betöltés?
 ETL modul megvalósítható
 Egyéni fejlesztés
 ETL tool-ok segítségével (hatékonysági növekedés 3-5X ☺ @ETL tool
vendors) pl. Oracle Warehouse Builder -OWB, Microsoft Integration Services
– SSIS, IBM Cognos Data Manager, SAS Data Integration Studio))
13
3. ETL (extract, transform, load)
Alkalmazás Alkalmazás

ETL
DB modul(ok) DB

 Nincs függőség az alkalmazások  ETL modulok implementációja


között  Eltérő / ellentmondásos üzleti
 Adatstruktúra függőség sincs logika, szemantika jelenhet
 Olyan esetben is alkalmazható, meg az alkalmazásokban
ahol az alkalmazás nincs  Bármely oldal adatstruktúra
felkészítve az integrációra változása az ETL modulok
 Könnyebben méretezhető módosítását igényli
 Dead-lock szituációk
könnyebben elkerülhetők,
lokalizálhatók
14
3. ETL (extract, transform, load)

 Közvetlen adathozzáférés
 Adatbázisok
 Fájlok
 Szabványos források (JDBC, ODBC,
WebServices, ...)
 Transzformációs job-ok
 Hozzáférés, transzformációk és
betöltés szekvenciális sorozata
 Pipeline-olható
 Párhuzamosítható
 Partícionálással
 Nem függő job-ok párhuzamos
futtatásával
 Újrahasznosíthatóság
 Betöltés
 Batch alapú, statikus célba
 Real-time, web services válaszként

15
3. ETL + Adattisztítás
Kate A. Roberts 416 Columbus Ave #2, Boston, Mass 02116
 Tárolási / rögzítési
szabványok hiánya Catherine Roberts Four sixteen Columbus APT2, Boston, MA 02116

 A rendszerekben eltérő Mrs. K. Roberts 416 Columbus Suite #2, Suffolk County 02116
formátumok, struktúrák
 „Data surprises” Name Tax ID Telephone
J Smith DBA Lime Cons. 228-02-1975 6173380300
 Hibásan rögzített adatok, Williams & Co. C/O Bill 025-37-1888 415-392-2000
mező-keveredés 1st Natl Provident 34-2671434 3380321
HP 15 State St. 508-466-1200 Orlando
 Szabad-szöveges
mezőkben elásott WING ASSY DRILL 4 HOLE USE 5J868A HEXBOLT 1/4 INCH
információk WING ASSEMBY, USE 5J868-A HEX BOLT .25” - DRILL FOUR HOLES
 Data myopia („rövidlátás”) USE 4 5J868A BOLTS (HEX .25) - DRILL HOLES FOR EA ON WING ASSEM

 Konzisztens azonosítók RUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETS (10 CM)
hiánya nehezíti az
egységes nézet 19-84-103 RS232 Cable 6' M-F CandS

létrehozását CS-89641 6 ft. Cable Male-F, RS232 #87951


 Redundancia C&SUCH6 Male/Female 25 PIN 6 Foot Cable
 Duplikált bejegyzések 90328574 IDC 187 N.Pk. Str. Salem NH 01456
90328575 IDC Inc. 187 N.Pk. St. Salem NH 01456
90238495 Int. Data Corporation 187 No. Park St Salem NH 04156
90233479 International Data C. 187 Park Ave Salem NH 04156
90233489 Inter-Nation Consults 15 Main Street Andover MA 02341
90345672 I.D. Manufacturing Park Blvd. Bostno MA 04106
16
3. ETL + Adattisztítás

Customers

Tisztítási folyamat

Products / 1. Data Investigation


Materials
2. Data Standardization
3. Data Matching
4. Data Survivorship
Transactions

Pontos, tisztított adatok


Vendors /
Suppliers

17
3. ETL + Adattisztítás – 1.
Investigation

 Teljes állományok / adatbázisok


vizsgálata
 Szabadszöveges mezők
értelmezése
 Szabályszerűségek keresése és
ellenőrzése
 Trendek, anomáliák detektálása
 Valótlan, vagy default értékek
detektálása
 Megérteni a kontextusba
helyezett adatokat

18
3. ETL + Adattisztítás – 1.
Investigation
Character Discrete (Social Security Number)
Data Type Frequency Percentage Data Sample
bbbbbbbb 657,456 65.74%
b = blank
nnnnnnnn 342,544 34.25% 500448541 n = numeric

Frequency Percentage Data Sample

75,100 7.51% 000000000


650 .006% 424622212 ‘Type’ investigation showed
325 .032% 111111111 ‘expected’ results.
275 .027% 420548756 ‘Character’ investigation
233 .023% 999999999 shows data entry issues.
10 .001% 420721373

1 .001% 001234567
1 .001% 000001216

19
3. ETL + Adattisztítás – 1.
Investigation ???
123 St. Virginia St.

123 | St. | Virginia | St.


Number Street Alpha Street
Type Type
Lexical analysis: 123 | St. | Virginia | St.
Determining business significance of individual pieces
House Street
Number Street Name Type

Context Sensitive: 123 | St. Virginia | St.


Identifying various data structures and content

“The instructions for handling the data are


inherent within the data itself.”
20
3. ETL + Adattisztítás – 2.
Standardizáció
Normalizáció a standardoknak
megfelelően
 Suffix, Prefix, Gender, Nickname,
Title... Mezők formalizálása,
egységesítése
 Kettős nevek és egyéb különleges
struktúrák kezelése
 Földrajzi adatbázisok és ellenőrző
rendszerek használata (USPS, WAVES,
...)

21
3. ETL + Adattisztítás – 2.
Standardizáció
Input File:
Address Line 1 Address Line 2

639 N MILLS AVENUE ORLANDO, FLA 32803


306 W MAIN STR, CUMMING, GA 30130
3142 WEST CENTRAL AV TOLEDO OH 43606
843 HEARD AVE AUGUSTA-GA-30904
1139 GREENE ST ACCT #1234 AUGUSTA GEORGIA 30901
4275 OWENS ROAD SUITE 536 EVANS GA 30809
1775 RUSSELL CIRCLE MILLIS MASSACH USETTS 02038

Result File:
House # Dir Str. Name Type Unit No. NYSIIS City SOUNDEX State Zip ACCT#

639 N MILLS AVE MAL ORLANDO O645 FL 32803


306 W MAIN ST MAN CUMMING C552 GA 30130
3142 W CENTRAL AVE CANTRAL TOLEDO T430 OH 43606
843 HEARD AVE HAD AUGUSTA A223 GA 30904
1139 GREENE ST GRAN AUGUSTA A223 GA 30901 1234
4275 OWENS RD STE 536 ON EVANS E152 GA 30809
1775 RUSSELL CIR RASAL MILLIS L260 MA 02038

22
3. ETL + Adattisztítás – 2.
Standardizáció

Input File:
Operation Work Instruction

WING ASSY DRILL 4 HOLE USE 5J868A HEXBOLT 1/4 INCH


WING ASSEMBY, USE 5J868-A HEX BOLT .25” - DRILL FOUR HOLES
USE 4 5J868A BOLTS (HEX .25) - DRILL HOLES FOR EACH ON WING ASSEM
RUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETS (10 CM)

Result File:
Assembly Instruction QTY Type Part Size Unit Measure SKU

WING DRILL 4 HOLES HEXBOLT .25 INCH 5J868A


WING DRILL 4 HOLES HEXBOLT .25 INCH 5J868A
WING DRILL 4 HOLES HEXBOLT .25 5J868A
RUDDER TAP 6 HOLES RIVET 10 CM KL2301

23
3. ETL + Adattisztítás – 3.
Matching
Duplikátumok azonosítása
Összetartozó rekordok azonosítása

Megközelítés:
 Deterministic decision tables
 Probabilistic linkage

24
3. ETL + Adattisztítás – 4.
Survivorship
Duplikátumok kiszűrése
Rekord-konszolidáció
Kereszthivatkozások létrehozása

25
3. ETL – Példa (biztosítói
ügynök portál)
Ügynök portál
User registry ETL

ETL
Ügyfél DB
ÜP_DB

ETL
Szerződés DB

 A portál elsősorban megjeleníti a mögöttes DB-ok tartalmát


 Napi áttöltés az ÜP_DB adatbázisba
 Egyfajta „materializált view”
 Tehermentesíti a háttéradatbázisokat a gyakori
lekérdezésektől / szűrésektől
 Jobb válaszidőt biztosít, mint az online aggregáció
 A portál felől kezdeményezhető CUD műveletek már nem ETL
révén valósulnak meg, háttérrendszeri szolgáltatásokat hívnak

26
4. „Interfész táblák”
A alkalmazás B alkalmazás

EmpID Name Birthdate

3494 Smith A 06/07/67

6849 Seat 01/01/07 Triggerek /


A_DB ProdID Name Created
Pollingolás B_DB
A7898 Wheel p 01/01/07

A8457 Seat 01/01/07

 Alkalmazások közötti adatcsere ún. „interfész-táblákon” keresztül


 Az interfész táblák kerülhetnek külön adatbázisba, de közvetlenül
valamely alkalmazás adatbázisába is
 Az adatcsere lehet egy- és kétirányú, pl.:
 A: beír – B: kiolvas, töröl
 A: beír – B: kiolvas, feldolgoz, update-el – A:feldolgozás
eredményét kiolvassa

27

You might also like