Professional Documents
Culture Documents
2 ETL Adattisztitas
2 ETL Adattisztitas
2 ETL Adattisztitas
ETL
DB modul(ok) DB
ETL
DB modul(ok) DB
Közvetlen adathozzáférés
Adatbázisok
Fájlok
Szabványos források (JDBC, ODBC,
WebServices, ...)
Transzformációs job-ok
Hozzáférés, transzformációk és
betöltés szekvenciális sorozata
Pipeline-olható
Párhuzamosítható
Partícionálással
Nem függő job-ok párhuzamos
futtatásával
Újrahasznosíthatóság
Betöltés
Batch alapú, statikus célba
Real-time, web services válaszként
15
3. ETL + Adattisztítás
Kate A. Roberts 416 Columbus Ave #2, Boston, Mass 02116
Tárolási / rögzítési
szabványok hiánya Catherine Roberts Four sixteen Columbus APT2, Boston, MA 02116
A rendszerekben eltérő Mrs. K. Roberts 416 Columbus Suite #2, Suffolk County 02116
formátumok, struktúrák
„Data surprises” Name Tax ID Telephone
J Smith DBA Lime Cons. 228-02-1975 6173380300
Hibásan rögzített adatok, Williams & Co. C/O Bill 025-37-1888 415-392-2000
mező-keveredés 1st Natl Provident 34-2671434 3380321
HP 15 State St. 508-466-1200 Orlando
Szabad-szöveges
mezőkben elásott WING ASSY DRILL 4 HOLE USE 5J868A HEXBOLT 1/4 INCH
információk WING ASSEMBY, USE 5J868-A HEX BOLT .25” - DRILL FOUR HOLES
Data myopia („rövidlátás”) USE 4 5J868A BOLTS (HEX .25) - DRILL HOLES FOR EA ON WING ASSEM
Konzisztens azonosítók RUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETS (10 CM)
hiánya nehezíti az
egységes nézet 19-84-103 RS232 Cable 6' M-F CandS
Customers
Tisztítási folyamat
17
3. ETL + Adattisztítás – 1.
Investigation
18
3. ETL + Adattisztítás – 1.
Investigation
Character Discrete (Social Security Number)
Data Type Frequency Percentage Data Sample
bbbbbbbb 657,456 65.74%
b = blank
nnnnnnnn 342,544 34.25% 500448541 n = numeric
1 .001% 001234567
1 .001% 000001216
19
3. ETL + Adattisztítás – 1.
Investigation ???
123 St. Virginia St.
21
3. ETL + Adattisztítás – 2.
Standardizáció
Input File:
Address Line 1 Address Line 2
Result File:
House # Dir Str. Name Type Unit No. NYSIIS City SOUNDEX State Zip ACCT#
22
3. ETL + Adattisztítás – 2.
Standardizáció
Input File:
Operation Work Instruction
Result File:
Assembly Instruction QTY Type Part Size Unit Measure SKU
23
3. ETL + Adattisztítás – 3.
Matching
Duplikátumok azonosítása
Összetartozó rekordok azonosítása
Megközelítés:
Deterministic decision tables
Probabilistic linkage
24
3. ETL + Adattisztítás – 4.
Survivorship
Duplikátumok kiszűrése
Rekord-konszolidáció
Kereszthivatkozások létrehozása
25
3. ETL – Példa (biztosítói
ügynök portál)
Ügynök portál
User registry ETL
ETL
Ügyfél DB
ÜP_DB
ETL
Szerződés DB
26
4. „Interfész táblák”
A alkalmazás B alkalmazás
27