Professional Documents
Culture Documents
4lenninemlenni PDF
4lenninemlenni PDF
megoldások/technológiák 3
2
Egyéb modellek - Integrációs
szintek - adatintegráció
3
Tartalom
Adat integráció
Tartalom integráció
Tartalom tár
Dokumentum-kezelő rendszerek
Információ, mint szolgáltatás
4
Problémafelvetés
Information
Information Sources
Sources && Targets
Targets
Kritikus problémák
PeopleSoft
A vállalat értékek adatai, információi
elkülönült alkalmazások adatbázisaiban
Web hevernek
Content
Az alkalmazások csak saját feldolgozási
és analitikus területükre fókuszálnak,
SAP nehézkes az átjárhatóság (más forrás
megszólítása, külső kérés kiszolgálása)
Oracle A heterogén (technológia, protokollok,
adatreprezentáció, adatminőség)
adatforrásokkal nehézkes az
Legacy alkalmazások közötti integráció, vagy
data
Siebel egységes adattárház kialakítása
Redundancia – önmagában veszélyes!
Inkonzisztencia
Files Eltérő struktúra (granularitás),
Teradata eltérő adatminőség
5
1. Közvetlen hozzáférés /
osztott adatbázis
DB
Közös adatbázis
Az alkalmazások azonos sémába (-ból) dolgoznak
Az alkalmazások egymástól függetlenek
6
1. Közvetlen hozzáférés /
osztott adatbázis
Alkalmazás
Alkalmazás
Alkalmazás Alkalmazás Alkalmazás
DB
GIS
Geographic Information
System
8
2. Adatbázis replikáció
replikáció replikáció
DB DB DB
9
2. Adatbázis replikáció
replikáció replikáció
DB DB DB
replikáció Lokális
DB DB / replika
11
2. Adatbázis replikáció – Példa
(Google Gears! )
– open source project&community
http://code.google.com/apis/gears/
12
3. ETL (extract, transform, load)
Alkalmazás Alkalmazás
ETL
DB modul(ok) DB
ETL
DB modul(ok) DB
Közvetlen adathozzáférés
Adatbázisok
Fájlok
Szabványos források (JDBC, ODBC,
WebServices, ...)
Transzformációs job-ok
Hozzáférés, transzformációk és
betöltés szekvenciális sorozata
Pipeline-olható
Párhuzamosítható
Partícionálással
Nem függő job-ok párhuzamos
futtatásával
Újrahasznosíthatóság
Betöltés
Batch alapú, statikus célba
Real-time, web services válaszként
15
3. ETL + Adattisztítás
Kate A. Roberts 416 Columbus Ave #2, Boston, Mass 02116
Tárolási / rögzítési
szabványok hiánya Catherine Roberts Four sixteen Columbus APT2, Boston, MA 02116
A rendszerekben eltérő Mrs. K. Roberts 416 Columbus Suite #2, Suffolk County 02116
formátumok, struktúrák
„Data surprises” Name Tax ID Telephone
J Smith DBA Lime Cons. 228-02-1975 6173380300
Hibásan rögzített adatok, Williams & Co. C/O Bill 025-37-1888 415-392-2000
mező-keveredés 1st Natl Provident 34-2671434 3380321
HP 15 State St. 508-466-1200 Orlando
Szabad-szöveges
mezőkben elásott WING ASSY DRILL 4 HOLE USE 5J868A HEXBOLT 1/4 INCH
információk WING ASSEMBY, USE 5J868-A HEX BOLT .25” - DRILL FOUR HOLES
Data myopia („rövidlátás”) USE 4 5J868A BOLTS (HEX .25) - DRILL HOLES FOR EA ON WING ASSEM
Konzisztens azonosítók RUDER, TAP 6 WHOLES, SECURE W/KL2301 RIVETS (10 CM)
hiánya nehezíti az
egységes nézet 19-84-103 RS232 Cable 6' M-F CandS
Customers
Tisztítási folyamat
17
3. ETL + Adattisztítás – 1.
Investigation
18
3. ETL + Adattisztítás – 1.
Investigation
Character Discrete (Social Security Number)
Data Type Frequency Percentage Data Sample
bbbbbbbb 657,456 65.74%
b = blank
nnnnnnnn 342,544 34.25% 500448541 n = numeric
1 .001% 001234567
1 .001% 000001216
19
3. ETL + Adattisztítás – 1.
Investigation ???
123 St. Virginia St.
21
3. ETL + Adattisztítás – 2.
Standardizáció
Input File:
Address Line 1 Address Line 2
Result File:
House # Dir Str. Name Type Unit No. NYSIIS City SOUNDEX State Zip ACCT#
22
3. ETL + Adattisztítás – 2.
Standardizáció
Input File:
Operation Work Instruction
Result File:
Assembly Instruction QTY Type Part Size Unit Measure SKU
23
3. ETL + Adattisztítás – 3.
Matching
Duplikátumok azonosítása
Összetartozó rekordok azonosítása
Megközelítés:
Deterministic decision tables
Probabilistic linkage
24
3. ETL + Adattisztítás – 4.
Survivorship
Duplikátumok kiszűrése
Rekord-konszolidáció
Kereszthivatkozások létrehozása
25
3. ETL – Példa (biztosítói
ügynök portál)
Ügynök portál
User registry ETL
ETL
Ügyfél DB
ÜP_DB
ETL
Szerződés DB
26
4. „Interfész táblák”
A alkalmazás B alkalmazás
27
5. MDM (Master Data
Management)
Master adatokat függetleníti az
azt nyilvántartó alkalmazásoktól Existing
Központi, alkalmazás-független Applications
információ-forrás Existing
Applications
Egyszerűsíti az integrációt és új
alkalmazások fejlesztését Master
Master
Data
Data
Konzisztens Master adatok a
tranzakcionális és analitikus Master Data
Management
rendszerek számára
System
Adatminőség és konzisztencia
biztosítása már az Existing
adatforrásoknál, nem az Applications
Historical /
adattárházba töltéskor kell Master Analytical
Master
tisztítani Data
Data Systems
New
Applications
28
5. MDM (Master Data
Management)
Témacentrikus (Ügyfél, Termék,
Partner, ...)
A témát érintő összes adatforrással Existing
szinkronizált Applications
Ősfeltöltés Existing
Adattisztítás, konszolidáció Applications
Adattranszformáció (ETL) Master
Master
Folyamatos adatszinkron Data
Data
Valós idejű adattisztítás
(standardizálás, és match- Master Data
elés) Management
Valós idejű ETL System
29
5. MDM (Master Data
Management) – Példa (bank)
Data
Web Site Contact Center Store Warehouse
Minden rendszer felé
aktiális és pontos
információkat nyújt
Az ügyfélről teljes Name Name Name Name
Address Address Address Address
nézetet ad X-Sell / Up-Sell X-Sell / Up-Sell X-Sell / Up-Sell X-Sell / Up-Sell
teszik lehetővé
Esemény-orientált Customer-Centric Business Services
akciók
Complete Privacy & Security Data Quality Event
Customer Profile Management Management Management
30
Tartalom
Adat integráció
Tartalom integráció
Tartalom tár
Dokumentum-kezelő rendszerek
Információ, mint szolgáltatás
31
Enterprise Content Integration
-Vállalati tartalmak
Képek,
videók,
hang
Irodai dokumentumok
Weboldalak Elektronikus
Formok
Nyomtatási
kimenetek
Fax
32
Tartalomkezelő szolgáltatás
Electronic
forms
Office documents
Rich
Content Media
Repository
Web Content
Computer
Output
Email
Fax
Scanned documents and folders
33
Tartalomkezelési szolgáltatások
Adatok tárolása Content Management Services
Strukturált
Document Report Records
Rekordok, Management Management Management
relációs adatok
Strukturálatlan Capture Web Content
Image
Management
Dokumentumok
Képek Digital Asset e-Mail & Message
Archiving
Rights Mgmt.
Management
Levelek
Riportok,
Metaadatok
nyomtatási képek
Manuálisan rögzített
Hangfelvételek
Automatikusan
Egyéb multimédia
extraktált
34
Enterprise Content Integration
-Tartalom integráció
(Egy lehetséges) Definíció:
Vállalati tartalom integráció egy olyan middleware
szoftvermegoldás és kapcsolódó módszertan, mely
Célja: az alkalmazási rendszer által kezelt
dokumentumok és egyéb digitális tartalmak
decentralizált menedzselésének megvalósítása
Legfőbb hozzáadott érték: strukturálatlan tartalmak
kezelésének megoldása (feldolgozása, elérhetővé tétele,
stb.)
Főbb funkciók:
tartalom migrálás és szikronizáció külön rendszerek
között,
Keresés/kereshetőség megvalósítása reposirty-k/ban
Single point of access - biztosítása
35