Professional Documents
Culture Documents
BI Alapfogalmak Kifejtve I. ZH
BI Alapfogalmak Kifejtve I. ZH
1a) Optimális döntés: a döntéshozó teljesen informált és céljait képes rangsorolni, akkor
lehetséges, ha a döntéshozó:
I. ismeri az összes alternatívát
II. biztosan tudja mi lesz az eredménye a cselekvési változatoknak
III. biztosan meg tudja adni az eredmények preferencia sorrendjét
1b) Kielégítő döntés: a döntéshozó egyszerűsíti a folyamatot úgy, hogy nem az optimális
megoldásra törekszik, hanem beéri a jó vagy kielégítő megoldással
I. Minimális feltételeknek tesz eleget, mivel nincs elég információ és nem végtelen a
kapacitás és nem is ismerhető valamennyi szóba jöhető megoldás
II. A tényleges döntési gyakorlatban a kielégítő döntésekre való törekvés a jellemző
2) Döntéshozatal modelljei
4) Problémák tipológiája
Programozott döntés
+ könyv szerinti: Az üzleti intelligencia összefoglalja mindazon módszereket, amelyek célja, hogy
feljavítsák a tényalapú rendszerek fölött működő üzleti döntéshozatalt. Minden rendelkezésre álló
adat és információ felhasználásával minél gyorsabban értelmes válaszokat lehessen adni.
Első értelmezés: az üzlet folyamatokban megnyilvánuló emberi intelligencia kapacitását
jelenti.
Második értelmezés: az intelligencia értelmes, vagyis általánosan elfogadott tárgyhoz
tartozó, alkalmazható értékű információt jelöl
8) big data (5V)
Mennyiség(Volume)
o Sok terrabytenyi illetve exabytenyi adat vár feldolgozásra
Sebesség(Velocity)
o Az adatáramlás azonnali, miliszekundumok alatt történik
Változatosság(Variety)
o Az adatok változatosak, van közöttük struktúrált, jól struktúrált szöveg és videó
anyag is
Érvényesség(Veracity)
o Az adatok inzkonzisztensek, nem teljesek, kétértelműek stb.
Érték(Value)
o Üzleti modellek állíthatóak fel az adatok segítségével
ETL
o Extract- Transform- Load
o Kinyerés- Átalakítás- Betöltés
o Az adattárházak feltöltésének folyamata
o Az adatok a forrásokból NEM közvetlenül kerülnek az adattárházba, hanem az
úgynevezett trans vagy stage rétegen keresztül
o Az ETL folyamat részei:
Adat validáció(Esetleges hibák feltárása)
Adattisztítás(Azonosított hibák kezelése)
Adatátalakítás(Elemzéshez szükséges módosítások elvégzése)
Adataggregálás(Több forrásból származó adatok összekapcsolása)
Aggregálás
SQL Joins
Szűrések(when,having, unique)
Új oszlopok képzése
Rank
Adatminőségi problémák
o Az adatminőség alaptétele:
„Minden rendszerben olyan az adatminőség, amely éppen megfelelő
az adott rendszer folyamatos működéséhez.” -CTG
>>> Attól, hogy a rendszer működik nem biztos, hogy jók az
adatok!
o Az adatminőség meghatározása:
Pontosság
Konzisztencia
Integritás/sértetlenség
Teljesség
Érvényesség
Időszerűség
Elérhetőség
o Probléma fajták:
Érvényességi problémák
Típus hibák
Értékhatár hibák
Duplikációk
Listák hibái(karakterhibák, hibás besorolások)
Mezők közötti kapcsolati hibák
Pontosság hiánya
Teljesség hiánya
Konzisztencia hiánya
Hiányzó adatok
o Hibák okai:
Adatfelvételi problémák
Nem megfelelő adatátvitel
Heterogén adatstruktúra/tárolási mód
Üzleti folyamatkontroll hiányosságai
Hiányzó adatvalidációs eszközök
Üzleti szabályok nem ellenőrzése
Teljesség nem biztosítása
Adatgazdák hiánya
Hibás korábbi migráció
Rendszerműködési hibák
o Következményei:
Anyagi veszteség
Sikertelen BI projektek
Vezetői döntéstámogatási problémák
Bizalomvesztés
o Pár példa bizonyos problémákra:
Adattárház (definíciók)
o Ralph Kimball szerint:
A szervezet egy olyan adatgyűjtő, szolgáltató része, ahol a működései
adatok az egyszerűen végrehajtható hatékony elemzés céljait
szolgálják.
o Bill Inmon szerint:
Az adattárház tárgyorientált, integrált, tartós és időfüggő
adatgyüjtemény a vezetői döntéstámogatás szolgálatában.
Tárgyorientált:
o Az adattárház segítségével témakörönként végezhetőek
elemzések
Integrált:
o Az adattárház tárgyterületéhez kapcsolódó adatokat
szabványosított formára alakítva egy helyre gyűjti és
egységbe rendezve kezeli
Tartós:
o Az adattárházban jelen lévő adatok alapvetően
változatlanok.
Időfüggő:
o Az adatokat időfüggően, időpontok és időintervallumok
szerint tárolják és kezelik, a forrásrendszert nyomon
követve.
o “Az üzleti gondolkodásnak megfelelő struktúra”
Adattárház vs. Adatbázis
o Adattárház:
OLAP( Online Analytical Processing Systems)
Az adatokat a megfelelő adatbázisból nyeri ki, alakítja át és tölti be
A tárolt adatok csak olvashatóak, NEM frissíthetőek
Tartós(„non-volatile”): Az adatok hatékonyan lekérdezhetőek és
elemezhetőek
o Adatbázis:
OLTP( Online Transaction Processing Systems)
Az összes előforduló tranzakció rögzítése és feldolgozása valós időben
Illékony(„volatile”):Folyamatosan új adatokat rögzít, a meglévőket
szerkeszti vagy frissíti >>> nehézkes adatelemzés
Adattárház felépítése
o Ezt a legjobban az alábbi ábra írja le:
Adatpiac
o A központi adatréteg és a kiaknázás közötti adatréteg
o Adott üzleti felhasználást kielégítő adatokat tartalmaz
o A kiaknázás kiszolgálásra optimaizált
o Több adatréteg is tartalmazhatja ugyanazt az adatot
o Technikai megvalósításuk csillagsémákkal és elemzői táblákkal történik
Csillagséma
o Tényadatok, mutatószámok játszák a központi szerepet
o A mutatószámok jellemzőit dimenziók szerint egy-egy dimenziótáblába
gyűjtjük
o Minden elemet egy kulcs azonosít
o A dimenziótáblák attribútumai közé érdemes (általában) minél több jellemzőt
felvinni
o Előnyei:
Egyszerű, intuitív adatmodell
Kevés adatbázis műveletet és kevés tábla olvasását igényli a
használata
Könnyű megvalósíthatóság, a modell metaadatai(adatokat leíró
adatai) egyszerűek
o Hátrányai:
Aggregációk képzése nehézkes
Nagy dimenziótáblák esetén a hierarchiakezelés erősen lelassíthatja a
lekérdezéseket
Redundáns a dimenzióadatok kezelése
o Az adatpiacok technikai megvalósításnál szerepet játszik
o Példa a csillagsémára:
Data lake
o Olyan rendszer vagy adattároló hely, ahol az adat az eredeti formájában kerül
tárolásra
Mindenfajta adat megtalálható benne(strukturált, nem strukturált, stb.)
Homokozó terület: Modellezést, riportokat támogat
Azonnali, operatív beavatkozást igénylő feladatok támogatója(pl. fraud
detection)
Üzleti analitika területei:
o Miért történt?
Leíró analitika
Ad-hoc lekérdezések, vizualizáció és táblázat-elemzés jellemzi
A múltban történtek alapján fogalmaz meg új meglátásokat
o Mi történt?
Leíró analitika
Szabványos riportok
A múlt alapján fogalmaz meg ismert tényeket
o Mi történik most?
Leíró analitika
Dashboardokat állít elő, KPI-ket határoz meg illetve ide tartozik a
teljesítmény menedzsment is
A Jelen történései alapján fogalmaz meg ismert tényeket
o Mit kell tennünk most?
Előíró analitika
Ajánlásokat teszt
A jelen történései alapján fogalmaz meg új meglátásokat
o Mi történhet?
Előrejelző analitika
Előrejelző modelleket hoz létre
A jövőben várható események alapján határoz meg várható
tényeket(Ez így kicsit kesze-kuszán hangzik, de erről van szó
gyakorlatilag.)
o Mi a legjobb, amit tehetünk?
Előíró és előrejelző analitika is egyben
Adatbányászattal, szimulációkkal és optimalizációval foglalkozik
A jövőben várható események alapján határoz meg új meglátásokat
Adatmodellezés és kihívásai: