Adatelemzés És Statisztika 10

ADATELEMZÉS ÉS STATISZTIKA 10
REGRESSZIÓ ÉS KLASSZIFIKÁCIÓ
- a predikció alapvetően kétféle lehet: regresszió és klasszifikáció
- a regressziónál a kimeneti változó folytonos, azt akarjuk bejósolni, hogy mekkora a kimeneti változó értéke a megfelelő
bemeneti elemekkel
- a klasszifikációnál a kimeneti változó diszkrét (nominális vagy ordinális) és azt próbáljuk bejósolni, hogy milyen
kategóriába fog kerülni
- klasszifikációra példák 
o dichotóm (kétszintű) – élő/halott, egészséges/beteg, depressziós/nem depressziós
o kategorikus (többszintű) – 5 jelölt közül melyikre szavaz, milyen filmet néz Netflixen
o ordinális – mi a legmagasabb iskolai végzettsége
BINOMIÁLIS LOGISZTIKUS REGRESSZIÓ (kétszintű kimeneti változó)
- pl.: összefügg-e az, hogy valaki túlélte a Titanicot, azzal, hogy mennyit fizetett a jegyért
- nem lehet használni lineáris regressziót binomiális kimeneti változó esetén
- a lineáris regresszió általánosításával az eredeti „vonal-regresszió” átalakítható S-alakú görbévé (szigmoid)
- a függvényben lévő változók ugyanazok maradnak
- az így kapott görbe soha nem vehet fel 0-nál kisebb és 1-nél nagyobb értéket
- a logisztikus regresszióban egy kimenetel valószínűségét akarom megbecsülni (mekkora az esélye y-nak, ha tudjuk x-t)
- együttható értelmezése:
- ha éles az elválasztóvonal a túlélők és a többiek között, akkor az meredek emelkedést jelent, azaz magas log-odds értéket
- ha nem olyan egyértelmű a különbség, az enyhébb emelkedést jelent, azaz alacsony log-odds értéket
LINK FUNCTION (KAPCSOLÁSI FÜGGVÉNY)
- lineáris függvényeket alakítja át úgy, hogy kimeneti változó eloszlásának megfeleljen
- dichotóm adatoknál a link function a logit transzformáció lesz  logit funkció a paraméterek értelmezését is
megváltoztatja
- a paraméterek így nem a valószínűséget, hanem a valószínűségek logaritmusát fogják mutatni (log odds)
- ezeket egy exponenciális transzformációval esélyhányadossá lehet alakítani
MAXIMUM LIKELIHOOD BECSLÉS (ML)
- megnézi, hogy az adataink milyen valószínűséggel fordulhatnak elő egy bizonyos eloszlást feltételezve
- ez az iteratív folyamat addig folytatódik, amíg meg nem találjuk azokat az eloszlás paramétereket, amihez a legnagyobb
összesített valószínűség tartozik
- MLE mindenféle eloszlással használható, tehát normállal is
MODELL ILLESZKEDÉS
- log-likelihood (LL) statisztikát használjuk a modell illeszkedésének a mérésére, ami hasonló a reziduálisok
négyzetösszegéhez a lineáris regresszióban
- modellek összehasonlításához a deviancia, AIC és BIC statisztikát tudjuk használni
- modellek közötti különbség megállapításához a devianciát tesztelhetjük Khi-négyzet eloszlás alapján
R2 KISZÁMÍTÁSA GLM-BEN
- a logisztikus regresszióban a reziduálisokat nem tudjuk közvetlenül a kimeneti értékek és a modell különbségeként mérni
(mivel a logit transzformáció miatt minden reziduális végtelen)
- McFadden pszeudo R2 kiszámítása (??)
EREDMÉNY
- a prediktorhoz tartozó log-odds odds ratio-vá alakítható exponenciális transzformációval
- regressziós együttható és annak standart hibájának hányadosát normál eloszlás szerint teszteljük
- szignifikancia tesztelés megmutatja, hogy a prediktor jelentősen növeli-e a modell prediktív értékét
KLASSZIFIKÁCIÓS MODELL
- logisztikus regresszióban amikor predikciót készítünk, akkor a kimeneti esemény valószínűségét kapjuk meg, ami 0-1
közötti szám
- döntési küszöb meghatározása (mi az a valószínűség, ami fölött túlélte a Titanicot?)
- nem lehet önkényesen 0.5-ben meghatározni, mert a küszöb problémafüggő  több küszöbértéket is lehet
- pontosság  azt nézzünk, hogy eltaláltuk-e a kategóriát vagy nem; kiszámíthatnánk a modell pontosságát, ha vesszük a
helyesen eltalált esetek és az összes eset hányadosát  a pontosság nem egy megbízható mutatója a modell
teljesítményének
ROC GÖRBE
- olyan mérőszámot ad, ami a döntési küszöb független és nem függ a kimeneti esemény előfordulásának arányától sem
- az összes küszöb esetében megvizsgálja, hogy a modell helyes pozitív (szenzitivitás) és téves pozitív (specificitás) aránya
hogyan alakul
- ha egyenes arányban áll egymással a TP (y tengely) és FP (x tengely), az azt jelenti, hogy a modell nem működik
- ha a TP végig maximum, az FP minimum, az azt jelenti, hogy a modell tökéletes (ehhez próbálunk közelíteni)
- többnyire egy görbét kapunk, ami felfelé görbül
- értékelni úgy tudjuk, hogy vesszük a görbe alatti területet (AUC – area under curve)  ez az érték mindenképp 0 és 1
közötti lesz
- az a modell, ami mindig téved, annak 0 lesz az AUC és, ami mindig helyes, annak 1
MULTINOMIÁLIS (sokszintű) KLASSZIFIKÁCIÓ
- ha több lehetséges kimeneti kategória van, akkor multinominális klasszifikáció lesz
- ezt lehet binomiális logisztikus regresszió kiterjesztéseként multinominális logisztikus regresszióként végezni
- mintha minden szintre egy külön binomiális logisztikus regressziót végeznénk
- nem előfeltétele a normalitás, linearitás és homoszkedaszticitás
- értékek nem lehetnek 0-nál kisebbek; az értékek diszkrétek, azaz egész számok (pl.: nevetések száma)
- ilyen adatok eloszlását Poisson eloszlásnak hívjuk  egy paramétere van (lambda), ami egyben a várt érték és annak
varianciája
- Poisson eloszlás diszkrét és jobbra ferde
POISSON REGRESSZIÓ
- GLM-mel lehet végezni, ahol, másik link függvényt használunk (log)
- itt is exponenciális transzformációval lehet relatív kockázatként értelmezni
- annak a kockázatát mutatja, hogy az esemény bekövetkezik az egyik csoportban egy másik csoporthoz képest
(kategorikus prediktor)
- vagy folytonos prediktor esetén, azt a kockázatot mutatja, hogy egy egység növekedés a prediktorban hányszorosára
növeli az esélyét annak, hogy a kimeneti mennyiségből eggyel több legyen
ordinális adat, mint kimeneti változó

- az értékeke diszkrétek (nem folytonosak)
- nem vehetnek fel bármilyen értéket, csak előre meghatározottakat (pl.: 1-7; ált. isk-gimi-egyetem…)
- az értékeket sorba lehet rendezni, de a szintek közötti különbség nem számszerűsíthető
- az ilyen adatok kumulatív link modellel (CLM) elemezhetőek

Adatelemzés És Statisztika 10

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Adatelemzés És Statisztika 10

Uploaded by

Copyright:

Available Formats

ADATELEMZÉS ÉS STATISZTIKA 10

ordinális adat, mint kimeneti változó

You might also like