Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 2

ADATELEMZÉS ÉS STATISZTIKA 10

REGRESSZIÓ ÉS KLASSZIFIKÁCIÓ
- a predikció alapvetően kétféle lehet: regresszió és klasszifikáció
- a regressziónál a kimeneti változó folytonos, azt akarjuk bejósolni, hogy mekkora a kimeneti változó értéke a megfelelő
bemeneti elemekkel
- a klasszifikációnál a kimeneti változó diszkrét (nominális vagy ordinális) és azt próbáljuk bejósolni, hogy milyen
kategóriába fog kerülni
- klasszifikációra példák 
o dichotóm (kétszintű) – élő/halott, egészséges/beteg, depressziós/nem depressziós
o kategorikus (többszintű) – 5 jelölt közül melyikre szavaz, milyen filmet néz Netflixen
o ordinális – mi a legmagasabb iskolai végzettsége
BINOMIÁLIS LOGISZTIKUS REGRESSZIÓ (kétszintű kimeneti változó)
- pl.: összefügg-e az, hogy valaki túlélte a Titanicot, azzal, hogy mennyit fizetett a jegyért
- nem lehet használni lineáris regressziót binomiális kimeneti változó esetén
- a lineáris regresszió általánosításával az eredeti „vonal-regresszió” átalakítható S-alakú görbévé (szigmoid)
- a függvényben lévő változók ugyanazok maradnak
- az így kapott görbe soha nem vehet fel 0-nál kisebb és 1-nél nagyobb értéket
- a logisztikus regresszióban egy kimenetel valószínűségét akarom megbecsülni (mekkora az esélye y-nak, ha tudjuk x-t)
- együttható értelmezése:
- ha éles az elválasztóvonal a túlélők és a többiek között, akkor az meredek emelkedést jelent, azaz magas log-odds értéket
- ha nem olyan egyértelmű a különbség, az enyhébb emelkedést jelent, azaz alacsony log-odds értéket
LINK FUNCTION (KAPCSOLÁSI FÜGGVÉNY)
- lineáris függvényeket alakítja át úgy, hogy kimeneti változó eloszlásának megfeleljen
- dichotóm adatoknál a link function a logit transzformáció lesz  logit funkció a paraméterek értelmezését is
megváltoztatja
- a paraméterek így nem a valószínűséget, hanem a valószínűségek logaritmusát fogják mutatni (log odds)
- ezeket egy exponenciális transzformációval esélyhányadossá lehet alakítani
MAXIMUM LIKELIHOOD BECSLÉS (ML)
- megnézi, hogy az adataink milyen valószínűséggel fordulhatnak elő egy bizonyos eloszlást feltételezve
- ez az iteratív folyamat addig folytatódik, amíg meg nem találjuk azokat az eloszlás paramétereket, amihez a legnagyobb
összesített valószínűség tartozik
- MLE mindenféle eloszlással használható, tehát normállal is
MODELL ILLESZKEDÉS
- log-likelihood (LL) statisztikát használjuk a modell illeszkedésének a mérésére, ami hasonló a reziduálisok
négyzetösszegéhez a lineáris regresszióban
- modellek összehasonlításához a deviancia, AIC és BIC statisztikát tudjuk használni
- modellek közötti különbség megállapításához a devianciát tesztelhetjük Khi-négyzet eloszlás alapján
R2 KISZÁMÍTÁSA GLM-BEN
- a logisztikus regresszióban a reziduálisokat nem tudjuk közvetlenül a kimeneti értékek és a modell különbségeként mérni
(mivel a logit transzformáció miatt minden reziduális végtelen)
- McFadden pszeudo R2 kiszámítása (??)
EREDMÉNY
- a prediktorhoz tartozó log-odds odds ratio-vá alakítható exponenciális transzformációval
- regressziós együttható és annak standart hibájának hányadosát normál eloszlás szerint teszteljük
- szignifikancia tesztelés megmutatja, hogy a prediktor jelentősen növeli-e a modell prediktív értékét

KLASSZIFIKÁCIÓS MODELL
- logisztikus regresszióban amikor predikciót készítünk, akkor a kimeneti esemény valószínűségét kapjuk meg, ami 0-1
közötti szám
- döntési küszöb meghatározása (mi az a valószínűség, ami fölött túlélte a Titanicot?)
- nem lehet önkényesen 0.5-ben meghatározni, mert a küszöb problémafüggő  több küszöbértéket is lehet
- pontosság  azt nézzünk, hogy eltaláltuk-e a kategóriát vagy nem; kiszámíthatnánk a modell pontosságát, ha vesszük a
helyesen eltalált esetek és az összes eset hányadosát  a pontosság nem egy megbízható mutatója a modell
teljesítményének
ROC GÖRBE
- olyan mérőszámot ad, ami a döntési küszöb független és nem függ a kimeneti esemény előfordulásának arányától sem
- az összes küszöb esetében megvizsgálja, hogy a modell helyes pozitív (szenzitivitás) és téves pozitív (specificitás) aránya
hogyan alakul
- ha egyenes arányban áll egymással a TP (y tengely) és FP (x tengely), az azt jelenti, hogy a modell nem működik
- ha a TP végig maximum, az FP minimum, az azt jelenti, hogy a modell tökéletes (ehhez próbálunk közelíteni)
- többnyire egy görbét kapunk, ami felfelé görbül
- értékelni úgy tudjuk, hogy vesszük a görbe alatti területet (AUC – area under curve)  ez az érték mindenképp 0 és 1
közötti lesz
- az a modell, ami mindig téved, annak 0 lesz az AUC és, ami mindig helyes, annak 1
MULTINOMIÁLIS (sokszintű) KLASSZIFIKÁCIÓ
- ha több lehetséges kimeneti kategória van, akkor multinominális klasszifikáció lesz
- ezt lehet binomiális logisztikus regresszió kiterjesztéseként multinominális logisztikus regresszióként végezni
- mintha minden szintre egy külön binomiális logisztikus regressziót végeznénk
- nem előfeltétele a normalitás, linearitás és homoszkedaszticitás

- értékek nem lehetnek 0-nál kisebbek; az értékek diszkrétek, azaz egész számok (pl.: nevetések száma)
- ilyen adatok eloszlását Poisson eloszlásnak hívjuk  egy paramétere van (lambda), ami egyben a várt érték és annak
varianciája
- Poisson eloszlás diszkrét és jobbra ferde
POISSON REGRESSZIÓ
- GLM-mel lehet végezni, ahol, másik link függvényt használunk (log)
- itt is exponenciális transzformációval lehet relatív kockázatként értelmezni
- annak a kockázatát mutatja, hogy az esemény bekövetkezik az egyik csoportban egy másik csoporthoz képest
(kategorikus prediktor)
- vagy folytonos prediktor esetén, azt a kockázatot mutatja, hogy egy egység növekedés a prediktorban hányszorosára
növeli az esélyét annak, hogy a kimeneti mennyiségből eggyel több legyen

ordinális adat, mint kimeneti változó


- az értékeke diszkrétek (nem folytonosak)
- nem vehetnek fel bármilyen értéket, csak előre meghatározottakat (pl.: 1-7; ált. isk-gimi-egyetem…)
- az értékeket sorba lehet rendezni, de a szintek közötti különbség nem számszerűsíthető
- az ilyen adatok kumulatív link modellel (CLM) elemezhetőek

You might also like