Professional Documents
Culture Documents
Statistika Prednasky Prezentace Doc Spicka
Statistika Prednasky Prezentace Doc Spicka
Jindřich Špička
1
Program přednášky 2
1. Připomenutí principů testování statistických hypotéz. Chyba I.
a II. druhu.
2. Techniky stanovení minimálního potřebného rozsahu
výběrových souborů.
a. Design kvantitativního výzkumu.
b. Určení minimální velikosti vzorku.
c. Reprezentativnost vzorku z hlediska struktury populace.
3. (Explorační analýza - program 1. cvičení).
a. Explorační versus deskriptivní a konfirmační statistické metody.
b. Základy práce se SAS Studio budou probrány na 1. cvičení.
2
Doporučené zdroje k této přednášce
› Skripta Statistické metody II – kap. 2 (Dotazníkové průzkumy a
jejich zpracování).
› Hypotheses & Hypothesis tests – YouTube
› p-Value (Statistics made simple) - YouTube
› Type I error vs Type II error – YouTube
› Statistical Power, Clearly Explained!!! - YouTube
3
1. Testování statistických hypotéz
› Hypotézu je vhodné formulovat, pokud:
– Pro výzkumnou otázku je možná predikce, co se stane (hypotéza je
předpokládaná odpověď na výzkumnou otázku).
– Pro predikci by mělo existovat její zdůvodnění (vysvětlení podle teorie).
4
1. Testování statistických hypotéz – úvod
› Pracujeme s náhodným výběrem.
› Zajímá nás, zda je možné věřit tomu, že velikost efektu je
prokazatelná v základním souboru.
› Nulová hypotéza = testovaná statistická hypotéza (H0), nulový efekt
– Předpokládáme, že platí, pokud nemáme k dispozici dostatečný statistický
důkaz její neplatnosti.
– Př: H0: μ = 7
› Alternativní hypotéza = popírá platnost nulové hypotézy (HA)
– Oboustranná alternativa – př.: HA: μ ≠ 7
– Pravostranná alternativa – př.: HA: μ > 7
– Levostranná alternativa – př.: HA: μ < 7
5
1. Testování statistických hypotéz – princip
Obdobou testování statistických hypotéz je použití testu na Covid-19.
Nulová hypotéza H0: Nejsem infikovaný virem SARS-CoV-2.
Alternativní hypotéza HA: Jsem infikovaný virem SARS-CoV-2.
Pozitivní = zamítám H0
Negativní = nezamítám H0
6
1. Testování statistických hypotéz – chyby v testu
› Test není 100% spolehlivý, protože nemáme k dispozici úplnou
informaci o celém základním souboru (máme jen vzorek).
› Proto rozhodnutí doporučené testem může být v rozporu s realitou.
› Test tedy může:
– doporučit zamítnutí nulové hypotézy, zatímco tato hypotéza v reálu platí (chyba
I. druhu) – test je falešně pozitivní (a zbytečně jste zůstali doma☺)
7
1. Testování statistických hypotéz – chyby v testu
› Nulová hypotéza H0: Nejste v jiném stavu.
8
http://flowingdata.com/wp-content/uploads/2014/05/Type-I-and-II-errors1-625x468.jpg
1. Testování statistických hypotéz – chyby v testu
H0 ve skutečnosti
Platí Neplatí
Nastavení přípustných chyb I. a II. druhu je nezbytný krok při návrhu výzkum (apriori). 9
2a. Design kvantitativního výzkumu
› Výzkumníka obvykle nezajímá nulová hypotéza. Zajímavější je
najít rozdíl nebo závislost (alternativní hypotéza).
› Studie, která nevede k dostatečně přesným odhadům nebo
nemá sílu zamítnout nulovou hypotézu je ztrátou času a peněz.
› Snažíme se navrhnout takový rozsah studie (vzorku), který by
minimalizoval chyby I. druhu (α) a II. druhu (β).
10
2a. Design kvantitativního výzkumu
Hladina
Velikost vzorku (n)
významnosti (α)
Velikost a směr
Síla testu (1 - β)
účinku
Pro pravděpodobnostní výběry obecně platí, že čím větší je výběr, tím nižší je pravděpodobnost statistické
chyby II. druhu (β) a vyšší síla testu (1-β).
Při větší velikosti vzorku je dosažení statistické významnosti (p versus α) pravděpodobnější. To znamená,
že s rostoucí velikostí vzorku se zvyšuje schopnost detekovat i menší efekty jako statisticky významné.
11
2a. Design kvantitativního výzkumu
Doporučené míry návratnosti (měřené poměrem jednotek v našem datovém souboru ku počtu
původně vybraných jednotek) se v literatuře liší, nicméně běžně se pohybují okolo 60 %.
12
2a. Design kvantitativního výzkumu – příklady
náhodných výběrových postupů
PROSTÝ NÁHODNÝ VÝBĚR
Každému jedinci přiřadíme číslo. Z těchto
čísel pak náhodně "losujeme" potřebný
počet respondentů.
Lze použít generátor náhodných čísel (v
Excelu).
Výhody:
› Plně náhodné, každý má stejnou šanci se
do výběru dostat.
Nevýhody:
› Je-li výběrový soubor malý, je možné, že
se zástupci některých skupin zaměstnanců
do výběru vůbec nedostanou.
13
2a. Design kvantitativního výzkumu – příklady
náhodných výběrových postupů
STRATIFIKOVANÝ NÁHODNÝ VÝBĚR
Strata = homogenní skupiny dle určitého kritéria,
např. oddělení, typ školy (ale též počet let ve
firmě, pohlaví, manažerská pozice atd.)
› V rámci strat vybíráme respondenty náhodně.
Výhody:
› Máme větší jistotu, že výběr bude odpovídat
rozložení základního souboru dle stanovených
kritérií.
› Vhodné při velké heterogenitě základního
souboru.
Nevýhody:
› Potřebujeme navíc znát spolehlivé údaje, dle
kterých do strat vybíráme.
14
2a. Design kvantitativního výzkumu – příklady
náhodných výběrových postupů
SKUPINOVÝ VÝBĚR (CLUSTER SAMPLING)
› Místo toho, abychom volili jednotlivce,
vybereme určitou skupinu (cluster, trs
jedinců).
› Z výběrového rámce (populace)
nebudeme vybírat náhodným
způsobem jednotlivce, ale určitá
seskupení (clustery).
› Vybíráme všechny jedince v clusteru.
› Výhodné, pokud nemáme úplné
informace o populaci.
15
2a. Design kvantitativního výzkumu – příklady
NEnáhodných výběrových postupů
› Tazatel dostane úkol nalézt respondenty, kteří ve svém souhrnu odpovídají
určeným kvótám.
– např. z 10 respondentů: 5 mužů a 5 žen; 3 základní vzdělání, 5 maturita, 2 VŠ; 4 do 30
let, 4 do 55 let, 2 nad 55 let.
› Není vědecky podložená metoda.
› Má dobrý smysl, jsou-li výzkumné otázky silně korelované se zvolenými
sociodemografickými znaky.
› Chyby lze odhadovat pouze empiricky a zkušenostně.
› Používá se ve výzkumu veřejného mínění a ve výzkumu trhu.
› Nepoužívá se pro výzkum ve vědě a ve vládních projektech.
16
VELIKOST VZORKU
17
2b. Určení minimální velikosti vzorku
› V zásadě existují dva rozšířenější přístupy pro stanovení velikosti
výzkumného souboru:
18
Stanovení velikosti výběru s
ohledem interval spolehlivosti
19
2b. Určení minimální velikosti vzorku – interval
spolehlivosti
› Přístup vychází z toho, že analytik dopředu opět ví, jakou použije
analytickou techniku a zároveň si stanoví maximální
akceptovanou šíři intervalu spolehlivosti.
ZOPAKUJTE SI INTERVALOVÉ
Confidence Interval [Simply explained] - YouTube
ODHADY
𝑃∙𝑄 50∙50
› Prostý náhodný výběr: 𝑛 = 1,96 2 … 1,962 = 384.
𝑆𝐸 2 52
http://www.raosoft.com/samplesize.html
https://www.qualtrics.com/blog/calculating-sample-size/
21
Stanovení velikosti výběru s
ohledem na sílu testu
22
2b. Určení minimální velikosti vzorku – síla testu
POWER ANALÝZA
SAMPLE SIZE ANALÝZA
23
2b. Určení minimální velikosti vzorku – síla testu
› Jacob Cohen doporučil, aby síla testu byla min. 0,8 (tj. při
opakováních výzkumu a neplatnosti nulové hypotézy by došlo v
80 % replikací k zamítnutí nulové hypotézy a nalezení
očekávaných rozdílů).
Cohen, J. 1988. Statistical Power Analysis for the Behavioral Sciences (2nd Edition). Routledge.
24
2b. Určení minimální velikosti vzorku – síla testu
1. Stanovíme si minimální
velikost pro sílu
statistického testu[1]
(Cohen doporučoval
0,8)
2. Odhadneme, jaké
výsledky získáme.
3. Z těchto veličin buď
skrze speciální tabulky
(grafy) nebo skrze
software zjistíme
minimální velikost
Pokud očekávám korelaci o hodnotě cca 0,2, pak pro dosažení síly
výzkumného souboru. testu o hodnotě 0,8 a vyšší potřebuji zhruba 200 výzkumných
jednotek. Pokud očekávám korelaci vyšší (v našem grafu o hodnotě
0,4) je potřeba výrazně méně výzkumných jednotek (cca 45).
25
2b. Určení minimální velikosti vzorku – síla testu
› Záleží na:
– velikosti souboru - větší velikost, větší síla
– velikosti efektu (rozdíl, souvislost) - větší velikost, větší síla
– požadovaném α – nižší Alfa znamená nižší sílu testu (typicky volíme
0,05)
26
2b. Určení minimální velikosti vzorku – síla testu
27
2b. Určení minimální velikosti vzorku – síla testu
(ukázky v SAS Studio)
28
2b. Určení minimální velikosti vzorku – síla testu
› Online kalkulačka
https://select-statistics.co.uk/calculators/
29
Stanovení velikosti výběru podle
doporučení
30
2b. Určení minimální velikosti vzorku – doporučení
› Za minimální velikost výběru vhodného pro kvantitativně orientovaný
výzkum bývá považováno 30 jednotek, avšak pouze v případě, že tento
soubor neplánujeme dělit pro účely vztahové analýzy na podskupiny (Gay
et al., 2014, s. 139).
› Soukup a Rabušic (2007, s. 380, 385) uvádějí jako minimum 30–50
jednotek, pro větší kvalitu však 80–100.
› Pro regresní analýzu se užívá pravidlo, které vychází z počtu použitých
proměnných, resp. počtu odhadovaných koeficientů. Počet jednotek
výzkumu (respondentů) = 10násobek počtu odhadovaných parametrů (+
konstanta)
– Příklad: odhadujeme devět regresních koeficientů a jednu konstantu, výběr by tedy měl mít
minimálně (9 + 1) * 10 = 100 jednotek.
Gay, L., Mills, G. E., & Airasian, P. (2014). Educational research: Competencies for analysis and applications. Harlow: Pearson Education.
Soukup, P., & Rabušic, L. (2007). Několik poznámek k jedné obsesi českých sociálních věd – statistické významnosti. Sociologický časopis/Czech Sociological
Review, 43(2), 379–395. 31
STRUKTURA VZORKU
32
2c. Reprezentativnost vzorku z hlediska struktury
populace
› Chí-kvadrát test dobré shody
33
2c. Reprezentativnost vzorku z hlediska struktury
populace
1
Program přednášky 3
1. Rozdíl mezi parametrickými a neparametrickými testy.
2. Úkoly analýzy kategorizovaných dat.
3. Základní pojmy analýzy kategorizovaných dat.
4. Rozdíl mezi komparačními a asociačními tabulkami.
5. Analýza čtyřpolní tabulky (2x2).
6. Chí-kvadrát test.
7. Speciální testy.
2
Doporučené zdroje pro tuto přednášku
› Statistické metody II – kap. 1 Analýza závislosti kvalitativních
znaků.
› Chi-Square Test [Simply explained] - YouTube
3
Parametrické a neparametrické testy
PARAMETRICKÉ TESTY NEPARAMETRICKÉ TESTY
› Založeny na určitých předpokladech › Robustní testy, které nepředpokládají
týkajících se rozdělení dat, nejčastěji žádné specifické rozdělení dat nebo
předpokladu, že data pocházejí z jsou méně náročné na předpoklady
určitého známého ohledně rozdělení. Jsou proto vhodné
pravděpodobnostního rozdělení, jako pro data, která nemají normální
je normální rozdělení. rozdělení nebo mají jiné narušení
parametrických předpokladů.
› Testy jsou citlivější a mohou
poskytnout větší sílu detekce rozdílů › Mají obecně nižší sílu než
nebo efektů, pokud jsou splněny parametrické testy - je méně
předpoklady. pravděpodobné, že odhalí statisticky
významné rozdíly, zejména pokud jsou
› Příklady: t-testy, analýza rozptylu tyto rozdíly menší.
(ANOVA), regresní analýza
› Příklady: Mann-Whitneyho test,
Wilcoxonův test, Kruskal-Wallisův test,
Spearmanův korelační koeficient, Chí-
kvadrát test
4
Kategorizovaná data
› Proměnné, jejichž obměny představují kategorie v podobě
nominálních nebo ordinálních proměnných.
– Proměnné alternativní – právě 2 obměny znaku (ANO – NE)
– Proměnné množné – více než 2 obměny znaku
5
Příklad
› Dvě kategorizované proměnné jsou nezávislé, pokud jsou populační podmíněná rozdělení
jedné z nich shodná napříč kategoriemi druhé proměnné.
› Dvě kategorizované proměnné jsou závislé, pokud jejich podmíněná rozdělení nejsou
totožná.
6
Základní pojmy
7
Kontingenční tabulka
› Kontingenční tabulka je zápis o výskytu jevů v křížové kombinaci dvou kategorizací:
řádkové A = (A1, A2, … AR) a sloupcové B = (B1, B2, … BS)
Marginální četnosti
Celkový počet
Marginální
procenta
Marginální
procenta
9
Typy kontingenčních tabulek
› Komparační tabulka (porovnáváme skupiny mezi sebou v rámci jedné
proměnné)
– Porovnáváme četnostní/procentní distribuce různých souborů nebo částí
jednoho souboru
– Sloupce – závisle proměnná (cílová)
– Řádky – podsoubory
› Asociační tabulka (neporovnáváme skupiny, ale hledáme vztahy mezi
dvěma proměnnými)
– Hledáme souvislosti mezi kategoriemi řádků a sloupců.
– Nezáleží na rozmístění proměnných do řádků a sloupců.
› Čtvercová tabulka (v řádcích i ve sloupcích stejné kategorie)
– Párové srovnání kategorií, které jsou posunuté v čase nebo o různé proměnné
se stejnými kategoriemi.
10
Komparační tabulka – základní otázka
Zdroj: Acrea 11
Komparační tabulka ŘÁDKY → SLOUPCE
Řádková procenta
Cílová proměnná (sloupce) = priority
Vstupní proměnná (řádky) = podskupiny podle vzdělání
Hledáme, jak vzdělání mění distribuci priorit. Hledáme, jak řádky ovlivňují sloupce.
12
Základní otázky kontingenční komparační analýzy
› Existují rozdíly mezi řádkovými procenty pro jednotlivé kategorie?
› Kde se vyskytují a jaké jsou tyto rozdíly (existují-li)?
› Jak silná je celková diferenciace řádkových distribucí?
› Jak zobrazit tyto rozdíly graficky v souhrnném obrázku?
› Které řádky jsou stejné a které se liší?
13
Asociační tabulka ŘÁDKY SLOUPCE
Není rozhodující, zda dáme značku kávy do řádků nebo do sloupců. Řádky a
sloupce jsou vzájemně zaměnitelné.
Hledáme, zda mezi řádky a sloupci existuje vztah (asociace).
14
Asociační tabulka – postup analýzy vztahů
› 1. krok: popis četností: procenta v řádcích, ve sloupcích, celková
procenta, graf.
› 2. krok: existence vztahu: test nulové hypotézy nezávislosti
– HO : závislost se v tabulce nevyskytuje
– HA : závislost se v tabulce vyskytuje
› Výsledek testování
– Zamítáme H0: odchylky od nezávislosti nejsou náhodné, nelze vysvětlit
náhodou, situace vyjadřuje statisticky prověřenou závislost. Následně se
hodnotí stupeň závislosti/rozdílnosti (3. krok).
– Nezamítáme H0: odchylky od nezávislosti jsou náhodné.
15
Základní otázky kontingenční asociační analýzy
› Existuje vztah mezi řádkovými a sloupcovými kategoriemi?
› Jaký je to vztah (existuje-li)?
› Jak silný je to vztah?
› Jak zobrazit tyto rozdíly graficky v souhrnném obrázku?
› Jak shrnout veškerou informaci z tabulky?
16
Příprava dat
17
Chí kvadrát testy má smysl použít pouze, pokud je
vzorek přiměřené velikosti
18
Příprava dat – problémy a řešení
› Jedna kategorie obsahuje více než 85% pozorování - celková analýza
bude nestabilní.
› Málo četné kategorie – detailní analýza tabulky bude nespolehlivá.
› Tabulka je rozsáhlá (počet řádků a sloupců) a řídká – použijte speciální
metody (Monte Carlo).
› Malý počet případů v tabulce (méně než 40) - použijte přesné testy
založené na kombinatorických vlastnostech (např. Fisherův test pro
tabulky 2x2).
› Malé četnosti ve sloupcích a v řádcích - řešení:
– Spojování málo obsazených sloupců do reziduální kategorie 'ostatní‘.
– Spojování málo četných kategorií podle příbuznosti obsahu.
– U ordinálních proměnných: spojování sousedních kategorií.
19
Začneme se čtyřpolními
tabulkami
Tabulky 2x2
20
Čtyřpolní tabulka
› Čtyřpolní tabulka: křížené třídění dvou dichotomických
proměnných A = (A1, A2), B = (B1, B2)
22
› Typy:
– Komparační tabulka: komparace dvou skupin podle procenta výskytu
jevu (B → A)
– Asociační tabulka: souvislost dvou jevů (B A, A B)
21
Čtyřpolní komparační tabulka
24
Test pro asociační i komparační
tabulky (chí-kvadrát test)
Karl Pearson (1900), vylepšení později provedl Sir Ronald Fisher (1922)
25
Předpoklady chí-kvadrát testu
› Očekávané četnosti jsou dostatečně velké (chí-kvadrát rozdělení
je spojité).
– Rozsah souboru by měl být alespoň 30 pozorování.
– Všechny očekávané četnosti jsou větší než přibližně 5, i když u větších
tabulek by pravděpodobně nevadilo, kdyby alespoň 80 % očekávaných
četností bylo nad 5 a žádná z nich nebyla pod 1.
– Řešení, když jsou očekávané počty buněk příliš malé: Fisherův přesný
test.
› Data jsou na sobě nezávislá.
– Nezávislé vzorky.
– Řešení pro párové vzorky: McNemarův test.
26
Chí-kvadrát rozdělení
Je asymetrické.
Je spojité.
27
Dva základní cíle použití chí-kvadrát testu
› Porovnat dvě proměnné a zkoumat jejich vztah (kontingenční tabulky
s R řádky a S sloupci - TEST ASOCIACE)
– H0: Proměnné jsou statisticky nezávislé.
– Porovnáme výsledky pomocí chí-kvadrát rozdělení se (R - 1)(S - 1) stupni
volnosti nebo použijeme p-hodnotu.
› Porovnat pozorovanou a očekávanou četnost (GOODNESS-OF-FIT
TEST, test dobré shody, komparace)
– H0: Pozorované četnosti (Oi) se statisticky neliší od očekávaných četností (Ei).
k = počet kategorií
28
Goodness-of-fit (komparace)
30
Speciální testy
31
Párová srovnání – McNemarův test
› Porušení předpokladu nezávislých výběrů.
› Předpokládáme, že očekávané četnosti v polích (viz dále) jsou
alespoň 5 a N ≥ 30.
› Porovnáváme u stejných případů situace „před“ a „po“.
Po
Před + -
+ a b
- c d
34
Fisherův přesný test – příklad
› Vzorek studentů lze rozdělit na muže a ženy na jedné straně a na ty, kteří se v současné
době připravují a nepřipravují na zkoušku ze statistiky, na straně druhé.
› Například předpokládáme, že podíl studujících studentů je vyšší mezi ženami než mezi
muži, a chceme otestovat, zda případný rozdíl v podílech, který pozorujeme, je
signifikantní.
35
Křížový poměr (Odds Ratio)
› Vyjadřuje podíl šancí či sázkový poměr (šance na ohrožení).
› Odpovídá na otázku „Kolikrát je vyšší šance na ohrožení“.
Ohrožení
Expozice ANO (case) NE (control)
ANO a b
NE c d
› OR = a*d/b*c
𝑝 𝑎 𝑏
š𝑎𝑛𝑐𝑒 = = 𝑛𝑒𝑏𝑜
(1 − 𝑝) 𝑐 𝑑
𝑎/𝑐 𝑎𝑑
𝑜𝑑𝑑𝑠 𝑟𝑎𝑡𝑖𝑜 (𝑝𝑜𝑚ě𝑟 š𝑎𝑛𝑐í) = =
𝑏/𝑑 𝑏𝑐
36
Křížový poměr (Odds Ratio) – příklad
Alergie (ohrožení)
Bydlení v silně znečištěném ovzduší (expozice) ANO NE
ANO 28 16
NE 11 35
Děti žijící v silně znečištěném ovzduší mají 5,57x vyšší šanci na alergická onemocnění než
děti žijící ve zdravém prostředí.
37
Příští přednáška
1. Podrobnější analýza diferencí v kontingenční tabulce
2. Metody stanovení síly závislosti v kontingenční tabulce
a. Nominální znaky
b. Ordinální znaky
38
Statistická analýza dat: Přednáška 4
Jindřich Špička
1
Program přednášky 4
1. Připomenutí chí-kvadrát testu.
2. Podrobnější analýza diferencí v kontingenční tabulce.
3. Metody stanovení síly závislosti v kontingenční tabulce pro:
a. Nominální znaky
b. Ordinální znaky
2
Doporučené zdroje pro tuto přednášku
› Statistické metody II – kap. 1 Analýza závislosti kvalitativních
znaků.
› Statistické nástroje ekonomického výzkumu – kap. 8 Závislost
kvalitativních znaků.
3
Připomenutí Pearsonova chí-kvadrát
testu
vizte Přednáška 2
4
Chí-kvadrát test
› Chí-kvadrát shrnuje, jak blízko jsou pozorované četnosti (O)
očekávaným četnostem (E), pokud by proměnné byly nezávislé.
› Ukazuje však pouze přítomnost významné asociace mezi
proměnnými, nikoli jak silná je tato asociace.
› Chí-kvadrát závisí na velikosti vzorku (čím větší vzorek, tím větší
chí-kvadrát hodnota, tím menší p-hodnota, ceteris paribus).
TEST ASOCIACE: pracujeme s (R - 1)(S - 1) stupni volnosti
5
Chí-kvadrát test – očekávané četnosti
Nulová hypotéza
6
Chí-kvadrát test – očekávané četnosti a rezidua
Rez = O – E
12,7 = 201 – 188,3
12,72
12,72 / 188,3
7
Chí-kvadrát test - výsledky
hodnota d.f. p-hodnota
Pearsonův chí-kvadrát test: čím vyšší je hodnota, tím spíše platí alternativní hypotéza a nulová hypotéza
je zamítnuta;
– signifikance (p-hodnota) je spočítaná z rozloženi chí-kvadrát
– Předpoklady: všechny očekávané četnosti jsou větší nebo rovny 1, alespoň u 80% buněk jsou očekávané
četnosti jsou větší než 5, n ≥ 30.
Likelihood Ratio (věrohodnostní test homogenity) řádkových distribucí: čím vyšší je hodnota, tím
spíše platí alternativní hypotéza a nulová hypotéza je zamítnuta; vychází z poměrového
porovnávání skutečných a očekavanych četnosti -2 ln(E(r,s)/O(r,s))
– Signifikance (p-hodnota) je spočítaná z rozloženi chí-kvadrát s daným počtem stupňů volnosti;
– Předpoklady: všechny očekávané četnosti jsou větší nebo rovny 1 a ne vice než 20% poli má očekávané
četnosti < 5, n ≥ 30.
8
Chí-kvadrát test – dodatek
Zdroj: Acrea 9
Podrobnější analýza diferencí v
kontingenční tabulce
Znaménkové schéma odchylek
10
Adjustovaná rezidua
Pro každé
pole
Zdroj: Acrea 11
Adjustovaná rezidua – příklad
5706∗1258−2078∗3116
Pro buňku (1,1) …𝑍 = 𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 5703 ∗ = 6,8
𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 2078∗ 5706−2078 ∗3116∗ 5706−3116
5706∗356−2078∗1296
Pro buňku (1,2) …𝑍 = 𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 5703 ∗ = −7,6
𝑂𝐷𝑀𝑂𝐶𝑁𝐼𝑁𝐴 2078∗ 5706−2078 ∗1296∗ 5706−1296
…a tak dále 12
Adjustovaná rezidua – interpretace
14
Pravidlo volby testu míry asociace
Pravidlo: volba kategorie testu (nominální versus ordinální) se řídí
podle toho, jaký typ proměnných hodnotíme:
– Obě proměnné nominální: testy pro nominální znaky.
– Jedna proměnná nominální, druhá ordinální: testy pro
nominální znaky.
– Obě proměnné ordinální: testy pro ordinální znaky.
15
(Pearsonův) koeficient kontingence
(Contingency Coefficient)
2
𝐶=
𝑁 + 2
16
Koeficient (fí)
(Phi Coefficient)
2
=
𝑁
17
Cramerovo V
(Cramer’s V)
2
𝑉= 𝑞 = 𝑚𝑖𝑛 𝑅, 𝑆
𝑁(𝑞 − 1)
18
Goodman-Kruskalovo (lambda)
𝜀1 − 𝜀2 𝜀1 je celková nemodální frekvence a
= 𝜀2 je součet nemodálních frekvencí pro každou hodnotu nezávislé proměnné.
𝜀1
Nezávisle proměnná (X)
› Míra asymetrické závislosti
dvou proměnných (X → Y). Důležité je řazení
› Existuje i symetrizovaná řádků a sloupců.
varianta.
› Nabývá hodnot v intervalu Závisle proměnná (Y)
0; 1 .
› Hodnota 0 = kategorie Lze lépe předpovědět krevní tlak, pokud je znám stav příbuzenského
řádkové proměnné vztahu?
nepřispívají k predikci
kategorií sloupcové
proměnné. Důvodem je, že předpokládaný nominální krevní tlak je v obou sloupcích ve skutečnosti "Normální" (obě horní čísla
jsou vyšší než odpovídající dolní číslo). Zohlednění příbuzenského stavu tedy nezmění předpověď, že lidé mají normální
› Vyjadřuje míru redukce krevní tlak, i když z údajů vyplývá, že být ženatý či vdaná zvyšuje pravděpodobnost vysokého krevního tlaku.
chyby pro predikci, jestliže Pokud se otázka změní, např. dotazem „Jak je stav ovlivněn krevním tlakem?“, bude mít
známe hodnotu vysvětlující
proměnné. lambda nenulovou hodnotu.
19
Další ukazatele
› Goodman-Kruskalovo (tau)
– Nabývá hodnot v intervalu 0; 1 . Hodnota 0 vyjadřuje nezávislost.
› Koeficient nejistoty (neurčitosti).
– Míra asociace, která udává poměrné snížení chyby při použití hodnot
jedné proměnné k předpovědi hodnot druhé proměnné. Například
hodnota 0,83 znamená, že znalost jedné proměnné snižuje chybu při
předpovídání hodnot druhé proměnné o 83 %. Program počítá jak
symetrickou, tak asymetrickou verzi koeficientu nejistoty.
20
Síla závislosti v kontingenční
tabulce
Ordinální znaky
21
Mantel-Haenszel chí-kvadrát test
› Obdoba Pearsonova chí-kvadrát testu pro ordinální proměnné.
› Testuje alternativní hypotézu, že mezi řádkovou a sloupcovou
proměnnou existuje lineární souvislost. Obě proměnné musí ležet na
ordinální stupnici.
› Symetrická míra.
› Nabývá hodnot v intervalu −1; 1 .
› Hodnota 0 vyjadřuje nezávislost. Hodnota -1 nebo +1 vyjadřuje
plnou jednoznačnou závislost (nepřímo úměrná, přímo úměrná).
› Čím vyšší hodnota, tím vyšší závislost.
24
Kendallovo b (tau-b)
𝐶−𝐷
𝑏 =
(𝐶 + 𝐷 + 𝑇𝑋 )(𝐶 + 𝐷 + 𝑇𝑌 )
› Symetrická míra.
› Nabývá hodnot v intervalu −1; 1 . Hodnota 0 vyjadřuje nezávislost.
› Hodnota -1 nebo +1 vyjadřuje plnou jednoznačnou závislost (nepřímo
úměrná, přímo úměrná).
25
Stuartovo c (tau-c)
𝑞(𝐶 − 𝐷)
𝑐 =
𝑁 2 (𝑞 − 1)
› Symetrická míra.
› Nabývá hodnot v intervalu −1; 1 . Hodnota 0 vyjadřuje nezávislost.
› Hodnota -1 nebo +1 vyjadřuje plnou jednoznačnou závislost (nepřímo
úměrná, přímo úměrná).
26
Sommersovo d
𝐶−𝐷 𝐶−𝐷 2(𝐶 − 𝐷)
𝑑𝑌𝑋 = 𝑑𝑋𝑌 = 𝑑𝑠𝑦𝑚 =
𝐶 + 𝐷 + 𝑇𝑌 𝐶 + 𝐷 + 𝑇𝑋 2 𝐶 + 𝐷 + 𝑇𝑋 + 𝑇𝑌
27
Spearmanův koeficient pořadové korelace
N = počet případů
1. krok: Pro každou proměnnou z původních hodnot vypočítáme pořadí (rank xi, rank yi) 1, 2, 3, … , n.
2. krok: Spočítáme rozdíly mezi sloupci pořadí (di) a umocníme je na druhou.
3. krok: dosadíme do vzorce
−0.175757575
28
Statistická analýza dat: Přednáška 5
Jindřich Špička
1
Program přednášky 5
1. Motivační příklad.
2. Význam chyby odhadu v regresní analýze.
3. Odhad parametrů regresní přímky – metoda nejmenších
čtverců.
4. Odhad rozptylu náhodných chyb a koeficientu determinace.
5. Význam analýzy rozptylu (ANOVA) v lineární regresi.
2
Doporučené zdroje pro tuto přednášku
› Statistické metody I – kap. 6.1 Úvodní poznámky, 6.2
Jednoduchá lineární regrese, 6.3 Testy hypotéz o parametrech
lineární regrese a intervalový odhad.
› Simple and Multiple Linear Regression – YouTube
› Causality [Simply explained] - YouTube
3
Jak souvisí spotřeba elektromobilu s teplotou
vzduchu?
› společná příčina –
obecný rozvoj země
› nesmyslnost odhalena
jen na základě logické
úvahy
8
Regresní analýza – definice
› V klasickém pojetí vztah dvou nebo více ČÍSELNÝCH proměnných.
– V současnosti i nominální a ordinální regrese jinými přístupy.
› Vztah
– Kauzální – regrese je odraz příčinného procesu, existuje proces příčina ->
následek, vztah je obvykle dán teorií.
– Empirický – regrese je zachycení vztahu mezi vzniklými čísly, statistickými
řadami, bez ohledu na to co znamenají, vztah konstruujeme zkusmo.
› Může odrážet i nepravé (zprostředkované) vztahy.
› Vztah je odrazem složité a neznámé struktury vztahů.
X Y E
nezávisle proměnná –> závisle proměnná <– chyba
moderace
mediace
11
deterministická náhodná
složka složka
Zdroj: Acrea 12
Přítomnost náhodné složky činí z deterministického modelu
Chyba odhadu () pravděpodobností model.
regresní přímka
konstanta
𝛽0
13
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Čím mohou být způsobeny chyby odhadu u
spotřeby elektromobilu?
𝛽0 + 𝛽1 𝑥
𝛽0 + 𝛽1 𝑥3
𝛽0 + 𝛽1 𝑥3
𝛽0 + 𝛽1 𝑥2
𝛽0 + 𝛽1 𝑥2
𝛽0 + 𝛽1 𝑥1
𝛽0 + 𝛽1 𝑥1
17
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Důležitá pravidla týkající se chyby odhadu
› Protože β0 a β1 jsou pro každý bod pevná čísla, je β0 + β1x také
pevné číslo. Součet pevných čísel a normálně rozdělené náhodné
chyby () je také normálně rozdělená proměnná. To znamená, že
samotné y má normální rozdělení.
› Protože neexistuje žádná variabilita v pevném čísle β0 + β1x, je
směrodatná odchylka hodnoty y stejná jako směrodatná
odchylka hodnoty náhodné chyby ().
› Chyba odhadu nezávisí na x.
› Chyby odhadu vypočítané z různých vzorků ze stejného
základního souboru jsou vzájemně nezávislé.
18
Odhad parametrů regresní
přímky
Jednoduchá lineární regrese
19
Význam koeficientů přímky
› b1 = regresní koeficient – koeficient úměry vlivy X na Y u každého jednoho
případu (o kolik se průměrně změní Y, pokud se X změní o jednotku)
– b1 > 0 – přímka má růstový/stoupavý trend
› kladný trend
› s rostoucím X roste Y
– b1 < 0 – přímka má ztrátový/klesavý trend
› záporný trend
› s rostoucím X klesá Y
– b1 = 0 – přímka je rovnoběžná s osou X, absence trendu
› s rostoucím X se Y nemění: nulový trend
› hodnota Y na X nezávisí
Zdroj: Acrea 21
22
Zdroj: Acrea
Proč se používá metoda nejmenších čtverců?
› Lineární odhad
– Výpočetně a interpretačně výhodné.
› Nevychýlený a konzistentní odhad parametrů rovnice
– odhad je rozptýlen kolem skutečných parametrů – ani
nenadhodnocuje, ani nepodhodnocuje skutečná data
– s růstem parametrů se odhad blíží ke skutečným hodnotám
› Nejlepší odhad
– MNČ dává odhad s nejmenším rozptylem
– pro daný výběr a model nelze odhad spočítat lépe
– velikost rozptylu je úměrná s/ n – je závislá na schopnosti uživatele
najít dobrý model a získat dostatek případů pro odhad
23
Metoda nejmenších čtverců
› Odhadnuté parametry a vše z nich vyplývající
jsou jen odhadem skutečných parametrů.
Skutečné parametry se týkají základního
souboru (často hypotetický a nedosažitelný).
› Výběr jiného vzorku ze základního souboru by
vedl jinému odhadu. Odhad chyby se nazývá
residuum.
Y = b0 + b1 X + => Y = b0 + b1 X + e
skutečný ale neznámý vztah odhad vztahu na základě výběru
v základním souboru
24
Bodové a intervalové odhady parametrů
› Rozptýlení odhadu lze spočítat skutečný vztah: Y = 2 + 3 X + e e N (0,4)
pro každý výběr.
› Skutečné s neznáme, jen
odhadujeme.
› Míra rozptýlení závisí na velikosti
výběru a směrodatné odchylce
náh. chyb
s/ n
› Pro každý odhad lze zkonstruovat
oblast, kde se skutečné
parametry nacházejí s danou
pravděpodobností (95%)
– INTERVALOVÉ ODHADY
PARAMETRŮ (vizte Bc studium).
25
Dekompozice variability závislé proměnné Y
› Celkový rozptyl závislé proměnné lze rozložit na dvě části:
– část rozptylu odhadnutých hodnot
– část rozptylu náhodných chyb
ഥ
=𝐘
ഥ
𝐘 sY2 = sŶ2 + s2
odhad: Y = b0 + b1 X + e
SStotal = (Yi – 𝒀)2
SSmodel = (Ŷi - 𝒀 )2 = (b0 + b1 Xi – 𝒀 )2 SStotal = SSmodel + SSresid
SSresid = (Yi - Ŷi)2 = (Yi – (b0 + b1 Xi))2 (Yi – 𝑌)2 = (Ŷi - 𝑌 )2 + (Yi - Ŷi)2
26
Odhad parametrů
(zjednodušený matematický zápis)
(σ 𝑥)(σ 𝑦)
𝑆𝑥𝑦 𝑆𝑥𝑦 = 𝑥𝑦 −
𝑏1 … 𝑏𝑜𝑑𝑜𝑣ý 𝑜𝑑ℎ𝑎𝑑 𝛽1 = 𝑛
𝑆𝑥𝑥
( σ 𝑥) 2
𝑆𝑥𝑥 = 𝑥2 −
𝑏0 … 𝑏𝑜𝑑𝑜𝑣ý 𝑜𝑑ℎ𝑎𝑑 𝛽0 = 𝑦ത − 𝑏1 𝑥ҧ 𝑛
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7. 27
Kovariance X a Y = 490,3
Rozptyl X = 2
𝐶𝑜𝑣(𝑋, 𝑌)
𝛽𝑖 =
průměry 𝑉𝑎𝑟(𝑋)
Směrodatná odchylka Y
𝜎𝑌
𝛽𝑖 = 𝑅𝑋𝑌 ∙
𝜎𝑋
Směrodatná odchylka X
31
Odhad rozptylu náhodných chyb (𝑠𝑒2 )
› Nevychýlený odhad – záleží na něm úsudky o přesnosti odhadu
– nevychýlenost závisí na splnění předpokladu o s2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑
› Vychází se z rozkladu čtverců – residuální rozptyl. 𝑠𝑒2 =
𝑛−2
› Dosahuje minimální možné hodnoty pro lineární model – je to
také kritérium pro odhad modelu.
› Nezávisí na počtu případů, ale na kvalitě vztahu v základním
souboru.
› Směrodatná odchylka residuí se
– odmocnina z odhadnutého residuálního rozptylu
32
Pokračování příkladu
ො 2 = 337,212.45
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 = (𝑦 − 𝑦)
ത 2 = 1,539,182.90
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 = (𝑦 − 𝑦)
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 337,212.45
𝑅2 =1− =1− = 0.781 = 78.1%
𝑆𝑆𝑡𝑜𝑡𝑎𝑙 1,539,182.90
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 337,212.45
Odhad rozptylu náhodných chyb 𝑠𝑒2 = = = 42,151.56
𝑛−2 10 − 2
35
ො 2 = 337,212.45
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 = (𝑦 − 𝑦)
𝑆𝑆𝑟𝑒𝑠𝑖𝑑 337,212.45
𝑠𝑒2 = = = 42,151.56 𝑠𝑒 = 𝑠𝑒2 = 42,151.56 = 205.3
𝑛−2 10 − 2
𝑠𝑒 205.3
𝑠𝑏 = = = 45.91 𝑔𝑟𝑎𝑚ů ෝ = −𝟏𝟏𝟔𝟑. 𝟒𝟓 + 𝟐𝟒𝟓. 𝟏𝟓𝒙
𝒚
𝑆𝑥𝑥 20
𝑡𝑘𝑟𝑖𝑡 = 𝑡0.05(10−2) = 2.306 standardní chyba odhadu koeficientu b
𝑡 > 𝑡𝑘𝑟𝑖𝑡
37
Porovnání modelů β1 = 0 a β1 ≠ 0
β1 = 0 (nulová hypotéza) β1 ≠ 0 (alt. hypotéza)
𝑅2 /𝑘 0.258/1
𝐹= = = 5,21
1 − 𝑅2 1 − 0.258
𝑛− 𝑘+1 17 − 1 + 1
𝑑𝑓 = (𝑘; 𝑛 − 𝑘 + 1 ) = (1; 17 − 1 + 1 )
𝛽0 𝛽1
40
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Statistická analýza dat: Přednáška 6
Jindřich Špička
1
Program přednášky 6
1. Princip vícenásobné lineární regrese.
2. Předpoklady lineární regrese (vlastnosti odhadu metodou
nejmenších čtverců).
3. Analýza reziduí.
4. Práce s kvalitativními nezávisle proměnnými.
5. Odhad modelu vícenásobné lineární regrese.
a) Srovnání koeficientů – standardizace regresních koeficientů.
b) R2 a adjustované R2.
c) F test celého modelu.
d) Metoda nejmenších čtverců.
2
Doporučené zdroje pro tuto přednášku
› Statistické metody I – celá kapitola 6.
› Simple and Multiple Linear Regression – YouTube
› Assumptions of Linear Regression – YouTube
3
Princip vícenásobné lineární regrese
› Přímé zobecnění jednoduché regrese.
› Další členy jsou přidány prostým přičtením, každý člen má svůj
koeficient bk.
› Mohou se přidávat i libovolné pevně dané funkce proměnných X
– X2, X3, 1/X, ln(X), X1X2, atd.
– modelem je křivka obecnější než přímka (rovina)
– speciální variantou jsou proměnné typu 0 - 1
› Linearita – model je součtem jednotlivých komponent bkf(Xk).
› Interpretace analogická jako u jednoduché regrese.
4
Princip vícenásobné lineární regrese
5
Princip vícenásobné lineární regrese
Nejméně jeden
6
Princip vícenásobné lineární regrese
7
Princip vícenásobné lineární regrese – význam
koeficientů
› bk je převodní koeficient Xk na Y
– nazývá se parciální regresní koeficient
› Lze modelovat dílčí vlivy jednotlivých Xk na Y i vliv interakce mezi Xk
na Y
9
Předpoklady lineární regrese (odhadu MNČ)
4) Chyba odhadu () má normální rozdělení se střední hodnotou 0.
• nesplnění => odhad není nevychýlený a úsudky o kvalitě odhadu jsou chybné
𝛽0 + 𝛽1 𝑥
𝛽0 + 𝛽1 𝑥3
𝛽0 + 𝛽1 𝑥3
𝛽0 + 𝛽1 𝑥2
𝛽0 + 𝛽1 𝑥2
𝛽0 + 𝛽1 𝑥1
𝛽0 + 𝛽1 𝑥1
11
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Předpoklady lineární regrese (odhadu MNČ)
6) Chyby odhadu () jsou na sobě nezávislé (jsou náhodné)
- problém autokorelace (spíše u časových řad)
- nesplnění => odhady MNČ parametrů β nemají optimální vlastnosti. Odhady
MNČ sice zůstávají nestranné, ale jejich rozptyl již není minimální.
13
Rezidua
› Residua (odchylky) modelu
jsou charakteristikou shody
pozorování a regresního
odhadu.
› Odhad skutečných residuí
na základním souboru.
› Velké odchylky indikují:
– případ/pozorování nepatří
do souboru
– případ/pozorování je chybně
zaznamenáno
– případ je vychýlen specifickým
faktorem/příčinou 14
Typy reziduí (výběr)
› e – reziduum = rozdíl mezi hodnotou Y a predikcí
– residua e = (Y – Ŷ)
– nepříliš vhodné (odlišné škály proměnných), rozptyl není jednotkový a závisí na X
› estr – standardizované reziduum: převedení na z-skóry
– estr = (Y – Ŷ)/se
– nevhodné, celkově jednotkový rozptyl, ale stále závisí na X
› estud – studentizovaná rezidua: standardizace odhadem směrodatné
chyby podmíněné hodnotami X, také se nazývají vnitřně studentizovaná
– estud = (Y – Ŷ)/se|X = (Y – Ŷ)/se√(1-h)
– h = míra, která identifikuje odlehlé pozorování (leverage)
– jednotkový rozptyl, nezávisí na X
– závislost residuí je potlačena
– velikost lze testovat t-testem s df = n – p, orientační hranice 2
› n – velikost souboru, p – počet nezávisle proměnných v modelu včetně konstanty
15
Analýza reziduí
› Pokud jsou splněny všechny předpoklady modelu, je střední
hodnota reziduí při jakékoli konkrétní hodnotě x rovna 0.
› Každé pozorování, které dává velkou kladnou nebo zápornou
reziduální hodnotu, by mělo být pečlivě prozkoumáno, zda se
nejedná o neobvyklé okolnosti, jako je chyba záznamu nebo
výjimečné experimentální podmínky.
16
Normalita reziduí
› Je podstatná jen pro testování a intervaly spolehlivosti.
› Není kritická, pro větší soubory (>50) je normalita odhadu b
zaručena na základě centrálního limitního teorému
– testy a intervaly pro parametry jsou v pořádku, i když residua nejsou
normálně rozložena
– intervaly pro individuální hodnoty jsou ale zkreslené
› Možnost zjistit vizuálně nebo výpočetně
– histogram
– Q-Q, graf standardizovaných (studentizovaných) reziduí
– testy normality – ALE s rostoucím počtem případů zamítají i nepatrné
odchylky
17
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Analýza reziduí
› Graf standardizovaných reziduí
18
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
Analýza reziduí
› Graf standardizovaných reziduí
19
Práce s kvalitativními
nezávisle proměnnými
20
Práce s kvalitativními nezávisle proměnnými
› Převod nominálních a ordinálních proměnných na dummy proměnné,
někdy nazývané indikátorové proměnné (0-1).
› Nutno určit referenční úroveň.
› Příklad: proměnná X1 vzdělání se třemi úrovněmi (L1 = základní, L2 =
středoškolské, L3 = vysokoškolské).
– Zvolím referenční úroveň L1.
– Ostatní dvě úrovně převedu na dvě nové dummy proměnné: X11 =
středoškolské, X12 = vysokoškolské.
– X11 … Pokud má respondent nejvyšší dosažené vzdělání L2 (středoškolské),
označím ho 1. Pokud ne, označím ho 0.
– X12 … Pokud má respondent nejvyšší dosažené vzdělání L3 (vysoškolské),
označím ho 1. Pokud ne, označím ho 0.
– Úroveň L1 (referenční úroveň) se samostatně nevykazuje, protože je obsažena
v konstantě modelu (L2 a L3 jsou totiž nulové).
21
Práce s kvalitativními nezávisle proměnnými
› Indikátorové proměnné pro nominální kategorizovanou proměnnou
s kategoriemi (A,B,C,D).
proměnná: X1 X2 X3
A 1 0 0
B 0 1 0
C 0 0 1
D 0 0 0 (referenční kategorie)
› Y = a + b 1 X1 + b 2 X2 + b 3 X3
X2 = 0: Y = b0 + b1 X1 + e
X2 = 1: Y = (b0 + b2 ) + b1 X1 + e
23
Odhad modelu vícenásobné
lineární regrese
24
Odhad rozptylu náhodných chyb (𝑠𝑒2 )
› Nevychýlený odhad – záleží na něm úsudky o přesnosti odhadu
– nevychýlenost závisí na splnění předpokladu o s2
𝑆𝑆𝑟𝑒𝑠𝑖𝑑
› Vychází se z rozkladu čtverců – residuální rozptyl. 𝑠𝑒2 =
𝑛 − (𝑘 + 1)
› Dosahuje minimální možné hodnoty pro lineární model – je to
také kritérium pro odhad modelu.
› Nezávisí na počtu případů, ale na kvalitě vztahu v základním
souboru.
› Směrodatná odchylka residuí se
– odmocnina z odhadnutého residuálního rozptylu
n = počet případů
k = počet nezávisle proměnných v modelu (bez konstanty) 25
R2 a modifikovaný koeficient determinace R2
R2 ukazuje, jakou část rozptylu Y vysvětluje rozptyl Ŷ neboli model
- zbytek rozptylu Y je rozptyl residuí
Koeficient vícenásobné korelace R – korelační koeficient mezi Y a Ŷ (lineární kombinace
nezávislých proměnných X)
- lineární kombinace (odhadnutá rovnice) získaná MNČ maximalizuje korelační koeficient s Y
R2 – čtverec vícenásobného korelačního koeficientu R2 = R(Y, Ŷ)2
R2 vždy roste s přidáním nové proměnné nebo další funkce existujících proměnných (zvětšení
modelu)
- řídit se pouze R2 by vedlo k nesmyslně velkým modelům
R2adj – modifikované R2
- samotné přidání proměnné je penalizováno snížením koeficientu
- penalizace je slabá, R2adj po přidání proměnné téměř vždy vroste
n = počet pozorování
k = počet nezávisle proměnných v modelu (bez zahrnutí konstanty)
26
Standardizace regresních koeficientů
› Velikost koeficientů závisí na měrných jednotkách X a Y.
– pro jiné jednotky lze koeficienty snadno přepočítat
› Pro srovnání vlivu proměnných X vadí různé jednotky těchto
proměnných => bezrozměrné beta koeficienty.
– pozor na terminologii – nesouvisí se skutečnými hodnotami koeficientů
značenými b
› Spočteny na standardizovaných proměnných Y a X.
– opět lze snadno spočítat z původních koeficientů
– u regrese s jedním prediktorem odpovídá beta korelačnímu koeficientu
27
Standardizace regresních koeficientů
› Standardizované koeficienty jsou koeficienty, které bychom
získali, kdybychom před provedením regrese převedli všechny
proměnné na z-skóre.
28
Analýza rozptylu (ANOVA) ve vícenásobné regresi
› 𝐻0 : 𝛽1 = 𝛽2 = 𝛽3 = ⋯ = 𝛽𝑘 = 0
› 𝐻𝐴 : 𝐴𝑙𝑒𝑠𝑝𝑜ň 𝑗𝑒𝑑𝑛𝑜 𝛽1 , … , 𝛽𝑘 𝑗𝑒 𝑛𝑒𝑛𝑢𝑙𝑜𝑣é.
𝑆𝑆𝑀𝑜𝑑𝑒𝑙 /𝑘 𝑅 2 /𝑘
𝐹= =
𝑆𝑆𝑅𝑒𝑠𝑖𝑑 /(𝑛− 𝑘+1 ) (1−𝑅 2 )/(𝑛− 𝑘+1 )
𝑑𝑓 = (𝑘; 𝑛 − 𝑘 + 1 )
n = počet případů
k = počet nezávisle proměnných v modelu (bez konstanty) 29
PECK, H., OLSEN, C., DEVORE, J. T. Introduction to Statistics and Data Analysis, 5th edition, 2016. 842 p. ISBN 978-1-305-11534-7.
𝑅2 /𝑘 0.861/3
𝐹= = = 37,16
1 − 𝑅2 1 − 0.861
𝑛− 𝑘+1 22 − 3 + 1
𝑑𝑓 = (3; 22 − 3 + 1 )
30
Statistická analýza dat: Přednáška 7
Jindřich Špička
1
Program přednášky 7
1. Výstavba regresního modelu.
2. Diagnostika regresního modelu (ověřování předpokladů).
a) Kontrola linearity.
b) Vliv odlehlých pozorování.
c) Nezávislost náhodných chyb () na prediktorech (X).
d) Vzájemná nezávislost prediktorů (X) – testování (multi)kolinearity.
e) Rozptyl náhodných chyb () je konstantní vzhledem k hodnotám X
– testování heteroskedasticity.
f) Nezávislost náhodných chyb () mezi sebou – testování
autokorelace.
g) Normalita náhodných chyb ().
2
Doporučené zdroje pro tuto přednášku
› Simple and Multiple Linear Regression - YouTube
› Assumptions of Linear Regression – YouTube
› Normality test [Simply Explained] – YouTube
› Dummy Variables in Multiple Regression - YouTube
› Statistické nástroje ekonomického výzkumu – kap. 6.7 Vybrané
postupy regresní diagnostiky.
3
Výstavba regresního modelu
4
Připomenutí principu vícenásobné lineární regrese
Nejméně jeden
5
Vliv přítomnosti proměnné v modelu
› Vliv přítomnosti a nepřítomnosti proměnné Xk v rovnici závisí na
hodnotě koeficientu bk (skutečný koeficient v základním
souboru).
› Proměnné do rovnice je třeba zařazovat s rozmyslem.
– je třeba získat do dat všechny relevantní proměnné, které na základě
teoretické znalosti problému mají vztah k závislé proměnné,
– z rovnice se vylučují statisticky nevýznamné proměnné (t-test).
› bk = 0
– proměnná Xk do rovnice nepatří
– při jejím zahrnutí do rovnice zůstává odhad ostatních koeficientů
nevychýlený, ale je méně přesný (odhady mají větší rozptyl)
– snížení přesnosti nenastává, pokud Xk není korelováno s ostatními
proměnnými v rovnici
7
Výběr proměnných
› Obvykle ne všechny proměnné X v datech lze použít v modelu.
› Proměnné X mohou být korelovány – nelze je obě použít v jednom
modelu, jejich vliv se vzájemně oslabuje (vysoká hodnota
signifikance).
› Často lze vytvořit více podobně kvalitních modelů.
› Existují metody pro automatické budování modelů (FORWARD,
BACKWARD, STEPWISE)
– Vhodné při velkém počtu nezávisle proměnných X.
– Obecně se nedoporučují kvůli ztrátě kontroly nad procesem výběru.
– Při automatickém budování modelu vyzkoušejte více metod a vždy zhodnoťte
věcnou smysluplnost modelu, nalezené modely případně upravte.
8
Metody automatického výběru proměnných
› FORWARD – postupné zařazování prediktorů
– začíná s modelem obsahujícím jen konstantu
– postupné zařazování prediktorů podle schopnosti snížit residuální rozptyl
modelu – je požadována určitá míra snížení (volba uživatele)
› BACKWARD – postupné vyřazování prediktorů
– začíná s plným modelem (není vhodná, pokud je výchozí model příliš veliký)
– postupně jsou odstraňovány proměnné, jejichž odstranění zvýší residuální
rozptyl nejméně – je stanovena mez, kterou nesmí zvýšení překročit (volba
uživatele)
› STEPWISE – kombinace obou
– začíná s modelem obsahujícím jen konstantu
– přidává proměnné metodou FORWARD, po každém přidání zkouší metodou
BACKWARD odstranit dříve přidané proměnné 9
Porovnávání modelů s různou sadou proměnných
› Existuje kompromis mezi jednoduchostí modelu a dobrou shodu
modelu s daty - s přidáváním dalších prediktorů do modelu se dobrá
shoda (např. R2) stále zvyšuje, ale model je složitější.
10
Ověřování předpokladů
11
Ověřování předpokladů
› Předpoklady pro odhad metodou nejmenších čtverců:
– předpoklad tvaru – linearita a aditivita chyby
– nezávislost náhodných chyb () na prediktorech (X)
– nezávislost prediktorů (X) – nepřítomnost multikolinearity
12
Kontrola linearity
13
Kontrola linearity – vizuálně
› Bodový graf Y vůči X.
› Grafy residuí (svislá osa) proti odhadnuté závisle proměnné Y a proti každé z nezávisle
proměnných X (vodorovná osa)
› Porušení paralelního pásu bodů s vodorovnou osu a určitá struktura bodů indikují
nelinearitu.
14
Vliv odlehlých pozorování
15
Vychýlené hodnoty
› Odlehlé hodnoty, které spadají vodorovně od středu
mraku, ale nemají vliv na sklon regresní přímky, se
nazývají pákové body (neobvyklé v x a y).
– Není potřeba se jimi zabývat, neovlivňují sklon
regresní přímky.
17
DfFit
› DfFit - pokud pozorování z modelu vyloučíte a znovu jej
přepočítáte, předpovídané hodnoty se změní. Statistika DFFITS
je mírou toho, jak se změní předpovídaná hodnota u i-tého
pozorování, když je i-té pozorování vyřazeno.
› Aby byly hodnoty DfFit nezávislé na měřítku dat, změna
předpovídaných hodnot se škáluje vydělením standardní chybou
předpovídané hodnoty v daném bodě.
› Pozorování je vlivné, pokud velikost jeho hodnoty DfFit
přesahuje 2* 𝒑/𝒏, kde p je počet efektů v modelu včetně
konstanty a n je velikost vzorku.
› Na rozdíl od Cookovy vzdálenosti zohledňují i směr vlivu.
18
DfBeta
› DfBetak – rozdíl mezi regresním koeficientem bk spočteným
ze všech dat a koeficientem spočteným při vynechání případu.
– Charakteristika případu – ukazuje na to, jak případ ovlivní koeficient.
– Spočítáno pro každý případ a každý koeficient.
– Hodnoty vzdálené od nuly indikují vlivný případ.
19
Odlehlé pozorování – vizuální detekce
› Graf studentizovaných residuí
(svislá osa) proti predikované
hodnotě (vodorovná osa).
20
Nezávislost náhodných chyb
() na prediktorech (X)
21
Nezávislost náhodných chyb () na prediktorech (X)
› Korelace X a e.
› Vizuálně – požadovány
chaoticky rozložené body
(bez tvaru).
23
Nezávislost prediktorů (X)
› Vysoká korelace mezi Xi a Xj (obecně mezi nezávisle
proměnnými) vede k nestabilitě odhadu koeficientů.
– Vysoká korelovanost v množině proměnných, je obtížné
separovat vlivy vysoce korelovaných proměnných.
24
Nezávislost prediktorů (X)
› Kolinearita (multikolinearita)
– datová – korelace v datech
– podstatová – věcná a plynoucí z významu prediktorů
– modelová – chybně stanovený model
25
Multikolinearita – korelační matice a scatterplot
26
Multikolinearita – tolerance
› Tolerance = 1 – Rk2
› Rk2 je koeficient determinace proměnné Xk na všechny ostatní
nezávislé proměnné.
› Je-li tolerance blízká k nule, znamená to, že proměnná je
lineárně silně svázaná s ostatními a je to kandidát na vyloučení.
› Je-li tolerance menší než 0,0001, proměnná je vyloučena,
protože mohou nastat výpočetní problémy.
› Naopak tolerance blízká k 1 ukazuje na to, že proměnná není
korelovaná se zbytkem.
27
Multikolinearita – Variance Inflation Factor (VIF)
28
Multikolinearita – Variance Inflation Factor (VIF)
› Hodnota 1 znamená, že prediktor není korelován s ostatními
proměnnými.
› Čím vyšší je hodnota, tím větší je korelace proměnné s ostatními
proměnnými.
› Hodnoty vyšší než 4 nebo 5 (někdy i 2) jsou někdy považovány za
středně vysoké až vysoké, přičemž hodnoty 10 a více jsou považovány
za velmi vysoké.
› Pokud je VIF vysoká, ztěžuje to rozklíčování relativní důležitosti
prediktorů v modelu, zejména pokud jsou standardní chyby odhadu
považovány za velké.
› Čím vyšší je VIF, tím více je standardní chyba nadsazená a tím větší je
interval spolehlivosti a tím menší je šance, že koeficient bude určen
jako statisticky významný.
29
Opatření proti multikolinearitě
a) Sběr nových dat, tak, aby proměnné Xk nebyly korelované
(experimentální plánování při sběru) – málokdy je možné.
b) Nový přístup k modelu – určení jiné sestavy nezávislých proměnných.
c) Forward nebo stepwise metoda výběru částečně pomůže (ale malá
porce dalších dat může dát jiný výsledek).
d) Vynechání jedné z korelovaných proměnných.
e) Vytvoření indexu (např. součtového) z korelovaných proměnných.
f) Proměnné Xk (nebo jejich podmnožina) se nejprve transformují
na hlavní komponenty nebo na nezávislé faktory, které vstupují jako
regresory (Faktorová analýza, Analýza hlavních komponent).
g) Hřebenová regrese (ridge regression).
30
Homoskedasticita
Rozptyl náhodných chyb () je konstantní vzhledem
k hodnotám X.
31
Homoskedasticita
Odhad rozptylu residuí je stejný pro všechny případy.
32
Heteroskedasticita – diagnostické grafy
33
Heteroskedasticita - testování
› Několik testů
– Whiteův, Pakrův, Leveneho test, Bartletův test, Breuscheův-
Paganův test
34
Heteroskedasticita – některá řešení
› Existuje lepší odhad – řešením může být vážená metoda
nejmenších čtverců.
Malá váha 1
𝑤𝑖 =
𝜎𝑒
35
Heteroskedasticita – některá řešení
› Speciální regresní algoritmy penalizující
heteroskedasticitu.
– Nepoužívají metodu nejmenších čtverců, ale například
metodu maximální věrohodnosti (maximum likelihood).
36
Nepřítomnost autokorelace
Musí platit nezávislost náhodných chyb ()
mezi sebou
37
Autokorelace
› Korelace mezi residui není nulová.
› Má smysl jen u přirozeně uspořádaných dat, např. časové řady.
› Příznakem autokorelace je nepřirozeně vysoké R2 (zdánlivě skvělý
model).
› Odhad koeficientů je stále nevychýlený.
› Odhad rozptylu je vychýlený => testy modelu jsou chybné.
› Existuje lepší odhad – vážená metoda nejmenších čtverců.
› Autokorelace prvního řádu: korelované jsou po sobě jdoucí chyby.
› Autokorelace druhého řádu (a vyššího): korelovány jsou chybové
členy vzdálené od sebe dvě (a více) období.
38
Autokorelace – diagnostika
› Durbin – Watsonův test
– jen autokorelace prvního řádu
– signifikanci nelze obecně spočítat, srovnání hodnot podle tabulek
› statistika má hodnoty mezi 0 a 4
› nezávislost – statistika je blízko 2
› statistika < 2 => pozitivní autokorelace
› statistika > 2 => negativní autokorelace
39
Autokorelace – řešení
› Vážená metoda nejmenších čtverců - problém odhadu
vah.
› Pro časové řady
– Cochrane-Orcutt
› iterativní metoda
› jen pro autokorelační model prvního stupně
– ARIMA (Box–Jenkinsova metodologie)
40
Normalita náhodných chyb ()
Normalita reziduí ()
41
Normalita reziduí
› Je podstatná jen pro testování a intervaly spolehlivosti.
› Není kritická, pro větší soubory (>50) je normalita odhadu b
zaručena na základě centrálního limitního teorému.
› Porušení předpokladu:
– testy a intervaly pro parametry jsou v pořádku, i když residua
nejsou normálně rozložena,
– intervaly pro individuální hodnoty jsou ale zkreslené.
› Řešení: transformace dat (Box-Coxova transformace,
dekadický logaritmus), odstranění odlehlých hodnot.
42
Vizuální posouzení normality reziduí
(používejte studentizovaná rezidua)
1
Program přednášky 8
1. Podstata vícerozměrných metod
2. Metody externální analýzy
3. Metody internální analýzy
2
Zdroje pro přednášku 8
› Hendl, J. (2015). Přehled statistických metod. 736 s. Portál. ISBN
978-80-262-0981-2
– Kap. 13.1 Charakteristiky vícerozměrných metod.
3
Podstata vícerozměrných metod
› Tyto metody zkoumají:
– vztahy mezi skupinami proměnných (externální analýza),
– vztahy uvnitř skupin proměnných (internální analýza),
– rozdíly v chování proměnných v různých subpopulacích
(strukturální analýza).
𝑥11 ⋯ 𝑥1𝑝
𝐗= ⋮ ⋱ ⋮ n pozorování
𝑥𝑛1 ⋯ 𝑥𝑛𝑝
p proměnných
4
Úloha vícerozměrných metod
› Zkoumání vztahů, souvislostí a závislostí proměnných.
› Redukce rozměru úlohy vzhledem k počtu proměnných
(seskupujeme proměnné).
5
Metody externální analýzy
6
Metody externální analýzy
› Zkoumají vztahy mezi skupinami proměnných.
› Převažují konfirmační metody, které testují předem formulované hypotézy.
7
1. Vícenásobná regresní analýza
› Kritériální (závisle) proměnná:
– Číselná (metrická) – vícenásobná lineární regrese (metoda nejmenších
čtverců).
10
3. Víceúrovňové modelování
› Zohledňuje různé úrovně agregace pozorování.
Kraj
11
3. Víceúrovňové modelování
› Příklad: Hodnotíme vliv socioekonomického statusu žáků (X) na
úroveň počítačové gramotnosti (Y).
› Tradiční regresní model odhadu pro žáka (i): 𝑦𝑖 = 𝑎 + 𝑏𝑖 𝑥𝑖 + 𝑒𝑖
› U každé školy (j) může být efekt jiný: 𝑦𝑖𝑗 = 𝑎𝑗 + 𝑏𝑥𝑖𝑗 + 𝑒𝑖𝑗
12
3. Víceúrovňové modelování – ukázka postupu
› Y = čas potřebný k zaběhnutí jedné míle (indikátor tělesné
zdatnosti).
› X1 = věk žáka
› X2 = pohlaví žáka
› Sledované objekty: žáci v různých třídách, které byly v různých
školách.
› Otázka: Liší se odhady regresních koeficientů mezi třídami a
školami? Pokud ano, jak?
13
3. Víceúrovňové modelování – ukázka postupu
1. Hodnocení rozdílnosti mezi školami.
𝑦𝑖𝑗 = 𝑏0𝑗 + 𝑒𝑖𝑗
čas u i-tého žáka ze školy j průměrný čas na škole j náhodná odchylka na úrovni jedince
Víceúrovňové modelování se uplatní tam, kde se prokážou rozdíly mezi skupinami (školami).
14
3. Víceúrovňové modelování – ukázka postupu
2. Hledání průměrných regresních rovnic pro závislost výkonu na
pohlaví a věku.
𝑦𝑖𝑗 = 𝑏0𝑗 + 𝑏1𝑗 𝑝𝑜ℎ𝑙𝑎𝑣í + 𝑏2𝑗 𝑣ě𝑘𝑖𝑗 − 𝑣ě𝑘.𝑗 + 𝑒𝑖𝑗
15
3. Víceúrovňové modelování – ukázka postupu
3. Posouzení, jaký vliv na tělesnou zdatnost žáka mají proměnné z
makroúrovně (liší se mezi školami), například:
- Kvalifikace učitele tělesné výchovy.
- Testování sportovní zdatnosti.
- Minuty tělesné výchovy za týden.
- Tělesná výchova na pozemku blízko školy.
- Klimatizace tělocvičny.
- Minuty odpočinku denně.
16
4. Vícerozměrná analýza rozptylu (ANOVA, MANOVA)
› Stejně jako lineární regresní analýza patří do skupiny obecných
lineárních modelů (General Linear Models).
› Kritériální (závisle) proměnná:
– Číselná (metrická) – ANOVA (jedno- nebo vícefaktorová podle toho, kolik
máme nezávisle proměnných).
– V případě více než jedné závisle proměnné volíme metodu MANOVA
(Multivariate Analysis Of VAriance).
› Nezávisle proměnné:
– Kategoriální s více než dvěma úrovněmi (nominální).
– Kategoriální s více než dvěma úrovněmi (ordinální).
17
5. Diskriminační analýza
› Optimální identifikace příslušnosti objektu k jedné z několika
kategorií, o kterých máme nějaké statistické informace.
› Cílem je odhad diskriminační funkce, tedy nalezení lineární
kombinace (nejlepší sady) prediktorů (X), které nejlépe oddělují
jednotlivé skupiny vyjádřené kategoriální závisle proměnnou (Y) a
zároveň minimalizují variabilitu uvnitř každé skupiny.
– Soustředíme se na vnitřně co nejvíce podobné skupiny, které se od sebe
maximálně odlišují.
› Prediktory (nezávisle proměnné) jsou číselné (metrické) proměnné.
› Diskriminační analýza je často využívána v oblastech, jako je biologie
(k rozlišení mezi různými druhy), medicína (diagnóza nemocí),
marketing (segmentace zákazníků), a dalších, kde je důležité
klasifikovat nebo rozlišit mezi různými skupinami na základě více
proměnných. 18
6. Regresní a klasifikační stromy (rozhodovací stromy)
› Metody, které vyhledávají
posloupnost proměnných a
jejich štěpení.
› Dochází k rozkladu prostoru
hodnot nezávisle proměnných Závisle
proměnná
Příjem
do jemnějšího detailu.
1. úroveň
› Explorační metoda vhodná pro
Muži Ženy
prediktorů
20
Doporučené zdroje pro vybrané metody externální
analýzy
› Diskriminační analýza – ACREA
› Rozhodovací stromy – pomocník při hledání předpovědi – ACREA
› Analýza rozptylu (ANOVA) - ACREA
21
Metody internální analýzy
22
Metody internální analýzy
› Zkoumají vztahy mezi proměnnými uvnitř jedné množiny
proměnných.
› Explorační techniky, které slouží k objevování nových vztahů a
proměnných spíše než k jejich konfirmaci.
24
1. Analýza hlavních komponent
(Principal Component Analysis)
› Redukce počtu proměnných pomocí tzv. hlavních komponent,
kterými popisuje variabilitu všech proměnných a vztahy mezi
nimi.
› Hlavní komponenty jsou „nové proměnné“, které vznikají lineární
kombinací původních proměnných. Komponenty nejsou
vzájemně korelované a není cílem je interpretovat.
› Počet komponent závisí na párové korelaci mezi původními
proměnnými.
– Nízká vzájemná korelace – velký počet komponent.
– Vysoká vzájemná korelace – malý počet komponent.
› Neexistuje rozdělení na závisle a nezávisle proměnné.
25
1. Analýza hlavních komponent – příklad
Kumulativní
› Původně 66 strukturálních a Komponenta procento (%)
ekonomických proměnných z
podniků v českém
potravinářském a nápojovém
průmyslu (CZ NACE 10 a 11)
PCA
Špička, J. (2017). What determines propensity to get public investment subsidies? A case study of the Czech food industry. Proceedings
26 of
the 8th International Scientific Conference Rural Development 2017. http://doi.org/10.15544/RD.2017.052
2. Explorační faktorová analýza
(Exploratory Factor Analysis)
› Podobné cíle jako PCA – popsat chování množiny původních
proměnných pomocí menšího počtu nových proměnných (faktorů).
› Rozdíl od PCA – důraz na interpretaci nových proměnných, u
některých algoritmů EFA mohou nové faktory vzájemně korelovat.
› Úkoly EFA:
– Analyzovat korelace většího množství proměnných tím, že většina
proměnných v jednom shluku spolu silně korelují a proměnné z různých
shluků mezi sebou korelovat nemusejí (ale mohou).
– Interpretovat faktory podle toho, jako proměnné obsahuje příslušný shluk.
– Shrnout variabilitu proměnných pomocí několika málo faktorů.
– Návazně lze použít výsledky EFA v dalších analýzách (např. regresní
analýze).
27
2. Explorační faktorová analýza – příklad
4 nové faktory
› Původně 20 otázek na lidské
hodnoty z šetření European
Social Survey 2018.
EFA
32
4. Korespondenční analýza – příklad
36
6. Mnohorozměrné škálování – ukázka mapy
37
Metody strukturální analýzy
38
Metody strukturální analýzy
› Zkoumají vztahy mezi několika skupinami proměnných.
39
Metody strukturální analýzy – příklad
Applied Sciences | Free Full-Text | Structural Equation Model of Work Situation and Work–Family Conflict on Depression and Work
40
Engagement in Commercial Motor Vehicle (CMV) Drivers (mdpi.com)
Statistická analýza dat: Přednáška 9
Jindřich Špička
1
Program přednášky 9
1. Účel shlukové analýzy.
2. Princip shlukové analýzy.
3. Vybrané míry vzdáleností
ve shlukové analýze.
4. Vstupní proměnné.
5. Výstavba modelu.
6. Aplikace modelu.
2
1. Úvod do shlukové analýzy
› Shluková analýza není synonymum pro segmentaci – je to jedna
z metod.
› Případy (zákazníci, výrobky, respondenti, státy …) se dají sloučit do
relativně homogenních skupin.
› Případy v jedné skupině (klastru) jsou si podobné, případy z různých
skupin se odlišují.
› K případům v klastru lze přistupovat jednotně.
3
1. Typy shluků (clusterů, klastrů)
› Definitorické
• určené vnějšími kritérii
• ke stanovení se nepoužívají data (vlastní definice)
• např. lidi z větších měst, menších měst, pohlaví, věkové kategorie
(znalost věci) – expertní pravidla
› Typologické – není ve vztahu k cílové proměnné, SHLUKOVÁ ANALÝZA
• vychází z podobnosti zkoumaných jednotek na základě dat (jednotky
mají profil, jsou popsány na základě skupiny proměnných)
• Např. hierarchické seskupování
› Vztahové – nevhodné pro shlukovou analýzu (vhodné pro klasifikační
stromy)
• určeny vztahem k cílové proměnné – například řeším, zda někdo má
problémy se splácením úvěru, zda někdo podvádí a čím je typický apod.
4
→ Klastry typologické
› Zařazení případu do klastru vychází z jeho
datového profilu
– Případ = řádek datové matice
– Profil = n-tice hodnot všech proměnných v
řádku datové matice (vektor atributů)
› Klastry se určují na základě podobnosti
profilů
– Záleží na způsobu měření podobnosti
(homogenity)
– Stanovení dvojic podobných profilů (sousedů)
– Seskupení do klastrů
– Výběr počtu klastrů
› Model nevysvětluje a nepredikuje cílové
proměnné
– Ale jedná se o predikční model (predikce
klastru)
– Neexistují příklady řešení (závislá proměnná)
– Model vzniká strojovým nesupervizovaným
učením
– Kvalitu modelu nelze spolehlivě ověřit
Profily v datové matici
Jak viděli lidé cestu k bohatství v roce 1993: profily zemí
Stupnice závažnosti: 1= není vůbec podstatné, 7= velmi podstatné
Mean
7
2. Použití seskupování
› Segmentace
– Marketingová úloha
– Zákazníci, produkty
› Kategorizace strukturovaných objektů
– Vozidla, úrazy, knihy, nemovitosti, transakce
› Kategorizace nestrukturovaných objektů
– Textové dokumenty, obrázky, videa, zvuky
› Redukce dimenzionality
– Snížení počtu kombinací kategorií nebo hodnot
– Změna detailu datové matice
› Detekce podvodů
– Vzdálené málo četné klastry
– Pozorování vzdálená od klastrů
2. Využití shlukové analýzy
› Příprava dat pro analýzu
• identifikace chybných
hodnot
› vzdálené málo
četné klastry
› Identifikace výjimečných
případů
• VIP zákazníci, Fraud,
AML
› vzdálené málo
četné klastry
› Segmentace
• rozdělení trhu do
skupin s podobným
chováním
9
3. Podobnost případů – vzdálenosti
› Případy jsou charakterizované mnoha proměnnými.
› Je třeba zavést míru, charakterizující podobnost v mnoha dimenzích.
› Vhodnou mírou je vzdálenost
• nezáporná – vzdálenost nenabývá záporných hodnot
• pro totožné případy nulová
• symetrická – z bodu X do Y je stejná jako z Y do X
• d(X,Y) = d(Y,X)
• splňuje trojúhelníkovou nerovnost
10
3. Euklidovská vzdálenost
B
› Příklad pro 2 dimenze (X, Y) 𝑦2
dab
y svislá osa
𝑦1
A
𝑥1 𝑥2
x
vodorovná osa
d AB = (x1 − x2 )2 + ( y1 − y2 )2
3. Eukleidovská vzdálenost
› vzdálenost představuje délka úsečky spojující body
› počítá se podle Pythagorovy věty
› snadné zobecnění do vícerozměrného prostoru
B
› nejpoužívanější typ vzdálenosti
Souřadnice
dab
𝐴 = (𝑋1 , 𝑋2 , 𝑋3 , …, 𝑋𝑖 ) y
𝐵 = (𝑌1 , 𝑌2 , 𝑌3 , …, 𝑌𝑖 )
𝑑 𝐴, 𝐵 = (𝑋𝑖 − 𝑌𝑖 )2 A
x
12
3. Eukleidovská vzdálenost – příklad výpočtu (2D)
přepona trojúhelníku
d ( X ,Y ) = A
i i
( X − Y ) A
A 0
Manhattanská metrika, metrika městských bloků:
d ( X , Y ) = X i − Yi A =1
Supremální metrika, Čebyševova metrika:
d ( X , Y ) = max( X i − Yi ) A=
Čtverec euklidovské vzdálenosti - není splněna trojúhelníková
podmínka a není to matematicky vzdálenost:
d ( X , Y ) = ( X i − Yi ) 2
3. Manhattanská metrika (Hammingova vzdálenost)
bloky domů jako na Manhattanu
15
3. Supremální metrika, Čebyševova metrika
kratší úsečka
A
delší úsečka
= Čebyševova vzdálenost
16
3. Minkowského metrika – zobecňuje vzdálenosti
d ( X , Y ) = A ( X i − Yi ) A A 0
17
3. Mahalanobisova vzdálenost
• respektuje různá měřítka
proměnných
• respektuje vztah (korelaci)
proměnných
• odpovídá Eucleidovské
vzdálenosti spočítané ze všech
hlavních komponent
(standardizovaných)
• používá se také pro identifikaci
odlehlých pozorování
d ( X , Y ) = ( X − Y )T S −1 ( X − Y )
S – kovarianční matice
X, Y – profily případů (proměnných)
18
Centroid – důležité pro vysvětlení Mahalanobisovy
vzdálenosti
› Průměrná pozice všech datových bodů ve všech směrech.
19
3. Mahalanobisova vzdálenost
20
ALE
› Pokud proložíme data chybovou elipsou (95%), bude bod 1 blíže
a bod 2 daleko.
souřadnice
bodů centroidy inverzní kovarianční
matice
21
3. Mahalanobisova vzdálenost
22
4. Matice vzdáleností
Proximity Matrix
Euclidean Distance
10: 11: 12: 13:
1:BU 2:CZ 3:DU 4:EG 5:ES 6:GB 7:HU 8:JA 9:PO RUS SLOV USA WG
1:BU ,000 1,107 1,588 1,726 1,092 1,215 1,089 1,957 1,033 1,177 1,158 1,324 1,759
2:CZ 1,107 ,000 1,351 1,298 ,814 1,150 ,588 1,673 ,424 ,672 ,409 1,137 1,454
3:DU 1,588 1,351 ,000 ,400 1,919 ,443 1,101 ,927 1,245 1,901 1,188 ,458 ,450
4:EG 1,726 1,298 ,400 ,000 1,929 ,668 1,139 1,129 1,239 1,885 1,118 ,601 ,468
5:ES 1,092 ,814 1,919 1,929 ,000 1,638 1,060 2,019 ,879 ,484 ,880 1,750 2,085
6:GB 1,215 1,150 ,443 ,668 1,638 ,000 ,950 1,039 1,007 1,611 1,026 ,435 ,703
7:HU 1,089 ,588 1,101 1,139 1,060 ,950 ,000 1,329 ,369 1,041 ,530 1,018 1,162
8:JA 1,957 1,673 ,927 1,129 2,019 1,039 1,329 ,000 1,457 2,054 1,449 1,262 1,123
9:PO 1,033 ,424 1,245 1,239 ,879 1,007 ,369 1,457 ,000 ,767 ,454 1,124 1,306
10:RUS 1,177 ,672 1,901 1,885 ,484 1,611 1,041 2,054 ,767 ,000 ,913 1,703 2,005
11:SLOV 1,158 ,409 1,188 1,118 ,880 1,026 ,530 1,449 ,454 ,913 ,000 1,065 1,333
12:USA 1,324 1,137 ,458 ,601 1,750 ,435 1,018 1,262 1,124 1,703 1,065 ,000 ,711
13:WG 1,759 1,454 ,450 ,468 2,085 ,703 1,162 1,123 1,306 2,005 1,333 ,711 ,000
23
4. Škály vstupních proměnných
› rozpětí <0;1>
𝑿−𝑿𝒎𝒊𝒏
– 𝑿𝒔 =
𝑿𝒎𝒂𝒙 −𝑿𝒎𝒊𝒏
› rozpětí <-1;1>
𝟐𝑿−(𝑿𝒎𝒂𝒙 +𝑿𝒎𝒊𝒏 )
– 𝑿𝒔 =
𝑿𝒎𝒂𝒙 −𝑿𝒎𝒊𝒏
› logistická funkce
𝟏
– 𝑿𝒔 =
𝟏+𝒆−𝒙
› arcus tangent
› jiné speciální transformace
25
4. Problém s korelovanými proměnnými (dimenzemi)
› Míry vzdálenosti jsou dobře použitelné při nezávisle proměnných.
• V praxi se vyskytují velmi zřídka.
› Korelované proměnné zkreslují vzdálenost.
• Lze přirovnat k váhám nezávisle proměnných.
› V praxi řeší metoda hlavních komponent (PCA – vizte přednáška 11) nebo
analýza korelační matice.
• Nejprve zredukuji dimenzionalitu problému (na menší počet
proměnných) a pak seskupím podle nových faktorů.
• Plný počet hlavních komponent odpovídá použití Mahalanobisovy
vzdálenosti.
26
5. Výstavba modelu
› Seskupování blízkých profilů
› Určení počtu klastrů
• definitoricky
• interpretačně
• dle využití dalšími procesy
• statistickými metodami
› Záznam řešení
• klastry popsány typickými profily – středy klastrů (centroidy, průměry
vstupních proměnných).
› Interpretace a analýza
27
6. Aplikace modelu
› Predikce příslušnosti nových případů ke klastrům
• nová data mají stejnou strukturu jako data pro utváření modelu
› Klastry jsou identifikovány umělými kategoriemi
• nominální
• klastry jsou v prostoru uspořádány, ale jejich vzájemnou polohu je obtížné zaznamenat
› Nové proměnné
• označení klastru
• vzdálenost od centra klastru
• někdy se připojují i profily center klastrů
28
Statistická analýza dat: Přednáška 10
Jindřich Špička
1
Program přednášky 10
1. Metody shlukové analýzy.
a) Hierarchické seskupování.
b) Metoda K-means.
c) Dvoustupňové seskupování (TwoStep Cluster).
2. Grafické výstupy shlukové analýzy.
3. Příklady.
2
Doporučené zdroje pro tuto přednášku
› Hierarchical Cluster Analysis [Simply explained] - YouTube
› k-Means Cluster Analysis - YouTube
3
Hierarchické seskupování
4
Hierarchické seskupování
• Hierarchické
– případy a později skupiny se slučují
postupně
– případ zařazený do určité skupiny
skupinu již skupinu neopustí
a následuje její osud
• Nejčastěji pro číselné proměnné, lze
i pro 0-1 proměnné.
• Pracuje s maticí vzdáleností mezi
případy.
• Vhodné pro menší soubory
(maximálně nižší desítky případů)
• Není nutné předem stanovit počet
skupin
– v jednom běhu lze získat řešení pro
různý počet skupin
• Transparentní
– postup seskupování lze dobře znázornit
5
Obecný postup
1. Nalezení dvojice případů nebo skupin s nejmenší vzdáleností.
2. Spojení dvojice případů nebo skupin do nové skupiny.
3. Přepočítání vzdáleností ostatních případů nebo skupin k nové skupině.
4. Kroky 1 až 3 se opakují, dokud nevznikne jedna skupina.
6
Počet klastrů
› Algoritmus poskytuje po skončení řešení pro různé počty klastrů.
› Vybereme řešení:
– s předem zvoleným počtem klastrů,
– s menším počtem klastrů tím, že provedeme další spojování klastrů,
– s ohledem na smysluplnou interpretaci výsledků.
› Po přiřazení nových případů je třeba model přepočítat.
7
Výpočet vzdálenosti
› Pro číselné proměnné:
– eukleidovská vzdálenost
– čtverec eukleidovské vzdálenosti
– Manhattanská, metrika městských bloků
– Čebyševova, supremální metrika
– Minkovského a uvolitelné metriky
– cosinus a korelační koeficient
› Pro četnosti:
– vzdálenosti založené na chí-kvadrátu
8
Hledání klastrů (seskupování bodů) – krokový postup
1. Vypočítáme matici vzdáleností body mezi sebou.
2. Hledáme nejbližší sousední body.
3. Tyto dva body seskupíme a nahradíme těžištěm skupiny
(centroid). Nadále již nepracujeme s původními body ale s
těžištěm skupiny.
4. Přepočítáme matici vzdáleností (každá další matice je vždy o
jeden řádek a jeden sloupec menší) a znovu hledáme nejbližší
sousedy, které nahradím těžištěm (bod 3).
5. Celý postup opakujeme.
9
Metoda seskupování – hledání vzdálenosti klastrů
Určení vzdáleností mezi skupinami.
› nejbližší soused (jednoduché spojení)
– nearest neighbor/simple linkage
– vzdálenost bodů, které jsou si nejblíže
› nejvzdálenější soused (úplné spojení)
– furthest neighbor/complete linkage
– vzdálenost bodů, které jsou si nejdále
› meziskupinové propojení (průměrové spojení) -
nejčastěji
– between-groups linkage/average linkage
– vzdálenost skupiny je určena průměrem vzdáleností mezi
všemi dvojicemi případů, kdy každý případ je z jiné skupiny
› vnitroskupinové propojení
– within-group linkage
– vzdálenost skupiny je určena průměrem vzdáleností mezi
všemi dvojicemi případů, bez ohledu z jaké jsou skupiny
(počítá i vzdálenosti mezi případy ze stejné skupiny)
10
Metoda seskupování – vzdálenost skupin
› Centroidová metoda
– vzdálenost skupin je dána váženou vzdáleností jejich
středů (centroid), váha je dána počtem případů ve
skupině
› Mediánová metoda
– vzdálenost skupin je dána prostou vzdáleností jejich
středů (centroid)
– uvažuje úsečku, která spojuje dvě těžiště, ale bere bod,
který je ve středu úsečky
› Wardova metoda – často používaná
– vzdálenost skupin je dána nárůstem vnitroskupinového
součtu čtverců sloučené skupiny oproti součtu čtverců
ve skupinách
– oblíbená v sociálních vědách – snaha minimalizovat
celkovou variabilitu uvnitř clusteru
11
Alternativní znázornění
12
Výhody a nevýhody metod shlukování
› Metoda nejbližšího souseda - problém s řetězením: spojují se
dva shluky, kde vzdálenost mezi dvěma objekty je nejmenší, ale
nemusí se jednat o nejbližší shluky.
– Tento problém řeší metoda nejvzdálenějšího souseda.
› Centroidová metoda – výhodou je menší náchylnost k ovlivnění
výsledných shluků extrémními či odlehlými objekty.
› Wardova metoda – výhodou je, že klade větší důraz na
minimalizaci heterogenity shluků.
13
Dendrogram
› Na svislé ose zcela nahoře jsou
objekty, které se spojovaly jako
první.
– například nejprve se spojovalo HU a PL
14
Vzdálenosti. Z tohoto sloupce vytvořím sloupcový
graf. Až do 7. kroku se vzdálenosti moc neliší a pak
Tabulka spojování už to začne narůstat více. Přerušíme to při prvním
velkém skoku, tj. zde v 9. nebo v 10. kroku.
› Extrémní případy.
– extrémní případy posouvají centra skupin nebo vytvářejí své mikro skupiny
– nutno zvětšit počet skupin nebo vyřadit extrémy se seskupování
17
Problémy - pokračování
› Volba důležitých proměnných a vhodných pro interpretaci.
– důležitost proměnných - test rozdílu proměnné mezi skupinami (ANOVA)
– skupiny konstruujeme, volíme proměnné, které vedou k srozumitelným
skupinám
18
Metoda K-means
relokační seskupování
19
Relokační seskupování – K-means
• Vychází ze čtverce
euklidovských vzdáleností.
• Hledáme určitý počet středů
klastrů, centroidů (k-means).
• Není hierarchické – případy
přecházejí mezi skupinami.
• Nutno dopředu stanovit počet
skupin.
• Vhodné pro větší soubory,
číselné i 0-1 proměnné.
• Skupiny jsou
charakterizovány:
– velikostí
– profilem – průměrnými
hodnotami proměnných ve
skupině (centroidy)
– rozložením proměnných ve
skupinách
• Zvolené řešení je nová
proměnná v datech. 20
K-means – přehled algoritmu
21
Iterativní metoda
22
Volba počtu klastrů
› Pseudo F (max)
› CCC (cubic clustering criterion, max)
› Vždy nutno kombinovat s vlastním úsudkem a
interpretovatelností výsledků!
VÝSTUP ALGORITMU Iteration Historya
Iteration 1 2 3 4
Přehled kroků metody.
1 1,958 2,544 2,072 1,846
Cluster
VÝSTUP ALGORITMU
1 2 3 4
A INTERPRETACE
Zscore: Procento lidí žijících ve -1,31 -,25 ,57 ,69
městech
Cluster 1 – rozvojové země.
Zscore: Průměrná délka života žen -1,80 -,08 ,22 ,77
Cluster 4 – inverzní ke clusteru 1
(rozvinuté země). Zscore: Procento lidí, kteří umí číst -1,62 -,05 -,23 ,80
Cluster 2 – lidnaté země. Zscore: Nárůst populace (% ročně) ,91 ,31 1,52 -,95
Cluster 3 – země s vysokým nárůst
populace. Zscore: Dětská úmrtnost (na tisíc 1,72 ,17 -,18 -,80
živých porodů)
26
VÝSTUP ALGORITMU
A INTERPRETACE
Grafický výstup
27
Dvoustupňové seskupování
(TwoStep Cluster).
28
Obecné vlastnosti
› Vhodné pro velmi velké soubory.
› Není nutné předem stanovit počet klastrů.
• v jednom běhu získáme řešení pro různý počet klastrů
• algoritmus může doporučit vhodný počet klastrů
› Zpracovává spojité i kategorizované proměnné.
• vzdálenost založena na věrohodnostní funkci
› Efektivně využívá paměť, výpočetně náročné.
› Dvě separovatelné fáze:
• pre-clustering – výpočetně efektivní seskupení případů do mnoha
malých skupin
• hierarchické klastrování – skupiny z předchozího kroku jsou
hierarchicky seskupeny
Dvě fáze seskupování
2. Hierarchické seskupování
• centroidy klastrů z prvního kroku vstupují jako jednotlivé
případy
• postupné slučování malých klastrů až vznikne jeden
Ukázka prvního kroku seskupení
31
Ukázka prvního kroku seskupení
32
Silueta 𝐵−𝐴
max(𝐴, 𝐵)
› Ukazatel kvality zařazení konkrétního případu.
A – vzdálenost případu od středu vlastního
› Průměrná silueta – celková kvalita modelu. clusteru
B – vzdálenost případu od středu nejbližšího
› Vyjadřuje o kolik je relativně případ blíž centru
jiného clusteru
své skupiny než nejbližší cizí.
– záporné hodnoty značí, že případ je blíž cizímu
Celé se to zprůměruje přes všechna
centru než vlastnímu pozorování.
B A
Ideální je, kdy jsou klastry vnitřně soudržné, ale vzájemně velmi33
odlišné.
Ukazatele stanovení
optimálního počtu shluků
34
Ukazatele pomáhající k nalezení optimálního počtu
shluků
› Daviesův-Bouldinův index
› RS (též R-kvadrát, RSQ index)
› RMSSTD (root-mean-square standard deviation index)
› CHF (pseudo F index)
› PTS (pseudo T-kvadrát index)
› Dunnův index
35
Implementované koeficienty v SW
36
Ukázka – 4 dobře separované shluky
37
Ukázka – 5 překrývajících se shluků
38
Poznámky ke shlukové analýze
39
Poznámky je shlukové analýze
› Každá metoda může odrážet jiné aspekty dat – vhodné je
porovnat více metod.
› Shluková analýza může být metodou navrhování hypotéz (např.
pro následnou ANOVA).
› Množina získaných klastrů není konečným výsledkem, ale pouze
možným návrhem struktury. Důležitá je zkušenost analytika.
› Nejprve je vhodné se podívat, zda jsou data vhodná pro
shlukovou analýzu:
– problém je žádný klastr (rovnoměrné rozložení bodů)
– problém je jeden velký klastr (vzájemná příbuznost údajů)
40
Statistická analýza dat: Přednáška 11
Jindřich Špička
1
Program přednášky 11
1. Zopakování kovariance a korelace.
2. Účel analýzy hlavních komponent.
3. Princip analýzy hlavních komponent.
4. Počáteční analýza.
5. Výpočet hlavních komponent.
6. Určení vhodného počtu hlavních komponent.
7. Výpočet komponentních zátěží a jejich vlastnosti.
8. Analýza výsledků – komponentní skóre.
9. Příklad.
2
Doporučené zdroje pro tuto přednášku
› Principal Component Analysis (PCA) - easy and practical
explanation – YouTube
› Principal Component Analysis Explained - YouTube
3
Účel analýzy hlavních komponent
› Redukce počtu proměnných pomocí tzv. hlavních komponent,
kterými popisuje variabilitu všech proměnných a vztahy mezi
nimi.
› Hlavní komponenty jsou „nové proměnné“, které vznikají lineární
kombinací původních proměnných. Komponenty nejsou
vzájemně korelované a není cílem je interpretovat.
› Počet komponent závisí na párové korelaci mezi původními
proměnnými.
– Nízká vzájemná korelace – velký počet komponent.
– Vysoká vzájemná korelace – malý počet komponent.
› Neexistuje rozdělení na závisle a nezávisle proměnné.
4
Autoři metody PCA
1901 30. léta 20. století
5
Princip PCA
› Cílem je z p proměnných Xi (manifestní proměnné) vytvořit nové
proměnné Zj (hlavní komponenty) které nejsou korelované.
› Každá z nových proměnných Zj má jinou vlastnost (dimenzi).
› Hlavní komponenty jsou uspořádány podle svého rozptylu:
6
Vztah proměnných – kovariance
- +
ഥ ∗ 𝒀𝒊 − 𝒀
σ 𝑿𝒊 − 𝑿 ഥ průměr
𝒄𝒐𝒗 𝒀, 𝒀 = Y
𝑵−𝟏
+ -
průměr
X
Korelační koeficient (Pearsonův)
› r je vypočten jako kovariance v poměru ke geometrickému průměru
rozptylů.
› Jmenovatel je také součin směrodatných odchylek sX*sY .
› r vyjadřuje míru lineární (podle přímky) závislosti dvou proměnných.
› r definován pro nenulové variability; nesmí platit sX = 0 nebo sY = 0
› r se nezmění, když se
– posune škála jedné nebo obou proměnných o libovolnou konstantu (změna
počátku)
– změní škála jedné nebo obou proměnných násobkem libovolnými činiteli (změna
měřítka
𝑐𝑜𝑣(𝑋, 𝑌) 𝑐𝑜𝑣(𝑋, 𝑌)
𝒓= 𝒓=
𝑣𝑎𝑟𝑋𝑣𝑎𝑟𝑌 𝒔𝒙 𝒔𝒚
Krok 1: Počáteční analýza
Proměnné
Jedinci x1 x2 … xp
1 x11 x12 … x1p
2 x21 x22 … x2p
… … … … …
n xn1 xn2 … xnp
10
Krok 2: Průzkum kovarianční nebo korelační matice
› Výběrová kovarianční matice
𝒙𝟏 𝒙𝟐 𝒙𝒑
𝒙𝟏 𝒔𝟐 (𝒙𝟏 ) 𝑐𝑜𝑣(𝑥1 𝑥2 ) … 𝑐𝑜𝑣(𝑥1 𝑥𝑝 )
𝒙𝟐 𝑐𝑜𝑣(𝑥1 𝑥2 ) 𝒔𝟐 (𝒙𝟐 ) … 𝑐𝑜𝑣(𝑥2 𝑥𝑝 )
… … … … …
𝒙𝒑 𝑐𝑜𝑣(𝑥1 𝑥𝑝 ) 𝑐𝑜𝑣(𝑥2 𝑥𝑝 ) … 𝒔𝟐 (𝒙𝒑 )
𝒙𝟏 𝒙𝟐 𝒙𝒑
𝒙𝟏 𝟏 𝑟(𝑥1 𝑥2 ) … 𝑟(𝑥1 𝑥𝑝 )
𝒙𝟐 𝑟(𝑥1 𝑥2 ) 𝟏 … 𝑟(𝑥2 𝑥𝑝 )
… … … … …
𝒙𝒑 𝑟(𝑥1 𝑥𝑝 ) 𝑟(𝑥2 𝑥𝑝 ) … 𝟏
12
Krok 2: Průzkum kovarianční nebo korelační matice
› Řešení získaná na základě výběrové korelační matice a
výběrové kovarianční matice se liší!
13
Krok 3: Výpočet hlavních komponent
› Hlavní komponenty = lineární kombinace původních
proměnných X
První komponenta – vysvětluje největší část z celkové variability (součtu
všech rozptylů původních proměnných).
První komponenta je přibližně přímka, která odpovídá fialovým značkám, protože prochází počátkem a je
to přímka, ve které je projekce bodů (červených teček) nejvíce rozprostřena.
Druhá hlavní komponenta se vypočítá stejným způsobem s podmínkou, že není korelovaná s první hlavní
komponentou a že představuje další nejvyšší rozptyl.
Takto se pokračuje, dokud se nevypočítá celkem p hlavních komponent, což se rovná původnímu počtu
proměnných.
16
Krok 3: Výpočet hlavních komponent
› Význam jednotlivých komponent je dán tím, jakou část celkové
variability (rozptylu) původních proměnných se jimi daří
vysvětlit.
– Jaká část ze součtu všech charakteristických čísel připadá na tu či onu
komponentu.
17
Krok 3: Určení vhodného počtu hlavních komponent
› Scree plot = sutinový graf (Cattell, 1966)
Charakteristická
čísla
4 komponenty
20
Krok 3: Výpočet komponentních zátěží
› Komponentní zátěž = korelace mezi původní proměnnou a
hlavní komponentou
– Čím vyšší, tím lépe komponenta vysvětluje původní proměnnou.
› Nutný krok, protože parametry různých hlavních komponent
nelze přímo porovnávat.
𝑣𝑗𝑘 𝑙𝑘 𝑣𝑗𝑘 𝑙𝑘
𝑤𝑗𝑘 = =
𝑠(𝑥𝑗 ) 𝑙𝑘 𝑠(𝑥𝑗 )
j = 1, 2, …, p původní proměnné
k = 1, 2, …, R
21
Krok 4: Analýza výsledků PCA - komunality
› Komunalita (communality) je poměrná část variability proměnné
Xi, která je vysvětlená identifikovanými hlavními komponentami.
– Hledáme proměnné s nejvyšší komunalitou.
22
Krok 4: Analýza výsledků PCA
› Komponentní skóre – výpočet skóre pro každou jednotku
(případ) ve výběrovém souboru
› Skóre první hlavní komponenty pro i-tou jednotku: dosadíme do
23
Příklad
Analýza hlavních komponent
24
Příklad
› Míry úmrtnosti na různé příčiny úmrtí v jednotlivých státech USA v
roce 2016. Soubor dat byl získán z Národního centra pro zdravotní
statistiku.
› 10 proměnných: Alzheimers, Chronic Lower Respiratory Diseases,
Cancer, Diabetes, HeartDis, FluPneum, Kidney, Stroke, Suicide,
Accidents.
› Pro každou proměnnou 52 pozorování (států USA). Nemáme
chybějící hodnoty.
› Cíl: redukce počtu příčin úmrtí do menšího počtu nových
proměnných (hlavních komponent).
› Počítáno z korelační matice.
25
Počáteční analýza – popisná statistika
26
Počáteční analýza – korelační matice
Součet = 10
Součet = 10
30
Odbočka: Výpočet při použití kovarianční matice
Součet = 1421,12
Odpovídá součtu rozptylů původních proměnných (hodnot na diagonále
předchozím slidu).
Individual percent = schopnost každé hlavní komponenty vysvětlit variabilitu v
datech 31
Určení počtu hlavních komponent
› Kaiserovo kritérium = hlavní komponenty s charakteristickými
čísly většími než 1 (poskytují více informací než 1 proměnná)
32
Výpočet vektoru charakteristických čísel
Vektory vlastních čísel (eigenvectors) = váhy, které vztahují původní proměnné v
normované podobě ke komponentům.
- Tyto koeficienty lze použít k určení relativního významu každé proměnné při tvorbě komponenty.
33
Výpočet komponentních zátěží
› Komponentní zátěže (component loadings) = korelace mezi
původními proměnnými a hlavními komponentami
34
Výpočet komunalit
Komunalita je podíl variability proměnné, který připadá na zachované hlavní komponenty.
Pokud bychom znázornili všechny hlavní komponenty (v tomto případě 10), byla by u každé proměnné
komunalita rovna 1.
(1-0,85) = 15 % variability
proměnné „Alzheimers“ má
vztah k ostatním hlavním
komponentám (PC4 až PC10).
= JEDINEČNOST
Chceme, aby byla co nejnižší.
35
Výpočet komponentních skórů
› Skóre je dostupné pro každé pozorování a každou hlavní
komponentu. Generovány jako nové proměnné softwarem.
› Lze je použít jako hodnoty nových proměnných (hlavních
komponent) pro navazující analýzu (např. vícenásobnou lineární
regresi).
𝑦1 = 𝛽0 + 𝛽1 𝑃𝐶𝑠𝑐𝑜𝑟𝑒11 + 𝛽2 𝑃𝐶𝑠𝑐𝑜𝑟𝑒12 + ⋯ + 𝛽𝑘 𝑃𝐶𝑠𝑐𝑜𝑟𝑒1𝑘 + 𝜀1
… … … …
𝑦𝑛 = 𝛽0 + 𝛽1 𝑃𝐶𝑠𝑐𝑜𝑟𝑒𝑛1 + 𝛽2 𝑃𝐶𝑠𝑐𝑜𝑟𝑒𝑛2 + ⋯ + 𝛽𝑘 𝑃𝐶𝑠𝑐𝑜𝑟𝑒𝑛𝑘 + 𝜀𝑛
36
Statistická analýza dat: Přednáška 12
Jindřich Špička
1
Program přednášky 12
1. Účel explorační faktorové analýzy.
2. Princip explorační faktorové analýzy.
3. Postup explorační faktorové analýzy.
4. Příklad – porovnání výsledků PCA a EFA.
2
Doporučené zdroje pro tuto přednášku
› Exploratory Factor Analysis - YouTube
3
Motivační příklad 1
› Testy znalostí, schopností, inteligence.
4
Motivační příklad 2
› Hodnocení konkurenčních značek v kategorii zboží
› Lidé posuzují značky A, B, C, … , F
› Které značky jsou hodnoceny podobně (jsou tedy silně konkurenční)
a které se v hodnocení odlišují (mohou být komplementární k různým
potřebám)?
› Jak jsou nákupy typů spolu korelovány?
5
Účel explorační faktorové analýzy
› Redukce počtu proměnných pomocí tzv. faktorů.
› Neexistuje rozdělení na závisle a nezávisle proměnné.
› Východiskem je výběrová korelační matice.
› Rozdíly od analýzy hlavních komponent:
– Faktory zpravidla nejsou vzájemně korelované, ale mohou být.
– Cílem je interpretovat faktory.
– Analýza hlavních komponent se soustředí na variabilitu původních proměnných
(diagonála kovarianční matice), faktorová analýza usiluje o vysvětlení závislostí
(korelační koeficienty nad a pod diagonálou).
– U faktorové analýzy hraje důležitou roli chybová složka (nevysvětlená část
modelu).
– Vychází ze statistického modelu s určitými předpoklady.
6
Cíle explorační faktorové analýzy
› Analyzovat korelace většího počtu proměnných tím, že se více
proměnných shlukuje tak, že většina proměnných v jednom
shluku spolu silně koreluje. Proměnné z různých shluků mezi
sebou zpravidla nekorelují (ale mohou, dle metody).
– Kolik různých faktorů je zapotřebí k vysvětlení vztahů mezi proměnnými?
› Interpretovat faktory podle toho, jaké proměnné obsahuje
příslušných shluk.
– V jakém vztahu jsou faktory k jednotlivým proměnným?
› Shrnout variabilitu proměnných pomocí několika málo faktorů.
7
Autoři metody PCA
1904
1947
Y1 e1
Y2 e2
F1
Y3 e3
Y4 e4
F2 Y5 e5
Y6 e6
Y = 𝚲𝐅 + 𝚬
11
Význam chybové složky ()
j = chyba rovnice, která obsahuje:
a) specifickou část položky Yj
b) chybu měření proměnné Yj
c) další vlivy nezahrnuté ve faktorech FR
d) odchylky modelu (linearita, aditivita, předpoklady)
Chyby rovnice jsou nekorelované mezi sebou i s faktory.
12
Vlastnosti faktorů
› Faktory mají nulový průměr a jednotkový rozptyl.
› Faktory jsou nezávislé (ortogonální)
– Korelace mezi faktory je nula.
– V praxi může být omezující např. typy inteligence spolu mohou souviset
– Lze odstranit speciální rotací (vizte dále).
› Faktory jsou nejednoznačné.
– Jednu korelační matici lze vysvětlit různými faktory a jim odpovídajícími
různými faktorovými zátěžemi.
– Vzájemně zaměnitelné faktory se získají rotací, která odpovídá geometricky
rotaci souřadnic. Výhodná vlastnost, která umožňuje faktory rotovat tak, aby
se daly snáze interpretovat.
› Více faktorů lépe vysvětlí korelační (kovarianční) matici, ale hůře
se interpretuje.
𝐅𝐅 𝑇 = 𝐈
13
Data
Předpoklady o datech:
a) data jsou číselná (metrická)
b) rozhodnutí: vstupem je odhadnutá korelační nebo kovarianční matice (doporučuje
se pracovat s korelační maticí)
c) korelační/kovarianční matice je pozitivně definitní
Chybějící data:
1. vynecháváme případy
2. nahrazujeme průměrem proměnné
3. nahrazujeme speciálními algoritmy
14
Postup EFA
1. Připravíme data.
2. Ověříme vhodnost dat pro analýzu.
3. Extrahujeme řešení (jedno z mnoha).
4. Najdeme první řešení.
5. Rotace faktorů (hledání optimálního řešení).
6. Interpretujeme faktory.
7. Odhadujeme hodnoty faktorů pro jednotlivé případy.
8. (… využijeme faktory pro další analýzu).
15
1. Příprava dat
› Vlastním vstupem je korelační matice.
– standardně se pracuje s Pearsonovou korelací
› Je třeba se vyvarovat zkreslení
koeficientu.
– sešikmené hodnoty
– extrémních hodnoty
– ordinální proměnné
› Transformace (sešikmení, extrém).
– logaritmus, Coxova transformace
– robustní odhad korelace – Spermanovo r,
Kendalovo t
16
2. Vhodnost dat
› Proměnné musejí být korelované
– Bartlettův test sféricity
› H0: R je jednotková (singulární) korelační matice
› Pro smysluplnou faktorovu analýzu je nutné H0 zamítnout.
› Korelace proměnných by měla být způsobena společnými faktory
(ostatními proměnnými) – parciální korelace by měly být nízké,
parciální korelační matice by měla být téměř diagonální.
– (KMO) MSA – measure sampling adequacy – čím více je korelace dané
proměnné s druhou zprostředkována jinými proměnnými, tím blíže k 1
› hodnoty do 0,5 se považují za nepřijatelné, hodnoty nad 0,8 za velmi dobré (Kaiser).
› proměnné s nepřijatelným MSA je vhodné z analýzy vyloučit.
– Celkové MSA – ukazatel za všechny proměnné, měl by být nad 0,8.
› Proměnná navázaná na jeden faktor, který se neváže s jinými
proměnnými, by měla být vyloučena.
17
3. Extrakce řešení – předpoklady a metody
Předpoklady modelu:
a) orthogonalita faktorů
b) standardizace faktorů
c) nezávislost chyb
d) pro metodu maximální věrohodnosti též nezávislost měření mezi případy,
nezávislost chyb mezi rovnicemi a normalita rozložení chyb
Metody:
› Analýza hlavních faktorů – princip PCA (nejčastěji používané, více než 50 % článků
ve společenskovědních odborných časopisech)
› Hlavní osy (faktory) – PAF (principal axis factoring)
› Maximální věrohodnost – Maximum likelihood estimation (MLE)
› Kombinace PCA a PAF.
18
3. Stanovení vhodného počtu latentních faktorů R
› Scree plot (stejně jako u analýzy hlavních komponent).
› Kaiserovo kritérium - Kaiser navrhl vyřadit faktory, jejichž
charakteristická čísla jsou menší než 1, protože ty nedosahují ani
variability původních proměnných.
› Počet faktorů: schopnost latentních faktorů vysvětlit alespoň 50-
70 % variability původních proměnných.
› Paralelní analýza – založena na simulaci hraniční hodnoty
charakteristických čísel pro různé počty hlavních komponent.
› Doporučuje se kombinace Scree plot a Kaiserova kritéria.
19
3. Odhad faktorových zátěží
› Počet odhadovaných parametrů modelu neodpovídá počtu
různých známých prvků korelační matice. Nutné zavést
dodatečnou podmínku.
𝐑 = 𝚲𝚲𝑇 + 𝚿
𝚺 = 𝚲𝚲𝑇 + 𝚿
22
3. Redukovaná korelační matice
› Korelační matici lze rozložit na dvě části:
– Redukovaná korelační matice pro latentní faktory – na diagonále jsou
komunality, nad a pod diagonálou jsou souvislosti mezi pozorovanými
proměnnými.
– Korelační matice chybových faktorů – na diagonále jsou chybové
rozptyly a ostatní prvky jsou rovny nule.
› Odhad redukované korelační matice pomocí:
– Vícenásobné korelační koeficienty pro normované pozorované
proměnné Zj (j = 1, 2, …, p) – na hlavní diagonále, a
– Lineární kombinace všech ostatních p-1 proměnných – párové korelační
koeficienty jsou mimo diagonálu.
23
3. Výpočet charakteristických čísel (eigenvalues)
› Metodou hlavních komponent určíme R největších charakteristických
čísel (eigenvalues) l1, l2, …, lR s odpovídajícími vektory
charakteristických čísel (eigenvectors) v1, v2, …, vR
› Odhad faktorových zátěží: 𝛾ො𝑗𝑘 = 𝑣𝑗𝑘 𝑙𝑘
– j = 1, 2, …, p (proměnné)
– R = 1, 2, …, R (latentní faktory)
› Faktorové zátěže uvádějí, jakou část variability proměnné X
vyjadřuje faktor F.
› Součet čtverců odhadnutých faktorových zátěží σ𝑅𝑘 𝛾ො𝑗𝑘
2 2
= σ𝑅𝑘 𝑣𝑗𝑘 𝑙𝑘 je
zpřesněním j-té komunality.
› Dosazením těchto hodnot na diagonálu matice R se zpřesní
redukovaná korelační matice.
24
4. Metoda hlavních faktorů
› Maximalizuje komunalitu faktoru u všech Y.
› Pracuje se se přímo s korelační (R) nebo kovarianční maticí (S), unicita yi je rovna 0
a výchozí komunalita je pro R rovna 1, pro S rozptylu
– Nejprve extrahuje první hlavní faktor, určený tak, že součet hi2 pro jeden společný faktor F1 je
maximálně možný.
– Po extrakci prvního faktoru se postupuje stejně pro druhý faktor F2 a takto sekvenčně až
do vyčerpání variability Y.
– V praxi je výpočet založen na extrakci vlastních čísel matice R nebo S.
+ výpočetně jednoduchá, vždy lze dosáhnout výsledku
– přínos faktoru k celkové variabilitě je roven jeho vlastnímu číslu (Kaiserovo pravidlo)
– odhady faktorů jsou ortogonální (faktory nekorelují)
- faktory replikují celou matici, včetně diagonály
– důležitější jsou ale mimodiagonální prvky (korelace)
– vynechání jedinečnosti omezuje možnost zachytit korelace
Existuje související ale samostatná analýza hlavních komponent (PCA). Slouží pro výpočet
ortogonálních transformací původních proměnných. Nezaměňovat (přednáška 8).
25
4. Alternativní metody odhadu faktorových zátěží
(kromě metody hlavních faktorů)
› Metoda maximální věrohodnosti (MLE)
– Pro odhadované parametry (faktorové zátěže a specifické rozptyly) je
stanovena věrohodnostní funkce a je maximalizován její logaritmus.
– Výhoda: komplexní odhad faktorových zátěží i komunalit a jedinečností
– Nevýhody: celkovou variabilitu nevysvětlí ani plný počet faktorů (metoda
pracuje hlavně s diagonálními prvky), odhady faktorů nemusejí být ortogonální
› Metoda hlavních os (PAF)
– Pracuje se se s redukovanou korelační nebo kovarianční maticí, která má
na diagonále komunalitu.
– Výhoda: komplexní odhad faktorových zátěží i komunalit a jedinečností
– Nevýhody: celkovou variabilitu nevysvětlí ani plný počet faktorů (metoda
pracuje hlavně s diagonálními prvky), odhady faktorů nemusejí být ortogonální
26
5. Rotace faktorových zátěží
› Problém faktorového modelu je skutečnost, že nevede k
jednoznačnému řešení.
27
5. Metody rotace faktorových zátěží
29
6. Interpretace faktorových zátěží
› Zvykové pravidlo (jedno z různých – nesmí být dogma!)
– koeficienty menší než .30 (minimální hodnota)
– koeficienty .30 až .40 slabě důležité
– koeficienty nad .50 jsou prakticky důležité
› Pásma: .30 až .50; .50 až .70; .70 až .90, a více než .90
(odpovídá 10%, 25%, 50%, 80% determinace)
› Pozor: přesto, že faktorové zátěže mají interpretaci korelačních
koeficientů, mají podstatně větší std. chybu odhadu
› Pozor: faktorové zátěže mají interpretaci korelačních koeficientů
pouze v případě, že faktory jsou vzájemně nekorelované
30
6. Interpretace faktorů
› Interpretace faktorů nebývá jednoznačná - je to nalezení jména
nové proměnné, nový pojem.
› Faktory jsou nové proměnné - vstupují do další analýzy
(korelace, regrese, ANOVA, seskupování).
› Často jsou základem profilů pro seskupování/segmentaci
důležitá vlastnost:
faktory syntetizují shodnou informaci do jedné proměnné
pro seskupování tak vyrovnávají nevyváženost
informačního rozložení u množiny proměnných
31
7. Odhadujeme hodnoty faktorů pro jednotlivé případy.
(faktorové skóre)
› Faktorové skóre – výpočet skóre pro každou jednotku (případ)
ve výběrovém souboru
› Při odhadu faktorových zátěží metodou hlavních faktorů, lze
použít Bartlettovu metodu
𝑝
𝑣𝑗𝑘 𝑧𝑖𝑗
𝑓𝑖𝑘 = k = 1, 2, …, R
𝑗
𝑙𝑘
› Získaná skóre lze použít pro navazující analýzu (např. lineární
regresní analýzu).
32
Příklad
Explorační faktorová analýza
33
Příklad
› Míry úmrtnosti na různé příčiny úmrtí v jednotlivých státech USA v
roce 2016. Soubor dat byl získán z Národního centra pro zdravotní
statistiku.
› 10 proměnných: Alzheimers, Chronic Lower Respiratory Diseases,
Cancer, Diabetes, HeartDis, FluPneum, Kidney, Stroke, Suicide,
Accidents.
› Pro každou proměnnou 52 pozorování (států USA). Nemáme
chybějící hodnoty.
› Cíl: redukce počtu příčin úmrtí do menšího počtu nových
proměnných (faktorů) a jejich interpretace.
› Počítáno z korelační matice. Rotace VARIMAX.
34
Počáteční analýza – popisná statistika
Komunality původních
se již nerovnají 1 (na
rozdíl od PCA).
V PCA jsou komunality vždy rovny 1 pro každou proměnnou, což znamená, že veškerá variabilita
původní proměnné je zahrnuta v hlavních komponentách.
V EFA může být variabilita každé proměnné vysvětlena jak společnými faktory (které jsou sdílené s
jinými proměnnými), tak také unikátními faktory (které jsou specifické pro danou proměnnou).
Proto komunality v EFA nemusí být vždy rovny 1, protože některá část variability původní
proměnné může být vysvětlena unikátními faktory.
35
Rozdílný přístup práce PCA a EFA s komunalitami
› Rozdíl mezi komunalitami v PCA a EFA odráží rozdílný cíl a
přístup těchto dvou metod k redukci dimenzionality dat. PCA
se zaměřuje na zachycení celkové variability, zatímco EFA se
snaží identifikovat skryté faktory, které by mohly vysvětlit
vzory korelací mezi proměnnými.
36
Počáteční analýza – korelační matice
ROTOVANÉ ŘEŠENÍ
Součet = 10
Součet = 6,477
Analýza hlavních komponent (nerotované řešení) = počet komponent je roven součtu charakteristických
čísel (vysvětlena celá variabilita)
Faktorová analýza (rotované řešení) = počet faktorů není roven součtu charakteristických čísel (vysvětlená
38
variabilita + nevysvětlená část modelu)
Určení počtu faktorů
› Kaiserovo kritérium = faktory s charakteristickými čísly většími
než 1 (poskytují více informací než 1 proměnná)
39
Výpočet vektoru charakteristických čísel
Vektory vlastních čísel (eigenvectors) = váhy, které vztahují původní proměnné v
normované podobě k faktorům.
- Tyto koeficienty lze použít k určení relativního významu každé proměnné při tvorbě komponenty.
40
Výpočet faktorových zátěží
› Faktorové zátěže (factor loadings) = korelace mezi původními
proměnnými a faktory
Výsledek PCA (nerotované řešení) Výsledek EFA (rotované řešení)
41
Porovnání výsledků PCA a EFA
ANALÝZA HLAVNÍCH KOMPONENT EXPLORAČNÍ FAKTOROVÁ ANALÝZA
(PCA) (EFA)
?
?
? ?
42
Výpočet komunalit
Komunalita je podíl variability proměnné, který připadá na identifikované
faktory.
43
Výpočet faktorových skórů
› Skóre je dostupné pro každé pozorování a každý faktor.
Generovány jako nové proměnné softwarem.
› Lze je použít jako hodnoty nových proměnných (hlavních
komponent) pro navazující analýzu (např. vícenásobnou lineární
regresi).
𝑦1 = 𝛽0 + 𝛽1 𝐹𝑠𝑐𝑜𝑟𝑒11 + 𝛽2 𝐹𝑠𝑐𝑜𝑟𝑒12 + ⋯ + 𝛽𝑘 𝐹𝑠𝑐𝑜𝑟𝑒1𝑘 + 𝜀1
Pozor
𝑦2 = 𝛽0 + 𝛽1 𝐹𝑠𝑐𝑜𝑟𝑒21 + 𝛽2 𝐹𝑠𝑐𝑜𝑟𝑒22 + ⋯ + 𝛽𝑘 𝐹𝑠𝑐𝑜𝑟𝑒2𝑘 + 𝜀2 odhady faktorů
nemusejí být
… … … … ortogonální
𝑦𝑛 = 𝛽0 + 𝛽1 𝐹𝑠𝑐𝑜𝑟𝑒𝑛1 + 𝛽2 𝐹𝑠𝑐𝑜𝑟𝑒𝑛2 + ⋯ + 𝛽𝑘 𝐹𝑠𝑐𝑜𝑟𝑒𝑛𝑘 + 𝜀𝑛
β = strukturní koeficienty
44