Professional Documents
Culture Documents
Statistics
Statistics
A KORELAČNÁ ANALÝZA
1
PREDNÁŠKA 8
analýza závislostí medzi kvantitatívnymi znakmi
regresná analýza
jednoduchá lineárna závislosť
regresný model
MNŠ
jednoduchá nelineárna závislosť
viacnásobná lineárna závislosť
korelačná analýza
miery tesnosti závislosti
2
Úvod
Závislá
premenná Nezávislá
kvantitatívna
premenná
RaKA
kvantitatívn
a
kvantitatívna
kvantitatívna
3
Úvod
Štatistická analýza závislostí
skúmanie vzájomných vzťahov a závislostí medzi
jednotlivými hromadnými javmi
hromadné javy neexistujú oddelene
každý jav je výsledkom spolupôsobenia iných javov
charakter a významnosť pôsobenia môžu byť rôzne
predmetom skúmania sú príčinné (kauzálne) závislosti
jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo
skupinu javov (účinok)
cm
kg 4
Úvod
Typy závislostí
príčinné
ak jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov
(účinok)
jednostranné - účinok nepôsobí spätne na príčinu
obojstranné- účinok a príčina na seba trvalé vzájomne pôsobia
združené
nie sú to príčinné závislosti
určitej hodnote, obmene jedného javu spravidla zodpovedá určitá hodnota,
obmena iného javu
dĺžka ramien – výška jednotlivca
zdanlivé
vzťah medzi určitými javmi nie je dôsledkom ich vzájomnej príčinnej súvislosti
je výsledkom pôsobenia ďalšieho javu alebo javov
napr. výdavky na ovocie a výdavky na obuv
5
Opakom štatistickej závislosti je funkčná
závislosť
6
Nástroje analýzy závislostí
Grafické - Bodový graf (XY graf)
Úvodné preskúmanie vzťahov medzi premennými pomocou
bodového grafu
1 3
8
Nástroje analýzy závislostí
Štatistické – regresná a korelačná analýza
sa zaoberá kvantifikáciou závislostí medzi kvantitatívnymi znakmi
rieši dve úlohy
regresnú úlohu
popísanie priebehu tejto závislosti
odhad funkčného vzťahu - matematickej funkcie podľa, ktorej sa mení závisle premenná
pri zmenách nezávisle premennej/premenných, t.j. výber funkcie a odhad jej parametrov
korelačnú úlohu
popísanie tesnosti závislostí
výpočet charakteristík určujúcich do akej miery uvažované nezávislé premenné vysvetľujú
variabilitu závisle premennej
A B
9
Regresná analýza
umožňuje popísať vzťah medzi dvoma alebo viacerými premennými
cieľ regresnej analýzy
odhadnúť funkčný vzťah medzi premennými
odhadnúť parametre regresnej funkcie
typy premenných v regresnej analýze
závislé premenné
označenie: Y
sú v centre pozornosti, pretože ich variabilitu sa snažíme vysvetliť
tzv. vysvetľované premenné
nezávislé premenné
označenie: X
sú premenné, ktoré používame na vysvetlenie zmien v hodnotách
závislej premennej
predpokladáme, že ich hodnoty sa nemenia
tzv. vysvetľujúce premenné
10
Regresná analýza
typy regresnej analýzy podľa počtu premenných
jednoduchá regresia
ak popisujeme závislosť jednej kvantitatívnej závislej premennej od
jednej kvantitatívnej nezávisle premennej
viacnásobná regresia
ak popisujeme závislosť jednej kvantitatívnej závislej
premennej od viacerých kvantitatívnych nezávislých
premenných
typy regresnej analýzy podľa typu závislosti
lineárna regresia
ak popisujeme závislosť premenných pomocou priamky
nelineárna regresia
ak popisujeme závislosť premenných pomocou inej krivky
ako priamka
11
Model jednoduchej lineárnej regresie
Popis závislosti v ZS
rovnica modelu
Y = β 0 + β 1X + e X
+β
1
Závisle premenná
kde
β
0
Y je závisle premenná
X je nezávisle premenná
β 0 je parameter modelu β 1 jednotiek
tzv. lokujúca konštanta,
konštanta
ktorá vyjadruje akú hodnotu 1 jednotka
nadobudne premenná Y, β 0
ak premenná X bude
Nezávisle premenná
mať hodnotu 0
β 1 je parameter modelu
tzv. regresný koeficient, ktorý vyjadruje sklon regresnej priamky.
Udáva o koľko jednotiek sa v priemere zmení Y, ak sa X zmení o 1 jednotku, β 1 >
pozitívna závislosť, β 1 < negatívna závislosť
12
Model jednoduchej lineárnej
regresie
Základný súbor Výberový súbor
Odhad modelu
závisle premenná
závislá premenná
Y = β 0 + β 1X + ε
Y´ = b0 + b1X
µ Y = β 0 + β 1X
Y = est (µ Y)
b0 = est (β 0)
b1 = est (β 1)
13
Model jednoduchej lineárnej
regresie
Metóda najmenších štvorcov (MNŠ)
metóda odhadu parametrov regresnej modelu
odhad MNŠ minimalizuje sumu štvorcov reziduálnych odchýlok
= rozdielov medzi skutočnou hodnotou a odhadnutou priamkou
priamka odhadnutá MNŠ je ku všetkým skutočným hodnotám tak blízko ako sa
len dá
Závisle premenná
Y – Y´
∑ ( Y – Y´ ) = min
Y´ = b0 + b1X
14
Nezávisle premenná
Metóda najmenších štvorcov
Predpoklady MNŠ
priemery Y pre jednotlivé hodnoty X možno spojiť priamkou
rozptyl premennej Y je konštantný - σ 2 pre všetky hodnoty
X
premenná Y má normálne rozdelenie pre všetky hodnoty
X
pozorovania Y sú navzájom nezávislé
pozorovania X sú nenáhodné, navzájom nezávislé a bez
chýb v meraní
15
Metóda najmenších štvorcov
Možno dokázať, že koeficienty bo , b1 , …, bp
určené MNŠ sú “najlepšie odhady” parametrov
β 0 , β 1 , …, β p ak súčasne o náhodných chybách platí:
E (ej ) = 0,
D (ej ) = E (ej2 ) = σ 2 ,
E(ej1 , ej2 ) = 0 , pre každé j1 ≠ j2
slovne:
od náhodných chýb požadujeme nulovú strednú hodnotu,
konštantný rozptyl a vzájomnú nezávislosť náhodných chýb
16
Vlastnosti MNŠ
súčet štvorcov reziduálnych odchýlok je minimálny
n
∑ j j ) = min
( y
j=1
− y , 2
∑(y
j =1
j −y ) = 0
,
j
v parametroch
18
Nelineárna regresná a korelačná
analýza
v praxi nielen lineárne funkcie, ale veľmi často má priebeh
nelineárny priebeh
nelineárne funkcie je možné použiť s dvoma alebo viacerými
parametrami
niektoré nelineárne regresné funkcie je možné vhodnou
transformáciou upraviť na lineárne v parametroch
k odhadu ich parametrov je potom možné použiť metódou
najmenších štvorcov.
19
Nelineárna regresná a korelačná
analýza
niektoré typy nelineárnych funkcií
b1
hyperbola y = b0 +
x
logaritmická funkcia y = b 0 + b1 . log x
parabola y = b 0 + b1 . x + b 2 . x 2
x
exponenciálna funkcia y = b0 . b1
mocninová funkcia y = b0 . x b1
20
Funkcia HYPERBOLY
substitúcia
b1
y′j = b0 +
xj
1
z=
x
y′j = b0 + b1 z j
21
LOGARITMICKÁ funkcia
substitúcia
22
EXPONENCIÁLNA funkcia
logaritmická transformácia
xj
y′j = b0 .b 1 / . ln = LN ( ) − excel
ln y = ln b0 + x. ln b1
VSTUP:
VSTUP VÝSTUP:
VÝSTUP
ln y ln b0 ⇒ b0=EXP(lnb0)
x ln b1 ⇒ b0=EXP(lnb0)
23
MOCNINOVÁ funkcia
logaritmická transformácia
y′j = b0 .x b1
j / . ln = LN ( ) − excel
ln y = ln b0 + b1. ln x
VSTUP:
VSTUP VÝSTUP:
VÝSTUP
ln y ln b0 ⇒ b0=EXP(lnb0)
ln x b1
24
Korelačná analýza
overenie vypovedacej schopnosti
kvantifikovaných regresných modelov ako
celku, aj jeho častí.
výpočet číselných charakteristík,
charakteristík ktoré
v koncentrovanej forme popisujú kvalitu
vypočítaných modelov.
požadujeme od nich, aby sa pohybovali v
pevne ohraničenom intervale,
v rámci intervalu rástli s vyššou silou závislosti
25
Korelačná analýza
porovnanie dvoch prípadov závislosti
Ktorá závislosť bude tesnejšia?
y
y
x x
26
Korelačná analýza
miery tesnosti štatistickej závislosti:
koeficient korelácie ryx
len pre lineárnu závislosť
koeficient determinácie ryx2
len pre lineárnu závislosť
index korelácie iyx
index determinácie iyx2
27
Korelačná analýza
Index korelácie a index determinácie
princíp spočíva v rozklade variability závisle
premennej Y
n n n
∑( y
j =1
j − y ) = ∑( y j ' − y ) + ∑( y j − y j ' )
2
j =1
2
j =1
2
Celková Variabilita
Variabilita závisle
variabilita nevysvetlená
premennej vysvetlená
závisle regresnou funkciou –
regresnou funkciou
premennej reziduálna variabilita
28
Korelačná analýza
index korelácie iyx
∑ j
(
j=1
y ' − y)2
V
i yx = n
=
C
∑ j
( y
j =1
− y)2
∑( y j − y j )
n
′ 2
C −N N j=1
i yx2
= =1 − =1 −
∑( y j − y)
n
C C 2
j=1 29
Korelačná analýza
index korelácie
hodnoty sa pohybujú v intervale od (0,1)
čím sa hodnota indexu blíži k 1, tým je tesnosť závislosti vyššia
a opačne
index determinácie
nadobúda hodnoty z intervalu 0 až 1
čím viac sa hodnota indexu blíži k 1, tým väčšia časť celkovej
variability je modelom vysvetlená a naopak
ak sa index determinácie blíži k 0, tým menšia časť celkovej
variability je vysvetlená modelom
30
Korelačná analýza
index determinácie
kritérium pri rozhodovaní o voľbe konkrétneho tvaru regresnej funkcie
volíme ten model,ktorý má vyšší koeficient determinácie (vyššie %
vysvetlenej variability)
ak však majú regresné funkcie rôzny počet parametrov, je potrebné upraviť
index determinácie do korigovanej podoby v tvare:
výrazný rozdiel medzi i2 a i2adj. indikuje, že do modelu bolo zahrnutých príliš
veľa premenných
(y )
n
( n −1) ∑ ′ 2
j −y j
j=1
i 2korig =1 −
(y j −y )2
n
( n −p) ∑
j=1
31
Korelačná analýza
koeficient korelácie - ryx
cov yx
ryx =
s xs y
hodnoty sa pohybujú v intervale: –1, 1
ryx =-1 – silná negatívna závislosť
ryx =0 – bez závislosti
ryx =1 – silná pozitívna závislosť
koeficient determinácie ryx 2
hodnoty sa pohybujú v intervale: 0,1
udáva % vysvetlenej variability závisle premennej 32
Overenie kvality modelu
Testovanie významnosti modelu ako celku
na základe rozkladu variability
celková variabilita
na koľko sa odchyľujú konkrétne hodnoty premennej Y od celkového
priemeru
vysvetlená variabilita
na koľko sa odchyľujú hodnoty na regresnej priamky od celkového
priemeru
nevysvetlená variabilita
na koľko sa odchyľujú skutočné hodnoty premennej Y od hodnôt
odhadnutých regresnou priamkou
čím väčšia je vysvetlená variabilita v porovnaní s nevysvetlenou
variabilitou, tým lepšie odhadnutá
priamka modeluje závislosť premenných
33
Overenie kvality modelu
Testovanie významnosti modelu ako celku
Hypotézy: H0: model ako celok nie je významný
H1: model ako celok je významný
Testovacia charakteristika
porovnáva variabilitu vysvetlenú modelom a variabilitu nevysvetlenú modelom
čím väčšia je variabilita vysvetlená modelom, tým lepšie model vystihuje závislosť medzi
závislou a nezávislou premennou
celková celková
variabilita suma štvorcov
34
Overenie kvality modelu
Testovanie významnosti modelu ako celku
pomocou rozkladu variability modelu
Závisle
premenná
Nevysvetlen
á
Celková variabilita
variabilita Vysvetlen
_ á
Y variabilita
Y´ = b0 + b1X
Nezávisle premenná 35
Overenie kvality modelu
ANOVA – analýza rozptylu, ktorá sa využíva na verifikáciu
vypovedacej schopnosti modelu
stupne
Variabilita SŠO voľnosti rozptyl F
vysvetlená V = ∑ ( y′ − y )
n
V
p-1 s =
2
2
j y′
j =1 p− 1 s 2y′
F= 2
sr
N = ∑ ( y j − y′j )
n
2
n-p N
nevysvetlená s =
2
r
j= n n− p
.∑( y j − y )
n
celková
2
n-1
j =1
36
Overenie kvality modelu
testovacie kritérium v tabuľke je možné využiť k súčasnému
testovaniu významnosti celého regresného modelu, indexu
determinácie aj indexu korelácie
vypočítanú hodnotu F testu porovnávame s tabuľkovou F
hodnotou (Fischerove rozdelenie) pri (p-1) a (n – p) stupňov
voľnosti
ak F < Ftab považujeme regresný model za nevýznamný,
podobne aj index determinácie a index korelácie
ak F > Ftab považujeme regresný model za štatisticky významný,
podobne aj index determinácie a index korelácie
37
Test významnosti parametrov RF
Testovanie významnosti parametrov modelu
H0: parametre regresnej funkcie sú štatisticky nevýznamné
β 0 = 0 β 1 = 0
β 0 ≠ 0 β 1 ≠ 0
Testovacia Záver:
charakteristika: p hodnota > α platí H0
t = b0/s(b0) parametre nie sú štatisticky významné
38
Intervaly spoľahlivosti pre parametre RF
Intervalový odhad ľubovoľného parametra pre regresnú priamku
y ′j = b0 + b1 x j
sbi
(
P b0 − t1−α 2.sb0 < β 0 < b0 + t1−α 2.sb0 = 1− α ) 39
Intervaly spoľahlivosti pre parametre RF
a pre parameter β 1
( )
P b1 − t1−α 2.sb1 < β1 < b1 + t1−α 2.sb1 = 1− α
40
Viacnásobná lineárna regresia
Model s dvoma nezávislými premennými
rozšírime najskôr model jednoduchej regresie o ďalšiu vysvetľujúcu premennú
model lineárnej regresie s dvoma vysvetľujúcimi premennými
Y=β 0 + β 1 X1 + β 2 X2 + e
kde
Y je závislá premenná
X1 a X2 sú nezávislé, vysvetľujúce premenné
e je náhodná zložka
β 0, β 1, a β 2 sú neznáme parametre modelu
41
Viacnásobná lineárna regresia
Všeobecný model viacnásobnej regresie
modeluje závislosť vysvetľovanej premennej ako výsledok jej
lineárnej závislosti od k nezávislých premenných
Y = β 0 + β 1X1 + … + β kXk + e
model vyjadruje vzťah medzi k premennými
na jeho grafickú prezentáciu by sme potrebovali k-rozmerný priestor
model má p=k+1 parametrov
k - regresných koeficientov
lokujúcu konštantu β 0
42
Regresný výstup v EXCELI
43
Regresný výstup v EXCELI
44
ĎAKUJEM ZA POZORNOSŤ
45