Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 45

REGRESNÁ

A KORELAČNÁ ANALÝZA

1
PREDNÁŠKA 8
 analýza závislostí medzi kvantitatívnymi znakmi
 regresná analýza
jednoduchá lineárna závislosť
regresný model
MNŠ
jednoduchá nelineárna závislosť
viacnásobná lineárna závislosť
 korelačná analýza
miery tesnosti závislosti

2
Úvod

Závislá
premenná Nezávislá

kvantitatívna
premenná

RaKA
kvantitatívn
a
kvantitatívna
kvantitatívna

3
Úvod
 Štatistická analýza závislostí
 skúmanie vzájomných vzťahov a závislostí medzi
jednotlivými hromadnými javmi
 hromadné javy neexistujú oddelene
 každý jav je výsledkom spolupôsobenia iných javov
 charakter a významnosť pôsobenia môžu byť rôzne
 predmetom skúmania sú príčinné (kauzálne) závislosti
 jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo
skupinu javov (účinok)

cm

kg 4
Úvod
 Typy závislostí
 príčinné
 ak jeden jav alebo skupina javov (príčina) vyvoláva iný jav alebo skupinu javov
(účinok)
 jednostranné - účinok nepôsobí spätne na príčinu
 obojstranné- účinok a príčina na seba trvalé vzájomne pôsobia
 združené
 nie sú to príčinné závislosti
 určitej hodnote, obmene jedného javu spravidla zodpovedá určitá hodnota,
obmena iného javu
 dĺžka ramien – výška jednotlivca
 zdanlivé
 vzťah medzi určitými javmi nie je dôsledkom ich vzájomnej príčinnej súvislosti
 je výsledkom pôsobenia ďalšieho javu alebo javov
 napr. výdavky na ovocie a výdavky na obuv

5
Opakom štatistickej závislosti je funkčná
závislosť

Y = f(X1 X2…... Xk ,Bo , B1 ,…., Bp)

kedy je závisle premenná veličina jednoznačne určená


funkčným vzťahom,
príklady z fyziky, chémie - takýto druh vzťahov nie je
predmetom štatistického skúmania

6
Nástroje analýzy závislostí
 Grafické - Bodový graf (XY graf)
 Úvodné preskúmanie vzťahov medzi premennými pomocou
bodového grafu

1 3

vzťah možno vzťah možno Presnú odpoveď


popísať priamkou popísať polynómom poskytne výpočet
štatistík RaKA
2 4

vzťah možno medzi premennými


7
popísať krivkou neexistuje jasný vzťah
Bodový graf
Bodový graf slúži na:
 úvodné preskúmanie vzťahov medzi dvomi premennými
 určenie extrémnych alebo typických hodnôt
 určenie možného tvaru závislosti
 porovnanie a prezentáciu výsledkov analýzy

Bodové grafy nám vždy slúžia na získanie základnej predstavy.


predstavy
Každý analytik však v grafe môže vidieť niečo iné. Presné
potvrdenie našich domnienok nám poskytnú až exaktné
štatistické nástroje.

8
Nástroje analýzy závislostí
 Štatistické – regresná a korelačná analýza
 sa zaoberá kvantifikáciou závislostí medzi kvantitatívnymi znakmi
 rieši dve úlohy
 regresnú úlohu
 popísanie priebehu tejto závislosti
 odhad funkčného vzťahu - matematickej funkcie podľa, ktorej sa mení závisle premenná
pri zmenách nezávisle premennej/premenných, t.j. výber funkcie a odhad jej parametrov
 korelačnú úlohu
 popísanie tesnosti závislostí
 výpočet charakteristík určujúcich do akej miery uvažované nezávislé premenné vysvetľujú
variabilitu závisle premennej

A B

9
Regresná analýza
 umožňuje popísať vzťah medzi dvoma alebo viacerými premennými
 cieľ regresnej analýzy
 odhadnúť funkčný vzťah medzi premennými
 odhadnúť parametre regresnej funkcie
 typy premenných v regresnej analýze
 závislé premenné
 označenie: Y
 sú v centre pozornosti, pretože ich variabilitu sa snažíme vysvetliť
 tzv. vysvetľované premenné
 nezávislé premenné
 označenie: X
 sú premenné, ktoré používame na vysvetlenie zmien v hodnotách
závislej premennej
 predpokladáme, že ich hodnoty sa nemenia
 tzv. vysvetľujúce premenné

10
Regresná analýza
 typy regresnej analýzy podľa počtu premenných
 jednoduchá regresia
 ak popisujeme závislosť jednej kvantitatívnej závislej premennej od
jednej kvantitatívnej nezávisle premennej
 viacnásobná regresia
 ak popisujeme závislosť jednej kvantitatívnej závislej
premennej od viacerých kvantitatívnych nezávislých
premenných
 typy regresnej analýzy podľa typu závislosti
 lineárna regresia
 ak popisujeme závislosť premenných pomocou priamky
 nelineárna regresia
 ak popisujeme závislosť premenných pomocou inej krivky
ako priamka

11
Model jednoduchej lineárnej regresie
 Popis závislosti v ZS
 rovnica modelu
Y = β 0 + β 1X + e X

1

Závisle premenná
kde
β

0
Y je závisle premenná
X je nezávisle premenná
β 0 je parameter modelu β 1 jednotiek
tzv. lokujúca konštanta,
konštanta
ktorá vyjadruje akú hodnotu 1 jednotka
nadobudne premenná Y, β 0
ak premenná X bude
Nezávisle premenná
mať hodnotu 0
β 1 je parameter modelu
tzv. regresný koeficient, ktorý vyjadruje sklon regresnej priamky.
Udáva o koľko jednotiek sa v priemere zmení Y, ak sa X zmení o 1 jednotku, β 1 >
pozitívna závislosť, β 1 < negatívna závislosť
12
Model jednoduchej lineárnej
regresie
Základný súbor Výberový súbor
Odhad modelu

závisle premenná

závislá premenná

nezávislá premenná nezávisle premenná

Y = β 0 + β 1X + ε
Y´ = b0 + b1X
µ Y = β 0 + β 1X
Y = est (µ Y)
b0 = est (β 0)
b1 = est (β 1)
13
Model jednoduchej lineárnej
regresie
 Metóda najmenších štvorcov (MNŠ)
 metóda odhadu parametrov regresnej modelu
 odhad MNŠ minimalizuje sumu štvorcov reziduálnych odchýlok
= rozdielov medzi skutočnou hodnotou a odhadnutou priamkou
 priamka odhadnutá MNŠ je ku všetkým skutočným hodnotám tak blízko ako sa
len dá
Závisle premenná

Y – Y´
∑ ( Y – Y´ ) = min

Y´ = b0 + b1X
14
Nezávisle premenná
Metóda najmenších štvorcov
 Predpoklady MNŠ
 priemery Y pre jednotlivé hodnoty X možno spojiť priamkou
 rozptyl premennej Y je konštantný - σ 2 pre všetky hodnoty
X
 premenná Y má normálne rozdelenie pre všetky hodnoty
X
 pozorovania Y sú navzájom nezávislé
 pozorovania X sú nenáhodné, navzájom nezávislé a bez
chýb v meraní

15
Metóda najmenších štvorcov
 Možno dokázať, že koeficienty bo , b1 , …, bp
určené MNŠ sú “najlepšie odhady” parametrov
β 0 , β 1 , …, β p ak súčasne o náhodných chybách platí:

E (ej ) = 0,
D (ej ) = E (ej2 ) = σ 2 ,
E(ej1 , ej2 ) = 0 , pre každé j1 ≠ j2
 slovne:
 od náhodných chýb požadujeme nulovú strednú hodnotu,
konštantný rozptyl a vzájomnú nezávislosť náhodných chýb
16
Vlastnosti MNŠ
 súčet štvorcov reziduálnych odchýlok je minimálny
n

∑ j j ) = min
( y
j=1
− y , 2

 súčet reziduálnych odchýlok je nulový


n

∑(y
j =1
j −y ) = 0
,
j

 regresná funkcia prechádza bodom o súradniciach x


ay
17
Použitie MNŠ
 MNŠ je možné použiť k odhadu parametrov
regresnej funkcie, ak:
 je regresná funkcia lineárna
 resp. lineárna v parametroch

 je možné regresnú funkciu pretransformovať na lineárnu

v parametroch

18
Nelineárna regresná a korelačná
analýza
 v praxi nielen lineárne funkcie, ale veľmi často má priebeh
nelineárny priebeh
 nelineárne funkcie je možné použiť s dvoma alebo viacerými
parametrami
 niektoré nelineárne regresné funkcie je možné vhodnou
transformáciou upraviť na lineárne v parametroch
 k odhadu ich parametrov je potom možné použiť metódou
najmenších štvorcov.

19
Nelineárna regresná a korelačná
analýza
 niektoré typy nelineárnych funkcií
b1
hyperbola y = b0 +
x
logaritmická funkcia y = b 0 + b1 . log x
parabola y = b 0 + b1 . x + b 2 . x 2

x
exponenciálna funkcia y = b0 . b1

mocninová funkcia y = b0 . x b1
20
Funkcia HYPERBOLY
substitúcia
b1
y′j = b0 +
xj
1
z=
x
y′j = b0 + b1 z j
21
LOGARITMICKÁ funkcia
substitúcia

y′j = b0 + b1. log x j


z = log x = LOG ( x) − excel
y′j = b0 + b1 z j

22
EXPONENCIÁLNA funkcia
logaritmická transformácia

xj
y′j = b0 .b 1 / . ln = LN ( ) − excel
ln y = ln b0 + x. ln b1
VSTUP:
VSTUP VÝSTUP:
VÝSTUP
ln y ln b0 ⇒ b0=EXP(lnb0)
x ln b1 ⇒ b0=EXP(lnb0)
23
MOCNINOVÁ funkcia
logaritmická transformácia

y′j = b0 .x b1
j / . ln = LN ( ) − excel
ln y = ln b0 + b1. ln x
VSTUP:
VSTUP VÝSTUP:
VÝSTUP
ln y ln b0 ⇒ b0=EXP(lnb0)
ln x b1
24
Korelačná analýza
 overenie vypovedacej schopnosti
kvantifikovaných regresných modelov ako
celku, aj jeho častí.
 výpočet číselných charakteristík,
charakteristík ktoré
v koncentrovanej forme popisujú kvalitu
vypočítaných modelov.
 požadujeme od nich, aby sa pohybovali v
pevne ohraničenom intervale,
 v rámci intervalu rástli s vyššou silou závislosti
25
Korelačná analýza
 porovnanie dvoch prípadov závislosti
 Ktorá závislosť bude tesnejšia?
y
y

x x
26
Korelačná analýza
 miery tesnosti štatistickej závislosti:
 koeficient korelácie ryx
 len pre lineárnu závislosť
 koeficient determinácie ryx2
 len pre lineárnu závislosť
 index korelácie iyx
 index determinácie iyx2

27
Korelačná analýza
 Index korelácie a index determinácie
 princíp spočíva v rozklade variability závisle
premennej Y
n n n

∑( y
j =1
j − y ) = ∑( y j ' − y ) + ∑( y j − y j ' )
2

j =1
2

j =1
2

Celková Variabilita
Variabilita závisle
variabilita nevysvetlená
premennej vysvetlená
závisle regresnou funkciou –
regresnou funkciou
premennej reziduálna variabilita
28
Korelačná analýza
index korelácie iyx

∑ j
(
j=1
y ' − y)2

V
i yx = n
=
C
∑ j
( y
j =1
− y)2

 index determinácia iyx 2

∑( y j − y j )
n
′ 2

C −N N j=1
i yx2
= =1 − =1 −
∑( y j − y)
n
C C 2

j=1 29
Korelačná analýza
 index korelácie
 hodnoty sa pohybujú v intervale od (0,1)
 čím sa hodnota indexu blíži k 1, tým je tesnosť závislosti vyššia
a opačne
 index determinácie
 nadobúda hodnoty z intervalu 0 až 1
 čím viac sa hodnota indexu blíži k 1, tým väčšia časť celkovej
variability je modelom vysvetlená a naopak
 ak sa index determinácie blíži k 0, tým menšia časť celkovej
variability je vysvetlená modelom

30
Korelačná analýza
 index determinácie
 kritérium pri rozhodovaní o voľbe konkrétneho tvaru regresnej funkcie
 volíme ten model,ktorý má vyšší koeficient determinácie (vyššie %
vysvetlenej variability)
 ak však majú regresné funkcie rôzny počet parametrov, je potrebné upraviť
index determinácie do korigovanej podoby v tvare:
 výrazný rozdiel medzi i2 a i2adj. indikuje, že do modelu bolo zahrnutých príliš
veľa premenných

(y )
n
( n −1) ∑ ′ 2
j −y j
j=1
i 2korig =1 −
(y j −y )2
n
( n −p) ∑
j=1
31
Korelačná analýza
 koeficient korelácie - ryx
cov yx
ryx =
s xs y
 hodnoty sa pohybujú v intervale: –1, 1
 ryx =-1 – silná negatívna závislosť
 ryx =0 – bez závislosti
 ryx =1 – silná pozitívna závislosť
 koeficient determinácie ryx 2
 hodnoty sa pohybujú v intervale: 0,1
 udáva % vysvetlenej variability závisle premennej 32
Overenie kvality modelu
 Testovanie významnosti modelu ako celku
 na základe rozkladu variability
 celková variabilita
 na koľko sa odchyľujú konkrétne hodnoty premennej Y od celkového
priemeru
 vysvetlená variabilita
 na koľko sa odchyľujú hodnoty na regresnej priamky od celkového
priemeru
 nevysvetlená variabilita
 na koľko sa odchyľujú skutočné hodnoty premennej Y od hodnôt
odhadnutých regresnou priamkou
 čím väčšia je vysvetlená variabilita v porovnaní s nevysvetlenou
variabilitou, tým lepšie odhadnutá
priamka modeluje závislosť premenných

33
Overenie kvality modelu
 Testovanie významnosti modelu ako celku
 Hypotézy: H0: model ako celok nie je významný
H1: model ako celok je významný
 Testovacia charakteristika
 porovnáva variabilitu vysvetlenú modelom a variabilitu nevysvetlenú modelom
 čím väčšia je variabilita vysvetlená modelom, tým lepšie model vystihuje závislosť medzi
závislou a nezávislou premennou

vysvetlená suma štvorcov priemerná suma


variabilita modelu štvorcov modelu
=F
nevysvetlená reziduálna priemerná reziduálna suma
variabilita suma štvorcov štvorcov

celková celková
variabilita suma štvorcov
34
Overenie kvality modelu
 Testovanie významnosti modelu ako celku
 pomocou rozkladu variability modelu
Závisle
premenná
Nevysvetlen
á
Celková variabilita
variabilita Vysvetlen
_ á
Y variabilita

Y´ = b0 + b1X

Nezávisle premenná 35
Overenie kvality modelu
 ANOVA – analýza rozptylu, ktorá sa využíva na verifikáciu
vypovedacej schopnosti modelu
stupne
Variabilita SŠO voľnosti rozptyl F

vysvetlená V = ∑ ( y′ − y )
n
V
p-1 s =
2
2
j y′
j =1 p− 1 s 2y′
F= 2
sr
N = ∑ ( y j − y′j )
n
2
n-p N
nevysvetlená s =
2
r
j= n n− p

.∑( y j − y )
n
celková
2
n-1
j =1
36
Overenie kvality modelu
 testovacie kritérium v tabuľke je možné využiť k súčasnému
testovaniu významnosti celého regresného modelu, indexu
determinácie aj indexu korelácie
 vypočítanú hodnotu F testu porovnávame s tabuľkovou F
hodnotou (Fischerove rozdelenie) pri (p-1) a (n – p) stupňov
voľnosti
 ak F < Ftab považujeme regresný model za nevýznamný,
podobne aj index determinácie a index korelácie
 ak F > Ftab považujeme regresný model za štatisticky významný,
podobne aj index determinácie a index korelácie

37
Test významnosti parametrov RF
 Testovanie významnosti parametrov modelu
H0: parametre regresnej funkcie sú štatisticky nevýznamné
β 0 = 0 β 1 = 0

H1: parametre regresnej funkcie sú štatisticky významné

β 0 ≠ 0 β 1 ≠ 0
Testovacia Záver:
charakteristika: p hodnota > α platí H0
t = b0/s(b0) parametre nie sú štatisticky významné

t = b1/s(b1) p hodnota < α platí H!


parametre sú štatisticky významné

38
Intervaly spoľahlivosti pre parametre RF
Intervalový odhad ľubovoľného parametra pre regresnú priamku
y ′j = b0 + b1 x j

vychádza z toho, že za predpokladov formulovaných klasickým lineárnym


modelom má veličina b −β
ti = i i

sbi

t rozdelenie s n – p stupňami voľnosti. Pri zvolenej spoľahlivosti 1 – α


je obojstranný interval spoľahlivosti pre parameter β 0
daný vzťahom

(
P b0 − t1−α 2.sb0 < β 0 < b0 + t1−α 2.sb0 = 1− α ) 39
Intervaly spoľahlivosti pre parametre RF
a pre parameter β 1

( )
P b1 − t1−α 2.sb1 < β1 < b1 + t1−α 2.sb1 = 1− α

40
Viacnásobná lineárna regresia
 Model s dvoma nezávislými premennými
 rozšírime najskôr model jednoduchej regresie o ďalšiu vysvetľujúcu premennú
 model lineárnej regresie s dvoma vysvetľujúcimi premennými

Y=β 0 + β 1 X1 + β 2 X2 + e
kde
Y je závislá premenná
X1 a X2 sú nezávislé, vysvetľujúce premenné
e je náhodná zložka
β 0, β 1, a β 2 sú neznáme parametre modelu

41
Viacnásobná lineárna regresia
 Všeobecný model viacnásobnej regresie
 modeluje závislosť vysvetľovanej premennej ako výsledok jej
lineárnej závislosti od k nezávislých premenných
 Y = β 0 + β 1X1 + … + β kXk + e
 model vyjadruje vzťah medzi k premennými
 na jeho grafickú prezentáciu by sme potrebovali k-rozmerný priestor
 model má p=k+1 parametrov
 k - regresných koeficientov
 lokujúcu konštantu β 0

42
Regresný výstup v EXCELI

43
Regresný výstup v EXCELI

44
ĎAKUJEM ZA POZORNOSŤ

45

You might also like