Professional Documents
Culture Documents
8 - Regresija I Korelacija
8 - Regresija I Korelacija
8 - Regresija I Korelacija
379-546
U velikom se broju istraivanja analizira statistikih varijabli s ciljem da se utvrdi. dvije ili vie
postoji li povezanost meu varijablama jakost veze moe li se varijabla koja je predmet statistike analize prognozirati pomou opaenih vrijednosti druge varijable (drugih varijabli) Regresijska se analiza bavi ispitivanjem ovisnosti jedne varijable o jednoj ili vie nezavisnih varijabli s ciljem da se utvrdi analitiki izraz takve povezanosti, odnosno model koji slui u analitike i prediktivne svrhe. Model moe povezivati dvije varijable (bivariatna veza) ili vie varijabli (multivariatna veza). Model moe biti deterministiki (stohastiki, probabilistiki). (funkcionalan) ili statistiki
Deterministikim se modelom pretpostavlja egzaktna veza meu varijablama (za svaku vrijednost nezavisne varijable jednoznano je odreena vrijednost zavisne varijable). Y=f(X) Statistiki model izraava labaviju vezu meu varijablama. Vrijednost zavisne varijable (Y) nije jednoznano odreena za zadanu vrijednost nezavisne varijable. Postoje neobjanjene varijacije Y-a zbog neukljuivanja varijabli koje utjeu na ponaanje zavisne varijable ili zbog sluajnih utjecaja. Y= deterministika komponenta+sluajna pogreka
Yi
Xi
ei
1,2,..., n
Pretpostavlja se da za svaku vrijednost varijable X postoji distribucija vrijednosti varijable Y. U gornjem su izrazu: nepoznati parametri ,
ei , i
nepoznate sluajne varijable za koje se pretpostavlja da su meusobno nezavisne i normalno distribuirane sluajne varijable sa sredinom nula i varijancom
2
, tj. e i ~ N (0,
) E (e i e j )
U klasinoj regresijskoj analizi pretpostavlja se da je varijabla X nestohasika (tj da u ponovljenim uzorcima ima fiksne vrijednosti .
E (Yi )
E(
Xi
ei ) Xi
Xi
E (ei )
2
Xi
ei ) Var (ei )
Koraci u analizi modela jednostavne linearne regresije: Pretpostavlja se linearna regresijska veza meu varijablama Y i X, pri emu je model populacije:
yi
xi
ei
Polazei od n empirijskih (opaenih) vrijednosti varijabli x i y (koje se smatraju uzorkom iz hipotetike populacije) crta se dijagram rasipanja. Nepoznati se parametri procjenjuju metodom najmanjih kvadrata. Raunaju se procjene pokazatelja reprezentativnosti modela, kao to su procjena varijance, standardne devijacije i koeficijenta varijacije regresije, koeficijent determinacije, koeficijent korelacije i dr. Ispituje se kakvoa i upotrebljivost dobivenih rezultata. Raunaju se elementi analize varijance, testiraju se hipoteze o parametrima u
regresijskom modelu, te se ispituje jesu li ispunjene polazne pretpostavke o modelu. Ako je model zadovoljavajui, procjenjivanje i dr. koristi se za predvianje,
PROCJENJIVANJE PARAMETARA: METODA NAJMANJIH KVADRATA Metoda najmanjih kvadrata sastoji se u odreivanju regresijskog pravca koji minimizira sumu kvadrata rezidualnih odstupanja. Model uzorka s procijenjenim parametrima glasi:
yi
x i
i e
i su rezidualna odstupanja pri emu su i procjene parametara, a e ili procjene sluajnih varijabli. Gornja se jednadba moe napisati u obliku:
yi
i y
i e
i oznaena i-ta procijenjena ili regresijska vrijednost zavisne gdje je s y varijable. Iz tog izraza slijedi:
i e
yi
i , e i y
yi
x ) i
SR
i 1
i2 e
( yi
i 1
x ) 2 i
Iz zahtjeva da ta suma bude minimalna dolazi se do normalnih jednadbi za procjenitelje metodom najmanjih kvadrata:
n
xi y i
i 1 n i 1
nx y , y nx 2
xi2
y
Regresijske vrijednosti su:
x i
i y
1,2,..., n
( yi
i 1
i )2 y
n 2
(procijenjena
( yi
i 1
i )2 y
,
n 2
): V
100 y
INTERPRETACIJA PROCJENA
Konstantni lan (intercept) nezavisne varijable x=0.
Regresijski koeficijent je promjena regresijske vrijednosti zavisne varijable za jedinino poveanje varijable x. Ili: Regresijski koeficijent je prosjena promjena zavisne varijable y za jedinino poveanje varijable x. Regresijske vrijednosti zavisne
i , i y
xi , i
i , i Rezidualna odstupanja e
na osnovi regresijskih vrijednosti.
ei , i
1,2,, n
Procjena varijance 2 , procjena standardne devijacije i procjena koeficijenta varijacije C.V su mjere disperzije regresijskog modela. Procjena standardne devijacije regresije se interpretira kao prosjeno odstupanje empirijskih od regresijskih vrijednosti. Model je dobar ako su procjene varijance i standardne devijacije male. Procjena standardne devijacije regresije izraena je u istim mjernim jedinicama kao i vrijednosti zavisne varijable. Procjena koeficijenta varijacije je relativna mjera disperzije oko regresijskog pravca. JEDNADBA ANALIZE VARIJANCE. TABELA ANOVA
Odstupanje empirijske vrijednosti y i od prosjeka moe se ralaniti na protumaeno odstupanje (odstupanje odgovarajue regresijske vrijednosti od prosjeka) i neprotumaeno ili rezidualno odstupanje:
( yi
y)
i (y
y) ( yi
i ) i y
1,2,, n
S obzirom da je suma odstupanja pojedinanih vrijednosti varijable od prosjeka uvijek jednaka nuli:
n
( yi
i 1
y)
0,
( yi
i 1
y)
n i 1
i (y
y)
( yi
i 1
i )2 y
Dobivena se jednadba zove jednadba analize varijance. Njene su komponente: Ukupna suma kvadrata ST (The total sum of squares, corrected sum of squares SSy y):
n
ST
i 1
( yi
y)2
Protumaena suma kvadrata SP (the sum of regression due to the linear regresion, model, explained sum of squares SSR) je suma kvadrata odstupanja regresijskih vrijednosti od prosjeka:
n
SP
i 1
( yi
y)2
Suma kvadrata neprotumaenih ili rezidualnih odstupanja SR (residual, unexplained sum of squares, sum of squared errors, SSE):
n
SR
i 1
( yi
i )2 y
Elementi analize varijance (jednostavna regresija) predoeni su u tabeli analize varijance (tabeli ANOVA):
Izvor varijacije Stupnjevi slobode DF 1 n-2 n-1 Sume kvadrata SS SP SR ST Sredine kvadrata MS SP/1 SR/(n-2) F-omjer PROB>F
SP / 1 SR /(n 2)
SR je n 2
SR n 2
je nepristrani procjenitelj standardne devijacije regresije - Root MSE, SP je koeficijent determinacije, R-Square; r2 ST r 2 je korigirani koeficijent determinacije Adj R-Sq; KOEFICIJENT DETERMINACIJE, KORIGIRANI KOEFICIJENT DETERMINACIJE, KOEFICIJENT KORELACIJE Koeficijent determinacije (Coefficient of determination) je proporcija varijacija iz uzorka protumaena linearnom regresijskom vezom:
n
i (y ( yi
y)2 , y)
2
r2
i 1 n i 1
r2
Interpretacija: 100( r 2 )% varijacija iz uzorka (mjerenih sumom kvadrata ukupnih odstupanja empirijskih vrijednosti od prosjeka) moe se protumaiti uporabom x-a za procjenu (predvianje) y-a u modelu jednostavne linearne regresije. Korigirani koeficijent determinacije (corrected coefficient of determination) je mjera reprezentativnosti modela koja se izraunava korigiranjem koeficijenta determinacije faktorom koji ovisi o broju stupnjeva slobode:
r2
n 1 (1 r 2 ) n 2
Koeficijent linearne korelacije (coefficient of linear corelation) je mjera jakosti i smjera linearne veze izmeu varijabli x i y. Definiran je izrazom:
n
Cov ( x , y )
x y
xi yi , r
i 1 n
nx y
n
, y
2 i
1 r
x
i 1
2 i
nx
ny
i 1
Koeficijent jednostavne linearne korelacije moe se odrediti i kao drugi korijen iz koeficijenta determinacije, s tim da se predznak od r odreuje u skladu s predznakom regresijskog koeficijenta:
n
i (y ( yi
r2 ; r2
i 1 n i 1
/2
t
1
/2
/2
( xi
i 1
x)2
f y
x f
f P( y
/2
f y
yf
f y
/2
f y
) 1
xf , t
/2
f y
f y
1 n
(x f
n
x )2 x )2
( xi
i 1
10
H0 : H1 :
0 0
H0 : H1 :
0 0
H0 : H1 :
0 0
t
t
(2)
t
H1
(2)
t
H1 t
(2)
/2
(n 2)
t (n 2)
/2
(n 2)
H1
t t
/2
H1
H1
ili
(3)
/2
H1
(3)
(3)
p - vrijednost
p vrijednost P(t
H1
t emp )
11