8 - Regresija I Korelacija

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 11

REGRESIJA I KORELACIJA oi I.(2006). Primijenjena statistika, pp.

379-546
U velikom se broju istraivanja analizira statistikih varijabli s ciljem da se utvrdi. dvije ili vie

postoji li povezanost meu varijablama jakost veze moe li se varijabla koja je predmet statistike analize prognozirati pomou opaenih vrijednosti druge varijable (drugih varijabli) Regresijska se analiza bavi ispitivanjem ovisnosti jedne varijable o jednoj ili vie nezavisnih varijabli s ciljem da se utvrdi analitiki izraz takve povezanosti, odnosno model koji slui u analitike i prediktivne svrhe. Model moe povezivati dvije varijable (bivariatna veza) ili vie varijabli (multivariatna veza). Model moe biti deterministiki (stohastiki, probabilistiki). (funkcionalan) ili statistiki

Deterministikim se modelom pretpostavlja egzaktna veza meu varijablama (za svaku vrijednost nezavisne varijable jednoznano je odreena vrijednost zavisne varijable). Y=f(X) Statistiki model izraava labaviju vezu meu varijablama. Vrijednost zavisne varijable (Y) nije jednoznano odreena za zadanu vrijednost nezavisne varijable. Postoje neobjanjene varijacije Y-a zbog neukljuivanja varijabli koje utjeu na ponaanje zavisne varijable ili zbog sluajnih utjecaja. Y= deterministika komponenta+sluajna pogreka

JEDNOSTAVNA REGRESIJA I KORELACIJA


Jednostavna se regresija bavi pronalaenjem analitikog izraza kojim se opisuje povezanost zavisne ili regresand varijable s jednom nezavisnom ili regresorskom varijablom. Model jednostavne linearne regresije je probabilistiki model. Pretpostavlja se da je zavisna varijabla (Y) (varijabla koju se modelira) sluajna varijabla povezana s nezavisnom varijablom (X) slijedeim izrazom:

Yi

Xi

ei

1,2,..., n

Pretpostavlja se da za svaku vrijednost varijable X postoji distribucija vrijednosti varijable Y. U gornjem su izrazu: nepoznati parametri ,

ei , i

1,2,..., n su sluajne varijable ( greke relacije). To su

nepoznate sluajne varijable za koje se pretpostavlja da su meusobno nezavisne i normalno distribuirane sluajne varijable sa sredinom nula i varijancom
2

, tj. e i ~ N (0,

) E (e i e j )

U klasinoj regresijskoj analizi pretpostavlja se da je varijabla X nestohasika (tj da u ponovljenim uzorcima ima fiksne vrijednosti .

S obzirom da su sluajne varijable Y i linearne funkcije normalno distribuiranih varijabli parametrima:

e i , one su takoer normalno distribuirane s

E (Yi )

E(

Xi

ei ) Xi

Xi

E (ei )
2

Xi

Var (Yi ) Var (

ei ) Var (ei )

Koraci u analizi modela jednostavne linearne regresije: Pretpostavlja se linearna regresijska veza meu varijablama Y i X, pri emu je model populacije:

yi

xi

ei

Polazei od n empirijskih (opaenih) vrijednosti varijabli x i y (koje se smatraju uzorkom iz hipotetike populacije) crta se dijagram rasipanja. Nepoznati se parametri procjenjuju metodom najmanjih kvadrata. Raunaju se procjene pokazatelja reprezentativnosti modela, kao to su procjena varijance, standardne devijacije i koeficijenta varijacije regresije, koeficijent determinacije, koeficijent korelacije i dr. Ispituje se kakvoa i upotrebljivost dobivenih rezultata. Raunaju se elementi analize varijance, testiraju se hipoteze o parametrima u

regresijskom modelu, te se ispituje jesu li ispunjene polazne pretpostavke o modelu. Ako je model zadovoljavajui, procjenjivanje i dr. koristi se za predvianje,

PROCJENJIVANJE PARAMETARA: METODA NAJMANJIH KVADRATA Metoda najmanjih kvadrata sastoji se u odreivanju regresijskog pravca koji minimizira sumu kvadrata rezidualnih odstupanja. Model uzorka s procijenjenim parametrima glasi:

yi

x i

i e

i su rezidualna odstupanja pri emu su i procjene parametara, a e ili procjene sluajnih varijabli. Gornja se jednadba moe napisati u obliku:

yi

i y

i e

i oznaena i-ta procijenjena ili regresijska vrijednost zavisne gdje je s y varijable. Iz tog izraza slijedi:

i e

yi

i , e i y

yi

x ) i

Suma kvadrata rezidualnih odstupanja glasi:


n

SR
i 1

i2 e

( yi
i 1

x ) 2 i

Iz zahtjeva da ta suma bude minimalna dolazi se do normalnih jednadbi za procjenitelje metodom najmanjih kvadrata:
n

xi y i
i 1 n i 1

nx y , y nx 2

xi2

Procijenjeni regresijski pravac je:

y
Regresijske vrijednosti su:

x i

i y

1,2,..., n

Procjenitelj varijance regresije:


n

( yi
i 1

i )2 y

n 2
(procijenjena

Procjenitelj standardne devijacije regresije standardna pogreka regresijskog modela je:


n

( yi
i 1

i )2 y
,

n 2

a procjenitelj koeficijenta varijacije ( C .V :

): V

100 y

INTERPRETACIJA PROCJENA
Konstantni lan (intercept) nezavisne varijable x=0.

je vrijednost regresije ako je vrijednost

Regresijski koeficijent je promjena regresijske vrijednosti zavisne varijable za jedinino poveanje varijable x. Ili: Regresijski koeficijent je prosjena promjena zavisne varijable y za jedinino poveanje varijable x. Regresijske vrijednosti zavisne

i , i y

1,2,, n su procijenjene vrijednosti


varijable

xi , i

varijable za zadane vrijednosti nezavisne 1,2,, n . (To su ordinate na regresijskom pravcu).

i , i Rezidualna odstupanja e
na osnovi regresijskih vrijednosti.

1,2,, n su procjene sluajnih varijabli


uzorka. To su razlike empirijskih i

ei , i

1,2,, n

Procjena varijance 2 , procjena standardne devijacije i procjena koeficijenta varijacije C.V su mjere disperzije regresijskog modela. Procjena standardne devijacije regresije se interpretira kao prosjeno odstupanje empirijskih od regresijskih vrijednosti. Model je dobar ako su procjene varijance i standardne devijacije male. Procjena standardne devijacije regresije izraena je u istim mjernim jedinicama kao i vrijednosti zavisne varijable. Procjena koeficijenta varijacije je relativna mjera disperzije oko regresijskog pravca. JEDNADBA ANALIZE VARIJANCE. TABELA ANOVA

Odstupanje empirijske vrijednosti y i od prosjeka moe se ralaniti na protumaeno odstupanje (odstupanje odgovarajue regresijske vrijednosti od prosjeka) i neprotumaeno ili rezidualno odstupanje:

( yi

y)

i (y

y) ( yi

i ) i y

1,2,, n

S obzirom da je suma odstupanja pojedinanih vrijednosti varijable od prosjeka uvijek jednaka nuli:
n

( yi
i 1

y)

0,

rauna se suma kvadrata odstupanja:


n

( yi
i 1

y)

n i 1

i (y

y)

( yi
i 1

i )2 y

Dobivena se jednadba zove jednadba analize varijance. Njene su komponente: Ukupna suma kvadrata ST (The total sum of squares, corrected sum of squares SSy y):
n

ST
i 1

( yi

y)2

Protumaena suma kvadrata SP (the sum of regression due to the linear regresion, model, explained sum of squares SSR) je suma kvadrata odstupanja regresijskih vrijednosti od prosjeka:
n

SP
i 1

( yi

y)2

Suma kvadrata neprotumaenih ili rezidualnih odstupanja SR (residual, unexplained sum of squares, sum of squared errors, SSE):
n

SR
i 1

( yi

i )2 y

Jednadba analize varijance se simboliki moe zapisati: ST=SP+SR

Elementi analize varijance (jednostavna regresija) predoeni su u tabeli analize varijance (tabeli ANOVA):
Izvor varijacije Stupnjevi slobode DF 1 n-2 n-1 Sume kvadrata SS SP SR ST Sredine kvadrata MS SP/1 SR/(n-2) F-omjer PROB>F

Protumaen modelom Neprotumaena odstupanja Ukupno

SP / 1 SR /(n 2)

SR je n 2

nepristran procjenitelj varijance regresije;

SR n 2

je nepristrani procjenitelj standardne devijacije regresije - Root MSE, SP je koeficijent determinacije, R-Square; r2 ST r 2 je korigirani koeficijent determinacije Adj R-Sq; KOEFICIJENT DETERMINACIJE, KORIGIRANI KOEFICIJENT DETERMINACIJE, KOEFICIJENT KORELACIJE Koeficijent determinacije (Coefficient of determination) je proporcija varijacija iz uzorka protumaena linearnom regresijskom vezom:
n

i (y ( yi

y)2 , y)
2

r2

i 1 n i 1

r2

Interpretacija: 100( r 2 )% varijacija iz uzorka (mjerenih sumom kvadrata ukupnih odstupanja empirijskih vrijednosti od prosjeka) moe se protumaiti uporabom x-a za procjenu (predvianje) y-a u modelu jednostavne linearne regresije. Korigirani koeficijent determinacije (corrected coefficient of determination) je mjera reprezentativnosti modela koja se izraunava korigiranjem koeficijenta determinacije faktorom koji ovisi o broju stupnjeva slobode:

r2

n 1 (1 r 2 ) n 2

Koeficijent linearne korelacije (coefficient of linear corelation) je mjera jakosti i smjera linearne veze izmeu varijabli x i y. Definiran je izrazom:
n

Cov ( x , y )
x y

xi yi , r
i 1 n

nx y
n

, y
2 i

1 r

x
i 1

2 i

nx

ny

i 1

Koeficijent jednostavne linearne korelacije moe se odrediti i kao drugi korijen iz koeficijenta determinacije, s tim da se predznak od r odreuje u skladu s predznakom regresijskog koeficijenta:
n

i (y ( yi

y)2 ; y)2 sign(r) sign( )

r2 ; r2

i 1 n i 1

INTERVALNA PROCJENA PARAMETRA


Ako su ispunjene pretpostavke o modelu jednostavne linearne regresije sampling distribucija procjenitelja parametra je normalna s oekivanom vrijednosti jednakom parametru i standardnom devijacijom jednakoj standardnoj pogreki regresijskog koeficijenta. Procjena jednim brojem parametra je Intervalna procjena od
1

uz pouzdanost (1- ) definirana je izrazom:

/2

t
1

/2

Standardna pogreka s definirana je s:

/2

je koeficijent pouzdanosti koji pripada t-distribuciji s n-2 stupnja slobode.

( xi
i 1

x)2

PREDVIANJE POJEDINANIH VRIJEDNOSTI ZAVISNE VARIJABLE ZA DANU VRIJEDNOST NEZAVISNE VARIJABLE


Procjenitelj jednim brojem zavisne varijable za zadanu vrijednost x f nezavisne varijable je:

f y

x f

Prognostiki interval uz pouzdanost (1- ) je:

f P( y

/2

f y

yf

f y

/2

f y

) 1
xf , t

f procjena jednim brojem zavisne varijable za x pri emu je y

/2

je koeficijent pouzdanosti, a vrijednosti definirana izrazom:

f y

je standardna pogreka prognostike

f y

1 n

(x f
n

x )2 x )2

( xi
i 1

10

TESTIRANJE HIPOTEZA O PARAMETRU


Testiranje hipoteza o parametru mogue je provesti pomou dvosmjernog testa ili pomou jednosmjernih testova.
Dvosmjerni test Jednosmjerni test na gornju granicu Jednosmjerni test na donju granicu

H0 : H1 :

0 0

H0 : H1 :

0 0

H0 : H1 :

0 0

Podruje odbacivanja nulte hipoteze (1) Testovna veliina:

Podruje odbacivanja nulte hipoteze (1) Testovna veliina:

Podruje odbacivanja nulte hipoteze (1) Testovna veliina:

t
t
(2)

t
H1
(2)

t
H1 t
(2)

/2

(n 2)

t (n 2)

/2

(n 2)

H1

t t

/2

H1

H1

ili
(3)
/2

H1

(3)

(3)

p - vrijednost H1 p - vrijednost H1 p vrijednost 2P(t t emp ) p vrijednost P(t t emp )

p - vrijednost
p vrijednost P(t

H1
t emp )

11

You might also like