Download as ppt, pdf, or txt
Download as ppt, pdf, or txt
You are on page 1of 24

Korelacija

(smisao, smjer i veliina)

Smisao i znaenje korelacije

Svakodnevni ivot: meusobna zavisnost, povezanost,


asocijacija, npr. izmeu visine i teine; vii ljudi su u
prosjeku tei od niih ljudi, izmeu prosjene koliine
konzumirane hrane i teine i sl.
Engl. matematiar Karl Pearson razradio je raunski
postupak za izraunavanje stupnja povezanosti, i izrazio
ga brojkom koeficijent korelacije, iako je osnovnu
logiku takvog raunanja razradio neto ranije Francis
Galton.
DEFINICIJA

Korelacija u statistici oznaava sukladnost u variranju


dviju varijabli. Stupanj sukladnosti u variranju se
izraava koeficijentom korelacije.

Smjer i veliina koeficijenta


korelacije
Ako linearnom porastu jedne varijable odgovara linearni porast
druge varijable i to tako da jedna vrijednost jedne varijable je
uvijek povezana s jednom korespondentnom vrijednou druge
varijable, onda je korelacija POZITIVNA, MAKSIMALNA i biljei se
sa r=+1. (Pozitivna jer porastu jedne odgovara porast druge
varijable, a maksimalna jer vee slaganje od toga ne moe
postojati.). Npr. odnos izmeu polumjera i promjera kruga.

r=+1

V2

V1

Grafiki prikaz odnosa


meu dvjema varijablama
naziva se korelacijski
dijagram (scatterplot)

Smjer i veliina koeficijenta


korelacije

Ako linearnom porastu jedne varijable uglavnom odgovara


linearni porast druge, i to tako da je odreena vrijednost jedne
varijable povezana s vie vrijednosti druge varijable, onda je
korelacija POZITIVNA, ali nije maksimalna, i biljei se izrazom koji
pokazuje da je korelacija vea od 0, ali manja od 1, 0<r<1. (npr.
visina i teina ljudi; vii ljudi su u prosjeku tei, ali nije jedna
odreena visina povezana samo s jednom teinom).

0<r<1

V2

npr.
r=0.60
V1

Smjer i veliina koeficijenta


korelacije
Ako iz vrijednosti jedne varijable ne moemo nita
zakljuiti na vrijednost druge, tj. ako jedna vrijednost
jedne varijable moe odgovarati bilo kojoj vrijednosti
druge varijable, onda nema korelacije izmeu tih
varijabli, i to se biljei kao r=0. (npr. odnos izmeu
duljine kose i srane frekvencije).

r=0

V2

V1

Smjer i veliina koeficijenta


korelacije
Ako linearnom porastu jedne varijable odgovara linearno
opadanje druge, ali je povezanost takva da odreenoj vrijednosti
jedne varijable odgovara vie vrijednosti druge, korelacija je
NEGATIVNA i NEPOTPUNA i biljei se izrazom koji ukazuje da je
korelacija izmeu 0 i 1. -1<r<0. (npr. odnos izmeu vremena
utroenog na uenje i brzine zaboravljanja gradiva, to je
potroeno vrijeme due, zaboravljanje je sporije.)

-1<r<0

V2

npr. r=-0.7
V1

Smjer i veliina koeficijenta


korelacije
Ako linearnom porastu jedne varijable odgovara linearni pad
druge i to tako da odreenoj vrijednosti jedne varijable odgovara
samo jedna korespondentna vrijednost druge, onda je korelacija
NEGATIVNA, MAKSIMALNA i biljei se sa r=-1. (npr. odnos
izmeu duine R-R intervala i srane frekvencije, to su srani
intervali dui, via je srana frekvencija).

r=-1

V2

V1

Nelinearni odnosi

Napomena: u dosadanjim primjerima prikazane su


samo linearne povezanosti izmeu dvije varijable
(grafiki se odnos moe prikazati ravnom crtom tj.
Pravcem).
Osim linearnih, postoje i druge vrste povezanosti koje bi
se u grafikom obliku prikazivale zakrivljenim linijama.
Npr. odnos intenziteta osvjetljenja i radnog uinka u
nekom preciznom poslu: u poetku bi imali porast uinka
s razinom osvjetljenja, ali do odreene granice gdje
osvjetljenje vie ne bi imalo efekta na uinak, da bi
naposljetku uinak (zbog zaslijepljenosti) poeo sve vie
opadati. U ovakvom i slinim sluajevima povezanost
izmeu dvije varijable moe biti i vrlo visoka, ali takva
povezanost nije linearna.

Nelinearni odnosi

Primjeri nelinearne povezanosti (razliiti oblici):

Pozitivna
deceleracija

Negativna
deceleracija

(pad je u
poetku manji
pa vei)

(pad je u
poetku vei
pa manji)

negativna
akceleracija
(rast je u
poetku vei
pa manji)

Pozitivna
akceleracija
(rast je u
poetku manji
pa vei)

Nelinearni odnosi

Primjeri nelinearne povezanosti (razliiti oblici):

Obrnuto U

Periodine promjene

Zato nas zanimaju prvenstveno


linearne povezanosti?

Ovaj dio statistike bavi se samo linearnom povezanosti, iz dva


razloga: 1. linearna povezanost vrlo je esta, i 2. precizno
izraunavanja drugih oblika povezanosti je mnogo sloenije od
izraunavanja linearne povezanosti.
Praktian savjet: kad nas zanima povezanost izmeu dvije
varijable, prije izraunavanja korelacije, prikazati grafiki rezultate
('scatter-diagram') kako bi se vidio oblik eventualne povezanosti.
U biologiji, medicini, psihologiji, sociologiji i openito znanostima
koje se bave ljudima, praktiki je nemogue dobiti potpunu
povezanost (bilo linearnu, bilo zakrivljenu) zbog velikog
varijabiliteta unutar mjerenih pojava.
Korelacijska povrina je povrina koju u koordinatnom sustavu
zauzimaju individualni rezultati ispitanika u dvije varijable izmeu
kojih se izraunava korelacija. to je koeficijent vii, povrina je
ua.

Primjer: tablini prikaz i korelacijski dijagram

1
2
3

95
103
88

3
4,5
3,5

98

93

107

4,5

114

106

5 ,0
4 ,5
4 ,0
otpaci (kg)

Rad- Brzina
Otpaci
nik
rada u
(kg)
bodov
ima

3 ,5
3 ,0
2 ,5
2 ,0

80

85

90

95

100

105

110

115

120

b r z in a r a d a ( b o d o v i)

Porastom broja bodova u prosjeku raste i koliina


otpadaka, ali ta povezanost nije tako
besprijekorna da bismo iz neije brzine mogli
znati tono kolika je njegova koliina otpadaka.
Napomena: kod crtanja grafa je na apscisi uvijek
tzv. nezavisna, a na ordinati zavisna varijabla.

Osnovna logika koeficijenta korelacije

Kada bi povezanost izmeu dvije varijable bila maksimalno


mogua, svaki bi ispitanik u obje varijable bio na jednakim
mjestima, npr. ako je u 1. var na +0.75 z iznad prosjeka, i u
drugoj varijabli njegov z rezultat mora biti +0.75. Za max.
negativnu korelaciju vrijedi ista logika, s tim da z-vrijednost
tog ispitanika u drugoj varijabli mora biti obrnutog preDznaka.
Iz ovoga je oito da veliina razlika izmeu uparenih zvrijednosti ovisi o povezanosti izmeu te dvije varijable ;
kad je stupanj povezanosti maksimalan, razlike nema
(apsolutna veliina!); a to je povezanost slabija, razlike meu
z-vrijednostima su vee. Prema tome, neka prosjena razlika
meu svim korespodentnim z-vrijednostima u grupi ispitanika
trebala bi nam pruiti informaciju o tome koliko su te varijable
povezane. Budui da je aritmetika sredina razlika meu zvrijednostima nuno nula, te razlike moramo kvadrirati. Dakle
prosjek sume svih kvadriranih razlika meu z
vrijednostima predstavljao bi neku vrstu indeksa
povezanosti.

( z

x
y
N 1

)2

-Mali rezultat znaio bi visoku povezanost, a vei rezultat slabiju povezanost i vrlo
veliki rezultat negativnu povezanost (npr izmeu +2 i -2 z)
-Prosjek dobiven ovakvom formulom nije spretan za interpretaciju jer se kree od
nule (besprijekorna povezanost) do 4 (besprijekorna negativna povezanost).
Mnogo je lake interpertirati stupanj i smjer povezanosti ako polovicu tog prosjeka
oduzmemo od jedinice.

r 1

1
2

( z

x
y
N 1

)2

( z z ) 2
1
x
y
r 1
2
N 1

Matematiki
jednak izraz

( z

*z )
x
y
N 1

Standardizirani oblik
Pearsonovog
koeficijenta korelacije
KARAKTERISTIKE OVOG KOEFICIJENTA:
1. vrijednost nula (0) oznaava da nema nikakve linearne povezanosti izmeu
dvije varijable
2. veliina koeficijenta upuuje na koliinu povezanosti: apsolutno vei broj znai i
veu povezanost, a mali broj slabu povezanost
3. predznak koeficijenta oznauje smjer povezanosti: + znai pozitivnu
povezanost (porast varijable X prati porast varijable Y), - znai negativnu
povezanost (porast varijable X prati pad varijable Y)
4. najvea mogua vrijednost tog koeficijenta iznosi +1, a najmanja vrijednost -1

Primjer: Rezultati na ispitu x i y


Isp

zx

zy

(zx- zy)2

zx*zy

19

1,5

1,5

2,25

17

1,0

15

0,5

0,5

0,25

13

13

11

-0,5

-0,5

0,25

-1

-1

-1,5

-1,5

2.25

M=4

M=13

Sd=2

sd=4

1 0
r 1
1 0 1
2 8 1
Prvi nain

=0

7
1
7

Drugi nain

=7

Zadatak 1: Koliiko iznosi koef. korelacije izmeu brzine rada i koliine otpada?
Radnik

Brzina rada
bodovima

u Otpaci (kg)

95

103

4,5

88

3,5

98

93

107

4,5

114

106

r=?

zx

zy

zx*zy

Zadatak 2: U tablici su dati rezultati koje je postigla skupina od 10 ispitanika u


testu KTP-a prije i nakon uzimanja stimulativnog sredstva. Koliko iznosi koef.
korelacije izmeu uinka pri je poslije uzimanja stimulativnog sredstava?
Isp.

Ktp1

Ktp2

zX

zY

zX*zY

-0,42

-0,3

0,13

-0,42

-1

0,42

-0,9

0,3

-0,27

0,63

0,3

0,19

1,2

-0,3

-0,36

0,1

-0,3

-0,03

-0,9

-1

0,9

-1,5

-1

1,5

1,7

1,7

2,89

10

0,63

1,7

1,07

r=?

Vane napomene:

Dakle, numerika vrijednost koeficijenta korelacije je od -1 do 1. Pozitivan


predznak ukazuje da su promjene istosmjerne, dok negativni predznak
oznaava da su promjene u promatranim varijablama suprotnog smjera.
Za svaki izraunati koeficijent korelacije potrebno je izraunati i njegovu
statistiku znaajnost i tek onda ga interpretirati. Interpretacija
koeficijenata korelacije ovisi o vrsti varijabli, broju ispitanika, ali kao gruba
orijentacija, nekada se navodi da je:
0-0,2 nikakva ili vrlo slaba povezanost
0,2-0,4 slaba povezanost
0,4-0,7 srednja povezanost
0,7-1 velika povezanost
Postoje razliiti koeficijenti korelacije, ali svi oni samo pokazuju stupanj
sukladnosti u variranju varijabli, a ne ukazuju na uzrono-posljedinu
vezu meu varijablama. To znai da ako se utvrdi da je neki koeficijent
korelacije znaajan, ne moe se zakljuiti da porast jedne varijable
uzrokuje porast druge ve da one sukladno variraju, tj. da su znaajno
povezane.

Pearsonov koeficijent korelacije r


r

NX

NXY X Y
2

X N Y 2 Y
2

Izraunavanje koef. r preko z vrijednosti


je kod velikog N-a predugotrajno.
Tzv. skraeni postupak za izraunavanje
koeficijenta r iz negrupiranih rezultata.

X i Y bruto rezultati u X i Y varijabli


N je broj parova rezultata (odnosno broj ispitanika)
XY= suma umnoaka pojedinih parova rezultata
X2= suma kvadriranih rezultata varijable X
Y2= suma kvadriranih rezultata varijable Y

STANDARDIZIRANA TABLICA ZA IZRAUNAVANJE r


Ispitanici
1
2
3

X2

Y2

XY

X2

Y2

XY

Kontrola
rauna

Dodati stupce (X+Y) i (X+Y)2


(X+Y) mora odgovarati X + Y
(X+Y)2 mora odgovarati izrazu X2 + Y2+2XY

Kada je opravdano raunati r?

ako su rezultati u obje varijable prave numerike


vrijednosti , tj. ako su barem na intervalnoj skali
ako je broj rezultata vei od 30
ako su distribucije u varijablama simetrine (jer
asimetrinost utjee na povezanost meu
varijablama)
ako je povezanost meu varijablama linearna, a
ne zakrivljena

NAPOMENA:
Korelacija iz grupiranih rezultata
Ako je N prevelik (vei od 80), raunanje korelacije je dugotrajno i naporno,
pa je rezultate iz obje varijable potrebno grupirati rezultate (u razrede).
(Petz, 13.8 tablica).

Testiranje znaajnosti koeficijenta korelacije


t r

N 2
1 r2

df=N-2,
pri emu je N broj
parova

Znaajnost utvrujemo iz tablice t vrijednosti za eljenu razinu sigurnosti.


Ukoliko je korelacija statistiki neznaajna (ne razlikuje se znaajno od 0)
moemo je interpretirati i kao da ne postoji (kao da je 0).
Jednostavnije:
Pomou tablice D koja pokazuje koliko najmanje mora iznositi r da bi bio
znaajan uz odreeni broj stupnjeva slobode. Tablica je dvosmjerna to
znai da pokazuje graninu vrijednost r bez obzira na predznak.

Zadatak: 10 studenata testirano je jednim testom znanja i jednim testom


neverbalnog faktora:
student

X2

Y2

XY

20

21

400

441

420

18

15

324

225

270

32

30

1024

900

960

24

25

576

625

600

31

28

961

784

868

17

19

289

361

323

26

20

676

400

520

35

31

1225

961

1085

28

29

784

841

812

10

25

27

625

729

675

245
(245)2=60025

6884

6267

6533

r=?

256
(256)2= 65536

p(r)=?

Interpretacija?

Koeficijent determinacije

Koeficijent korelacije ukazuje na sukladnost u


variranju dvije varijable. Ipak, sam koeficijent
korelacije ne ukazuje na to koliko zajednikih
faktora dijele te dvije varijable.
Kvadriranjem koeficijenta korelacije, tzv.
koeficijentom determinacije dobija se priblina
procjena zajednikih faktora. To znai ako su
dvije varijable u korelaciji 0. 60, da postoji oko
36 % zajednikih faktora.
Koeficijent determinacije

r2

You might also like